Chapitre 1 Introduction

Crédit photographique Sébastien Colas

1.1 Le parcours de formation

Ce dispositif de formation vise à faire monter en compétence les agents du MTES (Ministère de la transition écologique) et du MCTRCT (Ministère de la Cohésion des Territoires et des Relations avec les collectivités territoriales) dans le domaine de la science de la donnée avec le logiciel R. Il est conçu pour être déployé à l’échelle nationale par le réseau des CVRH (Centre de Valorisation des Ressources Humaines).

Le parcours proposé est structuré en modules de 2 jours chacun. Les deux premiers (ou un niveau équivalent) sont des pré-requis pour suivre les suivants qui sont proposés “à la carte” :

  1. Socle : Premier programme en R
  2. Socle : Préparation des données
  3. Statistiques descriptives
  4. Analyse des données multi-dimensionnelles
  5. Datavisualisation : Produire des graphiques, des cartes et des tableaux
  6. Publications reproductibles avec RMarkdown (à venir)
  7. Analyse spatiale (à venir)
  8. Big data et optimisation du code (à venir)
  9. Applications interactives avec Shiny (à venir)

La mise à disposition des supports de formation se fait désormais par la page d’accueil du parcours de formation. Ces supports sont en licence ouverte.

Si vous souhaitez accéder aux sources ou aux données mobilisées pendant les formations, il faut directement les télécharger depuis le Github du ministère.

Un package d’exercices, {savoirfR} rassemble toutes les données et les consignes d’exercices de ce support de formation

Pour vous tenir au courant de l’offre de formation proposée par le réseau des CVRH, consultez la plateforme OUPS (un accès intranet MTES-MCT est nécessaire). Vous pouvez vous y abonner pour recevoir les annonces de formation qui vous intéressent.

Pour échanger de l’information, discuter autour de R ou encore faire part de difficultés et trouver ensemble les solutions, il existe deux solutions:

1.2 Objectifs du module 2

Ce module va vous permettre de découvrir un ensemble de méthodes sous R afin de préparer ses données. Préparer ses données sous R, cela veut dire :

  • Savoir les importer dans un environnement R,
  • Mettre ses données dans de bons formats (date, catégorielle) et gérer les données manquantes,
  • Rajouter des variables en fonction de variables existantes,
  • Regrouper des modalités de variables,
  • Joindre des tables entre elles pour obtenir des informations de plusieurs sources,
  • Aggréger des données,
  • Bien définir notre table de travail en fonction des indicateurs à analyser et à leurs dimensions d’analyse. …

Bref, tout le travail technique préalable entre la collecte de la donnée et la valorisation proprement dite de ces sources. On estime qu’un scientifique de la donnée passe en général la moitié de son temps à cela.

Sous R, comme souvent, il y a plusieurs façons d’aborder cette question. Ce module de formation privilègie l’exploration des packages du framework tidyverse, qui ont l’avantage d’aborder les différentes phases de préparation des données d’une façon intégrée et cohérente, que ce soit entre elles, ou avec d’autres.