Chapitre 1 Introduction

Crédit photographique Pascal Boulin

1.1 Le parcours de formation

Ce dispositif de formation vise à faire monter en compétence les agents du MTES (Ministère de la transition écologique et solidaire) et du MCT (Ministère de la cohésion des territoires) dans le domaine de la science de la donnée avec le logiciel R. Il est conçu pour être déployé à l’échelle nationale par le réseau des CVRH (Centre de Valorisation des Ressources Humaines).

Le parcours proposé est structuré en modules de 2 jours chacun. Les deux premiers (ou un niveau équivalent) sont des pré-requis pour suivre les suivants qui sont proposés “à la carte” :

  1. Socle : Premier programme en R
  2. Socle : Préparation des données
  3. Statistiques descriptives
  4. Analyses multivariées
  5. Datavisualisation : Produire des graphiques, des cartes et des tableaux
  6. Documents reproductibles avec RMarkdown (2ème semestre 2019)

… et en perspective : analyse spatiale, applis interactives avec Shiny, big data, etc.

La mise à disposition des supports de formation se fait désormais par la page d’accueil du parcours de formation. Ces supports sont en licence ouverte.

Si vous souhaitez accéder aux sources et aux données mobilisées pendant les formations, il faut directement les télécharger depuis le Github du ministère.

Pour vous tenir au courant de l’offre de formation proposée par le réseau des CVRH, consultez la plateforme OUPS. Vous pouvez vous y abonner pour recevoir les annonces qui vous intéressent.

Il existe une liste pour diffuser de l’information, échanger autour de R ou lever des points de blocage. Pour s’inscrire, envoyer un message vide avec le titre “subscribe labo.communaute-r” à l’adresse sympa@developpement-durable.gouv.fr.

1.2 Objectif du module 3

Ce qui est visé est une autonomie en matière de statistiques de base avec le logiciel R.

Le module comprend, pour chacune des parties ci-dessous, l’acquisition ou le rappel des notions statistiques abordées, ainsi que la maîtrise de la production et de l’interprétation, avec le logiciel R, des statistiques descriptives, des représentations graphiques et des tests usuels.

1.3 Notions et méthodes présentées

1.3.1 Analyse univariée d’une variable quantitative

  • Histogramme
  • Courbe de densité
  • Diagramme quantile-quantile
  • Statistiques de tendance centrale (moyenne, médiane)
  • Statistiques de dispersion (variance, coefficient de variation, intervalle inter-quartiles)
  • Méthodes de discrétisation

1.3.2 Analyse univariée d’une variable qualitative

  • Diagrammes en barres et en secteurs
  • Tableau de fréquences pondérées ou non pondérées

1.3.3 Relation entre 2 variables quantitatives

  • Nuage de points
  • Corrélation paramétrique ou non paramétrique

1.3.4 Relation entre 2 variables qualitatives

  • Graphique en barres empilées ou juxtaposées
  • Graphique en mosaïque
  • Tableau de contingence
  • Profils-lignes et profils-colonnes
  • Test du \(\chi^2\), V de Cramer

1.3.5 Relation entre une variable qualitative et une variable quantitative

  • Agrégation d’une variable quantitative selon une variable qualitative
  • Boxplot, violin plot
  • ANOVA

1.4 Fondamentaux R présentés

Objets R, scripts, graphiques avec ggplot2, tests avec les packages de base, dplyr et lsr.