Analyse des données multi-dimensionnelles
10 May 2021
Chapitre 1 Introduction
Crédit photographique Pascal Irz
1.1 Le parcours de formation
Ce dispositif de formation vise à faire monter en compétence les agents du MTES (Ministère de la transition écologique et solidaire) et du MCT (Ministère de la cohésion des territoires) dans le domaine de la science de la donnée avec le logiciel R. Il est conçu pour être déployé à l’échelle nationale par le réseau des CVRH (Centre de Valorisation des Ressources Humaines).
Le parcours proposé est structuré en modules de 2 jours chacun. Les deux premiers (ou un niveau équivalent) sont des pré-requis pour suivre les suivants qui sont proposés “à la carte” :
- Socle : Premier programme en R
- Socle : Préparation des données
- Statistiques descriptives
- Analyses multivariées
- Datavisualisation : Produire des graphiques, des cartes et des tableaux
- Documents reproductibles avec RMarkdown (2ème semestre 2019)
… et en perspective : analyse spatiale, applis interactives avec Shiny, big data, etc.
La mise à disposition des supports de formation se fait désormais par la page d’accueil du parcours de formation. Ces supports sont en licence ouverte.
Si vous souhaitez accéder aux sources, données mobilisées pendant les formations, il faut directement les télécharger depuis le Github du ministère.
Pour vous tenir au courant de l’offre de formation proposée par le réseau des CVRH, consultez la plateforme OUPS. Vous pouvez vous y abonner pour recevoir les annonces qui vous intéressent.
Il existe une liste pour diffuser de l’information, échanger autour de R ou lever des points de blocage. Pour s’insrire, envoyer un message vide avec le titre “subscribe labo.communaute-r” à l’adresse sympa@developpement-durable.gouv.fr.
1.2 Objectifs du module 4
- Connaissance (de certains) des outils R d’analyse des données multivariées.
- Quelques rappels sur l’interprétation des résultats.
- Mise en oeuvre et interprétation des méthodes usuelles.
Ce module balaye les techniques statistiques qui permettent d’explorer efficacement un jeu de données contenant un nombre important de variables. Ces méthodes produisent des graphiques et des statistiques qui mettent en évidence les liens et corrélations entre \(p\) variables simultanément, ainsi que les proximités entre les \(n\) observations.
Il fait une petite entorse à la philosophie générale du parcours, dans la mesure où le principal package mobilisé ne fait pas partie du tidyverse, et que les sorties graphiques sont des graphiques R de base. Mais ceux-ci ont une vocation essentiellement exploratoire (on publie rarement les graphiques qui seront vus dans ce module) ; il est naturellement toujours possible de basculer dans le tidyverse modulo quelques opérations.
Les méthodes abordées sont les suivantes :
- Analyse en composantes principales (ACP)
- Analyse factorielle des correspondances (AFC)
- Analyse des correspondances multiples (ACM)
- Classification ascendante hiérarchique (CAH)
- K-means
Elles permettent d’explorer un jeu de données complexe en l’abordant comme un tout, au lieu d’en étudier les variables une par une, voire en les croisant par paires. Ces méthodes sont utlisées dans de nombreux champs :
- Ecologie
- Sociologie
- Chimie
- Biologie
- Economie
- Géographie
- Psychologie
- etc.
La lecture des résultats est facilitée par des représentations graphiques à la lecture relativement intuitive.