Analyse des données multi-dimensionnelles
03 June 2026
Chapitre 1 Introduction

Crédit photographique Pascal Irz
Le parcours de formation
Ce dispositif de formation vise à faire monter en compétence les agents du MTECT (Ministère de la Transition écologique et de la Cohésion des territoires) et du MTE (Ministère de la Transition énergétique) dans le domaine de la science de la donnée avec le logiciel R. Il est conçu pour être déployé à l’échelle nationale par le réseau des CVRH (Centre de Valorisation des Ressources Humaines).
Le parcours proposé est structuré en modules de 2 jours chacun. Avoir suivi les deux premiers (ou disposer d’un niveau équivalent) est un pré-requis pour suivre les suivants qui sont proposés “à la carte” :
- Module 1 : Socle - Premier programme en R
- Module 2 : Socle - Préparation des données
- Module 3 : Statistiques descriptives
- Module 4 : Analyse des données multi-dimensionnelles
- Module 5 : Datavisualisation : Produire des graphiques, des cartes et des tableaux
- Module 6 : Publications reproductibles avec RMarkdown (à venir)
- Module 7 : Analyse spatiale
- Module 8 : Big data et optimisation du code (à venir)
- Module 9 : Applications interactives avec RShiny (à venir)
La mise à disposition des supports de formation se fait par la page d’accueil du parcours de formation. Ces supports sont en licence ouverte.
Si vous souhaitez accéder aux sources ou aux données mobilisées pendant les formations, vous pouvez directement les télécharger depuis le Github du pôle ministériel.
Un package d’exercices, {savoirfR} rassemble toutes les données et les consignes d’exercices de ce parcours de formation (Modules 1, 2, 5 et 7 seulement pour l’instant).
Pour vous tenir au courant de l’offre de formation proposée par le réseau des CVRH, consultez la plateforme formation-ecologie.e2.rie.gouv.fr (un accès intranet MTECT-MTE est nécessaire). Vous pouvez vous abonner au flux RSS pour recevoir les annonces de formation qui vous intéressent.
Pour échanger de l’information, discuter autour de R ou encore faire part de difficultés et trouver ensemble les solutions, il existe deux canaux d’entraide :
- s’inscrire en envoyant un message vide à l’adresse sympa@developpement-durable.gouv.fr ;
- rejoindre le salon Tchap #utilisateurs_r.
Le groupe de référents R du pôle ministériel
- Un groupe pour structurer une offre de formations sur R
- Un réseau d’entraide

Objectifs du module 4
- Connaissance (de certains) des outils R d’analyse des données multivariées.
- Quelques rappels sur l’interprétation des résultats.
- Mise en oeuvre et interprétation des méthodes usuelles.
Ce module balaye les techniques statistiques qui permettent d’explorer efficacement un jeu de données contenant un nombre important de variables. Ces méthodes produisent des graphiques et des statistiques qui mettent en évidence les liens et corrélations entre \(p\) variables simultanément, ainsi que les proximités entre les \(n\) observations.


Il fait une petite entorse à la philosophie générale du parcours, dans la mesure où le principal package mobilisé ne fait pas partie du tidyverse, et que les sorties graphiques sont des graphiques R de base. Mais ceux-ci ont une vocation essentiellement exploratoire (on publie rarement les graphiques qui seront vus dans ce module) ; il est naturellement toujours possible de basculer dans le tidyverse modulo quelques opérations.
Les méthodes abordées sont les suivantes :
- Analyse en composantes principales (ACP)
- Analyse factorielle des correspondances (AFC)
- Analyse des correspondances multiples (ACM)
- Classification ascendante hiérarchique (CAH)
- K-means
Elles permettent d’explorer un jeu de données complexe en l’abordant comme un tout, au lieu d’en étudier les variables une par une, voire en les croisant par paires. Ces méthodes sont utlisées dans de nombreux champs :
- Ecologie
- Sociologie
- Chimie
- Biologie
- Economie
- Géographie
- Psychologie
- etc.
La lecture des résultats est facilitée par des représentations graphiques à la lecture relativement intuitive.