Chapitre 7 Lien variable quantitative - variable qualitative

7.1 Statistiques en fonction d’un facteur

Par exemple, calculer la population totale (moyenne, médiane…) des communes pour chaque type ZAU.

## # A tibble: 9 x 4
##   ZAU                                                   pop_moy dens_med nb_com
##   <fct>                                                   <dbl>    <dbl>  <int>
## 1 "111 - Grand p\xf4le (plus de 10 000 emplois)"         11956.    4022.   3285
## 2 "112 - Couronne d'un grand p\xf4le"                     1034.     556   12297
## 3 "120 - Multipolaris\xe9e des grandes aires urbaines"     883.     452    3962
## 4 "211 - Moyen p\xf4le (5 000 \xe0 10 000 emplois)"       4322.    1860     456
## 5 "212 - Couronne d'un moyen p\xf4le"                      455.     338     815
## 6 "221 - Petit p\xf4le (de 1 500 \xe0 5 000 emplois)"     2826.    2240     888
## 7 "222 - Couronne d'un petit p\xf4le"                      293.     222     582
## 8 "300 - Autre commune multipolaris\xe9e"                  500.     296    7021
## 9 "400 - Commune isol\xe9e hors influence des p\xf4les"    418.     210    7383

7.2 Eléments théoriques

  • Soit X une variable continue, et Y \(\in \{1, ..., k\}\) une variable qualitatives à k modalités
  • Dans chaque classe j : \(\bar{X_j}=\mathbb{E}(X/Y=j)\) et \(\sigma_j^2 = \mathbb{V}(X/Y=j)\)
  • Variance intraclasse : \(V_{intra} = \dfrac{1}{n}\sum_{j=1}^k n_j \sigma_j^2\), moyenne (pondérée) des variances de chaque classe
  • Variance interclasse : \(V_{inter} = \dfrac{1}{n}\sum_{j=1}^k n_j (\bar{x_j}-\bar{x})^2\), variance (pondérée) des moyennes de chaque classe
  • Rapport de corrélation : \(\eta^2 = \dfrac{V_{inter}}{V_{Totale}}= \dfrac{V_{inter}}{V_{inter}+V_{intra}}\)
  • C’est le \(R^2\) de l’anova de X par Y

7.3 Représentation graphique

Pour réprésenter graphiquement le croisement d’une variable qualitative avec une variable quantitative, il existe plusieurs moyens.

  • La fonction geom_boxplot() produit la boîte à moustaches pour visualiser, pour chaque modalités de la variable qualitative, la distribution de la variable quantitative. La barre la plus basse de la boîte indique Q1 (pourcentile 25%), le trait au milieu indique la médiane, et la barre supérieur de la boîte indique Q3.

  • Le violinplot (fonction geom_violin()) fonctionne sur le même principe. Les boîtes à moustaches sont remplacées par des graphiques en violon, qui représentent la densité de distribution de la variables quantitatives.

7.4 Calcul du rapport de corrélation

Le rapport de corrélation est une mesure de la force de la liaison existant entre une variable quantitative et une variable qualitative. Il est similaire au coefficient de corrélation. Il se définit comme suit : \(\hat{\eta}^2 = \frac{VarInter}{VarTotale}\). Pour le calculer, on peut appliquer la fonction etaSquared() sur un objet de type anova. Si on veut quantifier le lien éventuel entre la densité de population et les ZAU, on fait donc :

##         eta.sq eta.sq.part
## ZAU2 0.1689881   0.1689881