Chapitre 10 Aller plus loin avec les objets et la programmation fonctionnelle

Ce qui a été présenté dans ce module repose sur les fonctions du package tidyverse. Cette approche tend à se généraliser depuis quelques années, mais quand on cherche la réponse à un problème sur Internet, on trouve d’autres façons de programmer en R, qui font appel aux fonctions du package base et non du tidyverse \(\Rightarrow\) Cette partie donne quelques clés de compréhension.

10.1 Les objets dans R, plus de détails

Rappel : en informatique, un objet est défini par : ses attributs et ses méthodes (fonctions). Dans l’exemple du jeu d’échec, chaque pièce peut être vue comme un objet :

sa position sur le plateau constitue ses attributs
sa façon de se déplacer peut être vue comme une fonction qui ne s’applique qu’à ce type de pièce, donc une méthode

R est un langage orienté objet ; ces objets permettent de structurer les données selon leurs caractéristiques \(\Rightarrow\) on retrouve les données dans les attributs. Les méthodes sont en général transparentes pour l’utilisateur (cf. utilisation des fonctions summary, plot…). Les objets les plus courants sont les suivants :

Vecteurs : suite unidimensionnelle de valeurs ayant le même type.
Facteurs : vecteur qui prend un nombre limité de modalités (exemple : sexe). Il est défini par les niveaux (levels) et les libellés associés (labels).
Matrice et arrays : suites multidimensionnelles de valeurs (matrices=dimension 2 ; array=dimension n). A la différence d’une dataframe, les valeurs d’une matrice sont toutes du même type. Les arrays peuvent être très puissants pour gérer des millésimes.
Liste : ensemble d’objets différents. On peut stocker un vecteur alphanumérique + une matrice numérique dans une liste.
Tableaux (data.frame) : Objet qui ressemble le plus aux tables Excel, SAS ou SPSS… : description d’individus statistiques (observations, en ligne) par des caractéristiques (variables, en colonnes).
Fonctions : Objets particuliers qui donnent un résultat à partir de paramètres en entrée.
Autres objets : Il existe un très grand nombre d’objets ad hoc dans R. Par exemple
- ts (time serie) pour les séries temporelles,
- lm (linear model) qui contient tous les résultats d’une régression linéraire…
- des graphiques
- On peut même en définir de nouveaux soi-même !

10.2 Créer une nouvelle fonction en R

La fonction est un objet comme les autres, qu’on crée avec l’opérateur d’affectation. Elle est définie par des paramètres et elle se termine par la fonction return(). On reprend l’exemple du calcul de l’IMC

calcul_IMC <- function (poids, taille)
{
  ## La taille est exprimée en mètres
  imc <- poids / taille ^ 2
  return (imc)
}
calcul_IMC (poids = 80, taille = 1.89)

## [1] 22.39579

calcul_IMC (poids = 60, taille = 1.55)

## [1] 24.97399

10.3 Les boucles conditionnelles

Les commandes if et else sont bien entendues utilisables. Le “then” n’existe pas : il est implicite après les accolades.

diag_IMC <- function(poids,taille)
{
  imc <- poids / taille ^ 2
  if (imc < 18.5) {diag <- "maigre"}
  else if (imc < 25) {diag <- "normal"}
       else {diag <- "surpoids"}
  return (diag)
}
diag_IMC (poids=60,taille=1.89)

## [1] "maigre"

diag_IMC (poids=80,taille=1.89)

## [1] "normal"

diag_IMC (poids=80,taille=1.55)

## [1] "surpoids"

10.4 Les boucles

On peut utiliser les boucles classiques : repeat, while, for :

for (pp in seq(from = 50, to = 100, by = 5))
{
  print(paste ("Taille = 1,70m, poids =", pp, "Diagnotic :",
               diag_IMC (poids = pp, taille = 1.70)))
}

## [1] "Taille = 1,70m, poids = 50 Diagnotic : maigre"
## [1] "Taille = 1,70m, poids = 55 Diagnotic : normal"
## [1] "Taille = 1,70m, poids = 60 Diagnotic : normal"
## [1] "Taille = 1,70m, poids = 65 Diagnotic : normal"
## [1] "Taille = 1,70m, poids = 70 Diagnotic : normal"
## [1] "Taille = 1,70m, poids = 75 Diagnotic : surpoids"
## [1] "Taille = 1,70m, poids = 80 Diagnotic : surpoids"
## [1] "Taille = 1,70m, poids = 85 Diagnotic : surpoids"
## [1] "Taille = 1,70m, poids = 90 Diagnotic : surpoids"
## [1] "Taille = 1,70m, poids = 95 Diagnotic : surpoids"
## [1] "Taille = 1,70m, poids = 100 Diagnotic : surpoids"

10.5 Pour aller plus loin

10.5.1 matrices et arrays

Les matrices et les arrays permettent des calculs rapides et efficaces, et peuvent être très pratiques et optimisent le stockage des données. Ils demandent cependant plus de réflexion en amont quant à leur utilisation. On accède aux éléments avec les [].

Un hypercube de trois dimensions peut être représenté comme suit : On peut par exemple créer une matrice à 10 lignes et 10 colonnes remplie avec un tirage aléatoire selon une loi normale centrée réduit. De la même façon on peut créer un hypercube avec la fonction avec 10 lignes, 5 colonnes et de profondeur 3, toujours avec un tirage aléatoire selon une loi normale

mat <- matrix(rnorm(50), ncol = 5, nrow = 10)
arr <- array(rnorm(150),dim = c(10,5,3))
mat

##             [,1]        [,2]        [,3]        [,4]       [,5]
##  [1,]  0.7404089  0.63948679 -0.23596098  0.01516736 -0.3847832
##  [2,]  1.2998700 -0.55474571 -0.07678507 -1.96350974 -0.1250622
##  [3,] -0.1641945 -0.72142161 -0.35746874  0.41376946  1.4379081
##  [4,]  1.8579593 -0.69240164  0.64750152 -0.19259289  0.7707358
##  [5,] -0.1158881  1.45826552  1.05830871 -1.09935098  0.3537496
##  [6,] -0.3056985  1.36519775 -0.47571986  0.37676078 -0.8694692
##  [7,]  0.9442779  1.50040189 -2.48092312 -0.63086313  1.4042661
##  [8,]  0.1184049 -0.16539687  0.58386481 -0.43972318 -0.2848013
##  [9,]  0.3926648  1.38525320 -0.26949380  2.07311595 -0.9690865
## [10,]  0.7506990 -0.09344418  1.11133186  2.12405349  0.6866912

arr

## , , 1
## 
##              [,1]        [,2]        [,3]       [,4]        [,5]
##  [1,] -0.04630408 -0.08548029  0.39406352 -0.8589879 -0.11974419
##  [2,] -2.14878074 -1.35049561 -0.07567191  0.5645412  0.42411765
##  [3,]  0.80243976 -0.23229085 -0.32061887 -0.3163839  0.03563738
##  [4,] -0.35078301 -0.34995560  0.09049073 -1.2510491 -1.00139370
##  [5,] -0.89807261  1.98771919  0.05187571  0.3172626 -0.91197252
##  [6,]  1.12885035  2.66214148  1.54961400 -0.2292421  0.22520284
##  [7,] -2.03366531 -0.33459148  0.36139087 -0.8666807  0.63464074
##  [8,] -0.76665561  0.49803317 -1.58816825  0.1714489  0.32926889
##  [9,] -1.07606650 -0.05638581 -1.04688594  0.4365100 -0.62690652
## [10,]  0.33160972  0.57672361  0.96018933 -1.3640135 -1.54992285
## 
## , , 2
## 
##              [,1]       [,2]       [,3]        [,4]       [,5]
##  [1,]  0.20490706  1.0217327 -0.8377117 -0.92919908 -1.1358928
##  [2,] -1.58046763 -0.6678409 -0.1259227  1.12912140  0.9852787
##  [3,]  0.37808562 -1.6078844  0.3915813  2.25306299  0.6697186
##  [4,]  1.34992716  0.8479330  1.1246651 -0.20437111  1.8504881
##  [5,] -0.04001357  0.3322570 -1.0191698 -0.24667805 -0.1168997
##  [6,]  1.41399219 -0.9648013  1.4259553 -2.25561828  0.4148358
##  [7,] -1.38113475 -1.2486993  0.6391618 -0.06485953 -0.8916782
##  [8,]  1.68029540  1.1976196  0.7639317 -0.33138246  0.5627399
##  [9,]  1.69202153 -0.2591931 -0.1818762  1.78477604 -0.5085512
## [10,] -0.82442791 -0.3065278  1.2167680 -1.39860623  1.1496747
## 
## , , 3
## 
##             [,1]        [,2]        [,3]       [,4]       [,5]
##  [1,]  1.1528873 -1.26364187 -0.99605615 -0.6005893 -2.7069640
##  [2,]  0.2453546 -0.56923121  0.01454301 -0.7356035 -0.8528367
##  [3,]  0.9385541  0.25344306 -0.60899749  1.9012887 -2.8165239
##  [4,] -0.9157600 -0.21566955  1.34931315 -0.3575754 -0.7178242
##  [5,]  1.0760914 -1.86395986 -0.20160656 -0.2060813 -0.5352558
##  [6,] -0.4460747 -0.29292199  1.55168186  0.1563619  1.4506144
##  [7,] -1.1044256  0.11612347 -2.17252618 -0.7048555 -0.1312952
##  [8,] -0.1403541  0.98334727 -0.30361428  0.7314147 -0.1124827
##  [9,] -1.0418581 -0.06346218  0.73390877 -1.5579113  0.1551375
## [10,] -0.6897404  0.22538810  0.57679220 -0.7078719 -0.5732635

Pourquoi s’embêter avec ça ? Parce qu’on peut appliquer des fonctions facilement sur les lignes, colonnes et autres dimensions grâce à la fonction apply(). Exemple : résultats de validations croisées par bloc, simulations de loi selon différents paramètres. Et on calcule facilement des statistiques “marginales”.

Par, exemple, sur une matrice, on peut calculer des statistiques par lignes :

apply(mat, MARGIN = 1, FUN=mean)

##  [1]  0.15486377 -0.28404656  0.12171853  0.47824043  0.33101695  0.01821420
##  [7]  0.14743192 -0.03753032  0.52249073  0.91586628

Ou par colonnes :

apply(mat, MARGIN = 2, FUN=mean)

## [1]  0.55185037  0.41211951 -0.04953447  0.06768271  0.20201484

Sur notre hypercube de type array, on peut aussi calculer des stats sur ses différentes dimensions :

apply (arr, MARGIN = 3, FUN=mean)

## [1] -0.1464680  0.1470225 -0.2518918

apply (arr, MARGIN = c(2,3), FUN = mean)

##             [,1]        [,2]         [,3]
## [1,] -0.50574280  0.28931851 -0.092532542
## [2,]  0.33154178 -0.16554043 -0.269058478
## [3,]  0.03762792  0.33973827 -0.005656165
## [4,] -0.33965944 -0.02637543 -0.208142301
## [5,] -0.25610723  0.29797140 -0.684069423

10.5.2 Inspection d’un objet : la régression

La régression linéaire consiste à exprimer une variable Y en fonction d’une variable X dans une fonction linéaire. C’est à dire qu’on cherche a et b tels que : \[ Y = a \cdot X + b + \epsilon\] où \(\epsilon\) est le résidu de la régression. On utilise dans cet exemple la table des iris de Fisher, existant dans R base qu’il suffit d’appeler avec data(iris) (il existe d’autres dataframe inclus dans les packages et qui sont utilisés en exemple dans l’aide).

data ("iris")
str (iris)

## 'data.frame':    150 obs. of  5 variables:
##  $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
##  $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
##  $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
##  $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
##  $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...

Faire la régression de la Sepal.Length sur Petal.length à l’aide de la fonction lm()

lm (data = iris, formula = Sepal.Length ~ Petal.Length)

## 
## Call:
## lm(formula = Sepal.Length ~ Petal.Length, data = iris)
## 
## Coefficients:
##  (Intercept)  Petal.Length  
##       4.3066        0.4089

On a les paramètres a et b mais on aimerait en savoir plus… Au moins la qualité d’ajustement (le \(R^2\) par exemple), et un graphique des résidus pour détecter une éventuelle structure. Pour cela, stocker le résultat dans un nouvel objet, et explorez-le avec les fonctions str(), summary() et plot()

reg <- lm(data = iris, formula = Sepal.Length ~ Petal.Length)
str (reg)

## List of 12
##  $ coefficients : Named num [1:2] 4.307 0.409
##   ..- attr(*, "names")= chr [1:2] "(Intercept)" "Petal.Length"
##  $ residuals    : Named num [1:150] 0.2209 0.0209 -0.1382 -0.32 0.1209 ...
##   ..- attr(*, "names")= chr [1:150] "1" "2" "3" "4" ...
##  $ effects      : Named num [1:150] -71.566 8.812 -0.155 -0.337 0.104 ...
##   ..- attr(*, "names")= chr [1:150] "(Intercept)" "Petal.Length" "" "" ...
##  $ rank         : int 2
##  $ fitted.values: Named num [1:150] 4.88 4.88 4.84 4.92 4.88 ...
##   ..- attr(*, "names")= chr [1:150] "1" "2" "3" "4" ...
##  $ assign       : int [1:2] 0 1
##  $ qr           :List of 5
##   ..$ qr   : num [1:150, 1:2] -12.2474 0.0816 0.0816 0.0816 0.0816 ...
##   .. ..- attr(*, "dimnames")=List of 2
##   .. .. ..$ : chr [1:150] "1" "2" "3" "4" ...
##   .. .. ..$ : chr [1:2] "(Intercept)" "Petal.Length"
##   .. ..- attr(*, "assign")= int [1:2] 0 1
##   ..$ qraux: num [1:2] 1.08 1.1
##   ..$ pivot: int [1:2] 1 2
##   ..$ tol  : num 1e-07
##   ..$ rank : int 2
##   ..- attr(*, "class")= chr "qr"
##  $ df.residual  : int 148
##  $ xlevels      : Named list()
##  $ call         : language lm(formula = Sepal.Length ~ Petal.Length, data = iris)
##  $ terms        :Classes 'terms', 'formula'  language Sepal.Length ~ Petal.Length
##   .. ..- attr(*, "variables")= language list(Sepal.Length, Petal.Length)
##   .. ..- attr(*, "factors")= int [1:2, 1] 0 1
##   .. .. ..- attr(*, "dimnames")=List of 2
##   .. .. .. ..$ : chr [1:2] "Sepal.Length" "Petal.Length"
##   .. .. .. ..$ : chr "Petal.Length"
##   .. ..- attr(*, "term.labels")= chr "Petal.Length"
##   .. ..- attr(*, "order")= int 1
##   .. ..- attr(*, "intercept")= int 1
##   .. ..- attr(*, "response")= int 1
##   .. ..- attr(*, ".Environment")=<environment: R_GlobalEnv> 
##   .. ..- attr(*, "predvars")= language list(Sepal.Length, Petal.Length)
##   .. ..- attr(*, "dataClasses")= Named chr [1:2] "numeric" "numeric"
##   .. .. ..- attr(*, "names")= chr [1:2] "Sepal.Length" "Petal.Length"
##  $ model        :'data.frame':   150 obs. of  2 variables:
##   ..$ Sepal.Length: num [1:150] 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
##   ..$ Petal.Length: num [1:150] 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
##   ..- attr(*, "terms")=Classes 'terms', 'formula'  language Sepal.Length ~ Petal.Length
##   .. .. ..- attr(*, "variables")= language list(Sepal.Length, Petal.Length)
##   .. .. ..- attr(*, "factors")= int [1:2, 1] 0 1
##   .. .. .. ..- attr(*, "dimnames")=List of 2
##   .. .. .. .. ..$ : chr [1:2] "Sepal.Length" "Petal.Length"
##   .. .. .. .. ..$ : chr "Petal.Length"
##   .. .. ..- attr(*, "term.labels")= chr "Petal.Length"
##   .. .. ..- attr(*, "order")= int 1
##   .. .. ..- attr(*, "intercept")= int 1
##   .. .. ..- attr(*, "response")= int 1
##   .. .. ..- attr(*, ".Environment")=<environment: R_GlobalEnv> 
##   .. .. ..- attr(*, "predvars")= language list(Sepal.Length, Petal.Length)
##   .. .. ..- attr(*, "dataClasses")= Named chr [1:2] "numeric" "numeric"
##   .. .. .. ..- attr(*, "names")= chr [1:2] "Sepal.Length" "Petal.Length"
##  - attr(*, "class")= chr "lm"

summary (reg)

## 
## Call:
## lm(formula = Sepal.Length ~ Petal.Length, data = iris)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -1.24675 -0.29657 -0.01515  0.27676  1.00269 
## 
## Coefficients:
##              Estimate Std. Error t value Pr(>|t|)    
## (Intercept)   4.30660    0.07839   54.94   <2e-16 ***
## Petal.Length  0.40892    0.01889   21.65   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.4071 on 148 degrees of freedom
## Multiple R-squared:   0.76,  Adjusted R-squared:  0.7583 
## F-statistic: 468.6 on 1 and 148 DF,  p-value: < 2.2e-16

plot (reg)

Les méthodes summary, print et plot sont implémentées pour tous les objets en R, et on peut les utiliser pour avoir un premier aperçu de ce que l’on obtient avec la fonction.