Dans ce TP, nous allons aborder la librairie ggplot2, une des plus connues pour la visualisation de données. Ce package reproduit la grammaire des graphiques (cf Grammar of Graphics, Leland Wilkinson), avec le même formalisme. Vous pouvez trouver plus d’informations sur le site officiel et la documentation. Finalement, cet article permet de bien comprendre la philosophie du package et de la grammaire.

Voici toutes les librairies que nous allons utiliser. L’installation de ggplot2 vous permettra d’installer aussi scales et reshape2.

library(RColorBrewer)
library(ggplot2)
library(scales)
library(reshape2)

Voici ici un exemple de graphique personnalisé, représentant 4 variables (trois quantitatives et une qualitative), utilisant les fonctions de base de R pour le produire. Vous constaterez que le code est long et fastidieux.

par(family = "serif", mar = c(5, 4, 2, 0)+.1)
couleurs_am = brewer.pal(3, "Dark2")
plot(mpg ~ hp, data = mtcars,
     pch = 19,
     cex = wt/3,
     col = couleurs_am[mtcars$am+1],
     main = "Consommation et autres",
     sub = "Source : 1974 Motor Trend US magazine", font.sub = 3, cex.sub = .8,
     xlab = "Puissance (en ch)",
     ylab = "Consommation en Miles/Galon",
     bty = "n", axes = FALSE)
axis(1, lwd = 0, lwd.ticks = .5)
at.y = axis(2, lwd = 0, lwd.ticks = .5, labels = FALSE)
text(y = at.y, x = 35, labels = at.y, srt = 0, pos = 2, xpd = TRUE)
l1 = legend("topright", legend = c("Automatique", "Manuelle"), 
       col = couleurs_am, bty = "n", cex = .8, pch = 19,
       text.width = 50, text.col = couleurs_am, 
       title = "Boîte de vitesse", title.col = "black")
legend(l1$rect$left, l1$rect$top-l1$rect$h-1, 
       legend = range(mtcars$wt), title = "Poids  (1000 lbs)",
       pch = 19, pt.cex = range(mtcars$wt)/3, bty = "n", cex = .8, col = gray(.5),
       text.width = 50, adj = -.25)
outliers_hp = subset(mtcars, subset = hp > 250)
text(outliers_hp$hp, outliers_hp$mpg, row.names(outliers_hp), pos = c(3, 2), cex = .8, font = 4)
outliers_mpg = subset(mtcars, subset = mpg > 30)
text(outliers_mpg$hp, outliers_mpg$mpg, row.names(outliers_mpg), pos = 4, cex = .8, font = 4)

Le principe de cette grammaire est qu’un graphique est composé de couches :

Dans cette librairie, il y a deux fonctions principales :

Fonction qplot

Comme indiqué précédemment, cette fonction permet de produire vite des graphiques propres et clairs, soit automatiquement en fonction des variables fournies, soit en définissant précisemment ce que l’on souhaite.

Voici quelques exemples de production de graphiques. Nous remarquons que le comportement de qplot dépend du type de la variable :

  • numeric : histogramme à 30 barres par défaut (geom = "histogram")
  • factor : diagramme en barres (geom = "bar")

Var quantitative

Histogramme

Il est possible de déclarer le nombre d’intervalles d’un histogramme, ou de les définir directement. Attention, dans ce dernier cas, le premier graphique produit est faux car il est nécessaire d’utiliser la densité (variable spéciale ..density.. dans ggplot2) et non le dénombrement. Et puisqu’on a préciser des valeurs en \(y\), nous devons préciser que nous souhaitons un histogramme en représentation géométrique.

qplot(mtcars$mpg)
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

qplot(mpg, data = mtcars)
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

qplot(mpg, data = mtcars, binwidth = 2)

qplot(mpg, data = mtcars, bins = 10)

qplot(mpg, data = mtcars, breaks = c(10,12.5,15,18,25,35))

qplot(mpg, y = ..density.., data = mtcars, 
      geom = "histogram", breaks = c(10,12.5,15,18,25,35))

Boîte à moustaches

Pour avoir une boîte à moustache sur une variable, nous sommes obligé de déclarer en \(x\) une valeur fixe (ici une chaîne vide ""), et de préciser la transformation géométrique (boxplot ici donc).

qplot("", mpg, data = mtcars, geom = "boxplot")

\(qq\)-plot

Dans le cas de la représentation géomtrique en \(qq\)-plot, nous ne définissons pas de \(x\) et de \(y\), mais juste l’échantillon à utiliser (sample).

qplot(sample = mpg, data = mtcars, geom = "qq")

Var qualitative

Un diagramme circulaire nécessite des coordonnées dites polaires et nous utiliserons plutôt la deuxième fonction, ggplot, pour le réaliser.

Diagramme en barres

Comme indiqué, si nous mettons une variable numérique, sans préciser la représentation géométrique, qplot produit un histogramme. C’est pourquoi nous devons spécifier que nous souhaitons une représentation en barre (geom = "bar") pour l’utiliser sur am de mtcars. Sinon, nous réalisons directement une transformation en variable factor. Ce qui est préférable, au regard de l’axe des abcisses généré.

qplot(am, data = mtcars, geom = "bar")

qplot(factor(am), data = mtcars)

Var quantitative - Var quantitative

Pour réaliser un nuage de points, nous n’avons rien besoin de spécifier (i.e. c’est le choix par défaut de qplot pour deux variables numériques).

qplot(hp, mpg, data = mtcars)

Il est possible aussi de faire un ajustement (avec geom = "smooth) ou une réprésentation des valeurs prises à l’aide de ticks (avec geom = "rug"). Et même de faire un graphique avec toutes ces informations. Mais pour avoir l’ajustement linéaire en plus des points, il est préférable d’utiliser ggplot.

qplot(hp, mpg, data = mtcars, geom = "smooth")
## `geom_smooth()` using method = 'loess'

qplot(hp, mpg, data = mtcars, geom = "smooth", method = "lm")

qplot(hp, mpg, data = mtcars, geom = "rug")

qplot(hp, mpg, data = mtcars, geom = c("smooth", "rug", "point"))
## `geom_smooth()` using method = 'loess'

Une autre réprésentation est une carte de chaleur (ou heatmap), représentation les deux axes et un ensemble de zones rectangulaires ayant une couleur en fonction du nombre de points présents dans cette zone. Ce graphique est très intéressant dans le cas de données nombreuses.

qplot(hp, mpg, data = mtcars, geom = "bin2d")

qplot(hp, mpg, data = mtcars, geom = "bin2d", bins = 10)

Var qualitative - Var qualitative

Dans ce cas, la fonction qplot est plutôt utilisé pour réaliser des diagrammes en barres.

qplot(factor(am), facets = ~ cyl, data = mtcars, geom = "bar")

qplot(factor(am), facets = ~ cyl, fill = factor(am), data = mtcars, geom = "bar")

qplot(factor(am), fill = factor(cyl), data = mtcars, geom = "bar")

Pour les empiler correctement (i.e. somme à 100%), il faut faire une manipulation en deux étapes :

  • calculer les profils pour chaque modalité de la variable en \(x\), avec prop.table et table
  • faire une modification du tableau obtenu avec la fonction melt du package reshape2
tab = table(mtcars$am, mtcars$cyl)
tab
##    
##      4  6  8
##   0  3  4 12
##   1  8  3  2
pro = prop.table(tab, margin = 1)
pro
##    
##             4         6         8
##   0 0.1578947 0.2105263 0.6315789
##   1 0.6153846 0.2307692 0.1538462
mel = setNames(melt(pro), c("am", "cyl", "value"))
mel
##   am cyl     value
## 1  0   4 0.1578947
## 2  1   4 0.6153846
## 3  0   6 0.2105263
## 4  1   6 0.2307692
## 5  0   8 0.6315789
## 6  1   8 0.1538462
qplot(factor(am), weight = value, fill = factor(cyl), data = mel, 
      geom = "bar")

Il est possible aussi de réaliser une heatmap, ou chaque zone est colorée en fonction du nombre d’individus ayant les modalités correspondantes dans les deux variables. Et si on veut représenter les profils comme précédemment, on peut réutiliser l’objet mel que l’on a créé précédemment. Ici, la lecture se fait verticalement (les proportions sont en fonction de la valeur de la variable en \(x\)).

qplot(factor(am), factor(cyl), data = mtcars, geom = "bin2d")

qplot(factor(am), factor(cyl), fill = value, data = mel, geom = "bin2d")

Var quantitative - Var qualitative

Pour croiser deux variables de type différent, nous devons représenter la distribution de la variable quantitative pour chaque modalité de la variable qualitative (ici, respectivement histogramme, densité, boîte à moustaches, et représentation des points avec une opération de jittering).

qplot(mpg, data = mtcars, geom = "histogram", bins = 10, facets = am ~ .)

qplot(mpg, col = factor(am), data = mtcars, geom = "density")

qplot(factor(am), mpg, data = mtcars, geom = "boxplot")

qplot(factor(am), mpg, data = mtcars, geom = "jitter")

qplot(factor(am), mpg, data = mtcars, geom = c("boxplot", "jitter"))

Exemple amélioré version qplot

Si nous voulons reproduire l’exemple amélioré précédent, nous voyons que la définition de la couleur et de la taille est simple. Mais nous sommes ici encore limité dans les options, et la fonction ggplot est plus approprié pour personnalisé un tel graphique.

qplot(hp, mpg, data = mtcars, color = factor(am), size = wt, 
      main = "Consommation et autres",
      xlab = "Puissance (en ch)",
      ylab = "Consommation en Miles/Galon")

Fonction ggplot

La fonction ggplot permet de faire plus de choses que qplot mais nécessite un formalisme plus lourd, dont voici quelques détails :

  • ggplot() créé un graphique (et le renvoie, i.e. on peut stocker un graphique dans une variable pour l’afficher plus tard, éventuellement en lui ajoutant des couches)
  • aes() permet de définir les aspects esthétiques (x et y principalement, mais aussi color, fill, size, …)
  • geom_xxx() indique la représentation à choisir (xxx étant remplacé par historam, boxplot, …)
  • stat_xxx indique les transformations statistiques à utiliser, si besoin
  • scale_xxx s’emploie pour des changements d’échelle
  • coord_xxx s’utilise pour des modifications de systèmes de coordonnées
  • facet_grid() découpe les données (et donc le graphique) en plusieurs facettes selon les variables fournie dans la formule
  • theme_xxx, labs(), xlab(), ylab(), ggtitle(), … pour des améliorations du graphique (annotation, couleurs, …)

Hormis la fonction aes(), qui s’utilise à l’intérieur des autres, toutes ces fonctions peuvent s’additionner pour compléter le graphique. Voici un exemple de suite de commandes pour produire un graphique :

# Récupération des moyennes et des écarts-type de Sepal.Length pour chaque espèce
iris.mean = data.frame(
    Species = levels(iris$Species),
    mean = tapply(iris$Sepal.Length, iris$Species, mean),
    sd = tapply(iris$Sepal.Length, iris$Species, sd)
)
ggplot(data = iris, aes(y = Sepal.Length, x = Species)) + geom_boxplot() +
    geom_jitter() +
    geom_errorbar(data = iris.mean, 
                  aes(y = mean, ymin = mean - sd, ymax = mean + sd), 
                  col = "red", width = .4)
## Warning: Ignoring unknown aesthetics: y

Dans le code précédent, vous pouvez remarquer que \(x\) n’est défini qu’une seule fois, dans le ggplot(). Cette spécification est conservée pour les fonctions ajoutées, et donc pour geom_errorbar().

Pour détailler ce comportement, voici trois commandes permettant de faire strictement le même graphique (le premier produit dans le paragraphe ci-dessous).

ggplot(mtcars, aes(x = mpg)) + geom_histogram()
ggplot(mtcars) + geom_histogram(aes(x = mpg))
ggplot() + geom_histogram(data = mtcars, aes(x = mpg))

Voici ce qui diffère entre ces trois versions :

  • Dans la première, les données seront mtcars pour l’ensemble des commandes ajoutées, et \(x\) sera la variable mpg (sauf spécification ultérieure)
  • Dans la seconde, on utilisera toujours mtcars comme données, mais \(x\) n’est défini que pour l’histogramme. On devra définir \(x\) pour les fonctions ultérieures si besoin
  • Dans la dernière, il n’y aucune spécification de base, et chaque fonction devra déterminée quelles données prendre, ainsi que les aspects esthétiques à utiliser dans celles-ci.

Variable quantitative

Pour représenter un histogramme, on a les mêmes possibilités que dans qplot.

ggplot(mtcars, aes(x = mpg)) + geom_histogram()
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

ggplot(mtcars, aes(x = mpg)) + geom_histogram(binwidth = 2)

ggplot(mtcars, aes(x = mpg)) + geom_histogram(bins = 10)

ggplot(mtcars, aes(x = mpg)) + geom_histogram(breaks = c(10,12.5,15,18,25,35))

ggplot(mtcars, aes(x = mpg)) + 
    geom_histogram(aes(y = ..density..), breaks = c(10,12.5,15,18,25,35))

ggplot(mtcars, aes(x = mpg)) + 
    geom_histogram(aes(y = ..density..), binwidth = 2) +
    geom_density()

Pour la boîte à moustaches et le \(qq\)-plot, il faut utiliser les fonctions geom_boxplot() et geom_qq(), en spécifiant correctement les aspects esthétiques.

ggplot(mtcars, aes(y = mpg, x = "")) + geom_boxplot()

ggplot(mtcars, aes(sample = mpg)) + geom_qq()

Variable qualitative

Pour un diagramme en barre, on peut se contenter d’utiliser la fonction geom_bar(). Le passage en factor() de la variable qualitative permet d’avoir un axe en abcisse propre (car am est codée numériquement dans mtcars). L’utilisation du calcul (..count..)/sum(..count..) permet de faire le calcul des pourcentages (avec le changement d’échelle sur \(y\)).

ggplot(mtcars, aes(x = am)) + geom_bar()

ggplot(mtcars, aes(x = factor(am))) + geom_bar()

ggplot(mtcars, aes(x = factor(am))) +  
    geom_bar(aes(y = (..count..)/sum(..count..))) +
    scale_y_continuous(labels = percent) +
    ylab("")

On peut aussi représenter ce diagramme en version empilé, en faisant quelques modifications sur les aspects esthétiques (fill pour la variable et spécification identique à la précédente pour \(y\)), sur l’échelle (idem) et sur les labels. La dernière partie sert à supprimer le trait sur l’axe \(x\).

ggplot(mtcars, aes("", fill = factor(am))) + 
    geom_bar(aes(y = (..count..)/sum(..count..))) +
    scale_y_continuous(labels = percent) +
    ylab("") + xlab("") + labs(fill = "am") +
    theme(axis.ticks = element_blank())

A partir de la base du graphique précédent, en ajoutant un changement de système de coordonnées (avec coord_polar()), on obtient un diagramme circulaire.

ggplot(mtcars, aes("", fill = factor(am))) + 
    geom_bar(aes(y = (..count..)/sum(..count..)), width = 1) +
    scale_y_continuous(labels = percent) +
    ylab("") + xlab("") + labs(fill = "am") +
    theme(axis.ticks = element_blank()) + 
    coord_polar(theta = "y") 

Var quantitative - Var quantitative

La représentation d’un nuage de points nécessite la définition des \(x\) et \(y\), ainsi que de geom_point(). On peut lui ajouter d’autres représentations, tel que geom_rug() et geom_smooth(), où maintenant nous pouvons définir la fonction lm pour l’ajustement linéaire.

ggplot(mtcars, aes(hp, mpg)) + geom_point() +
    geom_rug() +
    geom_smooth(method = "lm")

Et c’est l’utilisation de geom_bin2d() qui permet de faire une heatmap, avec les mêmes options que précédemment.

ggplot(mtcars, aes(hp, mpg)) + geom_bin2d()

ggplot(mtcars, aes(hp, mpg)) + geom_bin2d(bins = 10)

Var qualitative - Var qualitative

La création d’un diagramme en barres pour deux variables qualitatives est assez simple. Par contre, pour la version empilée, c’est le paramètre position = "fill" qui permet de le faire sans autre calcul, les fonctions suivantes n’étant la que pour avoir un graphique plus clair.

ggplot(mtcars, aes(factor(am))) + geom_bar() + facet_grid( ~ cyl)

ggplot(mtcars, aes(factor(am), fill = factor(cyl))) + geom_bar() 

ggplot(mtcars, aes(factor(am), fill = factor(cyl))) + 
    geom_bar(position = "fill") +
    scale_y_continuous(labels = percent) + 
    xlab("am") + ylab("") + labs(fill = "cyl")

Pour créer les diagrammes circulaires d’une variable pour chaque modalité de l’autre variable, nous allons ré-utiliser l’objet mel créé précédemment.

mel
##   am cyl     value
## 1  0   4 0.1578947
## 2  1   4 0.6153846
## 3  0   6 0.2105263
## 4  1   6 0.2307692
## 5  0   8 0.6315789
## 6  1   8 0.1538462
ggplot(mel, aes(x = "", y = value, fill = factor(cyl))) + 
    geom_bar(stat = "identity", width = 1)  + 
    scale_y_continuous(labels = percent) +
    ylab("am") + xlab("") + labs(fill = "cyl") +
    theme(axis.ticks = element_blank()) +
    coord_polar(theta = "y") +
    facet_grid(~ am)

Enfin, il est possible de créer une heatmap avec la fonction geom_bin2d(), toujours soit directement (dénombrement donc), soit en utiliser des profils par exemple.

ggplot(mtcars, aes(factor(cyl), factor(am))) + geom_bin2d()

ggplot(mel, aes(factor(am), factor(cyl), fill = value)) + geom_bin2d()

Exemple amélioré version ggplot

nom = rownames(mtcars)
nom[mtcars$hp <= 250 & mtcars$mpg <= 30] = ""
ggplot(mtcars, aes(x = hp, y = mpg, 
                   color = factor(am, labels = c("Automatique", "Manuelle")), 
                   size = wt, 
                   label = nom)) + 
    geom_point() + 
    geom_text(size = 3, color = "black", vjust = -.75, fontface = "bold") +
    ggtitle("Consommation et autres") +
    xlab("Puissance (en ch)") + xlim(25, 350) +
    ylab("Consommation en Miles/Galon") +
    labs(color = "Transmission", size = "Poids (1000 lbs)") 

A faire

Vous devez faire les questions suivantes avec la fonction qplot() puis avec la fonction ggplot().

  1. Dans les données iris, représenter les boîtes à moustaches des 4 variables pour les trois espèces.
  2. Dans les données tips du package reshape2, représenter total_bill en fonction de sex et smoker.
  3. Toujours dans tips, représenter total_bill et tip, en fonction de sex de 2 façons
  4. Idem avec smoker en plus
  5. Comment répondre aux questions suivantes :
    1. Les pourboires (tip) dépendent ils du montant (total_bill)
    2. Et des jours de la semaine (day) ?
    3. Et du nombre de convives (size) ?
    4. Croiser tip en fonction de total_bill et size
  6. bonus : à partir des données anscombe, refaire le graphique suivant