Quartet d'Anscombe

jeu de données artificiel

Le quartet d'Anscombe est constitué de quatre ensembles de données qui ont les mêmes propriétés statistiques simples mais qui sont en réalité très différents, ce qui se voit facilement lorsqu'on les représente sous forme de graphiques. Ils ont été construits en 1973 par le statisticien Francis Anscombe dans le but de démontrer l'importance de tracer des graphiques avant d'analyser des données, car cela permet notamment d'estimer l'incidence des données aberrantes sur les différentes indices statistiques que l'on pourrait calculer.

Quartet d'Anscombe
Image dans Infobox.
Ces quatre ensembles de données possèdent les mêmes propriétés statistiques simples, mais leurs représentations graphiques sont très différentes.
Nommé en référence à
Producteur
Décrit par
Graphs in Statistical Analysis (d)Voir et modifier les données sur Wikidata

Dans la première page du premier chapitre de son ouvrage, The Visual Display of Quantitative Information, Edward Tufte utilise le quartet d'Anscombe pour démontrer l'importance de l'exploration graphique avant d'analyser un ensemble de données

PrésentationModifier

Chaque ensemble de données contient 11 points. Les quatre ensembles présentent ces propriétés :

Propriété Valeur
Moyenne des x 9,0
Variance des x 10,0
Moyenne des y 7,5
Variance des y 3,75
Coefficient de corrélation entre les x et les y 0,816
Équation de la droite de régression linéaire y=3 + 0,5 x
Somme des carrés des erreurs
relativement à la moyenne
110,0

Le premier ensemble (en haut à gauche) présente deux variables (x et y) dont la distribution semble proche d'une loi normale et qui présentent entre elles une simple corrélation linéaire (avec un certain degré de bruit qui la rend donc imparfaite). Le deuxième (en haut à droite) se caractérise par une relation non linéaire (en l'occurrence parfaitement quadratique) entre les deux variables : pour cette raison, les coefficients de corrélation de Pearson sont inappropriés car ils mesurent l'écart à une droite de régression et non à une parabole. Dans le troisième ensemble (en bas à gauche), la corrélation linéaire est parfaite (avec une pente légèrement inférieure à 3) sauf pour une donnée aberrante qui influe sur le coefficient de corrélation global, le faisant passer de 1 (pour les 10 premières données) à 0,81 (pour les 11 données). Finalement, le quatrième ensemble (en bas à droite) démontre qu'une seule donnée aberrante suffit pour obtenir un coefficient de corrélation élevé, alors même que, hormis cette 11e donnée, il n'existe pas de corrélation entre les deux variables puisque la variable x est constante.

Les ensembles de données sont comme suit (les valeurs des x sont les mêmes pour les trois premiers ensembles).

Quartet d'Anscombe
I II III IV
x y x y x y x y
10,0 8,04 10,0 9,14 10,0 7,46 8,0 6,58
8,0 6,95 8,0 8,14 8,0 6,77 8,0 5,76
13,0 7,58 13,0 8,74 13,0 12,74 8,0 7,71
9,0 8,81 9,0 8,77 9,0 7,11 8,0 8,84
11,0 8,33 11,0 9,26 11,0 7,81 8,0 8,47
14,0 9,96 14,0 8,10 14,0 8,84 8,0 7,04
6,0 7,24 6,0 6,13 6,0 6,08 8,0 5,25
4,0 4,26 4,0 3,10 4,0 5,39 19,0 12,50
12,0 10,84 12,0 9,13 12,0 8,15 8,0 5,56
7,0 4,82 7,0 7,26 7,0 6,42 8,0 7,91
5,0 5,68 5,0 4,74 5,0 5,73 8,0 6,89

Des procédures pour créer d'autres ensembles de données exhibant les mêmes propriétés statistiques simples, mais des représentations graphiques dissemblables, sont proposées dans les ouvrages de la bibliographie.

Notes et référencesModifier

Voir aussiModifier

Liens externesModifier

BibliographieModifier