Règle de Sturges

La règle de Sturges est une formule mathématique proposée par Herbert Sturges (1882-1958)^[1]. Elle sert à découper une plage de valeurs en tranches pour en faire la description statistique : tableaux de fréquences, histogramme, etc.

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.

Cet article ne cite pas suffisamment ses sources (mai 2016).

Si vous disposez d'ouvrages ou d'articles de référence ou si vous connaissez des sites web de qualité traitant du thème abordé ici, merci de compléter l'article en donnant les références utiles à sa vérifiabilité et en les liant à la section « Notes et références ».

En pratique : Quelles sources sont attendues ? Comment ajouter mes sources ?

Formulation modifier

Soit un échantillon de N valeurs observées. On souhaite représenter la répartition, ou distribution, de ces données dans leur plage de valeurs. Pour ce faire, on découpe la plage en un certain nombre k de tranches – ou classes – afin de recueillir le nombre d'observations par tranche. Ces nombres, les fréquences, peuvent être affichés dans un graphique en colonnes appelé « histogramme ».

Sturges a proposé une valeur approximative pour le nombre k en fonction de la taille N de l'échantillon :

k=1+\log _{2}N

où log₂ est le logarithme en base 2.

Le résultat ne sera pas, en général, entier. Il donne une appréciation de ce qui ferait un bon découpage.

Formule alternative modifier

La plupart des calculatrices ne comportant pas de touche pour le log₂, on peut utiliser la base 10, en profitant du fait que log₁₀(2) vaut 0,30103 ≈ 3/10.

k=1+{\frac {10}{3}}\log _{10}N.

Justification modifier

Le calcul de Sturges repose sur l'analyse d'un échantillon suivant une distribution gaussienne (courbe en cloche), qu'il approxime par une distribution binomiale de paramètre p = $1 / 2$ , quitte à faire une translation des valeurs de l'échantillon.

Pour une telle distribution, la probabilité de la valeur x vaut

f(x)={\binom {n}{x}}\left({\frac {1}{2}}\right)^{x}\left({\frac {1}{2}}\right)^{n-x}={\binom {n}{x}}{\frac {1}{2^{n}}}.

Il y a n + 1 valeurs x possibles (de 0 à n). En particulier, f(0) ou f(n) valent 1/2ⁿ. Pour que les fréquences de ces valeurs donnent des nombres entiers, il faut au minimum que le nombre d'observations soit égal à 2ⁿ. Donc, puisqu'à N = 2ⁿ observations correspondent k = n + 1 valeurs possibles, Sturges propose de répartir N observations en log₂ N + 1 tranches.

Critique modifier

La construction de la formule se base sur une distribution symétrique, de distribution binomiale ou gaussienne. Pour peu que les données à représenter ne suivent pas cette forme, le nombre de tranches n'a plus de justification.

Par exemple, dès que les données d'échantillon ont une distribution asymétrique, ou présentant des valeurs largement étalées, le nombre de classes ne sera pas optimal^[2].

Une formule alternative est la règle de Yule : $k=2,5{\sqrt[{4}]{N}}$
Une autre est celle de Freedman–Diaconis : $k=2\,{\text{IQ}}(x)/{\sqrt[{3}]{N}}\;$ où IQ(x) est l'écart inter-quartile de la plage de données x.

Notes et références modifier

↑ (en) Herbert A. Sturges, « The Choice of a Class Interval », Journal of the American Statistical Association, vol. 21, n° 153, mars 1926, p. 65-66
↑ (en) Rob J. Hyndman, The problem with Sturges' rule

(en) D. W. Scott, « Sturges' rule », WIREs Computational Statistics, vol. 1,‎ 2009, p. 303-306
(en) L. Birgé et Y. Rozenholc, « How many bins should be put in a regular histogram », ESAIM: Probability and Statistics, vol. 10,‎ 2006, p. 24-45 (lire en ligne)
(en) David Freedman et Persi Diaconis, « On the histogram as a density estimator: L₂ theory », Probability Theory and Related Fields, vol. 57, n^o 4,‎ 1981, p. 453-476 (ISSN 0178-8051, lire en ligne)

Portail des probabilités et de la statistique

[1] (en) Herbert A. Sturges, « The Choice of a Class Interval », Journal of the American Statistical Association, vol. 21, n° 153, mars 1926, p. 65-66

[2] (en) Rob J. Hyndman, The problem with Sturges' rule

[1]

[2]