Histoire de la loi normale

La loi normale fait partie des premières lois de probabilités continues découvertes.

Courbe de Gauss modifier

Couverture de The doctrine of chances

Les débuts modifier

Les prémices de la compréhension de cette loi de probabilité à caractère central commencent avec Galilée lorsqu'il s'intéresse à un jeu de dé, notamment à la somme des points lors du lancer de trois dés. La question particulière sur laquelle Galilée se penche est : Pourquoi la somme 10 semble se présenter plus fréquemment que 9 ?^{[a 1]} Galilée publie une solution en 1618 en faisant un décompte des différents cas. Il trouve que des erreurs d'observations sont distribuées de manière symétrique autour d'une « vraie valeur »^[1].

L'origine de la loi normale remonte aux travaux de Jacques Bernoulli sur son théorème d'or, appelé aujourd'hui loi des grands nombres, publié dans son œuvre Ars Conjectandi en 1713. Il y calcule des probabilités liées à des paris sur des jeux de pile ou face^{[a 2]}, notamment le calcul de la probabilité que la moyenne du nombre de pile soit proche de la moyenne théorique 1/2, calcul dans lequel apparait le calcul de factorielles.

Abraham de Moivre introduit alors la formule de Stirling afin de préciser les calculs de Bernoulli^{[a 2]}. De Moivre est le premier à faire apparaître la loi normale comme loi limite d'une loi binomiale, i.e. comme loi limite d'une somme de variables de Bernoulli, préfigurant ainsi le théorème central limite. Dans son ouvrage intitulé Approximatio ad Summam Terminorum Binomii $\scriptstyle (a+b)^{n}$ in Seriem expansi, écrit en latin en 1733 et publié en anglais en 1738, de Moivre calcule des probabilités de gains pour des jeux de hasard, et obtient alors la loi normale comme une « courbe »^[1]. En 1756 dans The doctrines of chances, il publie les travaux qui seront à l'origine du théorème central limite^{[a 3]}. Au milieu du XVIII^e siècle, Leonhard Euler définit la fonction Gamma d'Euler qui permet d'établir un lien entre les calculs de Bernoulli et de de Moivre et une courbe proche de la courbe en cloche^{[a 2]}.

L'approche de Laplace modifier

Plus tard en 1777, Pierre-Simon de Laplace reprend les travaux de Bernoulli et de de Moivre et généralise leur théorème limite à l'aide de la fonction Gamma d'Euler^{[a 2]}. Il obtient cette même loi mais en tant qu'approximation de la loi binomiale^[2]. Pour cela il étudie le comportement du nombre de pile après un nombre important de lancers de pièce non équilibrée, il obtient alors une bonne estimation de l'écart entre la limite et la somme de variables. Pour cela Laplace développe une nouvelle méthode au début de la théorie des fonctions caractéristiques. Toujours dans le but d'estimer des erreurs, Laplace montre alors que la loi hypergéométrique peut être approchée par la loi normale^[1]. Laplace s'intéresse également à la loi normale multidimensionnelle en tant que coordonnées normales indépendantes^[3].

L'approche de Gauss modifier

Dans ses travaux, Theoria motus corporum coelestium (1809) et Bestimmung der genauigkeit der beobachtung (1816), Carl Friedrich Gauss s'intéresse à la loi normale pour des calculs en astronomie^[1] notamment le mouvement des corps célestes^{[a 3]}. Pour minimiser les erreurs obtenues à partir des différentes observations, il utilise la méthode des moindres carrés qui permet d'obtenir la moyenne arithmétique des observations pour valeur la plus vraisemblable^{[a 2]}. Le raisonnement qui conduit Gauss à préconiser la courbe de Gauss comme courbe des erreurs autour de cette valeur théorique est détaillé dans la section ci-dessous. Cette étude statistique n'est finalement que le seul lien entre Gauss et cette loi^{[a 2]}.

Il existe alors une certaine compétition entre Laplace et Gauss pour trouver la meilleure méthode d'approcher les erreurs. C'est finalement Laplace qui énonce en 1810, et publie en 1812, le théorème de Laplace (appelé aujourd'hui théorème central limite) dans son ouvrage Théorie analytique des probabilités^{[a 2]}.

Le raisonnement de Gauss modifier

Comme d'autres à la même époque (Laplace, Laguerre par exemple), Gauss argue que n mesures $(X_{1},X_{2},\dots ,X_{n})$ de la même grandeur θ (pour la petite histoire, en l'occurrence, cette grandeur est de nature astronomique) sont de la forme $(\theta +Y_{1},\theta +Y_{2},\dots ,\theta +Y_{n}),$ où les $Y_{i}$ s'interprètent comme les erreurs de mesure. À l'époque, le consensus est que les $Y_{i}$ sont des variables aléatoires à densité, et on pense souvent qu'elles sont indépendantes et de même densité f, même si une des propositions était une densité jointe des $Y_{i}$ assez baroque et peu commode. La controverse porte sur le choix de f. Les $Y_{i}$ et θ sont inconnues, les valeurs connues (observées) sont les $X_{i}.$ La densité jointe de $(Y_{1},Y_{2},\dots ,Y_{n})$ est donc

f(y_{1})f(y_{2})\dots f(y_{n}),

et la densité jointe des valeurs observées $(X_{1},X_{2},\dots ,X_{n})$ est

L(\theta ,x_{1},x_{2},\dots ,x_{n})\ =\ f(x_{1}-\theta )f(x_{2}-\theta )\dots f(x_{n}-\theta ).

Selon Gauss^[4], les deux affirmations suivantes devraient être vraies simultanément :

le meilleur estimateur de θ est la moyenne des $x_{i}$ , notée ${\overline {x}};$
à valeurs observées $(x_{1},x_{2},\dots ,x_{n})$ fixées, le meilleur estimateur de θ est la valeur de θ réalisant le maximum de $\theta \ \longrightarrow \ L(\theta ,x_{1},x_{2},\dots ,x_{n}).$ En langage d'aujourd'hui, le meilleur estimateur de θ est l'estimateur du maximum de vraisemblance.

Autrement dit, d'après Gauss, la densité f doit être choisie de sorte que l'estimateur du maximum de vraisemblance soit la moyenne empirique. Gauss recherche donc toutes les fonctions f satisfaisant les inéquations fonctionnelles suivantes :

\forall n\geq 1,\ \forall x_{1},x_{2},\dots ,x_{n},\theta \qquad f(x_{1}-{\overline {x}})f(x_{2}-{\overline {x}})\dots f(x_{n}-{\overline {x}})\ \geq \ f(x_{1}-\theta )f(x_{2}-\theta )\dots f(x_{n}-\theta ).

Il est naturel de supposer f régulier et de poser $\Phi =\ln f,\ \varphi =\Phi ^{\prime }.$

Pour $n=2,$

en écrivant que la dérivée en la variable $\theta$ s'annule pour $\theta ={\overline {x}},$ on obtient alors :

\forall x_{1},x_{2},\qquad \varphi (x_{1}-{\overline {x}})+\varphi (x_{2}-{\overline {x}})\ =\ 0,

ou encore

\forall x_{1},x_{2},\qquad \varphi \left({\tfrac {x_{1}-x_{2}}{2}}\right)+\varphi \left({\tfrac {x_{2}-x_{1}}{2}}\right)\ =\ 0,

autrement dit, $\varphi$ est une fonction impaire.

Pour $n=3,$

de la même manière, on obtient :

\forall x_{1},x_{2},x_{3}\qquad \varphi (x_{1}-{\overline {x}})+\varphi (x_{2}-{\overline {x}})+\varphi (x_{3}-{\overline {x}})\ =\ 0,

ou encore, en utilisant que $\varphi$ est une fonction impaire,

\forall x_{1},x_{2},x_{3}\qquad \varphi \left({\tfrac {2x_{1}-x_{2}-x_{3}}{3}}\right)+\varphi \left({\tfrac {2x_{2}-x_{1}-x_{3}}{3}}\right)\ =\ \varphi \left({\tfrac {x_{1}+x_{2}-2x_{3}}{3}}\right).

On en déduit que

\forall u,v\qquad \varphi (u)+\varphi (v)\ =\ \varphi (u+v).

Il en découle que $\varphi$ est une fonction linéaire, donc $\Phi$ est de type $Ax^{2}+B$ et, finalement, f est de type $\lambda e^{Ax^{2}}.$

Réciproquement, dès que A est négatif et $\lambda$ positif, une fonction de type $\lambda e^{Ax^{2}}$ satisfait le système d'inéquations fonctionnelles posé par Gauss.

de Moivre
Gauss
Laplace
Quetelet

Les raffinements et applications modifier

Notons que Francis Galton imagine une machine en 1889, appelée planche de Galton, qui permet d'illustrer la convergence du théorème central limite et ainsi de faire apparaître la courbe en cloche de la loi normale.

Comme mentionné précédemment, les travaux de Laplace sont liés au théorème central limite. Les hypothèses sur la suite de variables aléatoires, dont la limite est normale, ne sont pas clairement fixées. Plusieurs mathématiciens tels que Lindeberg (1922), Gnedenko ou Kolmogorov (1954), améliorent ces hypothèses afin d'obtenir de meilleurs théorèmes de convergence vers la loi normale^{[a 3]} (voir section « Théorèmes de convergence » de l'article sur la loi normale).

Le calcul d'erreurs gaussien est alors utilisé par certains scientifiques, comme Bessel dans les années 1830, dans des domaines plus appliqués : astronomie, géodésique de terrain, étude statistique de populations, de productions agricoles ou industrielles, enregistrements météorologiques, etc. C'est le début des statistiques. Adolphe Quetelet, qui est l'un des statisticiens les plus connus du XIX^e siècle, publie en 1846 ses Lettres dans lesquelles il compare des données observées, des tours de poitrines de l'armée écossaise, à la courbe de Gauss qui fait alors sa première apparition dans une œuvre^{[a 2]}. Les artilleurs ont pris conscience que la portée des tirs suit sensiblement une loi normale avec Isidore Didion en 1937^{[a 4]}.

L'étude probabiliste et l'utilisation statistique de la loi normale se poursuit alors durant les siècles suivants jusqu'à aujourd'hui. La formule de la somme de deux variables de loi normale est attribuée à Maurice d'Ocagne (début du XX^e siècle), bien que Poisson et Cauchy connaissaient déjà cette propriété, ainsi que possiblement Gauss^[5]. La loi normale est vue comme une loi stable par Paul Lévy et Ernest Lhoste vers 1919^{[a 4]}.

Les tables numériques modifier

Lorsque Laplace utilise la loi normale comme approximation de la loi hypergéométrique, il obtient en 1778 une première table de la loi, cette table est publiée en 1781^[6]. E. S. Pearson et H. O. Hartley publient une table plus complète en 1948 basée sur les valeurs calculées par W. F. Sheppard en 1903 et 1907. Des tables complètes de valeurs sont données par le National Bureau of Standards (« Institut national des normes et de la technologie ») dans un ouvrage de 1952^[7] et par J. A. Greenwood et H. O. Hartley dans un ouvrage de 1962^[8].

Historique du nom modifier

Puisqu'il y a plusieurs auteurs considérés comme pères de la loi normale, les noms « loi gaussienne » et « loi de Gauss » sont utilisés dans la littérature allemande et anglo-saxonne, alors que le nom « loi de Laplace » est utilisé par les mathématiciens français^[9]. Les noms « loi de Laplace-Gauss » et « loi de Gauss-Laplace » sont également parfois utilisés^[10].

De nombreux auteurs ont donné des noms différents à cette loi : Adolphe Quetelet l'appelait « courbe des possibilités » ou « loi des erreurs accidentelles » ; Bartel Leendert van der Waerden (1967) l'appelait « courbe de Quetelet »^{[a 2]} ; Francis Galton (1877) parlait de « loi de fréquence des erreurs », de « loi de déviation d'après une moyenne »^[1], ou encore d'une courbe « de forme parfaitement normale »^[11]^,^{[b 1]}, c'est la première apparition du terme « normal » en tant qu'adjectif.

« Il se trouve souvent que des séries de valeurs observées soient des variables 'normales', c'est-à-dire qu'elles sont conformes avec suffisamment d'exactitude pour les besoins habituels, aux séries de valeurs calculées à partir de raisonnements a priori de la loi des Fréquences des Erreurs^{[b 2]}. »

— Francis Galton^[11], 1885

La première attribution du terme « normal » pour la loi est attribuée à Henri Poincaré qui énonça pendant un de ses cours en 1893 : « Je dirai, pour abréger, que la loi de probabilité est normale, lorsque la valeur de la probabilité est représentée par cette intégrale^[12]. ». En 1894, Irving Fisher écrivit une phrase sensiblement différente : « Lorsqu'une loi d'écarts est exprimée par cette intégrale nous disons que la probabilité est normale^[12] ». Le terme « normal » vient du fait que cette loi apparaît souvent dans la nature et que de toutes les lois qui apparaissent naturellement, la loi normale est la plus courante et la plus adaptée aux observations^[12]. Karl Pearson explique en 1893 le choix du terme « normal » pour la loi et la courbe par la facilité de ne pas fixer de paternité^[10].

Puisque la première apparition de la loi normale s'est faite par l'observation de la courbe de sa densité de probabilité, le nom de la courbe sert parfois à définir la loi. Pour mieux donner une image de sa forme, cette courbe est parfois imagée en « chapeau de gendarme vu de face », « cloche plate » ou encore « boa qui a avalé un dromadaire »^{[a 2]}.

Autour de 1950, la commission de terminologie statistique de l'Afnor, probablement emmené par Fréchet, décida de normaliser le terme « loi de Laplace ». Le polytechnicien André Pallez ajoute :

« la Commission, considérant que Laplace a découvert la loi qui devrait porter son nom et qui porte celui de Gauss, à une époque où Gauss était encore un jeune enfant, a rétabli la vérité en rendant à Laplace l’hommage qui lui était dû. »^{[a 4]}.

Cependant, aujourd'hui au XXI^e siècle, les deux noms les plus utilisés sont « loi de Gauss » et « loi normale »^{[a 4]}. Le nom de Gauss est resté plus que les autres grâce, entre autres, à l'influence de l'ouvrage pédagogique de Joseph Bertrand publié à la fin du XIX^e siècle^{[a 2]}.

Notes et références modifier

Notes

↑ Initialement en anglais : « It is perfectly normal in shape »
↑ Initialement en anglais : « It is usually found that a series of observed values are 'normally' variable, that is to say that they conform with sufficient exactitude for ordinary purposes, to the series of values calculated from the a priori reasonings of the law of Frequency of Error. »

Ouvrages

↑ ^{a b c d et e} Dodge 2004, p. 309
↑ Quinio Benamo 2005, p. 36
↑ Lifschitz 1995, p. 283
↑ Stigler 1990, p. 139-142
↑ Cramér 1970, p. 51
↑ Dodge 2004, p. 502
↑ National Bureau of Standards 1952
↑ Greenwood et Hartley 1962
↑ Quinio Benamo 2005, p. 35
↑ ^{a et b} Stigler 1999, p. 406
↑ ^{a et b} Stigler 1999, p. 412
↑ ^{a b et c} Stigler 1999, p. 407

Articles et autres sources

↑ Michel Henry, « La démonstration par Jacques Bernoulli de son théorème », Histoires de probabilités et de statistiques, Ellipse,‎ 2004, p. 121-140 (lire en ligne)
↑ ^{a b c d e f g h i j et k} Bernard Bru, « La courbe de Gauss ou le théorème de Bernoulli raconté aux enfants », Mathematics and Social Sciences, vol. 175, n^o 3,‎ 2006, p. 5-23 (lire en ligne)
↑ ^{a b et c} Aimé Fuchs, « Plaidoyer pour la loi normale », Pour la Science,‎ 1995, p. 17 (lire en ligne)
↑ ^{a b c et d} Nacira Hadjadji Seddik-Ameur, « Les tests de normalité de Lhoste », Mathematics and Social Sciences, vol. 41, n^o 162,‎ 2003, p. 19-43 (lire en ligne)

Bibliographie modifier

Yadolah Dodge, Statistique : dictionnaire encyclopédique, Paris/Berlin/New York etc., Springer - Verlag, 2004, 637 p. (ISBN 2-287-21325-2, lire en ligne).
Martine Quinio Benamo, Probabilités et Statistique aujourd'hui : pourquoi faire ? Comment faire ?, Paris/Budapest/Kinshasa etc., l'Harmattan, 2005, 277 p. (ISBN 2-7475-9799-7, lire en ligne).
(en) M Lifschitz, Gaussian Random Functions, Dordrecht/Boston/London, Kluver Academic publishers, 1995, 339 p. (ISBN 0-7923-3385-3, lire en ligne).
(en) Stephen M. Stigler, The History of Statistics : The Measurement of Uncertainty before 1900, Harvard, Belknap Press of Harvard University Press, 1^er mars 1990, 1^re éd., 432 p. (ISBN 978-0-674-40341-3 et 067440341X, lire en ligne)
(en) Stephen Stigler, Statistics on the table : the history of statistical concepts and methods, Cambridge (Mass.)/London, Harvard university press, 1999, 499 p. (ISBN 0-674-83601-4, lire en ligne).
(en) Harald Cramér, Random Variables and Probability Distributions, Cambridge university press, 1970, 3^e éd., 123 p. (ISBN 0-521-60486-9, lire en ligne).
(en) National Bureau of Standards, A guide to tables of the normal probability integral, U.S. Govt. Print. Off., 1952, 16 p.
(en) Joseph Arthur Greenwood et H.O. Hartley, Guide to tables in mathematical statistics, Princeton University Press, 1962, 1014 p.

[16] Initialement en anglais : « It is perfectly normal in shape »

[17] Initialement en anglais : « It is usually found that a series of observed values are 'normally' variable, that is to say that they conform with sufficient exactitude for ordinary purposes, to the series of values calculated from the a priori reasonings of the law of Frequency of Error. »

[Yadolah309-2] {a b c d et e} Dodge 2004, p. 309

[Quinio36-5] Quinio Benamo 2005, p. 36

[Lifschitz283-6] Lifschitz 1995, p. 283

[Stigler139-7] Stigler 1990, p. 139-142

[Cramér51-9] Cramér 1970, p. 51

[Yadolah502-10] Dodge 2004, p. 502

[11] National Bureau of Standards 1952

[12] Greenwood et Hartley 1962

[Quinio35-13] Quinio Benamo 2005, p. 35

[Stigler406-14] {a et b} Stigler 1999, p. 406

[Stigler412-15] {a et b} Stigler 1999, p. 412

[Stigler407-18] {a b et c} Stigler 1999, p. 407

[henry-1] Michel Henry, « La démonstration par Jacques Bernoulli de son théorème », Histoires de probabilités et de statistiques, Ellipse,‎ 2004, p. 121-140 (lire en ligne)

[Bru-3] {a b c d e f g h i j et k} Bernard Bru, « La courbe de Gauss ou le théorème de Bernoulli raconté aux enfants », Mathematics and Social Sciences, vol. 175, n^o 3,‎ 2006, p. 5-23 (lire en ligne)

[fuchs-4] {a b et c} Aimé Fuchs, « Plaidoyer pour la loi normale », Pour la Science,‎ 1995, p. 17 (lire en ligne)

[Hadjadji-8] {a b c et d} Nacira Hadjadji Seddik-Ameur, « Les tests de normalité de Lhoste », Mathematics and Social Sciences, vol. 41, n^o 162,‎ 2003, p. 19-43 (lire en ligne)

[a 1]

[1]

[a 2]

[a 3]

[2]

[3]

[4]

[a 4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[b 1]

[b 2]

[12]