Probabilité bayésienne

Une probabilité bayésienne est une interprétation du concept de probabilité. La probabilité n'y est pas représentée en termes de fréquence ou de propension de certains phénomène, mais plutôt comme une estimation raisonnable[1] représentant un état des connaissances[2], ou comme la quantification d’une croyance personnelle[3].

L'interprétation bayésienne des probabilités peut être considérée comme une extension de la logique propositionnelle qui permet de raisonner avec des hypothèses[4],[5], c'est-à-dire avec des propositions pour lesquelles la valeur de vérité (vrai ou faux) est inconnue. Selon la perspective bayésienne, une probabilité est attribuée à une hypothèse, alors que pour l'inférence fréquentiste, une hypothèse est généralement testée sans se voir attribuer une probabilité.

La probabilité bayésienne appartient à la catégorie des probabilités probantes. Pour évaluer la probabilité d'une hypothèse, le probabiliste bayésien spécifie une probabilité a priori. Celle-ci est ensuite mise à jour en une probabilité a posteriori lorsqu'il y a de nouvelles informations pertinentes[6]. L'interprétation bayésienne fournit un ensemble standard de procédures et de formules pour effectuer ce calcul.

Le terme bayésien vient du mathématicien et théologien du XVIIIe siècle Thomas Bayes, qui a fourni le premier traitement mathématique d'un problème non trivial d'analyse des données statistiques en utilisant ce que l'on appelle maintenant l'inférence bayésienne[7]:131. Le mathématicien Pierre-Simon Laplace a été un pionnier et a popularisé ce que l'on appelle aujourd'hui la probabilité bayésienne[7]:97–98.

Méthodologie bayésienne modifier

Les méthodes bayésiennes sont caractérisées par les concepts et procédures suivants :

  • L'utilisation de variables aléatoires, ou plus généralement de quantités inconnues[8], pour modéliser toutes les sources d'incertitude dans les modèles statistiques, y compris l'incertitude résultant du manque d'information.
  • La nécessité de déterminer la distribution de probabilité à priori en tenant compte des informations (antérieures) disponibles.
  • L'utilisation séquentielle du théorème de Bayes : à mesure que davantage de données deviennent disponibles, la distribution à posteriori est calculée en utilisant le théorème de Bayes. Puis, la distribution postérieure devient la nouvelle probabilité à priori.
  • Alors que pour les fréquentistes, une hypothèse est une proposition (qui doit être soit vraie, soit fausse) pour que la probabilité fréquentiste d'une hypothèse soit soit 0 ou 1 ; dans les statistiques bayésiennes, la probabilité qu'on peut attribuer à une hypothèse peut aussi prendre des valeurs entre 0 et 1, si la valeur de vérité est incertaine.

Probabilités bayésiennes objectives et subjectives modifier

De manière générale, il existe deux interprétations de la probabilité bayésienne. Pour les objectivistes, qui interprètent la probabilité comme une extension de la logique, la probabilité quantifie l'attente raisonnable que toute personne (même un « robot ») partageant les mêmes connaissances devrait partager, conformément aux règles des statistiques bayésiennes. Cela peut se justifier par le théorème de Cox-Jaynes[2],[9]. Pour les subjectivistes, la probabilité correspond à une croyance personnelle[3]. La rationalité et la cohérence laissent la place à des variations substantielles, au sein des contraintes qu'elles posent. Ces contraintes sont justifiées par la théorie de la décision et le théorème de de Finetti[3]. Les variantes objectives et subjectives des probabilités bayésiennes diffèrent principalement par leur interprétation et leur construction de la probabilité à priori.

Histoire modifier

Le terme bayésien dérive de Thomas Bayes (1702-1761), qui dans un article intitulé An Essay towards solving a Problem in the Doctrine of Chances (« Essai pour résoudre un problème dans la doctrine des chances »), a prouvé un cas particulier de ce qu'on appelle aujourd'hui le théorème de Bayes[10]. Dans ce cas particulier, les distributions à priori et postérieures étaient des distributions bêta et les données provenaient des épreuves de Bernoulli. C'est Pierre-Simon de Laplace (1749-1827) qui a introduit une version générale du théorème et l'a utilisée pour aborder des problèmes de mécanique céleste, de statistiques médicales, de fiabilité et de jurisprudence[11]. Les premières inférences bayésiennes, qui utilisaient des distributions à priori uniformes suivant le « principe de raison insuffisante » de Laplace, étaient appelées « probabilité inverse » (car elles déduisent à rebours des observations aux paramètres, ou des effets aux causes)[12]. Après les années 1920, la « probabilité inverse » a été largement supplantée par un ensemble de méthodes appelées statistiques fréquentistes[12].

Au XXe siècle, les idées de Laplace se sont développées selon deux directions, donnant naissance à des courants de pensée objectifs et subjectifs dans la pratique bayésienne. Le livre Theory of Probability de Harold Jeffreys (publié pour la première fois en 1939) a joué un rôle important dans la renaissance de la vision bayésienne des probabilités. Il est suivi des travaux d'Abraham Wald en 1950 et de Leonard J. Savage en 1954. L'adjectif bayésien date lui-même des années 1950, et les termes dérivés bayésianisme et néo-bayésianisme datent des années 1960[13],[14],[15]. Selon les objectivistes, l'analyse statistique dépend uniquement du modèle supposé et des données analysées[16]. Il ne doit y avoir aucune décision subjective. À l'inverse, les statisticiens « subjectivistes » nient la possibilité d’une analyse pleinement objective du cas général.

Dans les années 1980, il y a eu une croissance spectaculaire de la recherche et des applications des méthodes bayésiennes. Cette croissance est principalement attribuée à la découverte des méthodes de Monte Carlo par chaînes de Markov, qui donna lieu à la résolution de nombreux problèmes calculatoires et à un intérêt croissant pour les applications alternatives et complexes[17]. Même si les statistiques fréquentistes restent populaires (comme le démontre le fait qu'une grande partie de l'enseignement de premier cycle repose sur elles[18]), les méthodes bayésiennes sont largement acceptées et utilisées, par exemple dans le domaine de l'apprentissage automatique[19].

Justification des probabilités bayésiennes modifier

L'utilisation des probabilités bayésiennes comme base de l'inférence bayésienne a été soutenue par plusieurs arguments, tels que les axiomes de Cox, l'argument du livre néerlandais, les arguments basés sur la théorie de la décision et le théorème de Finetti.

Approche axiomatique modifier

Richard T. Cox a montré que la mise à jour bayésienne découle de plusieurs axiomes, dont deux équations fonctionnelles et une hypothèse de différentiabilité[9],[20]. L'hypothèse de différentiabilité ou même de continuité est controversée. Halpern a trouvé un contre-exemple basé sur son observation selon laquelle l'algèbre booléenne des énoncés peut être finie[21]. D'autres axiomatisations ont été suggérées par divers auteurs dans le but de rendre la théorie plus rigoureuse[8].

Approche du livre néerlandais modifier

Bruno de Finetti a proposé l'argument du livre néerlandais basé sur les paris. Dans cette expérience de pensée, un bookmaker malin crée un livre hollandais en fixant les cotes et les paris pour garantir que le bookmaker profite – aux dépens des joueurs – quel que soit le résultat de l'événement (une course de chevaux, par exemple) sur lequel les joueurs parient.

Selon Ian Hacking, l'argument du livre néerlandais est cependant aussi compatible avec des approches non bayésiennes.

Approche de la théorie de la décision modifier

Une justification de l'utilisation de l'inférence bayésienne venant de la théorie de la décision a été donnée par Abraham Wald, qui a prouvé que toute procédure statistique admissible est soit une procédure bayésienne, soit une limite des procédures bayésiennes[22]. Et à l’inverse, toute procédure bayésienne est admissible[23].

Probabilités personnelles et méthodes objectives pour construire des à priori modifier

À la suite des travaux sur la théorie de l'utilité espérée de Ramsey et von Neumann, les théoriciens de la décision ont fait en sorte d'expliquer le comportement rationnel en utilisant une distribution de probabilité pour l'agent. Johann Pfanzagl a fourni une axiomatisation de la probabilité subjective et de l'utilité, une tâche laissée inachevée par von Neumann et Oskar Morgenstern dans leur livre Theory of Games and Economic Behavior (« Théorie des Jeux et du Comportement Économique ») ; leur théorie originale supposant par commodité que tous les agents avaient la même distribution de probabilité[24]. L'axiomatisation de Pfanzagl a été approuvée par Oskar Morgenstern[25].

Ramsey et Savage ont noté que la distribution de probabilité de chaque agent pouvait être étudiée objectivement dans le cadre d'expériences statistiques. Les procédures de test statistique sur les probabilités (avec un nombre finit d'échantillons) viennent de Ramsey (1931) et de Finetti (1931, 1937, 1964, 1970). Bruno de Finetti[26],[27] et Frank P. Ramsey[27],[28] reconnaissent tous deux s'être appuyés sur la philosophie pragmatique, en particulier (pour Ramsey) sur les travaux de Charles S. Peirce[27],[28].

Le « test de Ramsey » pour évaluer les distributions de probabilité est réalisable en théorie et a occupé les psychologues expérimentaux pendant un demi-siècle[29]. Ce travail démontre que les propositions de probabilité bayésienne peuvent être falsifiées et répondent ainsi à un critère empirique de Charles S. Peirce, dont les travaux ont inspiré Ramsey (ce critère de falsifiabilité a été popularisé par Karl Popper[30],[31]).

Les travaux modernes sur l'évaluation expérimentale des probabilités personnelles utilisent les procédures de randomisation, de mise en aveugle et de décision booléenne de l'expérience Peirce-Jastrow[32]. Puisque les individus agissent selon différents jugements de probabilité, les probabilités de ces agents sont « personnelles » (mais se prêtent à une étude objective).

Les probabilités personnelles sont problématiques pour la science et pour certaines applications où les décideurs manquent de connaissances ou de temps pour spécifier une distribution de probabilité bien informée (sur laquelle ils sont prêts à agir). Pour répondre aux besoins de la science et aux limites humaines, les statisticiens bayésiens ont développé des méthodes « objectives » pour spécifier les probabilités a priori.

En effet, les bayésiens objectivistes ont soutenu que l'état antérieur des connaissances définit une unique distribution de probabilité à priori pour les problèmes statistiques « réguliers » (cf. problèmes bien posés). Trouver la bonne méthode pour construire de tels à priori « objectifs » (pour des classes appropriées de problèmes réguliers) a été la quête des théoriciens de la statistique depuis Laplace jusqu'à John Maynard Keynes, Harold Jeffreys et Edwin Thompson Jaynes. Ces théoriciens et leurs successeurs ont suggéré plusieurs méthodes pour construire des à priori « objectifs » (Malheureusement, il n'est pas clair comment évaluer « l'objectivité » relative de ces méthodes pour calculer l'à priori) :

Chacune de ces méthodes fournit des à priori utiles pour les problèmes « réguliers » à un paramètre, et chaque à priori peut gérer certains modèles statistiques difficiles (avec « irrégularité » ou plusieurs paramètres). Chacune de ces méthodes a été utile dans la pratique bayésienne. En effet, des méthodes de construction d'à priori « objectifs » (ou « par défaut » ou « d'ignorance ») ont été développées par des bayésiens se considérant pourtant subjectivistes, comme James Berger et José-Miguel Bernardo, simplement parce que de tels a priori sont nécessaires à la pratique bayésienne, en particulier en sciences[33]. La quête de « la méthode universelle de construction des à priori » a continu" d’attirer les théoriciens de la statistique[33].

Ainsi, le statisticien bayésien doit soit utiliser des à priori informés (en utilisant une expertise pertinente ou des données antérieures), soit choisir parmi les méthodes concurrentes pour construire des à priori « objectifs ».

Voir également modifier

Références modifier

  1. (en) Cox, « Probability, Frequency, and Reasonable Expectation », American Journal of Physics, vol. 14, no 1,‎ , p. 1–10 (DOI 10.1119/1.1990764, Bibcode 1946AmJPh..14....1C)
  2. a et b (en) Jaynes, E.T., Maximum-Entropy and Bayesian Methods in Applied Statistics, Cambridge, Cambridge University Press, (CiteSeerx 10.1.1.41.1055), « Bayesian Methods: General Background »
  3. a b et c (en) Bruno de Finetti, Theory of Probability: A critical introductory treatment, Chichester, John Wiley & Sons Ltd., (ISBN 9781119286370)
  4. (en) Theodore Hailperin, Sentential Probability Logic: Origins, Development, Current Status, and Technical Applications, London, Associated University Presses, (ISBN 0934223459)
  5. (en) Colin Howson, Foundations of Bayesianism, Dordrecht, Kluwer, , 137–159 p. (ISBN 1-4020-0223-8), « The Logic of Bayesian Probability »
  6. (en) Paulos, « The Mathematics of Changing Your Mind [by Sharon Bertsch McGrayne] » [archive du ]  , New York Times, (consulté le )
  7. a et b (en) Stephen M. Stigler, The history of statistics, Harvard University Press, (ISBN 9780674403413)
  8. a et b (en) Dupré, Maurice J. et Tipler, Frank J., « New axioms for rigorous Bayesian probability », Bayesian Analysis, vol. 4, no 3,‎ , p. 599–606 (DOI 10.1214/09-BA422, CiteSeerx 10.1.1.612.3036, lire en ligne)
  9. a et b (en) Richard T. Cox, The algebra of probable inference, Baltimore, MD; London, UK, Reprint, (ISBN 9780801869822)
  10. (en) McGrayne, Sharon Bertsch, The Theory that Would not Die, (lire en ligne  )
  11. (en) Stigler, Stephen M., The History of Statistics, Harvard University Press, (ISBN 9780674403406), « Chapter 3 »
  12. a et b (en) Fienberg, Stephen. E., « When did Bayesian Inference become "Bayesian"? », Bayesian Analysis, vol. 1, no 1,‎ , p. 5, 1–40 (DOI 10.1214/06-BA101, lire en ligne [archive du ])
  13. (en) Harris, « Recent developments of the so-called Bayesian approach to statistics », Legal-Economic Research, University of Iowa,‎ , p. 125 (fn. #52), 126 :

    « The works of Wald, Statistical Decision Functions (1950) and Savage, The Foundation of Statistics (1954) are commonly regarded starting points for current Bayesian approaches »

  14. (en) Annals of the Computation Laboratory of Harvard University, vol. 31, , p. 180 :

    « This revolution, which may or may not succeed, is neo-Bayesianism. Jeffreys tried to introduce this approach, but did not succeed at the time in giving it general appeal. »

  15. (en) Oscar Kempthorne « The Classical Problem of Inference—Goodness of Fit » () (lire en ligne, consulté le )
    Fifth Berkeley Symposium on Mathematical Statistics and Probability
  16. (en) J.M. Bernardo, Bayesian Thinking - Modeling and Computation, vol. 25, Handbook of Statistics, , 17–90 p. (ISBN 9780444515391, DOI 10.1016/S0169-7161(05)25002-2), « Reference analysis »
  17. (en) Wolpert, R.L., « A conversation with James O. Berger », Statistical Science, vol. 9,‎ , p. 205–218 (DOI 10.1214/088342304000000053)
  18. (en) Bernardo, José M. « A Bayesian mathematical statistics primer » () (lire en ligne, consulté le ) [archive du ]
    ICOTS-7
  19. (en) Bishop, C.M., Pattern Recognition and Machine Learning, Springer,
  20. C. Ray Smith et Gary Erickson, Maximum Entropy and Bayesian Methods, Dordrecht, Kluwer, , 29–44 p. (ISBN 0-7923-0224-9, DOI 10.1007/978-94-015-7860-8_2), « From Rationality and Consistency to Bayesian Probability »
  21. (en) Halpern, J., « A counterexample to theorems of Cox and Fine », Journal of Artificial Intelligence Research, vol. 10,‎ , p. 67–85 (DOI 10.1613/jair.536, S2CID 1538503, lire en ligne [archive du ])
  22. Wald, Abraham, Statistical Decision Functions, Wiley,
  23. Bernardo, José M. et Smith, Adrian F.M., Bayesian Theory, John Wiley, (ISBN 0-471-92416-4)
  24. (en) Johann Pfanzagl, Essays in Mathematical Economics In Honor of Oskar Morgenstern., (lire en ligne), « Subjective Probability Derived from the Morgenstern-von Neumann Utility Concept »
  25. (en) Oskar Morgenstern, « Some Reflections on Utility », dans Expected Utility Hypotheses and the Allais Paradox, (ISBN 978-94-015-7629-1, DOI 10.1007/978-94-015-7629-1_6, lire en ligne), p. 175–183
  26. (en) Galavotti, « Anti-Realism in the Philosophy of Probability: Bruno de Finetti's Subjectivism », Erkenntnis, vol. 31, nos 2/3,‎ , p. 239–261 (DOI 10.1007/bf01236565, JSTOR 20012239, S2CID 170802937)
  27. a b et c (en) Galavotti, « The notion of subjective probability in the work of Ramsey and de Finetti », Theoria, vol. 57, no 3,‎ , p. 239–259 (ISSN 1755-2567, DOI 10.1111/j.1755-2567.1991.tb00839.x)
  28. a et b (en) Jérôme Dokic et Pascal Engel, Frank Ramsey: Truth and Success, Routledge, (ISBN 9781134445936)
  29. (en) Donald Davidson, Patrick Suppes et Sidney Siegel, Decision-Making: an Experimental Approach, Stanford University Press,
  30. (en) Stephen Thornton, « Karl Popper », dans Stanford Encyclopedia of Philosophy, Metaphysics Research Lab, Stanford University, (lire en ligne)
  31. (en) Popper, Karl, The Logic of Scientific Discovery, Routledge, (1re éd. 1959) (ISBN 0-415-27843-0, lire en ligne), p. 57
  32. (en) Charles Sanders Peirce et Joseph Jastrow, « On Small Differences in Sensation », Memoirs of the National Academy of Sciences,‎ (lire en ligne)
  33. a et b (en) Bernardo, J. M., Handbook of Statistics, vol. 25, Amsterdam, Elsevier, , 17–90 p. (lire en ligne [archive du ]), « Reference Analysis »