Aller au contenu

« Probabilité bayésienne » : différence entre les versions

Un article de Wikipédia, l'encyclopédie libre.
Contenu supprimé Contenu ajouté
Xmlizer (discuter | contributions)
deplacement des interwikis
Alenoach (discuter | contributions)
Traduction de l'article "Bayesian probability".
Balises : Redirection supprimée Nowiki dans un article
Ligne 1 : Ligne 1 :
Une '''probabilité bayésienne''' est une [[Interprétations de la probabilité|interprétation du concept de probabilité]]. La probabilité n'y est pas représentée en termes de fréquence ou de propension de certains phénomène, mais plutôt comme une estimation raisonnable<ref>{{Article|langue=en|auteur1=Cox|prénom1=R.T.|lien auteur2=Richard Threlkeld Cox|titre=Probability, Frequency, and Reasonable Expectation|périodique=American Journal of Physics|volume=14|numéro=1|pages=1–10|année=1946|date=1946|doi=10.1119/1.1990764|bibcode=1946AmJPh..14....1C}}</ref> représentant un état des connaissances<ref name="ghxaib">{{Ouvrage|langue=en|nom1=Jaynes, E.T.|titre=Maximum-Entropy and Bayesian Methods in Applied Statistics|lieu=Cambridge|éditeur=Cambridge University Press|année=1986|citeseerx=10.1.1.41.1055|titre chapitre=Bayesian Methods: General Background}}</ref>, ou comme la quantification d’une croyance personnelle<ref name="Finetti, B. 1974">{{Ouvrage|langue=en|prénom1=Bruno|nom1=de Finetti|titre=Theory of Probability: A critical introductory treatment|lieu=Chichester|éditeur=John Wiley & Sons Ltd.|année=2017|isbn=9781119286370}}</ref>.
#REDIRECT [[Théorème de Bayes]]

L'interprétation bayésienne des probabilités peut être considérée comme une extension de la [[Calcul des propositions|logique propositionnelle]] qui permet de raisonner avec des [[Hypothèse|hypothèses]]<ref name="Hailperin, T. 1996">{{Ouvrage|langue=en|prénom1=Theodore|nom1=Hailperin|titre=Sentential Probability Logic: Origins, Development, Current Status, and Technical Applications|lieu=London|éditeur=Associated University Presses|année=1996|isbn=0934223459}}</ref>{{,}}<ref>{{Ouvrage|langue=en|prénom1=Colin|nom1=Howson|titre=Foundations of Bayesianism|lieu=Dordrecht|éditeur=Kluwer|année=2001|pages totales=137–159|isbn=1-4020-0223-8|titre chapitre=The Logic of Bayesian Probability|editor2-first=J.}}</ref>, c'est-à-dire avec des propositions pour lesquelles la [[valeur de vérité]] (vrai ou faux) est inconnue. Selon la perspective bayésienne, une probabilité est attribuée à une hypothèse, alors que pour l'inférence fréquentiste, une hypothèse est généralement testée sans se voir attribuer une probabilité.

La probabilité bayésienne appartient à la catégorie des probabilités probantes. Pour évaluer la probabilité d'une hypothèse, le probabiliste bayésien spécifie une [[probabilité a priori]]. Celle-ci est ensuite mise à jour en une [[probabilité a posteriori]] lorsqu'il y a de nouvelles informations pertinentes<ref name="paulos">{{Lien web |langue=en |auteur=Paulos |prénom=John Allen |lien auteur2=John Allen Paulos |titre=The Mathematics of Changing Your Mind [by Sharon Bertsch McGrayne] |url=https://www.nytimes.com/2011/08/07/books/review/the-theory-that-would-not-die-by-sharon-bertsch-mcgrayne-book-review.html |accès url=limité |date=5 August 2011 |consulté le=2011-08-06 |archive-url=https://ghostarchive.org/archive/20220101/https://www.nytimes.com/2011/08/07/books/review/the-theory-that-would-not-die-by-sharon-bertsch-mcgrayne-book-review.html |archive-date=2022-01-01 |journal=New York Times}}</ref>. L'interprétation bayésienne fournit un ensemble standard de procédures et de formules pour effectuer ce calcul.

Le terme ''bayésien'' vient du mathématicien et théologien du XVIIIe siècle [[Thomas Bayes]], qui a fourni le premier traitement mathématique d'un problème non trivial d'[[analyse des données]] statistiques en utilisant ce que l'on appelle maintenant [[Inférence bayésienne|l'inférence bayésienne]]<ref name="HOS">{{Ouvrage|langue=en|prénom1=Stephen M.|nom1=Stigler|titre=The history of statistics|éditeur=Harvard University Press|date=March 1990|isbn=9780674403413}}</ref>{{Rp|131}}. Le mathématicien [[Pierre-Simon de Laplace|Pierre-Simon Laplace]] a été un pionnier et a popularisé ce que l'on appelle aujourd'hui la probabilité bayésienne<ref name="HOS" />{{Rp|97–98}}.

== Méthodologie bayésienne ==
Les méthodes bayésiennes sont caractérisées par les concepts et procédures suivants :

* L'utilisation de [[Variable aléatoire|variables aléatoires]], ou plus généralement de quantités inconnues<ref name="rbp">{{Article|langue=en|auteur1=Dupré, Maurice J.|auteur2=Tipler, Frank J.|titre=New axioms for rigorous Bayesian probability|périodique=Bayesian Analysis|volume=4|numéro=3|pages=599–606|année=2009|date=2009|doi=10.1214/09-BA422|lire en ligne=http://projecteuclid.org/download/pdf_1/euclid.ba/1340369856|citeseerx=10.1.1.612.3036}}</ref>, pour modéliser toutes les sources d'incertitude dans les modèles statistiques, y compris l'incertitude résultant du manque d'information.
* La nécessité de déterminer la [[Loi de probabilité|distribution de probabilité]] à priori en tenant compte des informations (antérieures) disponibles.
* L'utilisation séquentielle du [[théorème de Bayes]] : à mesure que davantage de données deviennent disponibles, la distribution à posteriori est calculée en utilisant le théorème de Bayes. Puis, la distribution postérieure devient la nouvelle probabilité à priori.
* Alors que pour les fréquentistes, une [[Hypothèse nulle|hypothèse]] est une [[Proposition (philosophie)|proposition]] (qui doit être [[Principe de bivalence|soit vraie, soit fausse]]) pour que la probabilité fréquentiste d'une hypothèse soit soit 0 ou 1 ; dans les statistiques bayésiennes, la probabilité qu'on peut attribuer à une hypothèse peut aussi prendre des valeurs entre 0 et 1, si la valeur de vérité est incertaine.

== Probabilités bayésiennes objectives et subjectives ==
De manière générale, il existe deux interprétations de la probabilité bayésienne. Pour les objectivistes, qui interprètent la probabilité comme une extension de la [[logique]], ''la probabilité'' quantifie l'attente raisonnable que toute personne (même un « robot ») partageant les mêmes connaissances devrait partager, conformément aux règles des [[statistiques bayésiennes]]. Cela peut se justifier par le [[théorème de Cox-Jaynes]]<ref name="ghxaib">{{Ouvrage|langue=en|nom1=Jaynes, E.T.|titre=Maximum-Entropy and Bayesian Methods in Applied Statistics|lieu=Cambridge|éditeur=Cambridge University Press|année=1986|citeseerx=10.1.1.41.1055|titre chapitre=Bayesian Methods: General Background}}</ref>{{,}}<ref name="vkdmsn">{{Ouvrage|langue=en|prénom1=Richard T.|nom1=Cox|titre=The algebra of probable inference|lieu=Baltimore, MD; London, UK|éditeur=Reprint|date=1961|isbn=9780801869822}}</ref>. Pour les subjectivistes, ''la probabilité'' correspond à une croyance personnelle<ref name="Finetti, B. 1974">{{Ouvrage|langue=en|prénom1=Bruno|nom1=de Finetti|titre=Theory of Probability: A critical introductory treatment|lieu=Chichester|éditeur=John Wiley & Sons Ltd.|année=2017|isbn=9781119286370}}</ref>. La rationalité et la cohérence laissent la place à des variations substantielles, au sein des contraintes qu'elles posent. Ces contraintes sont justifiées par la [[théorie de la décision]] et le théorème de de Finetti<ref name="Finetti, B. 1974" />. Les variantes objectives et subjectives des probabilités bayésiennes diffèrent principalement par leur interprétation et leur construction de la probabilité à priori.

== Histoire ==
Le terme ''bayésien'' dérive de [[Thomas Bayes]] (1702-1761), qui dans un article intitulé {{Traduction|langue=en|An Essay towards solving a Problem in the Doctrine of Chances|Essai pour résoudre un problème dans la doctrine des chances}}, a prouvé un cas particulier de ce qu'on appelle aujourd'hui le [[théorème de Bayes]]<ref>{{Ouvrage|langue=en|nom1=McGrayne, Sharon Bertsch|titre=The Theory that Would not Die|année=2011|lire en ligne=https://archive.org/details/theorythatwouldn0000mcgr|accès url=registration}}</ref>. Dans ce cas particulier, les distributions à priori et postérieures étaient des [[Loi bêta|distributions bêta]] et les données provenaient des [[Épreuve de Bernoulli|épreuves de Bernoulli]]. C'est [[Pierre-Simon de Laplace]] (1749-1827) qui a introduit une version générale du théorème et l'a utilisée pour aborder des problèmes de [[mécanique céleste]], de statistiques médicales, de [[Fidélité (psychométrie)|fiabilité]] et de [[Théorie du droit|jurisprudence]]<ref>{{Ouvrage|langue=en|nom1=Stigler, Stephen M.|titre=The History of Statistics|éditeur=Harvard University Press|année=1986|isbn=9780674403406|titre chapitre=Chapter&nbsp;3|archivedate=registration}}</ref>. Les premières inférences bayésiennes, qui utilisaient des distributions à priori uniformes suivant le {{Citation|principe de raison insuffisante}} de Laplace, étaient appelées « probabilité inverse » (car elles [[Induction (logique)|déduisent]] à rebours des observations aux paramètres, ou des effets aux causes)<ref name="Fienberg2006">{{Article|langue=en|auteur1=Fienberg, Stephen. E.|titre=When did Bayesian Inference become "Bayesian"?|périodique=Bayesian Analysis|volume=1|numéro=1|pages=5, 1–40|année=2006|date=2006|doi=10.1214/06-BA101|lire en ligne=http://ba.stat.cmu.edu/journal/2006/vol01/issue01/fienberg.pdf|archiveurl=https://web.archive.org/web/20140910070556/http://ba.stat.cmu.edu/journal/2006/vol01/issue01/fienberg.pdf|archivedate=10 September 2014}}</ref>. Après les années 1920, la « probabilité inverse » a été largement supplantée par un ensemble de méthodes appelées statistiques fréquentistes<ref name="Fienberg2006" />.

Au XXe siècle, les idées de Laplace se sont développées selon deux directions, donnant naissance à des courants de pensée ''objectifs'' et ''subjectifs'' dans la pratique bayésienne. Le livre ''Theory of Probability'' de [[Harold Jeffreys]] (publié pour la première fois en 1939) a joué un rôle important dans la renaissance de la vision bayésienne des probabilités. Il est suivi des travaux d'[[Abraham Wald]] en 1950 et de [[Leonard Savage|Leonard J. Savage]] en 1954. L'adjectif ''bayésien'' date lui-même des années 1950, et les termes dérivés ''bayésianisme'' et ''néo-bayésianisme'' datent des années 1960<ref>{{Article|langue=en|auteur1=Harris|prénom1=Marshall Dees|titre=Recent developments of the so-called Bayesian approach to statistics|périodique=Legal-Economic Research|pages=125 (fn. #52), 126|éditeur=University of Iowa|année=1959|date=1959|extrait=The works of [[Abraham Wald|Wald]], ''Statistical Decision Functions'' (1950) and Savage, ''The Foundation of Statistics'' (1954) are commonly regarded starting points for current Bayesian approaches|department=Agricultural Law Center}}</ref>{{,}}<ref>{{Ouvrage|langue=en|titre=Annals of the Computation Laboratory of Harvard University|volume=31|passage=180|année=1962|extrait=This revolution, which may or may not succeed, is neo-Bayesianism. Jeffreys tried to introduce this approach, but did not succeed at the time in giving it general appeal.}}</ref>{{,}}<ref>{{Lien conférence|prénom1=Oscar|auteur1=Kempthorne|titre=The Classical Problem of Inference—Goodness of Fit|titre conférence=Fifth Berkeley Symposium on Mathematical Statistics and Probability|année=1967|url=https://books.google.com/books?id=IC4Ku_7dBFUC&pg=PA235|passage=235|langue=en|consulté le=14 novembre 2023|date=1967}}</ref>. Selon les objectivistes, l'analyse statistique dépend uniquement du modèle supposé et des données analysées<ref name="Bernardo">{{Ouvrage|langue=en|prénom1=J.M.|nom1=Bernardo|titre=Bayesian Thinking - Modeling and Computation|volume=25|éditeur=Handbook of Statistics|année=2005|pages totales=17–90|isbn=9780444515391|doi=10.1016/S0169-7161(05)25002-2|titre chapitre=Reference analysis}}</ref>. Il ne doit y avoir aucune décision subjective. À l'inverse, les statisticiens « subjectivistes » nient la possibilité d’une analyse pleinement objective du cas général.

Dans les années 1980, il y a eu une croissance spectaculaire de la recherche et des applications des méthodes bayésiennes. Cette croissance est principalement attribuée à la découverte des [[Méthode de Monte-Carlo par chaînes de Markov|méthodes de Monte Carlo par chaînes de Markov]], qui donna lieu à la résolution de nombreux problèmes calculatoires et à un intérêt croissant pour les applications alternatives et complexes<ref>{{Article|langue=en|auteur1=Wolpert, R.L.|titre=A conversation with James O. Berger|périodique=Statistical Science|volume=9|pages=205–218|année=2004|date=2004|doi=10.1214/088342304000000053}}</ref>. Même si les statistiques fréquentistes restent populaires (comme le démontre le fait qu'une grande partie de l'enseignement de premier cycle repose sur elles<ref>{{Lien conférence|auteur1=Bernardo, José M.|année=2006|url=http://www.ime.usp.br/~abe/ICOTS7/Proceedings/PDFs/InvitedPapers/3I2_BERN.pdf|archive-url=https://ghostarchive.org/archive/20221009/http://www.ime.usp.br/~abe/ICOTS7/Proceedings/PDFs/InvitedPapers/3I2_BERN.pdf|archive-date=2022-10-09|titre=A Bayesian mathematical statistics primer|titre conférence=ICOTS-7|lieu édition=Bern|langue=en|consulté le=14 novembre 2023|date=2006}}</ref>), les méthodes bayésiennes sont largement acceptées et utilisées, par exemple dans le domaine de l'[[apprentissage automatique]]<ref name="ReferenceA">{{Ouvrage|langue=en|nom1=Bishop, C.M.|titre=Pattern Recognition and Machine Learning|éditeur=Springer|année=2007}}</ref>.

== Justification des probabilités bayésiennes ==
L'utilisation des probabilités bayésiennes comme base de l'[[inférence bayésienne]] a été soutenue par plusieurs arguments, tels que les [[Théorème de Cox-Jaynes|axiomes de Cox]], l'argument du livre néerlandais, les arguments basés sur la [[théorie de la décision]] et le théorème de Finetti.

=== Approche axiomatique ===
[[Richard Threlkeld Cox|Richard T. Cox]] a montré que la mise à jour bayésienne découle de plusieurs axiomes, dont deux [[Équation fonctionnelle|équations fonctionnelles]] et une hypothèse de différentiabilité<ref name="vkdmsn">{{Ouvrage|langue=en|prénom1=Richard T.|nom1=Cox|titre=The algebra of probable inference|lieu=Baltimore, MD; London, UK|éditeur=Reprint|date=1961|isbn=9780801869822}}</ref>{{,}}<ref>{{Ouvrage|prénom1=C. Ray|nom1=Smith|prénom2=Gary|nom2=Erickson|titre=Maximum Entropy and Bayesian Methods|lieu=Dordrecht|éditeur=Kluwer|année=1989|pages totales=29–44|isbn=0-7923-0224-9|doi=10.1007/978-94-015-7860-8_2|titre chapitre=From Rationality and Consistency to Bayesian Probability}}</ref>. L'hypothèse de différentiabilité ou même de continuité est controversée. Halpern a trouvé un contre-exemple basé sur son observation selon laquelle l'algèbre booléenne des énoncés peut être finie<ref>{{Article|langue=en|auteur1=Halpern, J.|titre=A counterexample to theorems of Cox and Fine|périodique=Journal of Artificial Intelligence Research|volume=10|pages=67–85|année=1999|date=1999|doi=10.1613/jair.536|s2cid=1538503|lire en ligne=http://www.cs.cornell.edu/info/people/halpern/papers/cox.pdf|archiveurl=https://ghostarchive.org/archive/20221009/http://www.cs.cornell.edu/info/people/halpern/papers/cox.pdf|archivedate=2022-10-09}}</ref>. D'autres axiomatisations ont été suggérées par divers auteurs dans le but de rendre la théorie plus rigoureuse<ref name="rbp">{{Article|langue=en|auteur1=Dupré, Maurice J.|auteur2=Tipler, Frank J.|titre=New axioms for rigorous Bayesian probability|périodique=Bayesian Analysis|volume=4|numéro=3|pages=599–606|année=2009|date=2009|doi=10.1214/09-BA422|lire en ligne=http://projecteuclid.org/download/pdf_1/euclid.ba/1340369856|citeseerx=10.1.1.612.3036}}</ref>.

=== Approche du livre néerlandais ===
[[Bruno de Finetti]] a proposé l'argument du livre néerlandais basé sur les paris. Dans cette expérience de pensée, un [[bookmaker]] malin crée un livre hollandais en fixant les [[Cote (probabilités)|cotes]] et les paris pour garantir que le bookmaker profite – aux dépens des joueurs – quel que soit le résultat de l'événement (une course de chevaux, par exemple) sur lequel les joueurs parient.

Selon [[Ian Hacking]], l'argument du livre néerlandais est cependant aussi compatible avec des approches non bayésiennes.

=== Approche de la théorie de la décision ===
Une justification de l'utilisation de l'inférence bayésienne venant de la [[théorie de la décision]] a été donnée par [[Abraham Wald]], qui a prouvé que toute procédure statistique admissible est soit une procédure bayésienne, soit une limite des procédures bayésiennes<ref>{{Ouvrage|nom1=Wald, Abraham|titre=Statistical Decision Functions|éditeur=Wiley|année=1950}}</ref>. Et à l’inverse, toute procédure bayésienne est admissible<ref>{{Ouvrage|nom1=Bernardo, José M.|nom2=Smith, Adrian F.M.|titre=Bayesian Theory|éditeur=John Wiley|année=1994|isbn=0-471-92416-4}}</ref>.

== Probabilités personnelles et méthodes objectives pour construire des à priori ==
<span class="cx-segment" data-segmentid="275">Suite aux travaux sur la [[théorie de l'utilité espérée]] de [[Frank Ramsey|Ramsey]] et [[John von Neumann|von Neumann]], les théoriciens de la décision ont fait en sorte d'expliquer le comportement rationnel en utilisant une distribution de probabilité pour l'agent.</span> <span class="cx-segment" data-segmentid="282">[[Johann Pfanzagl]] a fourni une axiomatisation de la probabilité subjective et de l'utilité, une tâche laissée inachevée par von Neumann et [[Oskar Morgenstern]] dans leur livre {{Traduction|langue=en|[[Theory of Games and Economic Behavior]]|Théorie des Jeux et du Comportement Économique}} ; leur théorie originale supposant par commodité que tous les agents avaient la même distribution de probabilité</span><ref>{{Ouvrage|langue=en|auteur1=Johann Pfanzagl|titre=Essays in Mathematical Economics In Honor of Oskar Morgenstern.|éditeur=|année=1967|lire en ligne=https://archive.org/details/essaysinmathemat0000shub|titre chapitre=Subjective Probability Derived from the Morgenstern-von Neumann Utility Concept}}</ref>. <span class="cx-segment" data-segmentid="286">L'axiomatisation de Pfanzagl a été approuvée par Oskar Morgenstern</span><ref>{{Chapitre|langue=en|prénom1=Oskar|nom1=Morgenstern|titre chapitre=Some Reflections on Utility|titre ouvrage=Expected Utility Hypotheses and the Allais Paradox|éditeur=|collection=|date=1979|isbn=978-94-015-7629-1|doi=10.1007/978-94-015-7629-1_6|lire en ligne=https://doi.org/10.1007/978-94-015-7629-1_6|consulté le=2023-11-14|passage=175–183}}</ref>.

<span class="cx-segment" data-segmentid="287">Ramsey et [[Leonard Savage|Savage]] ont noté que la distribution de probabilité de chaque agent pouvait être étudiée objectivement dans le cadre d'expériences statistiques.</span> <span class="cx-segment" data-segmentid="289">Les procédures de [[test statistique]] sur les probabilités (avec un nombre finit d'échantillons) viennent de [[Frank Ramsey|Ramsey]] (1931) et [[Bruno de Finetti|de Finetti]] (1931, 1937, 1964, 1970).</span> <span class="cx-segment" data-segmentid="293">[[Bruno de Finetti]]<ref>{{Article|langue=en|auteur1=Galavotti|prénom1=Maria Carla|titre=Anti-Realism in the Philosophy of Probability: Bruno de Finetti's Subjectivism|périodique=Erkenntnis|volume=31|numéro=2/3|pages=239–261|date=1989-01-01|doi=10.1007/bf01236565|s2cid=170802937|jstor=20012239}}</ref></span>{{,}}<span class="cx-segment" data-segmentid="293"><ref name=":0">{{Article|langue=en|auteur1=Galavotti|prénom1=Maria Carla|titre=The notion of subjective probability in the work of Ramsey and de Finetti|périodique=Theoria|volume=57|numéro=3|pages=239–259|date=1991-12-01|issn=1755-2567|doi=10.1111/j.1755-2567.1991.tb00839.x}}</ref> et [[Frank Ramsey|Frank P. Ramsey]]<ref name=":0" /></span>{{,}}<span class="cx-segment" data-segmentid="293"><ref name=":1">{{Ouvrage|langue=en|prénom1=Jérôme|nom1=Dokic|prénom2=Pascal|nom2=Engel|titre=Frank Ramsey: Truth and Success|éditeur=Routledge|année=2003|isbn=9781134445936}}</ref> reconnaissent tous deux s'être appuyés sur la [[Pragmaticisme|philosophie pragmatique]], en particulier (pour Ramsey) sur les travaux de [[Charles Sanders Peirce|Charles S. Peirce]]<ref name=":0" /></span>{{,}}<span class="cx-segment" data-segmentid="293"><ref name=":1" /></span>.

<span class="cx-segment" data-segmentid="298">Le « test de Ramsey » pour évaluer les distributions de probabilité est réalisable en théorie et a occupé les psychologues expérimentaux pendant un demi-siècle</span><ref>{{Ouvrage|langue=en|auteur1=[[Donald Davidson]]|auteur2=Patrick Suppes|auteur3=Sidney Siegel|titre=Decision-Making: an Experimental Approach|éditeur=Stanford University Press|année=1957}}</ref>. <span class="cx-segment" data-segmentid="299">Ce travail démontre que les propositions de probabilité bayésienne peuvent être [[Réfutabilité|falsifiées]] et répondent ainsi à un critère empirique de [[Charles Sanders Peirce|Charles S. Peirce]], dont les travaux ont inspiré Ramsey</span> <span class="cx-segment" data-segmentid="302">(ce critère de [[Réfutabilité|falsifiabilité]] a été popularisé par [[Karl Popper]]<ref>{{Article encyclopédique|langue=en|prénom1=Stephen|nom1=Thornton|titre article=Karl Popper|encyclopédie=Stanford Encyclopedia of Philosophy|éditeur=Metaphysics Research Lab, Stanford University|date=7 August 2018|lire en ligne=http://plato.stanford.edu/entries/popper/#ProDem}}</ref></span>{{,}}<span class="cx-segment" data-segmentid="302"><ref>{{Ouvrage|langue=en|nom1=Popper, Karl|titre=The Logic of Scientific Discovery|passage=57|éditeur=Routledge|année=2002|année première édition=1959|isbn=0-415-27843-0|lire en ligne=https://books.google.com/books?id=T76Zd20IYlgC&q=logic+of+scientific+discovery|via=Google Books}}</ref>).</span>

<span class="cx-segment" data-segmentid="305">Les travaux modernes sur l'évaluation expérimentale des probabilités personnelles utilisent les procédures de randomisation, de [[Étude randomisée en double aveugle|mise en aveugle]] et de décision booléenne de l'expérience Peirce-Jastrow</span><ref>{{Article|langue=en|auteur1=Charles Sanders Peirce|lien auteur1=Charles Sanders Peirce|auteur2=Joseph Jastrow|lien auteur2=Joseph Jastrow|titre=On Small Differences in Sensation|périodique=Memoirs of the National Academy of Sciences|date=17 octobre 1884|lire en ligne=http://psychclassics.yorku.ca/Peirce/small-diffs.htm}}</ref>. <span class="cx-segment" data-segmentid="307">Puisque les individus agissent selon différents jugements de probabilité, les probabilités de ces agents sont « personnelles » (mais se prêtent à une étude objective).</span>

<span class="cx-segment" data-segmentid="308">Les probabilités personnelles sont problématiques pour la science et pour certaines applications où les décideurs manquent de connaissances ou de temps pour spécifier une distribution de probabilité bien informée (sur laquelle ils sont prêts à agir).</span> <span class="cx-segment" data-segmentid="309">Pour répondre aux besoins de la science et aux limites humaines, les statisticiens bayésiens ont développé des méthodes « objectives » pour spécifier les probabilités a priori.</span>

<span class="cx-segment" data-segmentid="310">En effet, les bayésiens objectivistes ont soutenu que l'état antérieur des connaissances définit une ''unique'' distribution de probabilité à priori pour les problèmes statistiques « réguliers » (cf.</span> <span class="cx-segment" data-segmentid="311">[[Problème bien posé|problèmes bien posés]]).</span> <span class="cx-segment" data-segmentid="313">Trouver la bonne méthode pour construire de tels à priori « objectifs » (pour des classes appropriées de problèmes réguliers) a été la quête des théoriciens de la statistique depuis Laplace jusqu'à [[John Maynard Keynes]], [[Harold Jeffreys]] et [[Edwin Thompson Jaynes]].</span> <span class="cx-segment" data-segmentid="317">Ces théoriciens et leurs successeurs ont suggéré plusieurs méthodes pour construire des à priori « objectifs » (Malheureusement, il n'est pas clair comment évaluer « l'objectivité » relative de ces méthodes pour calculer l'à priori) :</span>

* [[Principe d'entropie maximale|<span class="cx-segment" data-segmentid="318">Entropie maximale</span>]]
* [[Mesure de Haar|<span class="cx-segment" data-segmentid="320">Analyse du groupe de transformation</span>]]
* <span class="cx-segment" data-segmentid="322">Analyse de référence</span>

<span class="cx-segment" data-segmentid="324">Chacune de ces méthodes fournit des à priori utiles pour les problèmes « réguliers » à un paramètre, et chaque à priori peut gérer certains [[Modèle statistique|modèles statistiques]] difficiles (avec « irrégularité » ou plusieurs paramètres).</span> <span class="cx-segment" data-segmentid="326">Chacune de ces méthodes a été utile dans la pratique bayésienne.</span> <span class="cx-segment" data-segmentid="327">En effet, des méthodes de construction d'à priori « objectifs » (ou « par défaut » ou « d'ignorance ») ont été développées par des bayésiens se considérant pourtant subjectivistes, comme James Berger et José-Miguel Bernardo, simplement parce que de tels a priori sont nécessaires à la pratique bayésienne, en particulier en sciences<ref name="refa2">{{Ouvrage|langue=en|nom1=Bernardo, J. M.|titre=Handbook of Statistics|volume=25|lieu=Amsterdam|éditeur=Elsevier|année=2005|pages totales=17–90|lire en ligne=http://www.uv.es/~bernardo/RefAna.pdf|titre chapitre=Reference Analysis|archive-url=https://ghostarchive.org/archive/20221009/http://www.uv.es/~bernardo/RefAna.pdf|archive-date=2022-10-09|editor1-first=D.K.|editor2-last=C. R. Rao|editor2-first=C. R.}}</ref></span>. <span class="cx-segment" data-segmentid="332">La quête de « la méthode universelle de construction des à priori » a continu" d’attirer les théoriciens de la statistique<ref name="refa2" /></span>.

<span class="cx-segment" data-segmentid="333">Ainsi, le statisticien bayésien doit soit utiliser des à priori informés (en utilisant une expertise pertinente ou des données antérieures), soit choisir parmi les méthodes concurrentes pour construire des à priori « objectifs ».</span>

== Voir également ==
* [[Épistémologie]]
* [[Fonction de vraisemblance]]
* [[Réseau bayésien]]
* [[Statistique bayésienne]]
* [[Théorème de Bayes]]

== Références ==
{{Traduction/Référence|lang1=en|art1=Bayesian probability|id1=1184280215}}
<references />{{Portail|statistiques}}
<nowiki>[[Catégorie:Philosophie des sciences]]</nowiki>

<nowiki>[[Catégorie:Philosophie des mathématiques]]</nowiki>

<nowiki>[[Catégorie:Statistique bayésienne]]</nowiki>

Version du 14 novembre 2023 à 15:34

Une probabilité bayésienne est une interprétation du concept de probabilité. La probabilité n'y est pas représentée en termes de fréquence ou de propension de certains phénomène, mais plutôt comme une estimation raisonnable[1] représentant un état des connaissances[2], ou comme la quantification d’une croyance personnelle[3].

L'interprétation bayésienne des probabilités peut être considérée comme une extension de la logique propositionnelle qui permet de raisonner avec des hypothèses[4],[5], c'est-à-dire avec des propositions pour lesquelles la valeur de vérité (vrai ou faux) est inconnue. Selon la perspective bayésienne, une probabilité est attribuée à une hypothèse, alors que pour l'inférence fréquentiste, une hypothèse est généralement testée sans se voir attribuer une probabilité.

La probabilité bayésienne appartient à la catégorie des probabilités probantes. Pour évaluer la probabilité d'une hypothèse, le probabiliste bayésien spécifie une probabilité a priori. Celle-ci est ensuite mise à jour en une probabilité a posteriori lorsqu'il y a de nouvelles informations pertinentes[6]. L'interprétation bayésienne fournit un ensemble standard de procédures et de formules pour effectuer ce calcul.

Le terme bayésien vient du mathématicien et théologien du XVIIIe siècle Thomas Bayes, qui a fourni le premier traitement mathématique d'un problème non trivial d'analyse des données statistiques en utilisant ce que l'on appelle maintenant l'inférence bayésienne[7]:131. Le mathématicien Pierre-Simon Laplace a été un pionnier et a popularisé ce que l'on appelle aujourd'hui la probabilité bayésienne[7]:97–98.

Méthodologie bayésienne

Les méthodes bayésiennes sont caractérisées par les concepts et procédures suivants :

  • L'utilisation de variables aléatoires, ou plus généralement de quantités inconnues[8], pour modéliser toutes les sources d'incertitude dans les modèles statistiques, y compris l'incertitude résultant du manque d'information.
  • La nécessité de déterminer la distribution de probabilité à priori en tenant compte des informations (antérieures) disponibles.
  • L'utilisation séquentielle du théorème de Bayes : à mesure que davantage de données deviennent disponibles, la distribution à posteriori est calculée en utilisant le théorème de Bayes. Puis, la distribution postérieure devient la nouvelle probabilité à priori.
  • Alors que pour les fréquentistes, une hypothèse est une proposition (qui doit être soit vraie, soit fausse) pour que la probabilité fréquentiste d'une hypothèse soit soit 0 ou 1 ; dans les statistiques bayésiennes, la probabilité qu'on peut attribuer à une hypothèse peut aussi prendre des valeurs entre 0 et 1, si la valeur de vérité est incertaine.

Probabilités bayésiennes objectives et subjectives

De manière générale, il existe deux interprétations de la probabilité bayésienne. Pour les objectivistes, qui interprètent la probabilité comme une extension de la logique, la probabilité quantifie l'attente raisonnable que toute personne (même un « robot ») partageant les mêmes connaissances devrait partager, conformément aux règles des statistiques bayésiennes. Cela peut se justifier par le théorème de Cox-Jaynes[2],[9]. Pour les subjectivistes, la probabilité correspond à une croyance personnelle[3]. La rationalité et la cohérence laissent la place à des variations substantielles, au sein des contraintes qu'elles posent. Ces contraintes sont justifiées par la théorie de la décision et le théorème de de Finetti[3]. Les variantes objectives et subjectives des probabilités bayésiennes diffèrent principalement par leur interprétation et leur construction de la probabilité à priori.

Histoire

Le terme bayésien dérive de Thomas Bayes (1702-1761), qui dans un article intitulé An Essay towards solving a Problem in the Doctrine of Chances (« Essai pour résoudre un problème dans la doctrine des chances »), a prouvé un cas particulier de ce qu'on appelle aujourd'hui le théorème de Bayes[10]. Dans ce cas particulier, les distributions à priori et postérieures étaient des distributions bêta et les données provenaient des épreuves de Bernoulli. C'est Pierre-Simon de Laplace (1749-1827) qui a introduit une version générale du théorème et l'a utilisée pour aborder des problèmes de mécanique céleste, de statistiques médicales, de fiabilité et de jurisprudence[11]. Les premières inférences bayésiennes, qui utilisaient des distributions à priori uniformes suivant le « principe de raison insuffisante » de Laplace, étaient appelées « probabilité inverse » (car elles déduisent à rebours des observations aux paramètres, ou des effets aux causes)[12]. Après les années 1920, la « probabilité inverse » a été largement supplantée par un ensemble de méthodes appelées statistiques fréquentistes[12].

Au XXe siècle, les idées de Laplace se sont développées selon deux directions, donnant naissance à des courants de pensée objectifs et subjectifs dans la pratique bayésienne. Le livre Theory of Probability de Harold Jeffreys (publié pour la première fois en 1939) a joué un rôle important dans la renaissance de la vision bayésienne des probabilités. Il est suivi des travaux d'Abraham Wald en 1950 et de Leonard J. Savage en 1954. L'adjectif bayésien date lui-même des années 1950, et les termes dérivés bayésianisme et néo-bayésianisme datent des années 1960[13],[14],[15]. Selon les objectivistes, l'analyse statistique dépend uniquement du modèle supposé et des données analysées[16]. Il ne doit y avoir aucune décision subjective. À l'inverse, les statisticiens « subjectivistes » nient la possibilité d’une analyse pleinement objective du cas général.

Dans les années 1980, il y a eu une croissance spectaculaire de la recherche et des applications des méthodes bayésiennes. Cette croissance est principalement attribuée à la découverte des méthodes de Monte Carlo par chaînes de Markov, qui donna lieu à la résolution de nombreux problèmes calculatoires et à un intérêt croissant pour les applications alternatives et complexes[17]. Même si les statistiques fréquentistes restent populaires (comme le démontre le fait qu'une grande partie de l'enseignement de premier cycle repose sur elles[18]), les méthodes bayésiennes sont largement acceptées et utilisées, par exemple dans le domaine de l'apprentissage automatique[19].

Justification des probabilités bayésiennes

L'utilisation des probabilités bayésiennes comme base de l'inférence bayésienne a été soutenue par plusieurs arguments, tels que les axiomes de Cox, l'argument du livre néerlandais, les arguments basés sur la théorie de la décision et le théorème de Finetti.

Approche axiomatique

Richard T. Cox a montré que la mise à jour bayésienne découle de plusieurs axiomes, dont deux équations fonctionnelles et une hypothèse de différentiabilité[9],[20]. L'hypothèse de différentiabilité ou même de continuité est controversée. Halpern a trouvé un contre-exemple basé sur son observation selon laquelle l'algèbre booléenne des énoncés peut être finie[21]. D'autres axiomatisations ont été suggérées par divers auteurs dans le but de rendre la théorie plus rigoureuse[8].

Approche du livre néerlandais

Bruno de Finetti a proposé l'argument du livre néerlandais basé sur les paris. Dans cette expérience de pensée, un bookmaker malin crée un livre hollandais en fixant les cotes et les paris pour garantir que le bookmaker profite – aux dépens des joueurs – quel que soit le résultat de l'événement (une course de chevaux, par exemple) sur lequel les joueurs parient.

Selon Ian Hacking, l'argument du livre néerlandais est cependant aussi compatible avec des approches non bayésiennes.

Approche de la théorie de la décision

Une justification de l'utilisation de l'inférence bayésienne venant de la théorie de la décision a été donnée par Abraham Wald, qui a prouvé que toute procédure statistique admissible est soit une procédure bayésienne, soit une limite des procédures bayésiennes[22]. Et à l’inverse, toute procédure bayésienne est admissible[23].

Probabilités personnelles et méthodes objectives pour construire des à priori

Suite aux travaux sur la théorie de l'utilité espérée de Ramsey et von Neumann, les théoriciens de la décision ont fait en sorte d'expliquer le comportement rationnel en utilisant une distribution de probabilité pour l'agent. Johann Pfanzagl a fourni une axiomatisation de la probabilité subjective et de l'utilité, une tâche laissée inachevée par von Neumann et Oskar Morgenstern dans leur livre Theory of Games and Economic Behavior (« Théorie des Jeux et du Comportement Économique ») ; leur théorie originale supposant par commodité que tous les agents avaient la même distribution de probabilité[24]. L'axiomatisation de Pfanzagl a été approuvée par Oskar Morgenstern[25].

Ramsey et Savage ont noté que la distribution de probabilité de chaque agent pouvait être étudiée objectivement dans le cadre d'expériences statistiques. Les procédures de test statistique sur les probabilités (avec un nombre finit d'échantillons) viennent de Ramsey (1931) et de Finetti (1931, 1937, 1964, 1970). Bruno de Finetti[26],[27] et Frank P. Ramsey[27],[28] reconnaissent tous deux s'être appuyés sur la philosophie pragmatique, en particulier (pour Ramsey) sur les travaux de Charles S. Peirce[27],[28].

Le « test de Ramsey » pour évaluer les distributions de probabilité est réalisable en théorie et a occupé les psychologues expérimentaux pendant un demi-siècle[29]. Ce travail démontre que les propositions de probabilité bayésienne peuvent être falsifiées et répondent ainsi à un critère empirique de Charles S. Peirce, dont les travaux ont inspiré Ramsey (ce critère de falsifiabilité a été popularisé par Karl Popper[30],[31]).

Les travaux modernes sur l'évaluation expérimentale des probabilités personnelles utilisent les procédures de randomisation, de mise en aveugle et de décision booléenne de l'expérience Peirce-Jastrow[32]. Puisque les individus agissent selon différents jugements de probabilité, les probabilités de ces agents sont « personnelles » (mais se prêtent à une étude objective).

Les probabilités personnelles sont problématiques pour la science et pour certaines applications où les décideurs manquent de connaissances ou de temps pour spécifier une distribution de probabilité bien informée (sur laquelle ils sont prêts à agir). Pour répondre aux besoins de la science et aux limites humaines, les statisticiens bayésiens ont développé des méthodes « objectives » pour spécifier les probabilités a priori.

En effet, les bayésiens objectivistes ont soutenu que l'état antérieur des connaissances définit une unique distribution de probabilité à priori pour les problèmes statistiques « réguliers » (cf. problèmes bien posés). Trouver la bonne méthode pour construire de tels à priori « objectifs » (pour des classes appropriées de problèmes réguliers) a été la quête des théoriciens de la statistique depuis Laplace jusqu'à John Maynard Keynes, Harold Jeffreys et Edwin Thompson Jaynes. Ces théoriciens et leurs successeurs ont suggéré plusieurs méthodes pour construire des à priori « objectifs » (Malheureusement, il n'est pas clair comment évaluer « l'objectivité » relative de ces méthodes pour calculer l'à priori) :

Chacune de ces méthodes fournit des à priori utiles pour les problèmes « réguliers » à un paramètre, et chaque à priori peut gérer certains modèles statistiques difficiles (avec « irrégularité » ou plusieurs paramètres). Chacune de ces méthodes a été utile dans la pratique bayésienne. En effet, des méthodes de construction d'à priori « objectifs » (ou « par défaut » ou « d'ignorance ») ont été développées par des bayésiens se considérant pourtant subjectivistes, comme James Berger et José-Miguel Bernardo, simplement parce que de tels a priori sont nécessaires à la pratique bayésienne, en particulier en sciences[33]. La quête de « la méthode universelle de construction des à priori » a continu" d’attirer les théoriciens de la statistique[33].

Ainsi, le statisticien bayésien doit soit utiliser des à priori informés (en utilisant une expertise pertinente ou des données antérieures), soit choisir parmi les méthodes concurrentes pour construire des à priori « objectifs ».

Voir également

Références

  1. (en) Cox, « Probability, Frequency, and Reasonable Expectation », American Journal of Physics, vol. 14, no 1,‎ , p. 1–10 (DOI 10.1119/1.1990764, Bibcode 1946AmJPh..14....1C)
  2. a et b (en) Jaynes, E.T., Maximum-Entropy and Bayesian Methods in Applied Statistics, Cambridge, Cambridge University Press, (CiteSeerx 10.1.1.41.1055), « Bayesian Methods: General Background »
  3. a b et c (en) Bruno de Finetti, Theory of Probability: A critical introductory treatment, Chichester, John Wiley & Sons Ltd., (ISBN 9781119286370)
  4. (en) Theodore Hailperin, Sentential Probability Logic: Origins, Development, Current Status, and Technical Applications, London, Associated University Presses, (ISBN 0934223459)
  5. (en) Colin Howson, Foundations of Bayesianism, Dordrecht, Kluwer, , 137–159 p. (ISBN 1-4020-0223-8), « The Logic of Bayesian Probability »
  6. (en) Paulos, « The Mathematics of Changing Your Mind [by Sharon Bertsch McGrayne] » [archive du ] Accès limité, (consulté le )
  7. a et b (en) Stephen M. Stigler, The history of statistics, Harvard University Press, (ISBN 9780674403413)
  8. a et b (en) Dupré, Maurice J. et Tipler, Frank J., « New axioms for rigorous Bayesian probability », Bayesian Analysis, vol. 4, no 3,‎ , p. 599–606 (DOI 10.1214/09-BA422, CiteSeerx 10.1.1.612.3036, lire en ligne)
  9. a et b (en) Richard T. Cox, The algebra of probable inference, Baltimore, MD; London, UK, Reprint, (ISBN 9780801869822)
  10. (en) McGrayne, Sharon Bertsch, The Theory that Would not Die, (lire en ligne)
  11. (en) Stigler, Stephen M., The History of Statistics, Harvard University Press, (ISBN 9780674403406), « Chapter 3 »
  12. a et b (en) Fienberg, Stephen. E., « When did Bayesian Inference become "Bayesian"? », Bayesian Analysis, vol. 1, no 1,‎ , p. 5, 1–40 (DOI 10.1214/06-BA101, lire en ligne [archive du ])
  13. (en) Harris, « Recent developments of the so-called Bayesian approach to statistics », Legal-Economic Research, University of Iowa,‎ , p. 125 (fn. #52), 126 :

    « The works of Wald, Statistical Decision Functions (1950) and Savage, The Foundation of Statistics (1954) are commonly regarded starting points for current Bayesian approaches »

  14. (en) Annals of the Computation Laboratory of Harvard University, vol. 31, , p. 180 :

    « This revolution, which may or may not succeed, is neo-Bayesianism. Jeffreys tried to introduce this approach, but did not succeed at the time in giving it general appeal. »

  15. (en) Oscar Kempthorne « The Classical Problem of Inference—Goodness of Fit » () (lire en ligne, consulté le )
    Fifth Berkeley Symposium on Mathematical Statistics and Probability
  16. (en) J.M. Bernardo, Bayesian Thinking - Modeling and Computation, vol. 25, Handbook of Statistics, , 17–90 p. (ISBN 9780444515391, DOI 10.1016/S0169-7161(05)25002-2), « Reference analysis »
  17. (en) Wolpert, R.L., « A conversation with James O. Berger », Statistical Science, vol. 9,‎ , p. 205–218 (DOI 10.1214/088342304000000053)
  18. (en) Bernardo, José M. « A Bayesian mathematical statistics primer » () (lire en ligne, consulté le ) [archive du ]
    ICOTS-7
  19. (en) Bishop, C.M., Pattern Recognition and Machine Learning, Springer,
  20. C. Ray Smith et Gary Erickson, Maximum Entropy and Bayesian Methods, Dordrecht, Kluwer, , 29–44 p. (ISBN 0-7923-0224-9, DOI 10.1007/978-94-015-7860-8_2), « From Rationality and Consistency to Bayesian Probability »
  21. (en) Halpern, J., « A counterexample to theorems of Cox and Fine », Journal of Artificial Intelligence Research, vol. 10,‎ , p. 67–85 (DOI 10.1613/jair.536, S2CID 1538503, lire en ligne [archive du ])
  22. Wald, Abraham, Statistical Decision Functions, Wiley,
  23. Bernardo, José M. et Smith, Adrian F.M., Bayesian Theory, John Wiley, (ISBN 0-471-92416-4)
  24. (en) Johann Pfanzagl, Essays in Mathematical Economics In Honor of Oskar Morgenstern., (lire en ligne), « Subjective Probability Derived from the Morgenstern-von Neumann Utility Concept »
  25. (en) Oskar Morgenstern, « Some Reflections on Utility », dans Expected Utility Hypotheses and the Allais Paradox, (ISBN 978-94-015-7629-1, DOI 10.1007/978-94-015-7629-1_6, lire en ligne), p. 175–183
  26. (en) Galavotti, « Anti-Realism in the Philosophy of Probability: Bruno de Finetti's Subjectivism », Erkenntnis, vol. 31, nos 2/3,‎ , p. 239–261 (DOI 10.1007/bf01236565, JSTOR 20012239, S2CID 170802937)
  27. a b et c (en) Galavotti, « The notion of subjective probability in the work of Ramsey and de Finetti », Theoria, vol. 57, no 3,‎ , p. 239–259 (ISSN 1755-2567, DOI 10.1111/j.1755-2567.1991.tb00839.x)
  28. a et b (en) Jérôme Dokic et Pascal Engel, Frank Ramsey: Truth and Success, Routledge, (ISBN 9781134445936)
  29. (en) Donald Davidson, Patrick Suppes et Sidney Siegel, Decision-Making: an Experimental Approach, Stanford University Press,
  30. (en) Stephen Thornton, « Karl Popper », dans Stanford Encyclopedia of Philosophy, Metaphysics Research Lab, Stanford University, (lire en ligne)
  31. (en) Popper, Karl, The Logic of Scientific Discovery, Routledge, (1re éd. 1959) (ISBN 0-415-27843-0, lire en ligne), p. 57
  32. (en) Charles Sanders Peirce et Joseph Jastrow, « On Small Differences in Sensation », Memoirs of the National Academy of Sciences,‎ (lire en ligne)
  33. a et b (en) Bernardo, J. M., Handbook of Statistics, vol. 25, Amsterdam, Elsevier, , 17–90 p. (lire en ligne [archive du ]), « Reference Analysis »

[[Catégorie:Philosophie des sciences]]

[[Catégorie:Philosophie des mathématiques]]

[[Catégorie:Statistique bayésienne]]