Why Most Published Research Findings Are False

article scientifique (publié 2005-08)
Why most published research findings are false
Titre original
(en) Why most published research findings are falseVoir et modifier les données sur Wikidata
Format
Article scientifique (en)Voir et modifier les données sur Wikidata
Langue
Auteur
Sujets
Date de parution
Publié dans

Why Most Published Research Findings Are False (littéralement en français : Pourquoi la plupart des résultats de recherche publiés sont faux) est un essai de 2005 écrit par John Ioannidis, professeur à la Stanford School of Medicine, et publié dans PLOS Medicine[1]. Il est considéré comme fondamental dans le domaine de la métascience.

PDF du papier.

Dans l'article, Ioannidis a fait valoir qu'un grand nombre, sinon la majorité, des articles de recherche médicale publiés contiennent des résultats qui ne peuvent pas être reproduits. En termes simples, l'essai indique que les scientifiques utilisent des tests d'hypothèses pour déterminer si les découvertes scientifiques sont significatives. La « significativité » est formalisée en termes de probabilité, et un calcul formalisé («valeur p ») est rapporté dans la littérature scientifique comme un mécanisme de dépistage. Ioannidis a émis des hypothèses sur la façon dont les gens effectuent et rapportent ces tests ; puis il a construit un modèle statistique qui indique que la plupart des résultats publiés sont des faux positifs.

Argument modifier

Supposons que dans un domaine scientifique donné, il existe une probabilité de base connue qu'un résultat soit vrai, notée   . Lorsqu'une étude est menée, la probabilité qu'un résultat positif soit obtenu est  . Compte tenu de ces deux facteurs, nous voulons calculer la probabilité conditionnelle  , connue sous le nom de valeur prédictive positive (VPP). Le théorème de Bayes nous permet de calculer la VPP comme suit :

 
  est le taux d'erreur de type I et   le taux d'erreur de type II ; la puissance statistique est   . Il est d'usage dans la plupart des recherches scientifiques de désirer   et   . Si nous supposons   pour un domaine scientifique donné, alors nous pouvons calculer la VPP pour différentes valeurs de   et   :
 
  0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
0,01 0,91 0,90 0,89 0,87 0,85 0,82 0,77 0,69 0,53
0,02 0,83 0,82 0,80 0,77 0,74 0,69 0,63 0,53 0,36
0,03 0,77 0,75 0,72 0,69 0,65 0,60 0,53 0,43 0,27
0,04 0,71 0,69 0,66 0,63 0,58 0,53 0,45 0,36 0,22
0,05 0,67 0,64 0,61 0,57 0,53 0,47 0,40 0,31 0,18

Cependant, la formule simple de la VPP dérivée du théorème de Bayes ne tient pas compte du biais dans la conception de l'étude ou dans le rapport. Certains résultats publiés n'auraient pas été présentés comme des résultats de recherche s'ils n'avaient pas été biaisés par les chercheurs. Soit   la probabilité qu'une analyse n'ait été publiée qu'en raison d'un parti pris du chercheur. Alors la VPP est donnée par l'expression plus générale :

 

L'introduction d'un biais aura tendance à faire baisser la VPP ; dans le cas extrême où le biais d'une étude est maximisé,  . Même si une étude répond aux exigences de référence pour   et  , et est exempte de biais, il existe toujours une probabilité de 36 % qu'un article faisant état d'un résultat positif soit incorrect ; si la probabilité de base d'un résultat vrai est plus faible, cela fera également baisser le PPV. En outre, il existe des preuves solides que la puissance statistique moyenne d'une étude dans de nombreux domaines scientifiques est bien inférieure au niveau de référence de 0,8[2],[3],[4].

Compte tenu des réalités du biais, de la faible puissance statistique et du petit nombre d'hypothèses vraies, Ioannidis conclut que la majorité des études dans divers domaines scientifiques sont susceptibles de rapporter des résultats faux.

Corollaires modifier

En plus du résultat principal, Ioannidis énumère six corollaires pour les facteurs qui peuvent influencer la fiabilité des recherches publiées. Les résultats de recherche dans un domaine scientifique sont moins susceptibles d'être vrais :

  1. plus les études menées sont petites ;
  2. plus les tailles d'effet sont petites ;
  3. plus le nombre est grand et moins la sélection de relations testées est importante ;
  4. plus grande est la flexibilité dans les conceptions, les définitions, les résultats et les modes d'analyse ;
  5. plus les intérêts et les préjudices financiers et autres sont grands ;
  6. plus le domaine scientifique est chaud (avec plus d'équipes scientifiques impliquées).

Ioannidis a complété ce travail en contribuant à une étude méta-épidémiologique qui a révélé que seulement une intervention sur vingt testée dans les revues Cochrane présente des avantages étayés par des preuves de haute qualité[5]. Il a également contribué à des recherches suggérant que la qualité de ces preuves ne semble pas s'améliorer avec le temps[6].

Accueil modifier

Malgré le scepticisme à l'égard des déclarations extrêmes faites dans l'article, l'argument plus large et les avertissements de Ioannidis ont été acceptés par un grand nombre de chercheurs[7]. La croissance de la métascience et la reconnaissance d'une crise de réplication scientifique ont renforcé la crédibilité de l'article et conduit à des appels à des réformes méthodologiques dans la recherche scientifique[8],[9].

Dans les commentaires et les réponses techniques, les statisticiens Goodman et Greenland ont identifié plusieurs faiblesses dans le modèle de Ioannidis[10],[11]. L'utilisation par Ioannidis d'un langage dramatique et exagéré selon lequel il « prouvait » que la plupart des affirmations des résultats de la recherche sont fausses et que « la plupart des résultats de la recherche sont faux pour la plupart des conceptions de recherche et pour la plupart des domaines » [italiques ajoutés] a été rejetée, et pourtant ils étaient d'accord avec ses conclusions et recommandations du document.

Les biostatisticiens Jager et Leek ont critiqué le modèle comme étant basé sur des hypothèses justifiables mais arbitraires plutôt que sur des données empiriques, et ont mené leur propre enquête qui a calculé que le taux de faux positifs dans les études biomédicales était estimé à environ 14 %, pas plus de 50 % comme affirmé par Ioannidis[12] Leur article a été publié dans une édition spéciale de 2014 de la revue Biostatistics, accompagné de critiques détaillées et étayées d'autres statisticiens. Leek a résumé les principaux points d'accord comme suit : lorsque l'on parle du taux de fausses découvertes scientifiques, il faut apporter des données ; il existe différents cadres pour estimer le taux de fausses découvertes scientifiquement parlant ; et « il est assez peu probable que la plupart des recherches publiées soient fausses », mais cela varie probablement selon la définition de « la plupart » et de « faux »[13].

Le statisticien Ulrich Schimmack a renforcé l'importance de la base empirique des modèles en notant que le taux de fausses découvertes signalé dans certains domaines scientifiques n'est pas le taux de découverte réel car des résultats non significatifs sont rarement rapportés. Le modèle théorique de Ioannidis ne tient pas compte de cela, mais lorsqu'une méthode statistique (« courbe en z ») pour estimer le nombre de résultats non significatifs non publiés est appliquée à deux exemples, le taux de faux positifs se situe entre 8 % et 17 %, et non supérieur à 50 %[14].

Causes du taux élevé de faux positifs modifier

Malgré ces faiblesses, il y a néanmoins un accord général avec le problème et les recommandations dont Ioannidis discute, mais son ton a été décrit comme « dramatique » et « trompeusement alarmant », ce qui risque de rendre les gens inutilement sceptiques ou cyniques à l'égard de la science[10],[15].

Un impact durable de ce travail a été la prise de conscience des facteurs sous-jacents du taux élevé de faux positifs en médecine clinique et en recherche biomédicale, et les efforts des revues et des scientifiques pour les atténuer. Ioannidis a reformulé ces moteurs en 2016 comme étant[16] :

  • enquêteur seul et cloisonné, limité à des échantillons de petite taille ;
  • pas de pré-enregistrement des hypothèses testées ;
  • sélection post-hoc des hypothèses avec les meilleures valeurs p ;
  • ne nécessitant que p < 0,05 ;
  • pas de réplication ;
  • pas de partage de données.

Notes et références modifier

  1. Ioannidis, « Why Most Published Research Findings Are False », PLOS Medicine, vol. 2, no 8,‎ , e124 (ISSN 1549-1277, PMID 16060722, PMCID 1182327, DOI 10.1371/journal.pmed.0020124).
  2. (en) Button, Ioannidis, Mokrysz et Nosek, « Power failure: why small sample size undermines the reliability of neuroscience », Nature Reviews Neuroscience, vol. 14, no 5,‎ , p. 365–376 (ISSN 1471-0048, PMID 23571845, DOI 10.1038/nrn3475).
  3. (en) Szucs et Ioannidis, « Empirical assessment of published effect sizes and power in the recent cognitive neuroscience and psychology literature », PLOS Biology, vol. 15, no 3,‎ , e2000797 (ISSN 1545-7885, PMID 28253258, PMCID 5333800, DOI 10.1371/journal.pbio.2000797).
  4. (en) Ioannidis, Stanley et Doucouliagos, « The Power of Bias in Economics Research », The Economic Journal, vol. 127, no 605,‎ , F236–F265 (ISSN 1468-0297, DOI 10.1111/ecoj.12461, S2CID 158829482).
  5. (en) Howick, Koletsi, Ioannidis et Madigan, « Most healthcare interventions tested in Cochrane Reviews are not effective according to high quality evidence: a systematic review and meta-analysis », Journal of Clinical Epidemiology, vol. 148,‎ , p. 160–169 (PMID 35447356, DOI 10.1016/j.jclinepi.2022.04.017, S2CID 248250137, lire en ligne).
  6. (en) Howick, Koletsi, Pandis et Fleming, « The quality of evidence for medical interventions does not improve or worsen: a metaepidemiological study of Cochrane reviews », Journal of Clinical Epidemiology, vol. 126,‎ , p. 154–159 (PMID 32890636, DOI 10.1016/j.jclinepi.2020.08.005, S2CID 221512241, lire en ligne).
  7. (en) Belluz, « John Ioannidis has dedicated his life to quantifying how science is broken », Vox, (consulté le ).
  8. (en-US) « Low power and the replication crisis: What have we learned since 2004 (or 1984, or 1964) ? « Statistical Modeling, Causal Inference, and Social Science », statmodeling.stat.columbia.edu (consulté le ).
  9. (en) Wasserstein et Lazar, « The ASA Statement on p-Values: Context, Process, and Purpose », The American Statistician, vol. 70, no 2,‎ , p. 129–133 (ISSN 0003-1305, DOI 10.1080/00031305.2016.1154108).
  10. a et b (en) Goodman et Greenland, « Why Most Published Research Findings Are False: Problems in the Analysis », PLOS Medicine, vol. 4, no 4,‎ , e168 (PMID 17456002, PMCID 1855693, DOI 10.1371/journal.pmed.0040168).
  11. (en) Goodman et Greenland, « ASSESSING THE UNRELIABILITY OF THE MEDICAL LITERATURE: A RESPONSE TO "WHY MOST PUBLISHED RESEARCH FINDINGS ARE FALSE" », Collection of Biostatistics Research Archive, Working Paper 135, Johns Hopkins University, Dept. of Biostatistics Working Papers.
  12. (en) Jager et Leek, « An estimate of the science-wise false discovery rate and application to the top medical literature », Biostatistics, Oxford Academic, vol. 15, no 1,‎ , p. 1–12 (PMID 24068246, DOI 10.1093/biostatistics/kxt007, lire en ligne).
  13. (en) Leek, « Is most science false? The titans weigh in. », simplystatistics.org.
  14. (en) Schimmack, « Ioannidis (2005) was wrong: Most published research findings are not false », Replicability-Index, .
  15. (en) Ingraham, « Ioannidis: Making Science Look Bad Since 2005 », PainScience.com, .
  16. (en) Minikel, « John Ioannidis: The state of research on research », www.cureffi.org, .

Voir aussi modifier

Articles connexes modifier

Bibliographie modifier

Liens externes modifier