La reproductibilité – qui signifie que d’autres scientifiques peuvent obtenir des résultats similaires à ceux d’une expérience originale s’ils la reproduisent dans les mêmes conditions – est un impératif de la méthode scientifique. En bref, elle signifie que les résultats d’une expérience doivent être les mêmes, qu’importe son auteur. Et la plupart du temps, c’est le cas. Cependant, dans diverses disciplines des sciences sociales mais aussi de la recherche biomédicale, certains résultats d’études scientifiques n’ont pas pu être reproduits ultérieurement par d’autres scientifiques, ce qui a remis en question les études originales123.
Connu sous le nom de « crise de la reproductibilité », le problème ne concerne pas seulement quelques études publiées dans des revues de bas niveau. Il touche en réalité un tiers des études en sciences sociales, y compris celles publiées dans des revues aussi prestigieuses que Science ou Nature4. Les études concernées comprennent divers phénomènes bien connus, dont beaucoup ont trouvé leur place auprès du grand public. Parmi eux, des concepts largement répandus tels que la menace du stéréotype5, les biais implicites6 ou l’amorçage social7. Ce ne sont là que trois des conclusions les plus célèbres faisant l’objet de critiques sérieuses, au point qu’elles pourraient ne pas survivre à un examen méthodologique plus approfondi. Mais comment en sommes-nous arrivés à cette crise, et que pouvons-nous faire pour y remédier ?
P‑hacking, HARKing et biais de publication
Deux des pratiques de « mauvaise recherche » les plus courantes, responsables de résultats non reproductibles, sont dues à des manipulations statistiques : le « p‑hacking » et le « HARKing ». Dans le premier cas, les chercheurs modifient légèrement leur plan de recherche jusqu’à ce qu’un résultat non significatif devienne significatif, transformant ainsi un résultat négatif en un résultat positif. Par exemple, après avoir échoué à trouver un effet dans leur expérience, les chercheurs peuvent modifier la façon dont les variables sont mesurées, exclure quelques valeurs aberrantes qui n’avaient pas été exclues auparavant, ou collecter par étapes quelques participants supplémentaires, en vérifiant à chaque fois si les résultats sont devenus significatifs. Toutes ces pratiques augmentent les chances que les chercheurs trouvent un effet, même si celui-ci n’existe pas en réalité.
De même, dans le cas du HARKing (qui consiste à émettre des hypothèses après la découverte des résultats), les chercheurs trouvent au hasard un effet entre deux variables et émettent ensuite une hypothèse, laissant croire que c’est le résultat auquel ils s’attendaient depuis le début. Pour info : une hypothèse est formulée avant la réalisation d’une expérience, et non de manière rétroactive. À l’heure du big data, il n’est pas difficile de comprendre pourquoi c’est une mauvaise idée. Dans un grand ensemble de données contenant des centaines de variables, certaines seront corrélées entre elles… par hasard. Affirmer que cette corrélation est significative, et que c’est celle que nous cherchions à confirmer donne une vision déformée des données réelles.
Dans le monde universitaire, les publications sont l’étalon-or du succès, mais il est beaucoup plus difficile de publier une recherche scientifique si elle n’a abouti sur aucun résultat significatif. Il existe donc un « biais de publication », parce que si vous souhaitez avoir une carrière florissante dans le champ scientifique, vous avez intérêt à trouver des effets ! Bien sûr, cela n’explique pas entièrement pourquoi les résultats significatifs sont si importants. Après tout, les résultats d’une expérience ne nous disent rien sur la qualité des méthodes utilisées. Si une étude ne trouve pas d’effet, c’est peut-être tout simplement que l’effet n’existe pas. Pourtant, les revues scientifiques refusent souvent d’accepter de publier des résultats non significatifs, parce qu’ils ne prouvent pas l’absence d’un effet autant que les résultats significatifs peuvent en prouver l’existence.
Dans la recherche standard en sciences sociales, le taux acceptable de faux positifs le plus élevé est de 5 %, tandis que le taux acceptable de faux négatifs le plus élevé est de 20 %. En d’autres termes, de nombreuses études scientifiques n’ont pas une puissance suffisante, c’est-à-dire qu’elles ne comptent pas suffisamment de participants pour réduire le taux de faux négatifs à un niveau adéquat. Par conséquent, les revues peuvent rejeter des études dont les résultats ne sont pas significatifs au motif que l’étude aurait pu trouver l’effet si la taille de l’échantillon avait été plus importante.
La pression pour obtenir un « scoop »
Toutes les pratiques de recherche douteuses susmentionnées – le p‑hacking, le HARKing (qui est sans doute un sous-type de piratage informatique), le biais de publication et les analyses insuffisamment puissantes – sont désormais bien connues, mais les problèmes de la crise de la reproductibilité sont plus profonds. L’une des raisons pour lesquelles de nombreuses études classiques se sont avérées non reproductibles plusieurs décennies après leur parution est qu’il existe peu d’incitations à réaliser des études de reproductibilité. Les carrières académiques se développent sur la poursuite d’idées nouvelles, notamment parce que les revues sont peu intéressées par les travaux reprenant des études déjà existantes, et qui manquent d’originalité. Il n’y a donc pas suffisamment d’études sur la reproductibilité qui permettraient, soit de signaler les publications originales si leurs résultats ne sont pas reproduits, soit de les confirmer s’ils le sont.
Une conséquence connexe de l’absence de reproduction des études anciennes est qu’il est difficile d’estimer l’ampleur de la crise de la reproductibilité.
Une conséquence connexe de l’absence de reproduction des études anciennes est qu’il est difficile d’estimer l’ampleur de la crise de la reproductibilité. Mis à part les sciences sociales et la recherche biomédicale, quelles sont les autres disciplines touchées par ce phénomène ? Et dans quelle mesure ? Tant que la recherche sur la reproductibilité ne sera pas devenue une pratique courante, nous ne pourrons que spéculer sur les réponses à ces questions.
Bien qu’il soit difficile d’imaginer une façon d’intégrer pleinement les études de reproductibilité dans le système de recherche actuel, les « rapports enregistrés » pourraient apporter une solution aux quatre mauvaises pratiques de recherche mentionnées ci-dessus. Contrairement aux articles de journaux classiques, les rapports enregistrés sont acceptés pour publication avant même que les données ne soient collectées. Le problème du biais de publication est donc résolu, puisque les résultats ne peuvent pas influencer la décision de publier ou non l’étude dans la revue. Le p‑hacking et le HARKing sont également peu susceptibles de se produire puisque les chercheurs doivent spécifier à l’avance quelles hypothèses seront testées et comment elles le seront, et que toute déviation du plan de recherche doit être justifiée de manière extraordinaire. Enfin, les rapports enregistrés ont généralement une puissance plus adéquate que les articles de journaux normaux, car les méthodes (y compris la taille de l’échantillon prévu) sont examinées avant la réalisation de l’étude.
Une science plus reproductible conduirait-elle à une plus grande confiance du public dans les résultats scientifiques ? Nous ne le savons pas, mais c’est probable. Si la communauté scientifique accepte que certains résultats de recherche sont effectivement douteux et tente d’améliorer ces lacunes, les sceptiques seront peut-être moins réticents à accepter ses conclusions. Nous avons certainement encore un long chemin à parcourir avant que la crise ne s’estompe, mais la promotion des compétences méthodologiques, l’adoption des rapports enregistrés comme modèle de publication et l’incitation à la recherche sur la reproductibilité sont des premiers pas prometteurs dans la bonne direction.