sienceEtDefiance_replicationCrisis
π Société π Science et technologies
Que signifie « avoir confiance en la science » ?

« La science pâtit d’un manque de reproductibilité des résultats de recherche »

Valentin Weber, doctorant en sciences cognitives à l'ENS-PSL
Le 23 juin 2021 |
5 min. de lecture
Valentin Weber
Valentin Weber
doctorant en sciences cognitives à l'ENS-PSL
En bref
  • Les sciences sociales, mais également la recherche biomédicale et d’autres disciplines scientifiques connaissent actuellement une « crise de la reproductibilité ».
  • 1/3 des résultats des études en sciences sociales seraient ainsi impossibles à reproduire – et donc potentiellement erronés, la reproductibilité étant un déterminant essentiel de la scientificité des travaux.
  • Cette crise serait notamment due au besoin de fournir des résultats novateurs et significatifs pour être publié dans les revues scientifiques prestigieuses.
  • La solution pourrait ainsi être incarnée par les « rapports enregistrés », qui garantissent la publication de l’étude sur la seule base de ses hypothèses de départ, avant même que ses résultats finaux ne soient connus.

La repro­ductibil­ité – qui sig­ni­fie que d’autres sci­en­tifiques peu­vent obtenir des résul­tats sim­i­laires à ceux d’une expéri­ence orig­i­nale s’ils la repro­duisent dans les mêmes con­di­tions – est un impératif de la méth­ode sci­en­tifique. En bref, elle sig­ni­fie que les résul­tats d’une expéri­ence doivent être les mêmes, qu’importe son auteur. Et la plu­part du temps, c’est le cas. Cepen­dant, dans divers­es dis­ci­plines des sci­ences sociales mais aus­si de la recherche bio­médi­cale, cer­tains résul­tats d’études sci­en­tifiques n’ont pas pu être repro­duits ultérieure­ment par d’autres sci­en­tifiques, ce qui a remis en ques­tion les études orig­i­nales123.

Con­nu sous le nom de « crise de la repro­ductibil­ité », le prob­lème ne con­cerne pas seule­ment quelques études pub­liées dans des revues de bas niveau. Il touche en réal­ité un tiers des études en sci­ences sociales, y com­pris celles pub­liées dans des revues aus­si pres­tigieuses que Sci­ence ou Nature4. Les études con­cernées com­pren­nent divers phénomènes bien con­nus, dont beau­coup ont trou­vé leur place auprès du grand pub­lic. Par­mi eux, des con­cepts large­ment répan­dus tels que la men­ace du stéréo­type5, les biais implicites6 ou l’amorçage social7. Ce ne sont là que trois des con­clu­sions les plus célèbres faisant l’ob­jet de cri­tiques sérieuses, au point qu’elles pour­raient ne pas sur­vivre à un exa­m­en méthodologique plus appro­fon­di. Mais com­ment en sommes-nous arrivés à cette crise, et que pou­vons-nous faire pour y remédier ?

P‑hacking, HARKing et biais de publication

Deux des pra­tiques de « mau­vaise recherche » les plus courantes, respon­s­ables de résul­tats non repro­ductibles, sont dues à des manip­u­la­tions sta­tis­tiques : le « p‑hacking » et le « HARK­ing ». Dans le pre­mier cas, les chercheurs mod­i­fient légère­ment leur plan de recherche jusqu’à ce qu’un résul­tat non sig­ni­fi­catif devi­enne sig­ni­fi­catif, trans­for­mant ain­si un résul­tat négatif en un résul­tat posi­tif. Par exem­ple, après avoir échoué à trou­ver un effet dans leur expéri­ence, les chercheurs peu­vent mod­i­fi­er la façon dont les vari­ables sont mesurées, exclure quelques valeurs aber­rantes qui n’avaient pas été exclues aupar­a­vant, ou col­lecter par étapes quelques par­tic­i­pants sup­plé­men­taires, en véri­fi­ant à chaque fois si les résul­tats sont devenus sig­ni­fi­cat­ifs. Toutes ces pra­tiques aug­mentent les chances que les chercheurs trou­vent un effet, même si celui-ci n’ex­iste pas en réalité. 

De même, dans le cas du HARK­ing (qui con­siste à émet­tre des hypothès­es après la décou­verte des résul­tats), les chercheurs trou­vent au hasard un effet entre deux vari­ables et émet­tent ensuite une hypothèse, lais­sant croire que c’est le résul­tat auquel ils s’attendaient depuis le début. Pour info : une hypothèse est for­mulée avant la réal­i­sa­tion d’une expéri­ence, et non de manière rétroac­tive. À l’heure du big data, il n’est pas dif­fi­cile de com­pren­dre pourquoi c’est une mau­vaise idée. Dans un grand ensem­ble de don­nées con­tenant des cen­taines de vari­ables, cer­taines seront cor­rélées entre elles… par hasard. Affirmer que cette cor­réla­tion est sig­ni­fica­tive, et que c’est celle que nous cher­chions à con­firmer donne une vision défor­mée des don­nées réelles.

Dans le monde uni­ver­si­taire, les pub­li­ca­tions sont l’é­talon-or du suc­cès, mais il est beau­coup plus dif­fi­cile de pub­li­er une recherche sci­en­tifique si elle n’a abouti sur aucun résul­tat sig­ni­fi­catif. Il existe donc un « biais de pub­li­ca­tion », parce que si vous souhaitez avoir une car­rière floris­sante dans le champ sci­en­tifique, vous avez intérêt à trou­ver des effets ! Bien sûr, cela n’ex­plique pas entière­ment pourquoi les résul­tats sig­ni­fi­cat­ifs sont si impor­tants. Après tout, les résul­tats d’une expéri­ence ne nous dis­ent rien sur la qual­ité des méth­odes util­isées. Si une étude ne trou­ve pas d’ef­fet, c’est peut-être tout sim­ple­ment que l’ef­fet n’ex­iste pas. Pour­tant, les revues sci­en­tifiques refusent sou­vent d’ac­cepter de pub­li­er des résul­tats non sig­ni­fi­cat­ifs, parce qu’ils ne prou­vent pas l’ab­sence d’un effet autant que les résul­tats sig­ni­fi­cat­ifs peu­vent en prou­ver l’existence.

Dans la recherche stan­dard en sci­ences sociales, le taux accept­able de faux posi­tifs le plus élevé est de 5 %, tan­dis que le taux accept­able de faux négat­ifs le plus élevé est de 20 %. En d’autres ter­mes, de nom­breuses études sci­en­tifiques n’ont pas une puis­sance suff­isante, c’est-à-dire qu’elles ne comptent pas suff­isam­ment de par­tic­i­pants pour réduire le taux de faux négat­ifs à un niveau adéquat. Par con­séquent, les revues peu­vent rejeter des études dont les résul­tats ne sont pas sig­ni­fi­cat­ifs au motif que l’é­tude aurait pu trou­ver l’ef­fet si la taille de l’échan­til­lon avait été plus importante.

La pression pour obtenir un « scoop »

Toutes les pra­tiques de recherche dou­teuses sus­men­tion­nées – le p‑hacking, le HARK­ing (qui est sans doute un sous-type de piratage infor­ma­tique), le biais de pub­li­ca­tion et les analy­ses insuff­isam­ment puis­santes – sont désor­mais bien con­nues, mais les prob­lèmes de la crise de la repro­ductibil­ité sont plus pro­fonds. L’une des raisons pour lesquelles de nom­breuses études clas­siques se sont avérées non repro­ductibles plusieurs décen­nies après leur paru­tion est qu’il existe peu d’inci­ta­tions à réalis­er des études de repro­ductibil­ité. Les car­rières académiques se dévelop­pent sur la pour­suite d’idées nou­velles, notam­ment parce que les revues sont peu intéressées par les travaux reprenant des études déjà exis­tantes, et qui man­quent d’o­rig­i­nal­ité. Il n’y a donc pas suff­isam­ment d’é­tudes sur la repro­ductibil­ité qui per­me­t­traient, soit de sig­naler les pub­li­ca­tions orig­i­nales si leurs résul­tats ne sont pas repro­duits, soit de les con­firmer s’ils le sont.

Une con­séquence con­nexe de l’ab­sence de repro­duc­tion des études anci­ennes est qu’il est dif­fi­cile d’es­timer l’am­pleur de la crise de la reproductibilité.

Une con­séquence con­nexe de l’ab­sence de repro­duc­tion des études anci­ennes est qu’il est dif­fi­cile d’es­timer l’am­pleur de la crise de la repro­ductibil­ité. Mis à part les sci­ences sociales et la recherche bio­médi­cale, quelles sont les autres dis­ci­plines touchées par ce phénomène ? Et dans quelle mesure ? Tant que la recherche sur la repro­ductibil­ité ne sera pas dev­enue une pra­tique courante, nous ne pour­rons que spéculer sur les répons­es à ces questions.

Bien qu’il soit dif­fi­cile d’imag­in­er une façon d’in­té­gr­er pleine­ment les études de repro­ductibil­ité dans le sys­tème de recherche actuel, les « rap­ports enreg­istrés » pour­raient apporter une solu­tion aux qua­tre mau­vais­es pra­tiques de recherche men­tion­nées ci-dessus. Con­traire­ment aux arti­cles de jour­naux clas­siques, les rap­ports enreg­istrés sont accep­tés pour pub­li­ca­tion avant même que les don­nées ne soient col­lec­tées. Le prob­lème du biais de pub­li­ca­tion est donc résolu, puisque les résul­tats ne peu­vent pas influ­encer la déci­sion de pub­li­er ou non l’é­tude dans la revue. Le p‑hacking et le HARK­ing sont égale­ment peu sus­cep­ti­bles de se pro­duire puisque les chercheurs doivent spé­ci­fi­er à l’a­vance quelles hypothès­es seront testées et com­ment elles le seront, et que toute dévi­a­tion du plan de recherche doit être jus­ti­fiée de manière extra­or­di­naire. Enfin, les rap­ports enreg­istrés ont générale­ment une puis­sance plus adéquate que les arti­cles de jour­naux nor­maux, car les méth­odes (y com­pris la taille de l’échan­til­lon prévu) sont exam­inées avant la réal­i­sa­tion de l’étude.

Une sci­ence plus repro­ductible con­duirait-elle à une plus grande con­fi­ance du pub­lic dans les résul­tats sci­en­tifiques ? Nous ne le savons pas, mais c’est prob­a­ble. Si la com­mu­nauté sci­en­tifique accepte que cer­tains résul­tats de recherche sont effec­tive­ment dou­teux et tente d’amélior­er ces lacunes, les scep­tiques seront peut-être moins réti­cents à accepter ses con­clu­sions. Nous avons cer­taine­ment encore un long chemin à par­courir avant que la crise ne s’estompe, mais la pro­mo­tion des com­pé­tences méthodologiques, l’adop­tion des rap­ports enreg­istrés comme mod­èle de pub­li­ca­tion et l’inci­ta­tion à la recherche sur la repro­ductibil­ité sont des pre­miers pas promet­teurs dans la bonne direction.

1Open Sci­ence Col­lab­o­ra­tion (2015). Esti­mat­ing the repro­ducibil­i­ty of psy­cho­log­i­cal sci­ence. Sci­ence, 349(6251), aac4716–aac4716.
2Freed­man, L. P., Cock­burn, I. M., & Sim­coe, T. S. (2015). The eco­nom­ics of repro­ducibil­i­ty in pre­clin­i­cal research. PLoS Biol­o­gy, 13(6), e1002165. doi:10.1371/journal.pbio.1002165.
3Ioan­ni­dis, J. P. (2005). Why most pub­lished research find­ings are false. PLoS Med. 2, e124.
4Camer­er, C. F., Dreber, A., Holzmeis­ter, F., Ho, T.-H., Huber, J., Jahan­nes­son, M., … Wu, H. (2018). Eval­u­at­ing the replic­a­bil­i­ty of social sci­ence exper­i­ments in Nature and Sci­ence between 2010 and 2015. Nature Human Behav­ior, 2, 637–644.
5Flo­re, P. C., Mul­der, J., & Wicherts, J. M. (2019). The influ­ence of gen­der stereo­type threat on math­e­mat­ics test scores of Dutch high school stu­dents: A reg­is­tered report. Com­pre­hen­sive Results in Social Psy­chol­o­gy, 3, 140–174. https://​doi​.org/ 10.1080/23743603.2018.1559647
6Schim­mack, U. (2020, Decem­ber 13). Defund Implic­it Bias Research. Replic­a­bil­i­ty Index. https://​repli​ca​tionin​dex​.com/​c​a​t​e​g​o​r​y​/​i​m​p​l​i​c​i​t​-​bias/.
7Chivers, T. (2019). What’s next for psychology’s embat­tled field of social prim­ing. Nature, 576(7786), 200–202. doi:10.1038/d41586-019- 03755–2

Le monde expliqué par la science. Une fois par semaine, dans votre boîte mail.

Recevoir la newsletter