Comment prédire les prochaines épidémies ?

Les modèles prédictifs des risques épidémiques aident à analyser les évolutions temporelles et géographiques des épidémies. Ils n’ont pas attendu les algorithmes pour exister. En revanche, depuis l’apparition des « Big Data », ces modèles ont bien évolué et posent certaines questions. Quelle est la fiabilité de la prédiction ? Comment évaluer notre capacité à collecter des données ? Quel est le rôle de ces modèles pour engager l’action ?

Modèles prédictifs : l’avant et l’après Big Data

Depuis le 20^ème siècle, de nombreux modèles ont vu le jour et ont fait leurs preuves. Le modèle mathématique SIR, créé en 1927, constitue la base de la plupart des modèles épidémiologiques. Il est fondé sur des flux entre les compartiments des susceptibles (S), des infectés/contagieux (I) et des retirés de la chaîne de transmission (R) – c’est-à-dire les personnes immunisées ou décédées¹.

L’infection est qualifiée d’épidémie lorsque le nombre de malades augmente au cours du temps, c’est-à-dire que le nombre de nouveaux infectés R0 est positif – comme nous avons eu l’habitude de voir pendant la crise du covid-19. En clair, cela signifie que chaque cas génère à lui seul au moins un cas.

En parallèle, d’autres modèles – ARIMA² et SARIMA³, par exemple – ne se basent pas sur le modèle SIR, mais sur des « séries chronologiques ». Ils partent de l’hypothèse que ce qui s’est passé dans les séries précédentes va se passer dans les séries à venir. Ces modèles sont efficaces sur des événements saisonniers comme la grippe.

Avec l’émergence des Big Data, de nouveaux modèles prédictifs sont apparus. Ceux-ci permettent d’anticiper les épidémies pour concentrer l’aide humanitaire dans la zone à risque, au moment clé⁴. Ces dernières années, des applications concrètes ont fait leurs preuves. Par exemple, pour lutter contre Ebola en Afrique, Médecins sans frontières a construit des centres de santé dans des zones de flux importants, repérées grâce aux données des opérateurs téléphoniques⁵. La capture de données d’un nouveau genre et en grand nombre ouvre de nouvelles perspectives de traitement. En cela, la prévention algorithmique est effective.

Imprévisibilité, et rapport à l’action : les défis de ces modèles du Big Data

Il semble qu’actuellement, les modèles prévoient davantage à échéance brève ou immédiate que sur un futur à plus long terme. Aucune des récentes maladies (COVID-19, Zika, West Nile, Chikungunya) n’a jamais été prédite, nous arrivons toujours après. Lorsque l’on cherche à prédire un risque de survenue d’une épidémie, les modèles ont tendance à surestimer le risque.

En janvier 2013, l’interface Google Flu Trends a par exemple annoncé – à tort – une grave épidémie de grippe à New-York. Fondées sur cette prédiction, des actions de prévention de grande ampleur ont été engagées, puis se sont révélées parfaitement inutiles. De même, le CDC d’Atlanta (le centre pour le contrôle et la prévention des épidémies américain) a prédit des chiffres de plus d’un million de cas de virus Ebola au Liberia, alors qu’il n’y a eu, fort heureusement, que quelques dizaines de milliers de cas finalement.

En revanche, les modèles sont efficaces pour suivre l’évolution des épidémies à court-terme. Google Flu Trends l’a démontré à de maintes occasions. Autre exemple : lors de la pandémie du COVID-19, Google Verily, l’Université de Genève ou encore l’École polytechnique de Lausanne-Zurich ont pu prédire à court-terme les vagues épidémiques.

L’autre problème rencontré par les modèles est le rapport entre résultats et action. D’une part, un modèle produit à l’échelle nationale n’a pas forcément la puissance suffisante pour évaluer une situation locale. Pendant la pandémie de COVID-19, des modèles locaux ont, par exemple, été élaborés en plus du modèle national Pasteur, au niveau de la Martinique. Ce modèle très simple anticipait sur 14 jours le nombre de lits COVID nécessaires en l’absence de confinement. Lors de la 4^ème vague (la plus importante), le modèle a prédit 700 lits COVID nécessaires, se révélant assez fiable puisque 600 lits ont finalement été utilisés. Ce modèle a permis d’anticiper efficacement l’impact sur les services d’hôpital de jour de pathologies chroniques et d’ouvrir des lits en conséquence, témoignant de la nécessité de compléter les analyses globales par d’autres, situées et adaptées au contexte local.

D’autre part, indépendamment du modèle retenu, de sa fiabilité et de son adaptation à un contexte local, la prédiction ne peut pas à elle seule gouverner l’action. La pandémie de COVID-19 a montré que les rétifs à la vaccination étaient nombreux, avec des profils et des motivations variés. En Chine, les personnes âgées ont été découragées par les médecins qui évoquaient leur santé fragile. Dans le cas des populations Afro-Américaine et Antillaise, c’est plutôt une défiance envers les pouvoirs occidentaux qui est apparue comme motif d’une résistance à la vaccination. Les raisons de la réticence à la vaccination ont donc été nombreuses, et indépendantes de la question de la prédiction.

D’une manière générale, ces défis révèlent que le passage de la prédiction à l’action de prévention n’est pas linéaire et séquentiel. D’autres facteurs socio-économiques interviennent, soulignant l’importance d’inscrire les modèles prédictifs dans le contexte de leur usage.

Le futur de la prédiction : vers une intégration multidimensionnelle et unifiée ?

L’apport des Big Data semble pouvoir améliorer les choses. Des modèles prédictifs, dits multi-niveaux, apparaissent envisageables en combinant davantage d’expertises épidémiologiques, des Big Data et un traitement algorithmique. Une telle modélisation, où chaque strate pourrait contribuer à la précision, concerne une variété de données : imagerie satellitaire, données biologiques, économico-sociales, veille sanitaire, etc.

Cela suppose de dynamiser les recueils de données et leur partage. A cet égard, la remontée des données en France lors de la dernière crise Covid a montré que la démarche n’est pas encore spontanée. Il aurait été – et il est toujours – souhaitable de mettre en place un entrepôt de données unifié, afin que les experts puissent y puiser les données dont ils ont besoin. Pour ce faire, il faut apprendre à s’organiser dans le partage des données existantes. Un défi de taille pour progresser dans la prévention algorithmique des risques épidémiques.