La métagénomique : comment étudier la biodiversité microscopique
- La métagénomique est une technique combinant biologie moléculaire et informatique qui permet d’étudier l’ensemble du monde microbien.
- On peut ainsi analyser les génomes au niveau d’un échantillon entier afin de caractériser des écosystèmes complets.
- Une étude métagénomique se réalise en deux grandes étapes : la récupération d’échantillons et le séquençage.
- Séquencer les génomes nécessite une grande maîtrise en bioinformatique, ce qui rend le développement de la métagénomique indissociable du développement du Big Data.
- Si la métagénomique est coûteuse et lourde à mettre en place, elle reste néanmoins prometteuse et nous permet de découvrir une biodiversité microscopique encore inconnue.
Leur petite taille rend cette réalité difficile à percevoir mais les micro-organismes sont, de loin, les entités les plus nombreuses sur notre planète. Bactéries, archées, virus, champignons et autres eucaryotes minuscules sont présents à peu près partout et forment des écosystèmes qui échappent à la fois à nos yeux et à nos éprouvettes, puisqu’on estime que seulement 1 à 2 % des micro-organismes sont facilement cultivables en laboratoire. Pourtant, il est désormais possible d’étudier l’ensemble du monde microbien grâce à une technique combinant biologie moléculaire et informatique : la métagénomique.
Décortiquer les génomes
Comme l’indique ce terme inventé en 19981, l’idée générale est d’analyser les génomes non plus à l’échelle d’un individu ou d’une espèce mais au-delà, au niveau d’un échantillon entier. Cela permet d’accéder à l’ensemble des micro-organismes qu’il contient, dont ceux qu’on ne sait pas cultiver, et de caractériser des écosystèmes complets. Mais, si des progrès technologiques récents font de la métagénomique une approche en plein essor, sa mise en œuvre reste complexe.
Prenons un peu de recul pour remettre les choses en perspective. Le premier génome à avoir été séquencé, en 1977, est celui d’un virus bactériophage qui mesurait environ 5 300 nucléotides2. Ont suivi les bactéries3 et les levures4 puis, finalement, le génome humain : publié au début des années 2 000, des centaines de millions d’euros et des années de travail ont été nécessaires pour décrypter la majeure partie de ses 3 milliards de nucléotides5. La première séquence vraiment complète d’un génome humain n’a quant à elle été publiée qu’en avril 20226 !
Ainsi, le séquençage est une technique relativement récente, qui ne cesse de s’améliorer… Si bien qu’il est aujourd’hui possible de séquencer un génome humain avec une qualité satisfaisante pour « seulement » 1 000 €, en une seule journée. Il existe en fait différentes techniques de séquençage dit « de nouvelle génération », dont la précision, la vitesse et le coût varient, et il est désormais possible de récupérer en parallèle des millions voire des milliards de séquences pour analyser des dizaines de milliards de nucléotides chaque jour. C’est le premier progrès technologique qui permet l’étude simultanée des génomes de communautés de micro-organismes… Mais ce n’est pas le seul.
En effet, séquencer beaucoup de nucléotides conduit à récupérer beaucoup de données numériques, qu’il faut ensuite être capable de manipuler. Le développement de la métagénomique se fait donc en parallèle de celui du Big Data. Stockage, capacités de calcul, développement d’outils ou gestion de bases de données : faire parler les génomes nécessite des équipements et des compétences solides en bioinformatique.
La métagénomique se situe ainsi au carrefour de deux domaines en pleine évolution, et ses possibilités ne cessent de s’améliorer. Il peut être tentant d’y voir un nouveau Graal de la microbiologie, permettant de découvrir un monde microscopique qui, jusqu’ici, nous échappait. Néanmoins cette approche reste lourde, coûteuse et semée d’embûches. Avant de la mobiliser, mieux vaut avoir bien affûté la question à laquelle on essaye de répondre et peaufiner son protocole pour éviter d’être enseveli sous un monceau de données inexploitables.
La métagénomique pas à pas
La première étape d’une étude métagénomique est la récupération d’échantillons. Qu’on s’intéresse aux micro-organismes d’un sol, d’un point d’eau ou du microbiote humain, il faut travailler sur des échantillons adaptés à la question qu’on se pose, comparables entre eux (la composition du sol ne sera par exemple pas la même à des endroits différents, à des profondeurs différentes ou pendant des saisons différentes), suffisamment nombreux et divers pour être représentatifs, et assez volumineux pour pouvoir y récupérer les quantités d’ADN nécessaires à la suite du protocole.
Différents procédés peuvent être utilisés pour cette extraction, dont le protocole est optimisé selon le milieu d’origine, les types d’organismes d’intérêt et le matériau qu’on veut récupérer. En effet, la préparation de l’échantillon est l’occasion de trier les organismes étudiés (par exemple en filtrant pour ne garder que ceux faisant une certaine taille) et de sélectionner le type d’acides nucléiques qui seront séquencés ensuite. Il est notamment possible de purifier les ARN messagers plutôt que l’ADN génomique pour analyser l’activité réelle d’une communauté microbienne : on parle alors de métatranscriptomique plutôt que de métagénomique.
La préparation de l’échantillon est l’occasion de trier les organismes étudiés et de sélectionner les acides nucléiques à séquencer.
Arrive ensuite l’étape du séquençage, avec deux approches possibles : la métagénomique ciblée ou la métagénomique globale. La métagénomique ciblée est principalement utilisée pour identifier et classer les espèces présentes dans un échantillon. Dans ce cas, seules certaines parties des génomes, considérées comme spécifiques d’un type d’organismes ou d’une gamme de fonctions, sont amplifiées, séquencées et analysées. La métagénomique globale permet quant à elle de caractériser finement des communautés de micro-organismes, mais sa mise en œuvre est plus lourde. Elle consiste à récupérer tout l’ADN contenu dans un échantillon, le fragmenter pour obtenir des morceaux assez courts pour être séquencés, séquencer l’ensemble de ces portions de génomes puis reconstituer au mieux les génomes d’origine.
Cela revient à prendre plusieurs puzzles, en mélanger toutes les pièces (avec quelques pertes) puis essayer de reconstituer chaque puzzle à partir de ce tas disparate. Pour les organismes dont les génomes sont déjà répertoriés, c’est relativement facile car on a des modèles à suivre. C’est plus délicat pour les organismes inconnus, qui peuvent représenter 90 % de certains échantillons7. Des astuces ont été imaginées pour faciliter la résolution de ce casse-tête8 9, mais la majeure partie de la biodiversité microscopique nous est encore inconnue : la métagénomique permet tout juste de commencer à la défricher en mesurant l’ampleur de notre ignorance.
Métagénomique et bioprospection
Cela dit, cette approche n’est pas seulement descriptive, elle ouvre aussi de nouvelles possibilités pour identifier des composés microbiens actifs. En effet, après fragmentation des génomes présents dans un échantillon, on peut produire des bactéries contenant chacune un des morceaux d’ADN obtenus et voir si certaines acquièrent une capacité intéressante (récupérer telle souche d’énergie, dégrader tels composés, avoir une activité antibiotique…). Le tout sans cultiver, ni même identifier, les organismes qui possédaient cette compétence au départ !
Au-delà de la recherche fondamentale, le versant fonctionnel de la métagénomique élargit donc le champ de la bioprospection. Cela reste de la métagénomique, coûteuse et lourde à mettre en place… Mais appelée à se développer au fil des progrès technologiques. L’existence d’applications directes dans des domaines aussi fondamentaux que la médecine et l’agronomie constitue une raison supplémentaire de suivre les avancées de la métagénomique et les découvertes associées dans les années à venir.