La biomimétique n’est étrangère ni aux progrès rapides, ni aux performances époustouflantes des algorithmes contemporains. Mais la communauté informatique peine encore à intégrer la vraie puissance du vivant : sa sobriété.
Le biomimétisme s’inscrit dans l’histoire de l’algorithmique dès ses premiers développements. « En 1964, le premier réseau de neurones, le perceptron, était déjà biomimétique. Il cherchait à reproduire les propriétés électrophysiologiques des neurones, leur excitabilité et leur capacité de transmettre une information », rappelle Clément Viricel, maître de conférences à l’Université de Lyon. Chaque neurone reçoit des données, les pondère et produit un résultat selon la fonction inscrite dans l’algorithme. Ce processus constitue « l’activation » du neurone artificiel, comme un neurone est activé dans le cerveau par l’influx nerveux. Dans le perceptron, les neurones étaient connectés au sein d’une couche. C’est par la multiplication des couches de neurones, qu’il traitait le flot d’informations.
Réseaux de neurones
A partir, des années 1990 les algorithmes d’entraînement ont repris ces réseaux de neurones pour chercher à reproduire la manière dont l’humain apprend. « Les réseaux de neurones sont biomimétiques parce qu’ils apprennent par échec, un peu comme les humains ou les bébés. On peut représenter la plasticité avec des matrices dont on pondère les éléments en fonction des succès. Les coefficients jouent le rôle du renforcement entre les neurones », précise Laurent Pujo-Menjouet. Clement Viricel ajoute « Par exemple, dans l’apprentissage d’une langue, l’humain découvre souvent le sens d’un mot grâce au contexte. La sémantique joue un rôle crucial. C’est ce que les réseaux de neurones ont commencé à faire, en étant entraînés avec des textes où il manquait un mot. Puis ils ont été optimisés par rétropropagation. » C’est-à-dire en corrigeant le poids des neurones d’entrée en fonction des résultats en sortie. « Mais ce processus constitue une véritable boîte noire, où les variations de pondération (qui permettent à l’algorithme d’évoluer) ne sont pas visibles… », complète Clément Viricel. Or, on sait qu’il est difficile de faire confiance à un processus dont on ne comprend pas le fonctionnement. Ces méthodes constituent des casse-tête aux assureurs en charge des produits qui les intègrent, comme les véhicules autonomes1 ou les systèmes d’aide aux diagnostics2.
Le biomimétisme participe ensuite au développement d’un très grand nombre d’algorithmes. On peut citer les algorithmes dits « génétiques » qui s’inspirent des arbres phylogénétiques pour faire du calcul et permettent de sélectionner le résultat le plus pertinent selon plusieurs méthodes (par rang, par tournoi, en fonction de l’adaptation…). De tels systèmes ont été déployés pour la recherche d’optimums, mais aussi pour le développement de jeux, comme le célèbre Mario, afin de classer les joueurs entre eux. On pense aussi aux réseaux de neurones convolutifs, inspirés du réseau visuel de l’homme. « Ses développeurs ont voulu reproduire la manière dont l’œil analyse une image. Il s’agit d’un carré de neurones, qui scanne l’image pour en capter les pixels avant de la reconstruire en totalité », explique Clément Viricel. Cet outil est notamment connu pour avoir surpassé un œil d’expert, en particulier pour le diagnostic de mélanomes3. Comment marche-t-il ? « Il extrait des caractéristiques « forme de la tumeur », « taille de la tumeur » etc, pendant la période d’entraînement. Puis, il recherchera ces caractéristiques pour reconnaître un objet particulier », répond Clément Viricel.
Ces algorithmes biomimétiques sont appliqués à tous les sujets, comme le montrent les réseaux de neurones récurrents. « Ils visent à analyser des données de manière séquencée ou au fil du temps. Ils sont très utilisés pour le traitement automatique de textes en prenant en compte l’ordre des mots. Des couches denses sont récurrentes pour que le réseau n’oublie pas ce qu’il a fait avant. », explique Clément Viricel. De tels réseaux ont permis de construire des outils de traduction automatique. Un premier réseau récurrent « lit » et encode le texte dans la langue d’origine, un second réseau récurrent décode le texte dans une autre langue, le tout avec un coût en termes de temps et d’énergie. « Ils ont besoin de beaucoup d’énergie à l’entraînement », reconnaît Clément Viricel.
Transformers
Il faut donc apprendre plus vite. Les spécialistes ont alors pensé à reproduire la dépendance lexicale : quand un humain apprend un texte, il sait implicitement à quoi se rapportent les pronoms. Cela allège la phrase. « Pour reproduire ça, il a fallu ajouter avec une couche supplémentaire de neurones, la couche d’attention. Et c’est sur ce paramètre que la dernière évolution biomimétique s’est produite », explique le spécialiste. Les inventeurs de ces nouvelles intelligences artificielles ont titré leur article « Attention is all you need ». En effet, leur réseau n’est constitué que de 12 couches d’attention et d’un système encodeur/décodeur. Ces réseaux sont appelés « transformers », et constituent les modèles comme Bert de Google ou Bloom de la start-up Hugging Face, fondée par trois Français. (Chat-)GPT descend directement des transformers, bien qu’il ne possède que le décodeur et pas d’encodeur.
Toute cette histoire montre bien comme la biomimétique a irrigué l’innovation algorithmique, mais en oubliant une caractéristique essentielle du vivant : sa sobriété. Par exemple, l’entraînement de Chat GPT‑3 a exigé 1,287 MWh et émis 552 tonnes de CO24 « Jusqu’à présent, les développeurs ne s’intéressent pas du tout au bilan énergétique de leurs réseaux. », reconnaît Clément Viricel. « C’est un problème de compétence. Les personnes qui conçoivent les algorithmes ne sont pas celles qui en construisent les éléments physiques. On oublie l’aspect machine. Les outils récents consomment énormément… Et les prochains systèmes, TPU ou HPU, ne seront pas plus vertueux » analyse le spécialiste.
Le changement pourrait venir de la prochaine génération de programmeurs. « On voit émerger un mouvement dans la communauté qui cherche à s’emparer de cette question. D’une part, parce que la contrainte d’optimisation de l’énergie s’impose mis aussi pour l’éthique. Pour l’instant, les gains ne sont que mécaniques, en ne jouant que sur le transfert d’énergie. », raconte Clément Viricel. Mais d’autres pistes émergent, comme les algorithmes de zero-shot learning, « Ils fonctionnent sans entraînement ce qui permet d’économiser le coût de l’apprentissage », précise le spécialiste. A voir si leurs performances peuvent concurrencer leurs aînés, pour produire des systèmes totalement biomimétiques.