Comment corriger les biais du Machine Learning ?

Quels sont les grands défis auxquels l’intelligence artificielle est actuellement confrontée ?

Dans mon domaine d’expertise, qui est le « machine learning » (ML), les trois sujets qui me passionnent en ce moment, et que l’on pourrait éventuellement considérer comme de grands défis dans ce domaine, sont les biais et l’équité, les signaux faibles et l’apprentissage sur les réseaux. Mais ce n’est qu’une vue partielle des défis en IA, qui est un domaine très vaste et surtout interdisciplinaire. L’IA est un ensemble d’outils, de méthodes et de technologies qui permettent à un système d’effectuer des tâches de façon quasi autonome et il existe différentes manières d’y parvenir.

Le ML consiste pour la machine à apprendre à partir d’exemples, à s’entraîner pour effectuer des tâches avec efficacité par la suite. Les grands succès en la matière sont la vision par ordinateur et l’écoute automatique, utilisées pour des applications en biométrie par exemple, ainsi que le traitement du langage naturel. Une des questions qui se posent actuellement est celle de la confiance que l’on peut avoir dans les outils de ML, car l’apprentissage profond requiert de très grands volumes de données, lesquels proviennent bien souvent du web.

Les données du web ne s’acquièrent pas de façon « contrôlée ».

Contrairement aux jeux de données qui étaient auparavant collectés par les chercheurs, les données du web ne s’acquièrent pas de façon « contrôlée ». Et le caractère massif de ces données peut parfois conduire à ignorer les questions méthodologiques que l’on devrait se poser pour exploiter l’information qu’elles contiennent. Par exemple, entraîner un modèle de reconnaissance de visages directement à partir de données du web peut conduire à des biais, au sens où le modèle ne reconnaitrait pas tous les types de visages avec la même efficacité. Dans ce cas, le biais peut être induit par un manque de représentativité des visages utilisés pour l’apprentissage.

Si par exemple les données correspondent majoritairement à des visages de type caucasien, le système élaboré pourrait reconnaître plus facilement les visages caucasiens que des visages d’autres types. Toutefois, les disparités de performance peuvent aussi tenir à la difficulté intrinsèque du problème de prédiction et/ou aux limites des techniques actuelles de ML : il est notoire par exemple que le niveau de performance atteint pour la reconnaissance des visages de nouveaux-nés, par apprentissage profond, est beaucoup plus faible que pour des visages d’adultes. Mais on n’a pas aujourd’hui d’éclairage théorique clair sur le lien entre la structure du réseau de neurones profond utilisé et les performances du modèle pour une tâche donnée.

Vous dites « aujourd’hui ». Cela signifie que ces biais pourraient un jour être supprimés ou que leur effet pourrait diminuer ?

Il y a différents types de biais. Ils peuvent être relatifs aux données, il y a les biais dits « de sélection », liés au manque de représentativité, « d’omission », dus à l’endogénéité, etc. Des biais sont aussi inhérents au choix du modèle de réseaux de neurones, de la méthode de ML, choix inévitablement restreint à l’état de l’art et limité par la technologie actuelle. Demain, nous utiliserons peut-être d’autres représentations de l’information, plus efficaces, moins gourmandes en calcul, que l’on pourrait déployer plus facilement, qui diminueront ou supprimeront peut-être ces biais, mais pour l’instant, ils existent !

Quel est le rôle de la qualité des jeux de données, utilisés pour les apprentissages, dans ces biais ?

Il est très important. Comme je l’ai dit, étant donné la volumétrie nécessaire, les données proviennent souvent du web et ne sont donc pas acquises de façon suffisamment contrôlée pour en assurer la représentativité. Mais il y a aussi le fait que ces données peuvent être « contaminées », de manière malveillante. La question se pose actuellement pour les solutions de vision par ordinateur qui équiperont les véhicules autonomes. On peut tromper le véhicule en manipulant les informations en entrée. Il est possible de modifier l’image pixelisée, d’un panneau de signalisation par exemple, de façon à ce que l’œil humain ne perçoive aucune différence, mais que le réseau de neurones y « voit » quelque chose d’autre que le panneau de signalisation.

Le ML repose sur un principe fréquentiste et la question de la représentativité des données en phase d’apprentissage est un enjeu majeur. Pour reprendre l’exemple de la conduite autonome, nous voyons aujourd’hui circuler de nombreux véhicules sur le plateau de Saclay, équipés de capteurs pour emmagasiner le plus d’expériences possible. Cela dit, il est difficile de dire dans combien de temps nous aurons vu suffisamment de situations pour pouvoir déployer un système assez intelligent et fiable dans ce domaine, permettant de faire face à toutes les situations futures.

Il y a certes des applications pour lesquelles les données disponibles aujourd’hui permettent de mettre en œuvre le ML de façon satisfaisante. C’est le cas par exemple pour la reconnaissance de l’écriture manuscrite, pour laquelle des réseaux de neurones sont parfaitement au point. Pour d’autres problèmes, en plus des données expérimentales, on aura aussi recours à des modèles génératifs, produisant des données artificielles rendant compte de situations adverses, mais sans pouvoir prétendre à l’exhaustivité. C’est le cas pour les applications du ML en cybersécurité, afin de tenter de détecter automatiquement les intrusions malveillantes dans un réseau par exemple.

D’une manière générale, il existe de nombreux problèmes pour lesquels les données dont on dispose sont trop rares pour pouvoir mettre en œuvre le ML de façon simple. On parle alors de « signaux faibles », c’est souvent le cas en détection d’anomalie, pour la maintenance prédictive de systèmes complexes en particulier. Dans certains cas, l’hybridation des techniques ML et symboliques en IA pourrait apporter des solutions. Ces pistes sont explorées dans le domaine aérien, civil ou militaire, ainsi qu’en imagerie médicale. Au-delà de leur efficacité, de telles approches peuvent permettre aussi aux machines de prendre des décisions plus faciles à expliquer et interpréter.

Qu’est-ce qui fait évoluer l’IA aujourd’hui ?

Le domaine des mathématiques apporte beaucoup, notamment en ce qui concerne la représentation efficace de l’information et l’algorithmie. Mais c’est aussi le progrès technologique qui fait avancer l’IA. Le concept mathématique de réseau de neurones existe depuis de nombreuses décennies. Les progrès techniques récemment réalisés, en particulier dans le domaine de la mémoire, ont permis de mettre en œuvre les modèles de réseaux de neurones profonds, avec le succès que l’on connait. De même, les architectures de calcul distribué et les frameworks de programmation dédiés ont rendu possible le passage à l’échelle pour l’apprentissage sur de grands volumes de données. Reste à concevoir des approches plus frugales, de façon à diminuer l’empreinte carbone des calculs, un sujet d’actualité !

Comment corriger les biais du Machine Learning ?

Découvrez les autres épisodes de ce dossier

L'avenir de la synchronisation du cerveau et de la machine

« Il faut justifier les décisions prises par un algorithme »

L’intelligence artificielle : outil de domination ou d’émancipation ?

Quels enjeux quand les algorithmes remplacent l’humain ?

Intelligence artificielle et humaine sont-elles comparables ?

Notre sélection de dossiers

Les nouveaux enjeux de l’IA

Comment les géants du numérique transforment nos sociétés

Comment réguler l’intelligence artificielle ?