Avant de s’atteler à la problématique des biais de l’IA, il faut comprendre comment fonctionne un algorithme de machine learning, mais aussi ce que cela signifie. Pour Victor Berger, post-doctorant au CEA-List en intelligence artificielle et en machine learning, la meilleure traduction française du terme serait « apprentissage statistique ». Le chercheur développe : « Le postulat de base de la plupart des algorithmes en machine learning, c’est de dire qu’on a des données qui sont supposément une représentation statistique du problème qu’on souhaite résoudre. »
Trois grands moyens d’apprentissage
La façon la plus simple d’apprendre à une IA de machine learning – techniquement parlant – et la plus répandue s’appelle l’apprentissage supervisé. « Par exemple, si on a une base de données remplie de photos d’animaux, un algorithme supervisé saura déjà que telle photo représente un chien, un chat, une poule, etc., et il saura que pour telle entrée (ou input) il devra donner une réponse spécifique en sortie (ou output). Un exemple classique de ce type d’algorithme, ce sont les traducteurs de langues »,explique Victor Berger.
La deuxième famille d’algorithmes, l’apprentissage non-supervisé, est généralement utilisée lorsque nous n’avons pas la solution à un problème : « Pour rester sur l’exemple des animaux, un algorithme d’apprentissage non-supervisé contiendra une base de données avec les mêmes photos que le précédent, sans avoir d’instruction précise sur comment il doit réagir en sortie par rapport à une entrée donnée. Son but est généralement d’identifier des patterns statistiques au sein du jeu de données qu’on lui fournit dans un objectif de catégorisation (ou de clustering). »
Toute la problématique réside dans les jeux de données utilisés pour superviser les algorithmes.
La troisième famille d’algorithmes est l’apprentissage par renforcement : « Dans les deux premières familles, la façon dont est codé l’algorithme lui permet de se diriger et de savoir comment s’améliorer. Cette composante est absente dans l’apprentissage par renforcement où l’algorithme sait juste s’il a correctement rempli sa tâche ou non. Il n’a pas d’instructions concernant quelles directions prendre pour devenir meilleur. Finalement, c’est l’environnement et sa réaction à la prise de décision de l’algorithme qui va faire office de guide. » détaille Victor Berger.
Dans les trois cas, toute la problématique réside dans les jeux de données utilisés pour superviser les algorithmes. Victor Berger nous rappelle que « les algorithmes de machine learning permettent de repérer des patterns. Dès lors, le moindre biais qui se cache dans un jeu de données peut biaiser l’algorithme entier, qui va trouver le pattern biaisé, l’exploiter et l’amplifier ».
Généralisation des données
Pour Lê Nguyên Hoang, docteur en mathématiques, vulgarisateur sur la thématique de l’intelligence artificielle et co-fondateur de Tournesol, l’hypothèse de la généralisation des données est omniprésente dans le domaine du machine learning : « Les questions relatives à la qualité des données sont largement sous-estimées. Que ce soit dans le monde de la recherche ou dans l’industrie, c’est la conception des algorithmes qui est mise en avant. Mais très peu de personnes se posent la question de savoir si généraliser le passé en entraînant des algorithmes avec des bases de données historiques sur lesquelles nous n’avons pas de regard critique est vraiment un projet de société souhaitable. »
Afin de mieux comprendre comment cela peut se manifester, Victor Berger fait référence à une anecdote spécifique qui circule dans le milieu du machine learning : « Soucieuse d’éviter des biais sexistes, une entreprise utilisant une IA pour trier les CV a exclu les informations telles que le nom et les photos. Mais ils se sont rendu compte qu’elle avait retenu le foot comme centre d’intérêt en tant que critère pertinent. » Aussi prudente qu’ait été l’entreprise, elle a fourni ses données historiques sans anticiper la présence d’un pattern : les CV les plus recrutés par le passé – ceux des hommes – comportaient plus souvent le centre d’intérêt « football ». Loin de lutter contre le biais sexiste, l’algorithme l’a entretenu. Pour gérer ce type de problème, il existe deux solutions : « Soit des humains sont chargés de constituer des bases de données plus qualitatives – mais cela demande un travail colossal – ; soit des algorithmes sont chargés d’éliminer les biais déjà identifiés » explique Victor Berger.
Mais ça ne résout pas tout. « Si on prend l’exemple de la modération de contenu, l’étiquetage des données va dépendre du concept de liberté d’expression qu’on défend, de ce qu’on estime être ou non un appel à la haine ou une fausse information dangereuse, donc des questions qui n’ont pas de réponses claires et où il y aura des désaccords. Dès lors, si la question n’est pas juste technique, il en va de même pour les solutions. » souligne Lê Nguyên Hoang.
Boucles de rétroaction
Des questions se posent aussi sur les boucles de rétroaction que les algorithmes peuvent causer : « Ce qu’il faut bien avoir en tête, c’est qu’un algorithme de machine learning est toujours prescriptif, car son but est d’atteindre un objectif précis : maximiser la présence sur une plateforme, le profit, le taux de clics, etc. » pointe Lê Nguyên Hoang.
Imaginez un algorithme utilisé par les forces de police d’une collectivité chargé de prédire dans quel quartier il va y avoir le plus de crimes et d’agressions. Victor Berger soutient que « ce que va faire cet algorithme, c’est une prédiction sur la base de données historiques de la police qui recense les quartiers dans lesquels le plus de gens se sont fait arrêter. » Là encore, on retombe sur le même travers : le risque de généralisation – voire d’amplification – du passé. En effet, cette prédiction n’est pas seulement descriptive, elle conduit à une prise de décision : renforcer les effectifs de police, accroître la vidéosurveillance, etc. Des décisions qui peuvent amener à renforcer un climat déjà tendu.
Les phénomènes de radicalisation, de mouvances sectaires et de sphères complotistes peuvent se retrouver amplifiés.
De même, sur les réseaux sociaux et les plateformes de divertissement, les algorithmes de recommandation se basent sur les choix précédents de l’utilisateur. Leur objectif est généralement d’accaparer son attention le plus longtemps possible. Dès lors, les phénomènes de radicalisation, de mouvances sectaires et de sphères complotistes peuvent se retrouver amplifiés. Lê Nguyên Hoang travaille à résoudre ce problème à l’aide d’un algorithme, qui se nomme Tournesol, dont la base de données est constituée de façon collaborative1.
Les enjeux de pouvoir
L’intelligence artificielle n’est donc pas seulement un domaine d’étude scientifique ou encore un champ d’application technologique. C’est aussi une arène de pouvoir. « Il est très important d’analyser et de lister les différents problèmes sociaux et éthiques qui peuvent survenir à cause de ces algorithmes, de leur entraînement en passant par leur conception et jusqu’à leur déploiement. » prévient Giada Pistilli, chercheuse en philosophie et éthicienne principale chez Hugging Face.
Justement, de quelle nature sont ces problèmes ? La chercheuse en philosophie nous explique qu’on peut les retrouver à tous les niveaux de la chaîne de développement d’une IA : « Il peut y avoir des problèmes éthiques qui émergent dès l’entraînement d’un modèle à cause de la problématique des données : les données peuvent-elles conduire à une stéréotypisation ? Quelles sont les conséquences de l’absence de certaines données ? Est-ce que les données utilisées – images privées, propriété intellectuelle – ont fait l’objet d’un consentement à l’utilisation avant de servir de dataset d’entraînement pour le modèle ? »
Mais c’est loin d’être le seul maillon problématique de la chaîne : « Lors du développement et du déploiement, des questions de gouvernance se posent. Qui possède le modèle, qui le conçoit et dans quel objectif ? On peut également poser la question de la nécessité de certains modèles à l’aune des changements climatiques. Faire tourner de tels modèles, cela consomme énormément d’énergie. De fait, cela met en exergue le fait que seules les compagnies puissantes ont suffisamment de moyens pour les utiliser. »prévient la chercheuse.
Nous pouvons faire de l’IA un véritable outil d’émancipation que les communautés pourraient s’approprier.
Heureusement, le tableau n’est pas tout noir. On peut faire de l’intelligence artificielle un outil d’émancipation. Giada Pistilli est membre de BigScience, un projet collaboratif réunissant des milliers d’universitaires et qui a pour vocation de développer un modèle de langues en libre accès. Selon elle, de tels projets peuvent rendre l’IA robustement bénéfique : « En développant une IA spécialisée sur une seule tâche, on peut la rendre plus facilement auditable, participative et adaptée à la communauté qui va s’en servir. En éduquant les utilisateurs sur ces nouvelles technologies et en les intégrant au projet de constitution des bases de données, on peut faire de l’IA un véritable outil d’émancipation que les communautés pourraient s’approprier. »
Saurons-nous être à la hauteur de ces multiples enjeux ? La question reste entière.