BIAIS IA
π Numérique π Science et technologies
Les nouveaux enjeux de l’IA

L’intelligence artificielle : outil de domination ou d’émancipation ?

Lê Nguyên Hoang, co-fondateur et président de Tournesol.app, Victor Berger, chercheur post-doctoral au CEA de Saclay et Giada Pistilli, doctorante en philosophie à Sorbonne Université et affiliée au laboratoire Science, Normes, Démocratie du CNRS
Le 17 janvier 2023 |
6 min. de lecture
Lê Nguyên Hoang
Lê Nguyên Hoang
co-fondateur et président de Tournesol.app
BERGER Victor
Victor Berger
chercheur post-doctoral au CEA de Saclay
PISTILLI Giada
Giada Pistilli
doctorante en philosophie à Sorbonne Université et affiliée au laboratoire Science, Normes, Démocratie du CNRS
En bref
  • Il existe trois façons d’apprendre à une intelligence artificielle (IA) : l’apprentissage supervisé, l’apprentissage non-supervisé et l’apprentissage par renforcement.
  • Or, les algorithmes de machine learning permettent de repérer des patterns : le moindre biais caché dans un jeu de données peut donc être exploité et amplifié.
  • La généralisation du passé peut poser problème car les algorithmes utilisent des données historiques pour répondre à des problèmes présents.
  • L’IA est aussi une arène de pouvoir : des problèmes éthiques peuvent émerger, comme celui de l’utilisation des données.
  • On peut faire de l’IA un véritable outil d’émancipation participatif que les communautés pourraient s’approprier.

Avant de s’atteler à la prob­lé­ma­tique des biais de l’IA, il faut com­pren­dre com­ment fonc­tionne un algo­rithme de machine learn­ing, mais aus­si ce que cela sig­ni­fie. Pour Vic­tor Berg­er, post-doc­tor­ant au CEA-List en intel­li­gence arti­fi­cielle et en machine learn­ing, la meilleure tra­duc­tion française du terme serait « appren­tis­sage sta­tis­tique »Le chercheur développe : « Le pos­tu­lat de base de la plu­part des algo­rithmes en machine learn­ing, c’est de dire qu’on a des don­nées qui sont sup­posé­ment une représen­ta­tion sta­tis­tique du prob­lème qu’on souhaite résoudre. »

Trois grands moyens d’apprentissage 

La façon la plus sim­ple d’apprendre à une IA de machine learn­ing – tech­nique­ment par­lant – et la plus répan­due s’appelle l’apprentissage super­visé. « Par exem­ple, si on a une base de don­nées rem­plie de pho­tos d’animaux, un algo­rithme super­visé saura déjà que telle pho­to représente un chien, un chat, une poule, etc., et il saura que pour telle entrée (ou input) il devra don­ner une réponse spé­ci­fique en sor­tie (ou out­put). Un exem­ple clas­sique de ce type d’algorithme, ce sont les tra­duc­teurs de langues »,explique Vic­tor Berger.

La deux­ième famille d’algorithmes, l’apprentissage non-super­visé, est générale­ment util­isée lorsque nous n’avons pas la solu­tion à un prob­lème : « Pour rester sur l’exemple des ani­maux, un algo­rithme d’apprentissage non-super­visé con­tien­dra une base de don­nées avec les mêmes pho­tos que le précé­dent, sans avoir d’instruction pré­cise sur com­ment il doit réa­gir en sor­tie par rap­port à une entrée don­née. Son but est générale­ment d’identifier des pat­terns sta­tis­tiques au sein du jeu de don­nées qu’on lui four­nit dans un objec­tif de caté­gori­sa­tion (ou de clus­ter­ing). »

Toute la prob­lé­ma­tique réside dans les jeux de don­nées util­isés pour super­vis­er les algorithmes.

La troisième famille d’algorithmes est l’apprentissage par ren­force­ment : « Dans les deux pre­mières familles, la façon dont est codé l’algorithme lui per­met de se diriger et de savoir com­ment s’améliorer. Cette com­posante est absente dans l’apprentissage par ren­force­ment où l’algorithme sait juste s’il a cor­recte­ment rem­pli sa tâche ou non. Il n’a pas d’instructions con­cer­nant quelles direc­tions pren­dre pour devenir meilleur. Finale­ment, c’est l’environnement et sa réac­tion à la prise de déci­sion de l’algorithme qui va faire office de guide. » détaille Vic­tor Berger.

Dans les trois cas, toute la prob­lé­ma­tique réside dans les jeux de don­nées util­isés pour super­vis­er les algo­rithmes. Vic­tor Berg­er nous rap­pelle que « les algo­rithmes de machine learn­ing per­me­t­tent de repér­er des pat­terns. Dès lors, le moin­dre biais qui se cache dans un jeu de don­nées peut biais­er l’algorithme entier, qui va trou­ver le pat­tern biaisé, l’exploiter et l’amplifier »

Généralisation des données

Pour Lê Nguyên Hoang, doc­teur en math­é­ma­tiques, vul­gar­isa­teur sur la thé­ma­tique de l’intelligence arti­fi­cielle et co-fon­da­teur de Tour­nesol, l’hypothèse de la général­i­sa­tion des don­nées est omniprésente dans le domaine du machine learn­ing : « Les ques­tions rel­a­tives à la qual­ité des don­nées sont large­ment sous-estimées. Que ce soit dans le monde de la recherche ou dans l’industrie, c’est la con­cep­tion des algo­rithmes qui est mise en avant. Mais très peu de per­son­nes se posent la ques­tion de savoir si généralis­er le passé en entraî­nant des algo­rithmes avec des bases de don­nées his­toriques sur lesquelles nous n’avons pas de regard cri­tique est vrai­ment un pro­jet de société souhaitable. »

Afin de mieux com­pren­dre com­ment cela peut se man­i­fester, Vic­tor Berg­er fait référence à une anec­dote spé­ci­fique qui cir­cule dans le milieu du machine learn­ing : « Soucieuse d’éviter des biais sex­istes, une entre­prise util­isant une IA pour tri­er les CV a exclu les infor­ma­tions telles que le nom et les pho­tos. Mais ils se sont ren­du compte qu’elle avait retenu le foot comme cen­tre d’intérêt en tant que critère per­ti­nent. » Aus­si pru­dente qu’ait été l’entreprise, elle a fourni ses don­nées his­toriques sans anticiper la présence d’un pat­tern : les CV les plus recrutés par le passé – ceux des hommes – com­por­taient plus sou­vent le cen­tre d’intérêt « foot­ball ». Loin de lut­ter con­tre le biais sex­iste, l’algorithme l’a entretenu. Pour gér­er ce type de prob­lème, il existe deux solu­tions : « Soit des humains sont chargés de con­stituer des bases de don­nées plus qual­i­ta­tives – mais cela demande un tra­vail colos­sal – ; soit des algo­rithmes sont chargés d’éliminer les biais déjà iden­ti­fiés » explique Vic­tor Berger. 

Mais ça ne résout pas tout. « Si on prend l’exemple de la mod­éra­tion de con­tenu, l’étiquetage des don­nées va dépen­dre du con­cept de lib­erté d’expression qu’on défend, de ce qu’on estime être ou non un appel à la haine ou une fausse infor­ma­tion dan­gereuse, donc des ques­tions qui n’ont pas de répons­es claires et où il y aura des désac­cords. Dès lors, si la ques­tion n’est pas juste tech­nique, il en va de même pour les solu­tions. » souligne Lê Nguyên Hoang.

Boucles de rétroaction

Des ques­tions se posent aus­si sur les boucles de rétroac­tion que les algo­rithmes peu­vent causer : « Ce qu’il faut bien avoir en tête, c’est qu’un algo­rithme de machine learn­ing est tou­jours pre­scrip­tif, car son but est d’atteindre un objec­tif pré­cis : max­imiser la présence sur une plate­forme, le prof­it, le taux de clics, etc. » pointe Lê Nguyên Hoang.

Imag­inez un algo­rithme util­isé par les forces de police d’une col­lec­tiv­ité chargé de prédire dans quel quarti­er il va y avoir le plus de crimes et d’agressions. Vic­tor Berg­er sou­tient que « ce que va faire cet algo­rithme, c’est une pré­dic­tion sur la base de don­nées his­toriques de la police qui recense les quartiers dans lesquels le plus de gens se sont fait arrêter. » Là encore, on retombe sur le même tra­vers : le risque de général­i­sa­tion – voire d’amplification – du passé. En effet, cette pré­dic­tion n’est pas seule­ment descrip­tive, elle con­duit à une prise de déci­sion : ren­forcer les effec­tifs de police, accroître la vidéo­sur­veil­lance, etc. Des déci­sions qui peu­vent amen­er à ren­forcer un cli­mat déjà tendu.

Les phénomènes de rad­i­cal­i­sa­tion, de mou­vances sec­taires et de sphères com­plo­tistes peu­vent se retrou­ver amplifiés. 

De même, sur les réseaux soci­aux et les plate­formes de diver­tisse­ment, les algo­rithmes de recom­man­da­tion se basent sur les choix précé­dents de l’utilisateur. Leur objec­tif est générale­ment d’accaparer son atten­tion le plus longtemps pos­si­ble. Dès lors, les phénomènes de rad­i­cal­i­sa­tion, de mou­vances sec­taires et de sphères com­plo­tistes peu­vent se retrou­ver ampli­fiés. Lê Nguyên Hoang tra­vaille à résoudre ce prob­lème à l’aide d’un algo­rithme, qui se nomme Tour­nesol, dont la base de don­nées est con­sti­tuée de façon col­lab­o­ra­tive1

Les enjeux de pouvoir 

L’intelligence arti­fi­cielle n’est donc pas seule­ment un domaine d’étude sci­en­tifique ou encore un champ d’application tech­nologique. C’est aus­si une arène de pou­voir. « Il est très impor­tant d’analyser et de lis­ter les dif­férents prob­lèmes soci­aux et éthiques qui peu­vent sur­venir à cause de ces algo­rithmes, de leur entraîne­ment en pas­sant par leur con­cep­tion et jusqu’à leur déploiement. » prévient Gia­da Pis­til­li, chercheuse en philoso­phie et éthi­ci­enne prin­ci­pale chez Hug­ging Face.

Juste­ment, de quelle nature sont ces prob­lèmes ? La chercheuse en philoso­phie nous explique qu’on peut les retrou­ver à tous les niveaux de la chaîne de développe­ment d’une IA : « Il peut y avoir des prob­lèmes éthiques qui émer­gent dès l’en­traîne­ment d’un mod­èle à cause de la prob­lé­ma­tique des don­nées : les don­nées peu­vent-elles con­duire à une stéréo­typ­i­sa­tion ? Quelles sont les con­séquences de l’absence de cer­taines don­nées ? Est-ce que les don­nées util­isées – images privées, pro­priété intel­lectuelle – ont fait l’objet d’un con­sen­te­ment à l’utilisation avant de servir de dataset d’entraînement pour le mod­èle ? »

Mais c’est loin d’être le seul mail­lon prob­lé­ma­tique de la chaîne : « Lors du développe­ment et du déploiement, des ques­tions de gou­ver­nance se posent. Qui pos­sède le mod­èle, qui le conçoit et dans quel objec­tif ? On peut égale­ment pos­er la ques­tion de la néces­sité de cer­tains mod­èles à l’aune des change­ments cli­ma­tiques. Faire tourn­er de tels mod­èles, cela con­somme énor­mé­ment d’én­ergie. De fait, cela met en exer­gue le fait que seules les com­pag­nies puis­santes ont suff­isam­ment de moyens pour les utilis­er. »prévient la chercheuse.

Nous pou­vons faire de l’IA un véri­ta­ble out­il d’émancipation que les com­mu­nautés pour­raient s’approprier.

Heureuse­ment, le tableau n’est pas tout noir. On peut faire de l’intelligence arti­fi­cielle un out­il d’émancipation. Gia­da Pis­til­li est mem­bre de Big­Science, un pro­jet col­lab­o­ratif réu­nis­sant des mil­liers d’universitaires et qui a pour voca­tion de dévelop­per un mod­èle de langues en libre accès. Selon elle, de tels pro­jets peu­vent ren­dre l’IA robuste­ment béné­fique : « En dévelop­pant une IA spé­cial­isée sur une seule tâche, on peut la ren­dre plus facile­ment auditable, par­tic­i­pa­tive et adap­tée à la com­mu­nauté qui va s’en servir. En éduquant les util­isa­teurs sur ces nou­velles tech­nolo­gies et en les inté­grant au pro­jet de con­sti­tu­tion des bases de don­nées, on peut faire de l’IA un véri­ta­ble out­il d’émancipation que les com­mu­nautés pour­raient s’approprier. »

 Saurons-nous être à la hau­teur de ces mul­ti­ples enjeux ? La ques­tion reste entière.

Julien Hernandez 
1https://​www​.futu​ra​-sci​ences​.com/​t​e​c​h​/​a​c​t​u​a​l​i​t​e​s​/​i​n​t​e​l​l​i​g​e​n​c​e​-​a​r​t​i​f​i​c​i​e​l​l​e​-​t​o​u​r​n​e​s​o​l​-​a​l​g​o​r​i​t​h​m​e​-​u​t​i​l​i​t​e​-​p​u​b​l​i​q​u​e​-​b​e​s​o​i​n​-​v​o​u​s​-​8​7301/

Le monde expliqué par la science. Une fois par semaine, dans votre boîte mail.

Recevoir la newsletter