Comment et pourquoi doit-on expliquer les décisions prises par les algorithmes d’intelligence artificielle ?
Le besoin d’explicabilité n’est pas nouveau ! La question se posait déjà dans l’Antiquité, même si c’était alors d’un point de vue philosophique. Elle se pose de manière formelle depuis la fin du XIXe siècle et notamment depuis les travaux de Charles Peirce. Ce philosophe et logicien américain a introduit le raisonnement abductif, c’est-à-dire la recherche d’explications. Beaucoup de méthodes utilisées en intelligence artificielle (IA) symbolique, qui reposent sur la modélisation des connaissances avec des approches de type logique, apprentissage symbolique, etc., sont dites « explicables par essence », car la suite de raisonnements, qui conduit à une décision, est identifiée. Mais cela n’est que partiellement vrai, car si le problème posé devient trop grand, avec un grand nombre de formules logiques, des arbres de décision très complexes, des règles d’association très nombreuses, l’explication devient difficile.
La question de l’explicabilité se pose d’autant plus aujourd’hui que le deuxième paradigme de l’IA, les approches statistiques de l’IA, revient sur le devant de la scène depuis quelques années. Si l’IA symbolique se base sur des règles et reproduit le raisonnement humain, les approches statistiques de l’IA s’appuient sur des méthodes d’apprentissage statistique, en particulier des réseaux de neurones artificiels qui sont entraînés sur de grands volumes de données. Ces approches font partie de ce que l’on appelle l’apprentissage automatique (Machine Learning, ML) dont l’apprentissage profond (Deep Learning, DL) — même si ce n’est pas la seule. Il est très difficile d’extraire et d’exprimer les règles de ce que font les réseaux de neurones, qui partent des données.
Comment peut-on expliquer une décision d’IA ?
Il faut d’abord définir quoi expliquer, pour qui, comment et pourquoi… Le choix d’outils ou de méthodes d’explicabilité dépend de la réponse apportée à ces questions. Pour les réseaux de neurones, il est possible d’y répondre au niveau des données utilisées, au niveau du fonctionnement du réseau lui-même ou au niveau du résultat produit. Pour le fonctionnement, on peut se demander s’il est nécessaire d’expliquer. Prenons l’exemple de l’aspirine, elle a longtemps été utilisée sans que l’on sache comment elle agissait. Et quand son fonctionnement a été compris, il a servi à développer de nouvelles choses, sans pour autant changer l’usage qui en était fait. De même, on peut conduire une voiture sans comprendre le moteur, mais avec un niveau de connaissance qui suffit à bien l’utiliser.
Au niveau du résultat final, l’explication peut nécessiter le passage par des étapes intermédiaires pour mieux l’expliquer. Je travaille, par exemple, avec des médecins-radiologues sur la mesure de l’épaisseur du corps calleux chez les prématurés. Les radiologues voulaient savoir d’où venaient les scores obtenus, quelle région avait été reconnue dans l’image, où avaient été faites les mesures, pour comprendre ce qui avait contribué à la décision et expliquer le résultat final. Ces étapes étaient nécessaires pour qu’ils aient confiance dans l’outil.
On attend d’un algorithme qu’il soit neutre, mais rien n’est jamais neutre ! Le médecin déclenche un examen d’imagerie pour son patient parce qu’il cherche quelque chose qu’il pourrait identifier dans cette image, il a une intention. Cela introduit des biais, qui ne sont pas statistiques, mais cognitifs, de cadrage, de confirmation, de complaisance, etc. On retrouve ces mêmes biais face à des résultats produits par un algorithme. De plus, n’oublions pas que l’on fait d’autant plus confiance à l’algorithme lorsqu’il montre ce que l’on cherche. Un autre facteur entre en ligne de compte, celui du coût de l’erreur, car il est très différent selon qu’on le détecte à tort ou à raison. Les radiologues préfèrent en général avoir plus de faux positifs (puisqu’en cas de détection il y aura toujours confirmation ou infirmation, par exemple par d’autres examens) que de faux négatifs. Quand l’algorithme ne détecte rien, il ne doit pas se tromper, même si les médecins vérifient toujours visuellement le résultat.
L’explicabilité varie donc en fonction de l’utilisateur et de l’usage d’un algorithme ?
L’explication est un processus de conversation, de communication. On adapte le niveau d’explication en fonction de la personne à qui l’on parle. Pour rester dans le cadre médical, prenez une image présentant une tumeur. Le médecin expliquera différemment cette image et la tumeur selon qu’il parle à son staff, à des étudiants, à un public dans un colloque ou à son patient. C’est pourquoi les médecins ne veulent pas que les résultats d’algorithmes soient versés au dossier du patient sans qu’il y ait un contrôle de leur part.
Il faut aussi se demander pourquoi on veut expliquer. Est-ce pour justifier, pour contrôler le fonctionnement d’un algorithme, pour découvrir une connaissance scientifique, un phénomène ? Les objectifs varient et cela nécessitera des outils différents. Les enjeux aussi diffèrent, il y a des enjeux de confiance, d’éthique, de responsabilité, et éventuellement des enjeux économiques.
Pourquoi le besoin d’explicabilité est-il plus fort en ce moment ?
C’est essentiellement dû aux réseaux de neurones profonds, qui sont de plus en plus utilisés, qui ont des millions de paramètres et qui sont extrêmement complexes. On compte beaucoup sur les données en espérant que l’augmentation des volumes utilisés contribuera à améliorer les résultats. Cela dit, il existe beaucoup de connaissances du domaine concerné qui pourraient être utilisées. C’est ce que se propose de faire l’IA hybride, qui associe plusieurs approches de l’IA. Elle combine connaissances et données, IA symbolique et réseaux de neurones, logique et apprentissage. Personnellement, j’y crois beaucoup. Mais, quelles que soient les approches, la place de l’humain reste primordiale et il faudra toujours justifier les décisions prises par un algorithme.