L’IA, une arme contre la fraude fiscale
- La fraude fiscale est un enjeu majeur puisqu’il représente 4 à 15 % de l’écart fiscal dans différents pays de l’OCDE.
- En France, il y a une volonté de renforcer la lutte contre la fraude, notamment en utilisant des outils liés à l’intelligence artificielle.
- Le CISIRH a développé un cadre opérationnel et théorique permettant de comparer les différents algorithmes de détection des fraudes à travers le monde.
- Pour combattre efficacement contre les fraudes fiscales, les IA et les algorithmes ne suffiront pas ; cette lutte doit s’inscrire dans une dimension collective et humaine.
Les enjeux de la détection de la fraude fiscale sont majeurs, en particulier dans un contexte de déficit élevé des États. La fraude représente une partie importante de l’écart fiscal estimé entre 4 et 15 % des sommes dues au sein de différents pays de l’OCDE. En France, par exemple, la simple fraude à la TVA est estimée entre 20 et 25 milliards d’euros1. De ce fait La Cour des Comptes a publié de nombreux rapports soulignant l’importance de renforcer la lutte contre la fraude2. En France, la fraude fiscale est coordonnée par la DGFiP qui utilise de nombreux outils liés à l’intelligence artificielle qui apportent de très bons résultats.
Dans cet esprit, Christophe Gaie a constitué un groupe-projet avec des étudiants de CentraleSupélec. Ensemble, ils ont mené une étude de recherche qui avait pour but de mettre en place un cadre opérationnel (méthodologie, approche algorithmique, code informatique, données de simulation…) et le partager avec l’ensemble des personnes engagés pour lutter contre la fraude3.
Quel était l’objectif de cette étude ?
Ce projet s’inscrit dans la lignée de recherches plus théoriques qui ont permis de définir et d’articuler les différents concepts, enjeux et orientations du domaine4. Il prolonge et met en œuvre cette dimension théorique et propose un cadre opérationnel qui permet de développer et de comparer des algorithmes développés par des chercheurs du monde entier.
L’optimisation n’étant pas une action prohibée, nos travaux se sont concentrés sur la fraude au sens de l’irrégularité. Nous avons également concentré nos efforts sur la détection de la fraude effectuée par les personnes physiques, la fraude des personnes morales pouvant être traitée par ailleurs.
D’où vient votre base de données pour cette étude ?
Un dossier fiscal peut contenir de nombreuses données liées à la personne : sa situation de famille, ses revenus, son patrimoine, etc. Que cela soit en laboratoire ou lorsque l’on étudie des données réelles il n’est pas toujours possible de disposer de l’ensemble des données. Ainsi, nous avons constitué une base de données fictive qui s’appuie sur un ensemble de données présélectionnées : catégorie socioprofessionnelle, revenus, dépenses, montant des biens immobiliers. Cette base peut bien entendu être complétée par la suite.
Pour des raisons légitimes de confidentialité de données personnelles, la DGFiP ne peut pas mettre à disposition des données pour la détection de la fraude su. Dès lors, chaque chercheur constitue de manière indépendante sa propre base de données, ce qui s’avère préjudiciable pour plusieurs raisons. A titre d’exemple, chaque chercheur doit construire une base de données propre ce qui est chronophage qui doit s’approprier des concepts de revenus, de patrimoine, etc. Mais aussi, les algorithmes des chercheurs ne sont pas forcément comparables entre eux, les bases de références étant une approche classique dans le domaine de la recherche numériques (base de références, de signaux de télécommunication ou d’images…).
Comment cette IA identifie-t-elle les cas de fraude ?
L’intelligence artificielle s’appuie sur une modélisation des dossiers fiscaux et permet de sélectionner les dossiers à contrôler, selon des critères paramétrables. A partir d’une connaissance des principaux cas de fraude, nous avons défini la probabilité de fraude d’un contribuable selon différentes typologies :
- De fortes dépenses et/ou un patrimoine élevé en comparaison aux revenus,
- De faibles dépenses et/ou un patrimoine réduit en comparaison aux revenus,
- Un important patrimoine comparé avec des personnes similaires au sein de sa catégorie socioprofesionnelle.
Le jeu de données5 a été constitué à l’aide de données de références publiées par l’INSEE, en prenant en compte la répartition en catégories socioprofessionnelles, la répartition des revenus et du patrimoine et la répartition des dépenses selon ces catégories socioprofessionnelle. La répartition en catégories s’appuie sur le simple pourcentage de la situation réelle. En ce qui concerne les autres paramètres, nous avons retenu une distribution Singh–Maddala6.
La lutte contre la fraude ne peut pas reposer sur de simples algorithmes détection et doit s’intégrer dans une dimension collective et humaine.
Pour détecter les cas potentiels de fraude, nous avons développé différents types d’algorithmes : soit fondés sur des réseaux de neurones avec différents échantillonnages, soit fondés sur une forêt aléatoire (« random forest ») c’est-à-dire une collection d’arbres de décision utilisée pour résoudre un problème de classifications.
Est-ce que ces algorithmes ont été utilisés sur des cas réels ?
Bien que les algorithmes n’aient pas été mis en œuvre sur des données réelles, il est tout à fait possible de partager ces éléments avec les agents publics, notamment ceux du bureau SJCF-1D de la DGFiP « Programmation des contrôles et analyse des données », au sein duquel l’un des étudiants à réalisé un stage par la suite. Toute collaboration ou retour d’expérience avec une entité publique constituerait une opportunité à saisir.
Quel est le niveau de précision ?
Il est important de rappeler qu’il existe un compromis dans la détection entre la précision (i.e. le taux de prédictions correctes parmi les réponses positives) et la sensibilité (i.e. le taux d’individus positifs détectés par le modèle). Les résultats d’un algorithme s’expriment donc d’après une métrique qui tient compte du compromis entre la précision et la sensibilité (AUPRC : « area under the precision-recall curve »).
Les algorithmes proposés permettent d’atteindre un AUPRC jusqu’à 0.851 pour la forêt aléatoire optimisée pour la sensibilité. Cela constitue un excellent résultat qui indique des perspectives particulièrement utiles pour la détection de fraudes potentielles en s’appuyant sur l’intelligence artificielle.
Est-ce que l’IA suffit ?
Non. La lutte contre la fraude ne peut pas reposer sur de simples algorithmes détection et doit s’intégrer dans une dimension collective et humaine. Et cela, parce quela lutte contre la fraude n’est pas uniquement un sujet technologique. En effet, la détection d’une fraude potentielle doit être corroborée par l’action d’un vérificateur fiscal, dans le cadre d’une procédure qui respecte des droits du contribuable. Cette approche garantie que la situation sera étudiée par des personnes qui tiendront compte de la jurisprudence fiscale, sous le contrôle d’un juge.
Dès lors, il est important de comprendre que l’analyse d’un dossier est confiée aux vérificateurs selon des critères de compétences, de charge de travail, d’intérêt professionnel, de couverture du tissu fiscal, etc. Nous avons proposé des algorithmes qui visent à proposer une répartition à un chef de brigade (responsable d’une équipe de vérificateurs) qui garde le dernier mot. En effet, celui-ci peut également tenir compte de critères subjectifs tels que la nécessité de former de nouveaux agents quand bien même l’attribution des dossiers ne serait alors plus optimale.
Enfin, il est utile de rappeler qu’une application de détection de la fraude doit s’intégrer à un système d’information qui assure la réalisation de l’ensemble missions de l’administration. Dès lors, au-delà des travaux de recherche, la mise en œuvre opérationnelle requiert de prévoir à la fois les interconnexions avec d’autres applications et la maintenabilité de l’application de détection de la fraude. De même, la capacité à intégrer de nouveaux algorithmes plus performants devrait également être détaillée.
James Bowers
Clause de non-responsabilité : Le contenu de cet article n’engage que son auteur et n’ont pas de portée autre que celle de l’information et de la recherche académique.
Remerciements : L’auteur remercie les étudiants de CentraleSupélec qui sont intervenus sur le projet ainsi que l’ensemble des co-auteurs avec lesquels il a effectué ses recherches pour contribuer à la recherche académique contre la fraude.