Accueil / Chroniques / L’IA, une arme contre la fraude fiscale
AdobeStock_601667456
π Économie π Science et technologies

L’IA, une arme contre la fraude fiscale

Christophe Gaie
Christophe Gaie
chef de division ingénierie et innovation numérique au sein des services du Premier ministre
En bref
  • La fraude fiscale est un enjeu majeur puisqu’il représente 4 à 15 % de l’écart fiscal dans différents pays de l’OCDE.
  • En France, il y a une volonté de renforcer la lutte contre la fraude, notamment en utilisant des outils liés à l’intelligence artificielle.
  • Le CISIRH a développé un cadre opérationnel et théorique permettant de comparer les différents algorithmes de détection des fraudes à travers le monde.
  • Pour combattre efficacement contre les fraudes fiscales, les IA et les algorithmes ne suffiront pas ; cette lutte doit s’inscrire dans une dimension collective et humaine.

Les enjeux de la détec­tion de la fraude fis­cale sont majeurs, en par­ti­c­uli­er dans un con­texte de déficit élevé des États. La fraude représente une par­tie impor­tante de l’écart fis­cal estimé entre 4 et 15 % des sommes dues au sein de dif­férents pays de l’OCDE. En France, par exem­ple, la sim­ple fraude à la TVA est estimée entre 20 et 25 mil­liards d’euros1. De ce fait La Cour des Comptes a pub­lié de nom­breux rap­ports soulig­nant l’importance de ren­forcer la lutte con­tre la fraude2. En France, la fraude fis­cale est coor­don­née par la DGFiP qui utilise de nom­breux out­ils liés à l’intelligence arti­fi­cielle qui appor­tent de très bons résultats.

Dans cet esprit, Christophe Gaie a con­sti­tué un groupe-pro­jet avec des étu­di­ants de Cen­trale­Supélec. Ensem­ble, ils ont mené une étude de recherche qui avait pour but de met­tre en place un cadre opéra­tionnel (méthodolo­gie, approche algo­rith­mique, code infor­ma­tique, don­nées de sim­u­la­tion…) et le partager avec l’ensemble des per­son­nes engagés pour lut­ter con­tre la fraude3.

Quel était l’objectif de cette étude ?

Ce pro­jet s’inscrit dans la lignée de recherch­es plus théoriques qui ont per­mis de définir et d’articuler les dif­férents con­cepts, enjeux et ori­en­ta­tions du domaine4. Il pro­longe et met en œuvre cette dimen­sion théorique et pro­pose un cadre opéra­tionnel qui per­met de dévelop­per et de com­par­er des algo­rithmes dévelop­pés par des chercheurs du monde entier.

L’optimisation n’étant pas une action pro­hibée, nos travaux se sont con­cen­trés sur la fraude au sens de l’irrégularité. Nous avons égale­ment con­cen­tré nos efforts sur la détec­tion de la fraude effec­tuée par les per­son­nes physiques, la fraude des per­son­nes morales pou­vant être traitée par ailleurs.

D’où vient votre base de données pour cette étude ?

Un dossier fis­cal peut con­tenir de nom­breuses don­nées liées à la per­son­ne : sa sit­u­a­tion de famille, ses revenus, son pat­ri­moine, etc. Que cela soit en lab­o­ra­toire ou lorsque l’on étudie des don­nées réelles il n’est pas tou­jours pos­si­ble de dis­pos­er de l’ensemble des don­nées. Ain­si, nous avons con­sti­tué une base de don­nées fic­tive qui s’appuie sur un ensem­ble de don­nées présélec­tion­nées : caté­gorie socio­pro­fes­sion­nelle, revenus, dépens­es, mon­tant des biens immo­biliers. Cette base peut bien enten­du être com­plétée par la suite.

Pour des raisons légitimes de con­fi­den­tial­ité de don­nées per­son­nelles, la DGFiP ne peut pas met­tre à dis­po­si­tion des don­nées pour la détec­tion de la fraude su. Dès lors, chaque chercheur con­stitue de manière indépen­dante sa pro­pre base de don­nées, ce qui s’avère préju­di­cia­ble pour plusieurs raisons. A titre d’exemple, chaque chercheur doit con­stru­ire une base de don­nées pro­pre ce qui est chronophage qui doit s’approprier des con­cepts de revenus, de pat­ri­moine, etc. Mais aus­si, les algo­rithmes des chercheurs ne sont pas for­cé­ment com­pa­ra­bles entre eux, les bases de références étant une approche clas­sique dans le domaine de la recherche numériques (base de références, de sig­naux de télé­com­mu­ni­ca­tion ou d’images…).

Comment cette IA identifie-t-elle les cas de fraude ?

L’intelligence arti­fi­cielle s’appuie sur une mod­éli­sa­tion des dossiers fis­caux et per­met de sélec­tion­ner les dossiers à con­trôler, selon des critères paramé­tra­bles. A par­tir d’une con­nais­sance des prin­ci­paux cas de fraude, nous avons défi­ni la prob­a­bil­ité de fraude d’un con­tribuable selon dif­férentes typologies :

  • De fortes dépens­es et/ou un pat­ri­moine élevé en com­para­i­son aux revenus,
  • De faibles dépens­es et/ou un pat­ri­moine réduit en com­para­i­son aux revenus,
  • Un impor­tant pat­ri­moine com­paré avec des per­son­nes sim­i­laires au sein de sa caté­gorie socioprofesionnelle.

Le jeu de don­nées5 a été con­sti­tué à l’aide de don­nées de références pub­liées par l’INSEE, en prenant en compte la répar­ti­tion en caté­gories socio­pro­fes­sion­nelles, la répar­ti­tion des revenus et du pat­ri­moine et la répar­ti­tion des dépens­es selon ces caté­gories socio­pro­fes­sion­nelle. La répar­ti­tion en caté­gories s’appuie sur le sim­ple pour­cent­age de la sit­u­a­tion réelle. En ce qui con­cerne les autres paramètres, nous avons retenu une dis­tri­b­u­tion Singh–Maddala6.

La lutte con­tre la fraude ne peut pas repos­er sur de sim­ples algo­rithmes détec­tion et doit s’intégrer dans une dimen­sion col­lec­tive et humaine.

Pour détecter les cas poten­tiels de fraude, nous avons dévelop­pé dif­férents types d’algorithmes : soit fondés sur des réseaux de neu­rones avec dif­férents échan­til­lon­nages, soit fondés sur une forêt aléa­toire (« ran­dom for­est ») c’est-à-dire une col­lec­tion d’ar­bres de déci­sion util­isée pour résoudre un prob­lème de classifications.

Est-ce que ces algorithmes ont été utilisés sur des cas réels ?

Bien que les algo­rithmes n’aient pas été mis en œuvre sur des don­nées réelles, il est tout à fait pos­si­ble de partager ces élé­ments avec les agents publics, notam­ment ceux du bureau SJCF-1D de la DGFiP « Pro­gram­ma­tion des con­trôles et analyse des don­nées », au sein duquel l’un des étu­di­ants à réal­isé un stage par la suite. Toute col­lab­o­ra­tion ou retour d’expérience avec une entité publique con­stituerait une oppor­tu­nité à saisir.

Quel est le niveau de précision ?

Il est impor­tant de rap­pel­er qu’il existe un com­pro­mis dans la détec­tion entre la pré­ci­sion (i.e. le taux de pré­dic­tions cor­rectes par­mi les répons­es pos­i­tives) et la sen­si­bil­ité (i.e. le taux d’individus posi­tifs détec­tés par le mod­èle). Les résul­tats d’un algo­rithme s’expriment donc d’après une métrique qui tient compte du com­pro­mis entre la pré­ci­sion et la sen­si­bil­ité (AUPRC : « area under the pre­ci­sion-recall curve »).

Les algo­rithmes pro­posés per­me­t­tent d’atteindre un AUPRC jusqu’à 0.851 pour la forêt aléa­toire opti­misée pour la sen­si­bil­ité. Cela con­stitue un excel­lent résul­tat qui indique des per­spec­tives par­ti­c­ulière­ment utiles pour la détec­tion de fraudes poten­tielles en s’appuyant sur l’intelligence artificielle.

Est-ce que l’IA suffit ?

Non. La lutte con­tre la fraude ne peut pas repos­er sur de sim­ples algo­rithmes détec­tion et doit s’intégrer dans une dimen­sion col­lec­tive et humaine. Et cela, parce quela lutte con­tre la fraude n’est pas unique­ment un sujet tech­nologique. En effet, la détec­tion d’une fraude poten­tielle doit être cor­roborée par l’action d’un vérifi­ca­teur fis­cal, dans le cadre d’une procé­dure qui respecte des droits du con­tribuable. Cette approche garantie que la sit­u­a­tion sera étudiée par des per­son­nes qui tien­dront compte de la jurispru­dence fis­cale, sous le con­trôle d’un juge.

Dès lors, il est impor­tant de com­pren­dre que l’analyse d’un dossier est con­fiée aux vérifi­ca­teurs selon des critères de com­pé­tences, de charge de tra­vail, d’intérêt pro­fes­sion­nel, de cou­ver­ture du tis­su fis­cal, etc. Nous avons pro­posé des algo­rithmes qui visent à pro­pos­er une répar­ti­tion à un chef de brigade (respon­s­able d’une équipe de vérifi­ca­teurs) qui garde le dernier mot. En effet, celui-ci peut égale­ment tenir compte de critères sub­jec­tifs tels que la néces­sité de for­mer de nou­veaux agents quand bien même l’attribution des dossiers ne serait alors plus optimale.

Enfin, il est utile de rap­pel­er qu’une appli­ca­tion de détec­tion de la fraude doit s’intégrer à un sys­tème d’information qui assure la réal­i­sa­tion de l’ensemble mis­sions de l’administration. Dès lors, au-delà des travaux de recherche, la mise en œuvre opéra­tionnelle requiert de prévoir à la fois les inter­con­nex­ions avec d’autres appli­ca­tions et la main­ten­abil­ité de l’application de détec­tion de la fraude. De même, la capac­ité à inté­gr­er de nou­veaux algo­rithmes plus per­for­mants devrait égale­ment être détaillée.

James Bowers

Clause de non-respon­s­abil­ité : Le con­tenu de cet arti­cle n’engage que son auteur et n’ont pas de portée autre que celle de l’information et de la recherche académique.

Remer­ciements : L’auteur remer­cie les étu­di­ants de Cen­trale­Supélec qui sont inter­venus sur le pro­jet ain­si que l’ensemble des co-auteurs avec lesquels il a effec­tué ses recherch­es pour con­tribuer à la recherche académique con­tre la fraude.

1https://​www​.insee​.fr/​f​r​/​s​t​a​t​i​s​t​i​q​u​e​s​/​6​4​78533
2https://www.ccomptes.fr/system/files/2019–11/20191202-synthese-fraude-aux-prelevements-obligatoires.pdf
3Pro­l­hac, J., Gaie, C. « Pro­vid­ing an open frame­work to facil­i­tate tax fraud detec­tion », Inter­na­tion­al Jour­nal of Com­put­er Appli­ca­tions in Tech­nol­o­gy, In Pub­lish, 2023, https://​doi​.org/​1​0​.​1​5​0​4​/​I​J​C​A​T​.​2​0​2​3​.​1​0​0​55494
4Gaie, C. (2023). Strug­gling Against Tax Fraud, a Holis­tic Approach Using Arti­fi­cial Intel­li­gence. In: Gaie, C., Mehta, M. (eds) Recent Advances in Data and Algo­rithms for e‑Government. Arti­fi­cial Intel­li­gence-Enhanced Soft­ware and Sys­tems Engi­neer­ing, vol 5. Springer, Cham. https://doi.org/10.1007/978–3‑031–22408-9_4
5https://​git​lab​.com/​j​e​a​n​.​p​r​o​l​h​a​c​/​d​e​t​e​c​t​i​o​n​-​d​e​-​f​r​aude/
6Singh, A., Nar­i­na, T. and Aakank­sha, S. (2016) ‘A review of super­vised machine learn­ing algo­rithms’, Pro­ceed­ings of the 3rd Inter­na­tion­al Con­fer­ence on Com­put­ing for Sus­tain­able Glob­al Devel­op­ment (INDI­A­Com), pp.1310–1315. https://​iee​ex​plore​.ieee​.org/​a​b​s​t​r​a​c​t​/​d​o​c​u​m​e​n​t​/​7​7​24478

Le monde expliqué par la science. Une fois par semaine, dans votre boîte mail.

Recevoir la newsletter