Accueil / Chroniques / Comment les IA libres pourraient moderniser les services publics
Powerful gust of wind symbolized by dynamic, swirling lines enveloping an open laptop that displays lines of open-source code on the screen
Généré par l'IA / Generated using AI
π Numérique π Société π Science et technologies

Comment les IA libres pourraient moderniser les services publics

Christophe Gaie
Christophe Gaie
chef de division ingénierie et innovation numérique au sein des services du Premier ministre
Laurent Denis
Laurent Denis
architecte technique au sein des services du Premier ministre
En bref
  • L’IA et les LLM constituent une opportunité majeure pour transformer l’action publique, notamment en améliorant la qualité et l’efficacité des services.
  • L’IA libre apparaît à ce titre comme une option intéressante pour moderniser les services publics numériques, avec des risques restant à évaluer.
  • L’IA libre présente de nombreux avantages, notamment un niveau de transparence complet sur le code source, la réduction des coûts ainsi que l’indépendance des administrations aux éditeurs.
  • Les modèles d’IA fermés présentent également des avantages, comme une moindre sujétion à certaines manipulations du paramétrage ou un meilleur contrôle du fonctionnement de l’IA.
  • Il est essentiel d’étudier en profondeur les enjeux éthiques liés à l’utilisation de l’IA dans le secteur public, notamment pour se prémunir de certains biais.

L’in­tel­li­gence arti­fi­cielle (IA), et plus spé­ci­fique­ment les grands mod­èles de lan­gage (Large Lan­guage Mod­els), con­stituent une oppor­tu­nité majeure pour trans­former l’ac­tion publique. L’IA peut en effet être util­isée dans de nom­breux domaines pour amélior­er l’ef­fi­cac­ité, la qual­ité des ser­vices ren­dus aux citoyens et la prise de décision.

Toute­fois, l’implémentation de l’IA au sein des ser­vices publics présente des enjeux majeurs. D’abord, la solu­tion retenue doit garan­tir l’équité de traite­ment, la trans­parence des déci­sions et des actions sur un dossier, ou encore, assur­er le respect des droits fon­da­men­taux tout au long de son util­i­sa­tion. De plus, la pro­tec­tion rigoureuse des don­nées per­son­nelles, sou­vent sen­si­bles dans le cadre des ser­vices publics, est un enjeu de sécu­rité con­séquent. Enfin, l’explicabilité des déci­sions con­stitue un fac­teur majeur dans la con­fi­ance envers les solu­tions util­isées et leur accept­abil­ité par les citoyens. Ain­si, l’utilisation d’une solu­tion offrant un fort niveau de trans­parence con­stitue un atout dans la mise en place et l’acceptation des solu­tions d’intelligence arti­fi­cielle. Mais au regard de la com­plex­ité du sujet, la mise en avant des critères per­me­t­tant d’assurer le niveau de trans­parence atten­du est loin d’être triv­iale à définir.

La définition d’une IA libre est un sujet encore soumis à débat

Les grands mod­èles de lan­gage s’appuient sur des réseaux de neu­rones entraînés sur une très grande quan­tité de don­nées. À par­tir d’une séquence de mots, ils déter­mi­nent de manière sta­tis­tique le mot répon­dant le mieux à la séquence don­née. En appli­quant ce principe de manière récur­sive, les LLM sont à même de pro­duire des textes struc­turés, don­nant l’impression que la machine analyse et com­prend la ques­tion posée.

Le texte pro­duit va donc dépendre :

  • des algo­rithmes util­isés, qui vont per­me­t­tre au mod­èle de peser l’importance de chaque mot dans une phrase par rap­port aux autres. Cette capac­ité est notam­ment don­née à tra­vers des archi­tec­tures de type « trans­form­ers1 ».
  • du poids affec­té aux dif­férents neu­rones, qui vont per­me­t­tre d’activer le réseau afin de pro­duire la don­née en sortie ;
  • du cor­pus d’apprentissage, qui a une inci­dence directe sur la déter­mi­na­tion des poids util­isés par le modèle.

Les 4 principes (utilis­er, étudi­er, mod­i­fi­er, partager) asso­ciés aux logi­ciels libres2  doivent donc se déclin­er sur l’ensemble de ces élé­ments3 . Le sujet est encore soumis à débat et engen­dre ain­si de nom­breuses con­fu­sions4. Ain­si, cer­taines IA se pré­ten­dant libres com­por­tent des restric­tions d’utilisation allant à l’encontre des principes défi­nis5. Après un long proces­sus, l’Open source ini­tia­tive (OSI), qui réu­nit des chercheurs, des juristes, des décideurs poli­tiques, des mil­i­tants et des représen­tants de grandes entre­pris­es tech­nologiques, pro­pose une déf­i­ni­tion qui met en cor­réla­tion les 4 lib­ertés asso­ciées aux logi­ciels libres et les élé­ments sur lesquels s’adossent les LLM.

Selon l’Open source ini­tia­tive, un sys­tème d’ap­pren­tis­sage automa­tique libre doit inclure les élé­ments suiv­ants6 :

  • des infor­ma­tions suff­isam­ment détail­lées sur les don­nées util­isées pour entraîn­er le sys­tème, per­me­t­tant à une per­son­ne com­pé­tente de con­stru­ire un sys­tème sub­stantielle­ment équiv­a­lent. Ces infor­ma­tions doivent être disponibles sous des ter­mes approu­vés par l’OSI ;
  • le code source de l’IA, y com­pris le code d’in­férence pour exé­cuter le modèle ;
  • l’ensem­ble des paramètres appris qui se super­posent à l’ar­chi­tec­ture du mod­èle pour pro­duire une sor­tie à par­tir d’une entrée donnée.

La pub­li­ca­tion du cor­pus d’apprentissage n’est donc pas oblig­a­toire, mais un descrip­tif détail­lé de ce dernier doit oblig­a­toire­ment être présent. Force est de con­stater que de nom­breux mod­èles offrant de très bonnes per­for­mances et se qual­i­fi­ant de libres ne respectent pas ce dernier point. On par­lera alors de mod­èles à poids ouverts. Un com­para­teur des mod­èles d’IA est d’ailleurs mis à dis­po­si­tion par le Pôle d’Expertise de la Régu­la­tion Numérique (PEReN).

Quels sont les risques et avantages associés aux différentes typologies de licences ?

Le code source est lis­i­ble par l’homme et donne un accès aux algo­rithmes util­isés. Les poids sont le résul­tat de l’entraînement et représen­tent les con­nais­sances du mod­èle. Dans le cas de mod­èles à poids ouvert, ces con­nais­sances peu­vent faire l’objet d’une per­son­nal­i­sa­tion à tra­vers une proces­sus de fine-tun­ing7.

Toute­fois, cela ne per­met pas une trans­parence totale comme la détec­tion de biais ou des attaques de type « empoi­son­nement » qui con­sis­tent à altér­er les con­nais­sances d’un mod­èle, sans que ces mod­i­fi­ca­tions soient facile­ment détecta­bles par les tests stan­dards89. Seul un mod­èle libre don­nant accès à son cor­pus d’apprentissage garan­tit un niveau de trans­parence total, notam­ment en per­me­t­tant une maîtrise com­plète de son entraîne­ment. Cepen­dant, cette démarche de recon­struc­tion à par­tir des sources néces­site encore des moyens de cal­culs impor­tants que peu d’entités sont en mesure d’acquérir.

Le 30 octo­bre 2023, le prési­dent Biden a pub­lié un décret inti­t­ulé Safe, Secure, and Trust­wor­thy Devel­op­ment and Use of Arti­fi­cial Intel­li­gence, visant à éval­uer les risques et les avan­tages des mod­èles de fon­da­tion pour lesquels les poids sont disponibles. Le rap­port issu de cette étude10 recon­naît les avan­tages de l’ac­cès ouvert aux poids des mod­èles, tels que l’in­no­va­tion et la recherche, mais souligne égale­ment les risques poten­tiels, notam­ment la pos­si­bil­ité d’u­til­i­sa­tion malveil­lante, la sup­pres­sion des mécan­ismes de sécu­rité et l’im­pact sur la con­cur­rence. Le rap­port con­clut que les don­nées actuelles ne sont pas suff­isantes pour déter­min­er de manière défini­tive si des restric­tions sur les mod­èles à poids ouverts sont jus­ti­fiées et recom­mande une sur­veil­lance active de ces modèles.

Les mod­èles fer­més, même s’ils ne béné­fi­cient pas du même niveau de trans­parence et d’inadaptabilité que leurs homo­logues libres ou à poids ouverts, ne sont pour autant pas dénués d’avantages. Ils sont moins sujets aux risques de manip­u­la­tions évo­qués ci-dessus car leurs poids ne sont pas mod­i­fi­ables par un tiers, les risques sur la pro­priété intel­lectuelle des don­nées d’entraînement sont portés par le four­nisseur du mod­èle, l’éditeur peut rapi­de­ment agir sur son mod­èle afin de réa­gir en cas d’abus, con­tribuant ain­si à atténuer les risques poten­tiels liés à l’IA, tels que la dif­fu­sion de con­tenus inap­pro­priés11. Toute­fois, tout cela se fait au détri­ment de l’autonomie que l’on peut avoir sur le mod­èle d’IA.

Faut-il privilégier les IA sous licence libre ?

L’utilisation d’IA libres au sens de l’OSI présente de nom­breux avan­tages. Tout d’abord, la trans­parence de leur fonc­tion­nement est garantie puisqu’il est directe­ment pos­si­ble d’accéder et de mod­i­fi­er leur code source et d’inspecter les don­nées d’entraînement. Cette pos­si­bil­ité est une garantie fon­da­men­tale puisque chaque mod­èle util­isé peut faire l’objet d’une véri­fi­ca­tion appro­fondie afin de garan­tir que le proces­sus de déci­sion est con­forme au droit en vigueur et ne présente pas de biais de dis­crim­i­na­tion, par exem­ple. Par con­tre, lorsque l’IA est util­isée dans le cadre d’une « Généra­tion aug­men­tée par la recherche » (Retrieval-aug­ment­ed gen­er­a­tion ou RAG12), le niveau de trans­parence qui doit être exigé peut être moin­dre car les don­nées util­isées pour for­muler les répons­es sont fournies par l’intermédiaire d’un algo­rithme sur lequel il est plus facile d’avoir le niveau de maîtrise atten­du. Le cor­pus de répons­es étant don­né par des algo­rithmes de recherch­es clas­siques, il est alors rel­a­tive­ment facile de fournir à l’usager final, en plus de la réponse atten­due, les don­nées brutes et leur niveau de con­fi­ance. Toute­fois, cela sup­pose un regard cri­tique de la part de l’utilisateur final.

Même si les mis­sions de l’État sont par essence rel­a­tive­ment spé­ci­fiques, on con­state que de nom­breux cas d’utilisations se rap­prochent de ce qui peut être fait dans des sociétés privées, à savoir apporter une réponse à une ques­tion en exploitant un cor­pus doc­u­men­taire à l’aide d’algorithmes de recherch­es clas­siques ou vec­to­rielles qui s’appuient sur la notion de sim­i­lar­ité13. Il n’est donc pas aber­rant de con­stater une con­ver­gence sur les mod­èles util­isés dans les deux mon­des. Pour l’État, le critère dis­crim­i­nant dans le choix des mod­èles sera donc en lien avec la préser­va­tion des infor­ma­tions per­son­nelles ou des infor­ma­tions sen­si­bles trans­mis­es aux mod­èles d’IA.

L’utilisation de solu­tions libres per­met de réduire dras­tique­ment les dépenses

Au-delà des aspects évo­qués ci-dessus, l’utilisation de solu­tions open-sources per­met aus­si à l’État de dif­fuser ses travaux afin que ces derniers puis­sent être réu­til­isés par le secteur pub­lic ou privé. Ain­si, la DGFiP a pub­lié des travaux sur un mod­èle per­me­t­tant de syn­thé­tis­er les amende­ments par­lemen­taires1415. Ils sont ain­si en capac­ité de partager active­ment leurs con­nais­sances dans les lim­ites de la con­fi­den­tial­ité néces­saires aux mis­sions régaliennes.

Enfin, l’utilisation de solu­tions libres per­met de réduire dras­tique­ment les dépens­es, en les lim­i­tant au sup­port tech­nique sans coût de licence.

Existe-il des difficultés à mettre en place des IA sous licence libre ?

L’u­til­i­sa­tion d’IA sous licence libre présente égale­ment dif­férents défis à relever. En pre­mier lieu, la mise en place de solu­tions libres requiert de bien maîtris­er le fonc­tion­nement des mod­èles sous-jacents. À cette com­plex­ité, s’ajoute par ailleurs la néces­sité de dis­pos­er des com­pé­tences tech­niques qui per­me­t­tent d’adapter les mod­èles aux besoins métiers, de dis­pos­er des don­nées néces­saires à l’apprentissage, de paramétr­er le mod­èle (fine-tun­ing), si l’application méti­er le néces­site, de le déploy­er dans le SI de l’administration et d’en garan­tir la plus haute sécurité.

De plus, leur main­te­nance évo­lu­tive et cor­rec­tive néces­site un investisse­ment en temps non nég­lige­able, tant pour met­tre à jour les mod­èles ou assur­er un niveau de non-régres­sion sat­is­faisant que pour assur­er leur bon fonc­tion­nement. Bien que le code soit libre, l’ex­ploita­tion de ces IA requiert sou­vent aus­si des infra­struc­tures infor­ma­tiques s’appuyant sur des unités de cal­culs spé­cial­isées, ce qui peut représen­ter un coût indi­rect. Enfin, la qual­ité des mod­èles libres peut vari­er con­sid­érable­ment notam­ment selon les cas métiers que l’on souhaite traiter, et il n’ex­iste pas de garanties absolues quant à leurs per­for­mances. Il est donc essen­tiel de définir pré­cisé­ment les atten­dus avec les équipes métiers et de procéder à une véri­fi­ca­tion des résul­tats atten­dus avant la mise en ser­vice de toute version.

Conclusion

L’in­té­gra­tion de l’in­tel­li­gence arti­fi­cielle au sein des ser­vices publics représente une oppor­tu­nité unique d’amélior­er l’ef­fi­cac­ité, la qual­ité des ser­vices ren­dus aux citoyens et la prise de déci­sion dans un con­texte de ten­sion sur les ressources humaines disponibles. Les mod­èles de lan­gage libres sem­blent être des out­ils par­ti­c­ulière­ment adap­tés à cet enjeu.

En dépit des défis, les avan­tages des IA libres sont nom­breux. Ils favorisent l’in­no­va­tion, réduisent les coûts et ren­for­cent l’au­tonomie des administrations.

Pour autant, il est indis­pens­able d’étudier en pro­fondeur les enjeux éthiques liés à l’u­til­i­sa­tion de l’IA dans le secteur pub­lic. En effet, il est néces­saire de met­tre en place des proces­sus et méth­odes per­me­t­tant de se pré­mu­nir des biais algo­rith­miques et garan­tir une util­i­sa­tion raisonnable des tech­nolo­gies, en garan­tis­sant leur con­trôle par des experts numériques, juridiques, voire par les citoyens eux-mêmes.

Clause de non-respon­s­abil­ité : Le con­tenu de cet arti­cle n’engage que ses auteurs et n’a pas de portée autre que celle de l’information et de la recherche académique.

1A. Vaswani et al., « Atten­tion Is All You Need ». 2023. [En ligne]. Disponible sur: https://​arx​iv​.org/​a​b​s​/​1​7​0​6​.​03762
2« Logi­ciel libre », Wikipé­dia. 14 novem­bre 2024. [En ligne]. Disponible sur: https://​fr​.wikipedia​.org/​w​/​i​n​d​e​x​.​p​h​p​?​t​i​t​l​e​=​L​o​g​i​c​i​e​l​_​l​i​b​r​e​&​o​l​d​i​d​=​2​2​0​2​93632
3B. Doer­rfeld, « Be care­ful with ‘open source’ AI », Lead­Dev. [En ligne]. Disponible sur: https://​lead​dev​.com/​t​e​c​h​n​i​c​a​l​-​d​i​r​e​c​t​i​o​n​/​b​e​-​c​a​r​e​f​u​l​-​o​p​e​n​-​s​o​u​r​ce-ai
4W. Rhi­an­non, « We final­ly have a def­i­n­i­tion for open-source AI », MIT Tech­nol­o­gy Review. [En ligne]. Disponible sur: https://​www​.tech​nol​o​gyre​view​.com/​2​0​2​4​/​0​8​/​2​2​/​1​0​9​7​2​2​4​/​w​e​-​f​i​n​a​l​l​y​-​h​a​v​e​-​a​-​d​e​f​i​n​i​t​i​o​n​-​f​o​r​-​o​p​e​n​-​s​o​u​r​c​e-ai/
5N. Lam­bert, « The koan of an open-source LLM », Inter­con­nects. [En ligne]. Disponible sur: https://​www​.inter​con​nects​.ai/​p​/​a​n​-​o​p​e​n​-​s​o​u​r​c​e-llm
6« The Open Source AI Def­i­n­i­tion – 1.0 – Open Source Ini­tia­tive », Open source ini­tia­tive.  [En ligne]. Disponible sur: https://​open​source​.org/​a​i​/​o​p​e​n​-​s​o​u​r​c​e​-​a​i​-​d​e​f​i​n​ition
7Stéphane Le Calme, « L’équilibre déli­cat entre sécu­rité et inno­va­tion dans l’IA : « ban­nir les mod­èles “open weights” serait un désas­tre ».  [En ligne]. Disponible sur: https://intelligence-artificielle.developpez.com/actu/356012/L‑equilibre-delicat-entre-securite-et-innovation-dans-l-IA-bannir-les-modeles-open-weights-serait-un-desastre-selon-un-chercheur-l-administration-Biden-envisage-de-bloquer-l-acces-a-ces-modeles-afin-d-eviter-les-abus/
8« Poi­sonG­PT : des LLM détournés à la racine – Data & IA – Sil​i​con​.fr ».  [En ligne]. Disponible sur: https://​www​.sil​i​con​.fr/​T​h​e​m​a​t​i​q​u​e​/​d​a​t​a​-​i​a​-​1​3​7​2​/​B​r​e​v​e​s​/​P​o​i​s​o​n​G​P​T​-​d​e​s​-​L​L​M​-​d​e​t​o​u​r​n​e​s​-​a​-​l​a​-​r​a​c​i​n​e​-​4​0​2​7​8​3.htm
9« LLM03: Train­ing Data Poi­son­ing – OWASP Top 10 for LLM & Gen­er­a­tive AI Secu­ri­ty », OWASP. [En ligne]. Disponible sur: https://​genai​.owasp​.org/​l​l​m​r​i​s​k​/​l​l​m​0​3​-​t​r​a​i​n​i​n​g​-​d​a​t​a​-​p​o​i​s​o​ning/
10NTIA Report, « Dual-Use Foun­da­tion Mod­els with Wide­ly Avail­able Mod­el Weights », juill. 2024. [En ligne]. Disponible sur: https://​www​.ntia​.gov/​s​i​t​e​s​/​d​e​f​a​u​l​t​/​f​i​l​e​s​/​p​u​b​l​i​c​a​t​i​o​n​s​/​n​t​i​a​-​a​i​-​o​p​e​n​-​m​o​d​e​l​-​r​e​p​o​r​t.pdf
11I. Solaiman, « Gen­er­a­tive AI Sys­tems Aren’t Just Open or Closed Source », Wired. [En ligne]. Disponible sur: https://​www​.wired​.com/​s​t​o​r​y​/​g​e​n​e​r​a​t​i​v​e​-​a​i​-​s​y​s​t​e​m​s​-​a​r​e​n​t​-​j​u​s​t​-​o​p​e​n​-​o​r​-​c​l​o​s​e​d​-​s​o​urce/
12« What is Retrieval-Aug­ment­ed Gen­er­a­tion (RAG)? | The Com­plete Guide ». [En ligne]. Disponible sur: https://​www​.k2view​.com/​w​h​a​t​-​i​s​-​r​e​t​r​i​e​v​a​l​-​a​u​g​m​e​n​t​e​d​-​g​e​n​e​r​ation
13M. Syed et E. Rus­si, « Qu’est-ce que la recherche vec­to­rielle ? » [En ligne]. Disponible sur: https://​www​.ibm​.com/​f​r​-​f​r​/​t​o​p​i​c​s​/​v​e​c​t​o​r​-​s​earch
14J. Ges­nouin et al., « LLa­Man­de­ment: Large Lan­guage Mod­els for Sum­ma­riza­tion of French Leg­isla­tive Pro­pos­als ». 2024. [En ligne]. Disponible sur: https://​arx​iv​.org/​a​b​s​/​2​4​0​1​.​16182
15« LLa­Man­de­ment, le LLM open source du gou­verne­ment français ».  [En ligne]. Disponible sur: https://​www​.actu​ia​.com/​a​c​t​u​a​l​i​t​e​/​l​l​a​m​a​n​d​e​m​e​n​t​-​l​e​-​l​l​m​-​o​p​e​n​-​s​o​u​r​c​e​-​d​u​-​g​o​u​v​e​r​n​e​m​e​n​t​-​f​r​a​n​cais/

Le monde expliqué par la science. Une fois par semaine, dans votre boîte mail.

Recevoir la newsletter