Accueil / Chroniques / Comment l’IA pourrait humaniser les robots
Généré par l'IA / Generated using AI
π Science et technologies π Société

Comment l’IA pourrait humaniser les robots

anonyme
Edward Johns
directeur du Robot Learning Lab à l'Imperial College de Londres
En bref
  • Les grands modèles de langage (LLM) et les modèles vision-langage auront un impact important sur le futur de la robotique.
  • Les robots peuvent désormais communiquer en langage naturel, décomposer des tâches en étapes ou encore raisonner à l’aide d’images.
  • Cependant, les LLM ne permettent pas efficacement aux robots de manipuler leur environnement avec les mains ou d’interagir avec un univers en 3D.
  • Des potentialités de développement de la robotique à l’aide de l’IA générative existent, comme celle pour le robot de raisonner en vidéo et en action.

En regar­dant les vidéos pub­liées par des entre­pris­es de robo­t­ique telles que Tes­la et Fig­ure, on pour­rait croire que les robots seront présents demain dans nos maisons, capa­bles d’exé­cuter n’im­porte quelle com­mande for­mulée par un humain grâce aux pro­grès réal­isés avec les grands mod­èles de lan­gage (LLM). C’est peut-être le cas, mais il y a d’abord des obsta­cles impor­tants à franchir, explique Edward Johns, directeur du Robot Learn­ing Lab à l’Im­pe­r­i­al Col­lege de Londres.

Nous avons assisté à des progrès stratosphériques dans le domaine des grands modèles de langage. Cela va-t-il donner un coup de fouet à la robotique ?

Edward Johns. Ce qui s’est passé avec les grands réseaux neu­ronaux, tels que les mod­èles de lan­gage et les mod­èles de vision-lan­gage, aura un impact impor­tant sur la robo­t­ique. Ces mod­èles nous aident déjà à relever cer­tains des défis aux­quels nous étions con­fron­tés. Mais nous n’al­lons cer­taine­ment pas assis­ter du jour au lende­main à l’émer­gence d’un équiv­a­lent de Chat­G­PT dans le domaine de la robotique.

Les LLM per­me­t­tent aux opéra­teurs de com­mu­ni­quer avec le robot en lan­gage naturel plutôt que d’en­tr­er du code. C’est utile car, en fin de compte, c’est ain­si que nous voulons que les humains inter­agis­sent avec eux. Plus impor­tant encore, ces mod­èles peu­vent ouvrir une nou­velle voie de raison­nement pour les robots : Chat­G­PT, par exem­ple, peut décom­pos­er les tâch­es en étapes. Ain­si, si vous lui deman­dez com­ment faire un sand­wich, il vous répon­dra : vous avez besoin de pain, vous devez acheter du pain, vous devez trou­ver un mag­a­sin, pren­dre votre porte­feuille, quit­ter la mai­son, etc. Cela sig­ni­fie que les robots peu­vent appren­dre à décom­pos­er les tâch­es en interne, et nous savons qu’ils sont plus per­for­mants lorsqu’ils dis­posent d’un guide étape par étape.

Au cours des derniers mois, nous avons égale­ment assisté à l’émer­gence de ce que l’on appelle les « mod­èles vision-lan­gage », qui per­me­t­tent au robot de raison­ner non seule­ment en lan­gage, mais aus­si en images. Cette avancée est impor­tante car, à un moment don­né, les robots ont besoin d’a­jouter des infor­ma­tions visuelles à leur raison­nement pour nav­iguer dans leur environnement.

Quelle est donc la limite de l’utilisation des LLM pour les robots ?

Bien qu’il s’agisse de mod­èles intéres­sants à étudi­er, ils résol­vent cer­tains des défis les plus faciles à relever dans le domaine de la robo­t­ique. Ils n’ont pas eu un impact énorme en ter­mes de manip­u­la­tion dex­tre, par exem­ple, c’est-à-dire de manip­u­la­tion avec les mains. Or, il s’ag­it d’un prob­lème de la robo­t­ique qui est encore vrai­ment dif­fi­cile à résoudre. Nos mains accom­plis­sent des mil­liers et des mil­liers de tâch­es com­plex­es chaque jour.

L’un des prob­lèmes est que si ces mod­èles de lan­gage de vision sont très bons d’un point de vue séman­tique, ils ne pour­ront cepen­dant pas aider le robot à inter­a­gir avec un envi­ron­nement 3D, parce qu’ils ont été for­més sur des images 2D. Pour que les robots puis­sent raison­ner à ce niveau, ils ont besoin d’une énorme quan­tité de don­nées robo­t­iques, qui n’ex­is­tent tout sim­ple­ment pas. Cer­tains pensent qu’elles émerg­eront très rapi­de­ment, comme la poudrière que nous avons eu depuis l’émer­gence de Chat­G­PT – c’est en tout cas ce que nous enten­dons dans les com­mu­nautés de star­tups. Mais dans le cas de Chat­G­PT, les don­nées exis­taient déjà en ligne. Il fau­dra donc beau­coup de temps pour com­pil­er ces don­nées dans le champ de la robotique.

Le type d’a­vancées que l’on peut observ­er chez les entre­pris­es lead­ers dans le domaine de la robo­t­ique, comme Tes­la et Fig­ure, est très impres­sion­nant. Par exem­ple, Fig­ure pro­pose des démon­stra­tions vidéo intéres­santes dans lesquelles quelqu’un con­verse avec un robot qui effectue des tâch­es avec ses mains. Mais ces robots doivent encore être entraînés à effectuer des tâch­es spé­ci­fiques à l’aide d’ap­proches d’ap­pren­tis­sage automa­tique telles que l’ap­pren­tis­sage par ren­force­ment, qui con­siste à dire au robot d’ef­fectuer une tâche et à lui indi­quer s’il y parvient après quelques essais.

Les robots ne pourraient-ils pas rassembler les données dont ils ont besoin et les compiler avec les informations qu’ils apprennent des LLM ? 

Je pense que c’est ce sur quoi cer­tains pari­ent. Pou­vons-nous laiss­er les robots col­lecter eux-mêmes ces don­nées – c’est-à-dire les laiss­er dans une pièce pen­dant une nuit avec une tâche et des objets – et voir ce qu’ils ont appris pen­dant la nuit ? Ce type de raison­nement est util­isé dans l’ap­pren­tis­sage par ren­force­ment, et la com­mu­nauté s’est précédem­ment éloignée de cette approche après avoir réal­isé qu’elle générait des résul­tats frus­trants qui n’al­laient nulle part. Mais nous pour­rions assis­ter à un revire­ment dans le con­texte de ces mod­èles vision-langage.

La robo­t­ique peut encore faire l’ob­jet de décou­vertes sci­en­tifiques. Je pense qu’il y a encore beau­coup de tra­vail à faire. Par exem­ple, j’es­saie de faire en sorte que les robots appren­nent une tâche en quelques min­utes et avec un enseignant non expert.

Décou­vrez le numéro de notre mag­a­zine Le 3,14 dédié à l’IA. Disponible ici

Pensez-vous que les LLM et les modèles vision-langage en robotique ne seront qu’un feu de paille ?

Je ne pense pas que ce soit le cas. Il est vrai que ces nou­velles approches n’ont eu qu’un impact mineur en robo­t­ique par rap­port aux méth­odes plus anci­ennes. Toute­fois, si l’ingénierie clas­sique a atteint un cer­tain point de sat­u­ra­tion, les mod­èles de lan­gage de vision s’amélioreront avec le temps.

Si nous nous pro­je­tons dans l’avenir, par exem­ple, nous pour­rions voir des mod­èles d’IA généra­tive pro­duire une vidéo prédis­ant les con­séquences de ses actions. Si nous par­venons à ce stade, le robot pour­ra com­mencer à raison­ner en vidéo et en action – il y a là un grand poten­tiel pour la robotique.

Propos recueillis par Marianne Guenot

Le monde expliqué par la science. Une fois par semaine, dans votre boîte mail.

Recevoir la newsletter