Vintage microphone on stage with warm lights and smoke.
Généré par l'IA / Generated using AI
π Science et technologies
Quand la science se met au service de la créativité

Créativité : L’IA peut désormais composer de la musique

Geoffroy Peeters, professeur en sciences des données à Télécom Paris (IP Paris)
Le 12 février 2025 |
7 min. de lecture
Geoffroy Peeters
Geoffroy Peeters
professeur en sciences des données à Télécom Paris (IP Paris)
En bref
  • Aujourd’hui, les algorithmes de classement, d’indexation et d’analyse des données musicales disposent de suffisamment de données pour fonctionner en autonomie.
  • Avec les progrès du deep learning, la musique peut désormais être analysée comme un ensemble d’éléments distincts (voix, batterie, basse, etc.).
  • Cette capacité à extraire les éléments constituant la musique a rendu possible leur recontextualisation, leur modification ou encore leur clonage dans d’autres contenus.
  • Il est désormais possible pour certains modèles de générer de leurs propres musiques, ce qui reste toutefois un défi technique majeur.
  • Un des enjeux de ces pratiques est la possibilité pour ces modèles de générer du contenu véritablement nouveau, et non pas simplement de reproduire ce qu’ils ont déjà appris.

En 1957, un ordi­na­teur écrit pour la pre­mière fois une par­ti­tion musi­cale. L’ILLIAC I – conçu par Lejaren Hiller et Leonard Isaac­son à l’Université de l’Illinois – com­pose un quatuor à cordes1. La promesse d’un pro­gramme infor­ma­tique capa­ble de génér­er de la musique s’ancre dans la réal­ité. Après tout, la musique n’est qu’affaire de struc­tures, de règles, et de math­é­ma­tiques. Rien d’inconnu pour un pro­gramme infor­ma­tique… à un détail près : la création.

Ce qui fascine dans cette suite, c’est qu’elle a été com­posée par un ordi­na­teur, et ce, en suiv­ant un mod­èle prob­a­biliste éton­nam­ment proche de ceux util­isés aujourd’hui2. Seule­ment, elle a été créée selon des règles établies par un com­pos­i­teur humain, révisée par ce dernier, puis inter­prétée par un orchestre. Résul­tat : une appli­ca­tion rigide des règles, lais­sant peu de place à l’innovation artistique.

Aujourd’hui, la tech­nolo­gie a rad­i­cale­ment évolué : n’importe qui, depuis son ordi­na­teur, peut se la jouer com­pos­i­teur. Grâce aux algo­rithmes de deep learn­ing et à l’essor de l’IA généra­tive, l’IA musi­cale a pris un tour­nant intéres­sant. Car avant qu’une machine puisse réelle­ment pro­duire une œuvre musi­cale de toute pièce, il fal­lait encore qu’elle la com­prenne, et non qu’elle l’imite. 

Et c’est bien là tout l’enjeu d’une quête sci­en­tifique entamée il y a plus de vingt ans : non pas faire com­pos­er les machines, mais leur appren­dre à écouter. Recon­naître un style, clas­si­fi­er une œuvre, analyser une struc­ture musi­cale… Bien avant l’explosion de la généra­tion musi­cale assistée par IA, des chercheurs ten­taient déjà de faire enten­dre la musique aux machines. Par­mi eux, Geof­froy Peeters, pro­fesseur à Télé­com Paris et préal­able­ment directeur de recherche à l’IRCAM. Son tra­vail sur le sujet pour­rait nous aider à répon­dre à cette ques­tion : une machine peut-elle véri­ta­ble­ment com­pren­dre la musique, avant même de pré­ten­dre en créer ?

Comprendre la musique

« Au début des années 2000, la stan­dard­i­s­a­tion inter­na­tionale d’un for­mat : le .mp3 (MPEG‑1 Audio Lay­er III) a fait appa­raître la dig­i­tal­i­sa­tion des bib­lio­thèques musi­cales (aujourd’hui plate­formes de stream­ing), d’où un accès à un très vaste cat­a­logue de musique pour les util­isa­teurs, et donc un besoin de clas­si­fi­er, index­er cha­cune des musiques la com­posant », explique Geof­froy Peeters. De là est né un nou­veau champ de recherche : com­ment dévelop­per un moteur de recherche musi­cale ? « Ces tech­nolo­gies d’analyses musi­cales sont basées sur l’analyse audio, le traite­ment du sig­nal, et étaient, au début, human dri­ven– l’apprentissage se fai­sait à par­tir de règles ren­seignées par l’homme », ajoute-t-il. Car la musique n’est pas un sim­ple enchaîne­ment de sons aléa­toires, mais une struc­ture organ­isée suiv­ant une gram­maire rigoureuse, par­fois aus­si forte, voire plus, que celle du lan­gage. Un style de musique étant déter­miné par un cer­tain type d’accord, un cer­tain tem­po, une struc­ture har­monique, etc., « appren­dre ces dif­férentes règles à une machine ne sem­blait pas si com­pliqué ».

« Ce qui définit le blues, par exem­ple, est la répéti­tion d’une grille de 12 mesures basées sur l’enchainement de 3 accords spé­ci­fiques, éla­bore le pro­fesseur. Ces règles, que nous con­nais­sons très bien, seront encodées dans un ordi­na­teur, afin que celui-ci puisse clas­si­fi­er la musique selon le genre. » Cela étant, la musique ne se définit pas seule­ment par son genre, elle peut trans­met­tre une humeur, ou être plus adéquate pour un con­texte – que ce soit pour faire du sport, ou pour méditer. Bref, bien des élé­ments aux règles plus dif­fus­es que celles déter­mi­nant le genre.

« Pour ten­ter de répon­dre à cette com­plex­ité, Pan­do­ra Music, la plate­forme de stream­ing musi­cale la plus impor­tante des États-Unis, a créé le pro­jet Génome Musi­cal, deman­dant à des êtres humains d’annoter plus de 1 mil­lion de titres sur une base de 200 critères dif­férents. » Ce tra­vail colos­sal a per­mis d’accumuler suff­isam­ment de don­nées pour per­me­t­tre le développe­ment d’approches dites data dri­ven (dans lequel la con­nais­sance est apprise par la machine – le machine learn­ing – à par­tir de l’analyse de data, les don­nées annotées). Par­mi les tech­niques de machine learn­ing, les algo­rithmes de deep learn­ing sont rapi­de­ment apparus comme les plus per­for­mants et ont per­mis dans les années 2010 des avancées ful­gu­rantes. « Plutôt que faire des mod­èles human dri­ven, avec des math­é­ma­tiques com­plex­es du traite­ment du sig­nal, des règles de déci­sion manuelles nous pou­vons main­tenant tout appren­dre de manière com­plète­ment automa­tique à par­tir des don­nées », com­plète Geof­froy Peeters.

Au fil du temps, ces mod­èles entraînés ont per­mis la mise en place des algo­rithmes de clas­si­fi­ca­tion, mais aus­si de recom­man­da­tion des plate­formes en ligne de musique comme Deez­er ou Spotify. 

Apprendre à écouter

Le deep learn­ing va égale­ment engen­dr­er un change­ment de par­a­digme.  Alors que la musique était con­sid­érée comme un tout, elle peut doré­na­vant être analysée comme un com­posé d’éléments. « Jusqu’en 2010, nous sommes inca­pables de sépar­er la voix, la bat­terie, la basse d’un mix de manière pro­pre – c’est-à-dire util­is­able, souligne-t-il. Alors que si la voix pou­vait être extraite, la mélodie chan­tée pour­rait être recon­nue pré­cisé­ment, car­ac­térisée et analysée plus fine­ment. Le deep learn­ing va per­me­t­tre cela en entraî­nant des sys­tèmes prenant en entrée un morceau mixé, c’est-à-dire avec toutes les sources mélangées (les voix, la bat­terie, la basse…) pour en sor­tir les dif­férentes sources démixées, autrement dit séparées. » Pour entrain­er un tel sys­tème il faut cepen­dant des don­nées ; même beau­coup. Au début, cer­tains entraîne­ments pou­vaient se faire avec un accès, sou­vent lim­ité, aux enreg­istrements démixés des maisons dis­ques. Jusqu’à ce que Spo­ti­fy, et son immense cat­a­logue faisant office de don­nées, amène un algo­rithme con­va­in­cant de sépa­ra­tion de sources. S’en est suivi une mul­ti­tude de nou­veaux mod­èles tou­jours plus impres­sion­nants les uns que les autres, dont les mod­èles français Spleeter de Deez­er, qui est open source3, ou Demucs de Meta-AI à Paris.

Cette analyse indi­vidu­elle de chaque élé­ment qui com­pose une musique a cham­boulé l’entraînement des IA. « Tout cela a ouvert la porte à de nom­breuses choses, dont l’IA généra­tive dévelop­pée aujourd’hui en musique. Par exem­ple, avec la pos­si­bil­ité de sépar­er la voix et de l’analyser dans les détails, il devient tout à fait pos­si­ble de la re-con­tex­tu­alis­er (réin­sér­er la voix d’Edith Piaf dans le film La Môme, ou celle de John Lennon dans Now and Then des Bea­t­les), de la mod­i­fi­er (la cor­rec­tion de hauteur/justesse est très util­isée) de la recréer (la voix du général de Gaulle prononçant l’appel du 18 juin), mais égale­ment de la clon­er. Des faits récents mon­trent l’étendue que cette dernière util­i­sa­tion peut avoir, avec des inquié­tudes dans le monde du dou­blage de ciné­ma, la crainte des deep­fakes, mais aus­si une musique inédite avec Drake et The Week­nd, qui n’était pour­tant pas chan­tée par eux. » 

Devenir compositeur

Les pre­mières recherch­es en IA musi­cale avaient des objec­tifs bien défi­nis : class­er, analyser, seg­menter la musique, et, pourquoi pas, assis­ter le com­pos­i­teur dans sa créa­tion. Mais avec l’émergence des mod­èles générat­ifs, ces travaux sont devenus la base d’une toute nou­velle approche : la généra­tion d’un morceau de musique (donc de son sig­nal audio) à par­tir de rien, ou juste d’un « prompt » textuel. « Le pre­mier acteur qui va se posi­tion­ner dans la généra­tion de musique à par­tir de rien est Juke­box d’OpenAI, con­state Geof­froy Peeters. Ils ont en quelque sorte recy­clé ce qu’ils fai­saient pour Chat­G­PT : utilis­er un mod­èle de lan­gage (Large-Lan­guage-Mod­el ou LLM) – mod­èle, dit autoré­gres­sif, entraîné à prédire le mot suiv­ant, en fonc­tion des précé­dents. »

Trans­pos­er ce principe au domaine musi­cal est un défi tech­nique majeur. Con­traire­ment au texte, l’audio n’est pas con­sti­tué de mots dis­tincts que l’IA peut traiter comme des tokens. « Il fal­lait traduire le sig­nal audio en une forme com­préhen­si­ble par le mod­èle, conçoit-il. Chose pos­si­ble avec des auto-encodeurs quan­tifiés, qui appren­nent à pro­jeter le sig­nal dans un espace quan­tifié, l’espace des tokens, et à recon­stru­ire le sig­nal audio à par­tir de ces tokens. Il ne reste plus qu’à mod­élis­er l’enchainement tem­porel des tokens d’un morceau de musique ce qui est fait grâce à un LLM. Ensuite, vient la généra­tion, le LLM est util­isé à nou­veau pour génér­er une nou­velle suite de tokens (dont l’enchainement est le plus prob­a­ble), celles-ci sont ensuite con­ver­ties en audio par le décodeur de l’auto-encodeur quan­tifié. »    

Des mod­èles aux résul­tats encore plus impres­sion­nants ont suivi, comme Sta­ble Audio de Sta­bil­i­ty AI. Ce type de mod­èle utilise le principe de dif­fu­sion (pop­u­lar­isé pour la généra­tion d’images de très haute qual­ité, comme dans Mid­jour­ney ou Sta­ble Dif­fu­sion), mais l’idée reste la même : trans­former le sig­nal audio en don­nées quan­tifiées lis­i­bles par leur mod­èle de diffusion.

Pour per­me­t­tre de con­trôler un min­i­mum la généra­tion musi­cale obtenue, on va « con­di­tion­ner » les mod­èles générat­ifs sur du texte ; ce texte est soit une descrip­tion du sig­nal audio (son genre, son humeur, son instru­men­ta­tion), soit ses paroles. Pour cela, l’entraînement des mod­èles pren­dra en compte égale­ment un texte cor­re­spon­dant à une musique don­née en entrée. C’est donc pour cela que le mod­èle Suno peut être « promp­té » avec du texte. C’est là cepen­dant qu’apparaissent les lim­ites de leur capac­ité créa­tive, et les ques­tions de pro­priétés intel­lectuelles. « Ces mod­èles souf­frent beau­coup de mémori­sa­tion, prévient Geof­froy Peeters. Par exem­ple, en deman­dant dans un prompt Suno de faire une musique accom­pa­g­née des paroles de Bohemi­an Rhap­sody, Suno finis­sait par génér­er une musique très proche de l’originale. Ce qui pose tout de même des prob­lèmes de copy­rights, pour la nou­velle musique tout juste créée, dont les droits appar­ti­en­nent à l’humain der­rière le prompt, et celle util­isée pour l’entraînement du mod­èle, dont ils n’avaient pas les droits. » [N.D.L.R. : Aujourd’hui, Suno refuse ce type de généra­tion, car cela ne respecte plus ses con­di­tions d’utilisation.]

« Il y a donc un réel besoin de faire de ces out­ils des mod­èles qui génèrent du con­tenu nou­veau, et non sim­ple­ment qui repro­duisent ce qu’ils ont appris, con­clut le pro­fesseur. Les mod­èles d’aujourd’hui génèrent de la musique mais en créent-ils de nou­velles ? À la dif­férence des syn­thé­tiseurs audio (qui ont per­mis de créer de nou­velles sonorités), la musique est une organ­i­sa­tion de sons (notes ou autres) reposant sur des règles. Les mod­èles sont sans doute capa­bles de com­pren­dre ces règles, mais sont-ils capa­bles d’en inven­ter de nou­velles ? Sont-ils encore au stade des per­ro­quets sto­chas­tiques, comme il est sou­vent dit ? »

Pablo Andres
1Suite d’Illiac 1 – Hiller, L., & Isaac­son, L. (1959). Exper­i­men­tal Music: Com­po­si­tion with an Elec­tron­ic Com­put­er. McGraw-Hill.
2Chronolo­gie de l’usage de l’IA en com­po­si­tion musi­cale – IRCAM (2023). Une brève chronolo­gie sub­jec­tive de l’usage de l’intelligence arti­fi­cielle en com­po­si­tion musi­cale. – Agon, C. (1998). Analyse de l’utilisation de l’IA en musique.
3Rap­port de l’OMPI sur l’IA et la pro­priété intel­lectuelle musi­cale. Organ­i­sa­tion Mon­di­ale de la Pro­priété Intel­lectuelle (OMPI) (2021). Arti­fi­cial Intel­li­gence and Intel­lec­tu­al Prop­er­ty: A Lit­er­a­ture Review.

Le monde expliqué par la science. Une fois par semaine, dans votre boîte mail.

Recevoir la newsletter