En 1957, un ordinateur écrit pour la première fois une partition musicale. L’ILLIAC I – conçu par Lejaren Hiller et Leonard Isaacson à l’Université de l’Illinois – compose un quatuor à cordes1. La promesse d’un programme informatique capable de générer de la musique s’ancre dans la réalité. Après tout, la musique n’est qu’affaire de structures, de règles, et de mathématiques. Rien d’inconnu pour un programme informatique… à un détail près : la création.
Ce qui fascine dans cette suite, c’est qu’elle a été composée par un ordinateur, et ce, en suivant un modèle probabiliste étonnamment proche de ceux utilisés aujourd’hui2. Seulement, elle a été créée selon des règles établies par un compositeur humain, révisée par ce dernier, puis interprétée par un orchestre. Résultat : une application rigide des règles, laissant peu de place à l’innovation artistique.
Aujourd’hui, la technologie a radicalement évolué : n’importe qui, depuis son ordinateur, peut se la jouer compositeur. Grâce aux algorithmes de deep learning et à l’essor de l’IA générative, l’IA musicale a pris un tournant intéressant. Car avant qu’une machine puisse réellement produire une œuvre musicale de toute pièce, il fallait encore qu’elle la comprenne, et non qu’elle l’imite.
Et c’est bien là tout l’enjeu d’une quête scientifique entamée il y a plus de vingt ans : non pas faire composer les machines, mais leur apprendre à écouter. Reconnaître un style, classifier une œuvre, analyser une structure musicale… Bien avant l’explosion de la génération musicale assistée par IA, des chercheurs tentaient déjà de faire entendre la musique aux machines. Parmi eux, Geoffroy Peeters, professeur à Télécom Paris et préalablement directeur de recherche à l’IRCAM. Son travail sur le sujet pourrait nous aider à répondre à cette question : une machine peut-elle véritablement comprendre la musique, avant même de prétendre en créer ?
Comprendre la musique
« Au début des années 2000, la standardisation internationale d’un format : le .mp3 (MPEG‑1 Audio Layer III) a fait apparaître la digitalisation des bibliothèques musicales (aujourd’hui plateformes de streaming), d’où un accès à un très vaste catalogue de musique pour les utilisateurs, et donc un besoin de classifier, indexer chacune des musiques la composant », explique Geoffroy Peeters. De là est né un nouveau champ de recherche : comment développer un moteur de recherche musicale ? « Ces technologies d’analyses musicales sont basées sur l’analyse audio, le traitement du signal, et étaient, au début, “human driven” – l’apprentissage se faisait à partir de règles renseignées par l’homme », ajoute-t-il. Car la musique n’est pas un simple enchaînement de sons aléatoires, mais une structure organisée suivant une grammaire rigoureuse, parfois aussi forte, voire plus, que celle du langage. Un style de musique étant déterminé par un certain type d’accord, un certain tempo, une structure harmonique, etc., « apprendre ces différentes règles à une machine ne semblait pas si compliqué ».
« Ce qui définit le blues, par exemple, est la répétition d’une grille de 12 mesures basées sur l’enchainement de 3 accords spécifiques, élabore le professeur. Ces règles, que nous connaissons très bien, seront encodées dans un ordinateur, afin que celui-ci puisse classifier la musique selon le genre. » Cela étant, la musique ne se définit pas seulement par son genre, elle peut transmettre une humeur, ou être plus adéquate pour un contexte – que ce soit pour faire du sport, ou pour méditer. Bref, bien des éléments aux règles plus diffuses que celles déterminant le genre.

« Pour tenter de répondre à cette complexité, Pandora Music, la plateforme de streaming musicale la plus importante des États-Unis, a créé le projet “Génome Musical”, demandant à des êtres humains d’annoter plus de 1 million de titres sur une base de 200 critères différents. » Ce travail colossal a permis d’accumuler suffisamment de données pour permettre le développement d’approches dites data driven (dans lequel la connaissance est apprise par la machine – le machine learning – à partir de l’analyse de data, les données annotées). Parmi les techniques de machine learning, les algorithmes de deep learning sont rapidement apparus comme les plus performants et ont permis dans les années 2010 des avancées fulgurantes. « Plutôt que faire des modèles “human driven”, avec des mathématiques complexes – du traitement du signal, des règles de décision manuelles – nous pouvons maintenant tout apprendre de manière complètement automatique à partir des données », complète Geoffroy Peeters.
Au fil du temps, ces modèles entraînés ont permis la mise en place des algorithmes de classification, mais aussi de recommandation des plateformes en ligne de musique comme Deezer ou Spotify.
Apprendre à écouter
Le deep learning va également engendrer un changement de paradigme. Alors que la musique était considérée comme un tout, elle peut dorénavant être analysée comme un composé d’éléments. « Jusqu’en 2010, nous sommes incapables de séparer la voix, la batterie, la basse d’un mix de manière propre – c’est-à-dire utilisable, souligne-t-il. Alors que si la voix pouvait être extraite, la mélodie chantée pourrait être reconnue précisément, caractérisée et analysée plus finement. Le “deep learning” va permettre cela en entraînant des systèmes prenant en entrée un “morceau mixé”, c’est-à-dire avec toutes les sources mélangées (les voix, la batterie, la basse…) pour en sortir les différentes sources démixées, autrement dit séparées. » Pour entrainer un tel système il faut cependant des données ; même beaucoup. Au début, certains entraînements pouvaient se faire avec un accès, souvent limité, aux enregistrements démixés des maisons disques. Jusqu’à ce que Spotify, et son immense catalogue faisant office de données, amène un algorithme convaincant de séparation de sources. S’en est suivi une multitude de nouveaux modèles toujours plus impressionnants les uns que les autres, dont les modèles français Spleeter de Deezer, qui est open source3, ou Demucs de Meta-AI à Paris.
Cette analyse individuelle de chaque élément qui compose une musique a chamboulé l’entraînement des IA. « Tout cela a ouvert la porte à de nombreuses choses, dont l’IA générative développée aujourd’hui en musique. Par exemple, avec la possibilité de séparer la voix et de l’analyser dans les détails, il devient tout à fait possible de la re-contextualiser (réinsérer la voix d’Edith Piaf dans le film “La Môme”, ou celle de John Lennon dans “Now and Then” des Beatles), de la modifier (la correction de hauteur/justesse est très utilisée) de la recréer (la voix du général de Gaulle prononçant l’appel du 18 juin), mais également de la cloner. Des faits récents montrent l’étendue que cette dernière utilisation peut avoir, avec des inquiétudes dans le monde du doublage de cinéma, la crainte des “deepfakes”, mais aussi une musique inédite avec Drake et The Weeknd, qui n’était pourtant pas chantée par eux. »
Devenir compositeur
Les premières recherches en IA musicale avaient des objectifs bien définis : classer, analyser, segmenter la musique, et, pourquoi pas, assister le compositeur dans sa création. Mais avec l’émergence des modèles génératifs, ces travaux sont devenus la base d’une toute nouvelle approche : la génération d’un morceau de musique (donc de son signal audio) à partir de rien, ou juste d’un « prompt » textuel. « Le premier acteur qui va se positionner dans la génération de musique à partir de rien est Jukebox d’OpenAI, constate Geoffroy Peeters. Ils ont en quelque sorte recyclé ce qu’ils faisaient pour ChatGPT : utiliser un modèle de langage (Large-Language-Model ou LLM) – modèle, dit autorégressif, entraîné à prédire le mot suivant, en fonction des précédents. »

Transposer ce principe au domaine musical est un défi technique majeur. Contrairement au texte, l’audio n’est pas constitué de mots distincts que l’IA peut traiter comme des tokens. « Il fallait traduire le signal audio en une forme compréhensible par le modèle, conçoit-il. Chose possible avec des auto-encodeurs quantifiés, qui apprennent à projeter le signal dans un espace quantifié, l’espace des “tokens”, et à reconstruire le signal audio à partir de ces “tokens”. Il ne reste plus qu’à modéliser l’enchainement temporel des “tokens” d’un morceau de musique ce qui est fait grâce à un LLM. Ensuite, vient la génération, le LLM est utilisé à nouveau pour générer une nouvelle suite de “tokens” (dont l’enchainement est le plus probable), celles-ci sont ensuite converties en audio par le décodeur de l’auto-encodeur quantifié. »
Des modèles aux résultats encore plus impressionnants ont suivi, comme Stable Audio de Stability AI. Ce type de modèle utilise le principe de diffusion (popularisé pour la génération d’images de très haute qualité, comme dans Midjourney ou Stable Diffusion), mais l’idée reste la même : transformer le signal audio en données quantifiées lisibles par leur modèle de diffusion.
Pour permettre de contrôler un minimum la génération musicale obtenue, on va « conditionner » les modèles génératifs sur du texte ; ce texte est soit une description du signal audio (son genre, son humeur, son instrumentation), soit ses paroles. Pour cela, l’entraînement des modèles prendra en compte également un texte correspondant à une musique donnée en entrée. C’est donc pour cela que le modèle Suno peut être « prompté » avec du texte. C’est là cependant qu’apparaissent les limites de leur capacité créative, et les questions de propriétés intellectuelles. « Ces modèles souffrent beaucoup de mémorisation, prévient Geoffroy Peeters. Par exemple, en demandant dans un prompt Suno de faire une musique accompagnée des paroles de “Bohemian Rhapsody”, Suno finissait par générer une musique très proche de l’originale. Ce qui pose tout de même des problèmes de copyrights, pour la nouvelle musique tout juste créée, dont les droits appartiennent à l’humain derrière le prompt, et celle utilisée pour l’entraînement du modèle, dont ils n’avaient pas les droits. » [N.D.L.R. : Aujourd’hui, Suno refuse ce type de génération, car cela ne respecte plus ses conditions d’utilisation.]
« Il y a donc un réel besoin de faire de ces outils des modèles qui génèrent du contenu nouveau, et non simplement qui reproduisent ce qu’ils ont appris, conclut le professeur. Les modèles d’aujourd’hui génèrent de la musique mais en créent-ils de nouvelles ? À la différence des synthétiseurs audio (qui ont permis de créer de nouvelles sonorités), la musique est une organisation de sons (notes ou autres) reposant sur des règles. Les modèles sont sans doute capables de comprendre ces règles, mais sont-ils capables d’en inventer de nouvelles ? Sont-ils encore au stade des “perroquets stochastiques”, comme il est souvent dit ? »