1_son
π Science et technologies
Quand la science se met au service de la créativité

L’IA, un outil à fort potentiel pour la création musicale

Gaël Richard, professeur à Télécom Paris (IP Paris) et co-directeur scientifique du centre interdisciplinaire Hi! PARIS en intelligence artificielle
Le 3 septembre 2024 |
7 min. de lecture
Gaël Richard
Gaël Richard
professeur à Télécom Paris (IP Paris) et co-directeur scientifique du centre interdisciplinaire Hi! PARIS en intelligence artificielle
En bref
  • L'IA appliquée aux sons permet d’analyser, de transformer et de synthétiser des signaux sonores.
  • Les applications sont nombreuses, allant de la maintenance prédictive à l'amélioration de la réalité virtuelle, en passant par l'assistance aux personnes.
  • Les algorithmes d'IA appliqués aux sons nécessitent des méthodes spécifiques en raison de la nature temporelle et volumineuse des données sonores.
  • Les défis liés à l'IA sonore incluent son impact écologique, les questions de droits d'auteur, les enjeux éthiques, et la nécessité d'un cadre juridique adapté.
  • Le projet HI-Audio combine l'apprentissage machine et les connaissances humaines pour créer des modèles d'IA plus interprétables et contrôlables.

Depuis plus de 20 ans, les chercheurs utilisent l’intelligence arti­fi­cielle (IA) sur les sig­naux sonores. Ces sig­naux sonores pou­vant être des paroles, des musiques ou encore des sons envi­ron­nemen­taux. Les avancées récentes en algo­rith­mique ouvrent la porte à de nou­veaux champs de recherche et à de nou­velles applications.

Comment l’intelligence artificielle peut-elle être utilisée pour traiter les signaux sonores ?

D’abord, l’IA peut être util­isée pour faire de l’analyse sonore. C’est-à-dire qu’à par­tir d’un enreg­istrement, la machine peut recon­naître les sons (quel instru­ment joue, quelle machine ou objet génère tel bruit…) et les con­di­tions d’enregistrement (en direct, stu­dio, extérieur…). Pour citer un exem­ple, Shaz­am est une IA de recon­nais­sance musi­cale assez sim­ple mais très connue.

L’IA peut aus­si être util­isée pour trans­former le son. Il s’agit ici par exem­ple de sépar­er les dif­férentes sources d’un enreg­istrement sonore pour pou­voir les remix­er dif­férem­ment (comme pour les appli­ca­tions de karaoké…). Il est égale­ment pos­si­ble d’envisager de faire du trans­fert de style musi­cal d’un enreg­istrement sonore don­né ou de chang­er les con­di­tions acous­tiques de l’enregistrement (par exem­ple en enl­e­vant la réver­béra­tion tout en gar­dant le con­tenu intact). Pour finir, le troisième grand domaine de traite­ment sonore par l’IA généra­tive, c’est la syn­thèse. À par­tir d’un extrait musi­cal ou de cer­taines con­signes, la machine peut génér­er de la musique dans le style de cet extrait. On peut égale­ment lui deman­der de génér­er une musique en lien avec un texte ou une image.

Je tra­vaille actuelle­ment sur un gros pro­jet de recherche financé par le Con­seil européen de la recherche (ERC) qui se nomme HI-Audio pour « Appren­tis­sage machine pro­fond, inter­prétable et hybride pour l’analyse des sons ». Le terme « hybride » sous-entend qu’au lieu de faire de l’apprentissage unique­ment sur de grandes quan­tités de don­nées, on intè­gre à nos mod­èles d’apprentissage des a pri­ori déduits de nos con­nais­sances. En effet, nous pos­sé­dons cer­taines con­nais­sances sur le son : le type d’instruments de musique présents, le niveau de réver­béra­tion d’une pièce… L’idée c’est de se baser sur ces con­nais­sances et d’en tir­er des mod­èles rel­a­tive­ment sim­ples qui décrivent ces phénomènes. Ensuite, on les insère au cœur de réseaux de neu­rones et de mod­èles plus com­plex­es qui per­me­t­tent d’apprendre et de décrire ce qu’on ne sait pas. Ain­si, on a des mod­èles qui allient inter­préta­bil­ité et contrôlabilité.

Quelles sont les spécificités des algorithmes d’IA appliqués au son ?

Un sig­nal sonore c’est un sig­nal tem­porel (une suite de don­nées ordon­née dans le temps) qui peut être plus ou moins péri­odique. Dans un pre­mier temps, chaque sig­nal sonore a ses spé­ci­ficités. La recon­nais­sance des instru­ments et des notes dans un enreg­istrement musi­cal néces­site des tech­niques avancées de sépa­ra­tion de sources, per­me­t­tant de dis­tinguer et d’isol­er chaque élé­ment sonore. En effet, con­traire­ment à la parole où un seul instru­ment (la voix) véhicule un mes­sage lin­guis­tique, l’analyse musi­cale doit gér­er la simul­tanéité et l’har­monie des instruments.

Autre spé­ci­ficité de la musique : la longueur des enreg­istrements. En soi, ces IA sont entraînées de manière assez sim­i­laire que pour des images ou du texte. Mais con­traire­ment à une image, un sig­nal sonore est une suite de nom­bres, posi­tifs ou négat­ifs, qui vari­ent dans le temps autour d’une valeur de référence. Pour une sec­onde de musique, avec un enreg­istrement de qual­ité CD, on a 44 100 valeurs par sec­onde. De même, si on a eu une minute d’enregistrement, on a 2 646 000 valeurs (44 100 x 60 sec­on­des). Les vol­umes de don­nées sont très impor­tants pour une courte durée. Il est donc néces­saire d’avoir des méth­odes spé­ci­fiques pour l’IA appliquée au son mais aus­si des moyens d’analyse très puis­sants pour pou­voir traiter ce vol­ume de données.

À quels secteurs d’application pourraient profiter ces évolutions du traitement du son ? 

Le traite­ment du sig­nal sonore ou plus générale­ment l’IA appliquée au son est déjà util­isée dans des domaines var­iés. Men­tion­nons d’abord les util­i­sa­tions indus­trielles. La parole est très sen­si­ble à la réver­béra­tion, qui peut rapi­de­ment influ­encer l’intelligibilité. « Net­toy­er » le sig­nal sonore des bruits par­a­sites de l’environnement est néces­saire, notam­ment pour les com­mu­ni­ca­tions télé­phoniques. Autre domaine à ne pas nég­liger : l’utilité de la syn­thèse d’environnements sonores dans l’industrie audio­vi­suelle. Recréer une ambiance sonore per­met de sug­gér­er ce qui est hors champ. Imag­i­nons une scène de film en ter­rasse d’un café. On ne saura prob­a­ble­ment pas où est situé le café : cen­tre-ville, quarti­er rési­den­tiel, près d’un parc… En fonc­tion de l’intention de réal­i­sa­tion, le son per­met d’immerger le spec­ta­teur dans une ambiance plus riche. De même pour les jeux vidéo ou la réal­ité virtuelle. Le son est un des cinq sens, nous y sommes donc très sen­si­bles. Ajouter un habil­lage sonore aug­mente le réal­isme et l’immersion dans un envi­ron­nement virtuel.

Avec le développe­ment de l’IA appliquée aux sons, de nou­veaux champs d’application sont envis­age­ables. Je pense notam­ment à la main­te­nance pré­dic­tive, c’est-à-dire qu’on pour­rait détecter au bruit, lorsqu’un objet com­mence à dys­fonc­tion­ner. Aus­si, com­pren­dre l’environnement sonore peut être utile au développe­ment de la voiture autonome. En com­plé­ment des infor­ma­tions cap­tées par les caméras, elle pour­ra se diriger en fonc­tion du bruit alen­tour : son­nette de vélo, réac­tions des piétons.

N’ou­blions pas que le traite­ment de sig­naux sonores peut devenir un out­il d’aide aux per­son­nes. Dans le futur, on peut imag­in­er qu’une IA fera la tra­duc­tion de l’en­vi­ron­nement sonore, dans une autre modal­ité, qui per­me­t­trait aux sourds « d’en­ten­dre » le monde qui les entoure. D’autre part, peut-être que l’analyse sonore aidera au main­tien des per­son­nes à domi­cile en détec­tant et en car­ac­térisant les bruits nor­maux, anor­maux et alar­mants d’une mai­son. Et c’est encore une liste non-exhaus­tive des champs d’application possibles !

Quels sont les principaux défis et enjeux liés au développement et à l’utilisation des IA en général et plus spécifiquement dans le domaine sonore ?

Un des dilemmes prin­ci­paux c’est l’impact écologique de tels sys­tèmes. Les per­for­mances des IA généra­tives en général sont cor­rélées à la quan­tité de don­nées ingérée et à la puis­sance de cal­cul. Bien qu’on ait des approches dites « fru­gales », les réper­cus­sions envi­ron­nemen­tales et économiques de ces out­ils sont non-nég­lige­ables. Là est l’intérêt de mon pro­jet de recherche qui explore une voie alter­na­tive d’IA hybride et plus frugale.

Autre souci pour le traite­ment sonore : l’accès aux bases de don­nées musi­cales en rai­son des droits d’au­teur. Glob­ale­ment, les régle­men­ta­tions peu­vent être un obsta­cle au développe­ment de ces IA en France. Aux États-Unis, la notion de « fair use » per­met une cer­taine flex­i­bil­ité dans l’u­til­i­sa­tion des œuvres sous copy­right. En Europe on jon­gle entre plusieurs méth­odes. Il existe tout de même, quelques bases de don­nées publiques, qui regroupent des com­po­si­tions libres de droit com­posées spé­ci­fique­ment pour la recherche. Par­fois, nous col­laborons avec des entre­pris­es comme Deez­er, qui offrent un accès restreint à leurs cat­a­logues pour des pro­jets spécifiques.

Les IA appliquées aux sons posent aus­si cer­tains prob­lèmes éthiques spé­ci­fiques. Il y a notam­ment la ques­tion de la musique générée par la machine et du poten­tiel pla­giat, puisque la machine a pu être entraînée à par­tir de musiques con­nues et pro­tégées. À qui revi­en­nent les droits d’auteur de la musique générée par la machine ? Quel est le prix de ces musiques générées automa­tique­ment ? Quel niveau de trans­parence exiger sur le proces­sus de créa­tion musi­cale ? Enfin, se pose la ques­tion de la con­trôla­bil­ité des IA ou plus pré­cisé­ment de l’explicabilité. Il faut être en mesure d’expliquer les déci­sions pris­es par la machine. Reprenons notre exem­ple de la voiture autonome : il faut pou­voir déter­min­er pourquoi elle choisit de tourn­er à un instant T. « C’était l’action la plus prob­a­ble » n’est pas une réponse suff­isante, notam­ment en cas d’accident. Selon moi, il est pri­mor­dial d’intégrer les con­nais­sances humaines dans ces sys­tèmes d’IA et d’assurer une trans­parence quant à son utilisation.

Plus générale­ment, il est néces­saire de con­stru­ire un cadre juridique pour ces tech­nolo­gies en con­stante évo­lu­tion. Mais la France et l’Europe ont par­fois ten­dance à sur-régle­menter, entra­vant de fait les inno­va­tions et notre com­péti­tiv­ité à l’international. Il faut de fait iden­ti­fi­er et se pro­téger des risques de déviance et des risques éthiques de l’IA qui sont réels, mais il faut aus­si éviter de sur-légiférer.

Pensez-vous que de telles IA auront un impact sur les musiciens et l’industrie du son ?

L’IA aura un impact partout. Dans tous les métiers, toutes les entre­pris­es et tous les envi­ron­nements, égale­ment dans les emplois du secteur musi­cal. Effec­tive­ment, cela peut sus­citer de l’inquiétude et des inter­ro­ga­tions, comme les musi­ciens et les brui­teurs de ciné­ma qui craig­nent d’être rem­placés. Cer­tains métiers seront peut-être amenés à dis­paraître, mais d’autres se créeront.

D’après moi, ces IA sont des out­ils plus que des men­aces. Elles vont ouvrir un nou­veau cat­a­logue des pos­si­bles. En per­me­t­tant de jouer ensem­ble à dis­tance, ces IA pour­ront faire se ren­con­tr­er des com­mu­nautés de musi­ciens à tra­vers la planète. Cela peut aus­si aider à démoc­ra­tis­er l’ap­pren­tis­sage de la musique, en créant des « for­ma­tions » à dis­tance ludiques et per­son­nal­isées. C’est aus­si un out­il de com­po­si­tion assez sophis­tiqué qui peut stim­uler la créa­tiv­ité des artistes.

L’IA en soi n’est pas créa­tive. Elle repro­duit et remet en forme, mais ne crée rien. De même, selon moi l’IA ne fait pas d’art. C’est presque con­ceptuelle­ment impos­si­ble pour une machine de faire de l’art. L’art, même s’il n’est pas claire­ment défi­ni, c’est per­son­nifié ; c’est une forme de com­mu­ni­ca­tion humaine. Aujourd’hui, l’IA, notam­ment l’IA appliquée au traite­ment sonore, n’est pas capa­ble de cela. 

Propos recueillis par Loraine Odot

Le monde expliqué par la science. Une fois par semaine, dans votre boîte mail.

Recevoir la newsletter