Depuis plus de 20 ans, les chercheurs utilisent l’intelligence artificielle (IA) sur les signaux sonores. Ces signaux sonores pouvant être des paroles, des musiques ou encore des sons environnementaux. Les avancées récentes en algorithmique ouvrent la porte à de nouveaux champs de recherche et à de nouvelles applications.
Comment l’intelligence artificielle peut-elle être utilisée pour traiter les signaux sonores ?
D’abord, l’IA peut être utilisée pour faire de l’analyse sonore. C’est-à-dire qu’à partir d’un enregistrement, la machine peut reconnaître les sons (quel instrument joue, quelle machine ou objet génère tel bruit…) et les conditions d’enregistrement (en direct, studio, extérieur…). Pour citer un exemple, Shazam est une IA de reconnaissance musicale assez simple mais très connue.
L’IA peut aussi être utilisée pour transformer le son. Il s’agit ici par exemple de séparer les différentes sources d’un enregistrement sonore pour pouvoir les remixer différemment (comme pour les applications de karaoké…). Il est également possible d’envisager de faire du transfert de style musical d’un enregistrement sonore donné ou de changer les conditions acoustiques de l’enregistrement (par exemple en enlevant la réverbération tout en gardant le contenu intact). Pour finir, le troisième grand domaine de traitement sonore par l’IA générative, c’est la synthèse. À partir d’un extrait musical ou de certaines consignes, la machine peut générer de la musique dans le style de cet extrait. On peut également lui demander de générer une musique en lien avec un texte ou une image.
Je travaille actuellement sur un gros projet de recherche financé par le Conseil européen de la recherche (ERC) qui se nomme HI-Audio pour « Apprentissage machine profond, interprétable et hybride pour l’analyse des sons ». Le terme « hybride » sous-entend qu’au lieu de faire de l’apprentissage uniquement sur de grandes quantités de données, on intègre à nos modèles d’apprentissage des a priori déduits de nos connaissances. En effet, nous possédons certaines connaissances sur le son : le type d’instruments de musique présents, le niveau de réverbération d’une pièce… L’idée c’est de se baser sur ces connaissances et d’en tirer des modèles relativement simples qui décrivent ces phénomènes. Ensuite, on les insère au cœur de réseaux de neurones et de modèles plus complexes qui permettent d’apprendre et de décrire ce qu’on ne sait pas. Ainsi, on a des modèles qui allient interprétabilité et contrôlabilité.
Quelles sont les spécificités des algorithmes d’IA appliqués au son ?
Un signal sonore c’est un signal temporel (une suite de données ordonnée dans le temps) qui peut être plus ou moins périodique. Dans un premier temps, chaque signal sonore a ses spécificités. La reconnaissance des instruments et des notes dans un enregistrement musical nécessite des techniques avancées de séparation de sources, permettant de distinguer et d’isoler chaque élément sonore. En effet, contrairement à la parole où un seul instrument (la voix) véhicule un message linguistique, l’analyse musicale doit gérer la simultanéité et l’harmonie des instruments.
Autre spécificité de la musique : la longueur des enregistrements. En soi, ces IA sont entraînées de manière assez similaire que pour des images ou du texte. Mais contrairement à une image, un signal sonore est une suite de nombres, positifs ou négatifs, qui varient dans le temps autour d’une valeur de référence. Pour une seconde de musique, avec un enregistrement de qualité CD, on a 44 100 valeurs par seconde. De même, si on a eu une minute d’enregistrement, on a 2 646 000 valeurs (44 100 x 60 secondes). Les volumes de données sont très importants pour une courte durée. Il est donc nécessaire d’avoir des méthodes spécifiques pour l’IA appliquée au son mais aussi des moyens d’analyse très puissants pour pouvoir traiter ce volume de données.
À quels secteurs d’application pourraient profiter ces évolutions du traitement du son ?
Le traitement du signal sonore ou plus généralement l’IA appliquée au son est déjà utilisée dans des domaines variés. Mentionnons d’abord les utilisations industrielles. La parole est très sensible à la réverbération, qui peut rapidement influencer l’intelligibilité. « Nettoyer » le signal sonore des bruits parasites de l’environnement est nécessaire, notamment pour les communications téléphoniques. Autre domaine à ne pas négliger : l’utilité de la synthèse d’environnements sonores dans l’industrie audiovisuelle. Recréer une ambiance sonore permet de suggérer ce qui est hors champ. Imaginons une scène de film en terrasse d’un café. On ne saura probablement pas où est situé le café : centre-ville, quartier résidentiel, près d’un parc… En fonction de l’intention de réalisation, le son permet d’immerger le spectateur dans une ambiance plus riche. De même pour les jeux vidéo ou la réalité virtuelle. Le son est un des cinq sens, nous y sommes donc très sensibles. Ajouter un habillage sonore augmente le réalisme et l’immersion dans un environnement virtuel.
Avec le développement de l’IA appliquée aux sons, de nouveaux champs d’application sont envisageables. Je pense notamment à la maintenance prédictive, c’est-à-dire qu’on pourrait détecter au bruit, lorsqu’un objet commence à dysfonctionner. Aussi, comprendre l’environnement sonore peut être utile au développement de la voiture autonome. En complément des informations captées par les caméras, elle pourra se diriger en fonction du bruit alentour : sonnette de vélo, réactions des piétons.
N’oublions pas que le traitement de signaux sonores peut devenir un outil d’aide aux personnes. Dans le futur, on peut imaginer qu’une IA fera la traduction de l’environnement sonore, dans une autre modalité, qui permettrait aux sourds « d’entendre » le monde qui les entoure. D’autre part, peut-être que l’analyse sonore aidera au maintien des personnes à domicile en détectant et en caractérisant les bruits normaux, anormaux et alarmants d’une maison. Et c’est encore une liste non-exhaustive des champs d’application possibles !
Quels sont les principaux défis et enjeux liés au développement et à l’utilisation des IA en général et plus spécifiquement dans le domaine sonore ?
Un des dilemmes principaux c’est l’impact écologique de tels systèmes. Les performances des IA génératives en général sont corrélées à la quantité de données ingérée et à la puissance de calcul. Bien qu’on ait des approches dites « frugales », les répercussions environnementales et économiques de ces outils sont non-négligeables. Là est l’intérêt de mon projet de recherche qui explore une voie alternative d’IA hybride et plus frugale.
Autre souci pour le traitement sonore : l’accès aux bases de données musicales en raison des droits d’auteur. Globalement, les réglementations peuvent être un obstacle au développement de ces IA en France. Aux États-Unis, la notion de « fair use » permet une certaine flexibilité dans l’utilisation des œuvres sous copyright. En Europe on jongle entre plusieurs méthodes. Il existe tout de même, quelques bases de données publiques, qui regroupent des compositions libres de droit composées spécifiquement pour la recherche. Parfois, nous collaborons avec des entreprises comme Deezer, qui offrent un accès restreint à leurs catalogues pour des projets spécifiques.
Les IA appliquées aux sons posent aussi certains problèmes éthiques spécifiques. Il y a notamment la question de la musique générée par la machine et du potentiel plagiat, puisque la machine a pu être entraînée à partir de musiques connues et protégées. À qui reviennent les droits d’auteur de la musique générée par la machine ? Quel est le prix de ces musiques générées automatiquement ? Quel niveau de transparence exiger sur le processus de création musicale ? Enfin, se pose la question de la contrôlabilité des IA ou plus précisément de l’explicabilité. Il faut être en mesure d’expliquer les décisions prises par la machine. Reprenons notre exemple de la voiture autonome : il faut pouvoir déterminer pourquoi elle choisit de tourner à un instant T. « C’était l’action la plus probable » n’est pas une réponse suffisante, notamment en cas d’accident. Selon moi, il est primordial d’intégrer les connaissances humaines dans ces systèmes d’IA et d’assurer une transparence quant à son utilisation.
Plus généralement, il est nécessaire de construire un cadre juridique pour ces technologies en constante évolution. Mais la France et l’Europe ont parfois tendance à sur-réglementer, entravant de fait les innovations et notre compétitivité à l’international. Il faut de fait identifier et se protéger des risques de déviance et des risques éthiques de l’IA qui sont réels, mais il faut aussi éviter de sur-légiférer.
Pensez-vous que de telles IA auront un impact sur les musiciens et l’industrie du son ?
L’IA aura un impact partout. Dans tous les métiers, toutes les entreprises et tous les environnements, également dans les emplois du secteur musical. Effectivement, cela peut susciter de l’inquiétude et des interrogations, comme les musiciens et les bruiteurs de cinéma qui craignent d’être remplacés. Certains métiers seront peut-être amenés à disparaître, mais d’autres se créeront.
D’après moi, ces IA sont des outils plus que des menaces. Elles vont ouvrir un nouveau catalogue des possibles. En permettant de jouer ensemble à distance, ces IA pourront faire se rencontrer des communautés de musiciens à travers la planète. Cela peut aussi aider à démocratiser l’apprentissage de la musique, en créant des « formations » à distance ludiques et personnalisées. C’est aussi un outil de composition assez sophistiqué qui peut stimuler la créativité des artistes.
L’IA en soi n’est pas créative. Elle reproduit et remet en forme, mais ne crée rien. De même, selon moi l’IA ne fait pas d’art. C’est presque conceptuellement impossible pour une machine de faire de l’art. L’art, même s’il n’est pas clairement défini, c’est personnifié ; c’est une forme de communication humaine. Aujourd’hui, l’IA, notamment l’IA appliquée au traitement sonore, n’est pas capable de cela.