1_guideSon
π Science et technologies π Industrie
Pourquoi la recherche sonore va faire grand bruit

Comment recréer un son virtuellement en 3D

Sylvain Ferrand, ingénieur de recherche au Centre de mathématiques appliquées à l'École polytechnique (IP Paris), François Alouges, professeur au Centre de mathématiques appliquées à l'École polytechnique (IP Paris) et Philippe Le Borgne, cofondateur et développeur de ConnectSuit
Le 20 février 2024 |
5 min. de lecture
Sylvain Ferrand
Sylvain Ferrand
ingénieur de recherche au Centre de mathématiques appliquées à l'École polytechnique (IP Paris)
Avatar
François Alouges
professeur au Centre de mathématiques appliquées à l'École polytechnique (IP Paris)
philippe leborgne
Philippe Le Borgne
cofondateur et développeur de ConnectSuit
En bref
  • Le son binaural est une méthode de diffusion sonore qui permet de recréer virtuellement un son en 3D.
  • Le son binaural couplé à un système d’head-tracking peut indiquer la direction à suivre indépendamment de l’orientation de la tête, et ainsi devenir un outil de guidage performant.
  • Cet outil de guidage performant pourra être utilisé dans différents contextes (sportifs ou touristiques) et par tous (personnes malvoyantes, ou non).
  • En plein développement, ce projet pourrait à terme être utilisé par tous en s’intégrant aux applications de navigation et dispositifs d’écoute déjà commercialisés.
  • Basé sur notre morphologie et le fonctionnement naturel du cerveau, le système de son binaural est intuitif et ne demande aucun nouvel apprentissage.

Fer­mez les yeux, lais­sez-vous guider par le son, et vous attein­drez votre « point d’arrivée » aus­si sim­ple­ment et pré­cisé­ment qu’en suiv­ant les indi­ca­tions de votre appli­ca­tion de nav­i­ga­tion habituelle. C’est la prouesse per­mise par Run­Blind, start-up ini­tiée par deux chercheurs de l’École poly­tech­nique (IP Paris).

L’aventure démarre il y a 7 ans, quand François Alouges, pro­fesseur au Cen­tre de math­é­ma­tiques appliquées (CMAP) de Poly­tech­nique, s’interroge avec son équipe sur les appli­ca­tions du « son bin­au­r­al », Ce dernier est à l’ouïe ce que les lunettes de vision 3D sont à la vue, c’est-à-dire qu’il per­met de recréer virtuelle­ment un son en 3D.

Syl­vain Fer­rand, ingénieur de recherche, avait enten­du par­ler de sportifs non-voy­ants pra­ti­quant le roller ou la course à pied avec un guidage sonore. L’athlète s’oriente grâce aux bruits des pas ou des rollers de son guide. A l’instar de ces sportifs, l’ingénieur et son équipe imag­i­nent per­me­t­tre à des per­son­nes malvoy­antes de trou­ver leur chemin en suiv­ant un son. C’est ain­si que Syl­vain Fer­rand démarre une thèse sur les « Tech­niques de spa­tial­i­sa­tion bin­au­rale pour le guidage de sportifs non-voyants ».

Le son binaural, définition

Sig­nifi­ant « ayant trait aux deux oreilles », le son bin­au­r­al est basé sur une méth­ode de cap­ta­tion du son adap­tée à la mor­pholo­gie de la tête humaine. Lorsque nous regar­dons un objet, chaque œil dis­pose d’un champ de vision qui lui est pro­pre (notre œil droit voit la même image que notre œil gauche, mais décalée de quelques cen­timètres). De même, si un bruit est émis à droite de notre tête, notre oreille gauche l’entendra de façon légère­ment décalée. Dans les deux cas, c’est notre cerveau qui se charge de restituer une image unique, ou un son unique. Il en va de même pour l’intensité. Avec un son fort, le cerveau réalis­era que la source est proche. Avec un son plus faible et plus étouf­fé, il en déduira que la source est loin­taine. Le cerveau décode aus­si les dif­férences de fil­trage d’une oreille à l’autre, per­me­t­tant de localis­er la source sonore : devant, der­rière, au-dessus ou au-dessous de soi.

Notre sys­tème audi­tif est conçu pour enten­dre par­ti­c­ulière­ment bien face à soi, dans la direc­tion de notre regard. Mais com­ment restituer cette impres­sion tridi­men­sion­nelle ? Grâce à la forme et au place­ment des micros. Instal­lés de façon que leurs cap­sules soient espacées de 18 cen­timètres (la moyenne d’espacement entre les deux oreilles chez l’être humain), ils sont mon­tés sur un sup­port sim­u­lant la forme d’une tête. Ceci recrée pré­cisé­ment la dif­férence de temps et d’intensité perçue entre nos deux oreilles. 

L’équipe développe des algo­rithmes de traite­ment du sig­nal pour repro­duire ces car­ac­téris­tiques et simuler des sources sonores virtuelles à par­tir de sons mono­phoniques : c’est la syn­thèse bin­au­rale. Pour que le résul­tat soit par­fait, le sys­tème d’écoute bin­au­rale doit être relié à un head-track­er, un cap­teur qui per­met de pren­dre en compte les mou­ve­ments de tête de l’utilisateur en temps réel. Ain­si, si l’utilisateur tourne la tête vers la droite, le vio­lon qu’il entendait par exem­ple devant lui se retrou­vera sur sa gauche. Il en va de même pour tous les sons, d’où qu’ils provi­en­nent. Pour restituer cet effet sur un casque porté par l’auditeur, il fau­dra le son envoyé à chaque oreille selon l’orientation de la tête.

Il existe déjà de nom­breuses tech­nolo­gies de resti­tu­tion tridi­men­sion­nelle du son, mais elles néces­si­tent plusieurs enceintes répar­ties dans une pièce, comme le Dol­by Atmos. A con­trario, la dif­fu­sion du son 3D en bin­au­r­al est com­pat­i­ble avec n’importe quel casque hi-fi ou écou­teurs intra-auric­u­laires, voire même des lunettes connectées.

La spatialisation binaurale : quels intérêts ?

Petit rap­pel pour bien com­pren­dre l’intérêt de cette tech­nique : le son stéréo que l’on a l’habitude d’entendre, breveté dans les années 30, visait déjà à recon­stituer la répar­ti­tion dans l’e­space des sources sonores. Pour cela, les enreg­istrements de deux micros sont dif­fusés par deux haut-par­leurs ou deux écou­teurs. En stéréo on peut ain­si, quand on écoute par exem­ple un orchestre sym­phonique depuis son canapé, dis­tinguer le son du piano à gauche, de celui de la con­tre­basse, à droite.Mais le son bin­au­r­al offre une immer­sion bien plus réal­iste. L’auditeur a l’impression d’être présent en 3D sur les lieux de la prise de son.

Si pour un usage récréatif le résul­tat est déjà très appré­cia­ble, le son bin­au­r­al peut être un out­il de guidage per­for­mant s’il est cou­plé au sys­tème de suivi des mou­ve­ments de la tête (« head-track­ing »). En effet, la source sonore indi­quant la direc­tion reste indépen­dante de l’orientation de la tête. Dans le cadre de sa thèse, Syl­vain Fer­rand a testé et mis au point, avec des défi­cients visuels, un pre­mier pro­to­type de guidage adap­tatif, de type « fée clo­chette ». Une source sonore précède con­tin­uelle­ment la per­son­ne pour lui indi­quer le chemin à suivre.

Pour ce faire, il a fal­lu localis­er pré­cisé­ment l’utilisateur dans l’espace et créer les sources virtuelles spa­tial­isées en temps réel pour le guider. Pour être util­isé dans un con­texte sportif, le dis­posi­tif doit être extrême­ment réac­t­if et léger. « Le pre­mier pro­to­type pesait 2,7 kilos. Main­tenant on utilise directe­ment des écou­teurs stan­dards de quelques grammes asso­ciés à un smart­phone », explique S. Fer­rand. En pra­tique, le dernier pro­to­type per­met à des per­son­nes aveu­gles de pra­ti­quer la marche sportive, la course à pied ou le roller en autonomie par­tielle, y com­pris dans un con­texte de recherche de per­for­mance (pour l’amateur).

Un seul dispositif, diverses applications 

Ce qui peut guider les malvoy­ants pour­rait égale­ment aider toute per­son­ne cher­chant à détach­er son regard du smart­phone tout en suiv­ant une appli­ca­tion de guidage. En 2019, les chercheurs du CMAP s’associaient pour dévelop­per une start-up dans le cadre de l’incubateur de Poly­tech­nique, le Drahi‑X nova­tion cen­ter. Ils sont alors rejoints par Philippe Le Borgne, entre­pre­neur depuis plus de vingt ans dans des sociétés infor­ma­tiques et à impact social et envi­ron­nemen­tal. Il devient co-fon­da­teur et prési­dent de Run­Blind.

Le trio cherche désor­mais des fonds pour finalis­er le pro­jet, et pro­pos­er un kit-logi­ciel pou­vant s’intégrer aux dif­férentes appli­ca­tions de nav­i­ga­tion, et être implé­men­té sur des casques et écou­teurs déjà com­mer­cial­isés pour le grand pub­lic (Apple, Sony, Google…). L’algorithme demande encore un tra­vail de développe­ment et d’optimisation. Mais demain, un util­isa­teur lamb­da pour­rait par­tir à la décou­verte d’une ville, à pied le nez au vent, sim­ple­ment guidé par le son de sa musique. « La déam­bu­la­tion en suiv­ant un son est totale­ment intu­itive, aucun appren­tis­sage n’est néces­saire, et la pré­ci­sion est extrême, de l’ordre de quelques degrés », expliquent les co-fon­da­teurs. Plus effi­cace et moins las­sante que la voix de syn­thèse qui vous intime de tourn­er « légère­ment » à droite.

Que ce soit en intérieur, pour se repér­er dans un hôpi­tal ou un musée, ou en extérieur, pour suiv­re des par­cours touris­tiques ou sportifs, les appli­ca­tions de cette « fée clo­chette » du 21ème siè­cle parais­sent illimitées.

Marina Julienne

Le monde expliqué par la science. Une fois par semaine, dans votre boîte mail.

Recevoir la newsletter