Découvertes

Pour aider les ordinateurs à détecter qui parle, ces scientifiques ont découvert comment les humains le font.

Les humains peuvent facilement choisir une voix parmi plusieurs.

Si votre téléphone sonne et que vous y répondez sans regarder l’identification de l’appelant, il est fort possible qu’avant que la personne de l’autre bout ne finisse de dire « bonjour », vous sauriez déjà que c’était votre mère. Vous pouviez aussi dire en une seconde si elle était heureuse, triste, en colère ou inquiète.

Les humains peuvent naturellement reconnaître et identifier les autres humains par leur voix.

La complexité de la parole

De nos jours, Facebook a peu de mal à identifier les visages sur les photos, même lorsqu’un visage est présenté sous différents angles ou sous différentes lumières. Les logiciels de reconnaissance vocale d’aujourd’hui sont beaucoup plus limités en comparaison, et cela peut être lié à notre manque de compréhension de la façon dont les humains sont capables d’identifier les voix.

« Nous, les humains, avons différents modèles de locuteurs pour différents individus. Quand vous écoutez une conversation, vous passez d’un modèle à l’autre dans votre cerveau, pour mieux comprendre chaque interlocuteur.

Les gens développent des modèles de haut-parleurs dans leur cerveau lorsqu’ils sont exposés à différentes voix, en tenant compte de subtiles différences dans des caractéristiques telles que la cadence et le timbre. En passant naturellement d’un modèle de haut-parleur à l’autre et en s’adaptant en fonction de la personne qui parle, les gens apprennent à identifier et à comprendre les différents locuteurs.

« Pour l’instant, les systèmes de reconnaissance vocale ne se concentrent pas sur l’aspect des haut-parleurs – ils utilisent essentiellement le même modèle de haut-parleur pour tout analyser.

Disons donc que vous avez un accent alabamien plutôt épais – on peut penser que vous dites « canne » quand vous essayez de dire « ne peut pas ».

« Si nous pouvons comprendre comment les humains utilisent des modèles tributaires des locuteurs, alors nous pouvons peut-être enseigner à un système de machine à le faire « , a dit Sharma.

Écoutez et dites ‘Quand’.

On a conçu une expérience dans laquelle un groupe de volontaires humains a écouté des extraits audio de deux voix similaires parlant à tour de rôle, et ont été invités à identifier le moment exact où un orateur a pris la relève du précédent.

Cela a permis aux chercheurs d’explorer la relation entre certaines caractéristiques audio et le temps de réaction et le taux de fausses alarmes des volontaires humains. Ils ont alors commencé à déchiffrer les indices que les humains écoutent pour indiquer un changement de locuteur.

Actuellement, nous n’avons pas beaucoup d’expériences différentes qui nous permettent d’étudier l’identification de l’orateur ou la reconnaissance vocale, donc ce plan d’expérience est en fait très intelligent.

Lorsque les chercheurs ont effectué le même test pour plusieurs types de logiciels de reconnaissance vocale à la fine pointe de la technologie, y compris un logiciel commercial mis au point par IBM, ils ont constaté que les volontaires humains ont toujours eu un meilleur rendement que l’ensemble des logiciels testés, comme prévu.

L’électroencéphalographie, ou EEG, une méthode non invasive pour surveiller les activités cérébrales. Cela pourrait nous aider à mieux analyser la façon dont le cerveau réagit lorsqu’il y a un changement de locuteur. 

L’électroencéphalogramme est un examen qui permet de mesurer l’activité électrique du cerveau. En réalité, l’examen est appelé électroencéphalographie et l’électroencéphalogramme désigne la transcription de l’enregistrement sous forme d’un tracé. Il permet d’étudier et de différencier les principaux types d’ondes cérébrales (delta, thêta, alpha et bêta).

Vous pourriez également aimer...