Bandeau du Laboratoire d'Informatique & Systèmes (LIS)

Une Modélisation Microscopique de l’Intelligibilité pour affiner la compréhension qu’ont les machines de la parole humaine

Le projet « Modélisation Microscopique de l’Intelligibilité » (MIM) poursuit deux objectifs. Rendre la reconnaissance automatique de parole des machines plus « humaine » et valider les connaissances sur la perception de la parole grâce au traitement de données. Coordonné par le LIS sous la responsabilité Richard Marxer (équipe DYNI - Pôle Sciences des Données de l'université de Toulon), MIM proposera des modèles qui prédisent la reconnaissance vocale humaine avec une résolution fine. « En tirant parti des techniques modernes d'apprentissage profond de l’IA et en exploitant de grands corpus de données, nous visons à construire des modèles capables de prédire la compréhension humaine de la parole à un niveau de détail plus élevé que toute autre approche existante » explique Ricard Marxer.
  • Contact : Ricard Marxer, équipe DYNI
En déterminant comment les personnes vont percevoir un son, notamment dans un contexte bruyant (superposition de voix, bruit extérieur…), MIM aidera à évaluer et améliorer les méthodes de rehaussement de la parole et permettra de réaliser des avancés dans les domaines de l’aide auditive, l'apprentissage de langue ou encore le codage de la parole. Les approches actuelles d'intelligibilité fournissent des estimations macroscopiques constituées d'agrégats sur de nombreux stimuli et auditeurs. En s'appuyant sur les développements de l'IA, les modèles pourraient prédire la reconnaissance au niveau sous-lexique. Le "Deep Learning" (DL) a amélioré les performances de la reconnaissance automatique de la parole, en obtenant résultats surhumains. MIM doit permettre de construire des modèles DL pour prédire les réponses humaines aux tests d'intelligibilité, dans le but d'améliorer l'individualisation des solutions auditives. La rareté et la variabilité des données expérimentales, ainsi que le problème d'interprétation du DL sont deux des principaux verrous à aborder. Dans ce projet, l'équipe MIM doit considérer la dimension de genre en prenant en compte toutes les situations dans les données étudiées. Plus précisément, le corpus de discours prononcés que Richard Marxer prévoit d'utiliser contient un ensemble équilibré de locuteurs en termes de genre. L'équipe a intégré des auditeurs des deux sexes lors de la réalisation de ses expériences. Le domaine de l’informatique et plus particulièrement le domaine du Machine Learning est affecté par un important déséquilibre entre les sexes. Afin de résoudre ce problème, MIM les scientifiques  ont veillé à ce que leur panel d'experts et l'équipe de chercheurs locaux contiennent tous deux des femmes. Ils prendrons également en compte ce problème lors du processus de recrutement en sélectionnant le sexe le moins représenté lors du choix entre des candidats de score égal dans les critères de sélection.