Bandeau du Laboratoire d'Informatique & Systèmes (LIS)

Participation du LIS à la journée de lancement du GDR

logo CNRS INS2I La journée inaugurale du pré-GDR sur le Traitement automatique des langues aura lieu le jeudi 14 mars 2019 à MAISON DES SCIENCES DE L’HOMME PARIS NORD sur le thème “Apprentissage, modèles linguistiques et cognitifs”. Lien vers la page
La journée inaugurale du pré-GDR sur le Traitement automatique des langues aura lieu le jeudi 14 mars 2019 à MAISON DES SCIENCES DE L’HOMME PARIS NORD sur le thème “Apprentissage, modèles linguistiques et cognitifs”. Le pré-GDR TAL est un outil d’animation de la communauté scientifique créé en 2018. La communauté TAL est secouée par un débat sur l’intérêt de la modélisation de la langue alors que nombre d’applications adoptant des méthodes statistiques et engrangeant les succès s’en émancipent, voire produisent leurs propres modèles. Cette journée présentera les travaux du groupe de travail “Apprentissage et modèles pour le TAL” et ses réflexions sur la cohabitation et la complémentarité de l’apprentissage et des modèles linguistiques. Des perspectives de ce que pourraient être les nouveaux modèles de la langue seront aussi introduites aux travers d’exposés scientifiques d’invités et discutées autour d’une table ronde à laquelle seront conviés des industriels. Les orateurs invités sont Jean Luc Schwartz (GIPSA-Lab) et Emmanuel Dupoux (LSPC). Cette journée sera aussi l’occasion de présenter le préGDR TAL, sa structuration et ses autres groupes de travail, sa gouvernance et quelques-unes de ses actions et intégrera plusieurs temps d’échange avec les participants. Comité d’organisation A. Allauzen, LIMSI TLP N. Asher, IRIT MELODI F. Bechet, LIS TALEP T. Charnois, LIPN RCNL G. Damnati, ORANGE Labs

Programme

9H Accueil 9H15 – 10H15 Session GDR TAL général 9H15 – 9H40 Intervention de Jamal ATIF – INS2I + échanges 9H40 – 10H15 Présentation du préGDR TAL : sa gouvernance, sa structure et ses groupes de travail et actions par Béatrice Daille (LS2N TALN) + échanges 10h15 Pause Café 10h30 à 12H30 Session GT1 “Apprentissage et modèles pour le TAL” 10H30-11H15 Restitution des axes de réflexion : GR1 Modèles computationnels de la langue écrite, de la langue orale et de la langue des signes GR3 Apprentissage et modélisation statistique pour le TAL GR6 Sémantique et compréhension par Nicholas Asher (IRIT MELODI), Frédéric Béchet (LIS TALEP) et Maxime Amblard (LORIA SEMMAGRAMME) 11H15-12H30 Table ronde prospective des travaux à venir du GT1 et discussions animée par Nicholas Asher (IRIT MELODI) et Frédéric Béchet (LIS TALEP) Intervenants : Alexandre Allauzen (LIMSI TLP), Jean-Francois Bonastre (LIA), Benoit Crabbé (LLF), Géraldine Damnati (Orange Labs), Guillaume Gravier (IRISA LinkMedia), Laure Soulier (LIP6 MLIA) 12h30 Buffet (Offert aux participants) 14H-16H Session Exposés invités prospectifs du GT1 14h00 Jean Luc Schwartz (GIPSA-lab PCMD)- Modélisation cognitive des unités de la parole On peut jusqu’à un certain point concevoir le langage comme une construction humaine adaptée, en un sens à définir, à nos capacités cognitives. Cette vision – qui fait débat – a comme double conséquence de proposer que les formes du langage et les principes de traitement sont eux-mêmes des produits de principes cognitifs plus généraux. C’est l’approche qui est suivie ici, dans le cadre des traitements des unités de bas niveau, « en dessous des mots » – les syllabes, les consonnes, les voyelles. J’aborderai ces questions dans le cadre computationnel de la robotique bayésienne, développé en collaboration avec mes collègues Pierre Bessière et Julien Diard ; et en lien avec les avancées expérimentales et théoriques que nous avons faites autour de l’hypothèse du « système miroir », ce système neuronal qui, dans le cerveau des primates et des humains, permet de comprendre ce que fait l’autre en le simulant mentalement. Il y aura donc des questions théoriques, des simulations bayésiennes, et des données expérimentales. 15h00 Emmanuel Dupoux (LSCP CoML) – Apprentissage non supervisé de la parole : le bébé et la machine Les systèmes de traitement automatique de la parole sont construit à partir de milliers d’heures de parole annotées plus des quantités massives de ressources textuelles. Ceci les rends difficile à déployer dans des langues dites ‘faiblement dotées’ qui ne disposent pas de telles ressources. Or, le bébé humain apprends à parler avant qu’il n’apprenne à lire et écrire. Le but de cette présentation est de passer en revue les principaux algorithmes d’apprentissage machine non supervisé appliqué à la découverte de représentations linguistiques, et qui, à l’instar du nourrisson, se passent totalement d’annotations écrites. 16h00-16H30 Discussion générale avec les participants et clôture