TALEP : Traitement Automatique du Langage Ecrit et Parlé
Mots clés
traitement automatique des langues, apprentissage automatique, annotations linguistiques, traitement de données multimodales, analyse syntaxique, réseaux de neurones, expressions polylexicales, corpus
Responsables
Carlos RAMISCH / Alexis NASRMembres
Site web
Objectif scientifique
Les travaux de l’équipe portent sur de nombreux aspects du Traitement Automatique des Langues (TAL). Plus précisément, l’équipe:
- Développe des modèles numériques et symboliques pour le TAL
- Implémente ces modèles dans des outils
- Evalue ces outils à l’aide de benchmarks reconnus par la communauté ou de campagnes d’évaluations
- Met en oeuvre ces outils dans des applications développées dans le cadre de projets divers
- Développe des ressources spécifiques lorsque ces dernières sont inexistantes
Les activités de l’équipe TALEP visent à trouver un bon équilibre entre la linguistique et l’informatique en proposant des analyses linguistiques précises des phénomènes rencontrés et de développer des modèles de traitement efficaces. Une des particularités de l’équipe TALEP est de s’intéresser à des productions linguistiques variées. Cette variété concerne la langue (français, anglais, arabe …), le mode de production (oral ou écrit), le niveau (planifié, spontané, normé, déviant …) ou encore le contexte de production (monologue ou dialogue, monomodale ou multimodale). L’équipe crée des outils génériques de TAL, en particulier la suite d’outils multilingue MACAON qui permet de réaliser des traitements linguistique standards et le logiciel MWETOOLKIT, qui extrait automatiquement des séquences de tokens pouvant constituer des expressions polylexicales à partir de corpus. Tous ces logiciels sont distribués sous licence libre. L’équipe TALEP accorde une grande importance aux aspects méthodologiques de l’évaluation des outils de TAL. Ces évaluations peuvent être menées dans des contextes « écologiques », auprès d’utilisateurs finaux ou dans le cadre de campagnes d’évaluation scientifiques, nationales ou internationales. TALEP est l’acronyme de Traitement Automatique du Langage Ecrit et Parlé.