Bandeau du Laboratoire d'Informatique & Systèmes (LIS)

Offre de stage

Stage : Stage NLP - Etude des facteurs de complexité dans les tâches de compréhension automatique du langage

Candidature avant : 15/12/2022

Modalité :
Encadrement : Frederic Bechet (LIS, Aix Marseille Universite) et Philippe Langlais (RALI, Université de Montréal)
Lieu du stage : LIS, campus de Luminy, Marseille (+ éventuellement séjour à l\\\'Université de Montréal).
Envoyer un message Frederic Bechet (mail: prenom.nom@lis-lab.fr)

Résumé :
Les progrès récents dans l'apprentissage de la représentation du texte avec des modèles Transformer tels que BERT ont obtenu des résultats remarquables sur les tâches de compréhension de la langue, comme le montrent les résultats récents obtenus sur des corpus « benchmark » de référence tels que GLUE (General Language Understanding Evaluation) [wang-2018], atteignant même des performances humaines voire « suprahumaines » sur plusieurs tâches de compréhension automatique du langage [wang-2019] telles que l'acceptabilité linguistique, la réponse aux questions ou la similarité sémantique. Cependant ces résultats impressionnants sont obtenus sur des corpus spécialement conçus pour ces évaluations de référence ; de plus ces tâches de compréhension, bien que toujours liées à une compétence linguistique particulière, peuvent être considérées comme plutôt artificielles car elles sont spécifiquement adaptées au cadre d'évaluation défini par des protocoles tels que GLUE et peuvent être assez éloignées des tâches que l’on trouverait dans des contextes applicatifs réalistes.
Les travaux proposés dans ce stage s’inscrivent dans la suite des travaux de l’équipe TALEP du LIS à l’Université d’Aix Marseille et du laboratoire RALI de l’Université de Montréal visant à essayer de déterminer quels sont les facteurs de complexités d’une tâche de compréhension automatique du langage, et quels sont les phénomènes linguistiques sous-jacent que doivent traiter les modèles de compréhension utilisés pour résoudre ces tâches.
Le déroulement du stage consistera a étudier les tâches proposées dans les évaluation GLUE et superGLUE, et les résultats des meilleurs systèmes participant à ces évaluation afin d’essayer de définir pour chaque tâche quels en sont les principaux facteurs de complexité et estimer quels phénomènes sont parfaitement maîtrisés par les modèles actuels de représentation du langage par réseaux de neurones profonds et quels sont ceux pour lesquels les marges de progression restent importantes.
Le stage se déroulera à Marseille, au sein de l’équipe TALEP du LIS, sur le site de Luminy, et la double supervision de Frédéric Béchet (Professeur à l’Université d’Aix Marseille et chercheur au LIS) et de Philippe Langlais (Professeur à l’Université de Montréal et chercheur au RALI). Un séjour à Montréal durant le stage est envisageable.



Fichier PDF   Stage : Fusion des données multi-capteurs

Candidature avant : 22/02/2022

Modalité :
CV et lettre de motivation à envoyer à etienne.thuillier@lis-lab.fr, sana.sellami@lis-lab.fr, laure.berti@ird.fr Avant le 1er Novembre 2021

Résumé :
L’objectif de ce stage est de proposer une ou plusieurs méthodes pour la fusion des prédictions de plusieurs classifieurs afin de prévenir des inondations dans les zones potentiellement à risque.



Fichier PDF   Stage : Joint speech segmentation and syntactic analysis

Candidature avant : 01/02/2022

Modalité :
Send a CV and cover letter to benoit.favre@lis-lab.fr & alexis.nasr@lis-lab.fr before November 1st, 2021.

Résumé :
Segmenting speech transcripts is difficult due to the lack of punctuation in automatically generated transcripts. Syntactic analysis of the spoken message might really help assessing the validity of the proposed sentence sequence, but syntactic parsing is often performed after segmentation. The goal of this internship is to develop a joint model of syntactic parsing and sentence segmentation for spoken recordings, based on lexical and prosodic features. A shift-reduce parser will be modified to perform the joint task, and account those specific inputs. Experiments will be carried out on a large corpus of segmented speech annotated with syntax.



Fichier PDF   Stage : Syntactic analysis of speech without transcription

Candidature avant : 01/02/2022

Modalité :
Send a CV and cover letter to benoit.favre@lis-lab.fr, alexis.nasr@lis-lab.fr and ricard.marxer@lis-lab.fr before November 1st, 2022

Résumé :
Syntactic analysis, or syntactic parsing, consists in predicting a tree representationof the syntactic relationship between words of a sentence. When processing speech, syntactic parsing requires a word sequence typically generated with automatic speech transcription. The goal of this internship is reconsider this fundamental assumtion and generate a syntactic representation of spoken utterences without having access to a word transcript. Instead the proposition is to explore unsupervised clustering of acoustic units as input to a syntactic parser. The internship will involve extracting symbolic representations from the raw speech signal and pre-training a shift-reduce syntax parser on large quantities of speech recordings.



Fichier PDF   Stage : Using deep learning to study children’s multimodal behavior in face-to-face conversation

Candidature avant : 01/02/2022

Modalité :
Email Abdellah Fourtassi (abdellah.fourtassi@univ-amu.fr) before November 1st, 2021 if possible

Résumé :
The study of how children develop their conversational skills and how these skills help them learn from others is an important scientific frontier at the crossroad of social, cognitive, and linguistic development with important applications in health (e.g., mitigating communicative difficulties), education (e.g. improving teaching practices), and child-oriented AI (e.g., virtual learning companions). Recent advances in Natural Language Processing and Computer Vision allow going beyond the limitations of traditional research methods in the lab and advance formal theories of conversational development in real-life contexts. In this internship, we will leverage some of these recent techniques (e.g., multiscale recurrent neural network) to build a model that mimics how children behave in face-to-face conversations with their caregivers and how this behavior develops across middle childhood.



Fichier PDF   Stage : Using interpretability methods to explain Vision-Language models for medical applications

Candidature avant : 01/02/2022

Modalité :
Send a CV and cover letter to emmanuelle.salin@lis-lab.fr, stephane.ayache@lis-lab.fr and benoit.favre@lis-lab.fr before Nov 1st, 2021

Résumé :
Recent developments in Vision-Language multimodal transformers have allowed a variety of novel applications that mix images and texts. However, such models convey little explainability which is a problem in the medical domain. The goal of this internship is to develop multimodal black-box explainability methods that can give users of Vision-Language models rich insight about how such models make decisions for a given instance.



Fichier PDF   Stage : Impact of language evolution in historical texts on NLP models

Candidature avant : 01/02/2022

Modalité :
Send a CV and cover letter to jeremy.auguste@lis-lab.fr, baptiste.blouin@lis-lab.fr and benoit.favre@lis-lab.fr before Nov 1st, 2021

Résumé :
Research in digital humanities often require processing large sets of historical documents, that are characterized by a high degree of language variation. This variation is mainly due to how language has evolved over the last centuries, due to political will and normation efforts. In this context, natural language processing systems, often trained on current language, tend to be affected by language variation and have poor performance. The goal of this internship is to study the effect of language variation on NLP performance, and propose approaches in order to limit that effect.



Fichier PDF   Stage : Deep learning for speech perception

Candidature avant : 01/02/2022

Modalité :
Send a CV and cover letter to ricard.marxer@lis-lab.fr before Nov 1st, 2021

Résumé :
The goal of this internship is to produce the first DL-based models that predict human intelligibility at the sublexical level. This translates into predicting the positions in the audio stimuli where confusions will occur, and the type of confusions, in other words, which phonemes are confused with which others on an individual basis.



Fichier PDF   Stage : Simplification de textes via l’identification de passages faisant référence à des informations implicites et l’estimation d’une similarité stylistique

Candidature avant : 01/02/2022

Modalité :
CV et lettre de motivation à envoyer à patrice.bellot@univ-amu.fr et liana.ermakova@univ-brest.fr avant le 30 novembre 2021

Résumé :
Ce stage se propose d'étudier deux aspects de la simplification de textes : la détection de passages non suffisamment explicites pour une compréhension aisée et l'identification de caractéristiques stylistiques importantes à la perception de la "tonalité" du texte. Il s'inscrit dans le cadre du projet collaboratif international SimpleText (https://simpletext-madics.github.io/). Les approches proposées seront issues du traitement automatique des langues et de la recherche d'information (approches statistiques et neuronales combinées à des ressources linguistiques). Le stage sera co-encadré par P. Bellot (Marseille) et L. Nurbakova (Brest).



Fichier PDF   Stage : Recherche de contenus vidéo à partir de requêtes thématiques et émotionnelles

Candidature avant : 01/02/2022

Modalité :
CV et lettre de motivation à envoyer à patrice.bellot@univ-amu.fr, elisabeth.murisasco@lis-lab.fr et emmanuel.bruno@lis-lab.fr

Résumé :
Ce stage concerne les domaines de l’informatique émotionnelle, de la recherche d’information et du traitement automatique des langues. Les approches cibles sont celles des modèles statistiques de la recherche d’information, de l’apprentissage automatique profond, de la fusion d’information et de données, de la communication humain-machine. On s’intéresse plus particulièrement à une recherche d’information qualifiée d’émotionnelle en ce sens que la requête utilisateur exprime le besoin de trouver des documents qui évoquent un thème avec une coloration émotionnelle précise (peur, joie, dégoût, surprise...). Les documents sont des vidéos pour lesquelles l’on dispose des transcriptions des paroles prononcées ainsi que de logiciels permettant d’analyser les expressions faciales.



Fichier PDF   Stage : L'IA pour décoder les émotions dans le cerveau

Candidature avant : 01/02/2022

Modalité :
CV et lettre de motivation à leonor.becerra@lis-lab.fr, philippe.blache@univ-amu.fr et eliot.maes@lis-lab.fr avant le 05/12/2021

Résumé :
Le sujet du stage consiste à proposer un modèle multimodal des émotions appris sur un corpus de conversation existant, K-EmoCon, et à en valider la pertinence en le corrélant au signal neuro-physiologique.



Fichier PDF   Stage : Petri Nets for Cyber-Physical Systems Security Analysis – Application to Manufacturing Systems

Candidature avant : 15/12/2021

Modalité :
Send a CV, cover letter and transcripts to rabah.ammour@lis-lab.fr & leonardo.brenner@lis-lab.fr before December 15, 2021

Résumé :
With the rapid growth of Cyber-Physical Systems (CPSs), security issue has emerged as one of the main challenges. Indeed, CPSs operate in networked environments as they need to communicate remotely with monitoring and management systems. This feature makes them more vulnerable to various threats and cyber-attacks with major potential consequences for users. This research internship deals with vulnerability analysis of CPSs using Petri nets formalism.



Fichier PDF   Stage : Matching contextual and definitional embeddings for a sense-aware reading assistant

Candidature avant : 30/11/2021

Modalité :
Email Carlos Ramisch et Alexis Nasr (first.last@lis-lab.fr) before November 30st, 2021

Résumé :
Imagine you are reading a book in a foreign language that you understand quite well, but you are not totally fluent in. At some point, you come across a word that you do not understand in a sentence. Imagine you can click on the word in your screen and its definition shows up. The goal of this internship is to **develop and evaluate an original NLP model capable of aligning a word's context with its correct definition, even if the word is ambiguous, i.e., having more than one definition listed in the dictionary.** This internship will take place in the context of the recently funded ANR SELEXINI project. The project aims at developing lexicon induction methods to create a large structured semantic lexicon for French. One of the by-products of this internship is a large French corpus with corresponding contextual embeddings aligned to Wiktionary entries. The intern will join the TALEP team in Luminy, Marseille, and have the opportunity to interact with researchers in the partner universities (Univ. de Saclay, Univ. de Paris, Univ. de Lorraine) and submit a paper to an international conference, depending on the results of the internship.



Fichier PDF   Stage : Representation Learning for Text Mining Tasks

Candidature avant : 30/11/2021

Modalité :
Master 2-Informatique NLP, Deep-Learning, Relational Learning, Hybrid Approaches, Relation Extraction Contact : Bernard.espinasse@lis-lab.fr

Résumé :
Text mining increasingly uses Deep Learning techniques for Natural Language Processing (NLP) tasks such as information extraction (named entity recognition and relation extraction) or higher-level tasks such as text simplification, and automatic text summarization. Such deep learning techniques are based on many neural network architectures, including Convolutional (CNN), Recurrent (RNN), and Long Short Term Memory Neural Networks (LSTM), and more recently Transformers with BERT (Bidirectional Encoder Representations from Transformers), that allow to reach impressive results in many NLP task. However, as demonstrated by recent studies such performance can be improved by mainly integrating linguistic features such as syntactic dependencies (Espinasse et al., 2019). In addition, other symbolic NLP-based techniques make better use of linguistics and external semantic resources (ontologies), including the use of relational learning as in (Lima et al., 2019) (Verbeke et al., 2014). In order to go beyond the limits of deep learning techniques, their combination with these symbolic techniques seems to be beneficial. This research work will address recent advances in representation learning (Škrlj et. al., 2021), a cutting-edge research area of machine learning. Representation learning refers to modern data transformation techniques that convert data of different modalities and complexity, including texts, graphs, and relations, into compact tabular representations, which effectively capture their semantic properties and relations. More particularly, this Master's internship will focus on new hybrid software solutions combining two approaches for symbolic and embedding representation (Lavrac et al., 2021) (Škrlj et. al., 2021) propositionalization approaches, established in relational learning and inductive logic programming, and (ii) embedding approaches, which have gained popularity with recent advances in deep learning. After having better identified the interest and limitations of these new hybrid approaches based on representation learning techniques, their implementation will be evaluated on specific tasks such as the named entity recognition, and/or relation extraction