Soutenance de thèse : Marion Poupard
Marion POUPARD
Sous la direction de Monsieur Hervé GLOTIN, Professeur, Université de Toulon (France)
et
M. Thierry SORIANO, Professeur, Université de Toulon (France), Co-directeur de thèse
Co encadrée par M. Thierry LENGAGNE, Chargé de Recherche-HDR, CNRS, Université Lyon I, co-encadrant
soutiendra sa thèse en vue de l’obtention du Grade de Docteur
Discipline : « Automatique, Signal, Productique, Robotique »
Spécialité : "Bioacoustique"
sur le thème
mercredi 09 décembre 2020 à 16h00
en visioconférence dont le lien de connexion est accessible sur demande
auprès du directeur de thèse glotin@univ-tln.fr
devant un jury composé de
M. Yvan SIMARD, DR Ins. Sciences de la Mer, Rimouski, Univ. Québec, Canada, Rapporteur
- Mme Clémentine VIGNAL, Pr. Ins. Ecologie & Sciences de l’Environnement de Paris, CNRS, Univ. Sorbonne, Rapporteur
- Mme Renata SOUSA-LIMA, Pr. Lab. of Bioacoustics, Univ. Rio Grande do Norte, Brésil, Examinatrice
- Mme Aurélie CELERIER, MC HDR Centre Ecologie Fonctionnelle & Evolutive, CNRS, Univ.
Montpellier II, Examinatrice - M. Gianni PAVAN, Pr. Cent. Interdisci. Bioacustica & Ricerche Ambientali, Univ. Pavia, Italie, Examinatrice
- M. Hervé GLOTIN, Pr. Lab. Informatique & Systèmes, CNRS, Univ. Toulon, Directeur de thèse
- M. Thierry SORIANO, Pr. Lab. Conception Systèmes Mécaniques & Robotiques, Univ. Toulon, co-directeur de thèse
- M. Thierry LENGAGNE, CR HDR Lab. Ecologie des Hydrosystèmes Naturels & Anthropisés, CNRS, Univ. Lyon I, co-encadrant de thèse
- Mme Anne-Laure BEDU, Responsable de la société Biosong, Invitée
Résumé
L’objectif de cette thèse est d’apporter différentes contributions méthodologiques en bioacoustique pour l’étude de la faune. En effet, la bioacoustique est une science récente, pluridisciplinaire et très efficace pour étudier et classifier un écosystème. Beaucoup d’études ont mis au point des procédés acoustiques pour étudier la faune à des échelles spécifiques, populationnelles, individuelles et comportementales.
Ce travail de thèse propose d’étudier différents cas d’études présents dans ces quatre échelles d’analyses.
L’objectif de cette thèse est de mettre en place des outils depuis la pose du matériel d’acquisition jusqu’à l’analyse des données pour l’ensemble des échelles présentées, de les discuter et de les mettre en perspective. La bioacoustique spécifique est illustrée ici par la classification automatique d’Orques, de Cachalots et d’oiseaux. Pour la bioacoustique populationnelle, la classification acoustique de clans d’Orques est étudiée. Puis l’échelle d’analyse s’affine et étudie les émissions sonores individuelles. Pour cela 3 cas d’études sont utilisés : la localisation individuelle d’Orques, de Cachalots et d’oiseaux. La dernière échelle est appelée bioacoustique comportementale, elle a pour but de mettre en corrélation des comportements avec des émissions acoustiques. Pour cela, l’influence du trafic maritime sur les Dauphins tachetés pantropicaux et l’impact de stimuli chimiques chez la Baleine à bosse est étudié.
Nous avons volontairement fait le choix de sélectionner différentes espèces produisant des types de signaux bien différents (stationnaires vs transitoires) évoluant dans des milieux différents (marins vs terrestres) afin d’homogénéiser les méthodes d’analyses pour faciliter le développement de nouvelles études en bioacoustique. Chaque cas d’étude présente des résultats intéressants en terme de bioacoustique et d’écologie comportementale. Ces résultats sont comparés avec la bibliographie. Puis, les résultats de chaque cas d’étude permettent de valider les méthodes proposées dans cette thèse. Les apports méthodologiques de cette thèse sont synthétisés, comparés et discutés, notamment l’impact des signaux stationnaires et transitoires, des milieux (marin et terrestre) sur la mise en place des méthodes. Les méthodes supervisées et non supervisées sont mises en comparaison. Les méthodes proposées ont été testées et validées sur certains protocoles de données massives (plusieurs dizaines de Tera).
En conclusion, cette thèse montre que les méthodes supervisées (notamment le Deep Learning) étaient très bien adaptées pour la classification de signaux stationnaires en bioacoustique spécifique et populationnelle pour le milieu terrestre et marins. Puis les méthodes non supervisées (clustering et réduction de dimensionnalité) peuvent être utilisées dans le cadre des études en bioacoustique comportementale pour identifier les signaux d’intérêt. Enfin, la bioacoustique individuelle peut se traduire par des méthodes de localisation comme l’estimation du temps de délais d’arrivée inter-capteur, réalisable pour les signaux transitoires, et plus complexe pour les signaux stationnaires.
Mots-clés : Bioacoustique, Masse de données, Espèce, Population, Individu, Localisation, apprentissage supervisé et non supervisé.
Abstract
Keywords : Bioacoustics, Big data, Species, Populations, Individuals, localization, Unsupervised and Supervised Learning.
Le TAL (Traitement Automatique des Langues) pour traiter l'avalanche de publications scientifiques liées au COVID-19
Dans ce cadre, Benoit Favre de l’équipe TALEP (traitement automatique du langage écrit et parlé) du LIS a entamé une collaboration avec le Dr Stephane Delliaux (AMU/APHM) pour faciliter la veille scientifique sur la COVID-19 à l’aide du TAL. L’enjeu fondamental est de mettre en place des méthodes de compréhension automatique du contenu des articles, afin d’aiguiller les chercheurs et praticiens vers les résultats de recherche les plus pertinents pour leur domaine de compétence, et d’extraire des informations précises sur les études décrites, dans le but d’en synthétiser le contenu.
Ce projet explore les questions suivantes :
- quels sont les besoins des personnels médicaux en terme de veille bibliographique et où les méthodes de TALN peuvent-elles intervenir pour leur faciliter la tâche ?
- quels modèles de TAL permettent le mieux de traiter les informations scientifiques dans un contexte médical en prenant en compte les nombreux efforts d’annotation et de classement existants ?
- comment synthétiser les résultats médicaux exprimés dans les publications au jour le jour et en se basant sur des indices peu nombreux et faibles quantités de données ?
Publication du "Guided Tour of AI Research" chez Springer co-édité par Odile Papini (équipe LIRICA, LIS)

Prix de Thèse AMU pour Marianna Girlando - équipe LIRICA
Résumé de la thèse :
La thèse se place à l’intersection de trois sujets de recherche : logiques conditionnelles, théorie de la démonstration et sémantique de voisinage. La famille de logiques conditionnelles considérées provient des ouvrages de Stalnaker et Lewis. Elle est une extension de la logique classique propositionnelle avec un opérateur modal à deux places, qui exprime une notion affinée de conditionnalité. La sémantique de ces logiques est définie en termes de modèles de voisinage. Le but de la recherche est d’étudier la théorie de la démonstration des logiques conditionnelles, en précisant leurs calculs des sequents. Les calculs définis sont des extensions du calcul des sequents de Gentzen ; ils sont ´étiquetés, c’est à dire définis en enrichissant le langage, ou internes, qui rajoutent des connecteurs structurels aux sequents. La thèse est organisée en six chapitres. Le chapitre 1 présente les axiomes et la sémantique des logiques conditionnelles et le chapitre 2 introduit la théorie de la démonstration. Les contributions originelles au sujet sont traitées dans les chapitres 3 – 6. Le chapitre 3 introduit des calculs de sequents étiquetés basés sur la sémantique de voisinage pour les logiques conditionnelles préférentielles. Le chapitre 4 présente différents systèmes internes de calcul pour les logiques counterfactuelles, une sous-famille des logiques préférentielles. Le chapitre 5 analyse la relation parmi les systèmes de preuve en présentant les deux côtés d’une traduction entre un calcul étiqueté et un calcul interne. Finalement, au chapitre 6, les méthodes de la théorie de la démonstration conditionnelle sont appliquées à une logique épistémique multi-agente. Lien : http://www.theses.fr/2019AIXM0038Drones, capteurs bio-mimétique, gestion de trajectoire.
Le Silence de la Mer : la mer silencieuse permet le retour près des côtes des mammifères marins

En raison d'un trafic maritime intense, la Méditerranée est l'une des mers au monde qui subit le plus de perturbations acoustiques. Cette pollution sonore a pratiquement disparu pendant le confinement. D'où l'idée d'aller étudier la faune sous-marine et l'impact des bruits produits par l’humain.
- En collaboration avec Seaproven, la plateforme technologique SMIoT et dans le cadre du pôle INPS de l’UTLN, Hervé Glotin et son équipe pilotent la mission « Silence de la mer ». Elle vise à caractériser le milieu marin, à mesurer le comportement en 3D et la densité de présence de plusieurs espèces de cétacés aux alentours des côtes pendant et après le confinement. L'expédition doit permettre de connaître plus précisément l’impact anthropophonique sur l’éloignement des populations des côtes.
- La première phase de cette mission a permis de remonter un siècle en arrière, d'enregistrer les paysages acoustiques que nos grands-parents pouvaient entendre, mais qui sont usuellement masqués par les bruits industriels.
- En comparant des enregistrements acoustiques réalisés avant le confinement et ceux d’aujourd’hui, la mission tente d'observer les évolutions. Dans cette mer calme, les animaux arrivent à communiquer sur de plus longues distances, peut-être le double ou le quadruple d'avant le confinement. Ces changements drastiques pourraient changer certains de leurs comportements. Par exemple, la distance entre les individus pourrait augmenter pendant des séquences de chasse, permettant de couvrir une plus large zone, mais également de repérer les proies plus facilement. La communication entre les groupes éloignés est facilitée, favorisant les liens sociaux.
- « Nous observons ainsi des animaux moins stressés qui reprennent leurs droits » souligne Hervé Glotin. « Dès le premier jour de la mission, nous avons observé un groupe de grands dauphins (12 à 15 individus, dont 3 petits) dans la rade de Hyères. Ces animaux apaisés ont nagé pendant près de 30 minutes autour des navires de la mission. Une rencontre en groupe et sur plusieurs heures est assez rare. Il s'agit d'un comportement inhabituel, peut-être la norme dans une mer sans activité humaine. Le trafic maritime est proche de celui d’avant-guerre ! Les cétacés devraient se rapprocher des côtes qu’ils fuient depuis 20 ans. Cette mer silencieuse permet de réaliser des expériences idéales, protocoles scientifiques dans une piscine de 100 km² et 2 km de profondeur avec un unique émetteur : un cargo au loin. Dès lors nous pouvons rendre compte de sa pollution acoustique ».
- Une mer également moins polluée par les rejets des bateaux, surtout à proximité des lieux touristiques et des grandes routes commerciales. De nombreuses analyses chimiques ont été réalisées pour le confirmer.
Liens dans les médias :
- https://www.liberation.fr/terre/2020/06/01/le-confinement-des-hommes-a-ete-benefique-aux-animaux-sous-marins_1789944
- https://www.caminteresse.fr/environnement/confinement-le-silence-a-permis-le-retour-des-animaux-marins-sur-le-littoral-mediterraneen-11140183/
- http://www.univ-tln.fr/Covid-19-la-megafaune-sous-marine-retrouve-son-espace-vital.html
VPP4Islands propose de créer des centrales vertes flexibles

- Cette initiative vise à favoriser l’intégration des énergies renouvelables et à optimiser le rendement des petits réseaux électriques existants dans les îles.
- L’équipe porteuse du VPP4Islands et ses 17 partenaires européens proposent de créer des centrales électriques virtuelles (CEV) flexibles et interopérables. Il s'agit de faire face aux incertitudes inhérentes aux sources d'énergies renouvelables, des les intégrer plus facilement au réseau électrique sans nuire à sa stabilité.
- La CEV proposée ne sera pas considérée comme une centrale électrique conventionnelle constituée de petites sources d'énergie distribuées, mais plutôt comme une centrale verte flexible. Elle pourra stocker le surplus de l’énergie produite, modifier son mode de fonctionnement et son architecture pour soutenir la croissance, pallier aux changements imprévisibles de la demande d'énergie, du climat ou du marché.
- En s’appuyant sur l'agrégation et la gestion intelligente des ressources énergétiques distribuées, le VPP4Islands augmentera la flexibilité et la rentabilité des systèmes énergétiques tout en fournissant de nouveaux services. Il permettra de mieux maîtriser la demande des consommateurs en les incitants à devenir des « consomm’acteurs ».
- Dans l’objectif de révolutionner le mode opératoire les centrales électriques virtuelles et de créer des communautés énergétiques plus performantes, le projet VPP4Islands souhaite proposer des solutions innovantes basées sur les concepts du jumeau numérique (Digital Twin), des systèmes virtuels de stockage d'énergie et de la technologie des registres distribués (Distributed Ledger Technology).
D'une pierre deux coups
Le fils d’un enseignant en REP+ ( réseau d’éducation prioritaire renforcée) nous a fait part de la situation dramatique des élèves en difficulté pour suivre l’enseignement à distance, spécialement en mathématiques. Le LIS a alors proposé à la Ville de Marseille et à la déléguée du Préfet à la Politique de la Ville de lancer à titre expérimental une action d’aide à la scolarité dans le cadre du plan de soutien lancé par le gouvernement (https://www.education.gouv.fr/covid-19-renforcer-la-continuite-educative-dans-les-quartiers-prioritaires-303462 ).
Notre initiative permet à la puissance publique de coordonner et de financer une opération d’entre aide entre deux groupes de nos concitoyens qui souffrent particulièrement de la situation créée par la pandémie : les étudiants à ressources diminuées et les élèves les plus en difficulté dans le suivi de l’enseignement à distance. Elle est complémentaire des autres actions de type « aide aux devoirs » ou « cordées de la réussite »
Elle s'adresse à quinze élèves de REP+ de troisième, jugés par leurs enseignants comme « tangents » quant à leur possibilité de suivre une seconde de type général et qui pourraient donc particulièrement souffrir de cette période au niveau de leur orientation. Il nous semble qu’il s’agit là d’un public prioritaire, car sa réussite est un indicateur important du bon fonctionnement de « l’ascenseur social ».
Selon les enseignants de terrain et les responsables pédagogiques de ces établissements, la principale source de décrochage scolaire pour ces élèves réside dans la difficulté de suivre à distance un enseignement de mathématiques.
Les enseignants de mathématiques des collèges Belle de mai, Manet, Pythéas ont conçu un formulaire de candidature, diffusé ensuite par le Département d'informatique de l'AMU. Il a permis de sélectionner quinze étudiants en difficultés financières parmi soixante-trois réponses. Pour 15€ net de l’heure, ils délivrent deux heures de tutorat par semaine sur huit semaines à partir du 5 ou du 11 mai. Le coût de 3 600 € est pris en charge par les MPT (maisons pour tous) et MFA (maison des familles et des associations) du 14ème et MPT Belle de Mai sur des reliquats d’actions qui n’ont pu avoir lieu. Le soutien se fait en binôme par le biais des professeurs référents de la matière sous contrôle des Chefs d'établissement.
L’action a débuté le 11 mai et se poursuivra jusqu’aux vacances. Des financements sont demandés pour son extension aux trente-trois établissements de REP+ de l’académie en incluant les vacances. 330 élèves seraient touchés pour une enveloppe de 120 000 € à distribuer aux étudiants participants.
Conférence MachineLearning@LIS
Le LIS lauréat de deux Chaires de recherche et d’enseignement en Intelligence Artificielle (IA)
- ADSIL (ADvanced Submarine Intelligent Listening) - porté par Hervé Glotin et l'équipe DYNI du LIS
- Massal’IA (Propositional Reasoning for Large-Scale Optimization: Application to Clean Energy Mobility Issues) - porté par LI Chu-Min et les équipes COALA et MOFED du LIS
La physique a-t-elle besoin des nombres réels ?
Soutenance de thèse Agus Budi Raharjo
Abstract:
- Reliable classifiers in ensemble learning: the first contribution is a method, based on weighted voting, which allows selecting a reliable combination of classifications. Our algorithm RelMV transforms confidence scores, obtained during the training phase, into reliable scores. By using these scores, it determines a set of reliable candidates through both static and dynamic selection process.
- Reliable annotators in learning from crowds: when it is hard to find expert labels as ground truth, we propose an approach based on Bayesian and expectation-maximization(EM) as our second contribution. The aim is to evaluate the reliability degree of each annotator and to aggregate the appropriate labels carefully. Also, we optimize the computation time of the algorithm in order to adapt a large number of data collected from crowds.
Résumé :
Soutenance de thèse Damien Busatto-Gaston
Le jury sera composé de
- Nathalie BERTRAND, INRIA Rennes, Examinatrice
- Patricia BOUYER-DECITRE, LSV, Examinatrice
- Krishnendu CHATTERJEE, IST Austria, Rapporteur
- Benjamin MONMEGE, LIS, Directeur
- Joël OUAKNINE, MPI, Rapporteur
- Laure PETRUCCI, LIPN, Examinatrice
- Pierre-Alain REYNIER, LIS, Directeur
- Igor WALUKIEWICZ, LaBRI, Rapporteur
--------------------------------------------------------------------------------
Résumé:
Le domaine de la synthèse réactive a pour objectif d'obtenir
un système correct par construction à partir d'une spécification logique.
Une approche classique consiste à se ramener à un jeu à somme nulle,
où deux joueurs interagissent tour-à-tour dans
un système de transitions, et à se demander si le joueur "contrôleur" peut garantir
que son objectif sera rempli, et ce indépendamment des décisions
du joueur "environnement".
Nous étudions des spécifications temps-réel, modélisées par un automate temporisé
équipé d'un objectif d'accessibilité ou de Büchi, et présentons
des méthodes symboliques pour synthétiser des stratégies du contrôleur.
Nos contributions concernent deux problématiques distinctes :
on peut souhaiter que le contrôleur obtienne une stratégie robuste aux perturbations,
ou bien le faire jouer de manière optimale dans un jeu pondéré.
--------------------------------------------------------------------------------Abstract:The field of reactive synthesis studies ways to obtain,
starting from a specification, a system that is correct by construction.
A classical approach models this setting as a
zero-sum game played by two players on a transition system,
and asks whether player controller can
ensure an objective against any competing player environment.
We focus on real-time specifications,
modelled as timed automata with reachability or Büchi acceptance conditions,
and present symbolic ways to synthesise strategies for the controller.
We consider two problems, either restricting controller to robust strategies
or aiming for optimal strategies in a weighted game setting.
Le LIS participe à la 1ère édition des "journées IA en région Sud" le 28/11/2019 à Avignon (site centre-ville).
Cette journée se place aussi dans le cadre des "Rencontres HumanIA" en Avignon.
Le programme est disponible ici : https://lia.univ-avignon.fr/iasud2019/
Il y a également un lien vers une page d'inscription : gratuite mais obligatoire !
Journées du GdR IG-RV (Informatique Graphique et Réalité Virtuelle) du 12 au 15 novembre
- une journée Jeunes Chercheurs le 12 novembre à Luminy (Polytech)
- 3 jours de conférence les 13, 14 et 15 novembre au Palais des Congrès du Parc Chanot
Toutes les informations sont disponibles sur le site de la conférence : https://jfigrv2019.sciencesconf.org Les orateurs invités parleront de simulation prédictive, de réseau de connaissance pour la RV dans les jeux vidéo, d’annotation sémantique 3D et de génération de détails.
De plus, nous organisons aussi le mardi 12 novembre, en parallèle de la journée Jeunes Chercheurs, la journée nationale et annuelle du GT GDMM (Géométrie Discrète et Morphologie Mathématique). Ca se passe aussi sur le campus de Luminy -> https://gdmm2019.lis-lab.frPublication du livre de Lyes BENYOUCEF sur les Systèmes de Production Reconfigurables (RMSs)
Le projet "OPeRA" en collaboration avec l'école nationale d'ingénieurs de Tunis (ENIT) et l'université de Tunis El-Manar soumis dans le cadre de l'appel à projet PHC Utique 2020 a été accepté.
OPeRA : OPTIMISATION DES RESSOURCES EN APPRENTISSAGE PROFOND
Le projet OPeRA est une nouvelle coopération qui s'établit au sein du bassin méditerranéen. Le projet regroupe deux partenaires académiques (le laboratoire d'informatique et systèmes de Marseille -LIS- et le laboratoire de modélisation mathématique et numérique dans les sciences de l'ingénieur de Tunis -LAMSIN-) et implique un partenaire privé de R&D et de consulting IT spécialisée dans la science des données (EURA NOVA) pour collaborer sur le thème de l’apprentissage profond.Workshop Weighted Automata: Theory and Applications, WATA 2020
Soutenance de thèse de Sébastien RATEL
- Date et heure: Vendredi 8 Novembre 2019 à 14h00
- Lieu: Salle de séminaire du 2ème étage de la Frumam, St Charles
- Titre: "Densité, VC-dimension et étiquetages de graphes"
- Encadrants: Victor CHEPOI et Arnaud LABOUREL
- Nicolas NISSE, I3S/INRIA, Rapporteur
- Laurent VIENNOT, IRIF/INRIA, Rapporteur
- Olivier BOUSQUET, Google AI, Examinateur
- Nadia CREIGNOU, LIS, Examinatrice
- Cyril GAVOILLE, LaBRI, Examinateur
- Nabil MUSTAFA, ESIEE, Examinateur
- Victor CHEPOI, LIS, Directeur
- Arnaud LABOUREL, LIS, Directeur
LIS PhDay 31/10/2019, St Jérôme
- 9h15: accueil
- 9h30 : 3-4 interventions scientifiques (20-25'/pers)
- 11h : pause
- 11h15 : 3-4 interventions scientifiques (20-25'/pers)
- 12h30 : buffet
- 14h : rencontre avec anciens
- 15h30 : activité détente, team-building
- 18h: apéro en ville
Le traitement de modèles graphiques (SAT, Réseaux de contraintes, Réseaux Bayésiens, Champs de Markov, etc.) par les méthodes de décomposition développées par l'équipe COALA au service de la bio-informatique.
Saison indécidabilité et impossibilité
Soutenance de Thèse de Riikka Huusari (équipe QARMA)
Encadrants : Cecile Capponi et Hachem Kadri
Titre : Kernel learning for structured data: A study on learning operator- and scalar-valued kernels for multi-view and multi-task learning problems
Résumé :
The current era of enthusiastic data gathering has made datasets with non-standard structures more common. This includes the already well-known multi-task framework where each data sample is associated with multiple output labels, as well as the multi-view learning paradigm, in which each data sample can be seen to contain numerous possibly heterogeneous descriptions. To obtain a good performance in tasks like these, it is important to model the interactions present in the views or output variables well. Kernel methods offer a justified and elegant way to solve many machine learning problems. Operator-valued kernels, which generalize the well-known scalar-valued kernels, have been under attention recently as a way to learn vector-valued functions. For both scalar- and operator-valued kernel methods the choice of a good kernel function suitable for the data plays crucial role for the success on the learning task, and a natural question to ask is: is it possible to automate the process of choosing the kernel? Kernel learning tries to answer this question by treating it as a machine learning problem. This thesis offers kernel learning as a solution for various machine learning problems. The problems range from supervised to unsupervised, yet the data is always described under multiple views or has multiple output variables. In both of these cases it is important to model the interactions present in order to obtain good learning results. Chapters two and three investigate learning the interactions with multi-view data. In the first of these, the focus is in supervised inductive learning and the interactions are modelled with operator-valued kernels. These kernels are learnable, adapting to the data at hand in the learning stage. We give a generalization bound for the algorithm developed to jointly learn this kernel and predictive function, and illustrate its performance experimentally.Chapter three tackles multi-view data and kernel learning in unsupervised context and proposes a scalar-valued kernel learning method for completing missing data in kernel matrices of a multi-view problem. In the last chapter we turn from multi-view to multi-output learning, and return to the supervised inductive learning paradigm. We propose a method for learning inseparable operator-valued kernels that model interactions between inputs and multiple output variables. We also provide insight to current state of operator-valued kernel learning and introduce a general framework to study them.Jury :
- Juho Rousu (Prof, Aalto University) : rapporteur
- Amaury Habrard (Prof, Université de Saint-Etienne) : rapporteur
- Alain Rakotomamonjy (Prof, Université de Rouen) : examinateur
- Massih-Reza Amini (Prof, Université Grenoble Alpes) : examinateur
- Liva Ralaivola (Université d'Aix-Marseille) : examinateur
- Cecile Capponi (Université d'Aix-Marseille) : supervisor
- Hachem Kadri (Université d'Aix-Marseille) : supervisor
Prix du Meilleur Papier Etudiant pour Manon Scholivet à la conférence TALN-RECITAL 2019
Résumé
L’existence de modèles universels pour décrire la syntaxe des langues a longtemps été débattue. L’apparition de ressources comme le World Atlas of Language Structures et les corpus des Universal Dependencies rend possible l’étude d’une grammaire universelle pour l’analyse syntaxique en dépendances. Notre travail se concentre sur l’étude de différentes représentations des langues dans des systèmes multilingues appris sur des corpus arborés de 37 langues. Nos tests d’analyse syntaxique montrent que représenter la langue dont est issu chaque mot permet d’obtenir de meilleurs résultats qu’en cas d’un apprentissage sur une simple concaténation des langues. En revanche, l’utilisation d’un vecteur pour représenter la langue ne permet pas une amélioration évidente des résultats dans le cas d’une langue n’ayant pas du tout de données d’apprentissage.Nouveau projet européen : l'Innovative Training Network "COBRA - COnversational BRain"
L'équipe R2I du LIS sur le podium @VarDial2019

Adrian CHIFU a représenté l’équipe R2I du LIS à la compétition organisée pour VarDial2019 (https://sites.google.com/view/vardial2019/campaign), workshop en colocation avec NACL2019 (https://naacl2019.org). Ses 3 soumissions pour la première sous-tâche MRC (Moldavian vs. Romanian Cross-dialect Topic identification - binary classification by dialect) ont été classées 2ème, 3ème et respectivement 4ème.
Résumé de l'article en anglais :
This article presents the model that generated the runs submitted by the R2I LIS team to the VarDial2019 evaluation campaign, more particularly, to the binary classification by dialect sub-task of the Moldavian vs. Romanian Cross-dialect Topic identification (MRC) task. The team proposed a majority vote-based model, between five supervised machine learning models, trained on forty manually- crafted features. One of the three submitted runs was ranked second at the binary classifi- cation sub-task, with a performance of 0.7963, in terms of macro-F1 measure. The other two runs were ranked third and fourth, respectively.
DISCRETE TIME QUANTUM SIMULATOR
9 postes d’ATER sont ouverts au Département Informatique et Interactions avec rattachement LIS
France Culture : Des sons à écouter en stéréo
Comme François Sarano, Hervé Glotin, Flore Samaran, Olivier Adam, incarnent aussi de nouvelles figures de l’exploration qui n’hésitent pas à partir dans des mondes hostiles pour faire avancer la science. A chaque saison, ils partent sur le terrain, inventant des outils de recherche très audacieux et témoignent de leur inquiétude quand à l’avenir des espèces marines.
Avec : Hervé Glotin est professeur à l’Université Sud-Toulon-Var. Il travaille sur les orques, cachalots, baleines à bosse, rorqual commun. Flore Samaran est enseignante chercheuse à l’ENSTA-Bretagne et spécialiste de l’acoustique passive. Elle installe tous les ans des balises acoustiques en Antarctique pendant les rotations du Marion Dufresnes pour écouter les baleines bleues. François Sarano, plongeur, océanographe, ancien responsable scientifique de la calypso de Cousteau. Il vit depuis une petite dizaine d’années avec un clan de Cachalots dans l’Ocean Indien. Olivier Adam, est bioacousticien, professeur à Sorbonne-Université et à l’institut des neurosciences Paris Saclay, spécialiste des chants de baleines à bosse.
Une série documentaire d'Aline Pénitot réalisée par Gilles Mardirossian.
Pour y accéder : Oublier Moby Dick (1/4) : A l’écoute des Cachalots et autres cétacésAppel à projets générique ANR 2019 : 13 projets du LIS en phase 2

Le LIS va participer à l'organisation de la prochaine édition de la conférence LREC, en 2020, à Marseille du 11 au 16 mai 2020

12th Conference on Language Resources and Evaluation
LREC 2020FIRST CALL FOR PAPERS
Palais du Pharo Marseille, France
Main Conference: 13-14-15 May 2020
Workshops and Tutorials: 11-12-16 May 2020
Conference website: https://lrec2020.lrec-conf.org/
The European Language Resources Association (ELRA) is glad to announce the 12th edition of LREC, organised with the support of national and international organisations among which AFCP, AILC, ATALA, CLARIN, ILCB, LDC, ...
CONFERENCE AIMS LREC is the major event on Language Resources (LRs) and Evaluation for Human Language Technologies (HLT). LREC aims to provide an overview of the state-of-the-art, explore new R&D directions and emerging trends, exchange information regarding LRs and their applications, evaluation methodologies and tools, on-going and planned activities, industrial uses and needs, requirements coming from e-science and e-society, with respect both to policy issues as well as to scientific/technological and organisational ones.
LREC provides a unique forum for researchers, industrials and funding agencies from across a wide spectrum of areas to discuss issues and opportunities, find new synergies and promote initiatives for international cooperation, in support of investigations in language sciences, progress in language technologies (LT) and development of corresponding products, services and applications, and standards.CONFERENCE TOPICS
Issues in the design, construction and use of LRs: text, speech, sign, gesture, image, in single or multimodal/multimedia data- Guidelines, standards, best practices and models for LRs interoperability
- Methodologies and tools for LRs construction and annotation
- Methodologies and tools for extraction and acquisition of knowledge
- Ontologies, terminology and knowledge representation
- LRs and Semantic Web (including Linked Data, Knowledge Graphs, etc.)
- LRs and Crowdsourcing
- Metadata for LRs and semantic/content mark-up
Exploitation of LRs in systems and applications
- Sign language, multimedia information and multimodal communication
- LRs in systems and applications such as: information extraction, information retrieval, audio-visual and multimedia search, speech dictation, meeting transcription, Computer Aided Language Learning, training and education, mobile communication, machine translation, speech translation, summarisation, semantic search, text mining, inferencing, reasoning, sentiment analysis/opinion mining, etc.
- Interfaces: (speech-based) dialogue systems, natural language and multimodal/multisensory interactions, voice-activated services, etc.
- Use of (multilingual) LRs in various fields of application like e-government, e-participation, e-culture, e-health, mobile applications, digital humanities, social sciences, etc.
- Industrial LRs requirements
- User needs, LT for accessibility
LRs in the age of deep neural networks
- Semi-supervised, weakly-supervised and unsupervised machine learning approaches
- Representation Learning for language
- Techniques for (semi-)automatically generating training data
- Cross-language NLP & Cross-domain NLP with reduction of human effort
Issues in LT evaluation
- LT evaluation methodologies, protocols and measures
- Validation and quality assurance of LRs
- Benchmarking of systems and products
- Usability evaluation of HLT-based user interfaces and dialogue systems
- User satisfaction evaluation
General issues regarding LRs & Evaluation
- International and national activities, projects and initiatives
- Priorities, perspectives, strategies in national and international policies for LRs
- Multilingual issues, language coverage and diversity, less-resourced languages
- Open, linked and shared data and tools, open and collaborative architectures
- Replicability and reproducibility issues
- Organisational, economical, ethical and legal issues
LREC 2020 HOT TOPICS
Less Resourced and Endangered Languages
Special attention will be devoted to less resourced and endangered languages: it is expected that LREC2020 makes room to activities carried out to support indigenous languages, building on the United Nations/UNESCO International Year of Indigenous Languages being celebrated in 2019.
Language and the Brain
Studying the neural basis of language helps in understanding both language processing and the brain mechanisms. LREC2020 will encourage all submissions addressing language and the brain. Among possible subtopics, submissions could focus on new datasets and resources (neuroimaging, controlled corpora, lexicons, etc.), methods aiming at new multimodal experimentations (e.g. EEG in virtual reality), language processing applications (e.g. brain decoding, brain-computer interfaces), etc.
Machine/Deep Learning
The availability of LRs is a key element of the development of high quality Human Language Technologies based on AI/Machine Learning approaches, and LREC is the best place to get access to this data, in many languages and for many domains. In addition to submissions addressing ML issues based on large quantities of data, those applied to languages for which only small, noisy or sparse data exist are also most welcomed.
DESCRIBE AND SHARE YOUR LRs! In addition to describing your LRs in the LRE Map – now a normal step in the submission procedure of many conferences – LREC recognises the importance of sharing resources and making them available to the community. When submitting a paper, you will be offered the possibility to share your LRs (data, tools, web-services, etc.), uploading them in a special LREC repository set up by ELRA. Your LRs will be made available to all LREC participants before the conference, to be re-used, compared, analysed. This effort of sharing LRs, linked to the LRE Map for their description, contributes to creating a common repository where everyone can deposit and share data.
PROGRAMME
The Scientific Programme will include invited talks, oral presentations, poster and demo presentations, and panels, in addition to a keynote address by the winner of the Antonio Zampolli Prize.
We will also organise an Industrial Track and a Reproducibility Track: for these there will be separate Calls.SUBMISSIONS AND DATES
Submission of oral and poster (or poster+demo) papers: 25 November 2019
- LREC2020 asks for full papers from 4 pages to 8 pages (plus more pages for references if needed) , which must strictly follow the LREC stylesheet which will be available on the conference website. Papers must be submitted through the LREC2020 submission platform (it uses START from S oftconf) and will be peer-reviewed.
Submission of proposals for workshops, tutorials and panels: 24 October 2019
- Proposals should be submitted via an online form on the LREC website and will be reviewed by the Programme Committee.
PROCEEDINGS
The Proceedings will include both oral and poster papers, in the same format.
There is no difference in quality between oral and poster presentations. Only the appropriateness of the type of communication (more or less interactive) to the content of the paper will be considered.
LREC 2010, LREC 2012 and LREC 2014 Proceedings are included in the Thomson Reuters Conference Proceedings Citation Index. The other editions are being processed.
LREC Proceedings are indexed in Scopus (Elsevier).
Substantially extended versions of papers selected by reviewers as the most appropriate will be considered for publication in a special issue of the Language Resources and Evaluation Journal published by Springer (a SCI-indexed journal).
Any question, please write to lrec@lrec-conf.org.
Participation du LIS à la journée de lancement du GDR "Traitement Automatique de la Langue"

Programme
9H Accueil 9H15 – 10H15 Session GDR TAL général 9H15 – 9H40 Intervention de Jamal ATIF – INS2I + échanges 9H40 – 10H15 Présentation du préGDR TAL : sa gouvernance, sa structure et ses groupes de travail et actions par Béatrice Daille (LS2N TALN) + échanges 10h15 Pause Café 10h30 à 12H30 Session GT1 “Apprentissage et modèles pour le TAL” 10H30-11H15 Restitution des axes de réflexion : GR1 Modèles computationnels de la langue écrite, de la langue orale et de la langue des signes GR3 Apprentissage et modélisation statistique pour le TAL GR6 Sémantique et compréhension par Nicholas Asher (IRIT MELODI), Frédéric Béchet (LIS TALEP) et Maxime Amblard (LORIA SEMMAGRAMME) 11H15-12H30 Table ronde prospective des travaux à venir du GT1 et discussions animée par Nicholas Asher (IRIT MELODI) et Frédéric Béchet (LIS TALEP) Intervenants : Alexandre Allauzen (LIMSI TLP), Jean-Francois Bonastre (LIA), Benoit Crabbé (LLF), Géraldine Damnati (Orange Labs), Guillaume Gravier (IRISA LinkMedia), Laure Soulier (LIP6 MLIA) 12h30 Buffet (Offert aux participants) 14H-16H Session Exposés invités prospectifs du GT1 14h00 Jean Luc Schwartz (GIPSA-lab PCMD)- Modélisation cognitive des unités de la parole On peut jusqu’à un certain point concevoir le langage comme une construction humaine adaptée, en un sens à définir, à nos capacités cognitives. Cette vision – qui fait débat – a comme double conséquence de proposer que les formes du langage et les principes de traitement sont eux-mêmes des produits de principes cognitifs plus généraux. C’est l’approche qui est suivie ici, dans le cadre des traitements des unités de bas niveau, « en dessous des mots » – les syllabes, les consonnes, les voyelles. J’aborderai ces questions dans le cadre computationnel de la robotique bayésienne, développé en collaboration avec mes collègues Pierre Bessière et Julien Diard ; et en lien avec les avancées expérimentales et théoriques que nous avons faites autour de l’hypothèse du « système miroir », ce système neuronal qui, dans le cerveau des primates et des humains, permet de comprendre ce que fait l’autre en le simulant mentalement. Il y aura donc des questions théoriques, des simulations bayésiennes, et des données expérimentales. 15h00 Emmanuel Dupoux (LSCP CoML) – Apprentissage non supervisé de la parole : le bébé et la machine Les systèmes de traitement automatique de la parole sont construit à partir de milliers d’heures de parole annotées plus des quantités massives de ressources textuelles. Ceci les rends difficile à déployer dans des langues dites ‘faiblement dotées’ qui ne disposent pas de telles ressources. Or, le bébé humain apprends à parler avant qu’il n’apprenne à lire et écrire. Le but de cette présentation est de passer en revue les principaux algorithmes d’apprentissage machine non supervisé appliqué à la découverte de représentations linguistiques, et qui, à l’instar du nourrisson, se passent totalement d’annotations écrites. 16h00-16H30 Discussion générale avec les participants et clôtureRecrutement Campagne Emploi 2019
6 postes d'enseignant-chercheur ouvert sur le LIS
-
Faculté des Sciences
- PR 27 pour le pôle CALCUL
- MCF 27 pour le pôle Sciences des données
-
IUT
- MCF 61 pour le pôle Signal et Image à l’IUT à Luminy
- MCF 27 pour le pôle Calcul à l’IUT d’Arles
-
Polytech Marseille
- PR 27 profil recherche ouvert sur les Pôles Calcul et Sciences des Données
- PR 61/63 profil large sur le LIS, FRESNEL et l’IM2NP