Nouveau projet européen : l'Innovative Training Network "COBRA - COnversational BRain"

L'équipe R2I du pôle Science des Données du LIS est partenaire du nouveau projet de formation européen COBRA (COnversationnal BRain) qui viens d'être accepté. Le projet est porté par le Laboratoire Parole et Langage (LPL, Aix en Provence). Le LIS est impliqué sur les modèles de conversations des systèmes interactifs humanoïdes.

COBRA aims to train the next generation of researchers to accurately characterize and model the linguistic, cognitive and brain mechanisms deployed by human speakers in conversational interactions with human interlocutors as well as artificial dialog systems. It relies on a cross-sectoral international network of 11 world-level academic research centers and 4 nonacademic partners with 3 fast-developing SMEs and 1 world-level company. The partners' unique combined expertise and high complementarity will allow COBRA to offer 15 ESRs an excellent training programme as well as strong exposure to the non-academic sector in the emerging field of conversational brains. Training will cover scientific and technical skills, from the joint monitoring of brain and physiological activities in two or more people talking to each other to making multi-language databases, resources and findings available in open access, as well as transferable skills. The ESRs will conduct experimental and corpus studies on the alignment and prediction processes that make conversation between people both easy and fluent, across a large variety of communicational settings and in different languages, to better understand how these processes contribute to setting up brain-to-brain coupling relationships. Collaborative work with non-academic partners will foster the development of more effective and socially acceptable text-to-speech synthesizers, artificial dialogue systems, and social humanoid robots with high-level conversational skills. The project will open new career perspectives for ESRs with interdisciplinary training in language sciences, neuroscience and dialog systems on a very fast-growing digital market. COBRA’s training programme will also have major societal implications as it will concern aspects of the European citizens’ everyday life, from spoken interactions with machines to conversing in a non-native language.


L'équipe R2I du LIS sur le podium @VarDial2019

Adrian CHIFU a représenté l’équipe R2I du LIS à la compétition organisée pour VarDial2019 et ses soumissions ont été classées 2ème, 3ème et 4ème, respectivement pour une des sous-tâches.

\


Adrian CHIFU a représenté l’équipe R2I du LIS à la compétition organisée pour VarDial2019 (https://sites.google.com/view/vardial2019/campaign), workshop en colocation avec NACL2019 (https://naacl2019.org). Ses 3 soumissions pour la première sous-tâche MRC (Moldavian vs. Romanian Cross-dialect Topic identification - binary classification by dialect) ont été classées 2ème, 3ème et respectivement 4ème.


Résumé de l'article en anglais :

This article presents the model that generated the runs submitted by the R2I LIS team to the VarDial2019 evaluation campaign, more particularly, to the binary classification by dialect sub-task of the Moldavian vs. Romanian Cross-dialect Topic identification (MRC) task. The team proposed a majority vote-based model, between five supervised machine learning models, trained on forty manually- crafted features. One of the three submitted runs was ranked second at the binary classifi- cation sub-task, with a performance of 0.7963, in terms of macro-F1 measure. The other two runs were ranked third and fourth, respectively.



DISCRETE TIME QUANTUM SIMULATOR

Le projet DISCRETE TIME QUANTUM SIMULATOR, porté par Giuseppe Di Molfetta de l'équipe CANA di LIS a été accepté lors de l'appel A*Midex PÉPINIÈRE D'EXCELLENCE 2018

Richard Feynman suggested that computers that use quantum logic for information processing can simulate some quantum systems efficiently, even when this is not possible to computers based on classical logic. To simulate the dynamics of a quantum system usually means to describe it in terms of qubits, and its dynamics by a succession of logical gates – which are unitary transformations involving at most two qubits at time. This is the paradigm known as the Quantum Circuit Model, in analogy with the logical circuits of classical computers. Nevertheless, this way of “interpreting” the system and its dynamics is very artificial and detached from the expected inner workings of Nature. A more natural way of describing quantum systems and their dynamics within a computational perspective is given by Quantum Walks (QWs) and Quantum Cellular Automata (QCA). These two models also describe the system as collection of finite dimensional systems, but the dynamics is autonomous and generated by local interactions.
The evolution of a qubit in a QCA or in a QW is thus fully determined by the surrounding qubits and the interactions between them. Besides being a more natural way to describe physical systems, the structure of QWs and QCA is also more suitable for nowadays implementations. As QWs and QCA have a discrete space-time, they are more amendable to the development of coarse graining procedures. The aim of such procedures is to find an effective description of the system, without resorting to all its degrees of freedom. This effective description might be highly advantageous when treating many-body quantum systems. Moreover, when taking the limit of the spacing between cells and the time-step to zero, a continuous dynamic emerges, as described by partial differential equations. This has already been done for several quantum walks, and the dynamics of relativistic quantum fields was obtained. Quantum cellular automata and different models of quantum walks will be employed in this project allowing for the simulation of other systems. At each level of coarse graining the continuous limit will be obtained, and an effective dynamic will emerge. In this project we will exploit discrete space-time quantum computational models–based descriptions and harvest them for questions of physical interest. For instance, we will address the following questions: what kinds of phenomenology can emerge from a continuous limit of different interactions and distributions of QCA and alternative models of QWs? Is it possible to describe some of these dynamics in an efficient way by a classical computer, or are there intrinsic quantum properties that render the description unavoidably quantum? In the latter case, is there a simplified level of description where a classical description becomes possible.


9 postes d’ATER sont ouverts au Département Informatique et Interactions avec rattachement LIS

Voir détails sur : https://www.lis-lab.fr/offre-de-cdd



France Culture : Des sons à écouter en stéréo

"Les cachalots sont des monstres… de douceur" François Sarano. Depuis Moby Dick et le naufrage de l’Essex, depuis les traités d’interdiction de la chasse aux baleines, la relation des hommes et des cachalots a bien évolué. Munis de microphones aquatiques, nous partons les rencontrer au large de Toulon sur un petit voilier avec Hervé Glotin, professeur à l’Université de Toulon qui analyse leur signal acoustique depuis bien longtemps. Peut-être qu’au fil de la navigation, nous allons dériver jusqu’en Antarctique avec Flore Samara qui nous raconte comment l’on a découvert que les bruits de battements de cœurs puissant enregistrer par la marine militaire était des chants de baleines. Et avec elle, écouter quelques espèces comme la baleine bleue antarctique, la baleine pygméen de Madagascar, les orques… Olivier Adam, bioacousticien, spécialiste des chants de baleines à bosse questionne le positionnement actuel de la recherche et comment l’étude de ces espèces parapluies sont un indicateur écologiques puissant. François Sarano va parfois ressurgir des abysses pour nous raconter sa relation avec le clan d’Irene Gueule Tordue sur la côté ouest de l’Ile Maurice.

Comme François Sarano, Hervé Glotin, Flore Samaran, Olivier Adam, incarnent aussi de nouvelles figures de l’exploration qui n’hésitent pas à partir dans des mondes hostiles pour faire avancer la science. A chaque saison, ils partent sur le terrain, inventant des outils de recherche très audacieux et témoignent de leur inquiétude quand à l’avenir des espèces marines.

Avec : Hervé Glotin est professeur à l’Université Sud-Toulon-Var. Il travaille sur les orques, cachalots, baleines à bosse, rorqual commun. Flore Samaran est enseignante chercheuse à l’ENSTA-Bretagne et spécialiste de l’acoustique passive. Elle installe tous les ans des balises acoustiques en Antarctique pendant les rotations du Marion Dufresnes pour écouter les baleines bleues. François Sarano, plongeur, océanographe, ancien responsable scientifique de la calypso de Cousteau. Il vit depuis une petite dizaine d’années avec un clan de Cachalots dans l’Ocean Indien. Olivier Adam, est bioacousticien, professeur à Sorbonne-Université et à l’institut des neurosciences Paris Saclay, spécialiste des chants de baleines à bosse.

Une série documentaire d'Aline Pénitot réalisée par Gilles Mardirossian.

Pour y accéder : Oublier Moby Dick (1/4) : A l’écoute des Cachalots et autres cétacés


Appel à projets générique ANR 2019 : 13 projets du LIS en phase 2

Le LIS coordonne ou participe à 13 propositions qui ont été sélectionnées pour la phase 2 de l'appel ANR 2019



Le LIS va participer à l'organisation de la prochaine édition de la conférence LREC, en 2020, à Marseille du 11 au 16 mai 2020

The 12th Conference on Language Resources and Evaluation (LREC 2020) will take place on May 13-15, 2020, at the Palais du Pharo in Marseille, France. LREC aims to provide an overview of the state-of-the-art, explore new R&D directions and emerging trends, and exchange information regarding language resources and their applications, evaluation methodologies, and tools. Conference papers are due by November 25, 2019. For more information, including conference topics, visit the conference webpage: https://lrec2020.lrec-conf.org

12th Conference on Language Resources and Evaluation

LREC 2020

FIRST CALL FOR PAPERS

Palais du Pharo Marseille, France

Main Conference: 13-14-15 May 2020

Workshops and Tutorials: 11-12-16 May 2020

Conference website: https://lrec2020.lrec-conf.org/

The European Language Resources Association (ELRA) is glad to announce the 12th edition of LREC, organised with the support of national and international organisations among which AFCP, AILC, ATALA, CLARIN, ILCB, LDC, ...

CONFERENCE AIMS LREC is the major event on Language Resources (LRs) and Evaluation for Human Language Technologies (HLT). LREC aims to provide an overview of the state-of-the-art, explore new R&D directions and emerging trends, exchange information regarding LRs and their applications, evaluation methodologies and tools, on-going and planned activities, industrial uses and needs, requirements coming from e-science and e-society, with respect both to policy issues as well as to scientific/technological and organisational ones.

LREC provides a unique forum for researchers, industrials and funding agencies from across a wide spectrum of areas to discuss issues and opportunities, find new synergies and promote initiatives for international cooperation, in support of investigations in language sciences, progress in language technologies (LT) and development of corresponding products, services and applications, and standards.

CONFERENCE TOPICS 

Issues in the design, construction and use of LRs: text, speech, sign, gesture, image, in single or multimodal/multimedia data
  • Guidelines, standards, best practices and models for LRs interoperability
  • Methodologies and tools for LRs construction and annotation
  • Methodologies and tools for extraction and acquisition of knowledge
  • Ontologies, terminology and knowledge representation
  • LRs and Semantic Web (including Linked Data, Knowledge Graphs, etc.)
  • LRs and Crowdsourcing
  • Metadata for LRs and semantic/content mark-up

Exploitation of LRs in systems and applications

  • Sign language, multimedia information and multimodal communication
  • LRs in systems and applications such as: information extraction, information retrieval, audio-visual and multimedia search, speech dictation, meeting transcription, Computer Aided Language Learning, training and education, mobile communication, machine translation, speech translation, summarisation, semantic search, text mining, inferencing, reasoning, sentiment analysis/opinion mining, etc.
  • Interfaces: (speech-based) dialogue systems, natural language and multimodal/multisensory interactions, voice-activated services, etc.
  • Use of (multilingual) LRs in various fields of application like e-government, e-participation, e-culture, e-health, mobile applications, digital humanities, social sciences, etc.
  • Industrial LRs requirements
  • User needs, LT for accessibility

LRs in the age of deep neural networks

  • Semi-supervised, weakly-supervised and unsupervised machine learning approaches
  • Representation Learning for language
  • Techniques for (semi-)automatically generating training data
  • Cross-language NLP & Cross-domain NLP with reduction of human effort

Issues in LT evaluation

  • LT evaluation methodologies, protocols and measures
  • Validation and quality assurance of LRs
  • Benchmarking of systems and products
  • Usability evaluation of HLT-based user interfaces and dialogue systems
  • User satisfaction evaluation

General issues regarding LRs & Evaluation

  • International and national activities, projects and initiatives
  • Priorities, perspectives, strategies in national and international policies for LRs
  • Multilingual issues, language coverage and diversity, less-resourced languages
  • Open, linked and shared data and tools, open and collaborative architectures
  • Replicability and reproducibility issues
  • Organisational, economical, ethical and legal issues

LREC 2020 HOT TOPICS

Less Resourced and Endangered Languages

Special attention will be devoted to less resourced and endangered languages: it is expected that LREC2020 makes room to activities carried out to support indigenous languages, building on the United Nations/UNESCO International Year of Indigenous Languages being celebrated in 2019.

Language and the Brain

Studying the neural basis of language helps in understanding both language processing and the brain mechanisms. LREC2020 will encourage all submissions addressing language and the brain. Among possible subtopics, submissions could focus on new datasets and resources (neuroimaging, controlled corpora, lexicons, etc.), methods aiming at new multimodal experimentations (e.g. EEG in virtual reality), language processing applications (e.g. brain decoding, brain-computer interfaces), etc.

Machine/Deep Learning

The availability of LRs is a key element of the development of high quality Human Language Technologies based on AI/Machine Learning approaches, and LREC is the best place to get access to this data, in many languages and for many domains. In addition to submissions addressing ML issues based on large quantities of data, those applied to languages for which only small, noisy or sparse data exist are also most welcomed.

DESCRIBE AND SHARE YOUR LRs! In addition to describing your LRs in the LRE Map – now a normal step in the submission procedure of many conferences – LREC recognises the importance of sharing resources and making them available to the community. When submitting a paper, you will be offered the possibility to share your LRs (data, tools, web-services, etc.), uploading them in a special LREC repository set up by ELRA. Your LRs will be made available to all LREC participants before the conference, to be re-used, compared, analysed. This effort of sharing LRs, linked to the LRE Map for their description, contributes to creating a common repository where everyone can deposit and share data.

PROGRAMME

The Scientific Programme will include invited talks, oral presentations, poster and demo presentations, and panels, in addition to a keynote address by the winner of the Antonio Zampolli Prize.

We will also organise an Industrial Track and a Reproducibility Track: for these there will be separate Calls.

SUBMISSIONS AND DATES

Submission of oral and poster (or poster+demo) papers: 25 November 2019

  • LREC2020 asks for full papers from pages to 8 pages (plus more pages for references if needed) , which must strictly follow the LREC stylesheet which will be available on the conference website. Papers must be submitted through the LREC2020 submission platform (it uses START from S oftconf) and will be peer-reviewed.

Submission of proposals for workshopstutorials and panels24 October 2019

  • Proposals should be submitted via an online form on the LREC website and will be reviewed by the Programme Committee.

PROCEEDINGS

The Proceedings will include both oral and poster papers, in the same format.

There is no difference in quality between oral and poster presentations. Only the appropriateness of the type of communication (more or less interactive) to the content of the paper will be considered.

LREC 2010, LREC 2012 and LREC 2014 Proceedings are included in the Thomson Reuters Conference Proceedings Citation Index. The other editions are being processed.

LREC Proceedings are indexed in Scopus (Elsevier).

Substantially extended versions of papers selected by reviewers as the most appropriate will be considered for publication in a special issue of the Language Resources and Evaluation Journal published by Springer (a SCI-indexed journal).

Any question, please write to lrec@lrec-conf.org.

 


Participation du LIS à la journée de lancement du GDR "Traitement Automatique de la Langue"

La journée inaugurale du pré-GDR sur le Traitement automatique des langues aura lieu le jeudi 14 mars 2019 à MAISON DES SCIENCES DE L’HOMME PARIS NORD sur le thème “Apprentissage, modèles linguistiques et cognitifs”. Lien vers la page

La journée inaugurale du pré-GDR sur le Traitement automatique des langues aura lieu le jeudi 14 mars 2019 à MAISON DES SCIENCES DE L’HOMME PARIS NORD sur le thème “Apprentissage, modèles linguistiques et cognitifs”. Le pré-GDR TAL est un outil d’animation de la communauté scientifique créé en 2018. La communauté TAL est secouée par un débat sur l’intérêt de la modélisation de la langue alors que nombre d’applications adoptant des méthodes statistiques et engrangeant les succès s’en émancipent, voire produisent leurs propres modèles. Cette journée présentera les travaux du groupe de travail “Apprentissage et modèles pour le TAL” et ses réflexions sur la cohabitation et la complémentarité de l’apprentissage et des modèles linguistiques. Des perspectives de ce que pourraient être les nouveaux modèles de la langue seront aussi introduites aux travers d’exposés scientifiques d’invités et discutées autour d’une table ronde à laquelle seront conviés des industriels. Les orateurs invités sont Jean Luc Schwartz (GIPSA-Lab) et Emmanuel Dupoux (LSPC). Cette journée sera aussi l’occasion de présenter le préGDR TAL, sa structuration et ses autres groupes de travail, sa gouvernance et quelques-unes de ses actions et intégrera plusieurs temps d’échange avec les participants. Comité d’organisation A. Allauzen, LIMSI TLP N. Asher, IRIT MELODI F. Bechet, LIS TALEP T. Charnois, LIPN RCNL G. Damnati, ORANGE Labs

Programme

9H Accueil 9H15 – 10H15 Session GDR TAL général 9H15 – 9H40 Intervention de Jamal ATIF – INS2I + échanges 9H40 – 10H15 Présentation du préGDR TAL : sa gouvernance, sa structure et ses groupes de travail et actions par Béatrice Daille (LS2N TALN) + échanges 10h15 Pause Café 10h30 à 12H30 Session GT1 “Apprentissage et modèles pour le TAL” 10H30-11H15 Restitution des axes de réflexion : GR1 Modèles computationnels de la langue écrite, de la langue orale et de la langue des signes GR3 Apprentissage et modélisation statistique pour le TAL GR6 Sémantique et compréhension par Nicholas Asher (IRIT MELODI), Frédéric Béchet (LIS TALEP) et Maxime Amblard (LORIA SEMMAGRAMME) 11H15-12H30 Table ronde prospective des travaux à venir du GT1 et discussions animée par Nicholas Asher (IRIT MELODI) et Frédéric Béchet (LIS TALEP) Intervenants : Alexandre Allauzen (LIMSI TLP), Jean-Francois Bonastre (LIA), Benoit Crabbé (LLF), Géraldine Damnati (Orange Labs), Guillaume Gravier (IRISA LinkMedia), Laure Soulier (LIP6 MLIA) 12h30 Buffet (Offert aux participants) 14H-16H Session Exposés invités prospectifs du GT1 14h00 Jean Luc Schwartz (GIPSA-lab PCMD)- Modélisation cognitive des unités de la parole On peut jusqu’à un certain point concevoir le langage comme une construction humaine adaptée, en un sens à définir, à nos capacités cognitives. Cette vision – qui fait débat – a comme double conséquence de proposer que les formes du langage et les principes de traitement sont eux-mêmes des produits de principes cognitifs plus généraux. C’est l’approche qui est suivie ici, dans le cadre des traitements des unités de bas niveau, « en dessous des mots » – les syllabes, les consonnes, les voyelles. J’aborderai ces questions dans le cadre computationnel de la robotique bayésienne, développé en collaboration avec mes collègues Pierre Bessière et Julien Diard ; et en lien avec les avancées expérimentales et théoriques que nous avons faites autour de l’hypothèse du « système miroir », ce système neuronal qui, dans le cerveau des primates et des humains, permet de comprendre ce que fait l’autre en le simulant mentalement. Il y aura donc des questions théoriques, des simulations bayésiennes, et des données expérimentales. 15h00 Emmanuel Dupoux (LSCP CoML) – Apprentissage non supervisé de la parole : le bébé et la machine Les systèmes de traitement automatique de la parole sont construit à partir de milliers d’heures de parole annotées plus des quantités massives de ressources textuelles. Ceci les rends difficile à déployer dans des langues dites ‘faiblement dotées’ qui ne disposent pas de telles ressources. Or, le bébé humain apprends à parler avant qu’il n’apprenne à lire et écrire. Le but de cette présentation est de passer en revue les principaux algorithmes d’apprentissage machine non supervisé appliqué à la découverte de représentations linguistiques, et qui, à l’instar du nourrisson, se passent totalement d’annotations écrites. 16h00-16H30 Discussion générale avec les participants et clôture


Recrutement Campagne Emploi 2019
6 postes d'enseignant-chercheur ouvert sur le LIS

Le LIS est laboratoire d'accueil pour 6 postes d'enseignant-chercheur à l'AMU, 2 à la Faculté des Sciences, 2 à l'IUT, 2 à l'école POLYTECH.
  • Faculté des Sciences

    • PR 27 pour le pôle CALCUL
    • MCF 27 pour le pôle Sciences des données
    •  
  • IUT

    • MCF 61 pour le pôle Signal et Image à l’IUT à Luminy
    • MCF 27 pour le pôle Calcul à l’IUT d’Arles
    •  
  • Polytech Marseille

    • PR 27 profil recherche ouvert sur les Pôles Calcul et Sciences des Données
    • PR 61/63 profil large sur le LIS, FRESNEL et l’IM2NP

Voir la rubrique EMPLOI pour les détails sur les profils


Voir la page : https://www.lis-lab.fr/offre-de-poste-pr-ou-mcf