Sciences des Données

Responsable : Thierry ARTIERES
Co-Responsable : Magalie OCHS

Le pôle Science des Données a pour ambition de réunir des chercheurs autour des problématiques centrées sur les données, d’un point de vue informatique, qu’il s’agisse de leur représentation, de leur manipulation ou de leur traitement. La force du pôle est d’impliquer une cinquantaine de chercheurs couvrant un large spectre allant de la théorie (apprentissage automatique, fouille de données, informatique linguistique) aux applications (recherche d’information, recommandation de contenus, traitement automatique des langues, vision, bioacoustique, humanités numériques, systèmes d’information, communication humain-machine). Le pôle est structuré autour de 4 lignes de forces.


Intelligence Artificielle et Apprentissage

La majorité des équipes du Pôle Sciences des données sont concernées par l’Intelligence Artificielle moderne, l’Apprentissage Automatique, l’Apprentissage de représentations, l’Apprentissage Profond et les Réseaux neuronaux, qu’il s’agisse de leur sujet d’études, de la conception de systèmes, ou qu’elles soient utilisatrices des modèles issus des ces recherches. Plusieurs axes de recherche sont étudiés au sein du pôle. Ils concernent des aspects fondamentaux, algorithmiques et expérimentaux, notamment pour ce qui concerne l’apprentissage profond et l’apprentissage de représentations, ainsi que la conception et l’utilisation de systèmes fondés sur l’apprentissage dans de multiples cadres applicatifs tels que le traitement du signal, le traitement du langage naturel, la recherche d’information, le prétraitement des données multi-modales, et les neurosciences.

Langage et Recherche d’information

Le Traitement Automatique de la Langue (TAL) se trouve à la frontière entre la linguistique, l’informatique et l’intelligence artificielle. Il a pour objectif la réalisation, par l’ordinateur, de tâches linguistiques complexes, telles que la traduction automatique ou la transcription automatique de la parole en s’appuyant sur des outils d’apprentissage automatique. La recherche d’information (RI) sur des données linguistiques (écrites ou orales) repose non seulement sur des approches et modèles (numériques pour la plupart) de surface où l’unité lexicale est vue comme une donnée mais aussi sur des analyses linguistiques profondes, syntaxiques et sémantiques, qui permettent d’y associer analyse de sentiments, résumé de documents, classification ou segmentation thématique. Les recherches dans cet axe bénéficient de la présence conjointe d’équipes complémentaires permettant par exemple à la RI de disposer d’outils avancés de TAL. Les questions de la boucle sensori-motrice de la parole et plus largement de la bioacoustique sont explorées, combinant la biologie, l’éthologie et l’acoustique afin d’étudier l’évolution et l’acquisition de système de communication à travers l’émergence de représentations langagières par des méthodes (neuro)computationnelles.

Multimodalité et Interaction

L’interaction concerne les échanges entre des acteurs dans un système ‘social’ (humains, machines, animaux). Dans le contexte de l’interaction humain-machine, les travaux visent à développer des systèmes interactifs humanoïdes autonomes (e.g. robots sociaux, personnages virtuels), dans différents environnements immersifs (e.g. réalité virtuelle, réalité mixte) intégrant des compétences sociales et émotionnelles, avec différents cadres applicatifs comme la formation ou la santé. L’interaction est aussi étudiée plus particulièrement dans sa dimension vocale pour l’analyse des interactions vocales humains-machine-animaux, le traitement multi-modale de la parole, en particulier dans des conditions adverses. L’interaction est étudiée dans des contextes dans lesquels les données sont largement multimodales (multi-format et issues de différents canaux, objets connectés, capteurs humains ou physiques, images, etc) et requièrent des méthodes de traitement, d’exploration et de fusion spécifiques afin d’étudier les phénomènes particuliers tels que la mobilité urbaine, la planification agricole pour le développement durable, l’interaction de sources acoustiques dans l’espace, etc. La multimodalité est également étudiée à travers l’apprentissage multi-vues qui s’intéresse aux problèmes d’apprentissage posés par les données disponibles dans différentes espaces de représentations.

Gestion et fouille de données pour l’extraction de connaissances

Le nombre croissant de sources de données issues du Web, des réseaux sociaux et des objets connectés donne lieu à l’étude et à la proposition de nouvelles approches et de nouvelles architectures pour la gestion et l’analyse des données. Les recherches portent notamment sur la conception de modèles probabilistes à vocation décisionnelle, pour la découverte de contraintes, de dépendances ou de patterns dans les données, afin de détecter et éventuellement corriger les anomalies qui risquent d’entacher par la suite les résultats d’analyse et d’apprentissage. D’un point de vue plus global, les solutions proposées sont orientées services et spécifiques aux données multimodales, garantissant des critères de performance et de qualité dans le traitement des données massives, avec des capacités d’adaptation, de réutilisabilité, de fiabilité, d’ouverture et d’alignement des données et des résultats avec les usages, les utilisateurs et les métiers. Le pôle propose des approches novatrices pour la recherche et l’extraction d’information, l’intégration et l’analyse des données, via des pipelines d’apprentissage automatique dont la robustesse permet d’assurer la qualité des données (fusion multi-sources etc).