Science des données

Le pôles Sciences des données

Science des Données

Le pôle Science des Données a pour ambition de réunir des chercheurs autour des problématiques centrées sur les données, d’un point de vue informatique, qu’il s’agisse de leur représentation, de leur manipulation ou de leur traitement. La force de ce pôle est d’impliquer une cinquantaine de chercheurs couvrant un large spectre allant de la théorie (apprentissage automatique, fouille de données, informatique linguistique) aux applications (recherche d’information, recommandation de contenus, traitement automatique des langues, bioacoustique, humanités numériques, systèmes d’information, communication homme-machine).
Le pôle est structuré autour de 3 lignes de force mélangeant plusieurs thématiques :
Apprentissage et Applications
La majorité des équipes du Pôle Sciences des données sont concernées par l’apprentissage automatique, qu’il s’agisse de leur sujet d’études ou qu’elles en soient utilisatrices. Plusieurs axes de recherche en apprentissage automatique sont étudiés au sein du pôle. Les recherches plus fondamentales dans cette discipline seront réalisées au sein de l’équipe QARMA dont l’axe de recherche sur la théorie de l’apprentissage s’inscrit dans le projet scientifique du pôle Calcul. Les recherches réalisées au sein de ce Pôle Science des Données concerneront des aspects plus algorithmiques et plus expérimentaux de la recherche en apprentissage, notamment pour ce qui concerne l’apprentissage profond et l’apprentissage de représentations (DYNI, QARMA, TALEP), ainsi que l’utilisation de l’apprentissage dans de multiples cadres applicatifs tels que le traitement du signal (DYNI, QARMA), le traitement du langage naturel (DIMAG, QARMA, TALEP), la recherche d’information (DIMAG, DYNI, TALEP), les neurosciences (DIMAG, QARMA, TALEP).
Traitement Automatique de la Langue et Recherche d’Information
Le Traitement Automatique de la Langue (TAL) se trouve à la frontière entre la linguistique, l’informatique et l’intelligence artificielle. Il a pour objectif la réalisation, par l’ordinateur, de tâches linguistiques complexes, telles que la traduction automatique ou la transcription automatique de la parole. La recherche d’information (RI) sur des données linguistiques (écrites ou orales) repose non seulement sur des approches et modèles (numériques pour la plupart) de surface où l’unité lexicale est vue comme une donnée mais aussi sur des analyses linguistiques profondes, syntaxiques et sémantiques, qui permettent d’y associer analyse de sentiments, résumé de documents, classification ou segmentation thématique. La présence au sein du Pôle Sciences des Données des deux équipes TALEP et DIMAG regroupe des compétences en TAL et en RI, ce regroupement permet d’une part à la RI de disposer d’outils de TAL développés par l’équipe TALEP qui peuvent être adaptés à des besoins spécifiques à la RI (adaptation à des données linguistiques de genres particuliers ou de langues particulières).
Base de données, systèmes d’information et fouille de données
Le développement du Web a donné lieu à l’étude et à la proposition de nouvelles architectures de traitement de l’information et des données. Ces architectures peuvent être distribuées, orientées services ou agents et prendre pour critère de qualité leurs capacités d’adaptation, de réutilisabilité, de fiabilité, d’ouverture et d’alignement avec les usages, les utilisateurs et les métiers. Dans ce cadre, les chercheurs du pôle proposent des architectures pour les systèmes d’information ainsi que des modélisation de processus (BPM), pouvant eux-mêmes être vus comme des données, et des approches pour la définition, l’intégration et la recherche de services Web. Du point de vue de la fouille, une priorité est donnée à la proposition de modèles probabilistes et à l’extraction de motifs au sein d’(hyper)graphes. Les entrepôts de données sont des bases de données à vocation décisionnelle, structurées selon des modèles multidimensionnels afin de permettre une analyse en ligne (OLAP – On-Line Analytical Processing), et donc dans des temps de réponse courts.
Tutelles