Bandeau du Laboratoire d'Informatique & Systèmes (LIS)

TAUDos ouvre la voie vers une meilleure compréhension des réseaux profonds

Sous la responsabilité scientifique de Thierry Artieres (équipe QARMA - Pôle SD (ECM), Stéphane Ayache et Rémi Eyraud ont mené à bien le projet « Theory and Algorithms for the Understanding of Deep learning on Sequential data »
  • Contact : Rémi Eyraud, équipe QARMA
Les réseaux de neurones profonds (DNN) constituent les modèles actuellement les plus performants pour des tâches de prédiction automatique à partir de données fortement structurées et disponibles en grand nombre. Ces modèles peuvent être composés de centaines de million de paramètres, ajustés selon les régularités statistiques observées dans les données.   De nombreux domaines d'application exploitent déjà ces avancées récentes lorsque seule la capacité de bonnes prédictions du modèle est privilégiée. Toutefois, les DNN restent encore limités par deux défis majeurs : -Un manque de lisibilité – ou d'interprétabilité - du modèle et une faible capacité à interpréter ses prises de décisions par un humain. Cela constitue un frein majeur pour une utilisation plus vaste dans d'autres domaines. -La complexité en mémoire et/ou en calcul, du fait du grand nombre de paramètres, constitue un défi technologique aussi bien en phase d'apprentissage qu'en phase d'inférence. Stéphane Ayache et Rémi Eyraud se sont plus particulièrement intéressés aux réseaux de neurones récurrents (RNN), une famille d'architectures particulièrement adaptée aux données séquentielles. Les RNN sont par exemple très performants pour apprendre un modèle de langue (prédire un mot à partir des mots précédents dans une phrase). En informatique fondamentale, de nombreux travaux en inférence grammaticale ont formalisé des algorithmes d'apprentissage d'automates à partir de données séquentielles. Plus spécifiquement, Stéphane Ayache et Rémi Eyraud s'appuyent sur des travaux récents basés sur une décomposition spectrale d'une matrice de Hankel - construite à partir des données - pour en déterminer un automate pondéré (WA) efficace calculatoirement et doté d'une représentation graphique potentiellement interprétable. Cette approche s'inscrit dans le paradigme d'apprentissage "étudiant-professeur" - ou "distillation" -, où un modèle "étudiant" apprend à reproduire les prédictions du modèle "professeur" plutôt que d'apprendre directement à partir des données étiquetées. Un modèle étudiant plus compact ou plus interprétable peut ainsi être utilisé pour mieux comprendre ou expliquer le modèle professeur. Le projet propose d'approximer un RNN pré-existant par un automate pondéré à l'aide des méthodes d'apprentissage spectral. Spécifiquement, le RNN est utilisé comme un oracle pour construire une matrice de Hankel à partir d'un échantillon de données qu'il peut lui même générer. Cette méthode peut ainsi être employée sans avoir accès aux paramètres du modèle, ni même aux données qui ont été nécessaires à son entraînement. Stéphane Ayache et Rémi Eyraud explorent les capacités de compression des RNN par une approche sur deux jeux de données regroupant 62 problèmes sur des données séquentielles réelles et synthétiques. Les résultats montrent que les WA extraits constituent une bonne approximation des RNN pour la majorité des problèmes. Par ailleurs, l'analyse spectrale des matrices de Hankel obtenues depuis le RNN souligne des relations et questions intéressantes mêlant la théorie des langage et la capacité d'apprentissage des réseaux de neurones récurrents, ouvrant la voie vers une meilleure compréhension des réseaux profonds.