Bandeau du Laboratoire d'Informatique & Systèmes (LIS)

Le TAL (Traitement Automatique des Langues) pour traiter l'avalanche de publications scientifiques liées au COVID-19

Au plus fort de l’épidémie de COVID-19, le NIH (National Institutes of Health) a recensé la publication ou pré-publication de 2 500 articles pertinents par semaine. Comment le corps médical peut-il "digérer" une telle quantité d'information afin d'en extraire des connaissances pertinentes pour la prise en compte au quotidien de l'épidémie ? Benoit Favre de l'équipe TALEP du LIS s'attaque à ce problème difficile à travers une collaboration avec Stephane Delliaux (AMU/APHM).
La pandémie liée au COVID-19 a généré la nécessité de traiter des problèmes inédits liés à l'ampleur du phénomène au niveau mondial. Pour le corps médical, suivre les résultats de recherches et d’études publiées dans les articles scientifiques constitue un enjeu important, difficile à aborder tant à cause de la quantité que de la diversité des publications diffusées chaque jour. Par exemple, au plus fort de l’épidémie, NIH (National Institutes of Health) a recensé la publication ou pré-publication de 2 500 articles pertinents par semaine.
Dans ce cadre, Benoit Favre de l’équipe TALEP (traitement automatique du langage écrit et parlé) du LIS a entamé une collaboration avec le Dr Stephane Delliaux (AMU/APHM) pour faciliter la veille scientifique sur la COVID-19 à l’aide du TAL. L’enjeu fondamental est de mettre en place des méthodes de compréhension automatique du contenu des articles, afin d’aiguiller les chercheurs et praticiens vers les résultats de recherche les plus pertinents pour leur domaine de compétence, et d’extraire des informations précises sur les études décrites, dans le but d’en synthétiser le contenu.
Ce projet explore les questions suivantes :
  • quels sont les besoins des personnels médicaux en terme de veille bibliographique et où les méthodes de TALN peuvent-elles intervenir pour leur faciliter la tâche ?
  • quels modèles de TAL permettent le mieux de traiter les informations scientifiques dans un contexte médical en prenant en compte les nombreux efforts d’annotation et de classement existants ?
  • comment synthétiser les résultats médicaux exprimés dans les publications au jour le jour et en se basant sur des indices peu nombreux et faibles quantités de données ?
Les résultats préliminaires montrent que le transfert de modèles de type "transformers" vers des tâches dont les données d'entraienement sont de petite taille (cadre few-shots learning) représentent un challenge qui est loin d'être résolu. Des pistes possible explorées actuellement concernent l'augmentation de données et l'exploitation de ressources annexes fondées sur l'expertise médicale. Les travaux futurs s'orienteront vers la création d'algorithmes d'aide à la génération de synthèses pour la veille scientifique dans un contexte où peu d'exemples d'apprentissages sont disponibles et dans lequel une tracabilité et interprétabilité des décisions des systèmes automatiques sont indispensables. Contact : Benoit Favre - équipe TALEP - LIS