Aller au contenu
Chargement Évènements

« Tous les Évènements

  • Cet évènement est passé

Journée de l’axe « Données, Apprentissage, Connaissances » du 8 juin

8 juin 2022 @ 10 h 30 min - 17 h 00 min

La prochaine journée de l’axe « Données, Apprentissage, Connaissances » de la fédération Norm@STIC aura lieu le Mercredi 8 Juin 2022 à Caen, Campus 2, Sciences 3, S3-351.

Lien visio : https://webconference.unicaen.fr/b/fra-cen-etw

Cette journée sera placée sous le signe du TAL ; le programme est le suivant :

  • 10:30 Anaëlle Balledent (GREYC) – Impact des modalités induites par les outils d’annotation manuelle : exemple de la détection des erreurs de français
  • 11:00 Safaa Menad (LITIS/TIBS) – Un modèle neuronal siamois pour une recherche efficace de documents biomédicaux
  • 11:30 Simon Bernard (LITIS) – Projet CATCH : impliquer la population dans la gestion d’accidents industriels
  • 12:00 Navneet Agarwal – Mental Health estimation and AI
  • 14:00 Laure Soulier (ISIR) – Data-to-text generation: Let your data speak fluently!
  • 15:00 Gaël Lejeune (STIH) – One (over-)fits for all ? Sur la robustesse des systèmes de TAL en contexte variationnel
  • 16:00 Marc Spaniol (GREYC) – Blogger or President? Exploitation of Patterns in Entity Type Graphs for Representative Entity Type Classification

Programme détaillé

  • 10:30 Anaëlle Balledent (GREYC) – Impact des modalités induites par les outils d’annotation manuelle : exemple de la détection des erreurs de français
    Certains choix effectués lors de la construction d’une campagne d’annotation peuvent avoir des conséquences sur les annotations produites. En menant une campagne sur la détection des erreurs de français, aux paramètres maîtrisés, nous évaluons notamment l’effet de la fonctionnalité de retour arrière. Au moyen de paires d’énoncés presque identiques, nous mettons en exergue une tendance des annotateurs à tenir compte de l’un pour annoter l’autre.
  • 11:00 Safaa Menad (LITIS/TIBS) – Un modèle neuronal siamois pour une recherche efficace de documents biomédicaux
    La recherche de documents est actuellement dominée par les méthodes d’apprentissage profond, notamment celles basées sur les transformeurs, comme Sentence-Transformers (Reimers and Gurevych, 2019) qui atteint de très bons résultats dans la similarité textuelle. Le domaine biomédical reste cependant moins exploré.
    Nous avons réalisé plusieurs expérimentations de fine-tuning (réglage des paramètres) d’un sentence-transformer sur un corpus biomédical que nous avons construit à partir de la base de données bibliographiques PubMed en utilisant les couples (title, MeSH descriptor) et (abstract, MeSH descriptor).
    Nos premiers résultats montrent que les couples d’entrées (abstract, MeSH descriptor) comme données d’entraînement permettent d’obtenir de meilleurs classements que les modèles sans fine tuning.
  • 11:30 Simon Bernard (LITIS) – Projet CATCH : impliquer la population dans la gestion d’accidents industriels
  • 12:00 Navneet Agarwal – Mental Health estimation and AI
    In recent years there has been a huge focus on mental health and how it is affecting peoples lives around the world. Given that a significant portion of the worlds population is suffering form one or the other mental illness, combined with the limitations of the health services in handeling such a huge volume of patients, there has been considerable research in the field of automated mental health analysis, and depression level estimation in particular. During this talk we discuss some of the models used in a patient-therapist interview setting for automated depression estimation. We will also talk about the role played by the structure of the discourse and how it impacts the learning ability of the models.
  • 14:00 Laure Soulier (ISIR) – Data-to-text generation: Let your data speak fluently!
    Le data-to-text vise à générer des descriptions en langage naturel à partir de données structurées (par exemple, des tableaux ou des graphiques). Cette tâche est particulièrement difficile car elle nécessite de synthétiser et raisonner sur des informations complexes et interdépendantes, sans correspondance directe entre les données et la description. Comme les modèles de génération de texte, le data-to-text souffre également des problématiques d’hallucinations et de divergences par rapport à l’entrée structurée.
    Dans cet exposé, nous passerons en revue les modèles de data-to-text et présenterons nos contributions dans ce domaine. Nous discuterons également des perspectives de recherche ainsi que de l’utilisation du data-to-text dans d’autres domaines d’application.
  • 15:00 Gaël Lejeune (STIH) – One (over-)fits for all ? Sur la robustesse des systèmes de TAL en contexte variationnel
    Différentes variables ont une influence sur la capacité des modèles de TAL, qu’ils soient par règles ou issus de l’apprentissage automatique, à
    être ré-utilisables (ou robustes). Parmi elles, figure la variation dans les données.
    Cette variation peut provenir de différents aspects :

    • la variation dans la langue, le multilinguisme mais aussi la variation diatopique (français de France VS français du québec par ex.)
    • la variation dans le genre/type de texte traité, avec notamment l’impact de la variation diastratique (dans des corpus twitter par exemple, on va avoir des registres de langue très varié)
    • la variation « qualitative » lorsque les données textuelles présentent un caractère hétérogène, avec de la variation diachronique, ou bruité, avec des corpus issus de retranscription orale, de web scraping ou encore d’OCR.

    Dans cette présentation je montrerai des exemples concrets où les modèles trop génériques peinent à conserver leur efficacité dans ce contexte variationnel. Je proposerai quelques pistes de réflexion sur les moyens de surmonter ces obstacles.

  • 16:00 Marc Spaniol (GREYC) – Blogger or President? Exploitation of Patterns in Entity Type Graphs for Representative Entity Type Classification
    Thirty years of the Web have led to a tremendous amount of contents. While contents of the early years have been predominantly “simple” HTML documents, more recent ones have become more and more “machine-interpretable”. Named entities – ideally explicitly and intentionally annotated – pave the way toward a semantic exploration and exploitation of the data. While this appears to be the golden sky toward a more human-centricWeb, it not necessarily is. The key-point is simple: “the more the merrier” is not necessarily the case along all dimensions. For instance, each and every named entity provides via the Web of data a plenitude of information potentially overwhelming the end-user. In particular, named entities are predominantly annotated with multiple types without any order of importance associated. In order to depict the most concise type information, we introduce an approach towards Pattern Utilization for Representative Entity type classification called PURE. To this end, PURE aims at exploiting solely structural patterns derived from knowledge graphs in order to “purify” the most representative type(s) associated with a named entity. Our experiments with named entities in Wikipedia demonstrate the viability of our approach and improvement over competing strategies.

Détails

Date :
8 juin 2022
Heure :
10 h 30 min - 17 h 00 min