Aller au contenu
Chargement Évènements

« Tous les Évènements

  • Cet évènement est passé

Journée Attention de l’axe DAC/Image de NormaStic le 19 octobre

19 octobre 2023 @ 10 h 00 min - 17 h 00 min

Les axes DAC et Image de la fédération Normastic organisent le 19 octobre prochain à l’INSA Rouen (salle MA.B.RC.17) une journée sur les mécanismes de l’attention en deep learning.

Dans le cadre des réseaux de neurones récurrents, l’attention permet de mettre en valeur des parties spécifiques de l’entrée qui peuvent être considérées comme étant importantes, ce qui améliore la performance du modèle. Les mécanismes de l’attention sont au cœur des Transformers (le T de GPT) et ont beaucoup contribué au succès des méthodes exploitant les LLM (Large Language Model). Les transformers ont également obtenu des performances prometteuses en vision par ordinateur, offrant une alternative aux réseaux convolutifs.

Cette journée sera l’occasion de découvrir ces mécanismes de l’attention et leurs applications.

Le programme devrait être le suivant :

– 10:00 François Rioult, GREYC : Tutoriel sur l’attention
– 10:45 Denis Coquenet, IRISA Rennes : Attention is all you need to read
– 12:00 Clément Rambour, CEDRIC Paris : Adaptation de modèles visuels pour la segmentation d’images fortement résolues

(Pause déjeuner)

– 14:00 Éric Gaussier, MIAI Grenoble : De l’attention à ChatGPT : retour sur quelques limitations des grands modèles de langue
– 14:45 Jose Moreno, IRIT Toulouse : Extraction d’information avec des modèles pré-entraînées et grand modèles de langage
– 15:30 Kirill Milintsevich, GREYC Caen : How to Encode Long Sequences with Self-Attention?

Programme détaillé :

  • Éric Gaussier, MIAI Grenoble : De l’attention à ChatGPT : retour sur quelques limitations des grands modèles de langue
    Si les grands modèles de langue ont permis des avancées importantes dans diverses applications, en particulier celles liées au traitement automatique des langues et de la recherche d’information, certaines de leurs caractéristiques intrinsèques limitent leur utilisation dans certains cadres. Leur capacité de généralisation est ainsi limitée, tout comme leur capacité à traiter des documents longs. Nous passerons en revue certaines de ces limitations et mentionnerons les solutions envisagées à l’heure actuelle pour les dépasser.
  • Jose Moreno, IRIT Toulouse : Extraction d’information avec des modèles pré-entraînés et grand modèles de langage
    L’enrichissement de grandes collections de documents textuels est une composante primaire pour améliorer l’accès numérique à ce type de contenu. Les techniques récentes pour enrichir des documents sont des modèles de langues neuronaux qui adressent des tâches d’extraction d’information comme l’identification des entités nommées, la liaison référentielle, l’extraction de relation et la détection d’événements. Dans cette présentation, nous allons explorer des travaux récents pour l’extraction d’information ainsi que les améliorations envisageables par les grands modèles de langage et/ou l’introduction de la recherche d’information comme un moyen efficace pour élargir le contexte d’un document.
  • François Rioult, GREYC : Tutoriel sur l’attention
    Pour un.e non-spécialiste, les mécanismes de l’attention sont attirants car ils offrent la promesse d’un focus sur une partie de l’information. Mais que sont vraiment ces mécanismes, leur intérêt, leurs limites ?
  • Denis Coquenet, IRISA Rennes : Attention is all you need to read
    Cette présentation est dédiée à l’utilisation des mécanismes d’attention dans des architectures d’apprentissage profond, pour la reconnaissance d’écriture manuscrite. Différents types d’attention seront abordés : récurrente, hybride, 1D, 2D, parallélisée. Nous verrons l’utilité de ce type d’approche, et comment cela a permis de faire avancer l’état de l’art dans ce domaine.
  • Clément Rambour, CEDRIC Paris : Adaptation de modèles visuels pour la segmentation d’images fortement résolues
    Ces dernières années ont vu l’état de l’art pour de nombreuses tâches de vision par ordinateur être dominé par des approches basées sur des architectures dites transformers. ViT et ses variantes ont été les premiers modèles présentant une architecture entièrement basée sur des transformers à surpasser les meilleurs modèles convolutif en classification. Ces performances sont toutefois accompagnées d’une complexité quadratique par rapport au nombre de patchs dans l’image nécessitant des stratégies pour leur application à d’autres données et/ou tâches. L’une des premières et des plus simples adaptation proposée en vision est d’introduire une décomposition multi-échelle des images et cartes d’activations. De façon similaire aux réseaux convolutifs profonds, ces transformers organisés en « pyramide » permettent d’étendre le champs réceptif à l’ensemble de l’entrée tout en contrôlant la complexité. Ces approches (eg. Swin ou PvT) ne peuvent toutefois plus modéliser d’interactions en haute résolution. Au delà de la présentation de ces modèles et de leur application à l’imagerie médicale, nous verrons dans cette présentation une extension de ces modèles introduisant des tokens appris pour indirectement approcher des interactions longues portées en haute résolution.
  • Kirill Milintsevich, GREYC Caen : How to Encode Long Sequences with Self-Attention?
    Transformers have rapidly become a state-of-the-art solution for many NLP problems. However, the standard self-attention mechanism, which is the heart of transformer architecture, is usually limited to the input length of 512 tokens. This is due to the fact that it is highly computationally expensive to compute self-attention the way it was originally proposed. In this presentation, we will talk about different ways to overcome this, and how to efficiently extend the input length up to 4096 tokens and beyond.

Détails

Date :
19 octobre 2023
Heure :
10 h 00 min - 17 h 00 min
Catégorie d’Évènement:

Lieu

INSA Rouen Normandie