Chargement Évènements

« Tous les Évènements

  • Cet évènement est passé.

Journée des axes SC et DAC sur l’apprentissage par renforcement (20/11/2025)

20 novembre 2025 @ 9 h 00 min - 17 h 00 min

Les axes  «Systèmes Complexes» et « Données, Apprentissage, Connaissances » de la fédération Normastic organisent le jeudi 20 novembre 2025 une journée sur l’apprentissage par renforcementElle est notamment ouverte à tous les membres du GREYC et du LITIS (collègues, doctorant.es, post-doctorant.es, master…).

Programme  :

09h15 : Accueil (salle MA-H-R1-01, INSA Rouen Normandie)

09h30-10h30 : Tutoriel de Maxime Guériau

10h30-11h00 : Maxime Alaarabiou (LITIS) : Clustering Agent Representation for Explaining Reinforcement Learning Policies

Reinforcement learning has achieved remarkable success in developing highly effective agents. However, the policies followed by these agents are often perceived as opaque black boxes, offering little transparency in their decision-making processes. This lack of interpretability limits their deployment in safety-critical contexts, particularly when human lives may be at risk. To overcome this issue, we introduce a method based on surrogate policies that approximate the behavior of reinforcement learning agents. These surrogate policies are implemented as neural networks, enabling the use of their latent space to identify clusters of similar states. To support rigorous evaluation, we further propose novel metrics that assess both the stability and the interpretive relevance of these clusterings. Experiments conducted on several standard Atari environments reveal that the proposed method enhances explainability. Our approach, based on latent-space analysis, studies the principles underlying complex agent behavior and proposes a new method grounded in mechanistic interpretability for reinforcement learning explainability.

11h00-11h15 : Pause

11h15-12h15 : Assaad Zeghina (LATMOS) : Apprentissage par renforcement sur les graphes dynamiques : vers des systèmes intelligents adaptatifs

Résumé :

Les graphes sont devenus un langage universel pour représenter les relations complexes qui structurent notre monde : réseaux sociaux, systèmes de transport, interactions biologiques ou infrastructures connectées. Mais ces réseaux ne sont pas statiques, ils évoluent dans le temps, se transforment, et réagissent à des événements externes.

L’apprentissage par renforcement, inspiré des mécanismes d’adaptation des agents intelligents, ouvre aujourd’hui de nouvelles perspectives pour comprendre et agir dans ces environnements dynamiques. Combiné aux avancées récentes de l’apprentissage profond sur les graphes, il permet de concevoir des modèles capables d’apprendre, d’explorer et de s’adapter en continu à la structure changeante des données.

Cette présentation propose une vue d’ensemble des tendances actuelles à l’intersection de l’apprentissage par renforcement et des graphes dynamiques, en mettant en lumière leurs applications émergentes (mobilité intelligente, réseaux de communication, systèmes autonomes) et les défis scientifiques à relever pour construire la prochaine génération de systèmes intelligents adaptatifs.

12h15-12h45 : Théo Zangato (LIPN) : Temporal Structure in Reinforcement Learning: Foresight and Generalization for Sequential Decision-Making in Energy Management Systems

This work explores the integration of temporal structure into Reinforcement Learning (RL). While recent advances in Deep RL have shown results in domains such as games, robotics, or natural language processing, RL approaches still face limitations in foresight and generalization. Standard RL methods often treat time as a discrete counter and fail to exploit the temporal regularities that shape many real-world environments, leading to policies that lack temporal knowledge and overfit to training conditions. The research question of this work is therefore: How can temporally structured information be incorporated into RL architectures to improve both learning performance and adaptability across dynamic environments? To address this, we addressed two objectives. The first focuses on enhancing learning by exposing agents to structured temporal representations of future dynamics through predictive models. The second focuses on how temporal patterns can support generalization, enabling the transfer of learned behaviors across tasks and the rapid adaptation of policies to unseen environments.  First, we propose frameworks for integrating short- and long-horizon forecasting into actor–critic architectures, to equip RL agents with anticipatory decision-making abilities. Second, we propose clustering and classification methods to detect temporal task regimes and transfer policies accordingly, and lastly we present a hybrid meta-learning approach that leverages temporal structures for few-shot adaptation to novel tasks, including mechanisms for out-of-distribution detection. On the applied side, the research was conducted in collaboration with the Centre d’Expertise Données et Intelligence Artificielle (CEDIA) of the French Ministry of Armed Forces, and benchmarked on the realistic and temporally complex domain of Energy Management Systems. « 

12h45-13h45 : Pause déjeuner

13h45-14h15 : Geoffrey Laforest (GREYC) : Post-Hoc Interpretation of POMDP Policies

Policies for partially observable Markov decision processes are rich objects, prescribing actions to take depending on the whole history of observations and actions. Typical representations of such policies are by hyperplanes in the space of belief states, or by finite-state controllers, which are arguably not easy to interpret. We propose to redescribe policies into mappings defined on features of the current belief state, built in a systematic manner from state features. Such a mapping can in turn be represented by an intelligible object, like a decision tree, thereby providing an interpretable representation of the policy as a whole. We moreover show how our approach allows to explain the decision taken by an agent at each step of an interaction with the environment. This provides an end-to-end process, starting from a policy computed by any solver, and
ending with an explanation of each decision made at execution time. We formally define our approach, investigate related computational problems, and report on experiments on several families of problems.

14h15-14h45 Jason Piquenot (LITIS) : Grammar Reinforcement Learning: comptage de chemins et de cycles dans les graphes avec une approche à base de grammaire algébrique et de Transformer.

Le comptage efficace des chemins et des cycles dans les graphes constitue un problème fondamental en théorie des graphes, avec des applications majeures en chimie, biologie, analyse de réseaux et informatique. Les approches classiques reposent sur des formules matricielles élaborées manuellement, soulevant une question clé : les modèles d’apprentissage profond peuvent-ils découvrir automatiquement de telles formules, voire les améliorer ?

Nous proposons une réponse à cette question en montrant que l’ensemble des formules de comptage existantes peut être dérivé d’une unique grammaire algébrique (CFG). Cette unification permet de reformuler le problème comme une tâche de génération de langage contrainte par une grammaire. Sur cette base, nous introduisons GRL (Grammar Reinforcement Learning), un cadre d’apprentissage par renforcement profond combinant une recherche par arbres de Monte Carlo (MCTS) et un modèle Transformer spécifique, Gramformer, capable de raisonner sur les structures grammaticales en simulant un automate à pile. Appliqué au comptage de chemins, GRL retrouve les formules connues et en découvre de nouvelles, plus efficaces sur le plan computationnel, atteignant des gains de vitesse jusqu’à un facteur 6 par rapport aux méthodes matricielles classiques. Ces résultats illustrent le potentiel des approches de recherche guidée par apprentissage profond pour la découverte automatique d’algorithmes.

14h45-15h15 Adonis Kattan (LITIS) : Modular Successor Representations for TransferLearning in Social Navigation

Résumé :

Transfer learning leverages knowledge gained from previoustasks to accelerate learning in related target tasks. In robotics, and es-pecially in Human-Robot Interaction, this capability is crucial due tothe scarcity and high cost of collecting social interaction data. Usingtransfer learning, a robot can learn new tasks faster and with less data.Successor Representations (SR) have traditionally been used to transferknowledge between tasks with shared environment dynamics but differ-ing reward functions. In this work, we propose a novel decomposition ofSR, Modular Successor Representations (MSR) that facilitates transferbetween tasks where only a subset of the environment dynamics changes,while others remain invariant. We evaluate MSR in a multi-agent SocialNavigation scenario in simulation and show that it reduces the amountof social data required for training. Finally, we discuss remaining chal-lenges, including scaling to high-dimensional continuous state spaces andhandling dynamic social behaviors.

15h15-15h30 : pause

15h30-16h00 Fatima-Ezzahra Maad (LITIS) Transfer via Dynamic Policy Fusion between Autonomous Driving Agents

Résumé :

La conduite autonome dans des environnements mixtes et dynamiques nécessite la capacité d’apprendre à partir de divers scénarios de circulation, notamment aux intersections non régulées, tout en s’adaptant à de nouveaux contextes avec une exploration minimale. Dans ce papier, nous avons abordé le défi du transfert d’expérience entre agents de conduite autonome dans le cadre d’un apprentissage par transfert ajusté (Fine-tuned Transfer Learning).

Nous nous sommes basé sur un scénario où un véhicule expert préalablement entraîné à gérer une intersection non régulée spécifique, partage sa politique apprise avec un agent cible, qui ignore comment conduire dans ce nouvel environnement. Plutôt que de se fier uniquement à une exploration aléatoire, l’agent cible intègre dynamiquement les paramètres de la politique de l’agent source sans processus d’apprentissage supplémentaire. Nous proposons un nouveau cadre de partage de politiques, basé sur un mécanisme de fusion des politiques Q-Learning entre les agents source et cible.

16h00-16h30 : Maxime Alaarabiou (LITIS) présentation bibliothèque de Reinforcement Learning RLlib

Lieu :

Cette journée aura lieu à l’INSA de Rouen, salle MA-H-R1-01, Saint Etienne du Rouvray, sur le  site du Madrillet.

Détails

Lieu

  • INSA de Rouen, salle MA-H-R1-01