Analyse de Graphes appliquée à la chémoinformatique
Fiche descriptive
Acronyme | AGAC |
Partenaires | GREYC (UMR 6072), LITIS (EA 4108), COBRA (UMR 6014), CERMN (EA 4258), LCMT (UMR 6507) |
Mots clés | théorie des graphes, chémoinformatique, Big Data |
Chef de file | GREYC |
Contexte
En déclinaison du Schéma Régional de l’Économie, des Entreprises, de l’internationalisation et de l’innovation (SRDEEII) et du Schéma Régional de l’Enseignement supérieur, de la Recherche et de l’Innovation (SRESRI) adoptés à l’Assemblée plénière du Conseil Régional Normand du 15 décembre 2016, la Région Normandie souhaite conforter les axes de recherche d’excellence et en émergence sur le territoire normand, en finançant des projets de recherche afin:
- d’accroître la visibilité et l’attractivité du potentiel de la recherche du territoire normand, tout en irrigant le tissu économique de la région,
- promouvoir des projets d’excellence scientifique, originaux et d’intérêt pour la Normandie,
- permettre aux équipes de recherche de se structurer pour atteindre une reconnaissance et une visibilité européenne et internationale qui renforcera l’attractivité de la Normandie.
La Région Normandie entend soutenir l’excellence et l’attractivité des laboratoires de recherche normande en cohérence avec la stratégie des établissements, des organismes et de la COMUE Normandie Université au travers de 5 Réseaux d’Intérêts Normands (RIN). Le présent projet prend place dans le cadre du RIN Normandie Digitale.
Présentation générale du projet
Les graphes constituent une structure de donnée informatique capable de décrire des informations complexes. Ils possèdent des propriétés très intéressantes telles que la définition de structures de dimension quelconques, la mise en évidence de sous structures dans les données et une bonne aptitude à être interprété par les experts. Autant de bonnes propriétés dont ne bénéficient généralement pas les données numériques classiquement utilisées en apprentissage machine. Ces propriétés sont d’un intérêt tout particulier pour des applications comme la chémoinformatique ou la bioinformatique. Plus précisément, les deux questions fondamentales auxquelles les graphes doivent répondre dans le cadre de ces domaines scientifiques sont :
- La définition de métriques entre graphes et
- le calcul de plus grand sous graphes communs.
Le premier point permet d’inférer des propriétés des molécules ou plus généralement des graphes alors que le deuxième permet de trouver des parties communes à des objets complexes tels que les graphes moléculaires ou les graphes décrivant les sites actifs des protéines.
Un groupement de recherche regroupant des chimistes, des biologistes et des informaticiens s’est constitué en Normandie. Les laboratoires impliqués sont le GREYC, le LITIS, le LCMT, le COBRA et le CERMN. Ces collaborations point à point présentes pour certaines depuis plus de 10 ans en région sont actuellement en train de se structurer pour combiner les compétences de tous les acteurs et atteindre une taille critique. Dans ce contexte, le projet collaboratif AGAC se propose de réaliser une percée significative dans les deux points clés mentionnés ci-dessus via trois études en lien avec des problématiques de chimie ou de biologie.
Objectifs recherchés
Les objectifs recherchés sont doubles. D’une part fournir de nouveaux outils méthodologiques permettant de calculer des distances ou des similarités entre graphes (via des approches à noyaux ou la distance d’édition sur graphes) et d’autre part obtenir une meilleure compréhension de phénomènes chimiques et biologiques via la confrontation des résultats de nos modélisations avec la vérité terrain. Les résultats escomptés par chaque action peuvent être énumérés comme suit:
- ACTION 1:
- La définition d’un nouveau modèle de noyau sur graphes appliqué à la chémoinformatique afin d’obtenir une compréhension fine de la complémentarité entre les informations structurelles et les informations électroniques d’une molécule. À notre connaissance cette étude sera une des premières sur cette problématique.
- ACTION 2:
- Cette action se concentre sur le traitement de grands graphes. Nous espérons obtenir des avancées significatives concernant la recherche de sous-graphes communs et la distance d’édition sur des grands graphes. Au niveau du traitement de l’information chimique, cette action fournira de nouveaux outils permettant d’analyser un ensemble de graphes associés aux interactions ligands-protéines (en lien avec le CERMN), compléments aux techniques de modélisation utilisées actuellement. Nous appliquerons également ces résultats au clustering de graphes moléculaires en liaison avec le LCMT, en analysant des bases de monoterpènes.
- ACTION 3:
- Cette action vise à regrouper dans une librairie unifiée et open source les méthodes développées au GREYC et au LITIS.
L’ensemble des acteurs de ce projet ont non seulement une grande expérience dans leur spécialité respective (Reconnaissance structurelle de forme, chimie théorique, chimie thérapeutique) mais également une longue expérience de collaboration à l’intersection de ces domaines. Les deux premières actions associeront obligatoirement un laboratoire d’informatique et au moins un laboratoire de chimie. Elle bénéficieront d’un post doctorant sur 21 mois. Chaque post doctorant bénéficiera des outils méthodologiques développés par ses encadrants ce qui devrait permettre un démarrage rapide compatible avec un projet sur 2 ans.
Acteurs
- GREYC
- Luc Brun
- Bertrand Cuissart
- Sébastien Bougleux
- Nicolas Boria
- Nath Vinh VO
- LITIS
- Sébastien Adam
- Pierre Heroux
- Benoit Gaüzère
- Paul Honeine
- Stéphane Nicolas
- Natacha Lambert
- COBRA
- Laurent Joubert
- Guillaume Hoffmann
- Vincent Tognetti
- LCMT
- CERMN
Actualités
21/11/2017 | Réunion de lancement du projet AGAC |
1/2/2018 | Recrutement de Nicolas Boria |
5/3/2018 | Recrutement de Nath Vinh VO |
19/03/2019 | Recrutement de Natacha Lambert |
20/04/2018 | Réunion AGAC à Caen |
3/05/29109 | Réunion AGAC du 3/05/2019 |
Production Logicielle
- Noyau et distance d’édition entre graphe en python. Voir également une version plus récente restreinte aux noyaux de graphes.
- Distance d’édition en C++,
- Distance d’édition, version Matlab (deprecated).
- Distance d’édition avec binding python .
Publications
- Scalable generalized median graph estimation and its manifold use in bioinformatics, clustering, classification, and indexing . Information Systems . vol. 100, pages: 101766, Sept. 2021. .
- Boria, Nicolas, Bougleux, Sebastien & Brun, Luc. Approximating GED using a Stochastic Generator and Multistart IPFP. In Proceedings of SSPR’2018 , August 2018
- Boria, Nicolas, Bougleux, Sébastien, Gaüzère, Benoit & Brun, Luc. Generalized Median Graph via Iterative Alternate Minimizations. In Donatello Conte and Jean-Yves Ramel editors. , Proceedings of the International 12th workshop on Graph-Based Representation in Pattern Recognition , Tours , June 2019 .
- Nicolas Boria and David B. Blumenthal and Sébastien Bougleux and Luc Brun. Improved local search for graph edit distance . Pattern Recognition Letters . 129: pp 19-25 2020
- David B. Blumenthal and Nicolas Boria and Johann Gamper and Sebastien Bougleux and Luc Brun. Comparing heuristics for graph edit distance computation . The VLDB Journal .29, pages 419–458(2020)
- Guillaume HOFFMANN, Muhammet BALCILAR, Vincent TOGNETTI, Pierre HEROUX, Benoît GAÜZÈRE, Sébastien ADAM, Laurent JOUBERT. Predicting experimental electrophilicities from quantum and topological descriptors: A machine learning approach. Journal of Computational Chemistry.
- M. Balcilar, G. Renton, P. Héroux, B. Gaüzere, S. Adam, and P. Honeine, « Analyzing the expressive power of graph neural networks in a spectral perspective, » in Proceedings of the international conference on learning representations (iclr), 2021.
- M. Balcilar, G. Renton, P. Héroux, B. Gaüzère, S. Adam, and P. Honeine, « Spectral-designed depthwise separable graph neural networks, » in Proceedings of thirty-seventh international conference on machine learning (icml 2020)-workshop on graph representation learning and beyond (grl+ 2020), 2020.
- M. Balcilar, G. Renton, P. Héroux, B. Gaüzère, S. Adam, and P. Honeine, « When spectral domain meets spatial domain in graph neural networks., » in Proceedings of thirty-seventh international conference on machine learning (icml 2020)-workshop on graph representation learning and beyond (grl+ 2020), 2020.
- Damien Geslin, Alban Lepailleur, Jean-Luc Manguin, Nhat-Vinh Vo, Jean-Luc Lamotte, Bertrand Cuissart, and Ronan Bureau. Deciphering A Pharmacophore Network: A Case Study Using Bcr-Abl Data. J. Chem. Inf. Model. 2022, DOI: 10.1021/acs.jcim.1c00427