PLEIADE

PLEIADE

PLEIADE

Le calcul scientifique intensif pour mieux comprendre les patterns de biodiversité

 

Animateur : Jean-Marc Frigerio et Franck Salin

Gestionnaire : Florence Le Pierres

Contexte et enjeux

La connaissance et préservation de la biodiversité est un enjeu crucial qui doit être présent à l’esprit lors de toute conception et réalisation d’une activité humaine. La connaissance de la diversité notamment en espèces est à la base de la compréhension de la dynamique des communautés. Or, cette diversité est mal connue, malgré plusieurs siècles d’histoire naturelle. Plusieurs « révolutions » permettent d’aborder cette connaissance avec des concepts, outils et méthodes nouveaux :

  • le rapprochement entre évolution, biologie moléculaire, systématique et génétique qui permet de comprendre la diversité actuelle comme fruit d’une histoire évolutive (phylogénies, systématique moléculaire) ;
  • la révolution des NGS qui permet d’avoir accès à la diversité moléculaire de communautés entières, tous organismes confondus  (métabarcoding) ;
  • une révolution numérique actuelle associant données massives  et accès au calcul intensif, avec le développement de méthodes d’analyse issues de l’IA

Pleiade a comme enjeu de contribuer au développement des outils et méthodes numériques en métabarcoding, avec investissement dans le calcul intensif, pour une meilleure caractérisation des patterns de diversité. Pour ce faire Pleiade est une composante d’une équipe mixte Inra/Inria. (voir https://www.inria.fr/equipes/pleiade).

Objectifs et stratégie scientifique

L’activité de Pleiade s’articule globalement autour des éléments suivants :

  • au sein du réseau R-Syst, favoriser les échanges et discussions autour de la notion d’espèce, comment elle se décline selon les grands groupes taxonomiques du réseau (des bactéries aux insectes) ; analyser la qualité du dictionnaire entre taxonomie à base morphologique (celle sur laquelle la systématique est fondée) et à base moléculaire (barcoding), en associant des équipes produisant et maintenant des bases de référence (bactéries, micro-algues, plantes, champignons, nématodes, insectes), en collaboration avec l’infrastructure Rare
  • étudier les associations d’espèces au sein des communautés selon des déterminants de type spatial, temporel, ou environnemental (assemblage des communautés)
  • en amont de cette activité, contribuer à l’évolution des outils et méthodes d’inventaires des communautés, en collaboration avec la communauté scientifique du calcul intensif pour faciliter le passage à l’échelle (coll. HiePACS, SED Inria, IDRIS, GRICAD, …), et l’unité MIAT pour l’appui sur les méthodes statistiques (statistique computationnelle)
  • transférer les outils et méthodes en métabarcoding vers les équipes de recherche utilisatrices, notamment via des collaborations avec la plateforme PGTB ; les (in)valider  par une comparaison avec les outils acceptés comme état de l’art actuel (outils derrière Mothur, QIIME, DADA2, le BLAST, SWARM, …) ;
  • accompagner voire devancer les évolutions dans les outils rendues nécessaires par l’évolution des technologies de séquençage, comme l’émergence actuelle des techniques dites « longs reads », par une proximité et collaboration avec la plateforme PGTB de séquençage/génotypage

Un « focus » particulier est réalisé sur le traitement des données massives issues de NGS qui pose des problèmes partiellement résolus. La plupart des méthodes ont en effet été conçues alors que les jeux de données étaient de taille « accessible » (données Sanger). Le passage à l’échelle sur données issues de NGS se réalise à l’aide d’heuristiques (algorithmes gloutons, etc …). La stratégie de Pleiade quant aux méthodes et outils est double :

  • aller le plus loin possible (en terme de taille des fichiers à analyser) avec des méthodes exactes et contrôlées, afin notamment d’assurer une répétabilité des traitements, et de proposer des benchmarks de comparaison avec la diversité des heuristiques disponibles. Cela requiert le recours au calcul intensif (parallélisation, distribution), qui est un des axes de développement de Pleiade ;
  • relier la caractérisation de la diversité aux outils et méthodes de l’apprentissage (machine learning), notamment s’appuyer sur les outils et méthodes de l’apprentissage supervisé pour la construction d’inventaires avec bases de référence, et l’apprentissage non supervisé pour la construction d’OTUs.

La stratégie scientifique de Pleiade, qui est une petite équipe (deux chercheurs, trois ingénieurs chacun à temps partiel) est de développer un réseau puissant de collaborations suivies, notamment

  • au sein de la communauté du calcul intensif, grâce à la double affiliation Inra/Inria, prolongée avec l’unité MIAT pour les statistiques computationnelles
  • au sein de la communauté européenne du métabarcoding, grâce au projet COST DNAqua.net
  • par une association entre les outils (enjeu de Pleiade) et les données biologiques, au sein du réseau Inra R-Syst
  • avec les équipes en Guyane (IPG) quant aux questions liées à la biodiversité

Mots-clés : Metabarcoding – Ecologie des communautés – Systématique à base moléculaire - NGS – Données massives – Méthodes et algorithmes – Calcul intensif – Apprentissage supervisé et non supervisé.

Membres de l'équipe

L’équipe est composée de deux chercheurs, à temps complet, et de trois ingénieurs, à temps partiel.
Permanents
Alain Franc (DR INRAE, mission)       
Jean-Marc Frigerio (IR INRAE)
Simon Labarthe (CR INRAE)
Franck Salin (IE INRAE)

Doctorants en co-encadrement
Sourakhata Tirera (Institut Pasteur de Guyane, Univ. de Cayenne, co-direction (direction : Anne Lavergne, IPG))
Bonnie Bailet (SLU, Uppsala, co-direction (direction : Maria Kahlert, SLU))