logo EDITE Sujets de doctorat

Gestion de données complexes pour la modélisation de niche écologique

Résumé rédigé par
Directeur de thèse:
Doctorant: Ndiouma BAME
Unité de recherche UMR 7606 Laboratoire d'informatique de Paris 6

Projet

Introduction et Objectifs La biodiversité évolue de manière complexe ; comprendre son évolution est un enjeu majeur. Les données d’observation et le recensement des espèces vivantes constituent la matière première pour la modélisation de la biodiversité et de son évolution. Le GBIF est un consortium international visant à fédérer les données de biodiversité à l’échelle mondiale. Le GBIF est reconnu comme étant la référence, pour les données primaires de biodiversité, sur laquelle s’appuient les autres initiatives internationales (LifeWatch, GEOBON). La base de données du GBIF est complétée continuellement par les correspondants nationaux du consortium. Elle contient aujourd’hui plusieurs centaines de millions d’enregistrements. Sa taille augmente de plus en plus vite, et devrait atteindre très prochainement plusieurs tera octets.Le GBIF est ainsi la seule ressource disponible pour accéder à des données de biodiversité sur une très large échelle temporelle et spatiale. L’accès aux données du GBIF s’effectue à travers un portail [1] permettant de consulter les occurrences (données sur l’observation des espèces : date, lieu, identification de l'espèce) et de formuler des requêtes multi-critères. La base est utilisée intensivement par la communauté des chercheurs en biodiversité pour mener leurs travaux. Nous avons recueillis deux cas d’usage auprès du GBIF France et de l’IFAN. 1) Un expert en biodiversité, étudie la migration ou l'extinctiond'une ou plusieurs espèces. Pour cela il définit un modèle complexe de niche écologique. Afin de valider la pertinence de son modèle, l’expert souhaite mesurer l'adéquation de son modèle avec la réalité. Pour cela, il procède au calcul de son modèle à différentes dates, et compare les résultats obtenus avec les données existant dans la base. Cela permet d’affiner le modèle proposé et d’améliorer sa qualité prédictive. 2)Lors de l’étude de la distribution et/ou de la révision taxonomique d’un genre ou d’une espèce il est nécessaire de connaître sa zone de distribution. Les données géo référencées du GBIF sont utilisées pour éditer une carte de niche écologique. Cette dernière peut être enrichie en intégrant d’autres données bibliographiques liées à l’écologie de l’espèce ou du genre (pluviométrie, pédologie, hygrométrie, etc.). L’objectif est d’obtenir une carte de niche écologique plus précise, révélant des zones où la probabilité de rencontrer l’espèce est plus forte. Ainsi, cela permet de choisir plus précisément les sites à prospecter dans chaque pays, et constitue un énorme gain de temps. Dans de tels cas, l’utilisation du portail GBIF atteint ses limites pour deux raisons principales : - La croissance du volume des données et du nombre de requêtes, conduit à des interrogations de plus en plus longues ce qui empêche l’utilisation interactive du portail nécessaire pendant la mise au point d’un modèle ou d’une carte. - La sophistication croissante des modèles nécessite des abstractions pour représenter et manipuler des données complexes. Par exemple pour optimiser les modèles de niches, d’autres sources d’informations telles que l’imagerie satellite peuvent être utilisées. De plus, des données relatives au processus de migration et des interactions biotiques doivent être intégrées. Actuellement, de telles abstractions ne sont pas supportées dans le GBIF, de manière suffisamment générale.

Cette thèse vise à surmonter les insuffisances actuelles du GBIF. Tout d’abord, il s'agit : • de modéliser les données provenant de diverses sources (données climatiques, imagerie sattellite, etc) et de les integrer au modèle de donnée du GBIF. L'objectif d'une telle modélisation est de regrouper toutes les informations nécessaires pour améliorer la qualité des modèles de niches corrélatifs. • de proposer une solution facilitant l'expression des requêtes afférentes à la conception de nouveaux modèles de niche écologique. De fait, la solution doit permettre à l'utilisateur de définir les types d'informations (biologiques, climatiques, physiologiques, etc) dont il a besoin pour modéliser et/ou valider une niche. Plus généralement, des abstractions pour représenter et manipuler des données de biodiversité, dans une base de données, seront proposées • Tenir compte des nouvelles donnéesinsérées dans la base et impactant les modèles de niche. En effet, des nouvelles données d’observation étant produites continuellement par la communauté scientifique, la fréquence des ajouts tend à devenir d’autant plus grande que les solutions pour importer des nouvelles données se perfectionnent.

Plan de travail • Définir un modèle de représentation des données provenant de diverses sources et étudier les mécanismes de couplage de ces données aux données du GBIF. • Définir une architecture extensible pour un portail dédié à l’analyse des données de biodiversité. Justifier la pertinence des choix architecturaux pour les cas d’usage constatés ci-dessus. Le candidat s’appuiera sur les résultats de son stage de DEA [3] pour généraliser les cas d’usage et proposer une solution pouvant fonctionner dans un nuage informatique (cloud). • Formaliser le problème de l’évaluation de requêtes pour la modélisation de niches écologiques . Concevoir une solution pour évaluer les requêtes, et les actualiser lorsque la base du GBIF est complétée avec de nouvelles données. S’appuyer sur les résultats récents de la collaboration entre l’équipe BD du LIP6 et l’UCAD [4][5], pour déterminer quelles sont les requêtes impactées par les mises à jour de la base et quel est le coût d’actualisation d’une requête. • Implémenter et valider la solution expérimentalement sur un miroir de la base de données du GBIF en collaboration avec l’équipe du GBIF France.