logo EDITE Sujets de doctorat

Amélioration de la qualité des données des organisations par un modèle d'interopérabilité entre système hétérogèenes

Résumé rédigé par
Directeur de thèse:
Doctorant: Houda ZAIDI
Unité de recherche EA 1395 Centre d'Étude et de Recherche en Informatique et Communications

Projet

Les problèmes de qualité des données stockées dans les bases et les entrepôts de données se propagent de façon endémique à tous les types de données (structurées ou non). Il s’agit en particulier d’erreurs sur les données(notamment des doublons,des données similaires, des données aberrantes, des données obsolètes et des valeurs nulles). Les conséquences de la non qualité des données (ou de leur qualité médiocre) sur les prises de décision et les coûts financiers qu’elle engendre sont considérables. Avec la multiplication des sources d’informations disponibles et l’accroissement des volumes de données potentiellement accessibles, la qualité des données et, plus largement, la qualité des informations ont pris une place de premier plan au sein des entreprises et dans le monde académique. Améliorer la qualité des données dans les systèmes d’information hétérogènes revient à corriger les erreurs dans chacune des bases de données et dans les entrepôts de données, tenir compte des structures et sémantiques des données dans le processus d’intégration, et modéliser les différentes interactions et interopérabilité entre bases. L’objectif de la thèse sera de présenter une approche qui permet de guider la détection des anomalies dans les bases et les entrepôts de données afin de proposer une méthodologie de correction (processus de nettoyage). Concrètement, il s’agit d’aborder les problèmes suivants : - Détecter les erreurs (des doublons,des données similaires, des données aberrantes, des données obsolètes et des valeurs nulles) provenant d’une seule source ou de plusieurs sources hétérogènes. - Guider l’utilisateur dans les corrections à apporter à travers des règles métiers. Notre but final étant de participer au développement de nouveaux outils d’intégration de données ETL (Extract-Transform-Load) qui n’imposent pas à l’utilisateur la connaissance des structures et des sémantiques des données manipulées en provenance des sources. Les données rassemblées dans l’entrepôt de destination devraient avoir plus de sens.