logo EDITE Sujets de doctorat

Subspace clustering et interprétabilité

Résumé rédigé par
Directeur de thèse:
Doctorant: Arthur GUILLON
Unité de recherche UMR 7606 Laboratoire d'informatique de Paris 6

Projet

Cette thèse se place dans le contexte de l'apprentissage non-supervisé. Le clustering, à partir d'un ensemble de données (vues comme des vecteurs) consiste à identifier des groupes (les clusters) présentant une forte similarité interne, et une forte dissimilarité externe. Le subspace clustering est une généralisation du problème qui, pour identifier les groupes de données similaires, doit également déterminer les sous-espaces dans lesquels ils se trouvent. La métrique servant à identifier les clusters peut alors être adaptée aux différents sous-espaces.

Cependant, cette généralisation revient à relâcher le critère de dissimilarité externe : en identifiant les clusters selon des dimensions différentes, on masque leurs différences entre les données qui les peuplent.

Dans cette thèse, nous souhaitons étudier la formalisation de l'interprétabilité, en particulier dans le cadre du clustering.