logo EDITE Sujets de doctorat

Apprentissage d'un espace latent hétérogène

Résumé rédigé par
Directeur de thèse:
Doctorant: Charles-Emmanuel DIAS
Unité de recherche UMR 7606 Laboratoire d'informatique de Paris 6

Projet

Les techniques de machine learning reposant sur des variables latentes sont nombreuses et permettent d'attaquer divers problématiques. Les réseaux de neurones utilisent des architectures de plus en plus profondes, impliquant nombre de variables cachées sur des données de type signal, image ou texte.

Des techniques récentes ont montré qu'il était possible de raisonner en effectuant des opérations directement dans l'espace latent. Certaines operations fonctionnent directement dans un espace sémantique appris sur une base de textes, d'autres sont explicitement apprises sur des bases de connaissances . l'espace latent étant appris pour modéliser la langue (les enchaînements de mots) ou pour raisonner sur des triplets.

En parallèle, la représentation latente d'éléments hétérogènes est devenue classique avec la croissance des systèmes de recommandation. L'idée est alors de projeter des utilisateurs et des items dans un même espace pour comprendre les spécificités de chaque item et les goûts de chacun. L'espace latent est alors appris avec comme contrainte de prédire correctement les notes que chaque utilisateur a donne aux items qu'il a croisé.

L'enrichissement des espaces latents est un challenge recent : il est par exemple possible d'enrichir les profils des utilisateurs et/ou des items en utilisant les informations textuelles. La notion de temps permet aussi d'intégrer les phénomènes de mode et l'évolution des profils utilisateurs. L'enjeu sera d'agréger efficacement différentes sources d'information potentiellement hétérogènes pour améliorer les performances d’une application cible.

Apres avoir assimilé la littérature du domaine, le doctorant travaillera sur l'enrichissement des systèmes de recommandation : en mêlant les profils utilisateurs et items avec le texte et le temps, il développera de nouveaux systèmes plus performants. L'intégration d'une dimension textuelle permet aussi d'envisager des extensions par rapport aux systèmes actuels : il sera possible d'associer un utilisateur a des mots clés positifs ou négatifs, de décrire les aspects d'un produits qu'il est susceptible d'apprécier ou pas. La prise en compte de tous ces facteurs sur de grandes masses de données reste aujourd'hui un problème ouvert.

Cette these doit être l'occasion de proposer des systèmes novateurs sur des bases théoriques solides. Nous envisagerons également différentes nouvelles formulations pour la recommandation basées sur des transformations dans l'espace latent, le but étant d'attaquer la question suivante : la recommandation peut-elle être formulée comme un problème de raisonnement dans l'espace latent ?