logo EDITE Sujets de doctorat

Gestion de données de recommendation à large échelle

Résumé rédigé par
Directeur de thèse:
Doctorant: Modou GUEYE
Unité de recherche UMR 5141 Laboratoire Traitement et Communication de l'Information

Projet

L’essor du Web social marque un tournant dans notre mode de traitement de l’information accessible sur le web. Ces nouvelles applications sont centrées sur l’utilisateur : son profil, ses contacts, les ressources qu’il met à la disposition des autres, ses annotations (tags), les notes qu’il attribut aux ressources des autres, ses appréciations des échanges qu’il a pu avoir avec d’autres utilisateurs, etc. L’utilisateur n’est plus un simple consommateur d’information, mais il participe à la production de l’information, à son indexation et à sa classification. Un des défis auquel sont confrontées aujourd’hui ces nouvelles applications est la prise en compte de ces informations pour mieux guider l’utilisateur dans ses choix et trier les éléments d'information les plus pertinents pour lui (les produits, livres, films, etc. qui sont susceptibles de l’intéresser, les utilisateurs d’un réseau social avec qui il pourrait tisser des liens, etc.). Cette nouvelle fonctionnalité s’appuie sur des systèmes de recommandation qui, pour être efficaces, doivent traiter des volumes de données très importants et tenir compte de l’évolution continue de données.

Un système de recommandation cherche à prédire l'avis que donnerait un utilisateur sur un objet (film, livre, news, message, etc.). La recommandation est obtenue en comparant le profil d'un utilisateur à certaines caractéristiques de référence provenant de l'objet en question, des transactions passées de l'utilisateur, de ses amis (filtrage collaboratif), ou des autres utilisateurs qui lui sont similaires (ayant un profil proche, par exemple). La plupart des algorithmes de recommandation proposés dans la littérature ne passent pas à l’échelle, et ne sont donc pas efficaces pour traiter des volumes de données aussi importants que ceux qu’on peut avoir dans les applications du web social. Certaines applications, comme Netflix.com qui est un site spécialisé dans la location de films, ont lancé un défi aux chercheurs et ont mis à leur disposition des données afin de tester et leurs algorithmes de recommandation. Les tests effectués ont montré que la plupart des algorithmes ne passent pas à l’échelle en termes de nombre d’utilisateurs et de volume de données personnelles manipulées (e.g. cas de plus de 100 millions d’avis émis par 500 000 utilisateurs au sujet de 17 000 produits). En effet, la recommandation est une opération coûteuse en termes de ressources CPU et mémoire. Elle nécessite d’agréger des gros volumes de données produites par de nombreux utilisateurs.

Pour relever le défi et proposer des algorithmes de recommandation à très large échelle, deux directions sont suivies : d’une part, l’optimisation des algorithmes de recommandation existants, et d’autre part, l’optimisation du temps de calcul en adaptant ses algorithmes à des infrastructures distribués (ex: de type Cloud) offrant une capacité de traitement extensible. Cette thèse suit cette seconde direction.