logo EDITE Sujets de doctorat

Systèmes de recommandation à large échelle

Sujet proposé par
Directeur de thèse:
Doctorant: Jean-Benoit GRIESNER
Unité de recherche UMR 5141 Laboratoire Traitement et Communication de l'Information

Domaine: Sciences et technologies de l'information et de la communication

Projet

L’essor du Web social marque un tournant dans notre mode de traitement de l’information accessible sur le web. Ces nouvelles applications sont centrées sur l’utilisateur : son profil, ses contacts, les ressources qu’il met à la disposition des autres, ses annotations (tags), les notes qu’il attribut aux ressources des autres, ses appréciations des échanges qu’il a pu avoir avec d’autres utilisateurs, etc. L’utilisateur n’est plus un simple consommateur d’information, mais il participe à la production de l’information, à son indexation et à sa classification. Un des défis auquel sont confrontées aujourd’hui ces nouvelles applications est la prise en compte de ces informations pour mieux guider l’utilisateur dans ses choix et trier les éléments d'information les plus pertinents pour lui (les produits, livres, films, etc. qui sont susceptibles de l’intéresser, les utilisateurs d’un réseau social avec qui il pourrait tisser des liens, etc.). Cette nouvelle fonctionnalité s’appuie sur des systèmes de recommandation qui, pour être efficaces, doivent traiter des volumes de données très importants et tenir compte de l’évolution continue de données. Un système de recommandation cherche à prédire l'avis que donnerait un utilisateur sur un objet (film, livre, news, message, etc.). La recommandation est obtenue en comparant le profil d'un utilisateur à certaines caractéristiques de référence provenant de l'objet en question, des transactions passées de l'utilisateur, de ses amis (filtrage collaboratif), ou des autres utilisateurs qui lui sont similaires (ayant un profil proche, par exemple).

Pour permettre des prédictions de qualité, les algorithmes de recommandation doivent utiliser des volumes de données de plus en plus importants, ce qui pose des problèmes de passage à l’échelle. Le développement d’algorithmes offrants une bonne qualité de prédictions, tout en étant capables de s’adapter dynamiquement au volume de données à prendre en compte, constitue un challenge pour les systèmes de recommandation.

Pour relever le défi et proposer des algorithmes de recommandation à très large échelle, deux directions sont suivies : d’une part, l’optimisation des algorithmes de recommandation existants, et d’autre part, l’optimisation du temps de calcul en adaptant ces algorithmes à des infrastructures offrant une capacité de traitement extensible.

Bibliographie : [1] Modou Gueye, Talel Abdessalem, Hubert Naacke: STRec: An Improved Graph-based Tag Recommender. RSWeb@RecSys 2013.

[2] Modou Gueye, Talel Abdessalem, Hubert Naacke: Technique de factorisation multi-biais pour des recommandations dynamiques. EGC 2013: 365-376.

[3]Younghoon Kim, Yoonjae Park, Kyuseok Shim: DIGTOBI: a recommendation system for Digg articles using probabilistic modeling. WWW 2013: 691-702.

[4]Sebastian Schelter, Christoph Boden, Volker Markl: Scalable similarity-based neighborhood methods with MapReduce. RecSys 2012: 163-170.

[5] Sebastian Schelter, Christoph Boden, Martin Schenck, Alexander Alexandrov, Volker Markl: Distributed matrix factorization with mapreduce using a series of broadcast-joins. RecSys 2013: 281-284.

[6] A. Pavlo, E. Paulson, A. Rasin, D. J. Abadi, D. J. Dewitt, S. Madden, and M. Stonebraker, "A Comparison of Approaches to Large-Scale Data Analysis," in SIGMOD ‘09: Proceedings of the 2009 ACM SIGMOD International Conference, 2009. http://database.cs.brown.edu/sigmod09/benchmarks-sigmod09.pdf

Enjeux

Optimisation des algorithmes de recommandation. Passage à l'échelle.

Remarques additionnelles

Accès à des données réelles fournies par des entreprises partenaires.