logo EDITE Sujets de doctorat

Décision séquentielle dans l'incertain à partir d'information préférentielle ordinale

Sujet proposé par
Directeur de thèse:
Encadré par
Doctorant: Hugo GILBERT
Unité de recherche UMR 7606 Laboratoire d'informatique de Paris 6

Domaine: Sciences et technologies de l'information et de la communication

Projet

Ce projet de recherche vise à faciliter la conception d’agents autonomes capable de prendre des décisions complexes dans des problèmes de décision séquentielle, tels que la planification dans les systèmes robotiques. Dans ces problèmes, on souhaite qu'un agent sache sélectionner automatiquement les actions à exécuter selon la situation dans laquelle il se trouve afin de réaliser une tâche prédéfinie. Pour une tâche donnée, la description et la modélisation des comportements appropriés est une des difficultés majeures dans la conception d'agents autonomes.

Les approches standards à ces problèmes (Processus décisionnels de Markov, apprentissage par renforcement...) requièrent une évaluation numérique précise de la valeur des actions (récompenses, coûts, utilités...) pour induire les comportements préférés (e.g. un bon comportement a une valeur élevée). Dans la pratique, on constate que ces valeurs ne sont pas toujours disponibles. En effet, dans un problème réel, plusieurs milliers, voire des millions de valeurs doivent être spécifiées manuellement. Même avec des hypothèses supplémentaires sur la structure du problème, ce paramétrage est ardu, voire impossible à réaliser sauf pour les problèmes de très petites tailles. De plus, dans certaines situations, l'évaluation précise même d'une action peut être difficile et coûteuse à déterminer. Par exemple, dans une application de traitement médical, comment doit-on évaluer le bien-être d’un patient ou sa mort ?

Pour pouvoir recourir aux modèles et algorithmes conventionnels, on constate souvent que ces valeurs non connues sont fixées de manière arbitraire dans la pratique. Un tel procédé revient à introduire une information préférentielle qui n'était pas présente. Comme les politiques (plan séquentiel des actions à exécuter) optimales du problème dépendent de ces valeurs précises, on constate qu'une légère variation du choix de paramétrage pourrait conduire à d'autres solutions de nature complètement différente. Cette approche est donc très discutable et le but de cette thèse sera de proposer une approche théoriquement fondée pour résoudre ce problème.

L'approche à étudier consiste à travailler dans un cadre moins exigeant en évaluant les actions sur une échelle qualitative ou en utilisant des informations préférentielles du type “cette configuration est préférée à telle autre”. En considérant de telles informations préférentielles qualitatives et/ou ordinales, spécifier un problème devient beaucoup plus aisé. Cependant, les modèles et algorithmes actuels doivent être radicalement changés afin qu’ils tiennent compte de telles informations.

Enjeux

Cette approche entre dans le cadre des approches dites “fondées sur les préférences”. Ce cadre devient une thématique de recherche très active, avec des chercheurs considérant l’apprentissage par renforcement fondé sur les préférences (Akrour et al., 2011 ; Fürnkranz et al., 2012 ; Busa-Fekete et al., 2013), les problèmes de bandits manchots fondés sur les préférences (Yue et al., 2012), le raisonnement par cas fondé sur les préférences (Hüllermeier et al. 2011), etc. Dans cette approche fondée sur les préférences, de nombreuses questions doivent être étudiées: Comment l’information préférentielle qualitative peut être prise en compte de manière efficace ? Comment peut-on définir la notion d’optimalité ? Comment une solution optimale peut-être calculée efficacement ?

Nous pensons qu’en fournissant des moyens aisés pour un humain de donner ses préférences, cela facilitera la conception de systèmes autonomes et pourra accélérer leur adoption pour la résolution de problèmes réels. Les domaines d’application sont nombreux. Ils incluent entre autres, la planification pour des problèmes logistiques, la commande de drône, les systèmes robotiques pour les applications militaires ou civiles.

Ouverture à l'international

Des collaborations sont déjà en cours sur ces thématiques avec l'équipe de recherche d'Eyke Hüllermeier (Université de Marburg, Allemagne). Par ailleurs, les encadrants ont déjà collaboré avec de nombreux chercheurs à l'étranger, notamment de l'Université de Toronto, de l'Université de Kentucky, de l'EPFL en Suisse ou de l'Université d'Aalborg au Danemark.

Remarques additionnelles

La thèse sera également coencadrée par Paolo Viappiani, chercheur CNRS dans l'équipe Décision.