[]

Auto-évaluation de la performance pour l'adaptation en ligne des paramètres d'apprentissage des robots en situation d'interaction sociale

Proposé par: Raja Chatila
Directeur de thèse: mehdi KHAMASSI
Directeur de thèse: Raja Chatila
Unité de recherche: UMR 7222 Institut des Systèmes Intelligents et de Robotique

Domaine: Sciences et technologies de l'information et de la communication
Secteur:
Thème:
Sous-thème:

Projet

Problématique générale

L’objectif du projet est de proposer un nouvel algorithme d’auto-évaluation des performances et des variations de l’environnement (que nous appellerons cognitive monitoring ci-après) et d’adaptation en ligne de l’apprentissage (appelé meta-learning ci-après) en contexte social qui soit suffisamment général et tâche-indépendant pour permettre aux robots d’adapter rapidement leurs paramètres d’apprentissage en fonction des variations de leur propre performance, de façon à pouvoir résoudre différentes tâches dynamiques d’interaction homme-robot sans ajustements de l’algorithme par le programmeur/concepteur. En retour, l’algorithme doit amener à des prédictions expérimentales pour les neurosciences cognitives afin de contribuer à mieux caractériser ce processus chez l’homme.

Programme de la thèse

Le travail de thèse proposé doit s’appuyer sur des résultats préliminaires obtenus par le laboratoire (décrits brièvement ci-dessous), les étendre grâce à un travail théorique, puis les appliquer à des expériences d’interaction homme-robot. Enfin, de nouvelles prédictions expérimentales pour les Sciences Cognitives seront générées par simulation de l’algorithme conçu.

Résultats préliminaires

Lors d’une thèse précédemment financée par la DGA (Erwan Renaudo, juin 2016, UPMC), nous avons montré qu’une même architecture cognitive inspirée de la capacité des humains à coordonner des apprentissages orientés vers des buts et habituels permettait aux robots de s’adapter de la même manière dans différents scénarios : navigation, apprentissage de séquences visuo-motrices et interaction homme-robot. Néanmoins, cette architecture ne possède pas de mécanismes génériques de cognitive monitoring qui permette l’ajustement des paramètres d’apprentissage de façon similaire dans ces différents scénarios. En parallèle, nous avons développé un nouveau modèle de cognitive monitoring qui permet à un robot simulé de maximiser l’engagement de son interlocuteur humain dans une tâche simple d’interaction sociale (Khamassi et al. 2017). Nous avons montré que dans cette tâche simple, on pouvait transférer des méthodes de bandits qui permettent d’ajuster dynamiquement certains paramètres comme le taux d’exploration. Il reste néanmoins à étendre ce travail à des tâches séquentielles d’interaction homme-robot pour lesquelles les méthodes de bandits ne suffisent pas, puis à étudier si le même algorithme résultant de ce travail peut se généraliser à différentes tâches sociales et non sociales.

Déroulement du travail de thèse proposé

La thèse proposée doit débuter par un travail théorique afin de simuler différentes méthodes de bandits pour trouver lesquelles s’adaptent de manière optimale au cas de tâches simples mais non-stationnaires d’interaction homme-robot (i.e. situation non seulement statistique mais adversatiale, très peu étudiée pour le moment). Il s’agira de comparer ces méthodes à des algorithmes utilisant des filtres de Kalman (Granmo & Berg 2008) ou des détections de changements de points (Hartland et al. 2006). Les hypothèses sont que : (1) la façon d’adapter des paramètres comme le taux d’exploration à des changements détectés de l’environnement va dépendre de l’horizon temporel de la tâche, de la façon de mettre à jour les valeurs moyennes des différentes options et leurs variances associées ; (2) la façon dont ceci est réalisé dans les méthodes de bandit peut être transféré à des tâches séquentielles d’apprentissage par renforcement en remplaçant le terme de récompense par un terme d’erreur de prédiction de la récompense ; (3) et enfin que cette façon de procéder sera aussi pertinente en situations non-sociales (où les valeurs dépendent de la statistique de l’environnement) et sociales (où les valeurs dépendent de la statistique de l’interlocuteur).

Les algorithmes ainsi mis en place doivent pouvoir se généraliser à des tâches d’interaction homme-robot séquentielles (et toujours non-stationnaires), où nous comparerons les résultats avec des algorithmes de meta-learning (Schweighofer & Doya 2003) et des méthodes issues des neurosciences computationnelles (Frank et al. 2009). Il faudra également vérifier que ces méthodes s’appliquent bien aux paramètres continus associés aux actions discrètes du robot que nous avons précédemment réussis à adapter en ligne en interaction homme-robot simple mais où la récompense (i.e. l’engagement de l’homme dans la tâche) varie avec un délai en fonction des actions du robot (Khamassi et al. 2017).

La deuxième partie de la thèse consistera à appliquer l’algorithme mis au point non plus à la simulation mais à des tâches d’interaction entre robot réel et un ensemble de sujets humains. Il s’agit de voir dans quelle mesure l’algorithme peut s’adapter à différents types de sujets (naïfs et non-naïfs), ayant différentes volatilités comportementales, et donnant des récompenses déterministes, stochastiques ou adversariales. Le travail expérimental de thèse sera réalisé à l’ISIR sur le robot PR2 (développé par Willow Garage) acquis par l’ISIR dans le financement Equipex ‘Robotex’ (250 KE). Les simulations numériques des algorithmes seront effectuées sur le cluster de calcul acquis par l’ISIR par des financements UPMC, CNRS et ANR (25 KE).

Enfin, dans le cadre du projet « Cognitive Monitoring in Social Contexts : From humans to robots and vice versa », pour lequel des financements viennent d’être demandés à la Ville de Paris, nous simulerons l’algorithme sur un protocole défini avec nos collaborateurs neurobiologistes pour générer des prédictions expérimentales chez l’homme. L’idée est de simuler deux tâches non-stationnaires ayant la même statistique de variabilité des récompenses, l’une sociale (impliquant un avatar interagissant par l’orientation du regard avec le sujet humain) l’autre non (impliquant un objet animé dont l’orientation varie comme le regard de l’avatar mais sans connotation sociale), et voir le comportement que prédirait un algorithme qui fait le même type de cognitive monitoring dans les deux conditions.

Enjeux

Etat de l’art en Robotique. Malgré de très grands progrès réalisés en apprentissage robotique ces dernières années, la plupart des algorithmes et résultats actuels s’appliquent à des situations spécifiques prédéfinies à l’avance (voir Kober et al. 2013 pour une revue). Le cas des interactions sociales avec l’homme implique de nombreuses imprévisibilités qui rendent les capacités des robots actuels très limitées et nécessite toute une phase de démonstration pour simplifier l’espace de recherche. Un grand défi actuel de la recherche en robotique vise donc à permettre aux robots d’apprendre à coopérer avec les humains dans une variété de tâches, particulièrement avec des humains naïfs qui ne peuvent pas programmer eux-mêmes les robots. Les robots ont pour cela besoin d’être dotés de meilleurs capacités d’autonomie décisionnelle, d’apprentissage, et d’auto-évaluation pour déterminer eux-mêmes lorsque leur comportement n’est plus adapté et qu’il faut ré-apprendre. Cette voie commence à être explorée principalement en situation non-sociale (e.g. Moulin-Frier & Oudeyer, 2013). L’état de l’art en robotique sur les questions de meta-apprentissage en situation d’interaction sociale est encore très peu développé, car c’est un domaine nouveau. Il y a des travaux qui existent sur le développement de capacités minimales de meta-learning sur robot pour exécuter des tâches très simples d’interaction (dont un travail précédent du directeur de thèse s’inspirant de capacités de contrôle cognitif chez l’homme pour réguler dynamiquement le paramètre d’exploration de l’algorithme d’apprentissage : Khamassi et al., 2011a). Beaucoup de travaux ayant appliqué de l’apprentissage par renforcement et parfois même du meta-learning sur robot se sont concentrés sur des tâches non-sociales (Kober et al. 2013 ; Benureau & Oudeyer, 2016 ; Wang et al. 2017). Par ailleurs, des travaux récents en interaction homme-robot ont souligné l’importance pour le robot d’être capable de surveiller les variations de l’engagement de l’humain dans la tâche (i.e. de faire du cognitive monitoring) (Anzalone et al. 2015). Néanmoins, ces travaux n’incluent pas encore de capacités d’apprentissage et encore moins de meta-learning pour le moment.

Etat de l’art en Neurosciences. Du côté des neurosciences cognitives, les mécanismes de cognitive monitoring et de meta-learning sont de mieux en mieux compris (Behrens et al. 2009 ; Khamassi et al. 2011b). Il est par exemple établi que les décisions des humains alternent entre un mode dit orienté vers un but et un mode habituel (Daw et al. 2011). Au cours du premier, un contrôle attentionnel du comportement est réalisé, une auto-évaluation de la performance est effectuée, et un modèle interne de la statistique de la tâche est ainsi appris pour permettre une adaptation comportementale rapide mais coûteuse en temps et en calcul. Le deuxième résulte d’un apprentissage beaucoup plus lent, qui ne dépend plus ni des variations statistiques de la récompense et de la performance, ni du contrôle cognitif, et est donc lent à s’adapter aux changements de l’environnement. Il est néanmoins peu coûteux et permet un comportement réactif (des décisions rapides). Des modèles computationnels de ces processus de contrôle et de monitoring cognitif ont été appliqués à une variété de situations expérimentales (e.g. Khamassi et al. 2012) et certains résultats suggérent que la partie habituelle du contrôle du comportement emploie pour part les mêmes mécanismes en situations sociales et non-sociales (Behrens et al. 2009). Néanmoins, il n’est pas clair si les mêmes mécanismes de cognitive monitoring (donc lié aux comportements orientés vers des buts) en situation individuelle (pour apprendre la statistique de l’environnement) sont en jeu dans le cerveau des humains en situation sociale (pour apprendre la statistique du comportement de l’interlocuteur). C’est pourquoi un nouveau modèle robotique de cognitive monitoring en situation sociale pourrait permettre de proposer une série de prédictions expérimentales qui guiderait la mise en place de nouvelles expériences en Psychologie et en Neurosciences pour répondre à cette question.

Ouverture à l'international

Ce sujet de thèse implique une collaboration avec l’Université d’Oxford et l’Université polytechnique d’Athènes. Ceci permettra au doctorant d’aller passer un séjour dans chacun des deux établissements pour se former, sans qu’il s’agisse d’une co-tutelle au sens formel.

Les expériences chez l’homme pour tester les prédictions de nos algorithmes seront réalisées par nos collaborateurs, Drs. Jérôme Sallet et Matthew Rushworth au Département de Psychologie Expérimentale de l’Université d’Oxford.

Dans le cadre du même projet, nous testerons enfin l’applicabilité du modèle à l’interaction enfant-robot (permettant de confronter le modèle à des sujets naïfs au comportement très variable, dont les mécanismes de cognitive monitoring et d’apprentissage de comportements orientés vers des buts sont moins développés que chez l’adulte ; Decker et al. 2016) afin d’évaluer les potentielles applications éducatives de l’algorithme en partenariat avec le Département de Robotique de l’Université Polytechnique d’Athènes en Grèce (Pr. Costas Tzafestas).

Remarques additionnelles

Co-financement demandé à la DGA et retenu en phase 1.

Co-direction avec Mehdi Khamassi, CR HDR à l’ISIR.

Se connecter

Attention! Moteur de recherche efficace!
EDITE de Paris | SPIP | Remarques | Se connecter | Plan du site | Suivre la vie du site Atom 1.0 | | | Facebook | Twitter | LinkedIn