logo EDITE Sujets de doctorat

Apprentissage de tâches sous supervision humaine en robotique développementale

Sujet proposé par
Directeur de thèse:
Encadré par
Doctorant: Pierre FOURNIER
Unité de recherche UMR 7222 Institut des Systèmes Intelligents et de Robotique

Domaine: Sciences et technologies de l'information et de la communication

Projet

La robotique développementale s'inspire de travaux sur le développement cognitif de l'enfant pour mettre au point des robots qui apprennent en interagissant avec leur environnement [Lungarella et al., 2003]. Outre l'environnement physique, l'environnement social peut jouer un rôle prépondérant dans cet apprentissage. Un tuteur humain est susceptible de guider le robot via divers types de signaux sociaux, par exemple en lui montrant des comportements à apprendre ou des buts à atteindre, en encourageant ou décourageant des tentatives, ou bien en exprimant son approbation ou sa désapprobation vis-à-vis de comportements réalisés [Thomaz et Brezeal, 2008]. Une difficulté majeure pour le robot est qu'il doit apprendre à interpréter ces signaux dont la signification ne lui est pas donnée a priori, en même temps qu'il apprend à interagir avec l'environnement physique.

La thèse se situe à l'intersection entre robotique développementale et interaction humain-robot et, au sein de ces vastes champs de recherches, nous abordons un cadre d'interaction spécifique, celui du robot apprenant sous la supervision d'un tuteur humain [Cederborg et Oudeyer, 2012]. Pour que ces robots puissent effectivement apprendre de nouveaux comportements et nouvelles tâches, il est nécessaire de développer des mécanismes d’apprentissage pouvant faire face à différents types d’intervention humaine. Plus spécifiquement, il s’agit (i) de montrer ce que la prise en compte de signaux de guidage peut apporter à l'apprentissage du robot, (ii) de caractériser et de modéliser la nature des interactions entre le tuteur humain et le robot apprenant (e.g. signaux explicites, implicites). Ces travaux de thèse déboucheront sur une architecture permettant l’apprentissage d’un robot sous supervision d’un humain en exploitant des modèles de l’environnement et de l’interaction sociale.

Enjeux

La thèse fait suite à un premier co-encadrement sur ce sujet, qui a débouché sur une architecture générique pour apprendre par renforcement des tâches dans des espaces discrets et y intégrer des signaux d'évaluation émis par le tuteur, dont la valeur positive ou négative n'est pas connue a priori [Najar et al., 2015a,b].

Les objectifs de cette nouvelle thèse sont multiples. D'une part, nous souhaitons tirer parti des méthodes de deep learning [LeCun et al., 2015 ; Sigaud et Droniou, 2016] pour que le robot puisse apprendre par lui-même des représentations hiérarchisées de son environnement physique, des tâches à accomplir et de ses interactions sociales. D'autre part, nous souhaitons tirer parti des signaux émis par le tuteur humain pour guider l'apprentissage d'une manière plus riche et naturelle que le ferait un simple signal de renforcement. De récents travaux ont montré que la dynamique des signaux sociaux entre un robot et un humain peut être exploitée pour informer de la nature et de la qualité de l’interaction [Boucenna et al., 2016 ; Delaherche et al. 2012]

Les contraintes méthodologiques sont nombreuses. En particulier, pour mesurer l'apport d'un tuteur humain sur l'apprentissage, il faudra prendre en compte les limites inhérentes à l'implication humaine dans ce type d'interaction. Il sera notamment indispensable de doter le robot de capacités à émettre les signaux sociaux qui favorisent l'engagement de l'humain. Pour valider l'apport du tuteur à l'apprentissage, il faudra en outre comparer ce que le robot apprend sous supervision par rapport à la situation où il apprend de façon autonome. Cela implique d'une part de disposer d'une architecture d'apprentissage autonome déjà suffisamment performante pour que la comparaison soit pertinente. La thèse bénéficiera de ce point de vue de l'environnement du projet européen DREAM en cours de réalisation à l'ISIR, qui porte justement sur l'apprentissage autonome de représentations par un robot dans un cadre développemental [DREAM]. Cela implique d'autre part une méthodologie rigoureuse d'évaluation et de validation pour des expériences impliquant des sujets humains.

Au bout du compte, la réalisation de cette thèse exigera de la part du candidat d'acquérir ou de renforcer des compétences variées, notamment en robotique, en traitement du signal social, en machine learning et surtout deep learning et en méthodologie expérimentale.

Références :

[Boucenna et al, 2016] Sofiane Boucenna, David Cohen, Andrew Meltzoff, Philippe Gaussier, Mohamed Chetouani. "Robots Learn to Recognize Individuals from Imitative Encounters with People and Avatars."  Scientific Reports (Nature Publishing Group). Vol 6 No http://dx.doi.org/10 Pages 19908 (2016).

[Cederborg et Oudeyer, 2012] Thomas Cederborg, et Pierre-Yves Oudeyer. "A social learning formalism for learners trying to figure out what a teacher wants them to do." Paladyn, Journal of Behavioral Robotics 5.1 (2014).

[Delaherche et al., 2012] Emilie Delaherche, Mohamed Chetouani, Ammar Mahdhaoui, Catherine Saint-Georges, Sylvie Viaux, David Cohen. "A Survey Of Evaluation Methods Across Disciplines." IEEE Transactions on Affective Computing. Vol 3 No 3 Pages 349-365 (2012)

[DREAM] http://www.robotsthatdream.eu/

[LeCun et al., 2015] Yann LeCun, Yoshua Bengio, et Geoffrey Hinton. "Deep learning." Nature 521.7553 (2015): 436-444.

[Lungarella et al., 2003] Max Lungarella, Giorgio Metta, Rolf Pfeifer, et Guilio Sandini. "Developmental robotics: a survey." Connection Science 15.4 (2003): 151-190.

[Najar et al., 2015a] Najar, Anis, Olivier Sigaud, et Mohamed Chetouani. "Social-Task Learning for HRI." International Conference on Social Robotics. Springer International Publishing, 2015. 472-481.

[Najar et al., 2015b] Najar, Anis, Olivier Sigaud, et Mohamed Chetouani. "Socially guided XCS: using teaching signals to boost learning." Proceedings of the Companion Publication of the 2015 on Genetic and Evolutionary Computation Conference. ACM, 2015.

[Sigaud et Droniou, 2016] Olivier Sigaud, et Alain Droniou (à paraître) "Towards Deep Developmental Learning.", IEEE Transactions on Cognitive and Developmental Systems.

[Thomaz et Breazeal, 2008] Andrea Thomaz et Cynthia Brezeal. "Teachable robots : Understanding human teaching behavior to build more effective robot learners." Artificial Intelligence, Vol. 172 (6), pages 716-737 (2008).

Ouverture à l'international

Les deux encadrants sont impliqués dans plusieurs projets internationaux sur les thèmes centraux du projet de thèse. Ils encourageront le candidat à faire des séjours dans des laboratoires partenaires pour élargir sa culture de la recherche.

Remarques additionnelles

Olivier SIGAUD et Mohamed CHETOUANI co-encadreront la thèse. Ils sont professeurs, rattachés respectivement à l'EDITE et à l'ED SMAER. L'activité d'Olivier SIGAUD est centrée sur le machine learning pour la robotique développementale. Il s'intéresse aux méthodes de deep learning dans ce cadre. Mohamed CHETOUANI est un spécialiste reconnu du traitement des signaux sociaux et notamment de leur utilisation dans un cadre d'interaction homme-robot.