logo EDITE Sujets de doctorat

Acquisition automatique de concepts sensori-moteurs par un robot

Résumé rédigé par
Directeur de thèse:
Doctorant: Carlos MAESTRE
Unité de recherche UMR 7222 Institut des Systèmes Intelligents et de Robotique

Projet

Dans notre vie quotidienne, nous réalisons des tâches qu’un robot pourrait prendre en charge : ranger, nettoyer, faire des courses, etc. Certaines de ces tâches peuvent être spécifiées de façon claire et sans ambiguité, par exemple aspirer les saletés dans un espace peu encombré. Cela a permis le développement de robots aspirateurs dédiés sur la base de l’approche dite de robotique comportementale. Ces robots, les seuls robots autonomes ayant passé à ce jour le seuil du marché de masse, disposent d’un comportement pré-cablé n’utilisant que peu d’informations. Ils n’ont pas non plus besoin d’interagir avec leur utilisateur autrement que par l’appui sur un bouton ou l’émission d’un signal sonore. Il existe un gap très important entre des robots autonomes dédiés à une unique tâche et des robots d’assistance polyvalents. Un robot d’assistance capable de nettoyer un appartement, de vider un lave vaisselle, de faire des courses, de plier du linge, de ranger, ... doit disposer de capacités sensori-motrices bien plus complexes que celles des robots aspirateurs. Son répertoire comportemental doit être bien plus riche, ce qui pose de nombreuses questions : – comment construire ce répertoire de comportements ? – comment interagir avec un tel robot, que ce soit pour lui confier une mission, pour s’assurer de son exécution ou pour s’enquérir de ses éventuels problèmes ? Ces questions posent le problème de la définition des concepts (perceptions, actions, com- portements, mais aussi concepts plus abstraits) sur lesquels s’appuieront à la fois le système de planification et de résolution de tâches du robot ainsi que son interface de communication avec les humains. Cette question est en fait celle de la réduction de la dimensionnalité. En effet, les capteurs permettant de s’informer efficacement sur l’environnement sont de grande dimension (caméras, microphone, lidar) et les robots polyvalents sont dotés de nombreux degrés de liberté. Ces capacités de perception et d’action sont définies dans des espaces continus. Se pose donc la question de faire le lien entre ces espaces sensori-moteurs continus et de grande dimension et des espaces de dimension réduite permettant de planifier, d’apprendre ou d’interagir efficacement avec des humains. Pour éviter le problème de l’ancrage de symboles survenant lorsque les concepts sont donnés a priori et le difficile choix rendu nécessaire par le besoin de réduire la dimensionnalité du pro- blème, la question centrale de cette thèse est celle de la création, de façon autonome, du répertoire minimal de concepts nécessaires et faisant sens par rapport à la mor- phologie, à l’environnement et aux missions du robot. L’objectif est de doter le robot de la capacité à construire et mettre à jour son modèle du monde au travers de ses interactions avec son environnement (cognitive bootstrapping. L’approche proposée est celle de la robotique développementale. Dans ces approches s’inspirant des connaissances sur le développement de l’enfant, les concepts abstraits se construisent progressivement depuis les compétences sensori- motrices jusqu’à des concepts plus abstraits. Il est ainsi proposé d’adopter une approche itérative dans laquelle (1) des données sont générées par le robot sur la base d’un algorithme de babillage, (2) des modèles candidats sont appris pour expliquer ces données, reproduire intentionnellement les comportements observés et prédire les conséquences d’une action et (3) de nouvelles données sont générées dans le but de discriminer les modèles candidats, de les affiner et d’en proposer de nouveaux plus simples. Cette thèse a pour but de proposer une implémentation de ces principes s’appuyant sur les compétences des deux directeurs de thèse, à savoir : (1) des algorithmes évolutionnistes pour l’étape de babillage sensorimoteur (S. Doncieux) ; (2) des réseaux bayésiens pour la modélisation des données observées (C. Gonzales) ; (3) pour la réduction de la dimensionnalité, il sera considéré : – une analyse des traces de l’apprentissage (S. Doncieux) ; – l’apprentissage et l’exploitation de modèles bayésiens relationnels (C. Gonzales). L’acquisition de nouveaux concepts nécessite de disposer d’un ensemble de données disponibles aussi complet que possible et couvrant les différentes capacités du robot. Cela nécessite d’explo- rer dans un espace de grande dimension sur la base de politiques comportementales exprimées dans des espaces continus (tant du point de vue des perceptions que des actions), problème pour lequel les algorithmes évolutionnistes se sont révélés très compétitifs. L’apprentissage en robo- tique est un problème difficile compte tenu des non-linéarités et du caractère multi-modal des fonctions de récompenses qui peuvent guider un tel apprentissage, c’est difficile à tel point qu’un apprentissage guidé uniquement par un critère de nouveauté peut s’avérer plus efficace qu’un apprentissage guidé par un critère de performance. Les travaux du doctorant s’appuieront sur les méthodes développées à l’ISIR concernant la définition d’objectifs dédiés à aider le processus de recherche, que ce soit des objectifs de nouveauté ou de diversité comportementale. En exploitant les données récoltées lors de cette phase, le doctorant construira par apprentissage statistique des réseaux bayésiens dynamiques non-stationnaires. Afin de tenir compte de l’évolution du monde perçu par le robot, le doctorant étendra les mécanismes d’apprentissage actuels, notamment en abandonnant certaines hypothèses d’indépendances entre les paramètres de réseaux bayésiens à différents pas de temps qui s’avèrent non réalistes dans notre contexte. Ces réseaux permettront ensuite, via des inférences dédiées, d’effectuer des prédictions sur les conséquences des actions du robot et, par là-même, sur la probabilité d’atteindre ses objectifs. En outre, l’analyse des diffé- rentes structures de ces réseaux permettra une première abstraction des concepts « rencontrés » par le robot. Concernant la réduction de la dimensionnalité, deux approches complémentaires seront explo- rées. La première consiste à analyser les traces de l’apprentissage afin d’identifier les interactions les plus importantes sur lesquels concentrer la modélisation. L’idée est de se focaliser en priorité sur les interactions spécifiques aux comportements exhibés par les individus les plus efficaces. Ce filtrage doit permettre de guider les babillages ultérieurs afin de générer des données permettant d’améliorer en priorité la modélisation de ces interactions. Ce guidage sera implémenté sous la forme de motivations intrinsèques poussant le robot à améliorer son modèle du monde et de ses interactions avec lui. Cette approche suppose qu’un système de valeur permet de comparer plusieurs comportements (que ce soit un retour donné par un humain ou par un dispositif dédié à reconnaître les actions pertinentes par rapport à l’ensemble des missions que le robot aura à effectuer ou au contraire les actions à éviter absolument). Elle est complémentaire avec la curio- sité artificielle de Oudeyer et al., guidée par la volonté d’améliorer ses capacités de prédictions et pourra être combinée avec elle. La deuxième approche consiste à développer des « méta-modèles probabilistes relationnels. L’idée consistera, dans un premier temps, à transformer les réseaux bayésiens dynamiques appris en modèles probabilistes relationnels orientés objet (OOPRM). À elle seule, une telle transformation permet d’accélerer significativement les inférences probabi- listes ainsi qu’à compacifier le modèle probabiliste du monde tel que perçu par le robot. Ensuite, le doctorant développera un algorithme d’apprentissage de méta-modèles OOPRM, c’est-à-dire un algorithme permettant de fusionner des classes OOPRM bien choisies afin de créer de nouvelles méta-classes, plus efficaces pour les calculs. Cette étape s’apparentra donc à une « abstraction » de concepts.