logo EDITE Sujets de doctorat

Analyse et reconnaissance multimodale de signaux sociaux: application à la synthèse d'attitudes sociales d'un agent conversationnel animé

Sujet proposé par
Directeur de thèse:
Doctorant: Thomas JANSSOONE
Unité de recherche UMR 5141 Laboratoire Traitement et Communication de l'Information

Domaine: Sciences et technologies de l'information et de la communication

Projet

Directeur de thèse: Gaël Richard (LTCI-CNRS Telecom-ParisTech, équipe AAO) Encadré par Chloe CLAVEL (LTCI-CNRS Telecom-ParisTech, équipe MultiMedia), Kevin Bailly (UPMC, ISIR, équipe Interaction ) Unité de recherche UMR 5141 Laboratoire Traitement et Communication de l'Information

Domaine: Sciences et technologies de l'information et de la communication

Mots clés : apprentissage statistique, reconnaissance des formes, méthodes génératives, traitement de la parole, expressions faciales, analyse multimodale, modélisation des émotions

Financement de thèse assuré dans le cadre du projet SENSE http://www.smart-labex.fr/index.php?perma=SeNSE

Cadre de la thèse :

La thèse se déroulera entre le département Traitement du Signal et des Images de Telecom-ParisTech et l’ISIR de l’UPMC et s’inscrit dans le cadre du projet Sense (SigNaux Socio Emotionnel) du Labex Smart (Axe thématique : les interfaces et l’interaction de l’humain avec des environnements numériques et des mondes physiques distants). Ce projet s’intéresse aux signaux sociaux émotionnels échangés lors d’une interaction, et couvre l’intégralité de la chaîne de traitement, allant de la capture des signaux (vidéo, audio, neurologiques et physiologique) jusqu’à leur exploitation (agent virtuel, interaction musicale, groupe de personnes) en passant par leur interprétation et modélisation.

Sujet de la thèse:

Cette thèse a pour objectif l’analyse des descripteurs visuels (nous nous focaliserons sur les expressions faciales et les mouvements de tête) et audio (prosodiques et linguistiques) qui caractérisent les attitudes sociales (dominance et appréciation) et notamment l’analyse de l’ordonnancement des signaux issus des différentes modalités. L’enjeu à terme sera d’intégrer ces descripteurs dans un modèle de génération des attitudes sociales chez un agent conversationnel animé.

Enjeux

Contexte scientifique:

Une des modalités clés dans l’expression d’une attitude sociale est l’expression faciale. Une expression faciale est un changement dans le visage, perceptible visuellement suite à l’activation (volontaire ou involontaire) des muscles composant le visage. Un certain nombre de travaux de recherche montre que les expressions faciales d’un individu durant une interaction reflètent son attitude sociale par rapport à son interlocuteur (Burgoon et al., 1999). En particulier, les sourires, le regard et plus généralement l’expression d’émotions peuvent caractériser des attitudes d’appréciation, d’hostilité, de dominance ou de soumission, à la fois dans une interaction interpersonnelle (Hesse et al., 2009) mais aussi dans une interaction humain-machine (Bee et al., 2009).

Le Facial Action Coding System (FACS) proposé par (Ekman et al., 1978) est la méthode la plus utilisée pour codifier manuellement l’ensemble des expressions. Il consiste à décrire chaque micro-mouvement du visage par une Unité d’Action (Action Unit, AU). Une trentaine d’AU, telles que le lever du sourcil interne, le plissement des yeux ou le pincement des lèvres ont été définies et peuvent apparaître de manière indépendante ou en combinaison avec d’autres AU. De cette façon, l’ensemble des expressions faciales anatomiquement possibles peuvent être différenciées. Ainsi, il n’est pas surprenant qu’un nombre important d’études sur les expressions faciales et l’analyse du comportement soient basées sur la reconnaissance automatique d’AU (Lucy et al., 2009).

Toutefois les modifications d'apparence d’un visage sont liées non seulement aux expressions faciales mais également à d’autres sources de variations telles que la pose, l’illumination, les occultations ou les variations inter-individuelles (genre, ethnie, age...) ce qui rend la reconnaissance des expressions faciales très compliquée, même pour un expert humain. Les résultats obtenus lors du première évaluation internationale de reconnaissance des expressions faciales (Facial Expression Recognition and Analysis Challenge, FERA 2011, Valstar et al., 2011) attestent de la difficulté de cette tâche. La reconnaissance automatique d’AU implique au moins trois étapes successives : le suivi de points caractéristiques du visage (Xiong et al., 2013), l’extraction de descripteurs et la classification (Sénéchal et al., 2011).

Une autre modalité jouant un rôle primordial dans l’expression des attitudes sociales et des émotions est la parole au travers son contenu verbal (Clavel et al., 2013) et non verbal (Clavel et al., 2008). Les attitudes sociales au niveau acoustique ont été étudiées dans le cadre de la détection de la dominance dans les meeting. L’article (Gaticia-Perez, 2013) propose un état de l’art complet de ces descripteurs : les descripteurs utilisés sont l’énergie, la fréquence fondamentale, le débit, la qualité vocale. D’autres descripteurs dialogiques tels que le temps de parole du locuteur, les interruptions jouent un rôle primordial dans la détection de la dominance. Concernant les descripteurs linguistiques, ils n’ont pas encore été étudiés dans le cadre de l’analyse automatique des attitudes sociales.

Tâches :

La première partie de thèse sera consacrée à l’état de l’art sur l'analyse multimodale des attitudes sociales (ex: dominance) lors d'interaction humain/humain ou humain/agent et l’identification des corpus existants.

La seconde partie de la thèse portera sur la mise en œuvre de méthodes d'analyse multimodale de corpus audiovisuel tels que (McKeown et al., 2012). En particulier, le candidat sera amené à concevoir des méthodes d’analyse dynamique des descripteurs (AU, prosodie) et des méthodes d’apprentissage automatique pour la reconnaissance d’attitudes sociales.

La dermière partie de la thèse sera consacrée à la conception d’un modèle computationnel d’attitudes sociales (Ravenet et al., 2013) qui s’appuiera sur les étapes précédentes. L’objectif visé par ce modèle est d’améliorer les capacités expressives de l’agent conversationnel animé GRETA (Niewiadomski et al., 2009) développé à Télécom ParisTech.

Remarques additionnelles

Candidatures: à envoyer à chloe.clavel@telecom-paristech.fr , kevin.bailly@upmc.fr, gael.richard@telecom-paristech.fr :

* Curriculum Vitae

* Lettre de motivation personnalisée expliquant l’intérêt du candidat sur le sujet (directement dans le corps du mail)

* Relevés de notes des années précédentes

* Contact d’une personne de référence

Les candidatures incomplètes ne seront pas examinées.

Références :

N Bee, S Franke, and E Andrea. Relations between facial display, eye gaze and head tilt : Dominance perception variations of virtual agents. In Affective Computing and Intelligent Interaction and Workshops, 2009. ACII 2009. 3rd International Conference on, pages 1–7, 2009.

Judee K Burgoon and Beth A Le Poire. Nonverbal cues and interpersonal judgments : Participant and observer perceptions of intimacy, dominance, composure, and formality. Communication Monographs, 66(2) :105–124, 1999.

C Clavel, I Vasilescu, L Devillers, G Richard, and T Ehrette. Fear-type emotions recognition for future audio-based surveillance systems. Speech Communication, 50 :487–503, 2008.

Chloé Clavel, Gilles Adda, Frederik Cailliau, Martine Garnier-Rizet, Ariane Cavet, Géraldine Chapuis, Sandrine Courcinous, Charlotte Danesi, Anne-Laure Daquo, Myrtille Deldossi, Sylvie Guillemin-Lanne, Marjorie Seizou,and Philippe Suignard. Spontaneous speech and opinion detection : mining call-centre transcripts. Language Resources and Evaluation, April 2013.

P Ekman and W Friesen. Facial action coding system (FACS) : A technique for the measurement of facial actions. Consulting Psychologists Press, 1978

D.Gatica-Perez. Automatic nonverbal analysis of social interaction in small groups : A review. Image and Vision Computing, 27(12) :1775–1787, November 2009.

U Hess and P Thibault. Why the Same Expression May Not Mean the Same When Shown on Different Faces or Seen by Different People. In Jianhua Tao and Tieniu Tan, editors, Affective Information Processing, pages 145–158. Springer London, 2009.

P Lucey, J F Cohn, S Lucey, I Matthews, Sridharan S., and K M Prkachin. Automatically detecting pain using facial actions. In International Conference on Affective Computing & Intelligent Interaction (ACII2009), 2009.

G McKeown and M. Valstar. The SEMAINE Database : Annotated Multimodal Records of Emotionally Colored Conversations between a Person and a Limited Agent. IEEE Transactions on Affective Computing, 3(1) :5–17, 2012.

R. Niewiadomski, E. Bevacqua, M. Mancini, and C. Pelachaud. Greta : an interactive expressive ECA system. In Proceedings of The 8th International Conference on Autonomous Agents and Multiagent Systems - Volume 2, AAMAS ’09, 2009

B Ravenet, M Ochs, and C Pelachaud. From a User-Created Corpus of Virtual Agent’s Non-Verbal Behavior to a Computational Model of Interpersonal Attitudes. In To appear in the proceedings of the Intelligent Virtual Agents (IVA) conference, 2013.

T Sénéchal, V Rapp, H Salam, R Seguier, K Bailly, and L Prevost. Facial Action Recognition Combining Heterogeneous Features via Multi-Kernel Learning. IEEE Transactions on Systems, Man, and Cybernetics–Part B, 42(4) :993–1005, 2012.

M Valstar, B Jiang, M Méhu, M Pantic, and K Scherer. The First Facial Expression Recognition and Analysis Challenge. In IEEE Conference on Automatic Face and Gesture Recognition, 2011.

X Xiong and F la Torre. Supervised Newton Method and its applications to Face Alignment. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2013.