logo EDITE Sujets de doctorat

Reconnaissance robuste et sécurisée de plusieurs locuteurs pour appareils mobiles, authentification, personnalisation et la contextualisation

Sujet proposé par
Directeur de thèse:
Encadré par
Doctorant: Giacomo VALENTI
Unité de recherche UMR 7102 Laboratoire de recherche d'EURECOM

Domaine: Sciences et technologies de l'information et de la communication

Projet

Ce projet de recherche vise à étudier de nouvelles approches sures et efficaces de la vérification automatique du locuteur (aussi appelée : ASV - Automatic Speaker Verification). L’utilisation de la voix pour la reconnaissance de l'identité d'une personne est très intéressante, en particulier dans le cas de la téléphonie mobile où il y a des applications qui nécessite l'authentification de l'utilisateur pour des besoins de sécurité, de personnalisation ou de contextualisation. Dans ce cas, l'efficacité et la robuste sont primordiaux. Ces algorithmes doivent fonctionner avec des ressources limitées, (capacités de traitement, mémoire, batterie). Les technologies mise en œuvre pour l'ASV sont cependant souvent extrêmement complexes et mal adaptée aux implémentations embarquées. Il est donc nécessaire de développer des approches plus efficaces qui offrent néanmoins les performances de reconnaissance satisfaisante ainsi que la capacité de s’adapter automatiquement a plusieurs locuteurs. En biométrie, la sécurité est également essentielle; l’authentification de l'utilisateur est utilisée pour protéger les données personnelles et/ou privées. Des travaux récents ont cependant montré que la technologie ASV est vulnérable au « spoofing » personne malveillante qui se fait passer pour une autre afin d’accéder a des données privées / protégés. Il est donc nécessaire de développer une nouvelle technologie qui soit robuste à ce genre d’attaque.

Enjeux

Ce projet vise donc à développer de nouveaux algorithme de vérification de locuteurs [1,2,3] qui conviennent aux appareils mobiles, tout en répondant à la nécessité de renforcer la sécurité. De plus, on mettra l'accent sur des applications impliquant plusieurs locuteurs (utilisateurs) et permettant donc la personnalisation et la contextualisation.

Ces applications sont considérées comme étant à la limite de l'état de l’art. La plupart des algorithmes de vérification de locuteurs nécessitent une phase explicite d’entrainement pour chaque locuteur (utilisateur). L’objectif est d'améliorer l’ergonomie en apprenant automatiquement les différents profils (voix) des utilisateurs pendant l'usage normal de l’appareil mobile, et pas seulement pour un utilisateur (propriétaire de l'appareil, par exemple), mais pour plusieurs utilisateurs (dans une famille utilisant une tablette par exemple). Pour cet aspect, ce travail de recherche combinera à la fois la reconnaissance de locuteurs avec la capacité de séparer les voix des plusieurs utilisateurs [4,5].

Dans ce cas, les bases de données nécessaires sont disponibles, les approches les plus appropriés à la reconnaissance automatique de locuteurs sont indépendante du texte, et utilise des modèles a mélange de gaussienne [6]. En général, une quantité importante de données de parole, souvent de l'ordre de quelques minutes, est nécessaire pour obtenir des performances de reconnaissance fiables. Ces dernières se dégradent lorsque la quantité de données est réduite à une quantité plus adapté aux applications d'authentification, c’est-à-dire quelques secondes. De meilleures performances peuvent être obtenues en utilisant un texte prédéfini [7]. Une base de données adaptée à la reconnaissance de locuteurs utilisant des textes prédéfinis n’a été publiée que récemment et il y a donc beaucoup moins de recherche dans ce domaine. La plupart des approches sont encore basées sur des modèles à mélange de gaussiennes ou modèles de chaines des Markov cachés (HMM). L'approche utilisant des textes prédéfinis peut fournir des performances de reconnaissance acceptable avec de beaucoup plus petites quantités de données que les solutions de rechange indépendante du texte, mais ne peut pas être adapté à chaque application. Le premier objectif de ce travail est donc de coupler et d’adapter les technologies de vérification automatique du locuteur avec texte indépendants et de texte dépendant avec la possibilité d’intégration sur appareils mobiles. Cette approche inclura une solution hybride qui utilisera à la fois du texte prédéfini, texte à lire et texte indéfini, tout en respectant la facilité d'utilisation ainsi que la possibilité d’avoir plusieurs locuteurs. Différentes configurations seront développées suivant les applications. Quelle que soit l'approche d'ASV, le « spoofing » (menace d'usurpation) demeure toujours une préoccupation [8,9]. L'approche standard pour éviter l'usurpation implique la détection d'activité réelle. Bien qu'il existe un grand nombre de travaux dans la détection d'activité réelle pour d'autres applications biométriques, les travaux concernant l‘usurpation d’identité pour ASV ne fait que commencer. Les travaux actuels adressent les menaces d’usurpation par enregistrement et synthèse de la parole. Les contre-mesures sont principalement conçus avec des attaques par spoofing spécifiques à l'esprit ce qui signifie que leur application pratique est discutable. Les protections contre le « spoofing » sont généralement développés pour contrecarres des attaques connues. Des solutions génériques sont aussi développées mais n’ont été que peu testées dans des applications réelles.

Le deuxième objectif de ce CIFRE sera de développer des protections pour assurer la fiabilité des ASV face au «spoofing ». Il s’agira de nouveaux travaux qui devront vérifier que les protections n’ont pas d’effet indésirables sur l’ergonomie tout en restant réalisable en termes de complexité de calcul.

Description des différentes étapes :

• Phase 1: ASV texte indépendant Mois 1 - 4 Mois Mise en place des outils EURECOM pour ASV a Texte dépendant et indépendant. Cela impliquera l’utilisation des bases de donnes SRE NIST et RT et la comparaison avec les publications de l’état de l’art.

• Phase 2: texte dépendant ASV Mois 5 - 12 Mois Le code de référence sera évalué en mode texte dépendant en utilisant la base de données RSR2015. Les résultats seront comparés à l'état de l’art avant d’initier de nouveaux travaux afin d'améliorer les performances dans le cas des mots suggérés. Des expériences seront réalisées pour juger des améliorations de performance.

• Phase 3: Implémentation robuste et performante Mois 13 - 28 Mois Les phases 1 et 2 n’adresseront pas les problématiques de déploiement pour système embarqué. Le but de la phase 3 sera donc d’avoir une implémentation réalisable sur des systèmes à ressources limitées. L'objectif sera de réaliser des démonstrations sur une plateforme spécifique. • Phase 4: Protection contre le Spoofing Mois 29 - 36 Mois La phase finale mettra en œuvre des mesures de protection contre l'usurpation sur la base de la solution de la phase 3. Des expériences pratiques seront effectuées pour valider les performances.