Offre de Thèse – IRCAM – EDITE de Paris

Conformément au décret 2021-1233 du 25 septembre 2021 relatif au contrat doctoral de droit privé, ci-dessous une offre de thèse de l'IRCAM.

Thèse – Conversion neuronale de la parole à partir de représentations démêlées - F/H

Contexte
L'objectif du projet EVA (« Explicite Voice Attributes ») est de déchiffrer les codes des voix humaines par l'apprentissage de représentations explicites et structurées des attributs de la voix. La réalisation de cet objectif aura un fort impact scientifique et technologique, dans au moins deux domaines d'application : premièrement, dans l'analyse de la parole, il permettra de comprendre l'enchevêtrement complexe des caractéristiques d'une voix humaine ; deuxièmement, pour la génération ou la transformation de voix, il alimentera une large gamme d'applications pour créer une voix avec les attributs souhaités, permettant la conception de ce que l'on appelle une personnalité vocale. L'ensemble des attributs sera défini soit par des experts humains, soit découvert à partir des données en utilisant des réseaux neuronaux non supervisés, légèrement supervisé, ou supervisés. Il couvrira une description du timbre, de la qualité de la voix, de la phonation, des caractéristiques personnelles du locuteur tels que des prononciations spécifiques ou des troubles de la parole (par exemple zézaiement), des accents régionaux ou non natifs, et des éléments para-linguistiques tels que les émotions ou le style. Idéalement, chaque attribut pourrait être contrôlé dans la synthèse et la conversion par un degré d'intensité, ce qui permettrait de l'amplifier ou de l'effacer de la voix, dans le cadre d'une intégration structurée. Les principaux résultats industriels attendus concernent différents cas d'utilisation de la transformation de la voix. Le premier est l'anonymisation de la voix : afin de permettre des enregistrements vocaux conformes à la RGPD, les systèmes de conversion vocale pourraient être configurés pour supprimer les attributs fortement associés à l'identité d'un locuteur, tandis que les autres attributs resteraient inchangés pour préserver l'intelligibilité, le naturel et l'expressivité de la voix manipulée ; le deuxième est la création de voix : de nouvelles voix pourraient être sculptées à partir d'un ensemble d'attributs souhaités, afin d'alimenter l'industrie de la création; et le troisième est la transformation de la voix, notamment dans le contexte des la création artistique.

Objectif scientifique

L’objectif de la thèse est de concevoir, d’implémenter, et d’apprendre des algorithmes pour la conversion neuronale de la parole à partir de représentations sous forme d’attributs. Les attributs considérés varient des paramètres « bas-niveaux » d’un modèle source/filtre du signal de parole, comme la F0, l’intensité, etc… à des paramètres « hauts-niveaux » comme l’âge/le genre, l’accent, ou les émotions. La représentation des attributs sera soit directement donnée en entrée pour l’apprentissage de la conversion neuronale, soit apprise en même temps que la conversion. Les travaux réalisés devront apporter des contributions sur l’une ou plusieurs des problématiques suivantes :

- La conception de stratégies d’apprentissage de représentations démêlées efficaces (par exemple, par stratégie d’étranglement de l’information ou adversariale) pour la manipulation des attributs de la parole, avec pour commencer la manipulation des attributs acoustique comme la F0, l’intensité, voir la qualité vocale;

- L’implémentation d’algorithmes de conversion neuronale expressifs capable de réaliser une conversion du signal de parole à partir de représentations arbitraires des attributs donnés en entrée pour l’apprentissage de la conversion ;

- La conception et l’implémentation d’algorithmes de conversion neuronale capables de conditionner la génération à l’intensité de l’attribut, que ce soit pour ajouter, soustraire, ou amplifier/atténuer un attribut dans le signal de parole.

L’ensemble des travaux réalisés seront évalués selon les protocoles établits en conversion vocale, couvrant alors notamment des stratégies d’évaluation objective, mais aussi des évaluations subjectives, mais également en relation avec les partenaires du projet pour mesurer les performances des systèmes d’authentification/détection en fonction des scénarios envisagés. Les avancées réalisées seront intégrées au système de conversion neuronale de l'identité vocale de l’Ircam et évaluées in situ dans le cadre de productions professionnelles et/ou artistiques réalisées à l’Ircam.

Perspectives
Le travail sera effectué à l’Ircam au sein de l’équipe Analyse et Synthèse des sons spécialisée dans la synthèse et la transformation de la voix. L'Ircam est une association à but non lucratif, associée au Centre National d'Art et de Culture Georges Pompidou, dont les missions comprennent des activités de recherche, de création et de pédagogie autour de la musique du XXème siècle et de ses relations avec les sciences et technologies. Au sein de l'unité mixte de recherche, UMR 9912 STMS (Sciences et Technologies de la Musique et du Son) commune à l’Ircam, à Sorbonne Université, au CNRS, et au Ministère de la Culture et de la Communication, des équipes spécialisées mènent des travaux de recherche et de développement informatique dans les domaines de l'acoustique, du traitement des signaux sonores, des sciences cognitives, des technologies d’interaction, de l’informatique musicale et de la musicologie. L'Ircam est situé au centre de Paris à proximité du Centre Georges Pompidou au 1, Place Stravinsky 75004 Paris.

Rémunération proposée :

~24000 euros brut annuel