Bonjour à toutes et à tous,
Je vous transmets une offre de thèse dans l’équipe Analyse et Synthèse des sons (A/S) à l’Ircam dans le cadre du projet ANR EVA sur les modèles génératifs par apprentissage profonds pour la conversion des attributs vocaux.
N'hésitez pas à partager avec toute personne possiblement intéressée !
Nicolas Obin
Thèse – Conversion neuronale de la parole à partir de représentations démêlées
ContexteL'objectif du projet EVA (« Explicite Voice Attributes ») est de déchiffrer les codes des voix humaines par l'apprentissage de représentations explicites et structurées des attributs de la voix. La réalisation de cet objectif aura un fort impact scientifique et technologique, dans au moins deux domaines d'application : premièrement, dans l'analyse de la parole, il permettra de comprendre l'enchevêtrement complexe des caractéristiques d'une voix humaine ; deuxièmement, pour la génération de voix, il alimentera une large gamme d'applications pour créer une voix avec les attributs souhaités, permettant la conception de ce que l'on appelle une personnalité vocale. L'ensemble des attributs sera défini par expertise humaine ou découvert à partir des données en utilisant des réseaux neuronaux légèrement ou non supervisés ou non supervisés. Il comprendra une description détaillée et explicite du timbre, de la qualité de la voix, de la phonation, des biais du locuteur tels que des prononciations spécifiques ou des troubles de la parole (par exemple zézaiement), des accents régionaux ou non natifs, et des éléments paralinguistiques tels que les émotions ou le style. Idéalement, chaque attribut pourrait être contrôlé dans la synthèse et la conversion par un degré d'intensité, ce qui permettrait de l'amplifier ou de l'effacer de la voix, dans le cadre d'une intégration structurée. Ces nouveaux attributs pourraient être définis par des experts ou par des algorithmes de réseaux neuronaux tels que le démêlage automatique de la voix ou des représentations auto-supervisées qui découvriraient automatiquement les attributs saillants dans des ensembles de données multilocuteurs. Les principaux résultats industriels attendus concernent différents cas d'utilisation de la transformation de la voix. Le premier est l'anonymisation de la voix : afin de permettre des enregistrements vocaux conformes à la RGPD, les systèmes de conversion vocale pourraient être configurés pour supprimer les attributs fortement associés à l'identité d'un locuteur, tandis que les autres attributs resteraient inchangés pour préserver l'intelligibilité, le naturel et l'expressivité de la voix manipulée ; le deuxième est la création de voix : de nouvelles voix pourraient être sculptées à partir d'un ensemble d'attributs souhaités, afin d'alimenter l'industrie de la création.
Objectif scientifiqueL’objectif de la thèse est de concevoir, d’implémenter, et d’apprendre des algorithmes de conversion neuronale de la parole à partir de représentations sous forme d’attributs. Les attributs considérés varient des paramètres « bas-niveaux » d’un modèle source/filtre du signal de parole, comme la F0, l’intensité, etc… à des paramètres « hauts-niveaux » comme l’âge/le genre, l’accent, ou les émotions. La représentation des attributs sera soit directement donnée en entrée pour l’apprentissage de la conversion neuronale, soit apprise en même temps que la conversion. Les travaux réalisés devront apporter des contributions sur l’une ou plusieurs des problématiques suivantes :- La conception de stratégies d’apprentissage de représentations démêlées efficaces (par exemple, par stratégie d’étranglement de l’information ou adversariale) pour la manipulation des attributs de la parole, avec pour commencer la manipulation des attributs acoustique comme la F0, l’intensité, voir la qualité vocale;- L’implémentation d’algorithmes de conversion neuronale expressifs capable de réaliser une conversion du signal de parole à partir de représentations arbitraires des attributs donnés en entrée pour l’apprentissage de la conversion ;- La conception et l’implémentation d’algorithmes de conversion neuronale capables de conditionner la génération à l’intensité de l’attribut, que ce soit pour ajouter, soustraire, ou amplifier/atténuer un attribut dans le signal de parole. L’ensemble des travaux réalisés seront évalués selon les protocoles usuels en conversion d’identité vocale, mais également en relation avec les partenaires du projet pour mesurer les performances des systèmes d’authentification/détection en fonction des scénarios envisagés. Les avancées réalisées seront intégrées au système de conversion neuronale de l'identité vocale de l’Ircam et évaluées in situ dans le cadre de productions professionnelles et/ou artistiques réalisées à l’Ircam.
PerspectivesLe travail sera effectué à l’Ircam au sein de l’équipe Analyse et Synthèse des sons spécialisée dans la synthèse et la transformation de la voix. L'Ircam est une association à but non lucratif, associée au Centre National d'Art et de Culture Georges Pompidou, dont les missions comprennent des activités de recherche, de création et de pédagogie autour de la musique du XXème siècle et de ses relations avec les sciences et technologies. Au sein de l'unité mixte de recherche, UMR 9912 STMS (Sciences et Technologies de la Musique et du Son) commune à l’Ircam, à Sorbonne Université, au CNRS, et au Ministère de la Culture et de la Communication, des équipes spécialisées mènent des travaux de recherche et de développement informatique dans les domaines de l'acoustique, du traitement des signaux sonores, des sciences cognitives, des technologies d’interaction, de l’informatique musicale et de la musicologie. L'Ircam est situé au centre de Paris à proximité du Centre Georges Pompidou au 1, Place Stravinsky 75004 Paris.
Expérience et compétences recherchéesLe candidat idéal aura :- Une solide expertise en apprentissage machine et en particulier en réseaux de neurones profonds ;- Une bonne connaissance ou une expérience dans le traitement automatique de la parole, préférablement dans le domaine de la génération de la parole ;- Maitrise du traitement numérique du signal audio ;- Maitrise du langage de programmation Python, des environnements TensorFlow et/ou PyTorch, et du calcul distribué en particulier sur des serveurs GPUs- Excellent niveau écrit et oral en anglais - Autonomie, travail en équipe, productivité, rigueur, et méthodologie ;Une expérience préliminaire de recherche dans le domaine de la génération neuronale de la parole sera particulièrement appréciée.
CandidatureLe candidat doit envoyer un CV et une lettre de motivation à Axel Roebel et Nicolas Obin aux adresses Prenom.Nom@ircam.frLa date limite de candidature est le : 24 juin 2024