[]

Modèle statistique du signal d'un instrument de musique et synthèse par ce modèle.

Proposé par: Xavier Rodet
Directeur de thèse: Xavier Rodet
Unité de recherche: UMR 9912 Sciences et Technologies de la Musique et du Son

Domaine: Département Sciences et technologies de l'information et de la communication
Secteur: Mathématiques, STIC, nanotechnologies
Thème: Automatique, productique, robotique, traitement du signal et des images
Sous-thème: Acquisition multicomposante et haute résolution

Projet

Dans cette thèse, on se propose d’étudier la mise en oeuvre de modèles statistiques du genre GMM (Gaussian Mixture Models) et HMM (Hidden Markov Models) pour apprendre un modèle du signal (son) produit par un instrument de musique, et pouvoir l’utiliser en synthèse à partir d’une partition, c’est à dire de faire jouer la partition par cet instrument. L’étude concerne les instruments entretenus (vents, cordes, bois, cuivres). La base de données d’apprentissage du modèle est constituée d’enregistrements qui doivent, en principe, couvrir l’ensemble des notes, transitions entre notes, articulations, phrasés, nuances, modes de jeux, expressivités, etc. Un tel modèle appris sur une base d’enregistrements permettra de construire automatiquement un synthétiseur d’un instrument. Les principales problématiques sont la méthodologie de réduction de la taille des enregistrements à faire, la modélisation statistique correcte des sons et la qualité sonore de la technique de synthèse.

Dans le domaine de la modélisation de la parole, les modèles statistiques du genre GMM (Gaussian Mixture Models) et HMM (Hidden Markov Models) ont montré de remarquables propriétés. Non seulement ils permettent de reconnaitre la parole, mais, plus récemment ils ont été adaptés à la synthèse de la parole à partir du texte avec des résultats étonnants. Ainsi la synthèse HMM, développée par l’équipe HTS permet d’apprendre l’élocution d’un locuteur sur une base de données d’enregistrement de ce locuteur : la voix spécifique de ce locuteur est remarquablement "capturée" dans le modèle (par exemple la voix de l’acteur André Dussollier modélisée en HMM à l’Ircam). De même, en conversion d’identité de voix, les caractéristiques du locuteur source et du locuteur cible sont apprises dans un modèle conjoint.

Le principe de la synthèse HMM, développée par l’équipe HTS (hts.sp.nitech.ac.jp), est la modélisation jointe du spectre (conduit vocal), de la fréquence fondamentale (source) et des durées pour chaque phonème en contexte par une HMM. Lors de la synthèse, un macro-modèle est construit à partir de la concaténation des HMM correspondant au phonèmes en contexte de la séquence phonétique à synthétiser. Les durées des états sont générées dans un premier temps. Ensuite, la trajectoire des paramètres spectraux est estimée à partir d’un algorithme spécifique de génération des paramètres spectraux [Tok00] prenant en compte la dépendance entre les paramètres statiques et dynamiques.

Comme la base de données d’apprentissage des modèles devrait, en principe, couvrir tous les contextes possibles, sa taille serait énorme et rendrait l’enregistrement irréalisable. Ce problème a été abordé par exemple pour le logiciel de synthèse "synful" (http://www.synful.com/ , [Lindemann,07]) qui utilise des phrases, ou même des pièces musicales complètes, repésentant toutes sortes d’articulations et de phrasés. Il faudra donc inventer une méthodologie pour choisir automatiquement les données à enregistrer afin de limiter la durée des enregistrements à faire (ou à trouver disponibles) pour constituer la base de données d’apprentissage [Krul et al.07].

Les deux objectifs principaux de la thèse sont : 1. La compréhension et la résolution des problèmes posés par l’apprentissage de modèles statistiques, et la synthèse, du son produit par un instrument dans les situations réelle de jeu musical d’une pièce. 2. La création automatique d’un modèle de synthèse d’un instrument à partir d’un enregistrement de durée assez limitée pour être possible. Cel permettra de construire automatiquement un modèle de synthèse pour tel ou tel type d’instrument, et même peut être pour un instrument particulier, ou pour le style de jeu d’un interprète.

Enjeux

Le principal enjeu de la thèse est le développement de modèles statistiques de signaux complexes, en grande dimensionnalité et où les états sont très dépendants du contexte local (les notes voisines) et du contexte plus large (toutes les modalités de jeu).

Par rapport à la synthèse de parole par concaténation d’unités, la synthèse de parole par modèle de Markov cachés (HTS) psésente des avantages et des inconvénients. Elle ne nécessite pas le stockage de toute une base de données d’enregistrements, mais seulement le stockage des paramètres des modèles. Elle permet également un contrôle précis des caractéristiques de la synthèse. Il est ainsi possible de contraindre temporellement la synthèse de manière à suivre une partition. Un inconvénient de ce type de synthèse est un manque de clarté lié à la modélisation imparfaite de l’enveloppe spectrale, et la mauvaise qualité acoustique de la voix synthétisée due à la modélisation simpliste de la structure fine du spectre et de sa phase, donc de la source glottique dans le cas de la voix. Pour la synthèse de sons instrumentaux, la très haute qualité est essentielle. D’une part, la modélisation de l’enveloppe spectrale sera améliorée, notamment par la technique True-Envelope([Rob05], [Vil06, 07, 08]). D’autre part, les modèles devront être complétés par une paramétrisation de la structure fine du spectre et de sa phase en plus de l’enveloppe spectrale. Diverses techniques existent pour cela, comme les excitations mixtes, les enveloppes généralisées à la fréquence et à la phase, etc.

Se connecter

Attention! Moteur de recherche efficace!
EDITE de Paris | SPIP | Remarques | Se connecter | Plan du site | Suivre la vie du site Atom 1.0 | | | Facebook | Twitter | LinkedIn