logo EDITE Juliana SILVA BERNARDES
Identité
Juliana SILVA BERNARDES
État académique
Thèse soutenue le 2012-03-28
Sujet: Evolution et apprentissage automatique pour l'annotation fonctionnelle et la classification des homologies lointains en protéines.
Direction de thèse:
Laboratoire: personnel permanent
Voisinage
Ellipse bleue: doctorant, ellipse jaune: docteur, rectangle vert: permanent, rectangle jaune: HDR. Trait vert: encadrant de thèse, trait bleu: directeur de thèse, pointillé: jury d'évaluation à mi-parcours ou jury de thèse.
Productions scientifiques
oai:hal.archives-ouvertes.fr:hal-00684130
Improving model construction of profile HMMs for remote homology detection through structural alignment
BMC Bioinformaticspeer-reviewed article 2007-03-19
oai:hal.archives-ouvertes.fr:hal-00684135
Structural descriptor database: a new tool for sequence based functional site prediction
BMC Bioinformaticspeer-reviewed article 2008-03-10
oai:hal.archives-ouvertes.fr:hal-00684137
A discriminative method for family-based protein remote homology detection that combines inductive logic programming and propositional models
BMC Bioinformaticspeer-reviewed article 2011-03-23
oai:tel.archives-ouvertes.fr:tel-00684155
Evolution et apprentissage automatique pour l'annotation fonctionnelle et la classification des homologies lointains en protéines.
La détection d'homologues lointains est essentielle pour le classement fonctionnel et structural des séquences protéiques et pour l'amélioration de l'annotation des génomes très divergents. Pour le classement des séquences, nous présentons la méthode "ILP-SVM homology", combinant la programmation logique inductive (PLI) et les modèles propositionnels. Elle propose une nouvelle représentation logique des propriétés physico-chimiques des résidus et des positions conservées au sein de l'alignement de séquences. Ainsi, PLI trouve les règles les plus fréquentes et les utilise pour la phase d'apprentissage utilisant des modèles d'arbre de décision ou de machine à vecteurs de support. La méthode présente au moins les mêmes performances que les autres méthodes trouvées dans la littérature. Puis, nous proposons la méthode CASH pour annoter les génomes très divergents. CASH a été appliqué à Plasmodium falciparum, mais reste applicable à toutes les espèces. CASH utilise aussi bien l'information issue de génomes proches ou éloignés de P. falciparum. Chaque domaine connu est ainsi représenté par un ensemble de modèles évolutifs, et les sorties sont combinées par un méta-classificateur qui assigne un score de confiance à chaque prédiction. Basé sur ce score et sur des propriétés de co-ocurrences de domaines, CASH trouve l'architecture la plus probable de chaque séquence en appliquant une approche d'optimisation multi-objectif. CASH est capable d'annoter 70% des domaines protéiques de P. falciparum, contre une moyenne de 58% pour ses concurrents. De nouveaux domaines protéiques ont pu être caractérisés au sein de protéines de fonction inconnue ou déjà annotées.
PhD thesis 2012-03-28
Soutenance
Thèse: Combination de l'evolution et apprentissage automatique pour l'annotation fonctionnelle et la classification des homologies faible en protéines
Soutenance: 2012-03-28
Rapporteurs: Yann GUERMEUR    Alberto DAVILA