logo EDITE Sujets de doctorat

Géometrie des interactions protéiques

Sujet proposé par
Directeur de thèse:
Doctorant: Chloe Agathe Prune DEQUEKER
Unité de recherche UMR 7238 Laboratoire de Biologie Computationnelle et Quantitative

Domaine: Sciences et technologies de l'information et de la communication

Projet

Les protéines régulent les processus biologiques à travers des réseaux d’interactions dynamiques complexes. Les surfaces d’Interaction Protéine-Protéine (IPP) sont de plus en plus reconnues comme des cibles thérapeutiques (Azzarito et al., 2013; Basse et al., 2013; Bienstock, 2012; Laine et al., 2010). Leur modulation (inhibition/activation) nécessite une prédiction précise des résidus présents à l’interface. Un aspect important est qu’il ne suffit pas de connaître un partenaire cellulaire d’une protéine et/ou la localisation approximative du site d’interaction. De nombreuses questions biologiques associées aux IPP demandent en effet une description détaillée de l’organisation géométrique des résidus interagissant. Certains sites d’interactions sont partagés par plusieurs partenaires à des moments différents. D’autres constituent de larges surfaces où plusieurs protéines peuvent se lier. Il est donc crucial d’identifier les déterminants moléculaires qui font qu’une surface d’interaction est ou non exploitée par un ou plusieurs partenaires. Prédire ces différences est de première importance pour notre compréhension des réseaux IPP et pour le design d’interactions artificielles.

Le projet s’étend dans deux directions principales. Dans une première phase, il ce concentre sur l’analyse différenciée des classes d’interaction protéine-protéine (enzyme-inhibiteur, anticorps-antigène, protéine de signalisation-petite molécule, etc.) et sur la découverte de propriétés spécifiques de ces interactions, et la caractérisation de la géométrie des sites de liaison (Laine&Carbone, 2015, Ripoche et al. 2015). De nouvelles mesures et de nouveaux algorithmes de classification géométrique, regroupant les résidus, devront être développés pour permettre d’identifier les caractéristiques géométriques des différentes classes et possiblement, de distinguer les différentes surfaces d’interaction qui peuvent être situées à proximité sur la surface voire se chevaucher, ou même être cachées dans le volume d’une protéine et se révéler seulement lors de l’association avec le partenaire.

Dans une deuxième phase, le projet portera sur l’intégration systématique d’information provenant de la prédiction des sites d’interaction protéine-protéine, de la coévolution entre protéines, de propriétés physico-chimiques attendues à la surface d’interaction et de la géométrie des interactions. Cette approche systématique et applicable à large échelle demande le développement d’algorithmes adaptés aux différents cas d’interaction protéine-protéine et d’interaction avec d’autres biomolécules. L’analyse de la géométrie de la surface (développée dans la première phase de la thèse) devrait amener à une description détaillée, au niveau du résidu individuel, de l’interaction et permettre une analyse fonctionnelle des propriétés du réseau IPP.

Une troisième partie sera développée, s’il reste du temps, sur le design de molécules interagissant avec les surfaces protéiques.

Applications de l'approche développée. Les données d’interactions protéine-protéine pour plus de 2200 protéines humaines, dont la structure est connue, ont été générées par docking moléculaire dans le cadre du projet Help Cure Muscular Dystrophy (HCMD). Ce projet s'intéresse particulièrement aux protéines impliquées dans les maladies neuromusculaires mais pas seulement. Les résultats de la thèse devraient amener à une prédiction précise des sites de liaison à la surface d’une protéine qui jouent un rôle dans l'interaction avec d'autres protéines, à modéliser cette interaction et à identifier si deux protéines sont des partenaires potentiels dans la cellule.

La phase 1 du projet HCMD s’est terminée en Juin 2007 et son calcul a duré environ 7 mois. Les résultats obtenus durant cette phase ont été publiés récemment (Lopes et al 2013). HCMD a tourné depuis début mai 2009 dans sa phase 2 sur la World Community Grid, la plus grande grille de calcul au niveau mondial, qui est constituée par des centaines de milliers d'ordinateurs d'internautes. Dans cette thèse, nous souhaitons analyser les données issues de la phase 2 du projet HCMD à la lumière des approches développées pour l’analyse des 168 protéines issues de la phase 1 et décrites dans (Lopes et al. 2013), ainsi que des nouvelles approches de prédiction des sites d’interaction protéine-protéine développées récemment au laboratoire (Laine&Carbone 2015).

Enjeux

La liste des défis est détaillée dans "Projet".

La méthodologie développée dans la thèse permettra de contribuer à la comprehension et à la définition des réseaux IPP. La reconstruction de ces réseaux est d'intérêt primaire pour la biologie systémique d'aujourd'hui.

Outre à la méthodologie développée il s'agira d'appliquer les nouvelles approches à des données biologiques nouvelles (cross-docking complet entre 2200 protéines humaines - un dataset unique) et d'intérêt premier pour la recherche biologique. Ce dataset est d'intérêt fundamental pour la communauté internationale qui développe des méthodes de modélisation moléculaire parce qu'il contient un grand nombre de paires de protéines (2200x2200) pour lesquelles les interactions entre partenaires mais aussi entre non-partenaires ont été réalisées.

Ouverture à l'international

Ce sujet de thèse est d'intérêt fondamentale en biologie computationnelle ainsi que d'intérêt directe pour les compagnies pharmaceutiques (compréhension des surfaces d'interaction protéiques à l'échelle du résidu, recherche de petite molécules inhibitrices et design de molécules).

Remarques additionnelles

Données existantes qui seront utilisées pendant la thèse :

Les protéines étudiées pendant la thèse seront décrites par des familles de séquences homologues (cad provenant de différentes espèces) et par des structures cristallographiques. Pour certains ensembles de ces protéines on connaitra les partenaires, mais pour la vaste majorité cette information sera prédite.

Pour plus d’information sur le projet HCMD voir la vidéo https://www.youtube.com/watch?v=Bb4dcX64AhA

Une synthèse des résultats du projet HCMD: http://www.ihes.fr/%7Ecarbone/HCMDproject.htm

Les projets dans l'équipe: http://www.lcqb.upmc.fr/AnalGenom/projects.html

Références bibliographiques :

A.Lopes, S.Sacquin-Mora, V.Dimitrova, E.Laine, Y.Ponty, A.Carbone, Protein-protein interactions in a crowded environment: an analysis via cross-docking simulations and evolutionary information, PLoS Computational Biology, 2013.

E.Laine, A.Carbone, The geometry of protein-protein interfaces reveals the multiple origins of recognition patches, manuscrit soumis, 2015.

H.Ripoche, E.Laine, N.Ceres, A.Carbone, JET2 Viewer: a web server predicting multiple protein-protein interaction sites for PDB structures, manuscrit en preparation, 2015.

Co-encadrement : Alessandra Carbone (Alessandra.Carbone@lip6.fr) et Elodie Laine (Elodie.Laine@upmc.fr)

Lieu du stage : Laboratoire de Biologie Computationnelle et Quantitative, 15 rue de l’Ecole de Médecine, 75006 Paris.