logo EDITE Sujets de doctorat

Developpement d'un modele mathématique pionnier d'interactions entre la cellule souche hematopoietique (CSH) et son microenvironnement

Sujet proposé par
Directeur de thèse:
Encadré par
Doctorant: Adel Farid AIT-HAMLAT
Unité de recherche UMR 7238 Laboratoire de Biologie Computationnelle et Quantitative

Domaine: Sciences et technologies de l'information et de la communication

Projet

Introduction Les CSHs et les cellules stromales constituent un « couple cellulaire » jouant rôle crucial dans l’acquisition du potentiel souche au cours du développement et son maintien chez l’adulte. L’identité moléculaire de la CSH ainsi que la nature de ses interactions avec la cellule stromale restent pour l’instant mal connues. Cette connaissance est néanmoins essentielle si l’on souhaite manipuler les CSHs ex vivo ou en créer de novo à partir de cellules souches pluripotentes ou par reprogrammation de cellules somatiques. Jusqu’à présent, l’identification de régulateurs intrinsèques ou extrinsèques des CSHs a majoritairement été réalisée au travers d’approches utilisant des gènes candidats. Cette vision est cependant réductrice voire inexacte car il est aujourd’hui bien établi que la robustesse du maintien des fonctions cellulaires repose sur l’activité intégrée de réseaux interconnectés de gènes et non sur l'activité d’un petit nombre de ceux-ci. De plus, le niveau de régulation transcriptomique ne représente qu‘une partie du contrôle homéostatique cellulaire. Pour obtenir une vision plus proche de la réalité permettant de nouvelles approches thérapeutiques en cas de perturbations responsables de maladies, il faut intégrer a minima le niveau des ARN régulateurs aussi bien les microARN que les longs ARN non-codants. De plus les SNPs (Single Nucleotide Polymorphism) à proximité (en cis) de certains gènes peuvent être utilisés comme facteurs d'orientation des réseaux génétiques. Il est clair que la connaissance approfondie de la mise en place et du maintien de fonctions cellulaires données doit passer par une compréhension des différents niveaux de contrôle moléculaire et leur intégration. L'étape ultime de cette intégration est de révéler des structures fondamentales (par exemple clusters de microARNs ou usines à transcription) orchestrant les fonctions cellulaires à l'échelle d'une cellule unique ou de cellules organisées en un ensemble fonctionnel (l'exemple typique nous paraissant être la CSH associée à la cellule stromale). Si l’étude de réseaux transcriptomiques de cellules eucaryotes est aujourd’hui possible, l’intégration des différents niveaux de régulation reste un défi pour la biologie du fait des quantités extrêmement importantes de données à traiter ainsi que de l’absence d’algorithmes adaptés. Ceci est évidemment multiplié si l’on s’adresse à deux types cellulaires différents ayant des interactions l’un avec l’autre (complémentarité fonctionnelle).

Enjeux

Sujet, organisation de la thèse et attendus de la formation.

Le sujet de thèse que nous proposons consiste, au travers d’un système modèle que l’équipe T. Jaffredo connaît bien, composé de deux cellules distinctes portant des fonctions définies, la CSH et la cellule stromale, et pour lequel nous possédons un nombre conséquent de données génomiques que nous allons encore augmenter, de créer une nouvelle dimension d’analyse, d’intégration et de représentation des réseaux géniques, de leurs interactions et de leurs régulateurs qui sera applicable de manière générale à l’identification de la carte moléculaire de types cellulaires uniques et d'au moins deux types cellulaires en interaction. Cette étude, à l’interface entre la biologie des cellules souches et la biologie computationnelle, intègrera des données transcriptomiques et génomiques multi-échelle (ARNm, microARN, ARN longs non-codants, SNPs) qui ont été ou sont en train d’être générées par l’équipe de T. Jaffredo, à une chaine d’analyse statistique pour la reconstruction d’un réseau de régulation multi-échelle et l’inférence des relations de causalité entre ses composantes. Les différents aspects algorithmiques et d’analyse statistique seront développés par l’équipe d’A. Carbone.

Le stage doctoral comprendra, pour l’étudiant, la possibilité de préparer des échantillons biologiques. En fait, l’équipe de T. Jaffredo a déjà produit et produira plusieurs jeux de données NGS et transcriptomiques pour les CSHs et les cellules stromales, ainsi que le séquençage du matériel génétique (mRNA, miRNA, long ncRNA, sequences protéiques) échangé par les deux cellules au travers de la production d’exosomes. Plusieurs conditions expérimentales de contrôle et de perturbation du système seront testées et utilisées pour l’analyse des données produites au cours de la thèse.

Le traitement de données biologiques et le développement d’une approche algorithmique nouvelle d’analyse causale de ces données multi-échelles représenteront le coeur du travail de cette thèse. L’étudiant(e) devra avoir une formation approfondie des outils algorithmiques et mathématiques utilisés en bioinformatique et biostatistiques et une expérience de base en biologie (connaissances en biologie moléculaire et, possiblement, préparation d'échantillons d'ADN et d'ARN pour les analyses à haut-débit). Il (elle) sera accueilli(e) en partie dans les locaux de l’équipe de T. Jaffredo (à l'UPMC), et en partie dans les locaux de l’équipe de A. Carbone (aux Cordeliers) pour la durée de son doctorat. Le(a) doctorant(e) sera en relation permanente avec les deux équipes qui collaboreront à la mise en oeuvre des algorithmes pour l’analyse des données produites. Il s’agira de l'élaboration d'algorithmes d’analyse des réseaux de gènes qui incluent les données NGS (mRNAs, miRNAs, long ncRNAs, SNPs, facteurs de transcription et autres). Cette intégration multiple d’information à l’échelle de la cellule sera réalisée en considérant différents contextes biologiques (populations des CSH et des cellules stromales avant et après contact, cellules stromales normales ou modifiées par gain ou perte de fonction de micro-ARNs). Les réseaux produits seront orientées. Les liens directs et indirects de causalité entre les différentes composantes d’un réseau seront inférés à partir des données expérimentales grâce à une approche algorithmique nouvelle qui mélangera les algorithmes d’inférence bayesienne aux algorithmes basés sur des contraintes structurales, en acquérant les avantages des deux approches classiques. Nous planifions de construire le réseau qui gouverne le comportement des CSH, le réseau qui gouverne le comportement des cellules et le réseau qui inclut le partage d’information (échange de matériel génétique) entre les deux type de cellules. Ces réseaux globaux (qui pourront éventuellement fusionner en un réseau unique) incluront l’identification des différents niveaux de contrôle de l’interaction des deux cellules et les fonctions moléculaires associées à chacune des deux cellules jouant un rôle dans ce contrôle.

La visualisation des données expérimentales (de nature statique ou dynamique), des réseaux causaux déduits des corrélations entre gènes, et des réseaux de voies métaboliques ou de signalisation reposant sur les données de la littérature, aidera à leur analyse et à leur compréhension. Une réflexion du(de la) doctorant(e) devra être réalisée dans ce but, avec implémentation d’outils adaptés.

L’algorithme de clustering utilisé pour la construction des réseaux de gènes non dirigés sera aussi revisité et éventuellement amélioré. Deux approches complémentaires basées soit sur la fouille de données (Ingenuity, Genomatix) ou sur la corrélation entre l’expression des gènes (WGCNA) seront entre autres envisagées pour la construction des réseaux moléculaires.

L’analyse de la dynamique du réseau global pourra enfin être abordée par des expériences de perturbation d’expression génique (perte ou gain de fonctions de microARNs dans les cellules stromales) et de cultures de cellules stromales exposées ou non aux CSHs. Des expériences pilotes réalisées dans l ‘équipe de T. Jaffredo suggèrent en effet que le transcriptome des cellules stromales est modifié après un contact de 4 jours en présence de progéniteurs hématopoïétiques. Ces expériences permettront la description in silico des réseaux plus réalistes et possiblement d'identifier des cibles moléculaires d'intérêt thérapeutique (amplification in vitro des CSH, recherche de drogues pour le traitement des hémopathies malignes…).

La formation doctorale devrait aboutir à l’acquisition de savoirs sur l’analyse de données moléculaires complexes, la construction de réseaux géniques au sein d’une cellule eucaryote et la modélisation d’interactions moléculaires entre deux entités cellulaires complémentaires. Le développement d’une approche nouvelle d’analyse causale de données biologiques multi-échelles constituera le cœur de la thèse.

Ouverture à l'international

Le sujet de these porte sur des questions de fort intérêt pour la biologie du développement. La reconstruction de réseaux causaux est centrale et importante pour plusieurs applications informatiques, biologiques ou non.