logo EDITE Sujets de doctorat

Réseaux profonds pour le traitement de données complexes évoluant dans le temps

Sujet proposé par
Directeur de thèse:
Doctorant: Antoine Raymond Roger VINEL
Unité de recherche UMR 7606 Laboratoire d'informatique de Paris 6

Domaine: Département Sciences et technologies de l'information et de la communication
Secteur: Mathématiques, STIC, nanotechnologies
Thème: Automatique, productique, robotique, traitement du signal et des images
Sous-thème: Multimédia, masses de données

Projet

De multiples données se présentent sous la forme de données multidimensionnelles complexes et dépendantes évoluant dans le temps. On peut citer les informations provenant de capteurs de mouvement fixés sur une personne et obéissant à certaines contraintes relationnelles, des informations de type appartenance à une communauté d’un ensemble d’individus, ou un graphe d’objets présents sur une image et évoluant durant une scène, etc.

Pour traiter ce type de données divers travaux ont cherché à mélanger des techniques de réduction de dimension, le plus souvent non linéaire, et des modèles d’apprentissage de phénomènes séquentiels (de type markovien par exemple) [4], [5]. La réduction de dimension permet de passer d’un espace d’observation de grande dimension à un espace plus restreint et plus informatif, dans laquelle la modélisation séquentielle peut opérer plus efficacement. On obtient des modèles à états dans lesquels l’état est défini comme une transformation non linéaire de l’observation, et devant obéir à une certaine dynamique. Parmi les multiples techniques de réduction de dimension peu peuvent être couplées et apprises facilement et efficacement simultanément à une modélisation séquentielle. Depuis deux ou trois ans on assiste à un regain d’intérêt pour des réseaux de type perceptrons multi-couches, sous la forme de réseaux dits profonds ou deep [1, 2], du fait de la proposition récente d’approches algorithmiques simples permettant de tirer partie de la capacité de modélisation de tels modèles. Un des intérêts des modèles profonds vient de leur capacité à extraire dans leurs couches cachées successives des informations de plus en plus haut niveau sur l’entrée du système. Les applications en image sont impressionnantes avec l’extraction de primitives visuellement très pertinentes et appropriées pour les types d’images utilisées en apprentissage.

Les modèles profonds ont pour le moment été utilisés comme classifieurs opérant sur des données statiques, souvent images. Leur apprentissage est un problème complexe car les techniques usuelles comme la rétropropagation du gradient sont inefficaces. Des stratégies alternatives simples ont été proposées, ce sont des solutions pratiques à un problème d’optimisation très difficile. Elles ont en commun une initialisation par l’apprentissage successif des couches d’extraction, suivi d’un léger réapprentissage par optimisation globale.

On distingue aujourd’hui les réseaux profonds de type perceptrons [2] et de type machines de Boltzman profondes qui sont des empilements de machines de Boltzman [6]. Ces deux modélisations sont en fait proches. Ainsi une méthode utilisée pour l’apprentissage des couches d’extracteur d’un réseau profond de type perceptron multi-couches consiste à apprendre des modèles de type Machine de Boltzman ou Machine de Boltzman restreintes, chacune pouvant ensuite être transformée en une des couches du réseau [1].

La problématique de la thèse est d’explorer et d’étendre les techniques de réduction de dimension complexes réalisées par des réseaux profonds pour les combiner à des approches statistiques de modélisation séquentielle afin de concevoir des systèmes de modélisation, prédiction, segmentation, et génération de données complexes évolutives. On envisagera les différentes possibilités offertes par des modèles profonds à la fois de type Boltzman et de type perceptron. Une première piste sera d’adapter les réseaux de neurones à poids partagés, assez populaires il y a une dizaine d’années pour la reconnaissance de la parole. L’extension de ce type de modèles par la multiplication des couches est assez naturelle, bien qu’elle pose des questions non triviales. Egalement, on peut envisager des modèles hybrides Markovien et réseaux profonds, ces derniers calculant un état du processus par une réduction de dimension non linéaire, les modèles Markoviens modélisant la dynamique de cet état. Dans ce cadre on pourra exploiter de multiples variantes de modèles Markoviens [3], pour la modélisation fine de trajectoires dans l’espace d’état.

Bien entendu la mise en œuvre de modèles profonds pour le traitement de séquences pose des questions algorithmiques et théoriques complexes que ce soit du point de vue de la compréhension du fonctionnement et du pouvoir d’expression de ces modèles ou de la qualité des algorithmes des algorithmes d’apprentissage utilisés qui restent jusqu’ici assez relativement naifs.

**Références**

[1] Yoshua Bengio, Learning deep architectures for AI, technical report number 1312, 2007.\\ [2] Deep Learning Workshop: Foundations and Future Directions. \\ [3] Kim, S. and Smyth, P. 2006. Segmental Hidden Markov Models with Random Effects for Waveform Modeling. Journal of. Machine Learning Research 7 (Dec. 2006), 945-969.\\ [4] Ali Rahimi, Benjamin Recht, and Trevor Darrell, Learning to Transform Time Series with a Few Examples, IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 29, n° 10, Octobre 2007.\\ [5] P. Sarkar, A.W. Moore, Dynamic Social Network Analysis using Latent Space Models, NIPS, 2006.\\ [6] Tanya Schmah, Geoffrey E. Hinton, Richard S. Zemel, Steven L. Small, Stephen C. Strother: Generative versus discriminative training of RBMs for classification of fMRI images. NIPS 2008: 1409-1416.\\

Enjeux

De multiples données se présentent sous la forme de données multidimensionnelles complexes et dépendantes évoluant dans le temps : ensemble de capteurs de mouvement fixés sur une personne et obéissant à certaines contraintes relationnelles ; informations de type appartenance à une communauté d’un ensemble d’individus ; graphe d’objets présents sur une image et évoluant durant une scène, etc. Une stratégie pour traiter, modéliser, reconnaître, segmenter ou générer de telles données consiste à concevoir des systèmes hybrides combinant réduction de dimension non linéaire et modélisation du processus séquentiel dans l’espace de projection, plus informatif.

La piste explorée dans cette thèse est de combiner des modélisations statistiques d’informations séquentielles, de type Markovien par exemple, dont il existe de nombreuses variantes bien maitrisées aujourd’hui, et des techniques de réduction de dimension par réseaux de neurones profonds. Ces modèles ont démontré ces deux dernières années des capacités étonnantes en terme de réduction de dimension non linéaire et extracteur de caractéristiques mais n’ont pratiquement été utilisés que sur des données de dimension fixe comme des images. La proposition d’architectures hybrides combinant modélisation séquentielle et réduction de dimension par réseaux profonds permettra de développer des architectures capables de traiter toute une variété de données séquentielles complexes.