logo EDITE Sujets de doctorat

Deep Learning for image recognition

Sujet proposé par
Directeur de thèse:
Doctorant: Micael CARVALHO
Unité de recherche UMR 7606 Laboratoire d'informatique de Paris 6

Domaine: Sciences et technologies de l'information et de la communication

Projet

Cette proposition de thèse s'inscrit dans le domaine de l’intelligence artificielle, et plus précisément en classification et interprétation de données visuelles. Cette thématique consiste à prédire une catégorie sémantique (objet, scène, ou concept plus abstrait) à partir de représentations des données visuelles. C'est un problème difficile qui implique à la fois les champs disciplinaires de la vision par ordinateur et traitement des images, et celui de l’apprentissage statistique. La mise en place de systèmes d'annotation sémantique d'images efficaces et robustes ouvre la voie à de très nombreuses applications critiques en vision artificielle. Outre la catégorisation, qui consiste à attribuer un label global à une image (e.g. une image contient une personne), on peut citer la détection d'objets (qui consiste à localiser un objet dans une image), ou encore le suivi de cibles, et la surveillance (identification de personnes, d’activités, …), mais aussi la robotique pour la navigation (robots, véhicules, drones, …).

Les méthodes de l'état de l'art en reconnaissance d’images sont en pleine évolution actuellement, du fait des excellentes performances obtenues récemment par les méthodes à base d’architecture profondes (deep learning). Ces méthodes, et en particulier les réseaux de neurones convolutifs (CNN), apparaissent aujourd’hui comme dominantes pour la reconnaissance de données visuelles. Depuis leur très large succès à la campagne ImageNet 2012 (Krizhevsky NIPS 2012) dans un contexte de classification large échelle (1 million d’images d’apprentissage, mille classes), les réseaux convolutifs sont largement étudiés. Tous les systèmes de reconnaissance d’images les plus performants présentés lors de la dernière compétition ImageNet à l’automne 2014 sont basées sur des variantes (très) profondes de l’architecture CNN de 2012.

L'objet de la thèse est l'étude d'architectures profondes pour la reconnaissance d'information visuelle dans les images.

Enjeux

L’objectif de la thèse est double et correspondant à des défis clairement identifiés. Il s'agit à la fois d'un travail en modélisation visant à définir des composantes nouvelles au sein de l'architecture profonde adaptées à la modélisation fine du signal image, et d'un travail en apprentissage statistique afin d'examiner l'apprentissage des paramètres d'un tel réseau dans des schémas de supervision divers. La première classe de défis scientifiques concerne principalement la modélisation de l'invariance dans les architectures deep, ainsi que le processus d'agrégation (pooling). La seconde classe de défis porte sur les possibilités d'apprentissage efficace de ce type de réseaux.

Ouverture à l'international

oui, USA, Singapour, Brésil

Remarques additionnelles

Required skills and background:

  • Masters’ in Computer Science / Machine Learning / Computer Vision or related field
  • Excellent academic record.
  • A strong interest and good knowledge of machine learning algorithms for vision, deep learning.
  • Excellent implementation and experimentation skills.
  • The PhD will take place in the MLIA team, at Laboratoire d’Informatique de Paris 6 (LIP6), UPMC, Paris.

    To apply, contact Matthieu Cord , with the following information:

  • A Curriculum Vitæ.
  • A list of courses and grades of the last two years of study
  • (Optional) Names and contact details of two references (people who can recommend you) to contact.