logo EDITE Sujets de doctorat

Approche de l'anonymisation des données en fonction du niveau de risque associé

Sujet proposé par
Directeur de thèse:
Doctorant: Amine LAHOUEL
Unité de recherche UMR 7102 Laboratoire de recherche d'EURECOM

Domaine: Sciences et technologies de l'information et de la communication

Projet

INTRODUCTION ET CONTEXTE À l’aire des données massives (big data) et des avancées en matière d’algorithmes d’analyse des données, le traitement massif et automatisé des données devient incontournable pour une variété de raisons, de la protection des systèmes d’information en analysant les traces laissées par l’utilisation des systèmes afin de détecter une possible fuite de données, à l’optimisation de la gestion de l’énergie solaire en fonction de données collectées auprès de milliers de capteurs. La collection et l’utilisation de ces données amène un ensemble de questions relatives au respect de la vie privée des individus, questions sensibles sur lesquelles un ensemble de lois ont et continuent d’être édictées dans un large ensemble de pays. Cependant, ces lois ne sont pas toujours en accord entre elles mais surtout, elles imposent un réel challenge technique. De la même manière que l’on ne peut garantir qu’un logiciel est exempt de toute vulnérabilité, il n’est pas possible de garantir l’impossibilité d’identifier une personne à partir d’un ensemble de données. Il est possible cependant d’estimer un risque de ré-identification d’une personne en faisant des hypothèses quant à l’existence ou non de sources externes de données ou bien en précisant un nombre maximal de requêtes pouvant être fait sur cet ensemble d’informations. La seconde partie de l’équation est celle de l’utilité des données collectées afin de parvenir à une analyse pertinente. Il est admis dans la communauté scientifique qu’anonymiser des données réduit l’utilité de ces données pour les analyses afférentes, cependant deux questions se posent sur cette valeur d’utilité, qui peuvent être adressées sous la forme des intuitions suivantes : - Y a-t-il moyen d’optimiser l’anonymisation des données en fonction du type d’analyse recherché ? Une approche naïve serait de penser que certaines données sont plus pertinentes pour certaines analyses, et que prendre en compte ce but final peut amener à une anonymisation garantissant une réduction d’utilité minimale tout en gardant une protection maximale contre la ré-identification. - Est-il possible de laisser un utilisateur faire le choix éclairé d’augmenter son risque de ré-identification afin d’obtenir un meilleur résultat d’analyse ? De manière tout aussi naïve, il est imaginable que certains types d’analyses valent la peine de s’exposer davantage que pour d’autres analyses – par exemple, opter pour un chiffrement réversible d’adresses IP implique une plus faible protection des données mais permet de tracer un voleur de données jusqu’à la machine ayant été utilisée pour le vol. En d’autres termes, nous voulons nous intéresser à un modèle d’anonymisation de données où le type et le niveau d’anonymisation est basé sur le calcul d’un risque de ré-identification, mis en balance avec le niveau de précision pouvant être atteint en faisant des calculs sur ces données ainsi anonymisées. SAP est impliqué dans le projet européen TOREADOR (http://www.toreador-project.eu/), qui se penche notamment sur ces questions. Le principal objectif de TOREADOR est de définir une plate-forme permettant à tout utilisateur de choisir les bons critères quant aux capacités d’analyse et de sécurité dont il a besoin, et d’obtenir en réponse le type de service dans les nuages approprié ainsi que la configuration à exécuter sur la plate-forme. TOREADOR vise à définir les divers critères nécessaires (temps de réponse, quantité de données et type de données à gérer, type d’analyse à effectuer) pour la plateforme d’analyse à déployer, les aspects sécurité et respect de la vie privée étant des critères primordiaux. TOREADOR vise également à fournir des services de sécurité et d’anonymisation permettant d’atteindre les objectifs fixés en termes de pertinence d’analyse et de sécurité des données personnelles. Quatre plateformes pilote, chacune ayant ses propres types de données et ses propres besoins de sécurité, sont mise à disposition via le projet et seront utilisées pour valider les approches effectuées au sein de la thèse. SAP a développé un outil de détection d’intrusion au niveau applicatif, permettant par l’analyse de logues de serveurs de détecter des attaques contre les systèmes SAP tels que l’exploitation de vulnérabilités non corrigées, l’utilisation de techniques de débogage pour contourner les systèmes de protection ou le fait qu’un utilisateur change subitement sa façon de travailler, pouvant laisser penser à un attaquant réutilisant un mot de passe volé. Pour ce pilote, il sera important d’équilibrer le besoin de précision de la détection, tout en protégeant l’employé contre des usages détournés de l’outil (par exemple pour calculer son efficacité) et en prenant soin de ne pas divulguer accidentellement d’informations sensibles (par exemple : un mot de passe apparaissant dans les logues). Lightsource est une entreprise déployant des systèmes de panneaux solaires, aussi bien dans des champs que pour des personnes privées. Via les avancées de la domotique, Lightsource offre la possibilité à tout un chacun d’utiliser sa propre énergie produite, de revendre celle qu’il n’utilise pas et d’acheter de l’énergie au réseau global lorsqu’il n’en produit pas assez pour sa consommation personnelle. Ce pilote génère énormément de données pouvant être analysées afin de déterminer si et quand une habitation est occupée et ce à un niveau très précis. Il sera important de comprendre comment protéger les habitants de telles fuites de données, d’autant plus que ces dernières peuvent permettre de prédire les absences futures et ouvrir toute sorte de scénarios incluant la possibilité de planifier un cambriolage. Jot est une entreprise revendant des espaces publicitaires sur les sites Internet. Ils sont soumis au problème de ‘fraude au clic’, une technique employée par les hackers consistant à infecter des ordinateurs et leur ordonner de ‘cliquer’ sur des pages web afin de générer un gain financier. 5 Il sera intéressant de se pencher sur ce type d’attaque et de s’assurer que les consommateurs légitimes de ces publicités ne se retrouvent pas accusés à tort de fraude, notamment. Enfin, AVIO est une entreprise fabriquant des pièces détachées pour la construction d’avions. Ils ont un besoin d’analyser leurs données générées afin de prédire les futures pannes de la chaine de production. Etant donné l’hétérogénéité des systèmes à considérer dans ce scénario, certains sujets de protection de données seront communs avec les buts des autres pilotes – en plus de problématiques plus spécifiques pouvant être découvertes au fur et à mesure de l’avancée des travaux de thèse et du projet européen. En conclusion, de nombreux problèmes de recherche sont soulevés par la conception et la mise en place d’une telle plateforme d’analyse de données massives. Un certain nombre, autour du compromis entre utilité de l’analyse et respect de la vie privée, formeront le coeur de ce sujet de thèse.

Enjeux

OBJECTIFS DE RECHERCHE ET CARACTERE INNOVANT Les recherches de M Lahouel s’organiseront autour des objectifs suivants : - Analyse des besoins d’analyse de données de type données massives dans les pilotes disponibles et généralisation des types de besoins d’analyse et des types de données à analyser selon une matrice prenant en compte les besoins fonctionnels (quantité de données, précision, type d’analyse, temps de réponse, besoin de ré-identifier des données) et non-fonctionnels (chiffrement des données, archivage, audit) - Développement d’une méthodologie pour définir une quantification de l’utilité d’une donnée pour un calcul et l’évolution de cette valeur en fonction de la modification de la donnée à des fins de sécurité (pseudonymisation, ajout de bruit, généralisation) 7 - Développement d’une méthodologie pour définir une quantification du risque de ré-identification d’une donnée et de la résistance de la donnée protégée face à divers types d’attaque et l’évolution de cette valeur en fonction du choix de protection - Développement d’une plateforme permettant de prendre en entrée le type de données, le type d’analyse à effectuer et proposant une estimation du risque et de la précision de l’analyse, permettant d’évaluer ou d’optimiser le meilleur compromis sécurité / pertinence selon les critères spécifiés par l’utilisateur du service - Développement d’une librairie de services d’anonymisation permettant d’appliquer les traitements adéquats d’anonymisation des données en fonction des choix effectués via la plateforme - Analyse et évaluation des limites de cette approche, validation du respect de la Data Protection Regulation, évaluation de l’approche dans un contexte où l’un des éléments de la chaine (data provider, data owner) ne fait pas partie de l’Union Européenne. A travers ces objectifs, M. Lahouel développera une méthodologie jointe d’anonymisation et d’analyse des données permettant d’optimiser le compromis entre utilité et respect de la vie privée. Cette méthodologie pourra s’appuyer techniquement sur les concepts de statistique robuste et d’optimisation robuste (ou minmax) mais devra les étendre au contexte présent. En effet, cela nécessitera de résoudre un certain nombre de challenges nouveaux, en particulier le fait de travailler avec des données non structurées et le fait de considérer de façon conjointe l’utilité et l’anonymité (il faudra proposer de nouvelles méthodes d’analyse des données).