Differential Privacy, qu'est-ce que c'est ?
Lors du keynote d’inauguration de la conférence des développeurs d’Apple (WWDC 2016) lundi passé, Craig Federighi, l’un des seniors vice-présidents, a déclaré que lorsqu’il s’agit pour Apple d’analyser nos données, tout est réalisé sur le périphérique de manière à ce que nous gardions le contrôle de données.
(Là, je glousse, car je doute qu’un seul ou une seule d’entre nous n’exerce un quelconque contrôle sur ses données. Non pas qu’on ne le souhaite pas, juste que c’est pratiquement impossible au vu de la quantité de traces que nous laissons partout, et du nombre de traqueurs sur Internet.)
Pour ce faire, Apple a expliqué vouloir utiliser ce qu’on appelle l’intimité différentielle, ou “differential privacy”. Vous ne savez pas ce que c’est ? Suivez le guide.
Diffenrential privacy
Vous êtes au courant que la publicité en ligne cherche à vous cibler et que, pour y arriver, on analyse vos comportements au moyen d’algorithmes. Quand on s’aventure dans le domaine de l’apprentissage des machines (comme le “deep learning” ou apprentissage profond), il faut à ces dernières une grande quantité de données (statistiques) pour qu’elles s’améliorent et créent de meilleurs et nouveaux algorithmes. Sauf que plus on nourrit les machines avec nos données, plus elles en demandent et plus on doit alors creuser profondément jusqu’à arriver à des données qui ne sont plus statistiques ou “anonymes” : les données d’identification.
Il s’agit donc de répondre à la question suivante : comment collecter et utiliser ces énormes quantités d’informations tout en garantissant l’anonymat de la personne qu’elles concernent ? C’est là que la diffenrential privacy entre en scène. Elle est censée permettre à des personnes ou sociétés traitant des données personnelles de fournir des données statistiques sans révéler d’information sur une donnée particulière.
Prenez le cas d’un hôpital (imaginé par Stephen Tu, de l’Université de Berkeley, en Californie) qui dispose d’une base de données de patients, ces données indiquant notamment quel patient est atteint, ou non, d’un cancer. L’hôpital aimerait divulguer le nombre total de patients qui ont une forme particulière d’un cancer (donc une fraction du nombre total de patients ayant un cancer, quelle que soit sa forme) pour des raisons scientifiques. La differential privacy répond à la question de savoir si un tiers peut déterminer si un patient a ou non un cancer.
En d’autres termes, il est possible de deviner certaines caractéristiques de personnes à partir de données supposément masquées, anonymes. C’est quand même un comble que des données anonymes révèlent des données personnelles.
La solution consiste donc à ajouter du “bruit” (noise) de sorte que si une recherche parmi les données statistiques risque de révéler des éléments identitaires d’une personne, les résultats de la recherche incluront suffisamment de bruit (ou perturbation) pour rendre cette personne invisible. Les tiers pourraient donc voir des individus imaginaires ayant les mêmes traits que l’individu concerné. Le tout en gardant les données de base intactes. Ainsi, chaque donnée prise individuellement est insignifiante.
Méthode discutable ?
Si l’idée n’est pas nouvelle, son implémentation à une si large échelle (un grand pourcentage des appareils Apple) n’a apparemment jamais été testée.
De plus, une étude de 2013 de l’Université de l’Arizona démontre que, si la diffenrential privacy a des vertus, elle a aussi de gros biais et que les juristes auraient tort de trop s’y fier. Voici un paragraphe de l’introduction, et un de sa conclusion.
The legal community has been misled into thinking that differential privacy can offer the benefits of data research without sacrificing privacy. In fact, differential privacy will usually produce either very wrong research results or very useless privacy protections. Policymakers and data stewards will have to rely on a mix of approaches: perhaps differential privacy where it is well-suited to the task, and other disclosure prevention techniques in the great majority of situations where it isn’t.
As differential privacy experts grapple with the messy problems of creating a system that gives researchers meaningful responses while also providing meaningful disclosure prevention (albeit not differential privacy), they have come back to earth and rejoined the rest of the disclosure risk researchers who toil with the tension between utility and privacy.102 In its strictest form, differential privacy is a farce. In its most relaxed form, it’s no different, and no better, than other methods.
Pour le moment, on ne sait pas exactement ce qu’Apple va faire et si la manière dont elle va implémenter ce nouveau dispositif sera réellement efficace. En se lançant dans la course à l’intelligence artificielle et en voulant affiner les résultats de ses recommandations, Apple a besoin de nos données et d’analyser nos comportements. Et elle l’a admis. Mais si au début chaque interaction effectuée par l’utilisateur reste effectivement insignifiante, il est fort probable que des tendances et modèles se dessinent.
Car si les efforts d’Apple dans le domaine de la protection de la vie privée sont à saluer, une question demeure : Apple va-t-elle parvenir à régater avec Google qui ne fait pas de la protection des données un argument marketing, sinon l’un de ses chevaux de bataille ?
Affaire à suivre, donc.