François Charlet

Actualités, opinions et analyses juridiques et technologiques internationales et suisses

Les chiffres de la collecte invisible de données par Google

14/09/2018 6 Min. lecture Technologies François Charlet

Evidemment, me direz-vous, étant donné le modèle économique de Google qui consiste à fournir des services gratuits en échange de données personnelles utiles au ciblage publicitaire, on pouvait se douter qu’Android, le système d’exploitation pour smartphones de Google, soit une pompe à données. Mais on n’imaginait pas forcément à quel point Android est glouton.

Etude de l’université de Vanderbilt (USA)

Un professeur d’informatique à l’université de Vanderbilt (Nashville, Tennessee, USA) et son équipe ont mené une étude sur la collecte de données par Google. L’étude de 55 pages a été publiée en août dernier et rappelle que Google collecte des informations de deux manières.

La première consiste en une collecte active, c’est-à-dire que l’utilisateur transmet ces informations de manière “directe” et “consciente”, par exemple en se servant des applications de Google comme Youtube, Google Search, Gmail, etc. [Ndla : je doute qu’on puisse parler de transmission “consciente” puisque la plupart des utilisateurs n’ont aucune idée du comportement invasif de ces applications, mais je reprends ici les termes de l’étude.]

La seconde revient donc à une collecte dite passive, en ce sens que la collecte d’informations intervient quand l’application est utilisée mais sans que cette collecte ne soit évidente aux yeux de l’utilisateur ou que ce dernier s’en rende compte.

Méthode d’analyse

Un chercheur a utilisé (et trimbalé avec lui) pendant une journée un smartphone utilisant Android 6.0. L’appareil a été effacé, réinitialisé, et configuré comme un nouvel appareil. Un nouveau compte Google a été créé pour l’occasion afin que Google n’ait pas de connaissance préalable de cet utilisateur ni des intérêts marketing particulier. Le chercheur a ensuite utilisé le smartphone pendant une journée “normale”.

Les données collectées par Google ont été vérifiées en utilisant deux outils fournis par Google : Mon activité et Takeout. Le premier sert à visualiser les données collectées par Google grâce à l’utilisation des services et applications, le second permet notamment de télécharger ces données. Dans l’image ci-dessous, on voit que Google collecte des informations de manière active quand l’utilisateur effectue des actions particulières, mais aussi de manière passive lorsque l’utilisateur se sert du moteur de recherche et que Google en profite pour récupérer sa position géographique. On remarque par exemple que la quantité de donnée récoltée de manière passive dépasse largement la collecte active (environ deux fois plus).

Collecte de données via Android et Chrome

Android et Chrome (le navigateur web) collectent beaucoup d’informations par différents moyens, notamment :

  • Compte Google (nom d’utilisateur, email, numéro de téléphone, etc.)
  • Google Pay (carte de crédit, code postal, date de naissance, etc.)
  • Google Translate (langue parlée par l’utilisateur)
  • Remplissage automatique des formulaires sur le web (noms d’utilisateur adresses, numéros de téléphone, login et mots de passe, etc.),
  • Navigation web (chaque visite d’une page est journalisée si l’utilisateur est connecté à son compte Google dans Chrome, historique de navigation, mots de passe, permissions spécifiques à certains sites web, cookies, etc.),
  • Utilisation du téléphone (type de smartphone, nom de l’opérateur, rapport de crash d’application ou du système, chaque lancement d’une application, etc.),
  • Localisation et mouvements (adresse IP, localisation via les antennes GSM, via le GPS, via Bluetooth, via Wifi, etc.).

N.B. Il est à noter que la localisation via Wifi est active même si l’utilisateur désactive le Wifi. Pour désactiver le traçage, il faut désactiver d’autres paramètres spécifiques.

Collecte de données en arrière-plan

La collecte de données “passive” se déroule donc en arrière-plan, soit sans que l’utilisateur ne déploie une activité particulière ou qu’il utilise son smartphone.

Le test suivant a été réalisé avec un smartphone Android et un iPhone afin de comparer lequel transmet le plus d’informations à son concepteur, respectivement Google et Apple. Les smartphones n’ont pas été utilisés, étaient inctifs et avaient seulement une fenêtre du navigateur web par défaut ouverte (Chrome pour Android, Safari pour iOS).

On constate ainsi que sur une période de 24 heures, Android

  • a effectué environ 900 connexions vers les serveurs de Google (environ 40 par heure),
  • a transmis environ 300 fois la localisation du smartphone (environ 14 fois par heures), et
  • le reste des 600 connexions se répartit assez équitablement entre le PlayStore et d’autres services de Google pour l’envoi de rapport de crash par exemple.

Sur la même durée, l’iPhone

  • a communiqué avec les serveurs d’Apple 120 fois (5 fois par heures environ),
  • a transmis une ou deux fois la position du smartphone, et
  • le reste des connexions concernait l’envoi de rapports de crash notamment (il n’est pas précisé dans l’étude si les iPhone avaient désactivé la fonction d’envoi de statistiques anonymes mais on peut douter que ce soit le cas).

Les chercheurs rappellent que ces résultats ont été obtenus avec des smartphones immobiles et inactifs et indiquent que la fréquence des communications entre le smartphone sous Android avec les serveurs de Google augmente considérablement lorsqu’on se déplace et/ou utilise le smartphone.

Collecte de données en utilisation normale

La même expérience a été effectuée mais cette fois-ci en se servant “normalement” du smartphone sous Android et de l’iPhone. Il est important de noter ici que les chercheurs ont utilisé les smartphones au cours d’une journée normale mais ont fait leur possible pour éviter d’utiliser des services Google (Search, Gmail, YouTube, Maps, etc.). à l’exception du navigateur Chrome.

On remarque qu’en utilisant un smartphone Android, même en évitant les services de Google, ce dernier reçoit plus de deux fois plus de connexions que lorsque le smartphone est inactif (90 par heure au lieu de 40 par heure). 20% de ces connexions ont servi à géolocaliser l’utilisateur (soit 18 fois par heure, environ 1 fois toutes les 3 minutes).

Sur un iPhone, Google n’a effectué “que” deux fois moins de requêtes, celles-ci ayant principalement servi aux services de publicité ciblée et très peu à la géolocalisation. L’iPhone n’a effectué qu’une quinzaine de connexions vers les serveurs d’Apple sur la même période, principalement pour l’envoi de rapports de bug. (Là aussi, il n’est pas précisé si les iPhone avaient désactivé la fonction d’envoi de statistiques anonymes mais on peut douter que ce soit le cas.) Aucune connexion n’a servi à des fins de tracking publicitaire et les connexions à des fins de géolocalisation sont 16 fois plus faibles que celles d’Android.

Collecte de données via les services de Google

L’étude revient aussi sur la collecte de données par Google lorsqu’on utilise ses services. Elle ne fournit cependant pas de chiffres mais donne des exemples du genre d’informations récupéré.

Conclusion

L’étude démontre que Google collecte beaucoup (trop ?) d’informations, et ce sans que les utilisateurs d’Android ou d’iOS n’en aient forcément conscience. A l’heure du RGPD où la transparence est un maître-mot, il serait grand temps que Google (et les autres acteurs comme Facebook et Twitter) explique et montre tout ce qu’il collecte et pourquoi.

Si on peut raisonnablement supposer qu’un utilisateur d’Android est conscient qu’en utilisant des services de Google, ce dernier collecte des données, il en va autrement, à mon avis, lorsque le smartphone est inactif ou lorsqu’on se sert d’un smartphone sous iOS par exemple.

Les juristes parmi vous rétorqueront que l’utilisateur a accepté les conditions générales d’utilisation d’Android et des services de Google, lesquelles indiquent qu’une collecte de données est réalisée. Qu’il ait lu et compris ces conditions générales, ou non, cela ne change rien puisque, juridiquement, elles lui sont opposables.

Certes. Mais les règles ont changé avec l’arrivée du RGPD qui exige un consentement donné par “un acte positif clair par lequel la personne concernée manifeste de façon libre, spécifique, éclairée et univoque”. La justice devra, à l’évidence, se prononcer sur la question de savoir si l’acceptation de longues conditions générales remplit les conditions du consentement ci-dessus.