Surveillance du web

Sujet : Mécanisme de la donnée, Préparation : au pire !,
Remarques : Sujet très dense

Auparavant, les ordinateurs nous appartenaient et utilisaient du logiciel que nous pouvions auditer et modifier et nos données étaient stockées localement (sur nos ordinateurs).

Le temps où l’ordinateur était une affaire de spécialiste est maintenant bien loin, car l’informatique et internet nous touchent, nous qui sommes équipés, au quotidien. Nos smartphones laissent fuiter des données (par exemple de géolocalisation*) et nos ordinateurs font de même avec la liste/l'historique des pages web que nous visitons.

*géolocalisation : une base de données de localisation permet de déduire des informations détaillées sur les habitudes et modes de vie des personnes : lieux de vie et de travail, sorties, loisirs, mobilités, mais aussi éventuellement fréquentation d’établissements de soins ou de lieux de culte.

Nos informations sont de moins en moins bien protégées : perte de confidentialité dans la collecte des données de nos terminaux et de navigation sur le web, lecture du contenu de nos messages (mails, SMS…), divulgation de nos informations (images-photos, tél...) personnelles (voir les affaires qui ont fait grand bruit des stars américaines Jennifer Lawrence et Kirsten Dunst en 2014).

La collecte de nos données est inquiétante dans la mesure où elle est souvent à notre insu, nous ne nous en connaissons pas réellement la teneur et nous ne connaissons encore moins leur usage.

Essayer le module Lightbeam pour Firefox
Lightbeam propose une visualisation interactive permettant de voir les relations entre les sites visités et les sites tiers.

Les BIG DATA ... ou mégadonnées, grosses données ou encore données massives

Ces données ont été obtenues par des cookies, par l’analyse des achats sur des sites de e-commerce, par l’historique de nos navigations, par l’analyse aussi des profils, posts et commentaires laissés sur les réseaux sociaux, les applications mobiles, signaux GPS, connexion wifi, mais aussi par les données des objets connectés (frigo, bracelet, brosse à dent, compteur électrique...) et bien d’autres encore.
La masse est telle que tout est traité par des algorithmes (machine et deep learning, mais c'est là un autre sujet !).

L'agrégation et le croisement de ces données permet d'analyser et de construire des profils utilisateurs (profilage).
A terme, définir des profils utilisateurs/consommateurs aux comportements prédictifs, comme prédire des intentions et habitudes de consommation.
Même beaucoup mieux encore !

Big Data: que fait-on de nos données ? - Reportage de la Radio Télévision Suisse de 2015, ancien mais qui a le mérite d'être limpide pour les non-spécialistes !

Les outils du Big Data, et des analyses qui en sont issues, peuvent être utilisés dans presque tous les domaines. Pour l’usage de statistiques dans le sport de haut niveau, le programme de surveillance PRISM de la NSA, la médecine analytique, le recrutement, les analyses financières, les flux routiers, le marketing (du genre, recommandation de produits chez Amazon ! ).

Il y a quelques années, la chaîne ARTE TV a proposé un sujet bien fait et très abordable, comment comprendre en 14 mn Les enjeux du big data - FUTUREMAG

Vous avez pris peur... c'est normale !

Il ne faut pas oublier que le cœur de cet énorme business sont les utilisateurs eux-mêmes, les producteurs et fournisseurs de ces données.

Les DATA BROKERS

Le métier des data brokers est d'acheter des données (personnelles, style de vie, affiliation politique, paiements/achats, revenus, positions géographiques grâce à nos connexions) afin de constituer des fichiers contenant des profils très détaillés d’individus. Ces profils sont ensuite revendus à des agences publicitaires - qui souhaitent mener des campagnes ciblées, mais aussi assureurs, divers services financiers, secteurs pharmaceutique, agroalimentaire, administrations, partis politiques, agence marketing et médias.
Une des Stés privées les plus connues est Acxiom mais aussi Oracle, Experian, Epsilon, Infogroup.

Pour compléter, affiner leurs bases de données, ces sociétés achètent tout un ensemble d'information auprès de grands groupes : Facebook, Google, Mediaprism (groupe Mediapost de La Poste avec une base de données estimée de 36 millions de ménages français), Family Service.. même les fichiers de l’Insee, celui des cartes grises sont à contribution.

En 2014 (valeurs qui ont évolué depuis !):
Age/adresse/sexe : 0,007$ le contact
Date de naissance : 2$
N°sécurité sociale: 8$
Adresse postale : 0,5$
Projet de mariage : 0,107$
Attente d’un enfant : 0,187$
Maladie du cœur : 0,447$
Pratique du sport pour maigrir : 0,552$
etc.

Si une donnée brute n'a pas beaucoup de valeur, un profil complet par contre, c'est de l'or en barre !
Il ne s’agit donc pas que d’un commerce de données, les data brokers vendent aussi des analyses complètes issues de croisement de données.
Exemples de données clients fournies par Axciom et Oracle - en avril/mai 2017
Clic sur l'image pour voir en grand

[ Dossier complet ici ] Comment les entreprises surveillent notre quotidien - Framasoft 2017 (un pdf proposé en téléchargement)

Intervention au TED de cette jeune Madhumita Murgia en 2017
Comment mon identité a été vendue par des courtiers en données
N'oubliez pas d'acitiver le sous-titrage en français

Les DATA CENTERS

Ce sont des centres, des espaces physiques de stockage concentrant l'ensemble de nos informations numériques. Si ces serveurs nous permettent de sauvagerder nos données à distance (bases de données, sites web, Cloud), un des multiples défis de ces centres de données : la sécurité informatique.

Exemple de piratage : eBay (on estime à 145 millions de comptes rendus publics), Adobe (152 millions de comptes compromis), les jeux Ubisoft, Apple (comptes de 275 000 développeurs d’applications), Domino’s Pizza (600 000 comptes de clients français), Sony… En 2016 la Banque Centrale du Bangladesh est victime d’un hold-up d’un genre nouveau : 81 millions de dollars subtilisés, TV5Monde : attaque du réseaux, le piratage s’invite aussi au cœur de la campagne électorale américaine, Yahoo 500 millions de comptes utilisateurs volés, Dropbox 68 millions d’utilisateurs se font fait dérobés leurs données...

La sécurisation de ces centres est cruciale pour conserver la confidentialités de nos informations personnelles.
Autre problème est le manque de transparence sur la localisation de nos sauvegardes. Qui pourrait dire aujourd'hui où se trouves les données enregistrées de nos smartphones, de nos tablettes, de nos Cloud...

Autre espace de concentration de nos données

Les grandes plateformes GAFAM ne sont pas “le web” mais elles monopolisent aujourd’hui l’essentiel de nos navigations, de nos usages connectés.

Entretien avec Benjamin Bayart en 2015

Le cas de Google

Le modèle économique : collecter des données, les analyser, les agréger.
Un business basé sur un mélange de tracking et de marketing intrusif.

  • Google Search (moteur de recherche) : Questionnements de l’utilisateur et ses intérêts
  • GMail : Contenu des mails, y compris les pièces jointes. Destinataires, carnet d’adresses. Fréquence des échanges.
  • Google Analytics : Déplacement de l’internaute sur le Web. Liste des pages visités, temps passé. Google peut pister les visiteurs de 88 % des sites Web d’après une étude scientifique. Il existe aussi une version pour les applications mobiles permettant de suivre tout ce que fait un utilisateur au sein d’une application sur son smartphone.
  • Google Maps : Lieux géographiques intéressant l’utilisateur. Itinéraires prévus.
  • Smartphone Android : Déplacements géographiques, vitesse de déplacement, carnet d’adresse, historique des appels téléphoniques, des SMS, applications installées
  • Google Calendar : Rendez-vous, lieux, dates, interlocuteurs, sujets de vos rendez-vous (personnels et/ou professionnels).
  • Google Wallet : Numéro de carte bancaire, achats en ligne
  • Google Docs & Drive : Documents bureautiques (contenu de feuilles de tableur, textes, présentations
  • Google Chrome, navigateur : Mots de passe, historique des sites visités, temps passé sur les sites, fréquence de visite
  • Google Photos : Photos, lieux de prise de vue
  • Youtube : Vidéos vues, temps passé devant, moments où l’on fait pause ou qu’on passe en boucle, vidéos qu’on veut regarder plus tard
  • Google Private results (option de Google Search) : Rendez-vous, factures à payer, livraisons en attente, vols en avion, réservations d’hôtels ou de restaurants
  • Nest : Thermostat et détecteur de fumée : Présence à la maison, température, qualité de l’air, consommation d’énergie
  • Waze : Géolocalisation, destinations, trajets, lieux préférés
  • etc.

Pour sortir de ces monopoles qui centralisent nos informations - sans savoir quoi et où, il est vivement recommandé de se tourner vers les logiciels libres ! Framasoft est une association française qui propose diverses alternatives.

Aller + loin :