Les trois paradoxes de la sécurité

BIG DATA

Dossier : BIG DATAMagazine N°693 Mars 2014

Les problèmes de sécurité liés aux big data sont multiformes suivant l’origine des données (publiques, privées ou mixtes), la loyauté de leur recueil, la présence ou non, directe ou indirecte, de données personnelles, l’objectif poursuivi (bien commun scientifique ou avantage concurrentiel), la transparence ou l’opacité des buts poursuivis, les infrastructures (publiques, privées ou mixtes) de stockage et de calculs mises en œuvre et le caractère ouvert ou fermé des traitements algorithmiques.

Les attaques possibles contre les big data sont, de ce fait, multiples : attaques informatiques classiques, atteintes aux infrastructures, usages détournés des puissances de calculs, mais aussi, clonages de masse frauduleux, falsifications parfois partielles des données, manipulations de l’information ou encore atteintes aux personnes dans leur dignité.

REPÈRES

Le terme big data fait référence à des ensembles de données dont la taille dépasse la capacité des logiciels usuels pour collecter, gérer et traiter les données dans un temps raisonnable.

Les traitements de masse impliquent une nouvelle approche de la donnée : collecter et utiliser beaucoup de données plutôt que de se contenter d’échantillons comme l’ont fait des générations de statisticiens ; accepter de traiter des données imparfaites ou mal organisées, une part d’inexactitude peut en général être tolérée car dans de nombreux cas, il est plus avantageux d’avoir bien plus de données qu’un plus petit nombre de données très exactes ou finement sélectionnées afin d’être représentatives ; accepter de renoncer à rechercher des causalités au profit de la recherche de corrélations, de motifs qui peuvent aider à prédire l’avenir.

Les big data aident à répondre à la question du quoi mais pas à celle du comment, ce qui est souvent suffisant.

Diagnostic

Posons d’abord un diagnostic qui s’appuie sur trois paradoxes de la finalité des big data, soulignés par un juriste et un stratège du cloud¹, que nous résumons (en italiques) et commentons.

Une difficulté apparaît qui est de ne pas analyser cette nouvelle manière d’acquérir des connaissances en ne considérant que ceux qui ont actuellement la capacité de collecter et d’exploiter des données en masse à des fins commerciales (Google, Facebook, Twitter, etc.) ou d’espionnage (NSA et autres services de renseignements).

Le paradoxe de la transparence

La privacy ou « protection des données personnelles » est morte ; nos données personnelles deviennent transparentes. Les traitements big data devraient aussi l’être ; mais ce sont les « écosystèmes numériques fermés » qui les manipulent avec le secret le plus absolu.

« Cyberwar is storytelling » (Martin C. Libicki)

Les décisions prises par les robots de surveillance sont d’une opacité kafkaïenne. Le modèle économique « gratuit » de l’Internet repose sur une nouvelle forme de commercialisation et de valorisation de données collectées sur le comportement des personnes.

« Quand vous ne voyez pas le service [payant], c’est que vous êtes le produit [revendu]² ! » Il se nourrit de l’une de deux visions irréconciliables du droit à un espace privé³ que soulignent les difficiles débats européens sur la protection des données personnelles qui serait, vue d’Amérique du Nord, un obstacle à l’innovation⁴.

Les objectifs de cette protection sont le respect des personnes dans les traitements par le recueil de leur consentement préalable, le contrôle de leurs finalités, la limitation de la collecte⁵ et des croisements.

Mais la diffusion des ordiphones, par exemple, pousse à la personnalisation de l’action sur les informations ; elle accentue le décalage entre les besoins de services publics (éducation, santé, régulation économique, ordre public) et la tentative de privatisation des données directement liées aux personnes solvables (pour la publicité directe).

Le paradoxe de l’identité

Le droit à l’identité, au moi, à l’ego nécessite le libre arbitre. Les robots-programmes béhavioristes du big data cherchent à identifier qui nous devons être, qui nous devons aimer, ce que nous devons consommer, ce qui nous est interdit. Jusqu’à influencer nos choix intellectuels et nous faire perdre notre identité.

Connaître tout sur ses clients

Parmi les géants de la Toile (Web), tous américains, la société Google s’appuie sur la recherche « en psychologie cognitive » pour mieux atteindre son but « d’amener les gens à utiliser leur ordinateur avec plus d’efficacité » ; elle ne sera pas satisfaite tant qu’elle ne disposera pas de « 100% des données de ses utilisateurs⁶ ».

Elle utiliserait même la biométrie de la frappe clavier pour reconnaître l’usager derrière sa machine.

Le film Bienvenue à Gattaca anticipait cette uniformité engendrée par des machines. Ce n’est encore, heureusement, que de la science-fiction.

En revanche, l’hyperconnectivité accroît, sans pause, notre dépendance cybernétique. La publicité d’une marque allemande de voitures « haut de gamme » vante son attrait irrésistible : « Connected Drive. Mieux connecté. Encore plus libre⁷. »

Les réseaux sociaux sont l’archétype d’une illusion numérique généralisée. Pour le meilleur, comme la gestion en temps réel de catastrophes naturelles, la diffusion instantanée de l’état du monde ou la sortie de l’isolement qu’engendrent nos sociétés trop individualistes. Mais aussi pour le pire, comme l’exploitation outrancière de leurs capacités d’intrusion dans les intimités.

Les réseaux sociaux sont l’archétype d’une illusion numérique généralisée

Le droit à l’oubli, une chimère par nature, devient une demande à satisfaire par la limitation de la collecte. Il ne fonctionne que pour nos données domestiques par la fragilité, souvent ignorée, des supports numériques personnels.

Alors, qu’à l’image du sparadrap du capitaine Haddock, ce que nous aimerions voir disparaître dans les volutes du passé risque fort de rester dans l’éponge Internet.

Le paradoxe du pouvoir

Les big data sont censés nous fournir une boîte à outils pour mieux comprendre le monde. Mais ses robots sont entre les mains d’institutions intermédiaires, qui ont le pouvoir de manipulation, et non des individus. Les big data créeront des vainqueurs et des vaincus⁹.

Le cas NSA

Dans les révélations Snowden, on apprend ainsi que le programme Synapse de la NSA vise à stocker, pour chaque internaute, 94 critères d’identité (numéro de téléphone, courriels, adresses IP, etc.) permettant d’y corréler 164 types de relations (profilage par les réseaux sociaux, paiements électroniques, profils d’intérêts, déplacements grâce à la géolocalisation, etc.)⁸.

On est très loin du principe de non-croisement des données et du respect d’un espace privé prévu dans la loi Informatique et Libertés. Mais le diable avance masqué et toujours dans la séduction.

Noam Chomsky, dans une conférence récente, constate que le pouvoir lié à la possession des données existe depuis une centaine d’années mais que la surprise vient aujourd’hui des échelles atteintes. Il rappelle aussi que le « pouvoir demeure fort quand il reste dans le noir ; exposé à la lumière du soleil, il commence à s’évaporer »¹⁰.

La révolution scientifique promise par les big data¹¹ permettrait l’élaboration de nouvelles théories scientifiques libérées des capacités « réduites » du cerveau humain qui migreraient du conceptuel déductif vers l’inductif ; même si l’intuition humaine et quelques résultats théoriques (théorèmes d’incomplétude de Gödel) devraient encore éloigner pour un temps le spectre d’une intelligence artificielle dominatrice.

La malveillance d’un code informatique est indécidable

Il faudra, pour la communauté scientifique mondiale, plus de banques de données ouvertes. Mais, depuis 2010, les banques publiques génomiques ne sont plus exhaustives, pour des raisons budgétaires, marquant ainsi un retour vers la marchandisation du vivant. Les traitements eux-mêmes relèveront parfois du logiciel libre et ouvert (astronomie, génomique, recensement de la faune et de la flore, pharmacologie, démographie, physique des particules, météorologie, climatologie, macroéconomie, sociologie) mais bien plus souvent de solutions propriétaires, au nom de la protection du patrimoine informationnel et du secret des affaires des grandes entreprises.

Il ne s’agit pas de les opposer mais d’imaginer les mécanismes sécurisés créant les passerelles nécessaires. Il faudra également, sans naïveté ni excès, parfois limiter la capacité de ces nouveaux little brothers.

Nouveaux dangers

Un diagnostic étant posé sur le traitement de données en masse, il convient de tenter d’en recenser les dangers, à l’expérience de cyberattaques récentes. La visibilité acquise de l’exploitation systématique de vulnérabilités non corrigées, dites 0‑Day¹³, permettant des attaques ciblées surprises, modifie la pratique de la protection en SSI.

Coûts prohibitifs

L’utopie de la bibliothèque mondiale de tous les savoirs, chère à J. L. Borges¹², s’éloigne devant les coûts des centres de traitements énergivores.

Pourtant, le progrès de l’humanité passe par une coordination négociée, décentralisée, multilinguistique et multiculturelle dans l’acquisition et la maîtrise des savoirs, des biens mondiaux.

Les protections périmétriques et la surveillance interne des traces ou des comportements sont nécessaires mais ne suffisent plus. La virtualisation et l’ubiquité, constitutives des architectures massives, augmentent les surfaces d’attaques et les délocalisent.

Les efforts et les budgets de sécurisation doivent alors se concentrer sur les données les plus sensibles. Le nomadisme condamne, de toute façon, les autres données à une transparence forcée. Ces services sécurisés seront bâtis à partir de briques cryptographiques, mais devront porter une attention plus grande à la facilité d’emploi¹⁴. Même si leur usage ne pourra jamais être transparent et se passer de la gestion humaine.

Dualité

Il faut rappeler que toute fonction de sécurité est à usage dual ; elle servira aussi bien le criminel que l’honnête homme.

Cela ne doit pas justifier le piégeage généralisé (matériel, logiciel, sémantique ou mathématique) qui pénalise, avant tout, la cyberprotection.

Il faudra enfin considérer que la protection des données et informations (accessibilité, authenticité, contrôle des finalités) au moyen de la cryptographie (attaches indélébiles de marques, de signatures, obscurcissement) est un moyen faillible, au-delà des mathématiques « parfaites » sous-jacentes.

Enfin, les quatre V (Volume, Variété, Vélocité, Véracité) associés aux big data obéissent aux limitations de deux théorèmes démontrés en 2002¹⁵. Ces derniers sont à rapprocher du théorème du virus de 1986¹⁶ qui dit que la malveillance d’un code informatique est indécidable.

Ces incertitudes inhérentes aux big data changent la donne en matière de défense et de sécurité des systèmes d’information.

Une sécurité « à la volée »

Les modèles de sécurité statiques qui protègent nos systèmes ont une quarantaine d’années (Multics, Unix). Il y a urgence à les repenser autour de concepts de dynamique et de proactivité. Les big data en mode flux (streaming) obligent à gérer une sécurité « à la volée ».

L’irruption de l’Internet (une architecture faible des années 1970) comme système d’information global dès 1991 n’avait pas anticipé les enjeux de protection. La plasticité des protocoles non sécurisés de l’Internet devra pourtant s’accommoder de nouveaux services sécurisés, notamment pour la protection des données personnelles mais aussi patrimoniales.

____________________________________________
1. Neil M. Richards & Jonathan H. King, Three Paradoxes of Big Data.
http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2325537
2. Ari Melber, The Secret to Facebook’s IPO Value.
http://www.thenation.com/blog/166388/secret-facebooks-ipo-value
3. James Q. Whitman, The Two Western Cultures of Privacy : Dignity Versus Liberty, 4 janvier 2004.
http://www.yalelawjournal.org/images/pdfs/246.pdf
4. Pour ne citer qu’elle, la société française CRITEO, cotée au Nasdaq depuis peu, vend des services robotisés produisant en quasi temps réel, les bandeaux publicitaires ciblés en fonction des données identifiant l’internaute.
5. A priori data minimization, Datasparsamkeit (voir les règles pour le casier et les archives publiques judiciaires en France).
6. Nicholas Carr, Internet rend-il bête ? Robert Laffont, 6 octobre 2011.
7. http://www.bmw.fr/fr/topics/innovation/connecteddrive-2013/overview.html
8. http://mobile.nytimes.com/2013/09/29/us/nsa-examines-social-networks-of-us-citizens.html
9. Louis Pouzin, Où va l’internet ? Mondialisation et Balkanisation.
10. http://www.hyperorg.com/blogger/2013/11/15/liveblog-noam-chomsky-at-engaging-data/
11. Ce que Jim Gray appelle le fourth paradigm.
http://research.microsoft.com/en-us/collaboration/fourthparadigm/4th_paradigm_book_part4_lynch.pdf
12. http://fr.wikipedia.org/wiki/Tl%C3%B6n,_Uqbar,_Orbis_Tertius
13. Vulnérabilités 0‑Day, prévention et bonnes pratiques,
http://www.ssi.gouv.fr/fr/bonnes-pratiques/recommandations-et-guides/securite-du-poste-de-travail-et-des-serveurs/vulnerabilites-0-day-prevention-et-bonnes-pratiques.html
14. Alma Whitten et J. Doug Tygar, Why Johnny can’t encrypt ? a user experiment of PGP 5.0. Alma Whitten travaille maintenant chez Google
15. Le théorème de Brewer qui affirme qu’il est impossible de satisfaire à la fois la cohérence, la disponibilité et la résistance au morcellement
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.20.1495&rep=rep1&type=pdf
et le théorème de Kleinberg identique au précédent pour la cohérence, la disponibilité et l’invariance d’échelle http://www.cs.cornell.edu/home/kleinber/nips15.pdf
16. Fred Cohen, Computer Viruses, janvier 1986.

Big data

Commentaire

Ajouter un commentaire

Laloyrépondre

25 mars 2014 à 14 h 47 min

Paradoxes de la sécurité
Les trois paradoxes de la sécurité ne concerne pas uniquement le Big Data, car les « Mini Data » (votre ordi de la maison), vu les multitudes d’interconnexions qui s’effectuent dès que vous branchez le cordon Internet, ne constituent ils pas tous ensemble un super Big Data Planétaire ?

Un super article très clair.

JM L

Nom du cookie	Expiration	Fonction
_ga	2 ans	Identification des visiteurs pour Google Analytics
_gid	24 h	Analyse du parcours utilisateur pour Google Analytics
module-manager-time- *	session	Le cookie est placé pour stocker les actions effectuées sur le site Web .
of_current_opt	1 semaine	Le cookie est placé par WordPress pour stocker les préférences de l\'utilisateur .
tk_ai	session	Recueille des informations pour notre propre outil d\'analyse de première partie sur la façon dont nos services sont utilisés. Une collection de métriques internes pour l\'activité des utilisateurs, utilisée pour améliorer l\'expérience utilisateur.