Les trois paradoxes de la sécurité

Dossier : BIG DATAMagazine N°693 Mars 2014
Par Philippe WOLF (78)

Les prob­lèmes de sécu­rité liés aux big data sont mul­ti­formes suiv­ant l’origine des don­nées (publiques, privées ou mixtes), la loy­auté de leur recueil, la présence ou non, directe ou indi­recte, de don­nées per­son­nelles, l’objectif pour­suivi (bien com­mun sci­en­tifique ou avan­tage con­cur­ren­tiel), la trans­parence ou l’opacité des buts pour­suiv­is, les infra­struc­tures (publiques, privées ou mixtes) de stock­age et de cal­culs mis­es en œuvre et le car­ac­tère ouvert ou fer­mé des traite­ments algorithmiques.

Les attaques pos­si­bles con­tre les big data sont, de ce fait, mul­ti­ples : attaques infor­ma­tiques clas­siques, atteintes aux infra­struc­tures, usages détournés des puis­sances de cal­culs, mais aus­si, clon­ages de masse fraud­uleux, fal­si­fi­ca­tions par­fois par­tielles des don­nées, manip­u­la­tions de l’information ou encore atteintes aux per­son­nes dans leur dignité.

REPÈRES

Le terme big data fait référence à des ensembles de données dont la taille dépasse la capacité des logiciels usuels pour collecter, gérer et traiter les données dans un temps raisonnable.
Les traitements de masse impliquent une nouvelle approche de la donnée : collecter et utiliser beaucoup de données plutôt que de se contenter d’échantillons comme l’ont fait des générations de statisticiens ; accepter de traiter des données imparfaites ou mal organisées, une part d’inexactitude peut en général être tolérée car dans de nombreux cas, il est plus avantageux d’avoir bien plus de données qu’un plus petit nombre de données très exactes ou finement sélectionnées afin d’être représentatives ; accepter de renoncer à rechercher des causalités au profit de la recherche de corrélations, de motifs qui peuvent aider à prédire l’avenir.
Les big data aident à répondre à la question du quoi mais pas à celle du comment, ce qui est souvent suffisant.

Diagnostic

Posons d’abord un diag­nos­tic qui s’appuie sur trois para­dox­es de la final­ité des big data, soulignés par un juriste et un stratège du cloud1, que nous résumons (en italiques) et commentons.

Une dif­fi­culté appa­raît qui est de ne pas analyser cette nou­velle manière d’acquérir des con­nais­sances en ne con­sid­érant que ceux qui ont actuelle­ment la capac­ité de col­lecter et d’exploiter des don­nées en masse à des fins com­mer­ciales (Google, Face­book, Twit­ter, etc.) ou d’espionnage (NSA et autres ser­vices de renseignements).

Le paradoxe de la transparence

La pri­va­cy ou « pro­tec­tion des don­nées per­son­nelles » est morte ; nos don­nées per­son­nelles devi­en­nent trans­par­entes. Les traite­ments big data devraient aus­si l’être ; mais ce sont les « écosys­tèmes numériques fer­més » qui les manip­u­lent avec le secret le plus absolu.

« Cyberwar is storytelling » (Martin C. Libicki)

Les déci­sions pris­es par les robots de sur­veil­lance sont d’une opac­ité kafkaïenne. Le mod­èle économique « gra­tu­it » de l’Internet repose sur une nou­velle forme de com­mer­cial­i­sa­tion et de val­ori­sa­tion de don­nées col­lec­tées sur le com­porte­ment des personnes.

« Quand vous ne voyez pas le ser­vice [payant], c’est que vous êtes le pro­duit [reven­du]2 ! » Il se nour­rit de l’une de deux visions irré­c­on­cil­i­ables du droit à un espace privé3 que soulig­nent les dif­fi­ciles débats européens sur la pro­tec­tion des don­nées per­son­nelles qui serait, vue d’Amérique du Nord, un obsta­cle à l’innovation4.

Les objec­tifs de cette pro­tec­tion sont le respect des per­son­nes dans les traite­ments par le recueil de leur con­sen­te­ment préal­able, le con­trôle de leurs final­ités, la lim­i­ta­tion de la col­lecte5 et des croisements.

Mais la dif­fu­sion des ordi­phones, par exem­ple, pousse à la per­son­nal­i­sa­tion de l’action sur les infor­ma­tions ; elle accentue le décalage entre les besoins de ser­vices publics (édu­ca­tion, san­té, régu­la­tion économique, ordre pub­lic) et la ten­ta­tive de pri­vati­sa­tion des don­nées directe­ment liées aux per­son­nes solv­ables (pour la pub­lic­ité directe).

Le paradoxe de l’identité

Le droit à l’identité, au moi, à l’ego néces­site le libre arbi­tre. Les robots-pro­grammes béhav­ior­istes du big data cherchent à iden­ti­fi­er qui nous devons être, qui nous devons aimer, ce que nous devons con­som­mer, ce qui nous est inter­dit. Jusqu’à influ­encer nos choix intel­lectuels et nous faire per­dre notre identité.

Connaître tout sur ses clients

Parmi les géants de la Toile (Web), tous américains, la société Google s’appuie sur la recherche « en psychologie cognitive » pour mieux atteindre son but « d’amener les gens à utiliser leur ordinateur avec plus d’efficacité » ; elle ne sera pas satisfaite tant qu’elle ne disposera pas de « 100% des données de ses utilisateurs6 ».
Elle utiliserait même la biométrie de la frappe clavier pour reconnaître l’usager derrière sa machine.

Le film Bien­v­enue à Gat­ta­ca antic­i­pait cette uni­for­mité engen­drée par des machines. Ce n’est encore, heureuse­ment, que de la science-fiction.

En revanche, l’hyperconnectivité accroît, sans pause, notre dépen­dance cyberné­tique. La pub­lic­ité d’une mar­que alle­mande de voitures « haut de gamme » vante son attrait irré­sistible : « Con­nect­ed Dri­ve. Mieux con­nec­té. Encore plus libre7. »

Les réseaux soci­aux sont l’archétype d’une illu­sion numérique général­isée. Pour le meilleur, comme la ges­tion en temps réel de cat­a­stro­phes naturelles, la dif­fu­sion instan­ta­née de l’état du monde ou la sor­tie de l’isolement qu’engendrent nos sociétés trop indi­vid­u­al­istes. Mais aus­si pour le pire, comme l’exploitation out­ran­cière de leurs capac­ités d’intrusion dans les intimités.

Les réseaux sociaux sont l’archétype d’une illusion numérique généralisée

Le droit à l’oubli, une chimère par nature, devient une demande à sat­is­faire par la lim­i­ta­tion de la col­lecte. Il ne fonc­tionne que pour nos don­nées domes­tiques par la fragilité, sou­vent ignorée, des sup­ports numériques personnels.

Alors, qu’à l’image du sparadrap du cap­i­taine Had­dock, ce que nous aime­ri­ons voir dis­paraître dans les volutes du passé risque fort de rester dans l’éponge Internet.

Le paradoxe du pouvoir

Les big data sont cen­sés nous fournir une boîte à out­ils pour mieux com­pren­dre le monde. Mais ses robots sont entre les mains d’institutions inter­mé­di­aires, qui ont le pou­voir de manip­u­la­tion, et non des indi­vidus. Les big data créeront des vain­queurs et des vain­cus9.

Le cas NSA

Dans les révélations Snowden, on apprend ainsi que le programme Synapse de la NSA vise à stocker, pour chaque internaute, 94 critères d’identité (numéro de téléphone, courriels, adresses IP, etc.) permettant d’y corréler 164 types de relations (profilage par les réseaux sociaux, paiements électroniques, profils d’intérêts, déplacements grâce à la géolocalisation, etc.)8.
On est très loin du principe de non-croisement des données et du respect d’un espace privé prévu dans la loi Informatique et Libertés. Mais le diable avance masqué et toujours dans la séduction.

Noam Chom­sky, dans une con­férence récente, con­state que le pou­voir lié à la pos­ses­sion des don­nées existe depuis une cen­taine d’années mais que la sur­prise vient aujourd’hui des échelles atteintes. Il rap­pelle aus­si que le « pou­voir demeure fort quand il reste dans le noir ; exposé à la lumière du soleil, il com­mence à s’évaporer »10.

La révo­lu­tion sci­en­tifique promise par les big data11 per­me­t­trait l’élaboration de nou­velles théories sci­en­tifiques libérées des capac­ités « réduites » du cerveau humain qui migr­eraient du con­ceptuel déduc­tif vers l’inductif ; même si l’intuition humaine et quelques résul­tats théoriques (théorèmes d’incomplétude de Gödel) devraient encore éloign­er pour un temps le spec­tre d’une intel­li­gence arti­fi­cielle dominatrice.

La malveillance d’un code informatique est indécidable

Il fau­dra, pour la com­mu­nauté sci­en­tifique mon­di­ale, plus de ban­ques de don­nées ouvertes. Mais, depuis 2010, les ban­ques publiques génomiques ne sont plus exhaus­tives, pour des raisons budgé­taires, mar­quant ain­si un retour vers la marchan­di­s­a­tion du vivant. Les traite­ments eux-mêmes relèveront par­fois du logi­ciel libre et ouvert (astronomie, génomique, recense­ment de la faune et de la flo­re, phar­ma­colo­gie, démo­gra­phie, physique des par­tic­ules, météorolo­gie, cli­ma­tolo­gie, macroé­conomie, soci­olo­gie) mais bien plus sou­vent de solu­tions pro­prié­taires, au nom de la pro­tec­tion du pat­ri­moine infor­ma­tion­nel et du secret des affaires des grandes entreprises.

Il ne s’agit pas de les oppos­er mais d’imaginer les mécan­ismes sécurisés créant les passerelles néces­saires. Il fau­dra égale­ment, sans naïveté ni excès, par­fois lim­iter la capac­ité de ces nou­veaux lit­tle brothers.

Nouveaux dangers

Un diag­nos­tic étant posé sur le traite­ment de don­nées en masse, il con­vient de ten­ter d’en recenser les dan­gers, à l’expérience de cyber­at­taques récentes. La vis­i­bil­ité acquise de l’exploitation sys­té­ma­tique de vul­néra­bil­ités non cor­rigées, dites 0‑Day13, per­me­t­tant des attaques ciblées sur­pris­es, mod­i­fie la pra­tique de la pro­tec­tion en SSI.

Coûts prohibitifs

L’utopie de la bibliothèque mondiale de tous les savoirs, chère à J. L. Borges12, s’éloigne devant les coûts des centres de traitements énergivores.
Pourtant, le progrès de l’humanité passe par une coordination négociée, décentralisée, multilinguistique et multiculturelle dans l’acquisition et la maîtrise des savoirs, des biens mondiaux.

Les pro­tec­tions périmétriques et la sur­veil­lance interne des traces ou des com­porte­ments sont néces­saires mais ne suff­isent plus. La vir­tu­al­i­sa­tion et l’ubiquité, con­sti­tu­tives des archi­tec­tures mas­sives, aug­mentent les sur­faces d’attaques et les délocalisent.

Les efforts et les bud­gets de sécuri­sa­tion doivent alors se con­cen­tr­er sur les don­nées les plus sen­si­bles. Le nomadisme con­damne, de toute façon, les autres don­nées à une trans­parence for­cée. Ces ser­vices sécurisés seront bâtis à par­tir de briques cryp­tographiques, mais devront porter une atten­tion plus grande à la facil­ité d’emploi14. Même si leur usage ne pour­ra jamais être trans­par­ent et se pass­er de la ges­tion humaine.

Dualité

Il faut rappeler que toute fonction de sécurité est à usage dual ; elle servira aussi bien le criminel que l’honnête homme.
Cela ne doit pas justifier le piégeage généralisé (matériel, logiciel, sémantique ou mathématique) qui pénalise, avant tout, la cyberprotection.

Il fau­dra enfin con­sid­ér­er que la pro­tec­tion des don­nées et infor­ma­tions (acces­si­bil­ité, authen­tic­ité, con­trôle des final­ités) au moyen de la cryp­togra­phie (attach­es indélé­biles de mar­ques, de sig­na­tures, obscur­cisse­ment) est un moyen fail­li­ble, au-delà des math­é­ma­tiques « par­faites » sous-jacentes.

Enfin, les qua­tre V (Vol­ume, Var­iété, Véloc­ité, Vérac­ité) asso­ciés aux big data obéis­sent aux lim­i­ta­tions de deux théorèmes démon­trés en 200215. Ces derniers sont à rap­procher du théorème du virus de 198616 qui dit que la malveil­lance d’un code infor­ma­tique est indécidable.

Ces incer­ti­tudes inhérentes aux big data changent la donne en matière de défense et de sécu­rité des sys­tèmes d’information.

Une sécurité « à la volée »

Les modèles de sécurité statiques qui protègent nos systèmes ont une quarantaine d’années (Multics, Unix). Il y a urgence à les repenser autour de concepts de dynamique et de proactivité. Les big data en mode flux (streaming) obligent à gérer une sécurité « à la volée ».
L’irruption de l’Internet (une architecture faible des années 1970) comme système d’information global dès 1991 n’avait pas anticipé les enjeux de protection. La plasticité des protocoles non sécurisés de l’Internet devra pourtant s’accommoder de nouveaux services sécurisés, notamment pour la protection des données personnelles mais aussi patrimoniales.

____________________________________________
1. Neil M. Richards & Jonathan H. King, Three Para­dox­es of Big Data.
http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2325537
2. Ari Mel­ber, The Secret to Facebook’s IPO Val­ue.
http://www.thenation.com/blog/166388/secret-facebooks-ipo-value
3. James Q. Whit­man, The Two West­ern Cul­tures of Pri­va­cy : Dig­ni­ty Ver­sus Lib­er­ty, 4 jan­vi­er 2004.
http://www.yalelawjournal.org/images/pdfs/246.pdf
4. Pour ne citer qu’elle, la société française CRITEO, cotée au Nas­daq depuis peu, vend des ser­vices robo­t­isés pro­duisant en qua­si temps réel, les ban­deaux pub­lic­i­taires ciblés en fonc­tion des don­nées iden­ti­fi­ant l’internaute.
5. A pri­ori data min­i­miza­tion, Datas­parsamkeit (voir les règles pour le casi­er et les archives publiques judi­ci­aires en France).
6. Nicholas Carr, Inter­net rend-il bête ? Robert Laf­font, 6 octo­bre 2011.
7. http://www.bmw.fr/fr/topics/innovation/connecteddrive-2013/overview.html
8. http://mobile.nytimes.com/2013/09/29/us/nsa-examines-social-networks-of-us-citizens.html
9. Louis Pouzin, Où va l’internet ? Mon­di­al­i­sa­tion et Balkanisation.
10. http://www.hyperorg.com/blogger/2013/11/15/liveblog-noam-chomsky-at-engaging-data/
11. Ce que Jim Gray appelle le fourth par­a­digm.
http://research.microsoft.com/en-us/collaboration/fourthparadigm/4th_paradigm_book_part4_lynch.pdf
12. http://fr.wikipedia.org/wiki/Tl%C3%B6n,_Uqbar,_Orbis_Tertius
13. Vul­néra­bil­ités 0‑Day, préven­tion et bonnes pra­tiques,
http://www.ssi.gouv.fr/fr/bonnes-pratiques/recommandations-et-guides/securite-du-poste-de-travail-et-des-serveurs/vulnerabilites-0-day-prevention-et-bonnes-pratiques.html
14. Alma Whit­ten et J. Doug Tygar, Why John­ny can’t encrypt ? a user exper­i­ment of PGP 5.0. Alma Whit­ten tra­vaille main­tenant chez Google
15. Le théorème de Brew­er qui affirme qu’il est impos­si­ble de sat­is­faire à la fois la cohérence, la disponi­bil­ité et la résis­tance au morcellement
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.20.1495&rep=rep1&type=pdf
et le théorème de Klein­berg iden­tique au précé­dent pour la cohérence, la disponi­bil­ité et l’invariance d’échelle http://www.cs.cornell.edu/home/kleinber/nips15.pdf
16. Fred Cohen, Com­put­er Virus­es, jan­vi­er 1986.

Commentaire

Ajouter un commentaire

Laloyrépondre
25 mars 2014 à 14 h 47 min

Para­dox­es de la sécu­rité
Les trois para­dox­es de la sécu­rité ne con­cerne pas unique­ment le Big Data, car les “Mini Data” (votre ordi de la mai­son), vu les mul­ti­tudes d’in­ter­con­nex­ions qui s’ef­fectuent dès que vous branchez le cor­don Inter­net, ne con­stituent ils pas tous ensem­ble un super Big Data Planétaire ?

Un super arti­cle très clair.

JM L

Répondre