Garantir la disponibilité, l’intégrité et la confidentialité des données

Dossier : BIG DATAMagazine N°693 Mars 2014
Par Philippe WOLF (78)

Sécurité des infrastructures

La sécu­rité des infra­struc­tures met­tant en œuvre les big data, poten­tielle­ment sen­si­bles au regard de ce qu’ils manip­u­lent, fait appel prin­ci­pale­ment aux fonc­tions de disponi­bil­ité et d’intégrité. La résilience doit être une pro­priété glob­ale de la chaîne (réseaux, baies, procé­dures, humains) et ne peut s’appréhender, dans son ensem­ble, qu’avec une analyse holis­tique et une ges­tion per­ma­nente des risques.

Quatre règles à respecter

Les quatre trayons du « cloud maîtrisé ou souverain » sont connus mais pas toujours activés :
faire appel à un ou des prestataires de confiance ;
être capable d’auditer réellement la solution dans un temps court ;
avoir la garantie testée de réversibilité pour changer de prestataire sans pertes, si nécessaire ;
rédiger les contrats sous la protection du droit national pour gérer le risque juridique.

Du très clas­sique, même si les ques­tions d’interdépendance et d’éparpillement pren­nent une impor­tance cru­ciale due à la com­plex­i­fi­ca­tion des archi­tec­tures de protection.

De plus, le mod­èle du pair-à-pair se sub­stitue au mod­èle client-serveur qui facil­i­tait la super­vi­sion de sécu­rité. L’introduction de mécan­ismes de sécu­rité sur des couch­es logi­cielles qui se stan­dard­is­ent (open­stack, hadoop1, etc.) doit pou­voir apporter une résis­tance nouvelle.

Les puis­sances de cal­cul req­ui­s­es par les big data néces­si­tent, sauf pour quelques très gross­es entre­pris­es, d’externaliser ou, au min­i­mum, de mutu­alis­er stock­ages et traite­ments dans l’infonuagique (cloud com­put­ing). Le recours au cloud com­put­ing réclame des pré­cau­tions même dans le cas de trans­parence absolue.

REPÈRES

La CNIL propose que « l’appellation coffre-fort numérique, ou coffre-fort électronique, soit réservée à une forme spécifique d’espace de stockage numérique, dont l’accès est limité à son seul utilisateur et aux personnes physiques spécialement mandatées par ce dernier.
Les services de coffre-fort numérique doivent garantir l’intégrité, la disponibilité et la confidentialité des données stockées et impliquer la mise en œuvre des mesures de sécurité décrites dans la recommandation. »

Protection des données

Dans le cas des big data non ouverts (privés), la con­fi­den­tial­ité des don­nées stock­ées ne pose pas de prob­lème par­ti­c­uli­er si l’entreprise ou l’organisme garde la capac­ité de gér­er ses pro­pres clés de chiffre­ment ou de sig­na­ture, de préférence dans un cof­fre-fort numérique label­lisé2, ou en con­fie la ges­tion à des tiers réelle­ment de confiance.

Rédiger les contrats sous la protection du droit national pour gérer le risque juridique

Pour ren­dre con­fi­den­tiels les algo­rithmes de cal­cul, il manque aujourd’hui un ingré­di­ent essen­tiel qui serait une implé­men­ta­tion pra­tique du chiffre­ment dit homo­mor­phique, c’est-à-dire d’un chiffre­ment qui don­nerait un moyen de réalis­er divers­es opéra­tions sur le chiffré sans recourir à l’opération de déchiffre­ment com­plète. Une avancée dans ce domaine comme sur le cal­cu­la­teur quan­tique ou à ADN néces­sit­era, de toutes les manières, de recon­cevoir une algo­rith­mique adaptée.

L’intégrité clas­sique qui repose sur la sig­na­ture numérique doit être, à son tour, révisée. Il existe déjà des dérives poten­tielles liées aux cal­culs large­ment répar­tis ou en grilles. Le respect des règles inter­na­tionales de non-pro­liféra­tion impose un con­trôle, préal­able de préférence, à un usage dévoyé des puis­sances cal­cu­la­toires disponibles.

La seule sig­na­ture des ressources partagées, dis­tribuées, hétérogènes, délo­cal­isées et autonomes ne suf­fit plus. Des tech­niques d’obscurcissement (« obfus­ca­tion de code ») com­pliquent le contrôle.

Risques d’identification

Un pan crois­sant des big data touche aux don­nées per­son­nelles quand ils n’en sont pas le car­bu­rant pre­mier3. Les pro­grès des moteurs de recherche intel­li­gents per­me­t­tent d’identifier facile­ment une per­son­ne à par­tir d’un nom­bre très réduit de car­ac­tères, cela d’autant plus que l’intimité est lit­térale­ment mise à nu sur les réseaux sociaux.

Tolérance au flou

L’intégrité stricte des données n’est plus nécessaire quand il s’agit de manipuler des données non structurées, parfois faussées ou incomplètes, ou de travailler principalement par échantillonnage.
Une tolérance au flou, aux calculs approchés et aux mutations rompant le clonage binaire parfait, est un ingrédient porteur d’une meilleure adéquation des big data au monde réel qu’ils sont censés nous aider à comprendre.

On retrou­ve, à une échelle nou­velle, de vieux prob­lèmes d’inférences par déduc­tion, induc­tion, abduc­tion ou adduc­tion dans les bases de don­nées clas­siques. Les croise­ments de don­nées per­me­t­tent des attaques par canaux aux­il­i­aires séman­tiques – attaques qui ne visent pas directe­ment les pro­tec­tions théoriques mais leur implé­men­ta­tion pra­tique – struc­ture red­outée en SSI.

On arrivait à nég­liger ou à juguler les canaux cachés numériques : ce n’est plus le cas avec les canaux séman­tiques4.

Quatre critères sécuritaires

Les critères com­muns pour l’évaluation de la sécu­rité des tech­nolo­gies de l’information5 intro­duisent dès 1999, sous l’impulsion du Dr Pfitz­mann, des fonc­tions de sécu­rité pour la pro­tec­tion des don­nées per­son­nelles. Elles sont au nom­bre de quatre.

  • L’anony­mat garan­tit qu’un sujet peut utilis­er une ressource ou un ser­vice sans révéler son iden­tité d’utilisateur.
  • La pos­si­bil­ité d’agir sous un pseu­do­nyme garan­tit qu’un util­isa­teur peut utilis­er une ressource ou un ser­vice sans révéler son iden­tité, mais peut quand même avoir à répon­dre de cette utilisation.
  • Des amendes records touchent aujourd’hui des institutions financières

    L’impos­si­bil­ité d’établir un lien garan­tit qu’un util­isa­teur peut utilis­er plusieurs fois des ressources ou des ser­vices sans que d’autres soient capa­bles d’établir un lien entre ces utilisations.

  • La non-observ­abil­ité garan­tit qu’un util­isa­teur peut utilis­er une ressource ou un ser­vice sans que d’autres, en par­ti­c­uli­er des tierces par­ties, soient capa­bles d’observer que la ressource ou le ser­vice est en cours d’utilisation.

Ces fonc­tions font l’objet de travaux algo­rith­miques nova­teurs, prin­ci­pale­ment en Europe, mais tar­dent à s’implanter dans les traite­ments numériques de mass­es qui vont pass­er rapi­de­ment aux traite­ments d’informations en masses.

Protection des informations

On ne peut élim­in­er le rôle du sujet dans la pro­duc­tion de l’information, ou par­fois de la con­nais­sance, par les big data. « La sig­ni­fi­ca­tion d’une infor­ma­tion est tou­jours rel­a­tive »7. Il s’agit de mesur­er l’intelligibilité, la véri­fi­a­bil­ité et la traça­bil­ité, d’estimer la respon­s­abil­ité con­tractuelle, de gér­er les con­flits d’influences, de dis­tinguer les fauss­es nou­velles, bref, de résis­ter au mirage des big data sim­plistes.

Anonymat et santé

La sphère santé-social accumule les difficultés malgré les promesses des big data (études épidémiologiques, dossier médical personnel, optimisation des systèmes sociaux). Le constat de départ est qu’il n’y a pas de confidence (médicale) sans confiance (singulière). Il faut alors distinguer la confidentialité-discrétion partageable par du chiffrement réversible de la « confidentialité-séclusion6 » qui exige des fonctions à sens unique.
Mais, dans ce dernier cas, la pseudo-anonymisation réversible serait parfois préférable à une véritable anonymisation irréversible, dans le cas, par exemple, de détection d’une maladie orpheline ou d’une grave épidémie où il faudrait retrouver l’individu porteur. Il manque clairement un modèle de sécurité partagé.

Des amendes records touchent aujourd’hui des insti­tu­tions finan­cières. Elles sanc­tion­nent des infrac­tions à répéti­tion qui n’auraient pas été pos­si­bles sans l’obscur­cisse­ment numérique, tech­nique con­sis­tant à cacher des infor­ma­tions en les noy­ant dans une masse de don­nées. L’obésité, sans diète, nour­rit et ampli­fie cette obscu­rité. De plus, les biais cog­ni­tifs des big data, voulus ou non, aveu­g­lent une saine com­préhen­sion des enjeux de sécurité.

La capac­ité d’absorption humaine étant lim­itée8, un dif­féren­tiel de plus en plus grand se créera avec les capac­ités atten­dues des robots-pro­grammes. Tant que les résul­tats espérés ne seront pas là, la ten­dance sera de com­plex­i­fi­er les traite­ments par une mas­si­fi­ca­tion encore plus grande des don­nées et par l’ajout de paramètres aux automates.

Alors qu’il faudrait, au con­traire, mod­élis­er, analyser, expli­quer et mieux cibler et cribler les don­nées utiles et ratio­nalis­er cette intel­li­gence artificielle.

Cette ten­dance à l’entropie porte en elle le germe des « acci­dents de la con­nais­sance » sig­nalés par l’essayiste Paul Vir­ilio9. À brass­er trop large et trop gros, on oublie les fonc­tions essen­tielles et on bride l’engagement.

Une nouvelle approche de la SSI

Les big data ouvrent aus­si des per­spec­tives nou­velles en SSI, qui passent d’abord par la mutu­al­i­sa­tion des com­pé­tences devant une men­ace mul­ti­forme qui s’adapte très vite aux muta­tions technologiques.

Dans cette lutte aujourd’hui iné­gale entre défenseurs et attaquants, l’analyse des sig­naux faibles est large­ment prônée. Les big data sem­blent adap­tés à cette détec­tion d’anomalies sur l’échelle dite des sources ouvertes. Ils pré­par­ent l’analyse des sig­ni­fi­ca­tions (la séman­tique) des affron­te­ments cyber. Ils four­nissent un fais­ceau d’indices per­me­t­tant aux ana­lystes d’évaluer l’origine des attaques. Ils doivent aus­si servir à anticiper les usages malveil­lants des tech­nolo­gies micro­ro­bo­t­iques con­sti­tu­tives de l’Internet des objets.

Sciences du danger et big data

Il est intéressant de noter que les cindyniques, ou sciences du danger, commencent à investiguer le champ de l’information10.
Elles proposent un regard à cinq dimensions, examinant à la fois la dimension des données (axe statistique), la dimension des modèles (axe épistémique), les finalités de l’acteur (axe téléologique), l’axe des règles, normes, codes auxquels est soumis (ou que s’impose) l’acteur et les valeurs (éthiques, morales) de l’acteur (axe axiologique).

Enfin, ils doivent offrir des sim­u­la­tions dynamiques d’attaques, les plus proches du réel, pour en déduire les mécan­ismes de con­tre-réac­tion les plus per­ti­nents. Plusieurs écueils con­sti­tu­tifs des big data sont à éviter ici. Il ne s’agit ni de rem­plac­er la pré­ci­sion des don­nées par leur masse, ni de rem­plac­er la recherche de caus­es par celle de coïn­ci­dences ou de corrélations.

Il faut se méfi­er du retour de cer­taines illu­sions bien con­nues des infor­mati­ciens expéri­men­tés, comme l’apprentissage, les réseaux de neu­rones, voire cer­tains aspects de l’intelligence arti­fi­cielle dans lesquels les hypothès­es implicites (struc­ture du réseau de neu­rones, biais de la col­lecte ser­vant à l’apprentissage) ne peu­vent être ignorées.

Pour faire des big data un outil de progrès, il faut en maîtriser les dérives

Appliqué, par exem­ple, à l’identification de sus­pects ou de cibles en sécu­rité civile, cela sem­ble être por­teur de très graves dan­gers pour les sociétés. Mais la SSI ne se réduit pas, mal­heureuse­ment, aux archi­tec­tures de systèmes.

L’assemblage de com­posants sécurisés ne garan­tit pas la solid­ité du tout ; au con­traire, la com­plex­ité facilite le tra­vail de l’attaquant dans la recherche d’un chemin d’attaque. A con­trario, la mono­cul­ture tech­nologique favorise le con­trôle cen­tral­isé mais cette facil­ité frag­ilise également.

Éthique des big data ?

Un rap­port gou­verne­men­tal récent12 affirme qu’il est impératif « d’assurer la sécu­rité des don­nées ». Pour faire des big data un out­il de pro­grès socié­tal, par exem­ple pour les villes intel­li­gentes ou smart cities (eau, trans­ports, énergie, com­merce élec­tron­ique), il faut en maîtris­er les dérives.

Protéger la cyberdiversité

Une analogie s’impose. La diversité des espèces est le plus grand rempart immunitaire contre la perte d’un écosystème.
De même, la cyberdiversité11, si malmenée par quelques écosystèmes numériques fermés dont aucun n’est européen, reste le constituant principal d’une véritable défense en profondeur.

On pour­rait para­phras­er le célèbre Code is Law (Le Code fait loi) de Lawrence Lessig13 par « Microc­ode is law in cyber­space ». La France ou l’Europe voudront-elles revenir dans le jeu tech­nologique ? Une oppor­tu­nité se présente avec le prob­a­ble rem­place­ment du sili­ci­um par le car­bone (graphène).

Quoi qu’il en soit, des règles d’éthiques sont à pos­er. La France et la vieille Europe sont héri­tières des ver­tus de « dig­nité, de réserve et de droi­ture » (Épic­tète).

Puis­sent-elles engager la maîtrise et la domes­ti­ca­tion des robots logi­ciels des big data sur une régu­la­tion s’inspirant de ces principes en gar­dant l’homme au cen­tre des enjeux.

____________________________________________
1. En par­ti­c­uli­er, sa sur­couche Accu­mu­lo qui pro­pose du con­trôle d’accès par mar­quage (sans chiffre­ment), pre­mier pas vers le con­trôle de final­ité de la col­lecte des don­nées. Deux sociétés au moins sup­por­t­ent ce logi­ciel libre.
http://accumulo.appache.org
2. http://www.cnil.fr/linstitution/actualite/article/article/adoption-dune-recommandation-sur-les-coffre-forts-electroniques/
3. Lire, de ce point de vue, la dernière recom­man­da­tion ENISA sur la pro­tec­tion de la vie privée dans les don­nées de connexions
http://www.enisa.europa.eu/media/news-items/enisa-publishes-new-study-for-securing-personal-data-in-the-context-of-data-retention
4. Comme, par exem­ple, le piégeage math­é­ma­tique de la norme de généra­tion de nom­bres pseu­do-aléa­toires Dual_EC_DRBG par la NSA, pub­liée en 2006 par le NIST et dont la porte dérobée n’a été décou­verte qu’en 2008.
5. http://www.ssi.gouv.fr/fr/certification-qualification/cc/les-criteres-et-methodologies-d-evaluation.html
6. Ter­mes intro­duits par Gilles Trouessin
https://www.ossir.org/jssi/jssi2008/4B.pdf
7. Jean Zin, Le monde de l’information, 2004
http://jeanzin.fr/ecorevo/sciences/mondinfo/mondinfo.htm
8. Un humain absorbera au plus 40 pétaoctets (1015) dans sa vie, à rap­porter aux 200 yot­taoctets (1024) manip­ulés par Inter­net sur 60 ans.
9. L’accident orig­inel, Paul Vir­ilio, Galilée, 2005.
10. http://ifrei.org/tiki-index.php?page=InfoCindynique
11. La cyber diver­sité est en berne. Pour ne pren­dre qu’un exem­ple, seules les entre­pris­es IBM (USA) et TSMC (Taïwan, Chine) déti­en­nent les savoir-faire physi­co-chim­iques des fonderies élec­tron­iques « sili­ci­um ». Les investisse­ments pour créer un nou­veau cir­cuit et ses ser­vices asso­ciés atteignent la somme de 10 mil­liards de dol­lars, autant qu’un aéronef.
12. Analyse des big data, Quels usages, quels défis ?, Com­mis­sari­at général à la stratégie et à la prospec­tive, novem­bre 2013.
http://www.strategie.gouv.fr/blog/wp-content/uploads/2013/11/2013–11-09-Bigdata-NA008.pdf
13. Tra­duc­tion française :
http://www.framablog.org/index.php/post/2010/05/22/code-is-law-lessig
et son livre codev2 : http://codev2.cc/

Poster un commentaire