Un open data pour la recherche scientifique

Dossier : BIG DATAMagazine N°693 Mars 2014
Par Danielle BOURLANGE (79)
Par Antoine FRACHOT (84)

L’État et ses ser­vices publics dis­posent d’un gise­ment extra­or­di­naire de don­nées et d’informations sur les indi­vidus et les entre­pris­es, ayant un car­ac­tère sen­si­ble et béné­fi­ciant d’une pro­tec­tion spé­ci­fique : don­nées per­son­nelles, don­nées rel­e­vant du secret des affaires, etc.

Un potentiel considérable de valorisation économique et sociale

Une masse d’informations aus­si con­sid­érable col­lec­tée par les admin­is­tra­tions et ser­vices publics n’implique pas, du fait des garde-fous juridiques, que ces infor­ma­tions puis­sent être détournées pour des fins autres que celles pour lesquelles elles ont été col­lec­tées, ni même qu’il existe une « autorité cen­trale » capa­ble de les appari­er entre elles sans con­trôle et autorisée à le faire.

Elle con­stitue un poten­tiel con­sid­érable de val­ori­sa­tion économique et sociale au ser­vice de l’intérêt général et, simul­tané­ment, porte en elle une men­ace poten­tielle à l’égard de la vie privée et de la con­fi­ance que les citoyens ont à l’égard de leur gouvernement.

Il est vain d’insister sur le poten­tiel de val­ori­sa­tion en niant les dan­gers, de même qu’il est vain de pouss­er à l’extrême le principe de pré­cau­tion en oubliant les bien­faits con­sid­érables que l’utilisation de ces don­nées peut apporter à la société.

Face à cette dif­fi­culté, per­me­t­tre à des chercheurs d’exploiter ces don­nées dans un cadre strict et sécurisé peut con­stituer une réponse d’un intérêt majeur.

REPÈRES

Les administrations produisent une quantité considérable de données nécessaires au bon fonctionnement du service public et à la gouvernance des politiques menées. Depuis 2005, ces données peuvent être réutilisées par des tiers, citoyens, chercheurs, créateurs, associations et entreprises.
L’objectif de cette large diffusion des données publiques, aussi appelée open data, était avant tout de stimuler la création économique et l’innovation à partir de cette masse de données. Il s’agit en effet d’une matière première très riche pour l’industrie numérique notamment. Une étude européenne chiffre ainsi à 40 milliards d’euros par an environ les gains économiques directs pouvant découler de l’utilisation des informations publiques pour l’ensemble de l’Union.
Mais l’ouverture de ces données répond aussi à une exigence démocratique de transparence de l’action publique et constitue un vecteur de modernisation de l’administration. Les bénéfices attendus sont donc tant d’ordre économique que social.
Au sein de la masse des données publiques, il convient toutefois de distinguer celles qui peuvent faire l’objet d’une diffusion large et ouverte, des données sensibles, au regard notamment de la protection de la vie privée des citoyens dont l’utilisation doit être encadrée.

Bienfaits et dangers

Il est impératif de con­sid­ér­er simul­tané­ment les bien­faits et les dan­gers de l’exploitation de don­nées per­son­nelles comme les deux faces d’une même prob­lé­ma­tique. Des don­nées agrégées qui ne con­tiendraient aucune infor­ma­tion risquant de met­tre en dan­ger la vie privée peu­vent présen­ter un intérêt indé­ni­able pour cer­tains acteurs, par exem­ple pour con­stru­ire des indi­ca­teurs sur la per­for­mance des cen­tres hos­pi­tal­iers. Mais l’agrégation obère très prob­a­ble­ment une grande par­tie du poten­tiel de val­ori­sa­tion des données.

Identification indirecte

Le rapport sur les données de santé cité dans l’article donne un exemple très parlant du risque d’identification indirecte : si on prend l’exemple des séjours hospitaliers avec pour seules informations l’hôpital, le code postal du domicile, l’âge (mois et année de naissance), le sexe, le mois de sortie et la durée de séjour, 89% des patients hospitalisés dans l’année 2008 sont théoriquement identifiables (et 100% des personnes hospitalisées deux fois).

Inverse­ment, une source de don­nées à haute valeur ajoutée avec une gran­u­lar­ité fine a de grandes chances d’être aus­si une source de dan­ger pour la vie privée si son usage est détourné.

En effet, une base de don­nées, même ren­due anonyme, c’est-à-dire sans le nom, prénom, adresse et numéro de Sécu­rité sociale des indi­vidus, peut présen­ter un risque réel d’identification des indi­vidus présents dans cette base. On par­le alors de don­nées indi­recte­ment nom­i­na­tives et de risque de réidentification.

Autrement dit, la prob­a­bil­ité n’est jamais nulle qu’en croisant les vari­ables de la base de façon sys­té­ma­tique on arrive à iden­ti­fi­er des indi­vidus, d’autant plus si l’on dis­pose d’informations externes supplémentaires.

Un encadrement législatif solide

Quelles sont les solu­tions ? En pre­mier lieu, l’encadrement lég­is­latif et régle­men­taire doit être solide. S’agissant de la France et, plus générale­ment, de l’espace européen, cet encadrement est claire­ment établi, via notam­ment les dis­po­si­tions pro­tégeant le secret médi­cal, le secret fis­cal, le secret sta­tis­tique ou encore le secret des affaires, ain­si que l’ensemble des lois et règle­ments européens. En out­re, la légitim­ité et l’autorité de la CNIL sont indiscutables.

Quand il s’agit de recherche scientifique – et non d’open data – le risque à maîtriser est le risque de dissémination

En deux­ième lieu, il existe un ensem­ble de méthodolo­gies et d’algorithmes sta­tis­tiques pour réduire le risque de réi­den­ti­fi­ca­tion tout en min­imisant la perte d’information asso­ciée. En effet, il y a néces­saire­ment perte d’information dès lors qu’on réduit la prob­a­bil­ité de réidentification.

Les algo­rithmes et méthodolo­gies sta­tis­tiques ont juste­ment pour but de min­imiser le ratio entre le « coût » (la perte d’information) et le « béné­fice » (la réduc­tion de la prob­a­bil­ité de réidentification).

Mal­heureuse­ment, ce genre de tech­nique con­duit en général à une perte d’information qui fait per­dre à la base de don­nées son intérêt pour des recherch­es sci­en­tifiques poussées, même si la base garde sou­vent un intérêt dans une logique d’open data visant à ali­menter le débat public.

Santé et vie privée

Un rapport remarquable remis récemment à la ministre des Affaires sociales concernant l’ouverture des données de santé illustre cette tension entre les bienfaits considérables d’une meilleure utilisation des données de santé, en l’occurrence la base de 1,2 milliard d’enregistrements des feuilles de soin collectées par la Caisse nationale d’assurance maladie, soit environ 200 téraoctets de données chaque année, et les dangers potentiels d’une telle masse de données.
Du côté des bienfaits, personne ne pourra nier l’intérêt considérable de détecter très tôt des associations médicamenteuses délétères ou des phénomènes épidémiologiques graves, d’économiser des sommes considérables en examens médicaux inutiles et peut-être dangereux, de permettre aux médecins de mieux suivre et « piloter » l’état de santé de leurs patients, et tout ceci grâce à une analyse statistique rigoureuse des données de l’assurance-maladie.
Qui pourrait affirmer que des problèmes graves de santé publique ne sont pas en train de survenir aujourd’hui même sans que personne n’en ait conscience encore ? Sachant cela, qui serait prêt à refuser une analyse statistique fouillée et en temps réel des données individuelles de l’assurance-maladie permettant de détecter ces problèmes plusieurs mois voire plusieurs années avant que les dégâts n’apparaissent au grand jour ?
À l’inverse, personne ne peut nier que cette source d’information recèle des dangers potentiels pour la vie privée des usagers qui exigent que son utilisation soit encadrée. Il suffit d’imaginer ce que des assureurs, des laboratoires pharmaceutiques ou les administrations pourraient faire, dans un pays qui ne serait pas un État de droit, avec une telle masse d’informations sur la santé des individus ou sur les pratiques des médecins.

Con­traire­ment à la logique de l’open data, la recherche sci­en­tifique exige en revanche de per­me­t­tre à des chercheurs dûment autorisés de pou­voir tra­vailler directe­ment sur les don­nées brutes les plus exhaustives.

Face au risque de réi­den­ti­fi­ca­tion par nature très impor­tant, l’enjeu cru­cial est plutôt d’empêcher toute fuite de don­nées en dehors du cer­cle strict des seuls chercheurs autorisés. Le risque à maîtris­er n’est donc plus le risque de réi­den­ti­fi­ca­tion mais le risque de dissémination.

S’enfermer dans un bunker

Longtemps, la seule « tech­nolo­gie » util­is­able pour prévenir le risque de dis­sémi­na­tion rel­e­vait de la tech­nique du « bunker », c’est-à- dire la con­struc­tion d’un cen­tre physique dans lequel le chercheur doit se ren­dre, être fouil­lé à l’entrée et la sor­tie, et sur­veil­lé pen­dant tout le temps où il tra­vaille sur les don­nées à l’intérieur de ce bunker.

Les pre­miers cen­tres physiques ont été créés aux États-Unis ou au Cana­da il y a plusieurs décennies.

Pour l’anecdote, aux États-Unis, le cen­tre physique est sur­veil­lé par la police et c’est un polici­er qui fouille le chercheur avant et après l’entrée dans le bunker. Inutile de dire que cette façon de faire de la recherche est très coû­teuse et ne cor­re­spond pas vrai­ment aux pra­tiques de la recherche scientifique.

La deux­ième généra­tion tech­nologique a porté sur le remote exe­cu­tion dans lequel le chercheur n’a pas accès aux don­nées et se con­tente d’envoyer son pro­gramme infor­ma­tique à l’administration pro­prié­taire des don­nées qui se charge alors de le faire tourn­er et ren­voie les résul­tats au chercheur (après avoir véri­fié que rien de con­fi­den­tiel ne s’y trou­vait). Très lourd aussi.

La troisième généra­tion a naturelle­ment con­sisté à implé­menter un logi­ciel de sécu­rité sur le poste infor­ma­tique du chercheur mais cette solu­tion, util­isée aux Pays-Bas par exem­ple, est extrême­ment coû­teuse à gér­er (il n’y a pas deux chercheurs sur terre qui ont le même matériel et le même envi­ron­nement infor­ma­tique) et, au final, très peu sécurisée, car le chercheur est sou­vent admin­is­tra­teur de son poste de travail.

La compétence française

Le Centre d’accès sécurisé aux données (CASD) a été développé au sein du Groupe des écoles nationales d’économie et statistique (l’établissement tutelle de l’ENSAE, école d’application de l’École polytechnique) pour répondre aux besoins de l’INSEE.
Aujourd’hui, 500 chercheurs français et européens ont accès en toute sécurité aux données fiscales, données de l’INSEE, données de divers ministères et bientôt peut-être les données de santé si leur ouverture est décidée par le pouvoir politique.
Cette technologie (mais pas les données bien sûr) est en train d’être commercialisée dans les autres pays européens, voire également pour d’autres applications privées où des entreprises ont des données sensibles qui doivent être utilisées, prouvant au passage l’excellence française en termes de big data et de gestion de la sécurité des données.

Travailler à distance

L’administration française est en pointe car elle a dévelop­pé la qua­trième généra­tion grâce à une inno­va­tion tech­nologique brevetée et label­lisée « Équipement d’excellence » qui per­met à des cen­taines de chercheurs français et européens de tra­vailler à dis­tance sur des don­nées con­fi­den­tielles sans risque de dissémination.

Les données ne quittent jamais les serveurs centraux

Cette solu­tion tech­nologique repose sur un ter­mi­nal physique minia­tur­isé (SD Box) qui fonc­tionne en remote access, qui est totale­ment indépen­dant du réseau infor­ma­tique local et qui néces­site une iden­ti­fi­ca­tion bio­métrique forte (par empreinte dig­i­tale) pour être utilisé.

Ain­si, les don­nées ne quit­tent jamais les serveurs cen­traux de l’administration française, lesquels serveurs sont eux-mêmes totale­ment étanch­es aux réseaux infor­ma­tiques de l’administration et ne peu­vent dia­loguer qu’avec les ter­minaux SD Box.

Poster un commentaire