Un open data pour la recherche scientifique

Dossier : BIG DATAMagazine N°693
Par Danielle BOURLANGE (79)
Par Antoine FRACHOT (84)

L’État et ses services publics disposent d’un gisement extraordinaire de données et d’informations sur les individus et les entreprises, ayant un caractère sensible et bénéficiant d’une protection spécifique : données personnelles, données relevant du secret des affaires, etc.

Un potentiel considérable de valorisation économique et sociale

Une masse d’informations aussi considérable collectée par les administrations et services publics n’implique pas, du fait des garde-fous juridiques, que ces informations puissent être détournées pour des fins autres que celles pour lesquelles elles ont été collectées, ni même qu’il existe une « autorité centrale » capable de les apparier entre elles sans contrôle et autorisée à le faire.

Elle constitue un potentiel considérable de valorisation économique et sociale au service de l’intérêt général et, simultanément, porte en elle une menace potentielle à l’égard de la vie privée et de la confiance que les citoyens ont à l’égard de leur gouvernement.

Il est vain d’insister sur le potentiel de valorisation en niant les dangers, de même qu’il est vain de pousser à l’extrême le principe de précaution en oubliant les bienfaits considérables que l’utilisation de ces données peut apporter à la société.

Face à cette difficulté, permettre à des chercheurs d’exploiter ces données dans un cadre strict et sécurisé peut constituer une réponse d’un intérêt majeur.

REPÈRES

Les administrations produisent une quantité considérable de données nécessaires au bon fonctionnement du service public et à la gouvernance des politiques menées. Depuis 2005, ces données peuvent être réutilisées par des tiers, citoyens, chercheurs, créateurs, associations et entreprises.
L’objectif de cette large diffusion des données publiques, aussi appelée open data, était avant tout de stimuler la création économique et l’innovation à partir de cette masse de données. Il s’agit en effet d’une matière première très riche pour l’industrie numérique notamment. Une étude européenne chiffre ainsi à 40 milliards d’euros par an environ les gains économiques directs pouvant découler de l’utilisation des informations publiques pour l’ensemble de l’Union.
Mais l’ouverture de ces données répond aussi à une exigence démocratique de transparence de l’action publique et constitue un vecteur de modernisation de l’administration. Les bénéfices attendus sont donc tant d’ordre économique que social.
Au sein de la masse des données publiques, il convient toutefois de distinguer celles qui peuvent faire l’objet d’une diffusion large et ouverte, des données sensibles, au regard notamment de la protection de la vie privée des citoyens dont l’utilisation doit être encadrée.

Bienfaits et dangers

Il est impératif de considérer simultanément les bienfaits et les dangers de l’exploitation de données personnelles comme les deux faces d’une même problématique. Des données agrégées qui ne contiendraient aucune information risquant de mettre en danger la vie privée peuvent présenter un intérêt indéniable pour certains acteurs, par exemple pour construire des indicateurs sur la performance des centres hospitaliers. Mais l’agrégation obère très probablement une grande partie du potentiel de valorisation des données.

Identification indirecte

Le rapport sur les données de santé cité dans l’article donne un exemple très parlant du risque d’identification indirecte : si on prend l’exemple des séjours hospitaliers avec pour seules informations l’hôpital, le code postal du domicile, l’âge (mois et année de naissance), le sexe, le mois de sortie et la durée de séjour, 89% des patients hospitalisés dans l’année 2008 sont théoriquement identifiables (et 100% des personnes hospitalisées deux fois).

Inversement, une source de données à haute valeur ajoutée avec une granularité fine a de grandes chances d’être aussi une source de danger pour la vie privée si son usage est détourné.

En effet, une base de données, même rendue anonyme, c’est-à-dire sans le nom, prénom, adresse et numéro de Sécurité sociale des individus, peut présenter un risque réel d’identification des individus présents dans cette base. On parle alors de données indirectement nominatives et de risque de réidentification.

Autrement dit, la probabilité n’est jamais nulle qu’en croisant les variables de la base de façon systématique on arrive à identifier des individus, d’autant plus si l’on dispose d’informations externes supplémentaires.

Un encadrement législatif solide

Quelles sont les solutions ? En premier lieu, l’encadrement législatif et réglementaire doit être solide. S’agissant de la France et, plus généralement, de l’espace européen, cet encadrement est clairement établi, via notamment les dispositions protégeant le secret médical, le secret fiscal, le secret statistique ou encore le secret des affaires, ainsi que l’ensemble des lois et règlements européens. En outre, la légitimité et l’autorité de la CNIL sont indiscutables.

Quand il s’agit de recherche scientifique – et non d’open data – le risque à maîtriser est le risque de dissémination

En deuxième lieu, il existe un ensemble de méthodologies et d’algorithmes statistiques pour réduire le risque de réidentification tout en minimisant la perte d’information associée. En effet, il y a nécessairement perte d’information dès lors qu’on réduit la probabilité de réidentification.

Les algorithmes et méthodologies statistiques ont justement pour but de minimiser le ratio entre le « coût » (la perte d’information) et le « bénéfice » (la réduction de la probabilité de réidentification).

Malheureusement, ce genre de technique conduit en général à une perte d’information qui fait perdre à la base de données son intérêt pour des recherches scientifiques poussées, même si la base garde souvent un intérêt dans une logique d’open data visant à alimenter le débat public.

Santé et vie privée

Un rapport remarquable remis récemment à la ministre des Affaires sociales concernant l’ouverture des données de santé illustre cette tension entre les bienfaits considérables d’une meilleure utilisation des données de santé, en l’occurrence la base de 1,2 milliard d’enregistrements des feuilles de soin collectées par la Caisse nationale d’assurance maladie, soit environ 200 téraoctets de données chaque année, et les dangers potentiels d’une telle masse de données.
Du côté des bienfaits, personne ne pourra nier l’intérêt considérable de détecter très tôt des associations médicamenteuses délétères ou des phénomènes épidémiologiques graves, d’économiser des sommes considérables en examens médicaux inutiles et peut-être dangereux, de permettre aux médecins de mieux suivre et « piloter » l’état de santé de leurs patients, et tout ceci grâce à une analyse statistique rigoureuse des données de l’assurance-maladie.
Qui pourrait affirmer que des problèmes graves de santé publique ne sont pas en train de survenir aujourd’hui même sans que personne n’en ait conscience encore? Sachant cela, qui serait prêt à refuser une analyse statistique fouillée et en temps réel des données individuelles de l’assurance-maladie permettant de détecter ces problèmes plusieurs mois voire plusieurs années avant que les dégâts n’apparaissent au grand jour?
À l’inverse, personne ne peut nier que cette source d’information recèle des dangers potentiels pour la vie privée des usagers qui exigent que son utilisation soit encadrée. Il suffit d’imaginer ce que des assureurs, des laboratoires pharmaceutiques ou les administrations pourraient faire, dans un pays qui ne serait pas un État de droit, avec une telle masse d’informations sur la santé des individus ou sur les pratiques des médecins.

Contrairement à la logique de l’open data, la recherche scientifique exige en revanche de permettre à des chercheurs dûment autorisés de pouvoir travailler directement sur les données brutes les plus exhaustives.

Face au risque de réidentification par nature très important, l’enjeu crucial est plutôt d’empêcher toute fuite de données en dehors du cercle strict des seuls chercheurs autorisés. Le risque à maîtriser n’est donc plus le risque de réidentification mais le risque de dissémination.

S’enfermer dans un bunker

Longtemps, la seule « technologie » utilisable pour prévenir le risque de dissémination relevait de la technique du « bunker », c’est-à- dire la construction d’un centre physique dans lequel le chercheur doit se rendre, être fouillé à l’entrée et la sortie, et surveillé pendant tout le temps où il travaille sur les données à l’intérieur de ce bunker.

Les premiers centres physiques ont été créés aux États-Unis ou au Canada il y a plusieurs décennies.

Pour l’anecdote, aux États-Unis, le centre physique est surveillé par la police et c’est un policier qui fouille le chercheur avant et après l’entrée dans le bunker. Inutile de dire que cette façon de faire de la recherche est très coûteuse et ne correspond pas vraiment aux pratiques de la recherche scientifique.

La deuxième génération technologique a porté sur le remote execution dans lequel le chercheur n’a pas accès aux données et se contente d’envoyer son programme informatique à l’administration propriétaire des données qui se charge alors de le faire tourner et renvoie les résultats au chercheur (après avoir vérifié que rien de confidentiel ne s’y trouvait). Très lourd aussi.

La troisième génération a naturellement consisté à implémenter un logiciel de sécurité sur le poste informatique du chercheur mais cette solution, utilisée aux Pays-Bas par exemple, est extrêmement coûteuse à gérer (il n’y a pas deux chercheurs sur terre qui ont le même matériel et le même environnement informatique) et, au final, très peu sécurisée, car le chercheur est souvent administrateur de son poste de travail.

La compétence française

Le Centre d’accès sécurisé aux données (CASD) a été développé au sein du Groupe des écoles nationales d’économie et statistique (l’établissement tutelle de l’ENSAE, école d’application de l’École polytechnique) pour répondre aux besoins de l’INSEE.
Aujourd’hui, 500 chercheurs français et européens ont accès en toute sécurité aux données fiscales, données de l’INSEE, données de divers ministères et bientôt peut-être les données de santé si leur ouverture est décidée par le pouvoir politique.
Cette technologie (mais pas les données bien sûr) est en train d’être commercialisée dans les autres pays européens, voire également pour d’autres applications privées où des entreprises ont des données sensibles qui doivent être utilisées, prouvant au passage l’excellence française en termes de big data et de gestion de la sécurité des données.

Travailler à distance

L’administration française est en pointe car elle a développé la quatrième génération grâce à une innovation technologique brevetée et labellisée « Équipement d’excellence » qui permet à des centaines de chercheurs français et européens de travailler à distance sur des données confidentielles sans risque de dissémination.

Les données ne quittent jamais les serveurs centraux

Cette solution technologique repose sur un terminal physique miniaturisé (SD Box) qui fonctionne en remote access, qui est totalement indépendant du réseau informatique local et qui nécessite une identification biométrique forte (par empreinte digitale) pour être utilisé.

Ainsi, les données ne quittent jamais les serveurs centraux de l’administration française, lesquels serveurs sont eux-mêmes totalement étanches aux réseaux informatiques de l’administration et ne peuvent dialoguer qu’avec les terminaux SD Box.

 

Poster un commentaire