Utilisation de la donnée massive dans la police judiciaire : fichier automatisé des empreintes digitales (FAED)

La police judiciaire à l’épreuve de la donnée massive
Moore a rendez-vous avec Locard

Dossier : Gendarmerie & numériqueMagazine N°778 Octobre 2022
Par Sarah PÉTROFF (X13)

Avec la révo­lu­tion numérique, la quan­tité de preuves poten­tielles disponibles dans les enquêtes judi­ci­aires a con­nu une crois­sance ver­tig­ineuse. Les délin­quants ont investi le cybere­space et les besoins des enquê­teurs ont changé. Data sci­en­tists et enquê­teurs col­la­borent pour traiter au mieux cette masse de don­nées au poten­tiel inédit, dans un cadre juridique par­ti­c­ulière­ment sensible. 
Le con­tenu de l’article n’exprime que le point de vue de l’auteur et n’engage pas la gendarmerie.

Les forces de sécu­rité ont main­tenant bien pris la mesure de la men­ace que représente la cyber­crim­i­nal­ité (atteintes aux sys­tèmes de traite­ment automa­tisé de don­nées ou STAD, piratages, etc.) avec pour la gen­darmerie la créa­tion à l’été 2021 du Com­Cy­ber­Gend, regroupant sous une même ban­nière toutes les activ­ités de l’institution dans ce domaine, de la préven­tion à l’identification des auteurs en pas­sant par la recherche de la preuve numérique. Elles con­tin­u­ent leur adap­ta­tion à l’irruption du numérique dans la délin­quance de tous les jours, alors même que la crois­sance ver­tig­ineuse du vol­ume des preuves numériques poten­tielles exige une mod­i­fi­ca­tion pro­fonde de la manière d’appréhender, de tri­er et d’exploiter cette don­née massive.

Déjà trente ans d’analyse criminelle

La prob­lé­ma­tique du traite­ment de la don­née judi­ci­aire de masse n’est pas tout à fait nou­velle. En 2017, le logi­ciel Ana­lyst Note­book a con­nu une renom­mée éphémère en per­me­t­tant une avancée sig­ni­fica­tive dans le cold case peut-être le plus célèbre de France, l’affaire Gré­go­ry. Ce logi­ciel, fourni par IBM, est util­isé depuis les années 1990 par des gen­darmes spé­ciale­ment for­més, appelés ana­lystes crim­inels ou « Anacrim », pour le traite­ment des affaires les plus com­plex­es. Ces spé­cial­istes trans­for­ment notam­ment le con­tenu des procé­dures en base de don­nées puis en graphe, ce qui per­met d’avoir une vision d’ensemble de dossiers qui représen­tent des mil­liers de pièces de procé­dure et de met­tre en évi­dence inco­hérences et connexions.

Aujourd’hui la don­née mas­sive est partout. Le prob­lème de son traite­ment n’est donc plus lim­ité aux dossiers les plus graves, mais est devenu un prob­lème quo­ti­di­en des enquê­teurs, même pour des faits de faible inten­sité, aux­quels la gen­darmerie ne peut pas se per­me­t­tre de con­sacr­er autant de temps. Il y a encore vingt ans, analyser le con­tenu d’un Nokia 3310 pou­vait se faire à la main en quelques min­utes. Aujourd’hui, le dernier iPhone offre un téraoctet de stock­age. Le prob­lème n’est pas tout à fait le même non plus : dans un dossier com­plexe, les Anacrim intè­grent toute la don­née disponible, dans le but de met­tre en évi­dence des preuves qui rési­dent dans l’assemblage des pièces de procé­dure plutôt que dans ces pièces pris­es individuellement.

Dans un dossier clas­sique, la logique qui pré­vaut est celle de l’efficacité : il s’agit de trou­ver l’aiguille qui intéresse le dossier dans la botte de foin que représente la don­née disponible, sans pou­voir y con­sacr­er trop de temps.


Edmond Locard, fondateur du premier laboratoire de police scientifique

Il y a tout juste un siè­cle, le Français Edmond Locard déclarait que « nul ne peut agir avec l’intensité que sup­pose l’action crim­inelle sans laiss­er des mar­ques mul­ti­ples de son pas­sage ». Par­tant de ce principe, il crée le pre­mier lab­o­ra­toire de crim­i­nal­is­tique pour for­malis­er l’étude des traces et indices retrou­vés sur les scènes de crime. Si Locard n’a sans doute pas pu imag­in­er l’avènement excep­tion­nel du numérique, son principe en devient encore plus vrai aujourd’hui. À l’heure où l’évolution expo­nen­tielle des capac­ités des ordi­na­teurs valide le pos­tu­lat de Moore, où la créa­tion mon­di­ale de don­nées se mesure en zettaoctets et où le délin­quant a dans sa poche le dernier iPhone, la trace numérique est partout. Mais, et heureuse­ment, la durée légale de la garde à vue n’a pas suivi la même courbe et les enquê­teurs se retrou­vent à devoir analyser des vol­umes de don­nées tou­jours plus impor­tants dans des délais tou­jours aus­si restreints. 


De la donnée à la preuve

Tech­nique­ment, il est rel­a­tive­ment aisé de fournir aux gen­darmes un out­il per­me­t­tant de rechercher des don­nées qui con­stituent en elles-mêmes la preuve d’une infrac­tion. Par exem­ple, les forces de police dis­posent depuis de nom­breuses années d’outils per­me­t­tant la recherche d’images à car­ac­tère pédo­pornographique, dont la déten­tion est à elle seule une infrac­tion. Il est beau­coup plus com­plexe de rechercher des indices qui ne devi­en­nent des preuves qu’une fois mis en rela­tion avec d’autres élé­ments du dossier : une posi­tion géo­graphique incrim­i­nante, un his­torique Inter­net sus­pect, une pho­to con­tre­dis­ant le con­tenu d’une audition…

Ces recherch­es néces­si­tent donc à la fois des com­pé­tences tech­niques, per­me­t­tant d’automatiser les recherch­es, et une con­nais­sance aus­si poussée que pos­si­ble du dossier, pour savoir quoi rechercher et estimer la force probante des résul­tats. Les agents dis­posant de cette dou­ble com­pé­tence, tech­nique et judi­ci­aire, sont aujourd’hui trop rares, pour un cas d’usage qui est déjà quo­ti­di­en et qui sera de plus en plus fréquent.

Des marges d’amélioration

De plus, bien que la spé­cial­ité Anacrim existe depuis longtemps, celle-ci ne fait encore qu’un usage lim­ité des pos­si­bil­ités offertes par la tech­nolo­gie. En effet, si ces enquê­teurs sont indis­so­cia­bles du logi­ciel Ana­lyst Note­book, ce dernier sert prin­ci­pale­ment sinon exclu­sive­ment à la trans­for­ma­tion d’une base de don­nées rela­tion­nelle en graphe per­me­t­tant d’avoir une représen­ta­tion visuelle d’un dossier.

La base en elle-même est aujourd’hui encore très large­ment ren­seignée manuelle­ment à par­tir des pièces du dossier, tâche chronophage s’il en est. Une fois le graphe con­sti­tué, son analyse relève là aus­si pure­ment de l’intelligence humaine, l’analyste manip­u­lant visuelle­ment le graphe pour faire ressor­tir les élé­ments d’intérêt. Les Anacrim d’aujourd’hui sont donc davan­tage des enquê­teurs que des data sci­en­tists.

“Il est complexe de rechercher des indices qui ne deviennent des preuves qu’une fois mis en relation avec d’autres éléments.”

Mais leur tra­vail con­siste prin­ci­pale­ment à faire par­ler de la don­née mas­sive et pour­rait béné­fici­er des avancées en ce domaine. Des recherch­es sont par exem­ple en cours pour automa­tis­er autant que pos­si­ble la phase de con­sti­tu­tion de la base de don­nées, en appli­quant des méth­odes d’extraction automa­tique d’éléments et de rela­tions. La par­tie analyse peut elle aus­si béné­fici­er aujourd’hui des algo­rithmes d’analyse de graphe, en par­ti­c­uli­er sur les dossiers s’attaquant à des réseaux crim­inels impor­tants et organisés.

Prendre un peu de recul

La révo­lu­tion numérique n’a pas fait que mul­ti­pli­er les don­nées à analyser, elle a aus­si fait explos­er le nom­bre de dél­its, d’auteurs et de vic­times. Depuis 2018, l’infraction de har­cèle­ment peut être retenue pour chaque per­son­ne ayant posté même un seul com­men­taire haineux sous une pub­li­ca­tion Face­book, ce qui implique des faits avec des cen­taines voire des mil­liers d’auteurs. Aujourd’hui, un escroc peut acheter pour quelques euros sur le dark­net une base con­tenant des mil­lions d’adresses e‑mail et com­met­tre ensuite en un clic autant de ten­ta­tives d’escroquerie.

Face à ce raz-de-marée d’infractions et de vic­times poten­tielles, la façon de faire his­torique – chaque vic­time dépose plainte dans le com­mis­sari­at ou la brigade de gen­darmerie, qui mèn­era ensuite l’enquête sur ce fait indi­vidu­el – ne tient plus la charge. Les pou­voirs publics com­men­cent ain­si à déploy­er depuis quelques années dif­férentes plate­formes pour per­me­t­tre le sig­nale­ment de ces faits com­mis en masse sur Inter­net, comme Perce­val pour les util­i­sa­tions fraud­uleuses de don­nées ban­caires ou Thésée pour les escroqueries.

Au-delà du gain de temps pour l’usager – plus besoin de se ren­dre physique­ment en brigade ou en com­mis­sari­at – l’utilité de ces plate­formes réside surtout dans la con­sti­tu­tion de bases de don­nées au niveau nation­al, sur lesquelles il est ensuite établi automa­tique­ment des recoupe­ments entre infrac­tions sim­i­laires, afin d’orienter ensuite les procé­dures de façon groupée vers un unique ser­vice d’enquête.


Lire aussi : La transformation numérique de l’innovation de la Gendarmerie nationale

L’angle de la donnée massive

Si ces plate­formes ne trait­ent aujourd’hui que des infrac­tions rel­e­vant du numérique, tout le spec­tre des infrac­tions de basse inten­sité com­mis­es de façon sérielle – vols à l’étalage, détourne­ments de chèque… – pour­rait béné­fici­er d’une approche sous l’angle de la don­née mas­sive. Il est dif­fi­cile aujourd’hui de lut­ter con­tre ce type de faits, car imput­er un fait unique à un auteur ne suf­fit pas pour obtenir une réponse pénale dissuasive.

Le tra­vail de l’enquêteur réside alors prin­ci­pale­ment dans la sci­ence du « recoupe­ment », qui con­siste à iden­ti­fi­er dans d’autres unités des procé­dures d’intérêt et à démon­tr­er que celles-ci sont rel­a­tives à des faits ayant vraisem­blable­ment été com­mis par le même auteur. Déjà dif­fi­cile en soi, la tâche se com­plique encore si l’on veut s’attaquer non pas à un indi­vidu, mais à un réseau, avec des équipes à la com­po­si­tion vari­able. Ici aus­si, des algo­rithmes pour­raient con­tribuer à effectuer ce recoupe­ment, sous réserve que la don­née rel­a­tive aux enquêtes soit disponible de façon centralisée.

Inter­pel­la­tion d’un indi­vidu par les enquê­teurs du Cen­tre de lutte con­tre les crim­i­nal­ités numériques (C3N)
du pôle judi­ci­aire de la Gen­darmerie nationale (PJGN), à Pontoise.

Le retour d’un arbitrage historique

Aujourd’hui en effet, la tech­nolo­gie est mûre, mais le prin­ci­pal blocage est juridique. L’utilisation des don­nées judi­ci­aires est légitime­ment très encadrée par le lég­is­la­teur, qui lim­ite par exem­ple forte­ment les croise­ments de don­nées entre procé­dures. Le prin­ci­pal enjeu est celui de l’éthique des algo­rithmes. Sans aller jusqu’aux dystopies hol­ly­woo­d­i­ennes, les prob­lé­ma­tiques de dis­crim­i­na­tion liées à l’IA sont bien réelles et revê­tent une impor­tance toute par­ti­c­ulière dans le domaine du judi­ci­aire. Utilis­er des algo­rithmes dans ce domaine néces­sit­era de s’assurer de leur valeur éthique, et surtout de pou­voir en apporter la preuve, sans doute via des audits externes.

La notion d’explicabilité des algo­rithmes est égale­ment fon­da­men­tale. Dans un procès pénal, la procé­dure rédigée par l’enquêteur s’apparente à une démon­stra­tion, qui doit être com­prise et véri­fiée par les juges ou le jury. Dans ce con­texte, faire appel à un algo­rithme pour franchir une étape de la démon­stra­tion pose ques­tion et néces­sit­erait vraisem­blable­ment au moins de ren­dre pub­lic son code – ce qui entraîne de nou­velles ques­tions : dans le cadre d’un algo­rithme de machine learn­ing, les don­nées d’entraînement sont au moins aus­si impor­tantes que le code en lui-même et devraient donc logique­ment être égale­ment pub­liées, avec les dif­fi­cultés que cela implique au vu de la sen­si­bil­ité des don­nées en question…

Ne pas prendre de retard

Ces ques­tions juridiques seront au cœur des dis­cus­sions des prochaines années, car le secteur pub­lic a pris con­science du poten­tiel de la don­née dont il dis­pose et poussera pour faire évoluer la lég­is­la­tion afin de per­me­t­tre la val­ori­sa­tion de cette don­née. L’éternelle ques­tion de l’arbitrage entre les moyens don­nés aux forces de l’ordre et la préser­va­tion des lib­ertés fon­da­men­tales est trans­posée aujourd’hui sur le ter­rain de l’IA. Mais, au rythme des évo­lu­tions tech­nologiques, les forces de l’ordre auront tou­jours un temps de retard sur des délin­quants qui, par déf­i­ni­tion, ne s’embarrassent pas de telles précautions.

Poster un commentaire