Sinequa, moteur de recherche

Détecter l’information confidentielle avec un moteur de recherche intelligent

Dossier : Vie des entreprisesMagazine N°753 Mars 2020
Par Adrien GABEUR (08)

En s’appuyant sur de puis­santes tech­nolo­gies d’indexation com­binées au poten­tiel des algo­rithmes de Machine Learn­ing et de Deep Learn­ing, Sinequa per­met aux entre­pris­es d’exploiter leurs don­nées non struc­turées. Expli­ca­tions d’Adrien Gabeur (08), Directeur des Solu­tions Cog­ni­tives au sein de Sinequa.

Présentez-nous Sinequa.

Sinequa est un édi­teur de logi­ciels indépen­dant de la French Tech. Nous four­nissons aux entre­pris­es multi­na­tionales et agences gou­verne­men­tales une plate­forme d’analyse et de recherche intelligente. 

La com­bi­nai­son unique d’un moteur de recherche pro­prié­taire éprou­vé (Enter­prise Search) avec des algo­rithmes avancés de NLP (Traite­ment du Lan­gage Naturel), de Machine Learn­ing et de Deep Learn­ing per­met à notre solu­tion d’extraire des infor­ma­tions métiers à par­tir de don­nées struc­turées, mais surtout non structurées. 

Grâce à un tra­vail d’innovation con­stant depuis 2017, Sinequa est recon­nu leader dans le Mag­ic Quad­rant pour les Insight Engines réal­isés par le cab­i­net d’analyste améri­cain Gart­ner. Il en est de même pour le For­rester Wave con­duit par le cab­i­net For­rester. Ce sont des recon­nais­sances pres­tigieuses pour un édi­teur de logi­ciels européen.

En 2015, nous nous sommes implan­tés aux États-Unis avec des bureaux à Man­hat­tan. Plus de 50 % de notre chiffre d’affaires est réal­isé en Amérique du Nord où notre solu­tion est déployée chez des clients emblé­ma­tiques, comme la NASA qui a récem­ment choisi notre plate­forme pour nav­iguer à tra­vers son énorme base doc­u­men­taire sci­en­tifique et réu­tilis­er les savoir-faire accu­mulés au cours des anci­ennes mis­sions spatiales. 

Comment aidez-vous les entreprises à exploiter leurs données non structurées ? 

Si les don­nées non struc­turées con­nais­sent une crois­sance expo­nen­tielle, elles restent dif­fi­cile­ment exploita­bles, car elles sont de for­mats extrême­ment divers (textuel, image, vidéo…) et sont dis­séminées dans toute l’entreprise.

Leur exploita­tion néces­site des solu­tions capa­bles d’interpréter le lan­gage naturel (texte) et ses sub­til­ités dans toutes les langues. Notre plate­forme per­met de relever l’ensemble de ces défis :

  • elle pro­pose des traite­ments avancés pour plus 23 langues ; 
  • elle s’appuie sur une librairie pro­prié­taire de plus de 200 con­necteurs qui per­me­t­tent d’accéder aux dif­férentes sources de don­nées util­isées par les entreprises ; 
  • elle extrait les con­tenus à tra­vers plus de 350 for­mats de fichiers.

Comment cela se traduit-il concrètement ? 

Nous com­mençons par con­fig­ur­er nos con­necteurs pour accéder en lec­ture aux dif­férentes sources de don­nées. Cela peut par­fois représen­ter plusieurs cen­taines de mil­lions de doc­u­ments. Les don­nées sont alors indexées dans notre plate­forme et enrichies grâce à nos algo­rithmes de traite­ment du langage. 

À ce stade, le texte est immé­di­ate­ment disponible à la recherche et nous sommes déjà en mesure de recon­naître toute sorte de pat­terns, de con­cepts ou du vocab­u­laire spé­ci­fique au méti­er, que nous extrayons sous forme d’entités nommées. 

Nous util­isons ensuite des algo­rithmes de Machine Learn­ing pour entraîn­er, sur les don­nées du client, des mod­èles capa­bles de faire une analyse plus fine du con­tenu et dédiés au cas d’usages que nous adressons.

En par­al­lèle, nous créons aus­si des appli­ca­tions méti­er, dites « Search-Based appli­ca­tions », pour per­me­t­tre aux util­isa­teurs d’explorer, d’analyser et d’exploiter le cor­pus doc­u­men­taire enrichi par nos analy­ses. À par­tir de ces appli­ca­tions, nous pou­vons récolter le feed­back des métiers. Cela nous per­met d’améliorer con­stam­ment les mod­èles, mais aus­si d’assurer que les pré­dic­tions restent pré­cis­es, aus­si bien dans le temps que dans le cadre de l’évolution des corpus. 

Qu’en est-il en termes de cyber sécurité ? 

Face à la crois­sance expo­nen­tielle du vol­ume des don­nées non struc­turées, les entre­pris­es se retrou­vent avec un cor­pus doc­u­men­taire qui débor­de d’informations, entre autres con­fi­den­tielles. L’enjeu est d’analyser en temps réel les don­nées pour iden­ti­fi­er les élé­ments à pro­téger. L’évolution rapi­de de ces cor­pus rend la plu­part des méth­odes d’identification manuelle totale­ment inefficaces. 

En par­al­lèle, ces infor­ma­tions con­fi­den­tielles pren­nent une mul­ti­tude de formes en fonc­tion des métiers de l’organisation : plan stratégique, infor­ma­tions clients, savoir-faire indus­triels, parte­nar­i­at stratégique… 

Nous aidons à résoudre ce prob­lème en entraî­nant des mod­èles capa­bles d’appréhender, pour chaque client, le con­texte et l’essence du con­tenu, pour prédire avec pré­ci­sion un niveau de con­fi­den­tial­ité, en accord avec ses règles internes de con­fi­den­tial­ité. Une fois ces mod­èles déployés à une échelle indus­trielle sur notre plate­forme, nous automa­ti­sons le proces­sus d’identification et met­tons à dis­po­si­tion des inter­faces util­isa­teurs qui per­me­t­tent, entre autres, de com­pren­dre où se trou­ve la don­née con­fi­den­tielle ou privée et de véri­fi­er qu’elle est bien protégée.

“Face à la croissance exponentielle du volume des données non structurées,
les entreprises se retrouvent avec un corpus documentaire qui déborde d’informations, entre autres confidentielles.
L’enjeu est d’analyser en temps réel les données pour identifier les éléments à protéger.”

Comment résumeriez-vous la valeur ajoutée de Sinequa ?

Notre plate­forme se dis­tingue par sa com­bi­nai­son unique de technologies :

  • l’évolutivité et la per­for­mance : la capac­ité de gér­er, dans le cloud ou on-premise, de gros vol­umes de don­nées ou Big Data ;
  • la con­nec­tiv­ité : la capac­ité de se con­necter à toutes les sources de don­nées dans les entre­pris­es grâce à plus de 200 connecteurs ;
  • le traite­ment avancé du texte en plus de 23 langues ;
  • un moteur de recherche éprou­vé qui per­met d’interagir avec les don­nées en fonc­tion des prob­lé­ma­tiques utilisateurs ;
  • la ges­tion des droits d’accès : dans chaque inter­face util­isa­teur que nous déployons, nous répliquons les droits d’accès en place dans la source d’origine ;
  • le Machine Learn­ing et le Deep Learn­ing : la capac­ité d’entraîner sur les don­nées de nos clients puis de met­tre en pro­duc­tion, à l’échelle, l’usage de mod­èles d’intelligence artificielle.

Nous sommes par­ti­c­ulière­ment mobil­isés sur les tech­nolo­gies de Deep Learn­ing qui évolu­ent con­stam­ment et con­stituent une véri­ta­ble révo­lu­tion. Nous analysons quo­ti­di­en­nement les papiers pro­duits par la recherche fon­da­men­tale pour étudi­er leur poten­tielle appli­ca­tion à nos cas d’usages et leur applic­a­bil­ité dans les con­traintes de notre marché cible (applic­a­bil­ité au non struc­turé, hard­ware néces­saire, évo­lu­tiv­ité, taille des ensem­bles d’apprentissages req­uis…). Si cela est per­ti­nent, nous les opti­misons et les inté­grons ensuite à notre plate­forme. Aujourd’hui, nous comp­tons un nom­bre crois­sant de clients qui utilisent cette tech­nolo­gie en pro­duc­tion et à l’échelle sur notre plateforme.

La data est au cœur de votre expertise. Quelles problématiques adressez-vous dans ce cadre ?

Le prin­ci­pal défi est de fournir la bonne infor­ma­tion au bon util­isa­teur, au bon moment et au bon endroit. C’est l’essence même de notre métier. 

Cela peut pren­dre dif­férentes formes. Plus par­ti­c­ulière­ment, dans le domaine de la cyber sécu­rité, nous créons, par exem­ple, une car­togra­phie nav­i­ga­ble qui donne avec pré­ci­sion une vue d’ensemble de toutes les don­nées sen­si­bles, con­fi­den­tielles et privées de l’entreprise.

En parallèle, quels sont les sujets qui vous mobilisent actuellement ? Qu’en est-il de vos perspectives ?

Le Deep Learn­ing est une tech­nolo­gie encore émer­gente. À l’heure actuelle, très peu d’entreprises sont capa­bles de l’utiliser à une échelle indus­trielle pour génér­er du retour sur investisse­ment. En par­al­lèle, l’arrivée récente des mod­èles « Deep Lan­guage » et le développe­ment des tech­niques de Trans­fer Learn­ing lais­sent entrevoir une mul­ti­tude de fonc­tion­nal­ités nou­velles. Notre objec­tif est de les embar­quer sur notre plate­forme pour que nos clients puis­sent en béné­fici­er. Mon rôle au sein de Sinequa con­siste à iden­ti­fi­er les nou­veaux cas d’usages qui peu­vent en découler et dévelop­per cette offre en Europe et aux États-Unis.


Décou­vrir le site de Sinequa

A lire sur le même sujet : « Nous trans­for­mons la don­née brute en une infor­ma­tion éclairée et con­tex­tu­al­isée pour une meilleure prise de déci­sion », dans La jaune et la Rouge n° 742 de Févri­er 2019.

Poster un commentaire