IA et data financière : un saut technologique majeur qui bouleverse le marché

Dossier : Vie des entreprisesMagazine N°765 Mai 2021
Par Phillipe VINCENT (61)

Le marché des données financières des Entreprises

Tous les ans, les Sociétés édi­tent un bilan con­tenant les prin­ci­paux postes exp­ri­mant les don­nées sig­ni­fica­tives de l’exercice fiscal.

Ce Bilan Fis­cal, envoyé aux impôts, sert aus­si de doc­u­ment compt­able reflé­tant l’activité de l’Entreprise…

Aus­si appelé « bilan Cer­fa », il présente l’avantage d’être soumis à une nor­mal­i­sa­tion offi­cielle qui réduit con­sid­érable­ment la vari­abil­ité de sa présentation.

Les sociétés édi­tent aus­si des « États de Ges­tion » plus fine­ment ren­seignés mais moins assu­jet­tis à une norme de présen­ta­tion. Ils sont cepen­dant soumis à une logique finan­cière lim­i­tant leur variabilité.

Au niveau des grands Groupes, les « Comptes Con­solidés » ont, avec leurs fil­iales, des struc­tures ram­i­fiées plus inat­ten­dues se prê­tant dif­fi­cile­ment à des automatisations…

Ces don­nées sont la base d’Analyses Finan­cières avec dif­férentes final­ités. Le marché est, en par­ti­c­uli­er, dom­iné par le besoin des Ban­ques de se con­former aux oblig­a­tions Inter­na­tionales Bâle II et III en s’assurant de la san­té finan­cière de leurs Entre­pris­es. Par ailleurs, elles ser­vent à cal­culer les taux d’intérêts des prêts accordés aux Entre­pris­es à tra­vers une Analyse de Risques. Autre­fois, les ana­lystes s’imprégnaient des résul­tats en par­courant les doc­u­ments. L’irruption du numérique a mod­i­fié la donne :

  • d’un côté, les pos­si­bil­ités de cal­culs ont apporté rigueur et ratio­nal­ité, encore faut-il ali­menter les ordi­na­teurs en données !
  • de l’autre, l’œil de l’expert reste indis­pens­able pour com­pléter ces cal­culs avec sa per­cep­tion intu­itive des comptes nour­rie de dizaines d’années de pratique.

Il y a donc néces­sité de faire cohab­iter deux types de fichiers :

  • un fichi­er infor­ma­tique de don­nées que l’ordinateur devra savoir lire,
  • un fichi­er image (Pdf) sur lequel l’expert pour­ra exercer sa per­cep­tion intuitive.

Le marché dichotomique de la Data Financière 

L’analyse des don­nées finan­cières requiert donc deux représen­ta­tions antinomiques :

  • L’image du Doc­u­ment, lis­i­ble par un humain.
  • Un fichi­er infor­ma­tique lis­i­ble par un ordinateur

Pourquoi antin­o­miques ?

  1. De notoriété publique, l’entrée directe de ces don­nées dans un ordi­na­teur est impos­si­ble à par­tir de l’image du Bilan, car 
    • L’extraction de valeurs d’une image sup­pose un OCR, tou­jours sus­pec­té d’erreurs !
    • Un mon­tant financier ne veut rien dire si on ne sait pas quelle valeur il représente ! Le cerveau de l’expert peut, lui, le détecter en inter­pré­tant les rubriques des lignes de tableaux.
  2. L’expert ne retrou­ve pas, dans l’affichage linéaire du fichi­er, la dis­po­si­tion en tableaux qui lui est familière.
  3. L’image typée du Bilan est une pré­somp­tion d’authenticité, con­traire­ment au fichi­er infor­ma­tique, imper­son­nel et falsifiable.

Con­séquence :

Le marché de la Data Finan­cière issue des Bilans néces­site la cohab­i­ta­tion de deux fichiers :

  • l’image du Bilan sous forme de fichi­er Pdf imprimable ou affichable.
  • le fichi­er infor­ma­tique con­tenant les valeurs du bilan selon un for­mat prédéfi­ni, les mod­ules util­isa­teurs devant s’adapter à lui.

Le fichi­er Pdf étant la source des don­nées, le fichi­er infor­ma­tique ne peut résul­ter que de leur extrac­tion intel­li­gente par saisie humaine, en temps différé.

Aucun for­mat de fichi­er ne s’impose comme norme de référence. D’où une flo­rai­son de for­mats imag­inés par les acteurs du marché, cha­cun voulant mar­quer son territoire…

De leur côté, les Logi­ciels d’Analyse Finan­cière voudraient bien impos­er leurs pro­pres for­mats d’entrée…

D’où une com­plex­i­fi­ca­tion du marché, d’autant plus préju­di­cia­ble qu’au moment de la saisie, on ne con­nait pas néces­saire­ment le logi­ciel qui utilis­era ces données…

Pour couron­ner le tout, il y a 8 Types de Bilans Cer­fa, cha­cun con­sti­tu­ant un mod­èle spécifique !

Les acteurs de la saisie des bilans

Attirés par ce marché, plusieurs sociétés ont créé une activ­ité de saisie de bilans.

Par­mi ces acteurs, on distingue :

  • les Organ­ismes Insti­tu­tion­nels comme l’INPI ou les Greffes des Tri­bunaux de Com­merce (Info­gr­effe), ayant voca­tion à col­lecter et met­tre à dis­po­si­tion les Bilans Financiers des Entre­pris­es, con­sid­érés comme d’Intérêt Pub­lic. Ini­tiale­ment lim­ités aux doc­u­ments-images, ils ont com­plété leur offre avec la four­ni­ture de fichiers Infor­ma­tiques, à tra­vers des prestataires dédiés à cette saisie. Bien sûr, cha­cun s’est dif­féren­cié par le choix du for­mat de sor­tie propriétaire…
  • les sociétés de saisie tra­vail­lant en sous-trai­tance des Ban­ques. Dans ce cas, l’acteur de saisie reçoit les Bilans-images de ses don­neurs d’ordres, et con­nait donc le for­mat de retour des résultats.

His­torique

Dans les années 90, les pou­voirs publics avaient déjà man­daté la société OR-TELEMATIQUE pour con­stituer une base référen­ciant les don­nées de bilans au niveau nation­al. Les bilans étaient sai­sis à l’ancienne à Pont-à-Mous­son. INOVATIC, pio­nnier de l’OCR (voir Encart 1), cher­chant à se diver­si­fi­er dans l’Extraction de Don­nées, a pro­posé à ORT d’automatiser cette saisie, pro­jet inter­rompu par la vente d’ORT fin 1999. Suite à ces con­tacts, Ino­vat­ic a été sol­lic­ité par une Banque Pop­u­laire. Ce fut le début d’une longue et fructueuse col­lab­o­ra­tion avec le Groupe BPCE, bien­tôt rejoint par d’autres grands Organ­ismes bancaires.

INOVATIC : 20 ans d’expérience capitalisée sur 7 millions de bilans

Inspiré de mon logi­ciel OCR de 1985 Read­Star, notre solu­tion d’Extraction de Don­nées de 1999 a con­sisté à com­pléter le tra­vail d’un Noy­au infor­ma­tique par l’intervention d’opéra [teur] [trice] lui indi­quant les infor­ma­tions qu’il n’a pas trou­vées tout seul, pour qu’il achève, en retour, son tra­vail. C’est un proces­sus d’extraction automa­tique de don­nées assistée par opéra­teur ! Cela per­met aus­si une amélio­ra­tion de l’automaticité du proces­sus par une fonc­tion d’apprentissage du noy­au enrichissant ses algo­rithmes grâce aux indi­ca­tions retournées par l’opérateur.

Nous avons con­cep­tu­al­isé ce procédé sous l’acronyme WYSIHYG (voir encart 2).

Le WYSIHYG est basé sur la struc­ture en tableaux des Doc­u­ments Compt­a­bles. Chaque type de bilan fait l’objet d’un mod­èle de référence, indi­quant la suc­ces­sion des Rubriques atten­dues pour chaque ligne de chaque tableau. L’apprentissage porte sur la col­lecte des vari­antes lin­guis­tiques ren­con­trées pour chaque rubrique, grâce aux indi­ca­tions fournies par les opérateurs…

Tout au long des années passées, le logi­ciel s’est enrichi des vari­antes ren­con­trées au fil des mil­lions de bilans traités, à tra­vers l’apprentissage appliqué aux bilans clas­siques et Con­solidés (en cours).

Retombée intéres­sante du procédé : lorsqu’un même bilan repasse entre nos mains, il sera recon­nu automa­tique­ment, le paramé­trage étant alors glob­ale­ment à jour de ses variantes.


1. OCR vs Data Extraction

La Lec­ture Automa­tique de Doc­u­ments cou­vre deux prob­lé­ma­tiques différentes :

1- La Recon­nais­sance de Car­ac­tères (OCR), qui per­met la tran­scrip­tion d’un texte con­tenu dans une image-pixel.

2- L’Extraction Automa­tique de Don­nées, qui sup­pose un Mod­èle de Référence du type de doc­u­ment à « lire ». Une Don­née est un cou­ple <Iden­ti­fi­ant, Valeur>. L’identifiant se déduit de la posi­tion de la valeur dans les tableaux de Référence.

Prin­ci­pale dif­fi­culté : les vari­antes ter­mi­nologiques et struc­turelles intro­duites par les édi­teurs des Documents.

2. Data Extraction : la saisie WYSIHYG (What You See Is How You Get)

Les saisies manuelles clas­siques con­sis­tent à reporter les valeurs lues sur le doc­u­ment dans un masque de saisie.

Avec le mode WYSIHYG d’INOVATIC, l’opérateur, à tra­vers son écran inter­ac­t­if, trans­met à l’Application des infor­ma­tions de local­i­sa­tion des valeurs. En plus de les extraire lui-même, le Noy­au pra­tique un appren­tis­sage super­visé trans­par­ent, lui per­me­t­tant d’enrichir, au fil des exem­ples, ses critères de local­i­sa­tion, aug­men­tant d’autant son auto­matic­ité : ce qu’il voit est com­ment obtenir les valeurs…


Alors, le tout automatique, c’est pour aujourd’hui ou pour demain ?

La dif­fi­culté est qu’on doit être sûr à 100 % des résul­tats ! Pour la local­i­sa­tion des don­nées, on peut l’atteindre, grâce au WYSIHYG.

Il reste une dif­fi­culté : la recon­nais­sance des chiffres !

Si un bilan nous parvient une sec­onde fois avec la même image (cas ID), notre WYSIHYG a aus­si gardé la mémoire graphique des car­ac­tères indi­vidu­els et recom­posera sans erreur les mon­tants ! Sinon, une véri­fi­ca­tion humaine est nécessaire !

Notre joker : Les Pdf Natifs

Le Pdf image résul­tant d’un scan­ning n’est pas le seul for­mat créé par ADOBE !

Le Pdf Struc­turé a été conçu pour per­me­t­tre la créa­tion par pro­gramme de doc­u­ments-images. Sa pro­priété prin­ci­pale est de con­tenir native­ment dans sa struc­ture la liste ren­seignée des car­ac­tères de l’image. Une fonc­tion per­met alors d’extraire du Pdf la valeur de tous ces car­ac­tères. À la créa­tion du doc­u­ment Bilan, les logi­ciels de Compt­abil­ité utilisent tous ce for­mat, et donc, tout chef d’Entreprise dis­pose de ce fichi­er « Bilan Natif ».

Inovatic

La quête du tout automatique, Graal de la reconnaissance de Document

On n’osait en rêver. Avec les Bilans Nat­ifs, ça devient réalité !

C’est par l’alliance de la Nativ­ité, qui per­met la recon­nais­sance sans erreur des mon­tants, et de l’apprentissage WYSIHYG, qui apporte la local­i­sa­tion, que le mir­a­cle se produit.

Le Bilan Natif est ain­si intro­n­isé comme
Le For­mat Uni­versel des Comptes annuels.

Oubliés les fichiers Infor­ma­tiques ésotériques ! Notre logi­ciel d’Extraction de Don­nées Compt­a­bles est capa­ble de trans­met­tre instan­ta­né­ment à tout Logi­ciel Financier les don­nées du Bilan Natif. Le marché dichotomique de la Data Finan­cière s’assainit d’un coup.

Le nouveau visage de l’Analyse Financière

En préal­able, Ino­vat­ic incor­pore au por­tail de l’acteur Financier son mod­ule de lec­ture du Bilan Natif. Le « Client » n’a plus qu’à dépos­er son fichi­er Bilan Natif sur le por­tail et ren­seign­er sa requête. Le résul­tat de l’Analyse appa­rait en quelques secondes.

Avan­tages :

  • Instan­ta­néité,
  • garantie d’authenticité des don­nées (vous pou­vez affich­er le Pdf d’où elles sont issues).

Et surtout, UNE IMMENSE SIMPLIFICATION DU MARCHÉ DES DONNÉES COMPTABLES.

Con­séquences sur les acteurs du Marché de la Data Financière.

  • Pour les Organ­ismes Insti­tu­tion­nels (Info­gr­effe et INPI), leur activ­ité « Bilans » se trou­ve facil­itée par la sup­pres­sion de l‘étape de saisie. Cepen­dant, leurs prestataires pour­raient con­serv­er un rôle résolvant un para­doxe : actuelle­ment, les bilans sont sai­sis 2 fois à par­tir des mêmes images ! Cette réal­ité absurde prendrait un sens avec l’aide d’INOVATIC :
    • sous licence INOVATIC, le Prestataire d’Infogreffe utilis­erait notre logi­ciel, béné­fi­ciant de l’automatisation des bilans déjà traités pour nos ban­ques, et com­plèterait l’apprentissage des nou­velles éventuelles variantes.
    • pour l’INPI, les bilans seraient recon­nus automa­tique­ment, à tra­vers un por­tail INOVATIC mis à la dis­po­si­tion du Prestataire, val­i­dant ain­si ce com­plé­ment d’apprentissage !

Proces­sus gag­nant pour tous !

L’organisation ne serait pas per­tur­bée : il faut que tout change pour que rien ne change !

  • Pour les Prestataires des Ban­ques impactés, ils devront se réorienter…

SCHUMPETER bouge encore !

Cette révo­lu­tion tech­nologique repro­duit le proces­sus de destruc­tion créa­trice cher à Joseph Schum­peter. Les Sociétés de saisie devront trou­ver d’autres débouchés ! C’est la dure loi de l’innovation créa­trice, moteur du dynamisme cap­i­tal­iste. Cepen­dant, avec nos pro­jets ambitieux au niveau Européen, nous aurons besoin de ren­forts, et pour­rons peut-être les associ­er à ces projets…

Et l’institut Polytechnique dans tout ça ?

Né d’une ten­ta­tive avortée de désta­bil­i­sa­tion de notre École, l’Institut souf­fre d’un mal orig­inel : son objet relève d’une Recherche Appliquée qui n’a pas voca­tion à se dévelop­per en Lab­o­ra­toire. Nous en sommes la démon­stra­tion. L’État a intro­duit en 1989 la révo­lu­tion du CIR con­sacrant la recon­nais­sance du rôle du secteur privé dans l’essor du pays. L’Institut devra se lim­iter à la for­ma­tion de chercheurs, qui vien­dront viv­i­fi­er les Indus­tries High­Tech. S’obnubiler sur le Classe­ment de Shang­hai, c’est se met­tre à la remorque des critères que les Améri­cains ont eux-mêmes suscités !

Et l’Avenir ?

INOVATIC c’est une for­mi­da­ble aven­ture humaine où chaque per­son­ne est recon­nue comme un être unique, où la diver­sité devient richesse et l’adhésion au pro­jet com­mun gage de réus­site et de péren­nité. C’est aus­si une équipe de Direc­tion, for­mée par osmose avec le Fon­da­teur, mûre pour pren­dre la relève…

Emmanuel MACRON a appelé de ses vœux l’émergence de sociétés high­tech à la française rejoignant les cham­pi­ons mon­di­aux améri­cains. Mon­sieur le Prési­dent, nous répon­dons : présents ! Et en plus, nous paierons nos impôts en France… à tra­vers le dis­posi­tif IP Box, tout de même !

Poster un commentaire