IA et data financière : un saut technologique majeur qui bouleverse le marché

Dossier : Vie des entreprisesMagazine N°765 Mai 2021
Par Phillipe VINCENT (61)

Le marché des données financières des Entreprises

Tous les ans, les Socié­tés éditent un bilan conte­nant les prin­ci­paux postes expri­mant les don­nées signi­fi­ca­tives de l’exercice fiscal.

Ce Bilan Fis­cal, envoyé aux impôts, sert aus­si de docu­ment comp­table reflé­tant l’activité de l’Entreprise…

Aus­si appe­lé « bilan Cer­fa », il pré­sente l’avantage d’être sou­mis à une nor­ma­li­sa­tion offi­cielle qui réduit consi­dé­ra­ble­ment la varia­bi­li­té de sa présentation.

Les socié­tés éditent aus­si des « États de Ges­tion » plus fine­ment ren­sei­gnés mais moins assu­jet­tis à une norme de pré­sen­ta­tion. Ils sont cepen­dant sou­mis à une logique finan­cière limi­tant leur variabilité.

Au niveau des grands Groupes, les « Comptes Conso­li­dés » ont, avec leurs filiales, des struc­tures rami­fiées plus inat­ten­dues se prê­tant dif­fi­ci­le­ment à des automatisations…

Ces don­nées sont la base d’Analyses Finan­cières avec dif­fé­rentes fina­li­tés. Le mar­ché est, en par­ti­cu­lier, domi­né par le besoin des Banques de se confor­mer aux obli­ga­tions Inter­na­tio­nales Bâle II et III en s’assurant de la san­té finan­cière de leurs Entre­prises. Par ailleurs, elles servent à cal­cu­ler les taux d’intérêts des prêts accor­dés aux Entre­prises à tra­vers une Ana­lyse de Risques. Autre­fois, les ana­lystes s’imprégnaient des résul­tats en par­cou­rant les docu­ments. L’irruption du numé­rique a modi­fié la donne :

  • d’un côté, les pos­si­bi­li­tés de cal­culs ont appor­té rigueur et ratio­na­li­té, encore faut-il ali­men­ter les ordi­na­teurs en données !
  • de l’autre, l’œil de l’expert reste indis­pen­sable pour com­plé­ter ces cal­culs avec sa per­cep­tion intui­tive des comptes nour­rie de dizaines d’années de pratique.

Il y a donc néces­si­té de faire coha­bi­ter deux types de fichiers :

  • un fichier infor­ma­tique de don­nées que l’ordinateur devra savoir lire,
  • un fichier image (Pdf) sur lequel l’expert pour­ra exer­cer sa per­cep­tion intuitive.

Le marché dichotomique de la Data Financière 

L’analyse des don­nées finan­cières requiert donc deux repré­sen­ta­tions antinomiques :

  • L’image du Docu­ment, lisible par un humain.
  • Un fichier infor­ma­tique lisible par un ordinateur

Pour­quoi antinomiques ?

  1. De noto­rié­té publique, l’entrée directe de ces don­nées dans un ordi­na­teur est impos­sible à par­tir de l’image du Bilan, car 
    • L’extraction de valeurs d’une image sup­pose un OCR, tou­jours sus­pec­té d’erreurs !
    • Un mon­tant finan­cier ne veut rien dire si on ne sait pas quelle valeur il repré­sente ! Le cer­veau de l’expert peut, lui, le détec­ter en inter­pré­tant les rubriques des lignes de tableaux.
  2. L’expert ne retrouve pas, dans l’affichage linéaire du fichier, la dis­po­si­tion en tableaux qui lui est familière.
  3. L’image typée du Bilan est une pré­somp­tion d’authenticité, contrai­re­ment au fichier infor­ma­tique, imper­son­nel et falsifiable.

Consé­quence :

Le mar­ché de la Data Finan­cière issue des Bilans néces­site la coha­bi­ta­tion de deux fichiers :

  • l’image du Bilan sous forme de fichier Pdf impri­mable ou affichable.
  • le fichier infor­ma­tique conte­nant les valeurs du bilan selon un for­mat pré­dé­fi­ni, les modules uti­li­sa­teurs devant s’adapter à lui.

Le fichier Pdf étant la source des don­nées, le fichier infor­ma­tique ne peut résul­ter que de leur extrac­tion intel­li­gente par sai­sie humaine, en temps différé.

Aucun for­mat de fichier ne s’impose comme norme de réfé­rence. D’où une flo­rai­son de for­mats ima­gi­nés par les acteurs du mar­ché, cha­cun vou­lant mar­quer son territoire…

De leur côté, les Logi­ciels d’Analyse Finan­cière vou­draient bien impo­ser leurs propres for­mats d’entrée…

D’où une com­plexi­fi­ca­tion du mar­ché, d’autant plus pré­ju­di­ciable qu’au moment de la sai­sie, on ne connait pas néces­sai­re­ment le logi­ciel qui uti­li­se­ra ces données…

Pour cou­ron­ner le tout, il y a 8 Types de Bilans Cer­fa, cha­cun consti­tuant un modèle spécifique !

Les acteurs de la saisie des bilans

Atti­rés par ce mar­ché, plu­sieurs socié­tés ont créé une acti­vi­té de sai­sie de bilans.

Par­mi ces acteurs, on distingue :

  • les Orga­nismes Ins­ti­tu­tion­nels comme l’INPI ou les Greffes des Tri­bu­naux de Com­merce (Info­greffe), ayant voca­tion à col­lec­ter et mettre à dis­po­si­tion les Bilans Finan­ciers des Entre­prises, consi­dé­rés comme d’Intérêt Public. Ini­tia­le­ment limi­tés aux docu­ments-images, ils ont com­plé­té leur offre avec la four­ni­ture de fichiers Infor­ma­tiques, à tra­vers des pres­ta­taires dédiés à cette sai­sie. Bien sûr, cha­cun s’est dif­fé­ren­cié par le choix du for­mat de sor­tie propriétaire…
  • les socié­tés de sai­sie tra­vaillant en sous-trai­tance des Banques. Dans ce cas, l’acteur de sai­sie reçoit les Bilans-images de ses don­neurs d’ordres, et connait donc le for­mat de retour des résultats.

His­to­rique

Dans les années 90, les pou­voirs publics avaient déjà man­da­té la socié­té OR-TELEMATIQUE pour consti­tuer une base réfé­ren­ciant les don­nées de bilans au niveau natio­nal. Les bilans étaient sai­sis à l’ancienne à Pont-à-Mous­son. INOVATIC, pion­nier de l’OCR (voir Encart 1), cher­chant à se diver­si­fier dans l’Extraction de Don­nées, a pro­po­sé à ORT d’automatiser cette sai­sie, pro­jet inter­rom­pu par la vente d’ORT fin 1999. Suite à ces contacts, Inova­tic a été sol­li­ci­té par une Banque Popu­laire. Ce fut le début d’une longue et fruc­tueuse col­la­bo­ra­tion avec le Groupe BPCE, bien­tôt rejoint par d’autres grands Orga­nismes bancaires.

INOVATIC : 20 ans d’expérience capitalisée sur 7 millions de bilans

Ins­pi­ré de mon logi­ciel OCR de 1985 Read­Star, notre solu­tion d’Extraction de Don­nées de 1999 a consis­té à com­plé­ter le tra­vail d’un Noyau infor­ma­tique par l’intervention d’opéra [teur] [trice] lui indi­quant les infor­ma­tions qu’il n’a pas trou­vées tout seul, pour qu’il achève, en retour, son tra­vail. C’est un pro­ces­sus d’extraction auto­ma­tique de don­nées assis­tée par opé­ra­teur ! Cela per­met aus­si une amé­lio­ra­tion de l’automaticité du pro­ces­sus par une fonc­tion d’apprentissage du noyau enri­chis­sant ses algo­rithmes grâce aux indi­ca­tions retour­nées par l’opérateur.

Nous avons concep­tua­li­sé ce pro­cé­dé sous l’acronyme WYSIHYG (voir encart 2).

Le WYSIHYG est basé sur la struc­ture en tableaux des Docu­ments Comp­tables. Chaque type de bilan fait l’objet d’un modèle de réfé­rence, indi­quant la suc­ces­sion des Rubriques atten­dues pour chaque ligne de chaque tableau. L’apprentissage porte sur la col­lecte des variantes lin­guis­tiques ren­con­trées pour chaque rubrique, grâce aux indi­ca­tions four­nies par les opérateurs…

Tout au long des années pas­sées, le logi­ciel s’est enri­chi des variantes ren­con­trées au fil des mil­lions de bilans trai­tés, à tra­vers l’apprentissage appli­qué aux bilans clas­siques et Conso­li­dés (en cours).

Retom­bée inté­res­sante du pro­cé­dé : lorsqu’un même bilan repasse entre nos mains, il sera recon­nu auto­ma­ti­que­ment, le para­mé­trage étant alors glo­ba­le­ment à jour de ses variantes.


1. OCR vs Data Extraction

La Lec­ture Auto­ma­tique de Docu­ments couvre deux pro­blé­ma­tiques différentes :

1- La Recon­nais­sance de Carac­tères (OCR), qui per­met la trans­crip­tion d’un texte conte­nu dans une image-pixel.

2- L’Extraction Auto­ma­tique de Don­nées, qui sup­pose un Modèle de Réfé­rence du type de docu­ment à « lire ». Une Don­née est un couple <Iden­ti­fiant, Valeur>. L’identifiant se déduit de la posi­tion de la valeur dans les tableaux de Référence.

Prin­ci­pale dif­fi­cul­té : les variantes ter­mi­no­lo­giques et struc­tu­relles intro­duites par les édi­teurs des Documents.

2. Data Extraction : la saisie WYSIHYG (What You See Is How You Get)

Les sai­sies manuelles clas­siques consistent à repor­ter les valeurs lues sur le docu­ment dans un masque de saisie.

Avec le mode WYSIHYG d’INOVATIC, l’opérateur, à tra­vers son écran inter­ac­tif, trans­met à l’Application des infor­ma­tions de loca­li­sa­tion des valeurs. En plus de les extraire lui-même, le Noyau pra­tique un appren­tis­sage super­vi­sé trans­pa­rent, lui per­met­tant d’enrichir, au fil des exemples, ses cri­tères de loca­li­sa­tion, aug­men­tant d’autant son auto­ma­ti­ci­té : ce qu’il voit est com­ment obte­nir les valeurs…


Alors, le tout automatique, c’est pour aujourd’hui ou pour demain ?

La dif­fi­cul­té est qu’on doit être sûr à 100 % des résul­tats ! Pour la loca­li­sa­tion des don­nées, on peut l’atteindre, grâce au WYSIHYG.

Il reste une dif­fi­cul­té : la recon­nais­sance des chiffres !

Si un bilan nous par­vient une seconde fois avec la même image (cas ID), notre WYSIHYG a aus­si gar­dé la mémoire gra­phique des carac­tères indi­vi­duels et recom­po­se­ra sans erreur les mon­tants ! Sinon, une véri­fi­ca­tion humaine est nécessaire !

Notre joker : Les Pdf Natifs

Le Pdf image résul­tant d’un scan­ning n’est pas le seul for­mat créé par ADOBE !

Le Pdf Struc­tu­ré a été conçu pour per­mettre la créa­tion par pro­gramme de docu­ments-images. Sa pro­prié­té prin­ci­pale est de conte­nir nati­ve­ment dans sa struc­ture la liste ren­sei­gnée des carac­tères de l’image. Une fonc­tion per­met alors d’extraire du Pdf la valeur de tous ces carac­tères. À la créa­tion du docu­ment Bilan, les logi­ciels de Comp­ta­bi­li­té uti­lisent tous ce for­mat, et donc, tout chef d’Entreprise dis­pose de ce fichier « Bilan Natif ».

Inovatic

La quête du tout automatique, Graal de la reconnaissance de Document

On n’osait en rêver. Avec les Bilans Natifs, ça devient réalité !

C’est par l’alliance de la Nati­vi­té, qui per­met la recon­nais­sance sans erreur des mon­tants, et de l’apprentissage WYSIHYG, qui apporte la loca­li­sa­tion, que le miracle se produit.

Le Bilan Natif est ain­si intro­ni­sé comme
Le For­mat Uni­ver­sel des Comptes annuels.

Oubliés les fichiers Infor­ma­tiques éso­té­riques ! Notre logi­ciel d’Extraction de Don­nées Comp­tables est capable de trans­mettre ins­tan­ta­né­ment à tout Logi­ciel Finan­cier les don­nées du Bilan Natif. Le mar­ché dicho­to­mique de la Data Finan­cière s’assainit d’un coup.

Le nouveau visage de l’Analyse Financière

En préa­lable, Inova­tic incor­pore au por­tail de l’acteur Finan­cier son module de lec­ture du Bilan Natif. Le « Client » n’a plus qu’à dépo­ser son fichier Bilan Natif sur le por­tail et ren­sei­gner sa requête. Le résul­tat de l’Analyse appa­rait en quelques secondes.

Avan­tages :

  • Ins­tan­ta­néi­té,
  • garan­tie d’authenticité des don­nées (vous pou­vez affi­cher le Pdf d’où elles sont issues).

Et sur­tout, UNE IMMENSE SIMPLIFICATION DU MARCHÉ DES DONNÉES COMPTABLES.

Consé­quences sur les acteurs du Mar­ché de la Data Financière.

  • Pour les Orga­nismes Ins­ti­tu­tion­nels (Info­greffe et INPI), leur acti­vi­té « Bilans » se trouve faci­li­tée par la sup­pres­sion de l‘étape de sai­sie. Cepen­dant, leurs pres­ta­taires pour­raient conser­ver un rôle résol­vant un para­doxe : actuel­le­ment, les bilans sont sai­sis 2 fois à par­tir des mêmes images ! Cette réa­li­té absurde pren­drait un sens avec l’aide d’INOVATIC :
    • sous licence INOVATIC, le Pres­ta­taire d’Infogreffe uti­li­se­rait notre logi­ciel, béné­fi­ciant de l’automatisation des bilans déjà trai­tés pour nos banques, et com­plè­te­rait l’apprentissage des nou­velles éven­tuelles variantes.
    • pour l’INPI, les bilans seraient recon­nus auto­ma­ti­que­ment, à tra­vers un por­tail INOVATIC mis à la dis­po­si­tion du Pres­ta­taire, vali­dant ain­si ce com­plé­ment d’apprentissage !

Pro­ces­sus gagnant pour tous !

L’organisation ne serait pas per­tur­bée : il faut que tout change pour que rien ne change !

  • Pour les Pres­ta­taires des Banques impac­tés, ils devront se réorienter…

SCHUMPETER bouge encore !

Cette révo­lu­tion tech­no­lo­gique repro­duit le pro­ces­sus de des­truc­tion créa­trice cher à Joseph Schum­pe­ter. Les Socié­tés de sai­sie devront trou­ver d’autres débou­chés ! C’est la dure loi de l’innovation créa­trice, moteur du dyna­misme capi­ta­liste. Cepen­dant, avec nos pro­jets ambi­tieux au niveau Euro­péen, nous aurons besoin de ren­forts, et pour­rons peut-être les asso­cier à ces projets…

Et l’institut Polytechnique dans tout ça ?

Né d’une ten­ta­tive avor­tée de désta­bi­li­sa­tion de notre École, l’Institut souffre d’un mal ori­gi­nel : son objet relève d’une Recherche Appli­quée qui n’a pas voca­tion à se déve­lop­per en Labo­ra­toire. Nous en sommes la démons­tra­tion. L’État a intro­duit en 1989 la révo­lu­tion du CIR consa­crant la recon­nais­sance du rôle du sec­teur pri­vé dans l’essor du pays. L’Institut devra se limi­ter à la for­ma­tion de cher­cheurs, qui vien­dront vivi­fier les Indus­tries High­Tech. S’obnubiler sur le Clas­se­ment de Shan­ghai, c’est se mettre à la remorque des cri­tères que les Amé­ri­cains ont eux-mêmes suscités !

Et l’Avenir ?

INOVATIC c’est une for­mi­dable aven­ture humaine où chaque per­sonne est recon­nue comme un être unique, où la diver­si­té devient richesse et l’adhésion au pro­jet com­mun gage de réus­site et de péren­ni­té. C’est aus­si une équipe de Direc­tion, for­mée par osmose avec le Fon­da­teur, mûre pour prendre la relève…

Emma­nuel MACRON a appe­lé de ses vœux l’émergence de socié­tés high­tech à la fran­çaise rejoi­gnant les cham­pions mon­diaux amé­ri­cains. Mon­sieur le Pré­sident, nous répon­dons : pré­sents ! Et en plus, nous paie­rons nos impôts en France… à tra­vers le dis­po­si­tif IP Box, tout de même !

Poster un commentaire