A la BNF, les appariements aujourd’hui réalisés à la main dans le cadre de projets ponctuels pourraient être automatisés grâce à l’IA.

L’IA à la Bibliothèque nationale de France : la patrimonialisation 4.0

Dossier : Intelligence artificielleMagazine N°781 Janvier 2023
Par Arnaud BEAUFORT (X88)

Les grandes bib­lio­thèques, avec leurs col­lec­tions de grandes dimen­sions, trou­vent dans le traite­ment de la don­née et donc dans l’IA des out­ils pré­cieux pour l’exploitation de leurs immenses col­lec­tions. Le cas de la Bib­lio­thèque nationale de France (BnF) est par­ti­c­ulière­ment élo­quent en la matière. Voici la présen­ta­tion de qua­tre de ses pro­jets util­isant l’IA.

Non seule­ment l’IA est sus­cep­ti­ble d’outiller la col­lec­tion d’une bib­lio­thèque comme la BnF, mais elle promet aux chercheurs et à tous les ama­teurs de don­nées un matéri­au de tra­vail inédit, de nou­velles clés de décou­verte et de futures trou­vailles. C’est d’autant plus vrai que les don­nées et les con­tenus sus­cep­ti­bles de faire l’objet d’expérimentations et de pro­jets s’y trou­vent en très grande quan­tité et que la col­lec­tion numérique va con­sid­érable­ment s’étendre à la faveur du dépôt légal numérique.

L’intérêt de la BnF pour l’IA

En sa qual­ité de ser­vice pub­lic, la BnF réflé­chit à cette dou­ble dimen­sion interne et externe. Cela fait une ving­taine d’années qu’elle explore les nom­breux champs d’application de l’IA : la recon­nais­sance optique de car­ac­tères (OCR), le traite­ment automa­tisé de la langue, l’analyse de don­nées, l’analyse de doc­u­ments (péri­odiques, cat­a­logues de vente, cartes, par­ti­tions musi­cales…), etc. Ce paysage fer­tile et bigar­ré a ouvert la voie à des pro­jets d’envergure et à des per­spec­tives inédites en ter­mes d’exploration et de traitement.

Ce change­ment sus­cite un vif intérêt chez les pro­fes­sion­nels des bib­lio­thèques, comme en témoigne le suc­cès des dif­férentes con­férences organ­isées sur le sujet, et il appelle un cadrage capa­ble de pren­dre en compte les enjeux à la fois man­agéri­aux, juridiques, éthiques et socié­taux soulevés par l’usage de l’IA. Les mis­sions de la BnF – col­lecter, con­serv­er, enrichir et com­mu­ni­quer le pat­ri­moine doc­u­men­taire nation­al – sont suff­isam­ment ancrées his­torique­ment et légale­ment pour garan­tir une con­ti­nu­ité d’action et de posi­tion­nement, ain­si qu’une qual­ité de ser­vice, au gré de l’introduction des tech­nolo­gies nou­velles. C’est dans cette dynamique que les doc­u­ments stratégiques récents de l’institution ont inté­gré l’IA (feuille de route de la BnF sur l’intelligence arti­fi­cielle, con­trat d’objectifs et de per­for­mance 2022–2026…).

Penser l’IA selon une logique d’ouverture

Les chercheurs qui souhait­ent entraîn­er leurs algo­rithmes peu­vent trou­ver d’importants jeux de don­nées à la BnF. Au-delà des ressources actuelle­ment disponibles (le site api.bnf.fr, qui donne accès aux jeux de don­nées de la BnF et à ses API, et le Data­L­ab, son équiv­a­lent physique), il s’agit de faire en sorte que les don­nées fran­coph­o­nes puis­sent servir d’entraînement à des pro­jets dans le sil­lage de SQuAD (The Stan­ford Ques­tion Answer­ing Dataset) : lancé par une équipe de recherche de l’université Stan­ford à la fin des années 2010, ce pro­jet con­sis­tait à appren­dre à une machine à répon­dre à des ques­tions à par­tir d’un algo­rithme et d’un jeu de don­nées con­sti­tué d’articles de Wikipé­dia, de ques­tions sur ces arti­cles et de répons­es. Un enjeu glob­al de décou­vra­bil­ité des con­tenus cul­turels numériques en ligne se pré­cise, partagé avec de nom­breuses insti­tu­tions, en par­ti­c­uli­er francophones. 

Pour relever ces défis, la Bib­lio­thèque s’inscrit dans un posi­tion­nement résol­u­ment coopératif, fondé sur l’intelligence col­lec­tive et la mutu­al­i­sa­tion, pour mieux pren­dre en compte les enjeux envi­ron­nemen­taux, tout en faisant face aux dépens­es impor­tantes sus­citées par l’IA, et en préser­vant les valeurs du ser­vice pub­lic. Qua­tre pro­jets illus­trent les béné­fices atten­dus de l’IA en ter­mes de service. 

Gallica Images

Gal­li­ca (https://gallica.bnf.fr) est la bib­lio­thèque numérique de la BnF et de ses parte­naires. Les images y sont omniprésentes, que ce soit dans la presse, dans les livres et bien sûr dans les fonds icono­graphiques. Ce pro­jet de fouille d’images répond à des cas d’usage très pra­tiques, par exem­ple à la volon­té de trou­ver plus facile­ment la source des images pub­liées dans les jour­naux numérisés : les col­lec­tions numériques de la BnF com­pren­nent à la fois de nom­breux titres de presse et des fonds d’agence pho­tographique, qui pour­raient être rap­prochés de manière automatisée.

Gal­li­ca Images s’inscrit dans la con­ti­nu­ité d’expérimentations engagées dès le début des années 2010 à la Bib­lio­thèque : les pre­miers pro­jets de recherche menés dans ce domaine avec plusieurs lab­o­ra­toires ont été l’occasion d’approfondir les ressources de la numéri­sa­tion et d’évaluer l’apport des algo­rithmes en matière d’indexation. En 2016, Gal­l­i­caPix, pro­to­type de moteur de recherche séman­tique réal­isé à par­tir des API de récupéra­tion des con­tenus de Gal­li­ca, des don­nées et d’outils d’intelligence arti­fi­cielle (dont IBM Wat­son Visu­al Recog­ni­tion, Google Cloud Vision, OpenCV), a pu sat­is­faire des sit­u­a­tions clas­siques de recherche par mot clé, par type ou par thème dans des cor­pus d’images. D’autres expéri­men­ta­tions ont dévelop­pé l’usage de moteurs de recherche visuelle favorisant une recherche de sim­i­lar­ités entre deux images, tel Gal­li­caS­noop, dévelop­pé avec l’Inria et l’Ina à par­tir du moteur Snoop, util­isé par l’application PlantNet.

“Cela fait une vingtaine d’années que la BnF explore les nombreux champs d’application de l’IA.”

Gal­li­ca Images sera lancé en 2023 avec le sou­tien du Pro­gramme d’investissements d’avenir (France 2030). Il a pour objec­tif d’étendre ces travaux à l’ensemble de Gal­li­ca. Il s’agit de ren­dre toutes les images large­ment acces­si­bles en indus­tri­al­isant une tech­nolo­gie de seg­men­ta­tion (repérage des images à l’intérieur des livres, presse et revues numérisées à l’aide du pro­to­cole IIIF, Inter­na­tion­al Image Inter­op­er­abil­i­ty Frame­work) et de car­ac­téri­sa­tion (for­mat, couleurs, typolo­gie…) par intel­li­gence artificielle.

Piloté par la BnF, la Bib­lio­thèque nationale et uni­ver­si­taire (BNU) de Stras­bourg et l’Institut nation­al de l’histoire de l’art (INHA), ce pro­jet soulève quelques ques­tions majeures : tout d’abord le traite­ment de vol­umes aus­si impor­tants (le nom­bre total d’images qui seront ain­si dis­tin­guées dans Gal­li­ca est estimé à plus de 100 mil­lions) sup­pose une puis­sante machine ad hoc, et donc une approche raison­née des entraîne­ments néces­saires et du vol­ume de nou­velles don­nées générées.

De plus, pour garan­tir la juste com­préhen­sion des résul­tats des recherch­es futures, la BnF met­tra l’accent non seule­ment sur les tests préal­ables, mais aus­si sur l’interface util­isa­teur et sur l’environnement doc­u­men­taire des résul­tats. Elle y veille déjà en ce qui con­cerne l’OCR : Gal­li­ca indique le taux de recon­nais­sance atteint pour tel ou tel doc­u­ment et un lien est présent pour ceux qui souhait­ent en savoir plus.

Ce souci relève de la lit­tératie ou « habileté numérique » : l’objectif est d’inviter les util­isa­teurs à pren­dre con­science des biais inhérents aux ressources et à com­pléter leurs approches. Enfin, quelle que soit la solu­tion tech­nique retenue, le respect des don­nées per­son­nelles et des con­tenus pro­tégés par la pro­priété intel­lectuelle sera essen­tiel (comme il l’est actuelle­ment), a for­tiori dans le cas où ces tech­nolo­gies seront appliquées à la col­lec­tion du dépôt légal numérique dans Gal­li­ca intra muros.

La reconnaissance de l’écriture manuscrite (HTR)

Si les car­ac­tères imprimés font à présent l’objet d’une recon­nais­sance indus­tri­al­isée grâce à des tech­nolo­gies matures (OCR), il n’en va pas de même des écri­t­ures moins stan­dard­is­ées ou plus rares (écri­t­ures man­u­scrites de dif­férentes épo­ques, mais aus­si imprimés anciens, tapuscrits, textes en langues rares…) : le repérage d’un lieu, d’un nom de per­son­ne ou d’un sim­ple mot courant dans les man­u­scrits de Gal­li­ca passe surtout, aujourd’hui, par une lec­ture cur­sive des textes et non par des out­ils de recherche plein texte. Prenons l’un des plans que fit Charles Gar­nier du grand escalier de son opéra : avec ses dif­férents titres, avec ses mesures et anno­ta­tions ver­ti­cales, il pose quelques défis à l’HTR.

Comme le pro­jet de fouille d’images, le pro­jet d’HTR s’appuie sur les expéri­men­ta­tions des années 2010. Il s’agit d’entraîner un sys­tème à par­tir d’un échan­til­lon représen­tatif d’un cor­pus homogène en lui four­nissant une tran­scrip­tion manuelle, puis d’étendre la tran­scrip­tion à l’ensemble du cor­pus de manière automa­tisée en s’appuyant sur l’IA. Plusieurs plate­formes – en par­ti­c­uli­er eScrip­to­ri­um et Tran­skribus – peu­vent aujourd’hui être util­isées à ces fins. Chaque type d’écriture (voire chaque main) ayant ses spé­ci­ficités, la four­ni­ture de la pre­mière tran­scrip­tion peut néces­siter des com­pé­tences pointues en paléo­gra­phie ou en liai­son avec le con­tenu. En plus des ques­tions éthiques soulevées par le pro­jet de fouille d’images, qu’il partage, le pro­jet d’HTR nous invite donc à con­sid­ér­er avec atten­tion la phase d’entraînement des algo­rithmes, qui néces­site un impor­tant tra­vail humain.

Charles Garnier, Grand escalier : corniche rampante au-dessus des arcs.
Charles Gar­nier, Grand escalier : cor­niche ram­pante au-dessus des arcs. Références et source de l’image : https://c.bnf.fr/Qn6

L’assistance au catalogage

La BnF gère quo­ti­di­en­nement l’arrivée de cen­taines de doc­u­ments de toute nature, dont la descrip­tion est essen­tielle à la vis­i­bil­ité des ressources disponibles et à la sat­is­fac­tion des besoins doc­u­men­taires des util­isa­teurs, à com­mencer par les chercheurs. Ce tra­vail bib­li­ographique des cat­a­logueurs ali­mente un écosys­tème de don­nées de qual­ité dont prof­i­tent les moteurs de recherche, ain­si qu’un dia­logue fécond avec de nom­breuses struc­tures, en par­ti­c­uli­er avec les indus­tries cul­turelles et créa­tives. L’intelligence arti­fi­cielle ali­mente l’espoir d’un gain de pro­duc­tiv­ité impor­tant dans ce domaine. Il est par exem­ple pos­si­ble d’imaginer que, en analysant le fichi­er d’un doc­u­ment numérique, on aide le cat­a­lo­gage tant du doc­u­ment numérique que du doc­u­ment imprimé arrivés tous deux par la voie du dépôt légal. Cepen­dant, l’introduction de l’IA dans des proces­sus de cat­a­lo­gage com­plex­es n’est pas simple.

“Le numérique apparaît comme une véritable culture.”

Les deux prin­ci­pales ques­tions éthiques qui se posent ici sont celle de l’ouverture (com­ment, dès le début, envis­ager la per­spec­tive de met­tre à la dis­po­si­tion d’autres util­isa­teurs des algo­rithmes spé­ci­fique­ment dévelop­pés pour ou par la BnF) et celle de l’implication de l’humain dans le proces­sus, afin de garan­tir les respon­s­abil­ités en cas de défail­lance de l’algorithme (ce qui sup­pose par exem­ple des pro­to­coles de val­i­da­tion), afin de favoris­er le tra­vail col­lab­o­ratif et surtout afin de lim­iter la « frac­ture numérique », qui peut être con­sid­érée selon deux angles : celui des com­pé­tences, de l’aisance face aux out­ils, et celui de l’identité pro­fes­sion­nelle dès lors qu’une par­tie des activ­ités se voit assistée par la machine et que les tâch­es habituelles se déplacent.


Lire aus­si : Accul­tur­er l’entreprise à l’intelligence arti­fi­cielle : l’efficacité du jeu sérieux


La recommandation personnalisée dans Gallica

Enfin, un pro­jet de recom­man­da­tion per­son­nal­isée pour­rait venir pal­li­er les insuff­i­sances du moteur de Gal­li­ca, occa­sion­nées notam­ment par le choix fait de ne pas utilis­er les don­nées des util­isa­teurs (his­toriques de recherche, etc.). L’intelligence arti­fi­cielle pour­rait com­pléter la puis­sance du moteur par un dis­posi­tif de recherche inédit dans un cadre qui respecte la déon­tolo­gie actuelle. Ain­si, le tra­vail de délé­ga­tion à l’IA de cer­taines tâch­es ou fonc­tion­nal­ités se ferait avec toutes les garanties, par exem­ple en pro­posant aux util­isa­teurs de choisir s’ils veu­lent recourir ou non à la fonc­tion­nal­ité de recom­man­da­tion personnalisée.

Une question d’éthique

De même que, au-delà des seules ques­tions tech­niques, le numérique doit être con­sid­éré dans toutes ses com­posantes et appa­raît comme une véri­ta­ble cul­ture, source d’une pat­ri­mo­ni­al­i­sa­tion d’un genre nou­veau à la BnF, de même l’intelligence arti­fi­cielle trou­ve dans les bib­lio­thèques un espace de développe­ment naturel, au croise­ment des human­ités et des tech­nolo­gies. Les principes éthiques liés à l’introduction de l’IA – trans­parence, explic­a­bil­ité, jus­tice (équité, égal­ité) et sobriété – ne sont pas éloignés des valeurs fon­da­men­tales de la BnF, qui depuis des décen­nies ali­mentent la con­fi­ance des usagers dans l’institution.


Références


Image de cou­ver­ture : Une pho­to de l’agence Rol et un jour­nal dans lequel elle a été pub­liée. Les appariements aujourd’hui réal­isés à la main dans le cadre de pro­jets ponctuels pour­raient être automa­tisés grâce à l’IA. Références et source de l’image : https://c.bnf.fr/Qn3

Poster un commentaire