Créée il y a près de 30 ans, la collection numérique de la Bibliothèque nationale de France renferme les plus gros secrets livresques du pays, et d’ailleurs.
Le vendredi 10 avril, à l’occasion du Festival NOÛS, organisé par Fisheye et la Bibliothèque nationale de France, le collectif Obvious promet de s’emparer d’une question épineuse : de quelle manière le patrimoine culturel alimente l’intelligence artificielle ? Une interrogation qui s’appuie évidemment sur le savoir du collectif parisien, toujours très intéressé par l’idée de convoquer des imaginaires anciens, mais aussi sur l’inépuisable source d’images et de textes que contiennent les collections de la BnF. Loin d’être un grand ensemble d’étagères poussiéreuses que seules les livres habitent, les quatre bâtiments imaginés par Dominique Perrault sont en réalité un fief du numérique. Et ce grâce à un outil : Gallica.
« Il y a longtemps que la BnF s’est approprié les questions numériques, via sa bibliothèque numérique Gallica bien sûr, mais aussi par exemple à travers des pratiques précoces d’archivage du web. Elle a eu un rôle pionnier dans ce domaine, rappelle le président de la BnF, Gilles Pecout. Dans le domaine de l’intelligence artificielle, elle a un rôle crucial à jouer et mène d’ores et déjà des projets majeurs et des expérimentations qui ouvrent de nouvelles voies à l’intelligibilité des collections. » Plus qu’un lieu d’archives du passé, la Bibliothèque François-Mittérand entend bel et bien être un acteur du futur.
Une bibliothèque sans mur
Comprenant 20 000 titres le jour de sa mise en ligne en 1997, Gallica a dès ses débuts affiché une double ambition : sécuriser les œuvres patrimoniales fragiles, et permettre leur diffusion. « Le premier fonds Gallica était un fonds de sauvegarde, explique Dominique Maillet, bibliothécaire et historien français ayant contribué à l’élaboration de ce projet titanesque à Télérama, A cette époque, il n’y avait pas de souci de conservation, on faisait confiance au microfilm. Après l’arrivée du numérique, les progrès en matière de zoom, de reconnaissance des caractères ou d’indexation ont constitué la vraie révolution documentaire. »
Entre les encres qui tournent et les effets du temps sur le papier, les écrits d’hier pourraient bien disparaître sans que l’on s’en rende compte. En ce sens, Gallica constitue donc une occasion rêvée : « Les livres estampillés HU pour “hors d’usage” sont carrément non communicables, d’où l’intérêt de les proposer en version numérique. À défaut de conserver le support, on garde le contenu, » poursuit le spécialiste. C’est que, des manuscrits médiévaux aux Skyblogs, en passant par les journaux du XIXe siècle, Gallica déploie un véritable vertige documentaire. Elle numérise, classe, transmet et transforme des siècles de savoir en quelques clics.

En pratique, Gallica, c’est aujourd’hui des millions de documents accessibles librement : livres, journaux, manuscrits, cartes, images, partitions… Chaque fichier raconte une histoire, mais aussi une méthode. Car numériser, ce n’est pas seulement scanner. Chaque mardi, des lots venus des quatre départements de la BnF sont envoyés pour être numérisés. « Sur chaque livre qui arrive – entre cinquante et deux cent cinquante par lot –, on trouve un code-barres, le titre et la cote, détaille Guillemette Lancmann, responsable de cette numérisation, toujours à Télérama. La BNF nous adresse en parallèle un fichier numérique qui recense les ouvrages envoyés pour numérisation. Il suffit de biper le code pour faire correspondre le fichier numérique avec le document physique, puis de renseigner l’état du livre. »

Gallic-IA
Désormais rodé, ce processus est aujourd’hui chamboulé par une nouvelle technologie : l’intelligence artificielle. Un outil dont la BnF s’est très tôt emparée : en 2019, Emmanuelle Bermès, adjointe chargée des questions scientifiques et techniques auprès du directeur des Services et des réseaux de la BnF, a en effet été chargée en 2019 d’établir une feuille de route autour de l’IA pour et par la Bibliothèque. « L’enjeu pour une institution comme la BnF, c’est d’adopter des technologies qui ont vu le jour dans les secteurs de la recherche et de l’industrie, tout en étant attentive aux questions éthiques qu’elles soulèvent, développe-t-elle. Les technologies d’IA se nourrissent de données pour fonctionner. Les données personnelles des utilisateurs, les traces laissées sur le web par les usagers font partie des données exploitées par les industries pour cibler leurs offres et retenir l’attention. C’est ce qui leur permet de proposer des contenus censés répondre à vos goûts et attentes ; c’est aussi ce qui conduit à créer des effets de bulles de filtre, où l’on se voit sans cesse proposer des contenus de même type. »
Si se plonger dans les collections de Gallica peut paraître vertigineux, Emmanuelle Bermès poursuit : « Une bibliothèque, c’est le contraire d’une bulle de filtre : élargir les horizons, vérifier les sources, établir la fiabilité des informations, tout cela constitue l’expertise des bibliothécaires. En tant que professionnels de l’information, nous sommes en bonne place pour comprendre et expliquer l’IA, mais aussi pour faire en sorte que ces technologies se développent au service des usagers, en proposant des approches vertueuses, sur le plan environnemental. » Sur ce plan, il ne fait aucun doute que Gallica jouera un rôle majeur.
- Festival NOÛS, du 09.04 au 19.04, BnF, Paris.