Divers

IA et patrimoine culturel : comment 32 000 manuscrits médiévaux ont été déchiffrés en quatre mois.

Quatre mois. C’est le temps qu’il a fallu à une IA pour retranscrire 32 763 manuscrits du Moyen Âge. Des paléographes, qui passent parfois une carrière entière sur un seul texte, ont vu ça d’un œil… disons circonspect. Et pourtant, le projet CoMMa, piloté par des chercheurs de l’Inria, vient de poser une pierre énorme dans le jardin encore très en friche de l’IA et patrimoine culturel.

IA et patrimoine culturel : le problème, ce n'est pas la numérisation.

On a beaucoup numérisé les fonds d’archives médiévales ces dernières années. Gallica, la Bodléienne d’Oxford, la Bibliothèque d’État de Bavière, la plateforme suisse E-Codices : des millions de pages scannées, accessibles en deux clics. Sauf que des images de manuscrits, ça reste illisible pour une machine, et quasi inexploitable pour un chercheur qui n’a pas dix ans à consacrer à un seul fonds. Le verrou, en fait, n’était pas la numérisation. C’était la transcription.

Thibault Clérice, chercheur en humanités computationnelles au sein de l’équipe ALMAnaCH du Centre Inria de Paris, pilote le projet CoMMa (Corpus of Multilingual Medieval Archives), une référence en matière d’IA et patrimoine culturel. Et le résultat tient du tour de force : un corpus de plus de 3 milliards de mots, issus de manuscrits en latin (du IXe au XVIe siècle) et en ancien français (XIIe au XVIe siècle). Pour l’ancien français seul, ce corpus est désormais quarante fois plus volumineux qu’avant le projet.

Pourquoi pas juste balancer ça dans ChatGPT ?

Bonne question, et la réponse est instructive pour quiconque travaille avec des grands modèles de langage en entreprise. Les LLM grand public sont fondés sur la prédiction statistique : ils devinent le mot suivant en fonction de ce qu’ils ont vu pendant l’entraînement. Très bien pour du français contemporain, normé, stable. Beaucoup moins pour de l’ancien français, qui n’a tout simplement pas d’orthographe fixe. Deux copies d’un même texte, réalisées par deux scribes différents, peuvent présenter jusqu’à 50 % de mots écrits différemment. Ajoutez à ça le latin médiéval, où entre 35 et 40 % des mots sont abrégés au XIVe siècle, et vous obtenez un terrain de jeu cauchemardesque pour un modèle prédictif.

Le risque, avec un LLM généraliste face à ce genre de texte : il invente. Il complète, il lisse, il « comprend » là où il devrait juste décrire ce qu’il voit. Dans le jargon, on appelle ça des hallucinations, et pour un historien, une hallucination dans un texte de référence, c’est une catastrophe silencieuse. L’équipe a donc fait l’inverse : une reconnaissance graphique caractère par caractère, via les outils open source Kraken et eScriptorium, où un accent compte comme un signe à part entière. Le système préfère se tromper franchement, confondre « ri » avec « n » par exemple, plutôt qu’inventer un mot qui sonnerait juste mais n’existerait pas dans le texte d’origine.

C’est un excellent exemple de jagged intelligence : une IA générale brillante peut très bien échouer sur une tâche pourtant « simple » en apparence, alors qu’une IA spécialisée, taillée pour un usage précis, écrase le game.

CATMuS, le travail de fond qu'on ne voit jamais.

Avant CoMMa, il y a eu CATMuS (Consistent Approaches to Transcribing Manuscripts), lancé en 2022. Et là, on touche à la partie la moins glamour mais la plus déterminante du projet : des chercheurs et des philologues ont retranscrit à la main 200 000 lignes de texte, issues de 300 manuscrits, en 11 langues, du IXe au XVIe siècle.

La règle ? Ne rien corriger. Ni les abréviations, ni les fautes de copiste, ni les inversions de lettres. L’idée, c’était de coller à la réalité brute du document, pour que l’algorithme apprenne le réel et pas une version idéalisée. Ce travail de fourmi a ensuite servi de socle pour calibrer le modèle, avant de l’appliquer à grande échelle.

Et le résultat tient la route : un taux d’erreur moyen de 9,7 % mesuré sur 670 manuscrits, avec un pourcentage de lignes correctement reconnues souvent supérieur à 80 %. Seuls les manuscrits tardifs en écriture cursive, sous-représentés dans les données d’entraînement, traînent un peu derrière. Pour un chiffre brut, sans correction humaine après coup, c’est honnête.

IA et patrimoine culturel : ce que ça change concrètement.

Le corpus CoMMa est librement téléchargeable, en accès ouvert. Pour la recherche en humanités, c’est un changement d’échelle : des fonds qui dormaient depuis des siècles deviennent soudain interrogeables, comparables, exploitables à grande échelle. On parle ici d’IA et patrimoine culturel dans son sens le plus concret : pas un gadget de communication, mais un outil qui ouvre un accès direct à une masse documentaire jusque-là réservée à une poignée de spécialistes.

Et il y a une leçon plus large, qui dépasse largement le Moyen Âge. Ce projet illustre ce qui distingue une IA qui marche vraiment d’une IA qui fait illusion : un cadrage du problème ultra précis, des données d’entraînement construites avec soin, et une tolérance zéro pour l’invention. Le genre d’approche qui, transposée à n’importe quel contexte professionnel manipulant des données complexes ou peu structurées, fait toute la différence entre un outil fiable et un générateur de plausible.

Pour creuser le sujet d’IA et patrimoine culturel, le site officiel du projet CoMMa, hébergé par l’Inria, détaille la méthodologie et donne accès au corpus complet.

Articles récents

Cookie	Durée	Description
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Advertisement" category .
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
CookieLawInfoConsent	1 year	Records the default button state of the corresponding category & the status of CCPA. It works only in coordination with the primary cookie.
elementor	never	This cookie is used by the website's WordPress theme. It allows the website owner to implement or change the website's content in real-time.
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

Cookie	Durée	Description
_ga	2 years	The _ga cookie, installed by Google Analytics, calculates visitor, session and campaign data and also keeps track of site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognize unique visitors.
_gat_gtag_UA_228837911_1	1 minute	Set by Google to distinguish users.
_ga_YKV5PW9EBG	2 years	This cookie is installed by Google Analytics.
_gid	1 day	Installed by Google Analytics, _gid cookie stores information on how visitors use a website, while also creating an analytics report of the website's performance. Some of the data that are collected include the number of visitors, their source, and the pages they visit anonymously.

IA et patrimoine culturel : comment 32 000 manuscrits médiévaux ont été déchiffrés en quatre mois.

IA et patrimoine culturel : le problème, ce n'est pas la numérisation.

Pourquoi pas juste balancer ça dans ChatGPT ?

CATMuS, le travail de fond qu'on ne voit jamais.

IA et patrimoine culturel : ce que ça change concrètement.

Gestion des investissements IA : arrêtez de payer pour du bruit.

IA et cybersécurité : l’arme qui change de camp selon qui la tient.

Ces modèles IA chinois qui foutent la trouille à la Silicon Valley.

Souveraineté numérique : et si on arrêtait d’en parler pour commencer à l’écrire.

Le cerveau de Claude existe (et Anthropic vient de le trouver).

Le boom de l’IA à San Francisco est en train de chasser ses propres cadres.

IA et patrimoine culturel : comment 32 000 manuscrits médiévaux ont été déchiffrés en quatre mois.

IA et patrimoine culturel : le problème, ce n'est pas la numérisation.

Pourquoi pas juste balancer ça dans ChatGPT ?

CATMuS, le travail de fond qu'on ne voit jamais.

IA et patrimoine culturel : ce que ça change concrètement.

Gestion des investissements IA : arrêtez de payer pour du bruit.

IA et cybersécurité : l’arme qui change de camp selon qui la tient.

Ces modèles IA chinois qui foutent la trouille à la Silicon Valley.

Souveraineté numérique : et si on arrêtait d’en parler pour commencer à l’écrire.

Le cerveau de Claude existe (et Anthropic vient de le trouver).

Le boom de l’IA à San Francisco est en train de chasser ses propres cadres.

Accueil en France (logement).

Vos démarches administratives.

Accompagnement sur l'intégration.

Pré-embauche.

Centre de services forfait.

Directeur de projet dédié.

Assistance technique.

Experts Microsoft.

Experts Open-Source.

Cloud.

Front-End.

Back-End.

Data.

Développement de solutions.

Data.

Pilotage de projets complexes.

Urbanisation. Architecture fonctionnelle des S.I.

Product Management.

Data.

MOA Assurance.

MOA Banque.