Quatre mois. C’est le temps qu’il a fallu à une IA pour retranscrire 32 763 manuscrits du Moyen Âge. Des paléographes, qui passent parfois une carrière entière sur un seul texte, ont vu ça d’un œil… disons circonspect. Et pourtant, le projet CoMMa, piloté par des chercheurs de l’Inria, vient de poser une pierre énorme dans le jardin encore très en friche de l’IA et patrimoine culturel.
IA et patrimoine culturel : le problème, ce n'est pas la numérisation.
On a beaucoup numérisé les fonds d’archives médiévales ces dernières années. Gallica, la Bodléienne d’Oxford, la Bibliothèque d’État de Bavière, la plateforme suisse E-Codices : des millions de pages scannées, accessibles en deux clics. Sauf que des images de manuscrits, ça reste illisible pour une machine, et quasi inexploitable pour un chercheur qui n’a pas dix ans à consacrer à un seul fonds. Le verrou, en fait, n’était pas la numérisation. C’était la transcription.
Thibault Clérice, chercheur en humanités computationnelles au sein de l’équipe ALMAnaCH du Centre Inria de Paris, pilote le projet CoMMa (Corpus of Multilingual Medieval Archives), une référence en matière d’IA et patrimoine culturel. Et le résultat tient du tour de force : un corpus de plus de 3 milliards de mots, issus de manuscrits en latin (du IXe au XVIe siècle) et en ancien français (XIIe au XVIe siècle). Pour l’ancien français seul, ce corpus est désormais quarante fois plus volumineux qu’avant le projet.
Pourquoi pas juste balancer ça dans ChatGPT ?
Bonne question, et la réponse est instructive pour quiconque travaille avec des grands modèles de langage en entreprise. Les LLM grand public sont fondés sur la prédiction statistique : ils devinent le mot suivant en fonction de ce qu’ils ont vu pendant l’entraînement. Très bien pour du français contemporain, normé, stable. Beaucoup moins pour de l’ancien français, qui n’a tout simplement pas d’orthographe fixe. Deux copies d’un même texte, réalisées par deux scribes différents, peuvent présenter jusqu’à 50 % de mots écrits différemment. Ajoutez à ça le latin médiéval, où entre 35 et 40 % des mots sont abrégés au XIVe siècle, et vous obtenez un terrain de jeu cauchemardesque pour un modèle prédictif.
Le risque, avec un LLM généraliste face à ce genre de texte : il invente. Il complète, il lisse, il « comprend » là où il devrait juste décrire ce qu’il voit. Dans le jargon, on appelle ça des hallucinations, et pour un historien, une hallucination dans un texte de référence, c’est une catastrophe silencieuse. L’équipe a donc fait l’inverse : une reconnaissance graphique caractère par caractère, via les outils open source Kraken et eScriptorium, où un accent compte comme un signe à part entière. Le système préfère se tromper franchement, confondre « ri » avec « n » par exemple, plutôt qu’inventer un mot qui sonnerait juste mais n’existerait pas dans le texte d’origine.
C’est un excellent exemple de jagged intelligence : une IA générale brillante peut très bien échouer sur une tâche pourtant « simple » en apparence, alors qu’une IA spécialisée, taillée pour un usage précis, écrase le game.
CATMuS, le travail de fond qu'on ne voit jamais.
Avant CoMMa, il y a eu CATMuS (Consistent Approaches to Transcribing Manuscripts), lancé en 2022. Et là, on touche à la partie la moins glamour mais la plus déterminante du projet : des chercheurs et des philologues ont retranscrit à la main 200 000 lignes de texte, issues de 300 manuscrits, en 11 langues, du IXe au XVIe siècle.
La règle ? Ne rien corriger. Ni les abréviations, ni les fautes de copiste, ni les inversions de lettres. L’idée, c’était de coller à la réalité brute du document, pour que l’algorithme apprenne le réel et pas une version idéalisée. Ce travail de fourmi a ensuite servi de socle pour calibrer le modèle, avant de l’appliquer à grande échelle.
Et le résultat tient la route : un taux d’erreur moyen de 9,7 % mesuré sur 670 manuscrits, avec un pourcentage de lignes correctement reconnues souvent supérieur à 80 %. Seuls les manuscrits tardifs en écriture cursive, sous-représentés dans les données d’entraînement, traînent un peu derrière. Pour un chiffre brut, sans correction humaine après coup, c’est honnête.
IA et patrimoine culturel : ce que ça change concrètement.
Le corpus CoMMa est librement téléchargeable, en accès ouvert. Pour la recherche en humanités, c’est un changement d’échelle : des fonds qui dormaient depuis des siècles deviennent soudain interrogeables, comparables, exploitables à grande échelle. On parle ici d’IA et patrimoine culturel dans son sens le plus concret : pas un gadget de communication, mais un outil qui ouvre un accès direct à une masse documentaire jusque-là réservée à une poignée de spécialistes.
Et il y a une leçon plus large, qui dépasse largement le Moyen Âge. Ce projet illustre ce qui distingue une IA qui marche vraiment d’une IA qui fait illusion : un cadrage du problème ultra précis, des données d’entraînement construites avec soin, et une tolérance zéro pour l’invention. Le genre d’approche qui, transposée à n’importe quel contexte professionnel manipulant des données complexes ou peu structurées, fait toute la différence entre un outil fiable et un générateur de plausible.
Pour creuser le sujet d’IA et patrimoine culturel, le site officiel du projet CoMMa, hébergé par l’Inria, détaille la méthodologie et donne accès au corpus complet.


