IA et patrimoine culturel : comment 32 000 manuscrits médiévaux ont été déchiffrés en quatre mois.

Quatre mois. C’est le temps qu’il a fallu à une IA pour retranscrire 32 763 manuscrits du Moyen Âge. Des paléographes, qui passent parfois une carrière entière sur un seul texte, ont vu ça d’un œil… disons circonspect. Et pourtant, le projet CoMMa, piloté par des chercheurs de l’Inria, vient de poser une pierre énorme dans le jardin encore très en friche de l’IA et patrimoine culturel.

IA et patrimoine culturel : le problème, ce n'est pas la numérisation.

On a beaucoup numérisé les fonds d’archives médiévales ces dernières années. Gallica, la Bodléienne d’Oxford, la Bibliothèque d’État de Bavière, la plateforme suisse E-Codices : des millions de pages scannées, accessibles en deux clics. Sauf que des images de manuscrits, ça reste illisible pour une machine, et quasi inexploitable pour un chercheur qui n’a pas dix ans à consacrer à un seul fonds. Le verrou, en fait, n’était pas la numérisation. C’était la transcription.

Thibault Clérice, chercheur en humanités computationnelles au sein de l’équipe ALMAnaCH du Centre Inria de Paris, pilote le projet CoMMa (Corpus of Multilingual Medieval Archives), une référence en matière d’IA et patrimoine culturel. Et le résultat tient du tour de force : un corpus de plus de 3 milliards de mots, issus de manuscrits en latin (du IXe au XVIe siècle) et en ancien français (XIIe au XVIe siècle). Pour l’ancien français seul, ce corpus est désormais quarante fois plus volumineux qu’avant le projet.

Pourquoi pas juste balancer ça dans ChatGPT ?

Bonne question, et la réponse est instructive pour quiconque travaille avec des grands modèles de langage en entreprise. Les LLM grand public sont fondés sur la prédiction statistique : ils devinent le mot suivant en fonction de ce qu’ils ont vu pendant l’entraînement. Très bien pour du français contemporain, normé, stable. Beaucoup moins pour de l’ancien français, qui n’a tout simplement pas d’orthographe fixe. Deux copies d’un même texte, réalisées par deux scribes différents, peuvent présenter jusqu’à 50 % de mots écrits différemment. Ajoutez à ça le latin médiéval, où entre 35 et 40 % des mots sont abrégés au XIVe siècle, et vous obtenez un terrain de jeu cauchemardesque pour un modèle prédictif.

Le risque, avec un LLM généraliste face à ce genre de texte : il invente. Il complète, il lisse, il « comprend » là où il devrait juste décrire ce qu’il voit. Dans le jargon, on appelle ça des hallucinations, et pour un historien, une hallucination dans un texte de référence, c’est une catastrophe silencieuse. L’équipe a donc fait l’inverse : une reconnaissance graphique caractère par caractère, via les outils open source Kraken et eScriptorium, où un accent compte comme un signe à part entière. Le système préfère se tromper franchement, confondre « ri » avec « n » par exemple, plutôt qu’inventer un mot qui sonnerait juste mais n’existerait pas dans le texte d’origine.

C’est un excellent exemple de jagged intelligence : une IA générale brillante peut très bien échouer sur une tâche pourtant « simple » en apparence, alors qu’une IA spécialisée, taillée pour un usage précis, écrase le game.

CATMuS, le travail de fond qu'on ne voit jamais

Avant CoMMa, il y a eu CATMuS (Consistent Approaches to Transcribing Manuscripts), lancé en 2022. Et là, on touche à la partie la moins glamour mais la plus déterminante du projet : des chercheurs et des philologues ont retranscrit à la main 200 000 lignes de texte, issues de 300 manuscrits, en 11 langues, du IXe au XVIe siècle.

La règle ? Ne rien corriger. Ni les abréviations, ni les fautes de copiste, ni les inversions de lettres. L’idée, c’était de coller à la réalité brute du document, pour que l’algorithme apprenne le réel et pas une version idéalisée. Ce travail de fourmi a ensuite servi de socle pour calibrer le modèle, avant de l’appliquer à grande échelle.

Et le résultat tient la route : un taux d’erreur moyen de 9,7 % mesuré sur 670 manuscrits, avec un pourcentage de lignes correctement reconnues souvent supérieur à 80 %. Seuls les manuscrits tardifs en écriture cursive, sous-représentés dans les données d’entraînement, traînent un peu derrière. Pour un chiffre brut, sans correction humaine après coup, c’est honnête.

IA et patrimoine culturel : 32 000 manuscrits retranscrits

IA et patrimoine culturel : ce que ça change concrètement.

Le corpus CoMMa est librement téléchargeable, en accès ouvert. Pour la recherche en humanités, c’est un changement d’échelle : des fonds qui dormaient depuis des siècles deviennent soudain interrogeables, comparables, exploitables à grande échelle. On parle ici d’IA et patrimoine culturel dans son sens le plus concret : pas un gadget de communication, mais un outil qui ouvre un accès direct à une masse documentaire jusque-là réservée à une poignée de spécialistes.

Et il y a une leçon plus large, qui dépasse largement le Moyen Âge. Ce projet illustre ce qui distingue une IA qui marche vraiment d’une IA qui fait illusion : un cadrage du problème ultra précis, des données d’entraînement construites avec soin, et une tolérance zéro pour l’invention. Le genre d’approche qui, transposée à n’importe quel contexte professionnel manipulant des données complexes ou peu structurées, fait toute la différence entre un outil fiable et un générateur de plausible.

Pour creuser le sujet d’IA et patrimoine culturel, le site officiel du projet CoMMa, hébergé par l’Inria, détaille la méthodologie et donne accès au corpus complet.

Accueil en France (logement).

L’accueil et le logement sont primordiaux. Il est important pour les entreprises d’offrir un soutien logistique pour la recherche d’un logement adéquat, ainsi que des services d’accueil pour une intégration réussie dans le pays. Les services peuvent comprendre des visites de la ville, des conseils sur les zones résidentielles à privilégier et un accompagnement dans la recherche de logement, qu’il soit temporaire ou permanent.

Vos démarches administratives.

Les formalités administratives peuvent représenter un défi, surtout quand elles varient d’un pays à l’autre. Nous veillons à ce que toutes les obligations légales et administratives soient respectées. Cela inclut la gestion des visas de travail, l’enregistrement auprès des autorités compétentes et l’établissement de contrats de travail en accord avec la législation locale.

Accompagnement sur l'intégration.

L’accompagnement des nouveaux venus est essentiel pour leur permettre de se sentir intégrés et opérationnels rapidement. Cela comprend une formation approfondie sur les procédures, outils et technologies spécifiques au centre. Un mentor ou un chef de projet dédié facilite leur adaptation en clarifiant les attentes de l’entreprise, en aidant à construire des liens avec les équipes et en assurant une compréhension des normes de travail.

Pré-embauche.

Sélection de profils trilingues (maîtrise des langues, lu, parlé, écrit).
Identifier les candidats qui excellent dans plusieurs langues à l’écrit et à l’oral est essentiel lors de la pré-embauche. L’évaluation des compétences linguistiques se fait via une variété d’outils et de méthodes. Celle-ci permet d’évaluer la compréhension écrite, l’expression écrite et l’interaction orale, afin de déterminer le niveau de maîtrise des candidats.
La pré-embauche comprend également une présélection fondée sur les critères d’éligibilité et les qualifications nécessaires au poste. Cette étape implique l’examen des dossiers de candidature pour identifier ceux qui répondent aux exigences techniques spécifiques du poste. Les candidats sélectionnés passent ensuite par des entretiens, des examens et des tests visant à évaluer leur capacité à remplir les fonctions du poste.
Opter pour des profils trilingues permet aux entreprises de s’entourer d’une main-d’œuvre polyvalente, capable de communiquer de manière efficace avec des clients issus de différents milieux linguistiques. Cela contribue à améliorer la qualité des services proposés et à renforcer la capacité de l’entreprise à s’inscrire dans un contexte international.

Centre de services forfait.

Le centre de services forfaitaire représente une solution structurée et prévisionnelle pour la gestion de vos projets informatiques. Il se caractérise par des engagements de résultats précis, garantissant ainsi la livraison de prestations déterminées dans des délais et à des coûts prédéfinis.

Directeur de projet dédié.

Un des avantages majeurs du centre de services forfaitisé est l’attribution d’un directeur de projet dédié. Ce dernier, en tant que responsable opérationnel, orchestre toutes les activités liées au projet. Il assure une coordination efficace et une communication fluide entre les équipes du client et celles du fournisseur.
Le directeur de projet veille à la réalisation des objectifs fixés dans le contrat, gère les réunions de suivi technique, de pilotage et stratégique. La centralisation de la gestion des tâches, des échéances et des coûts, minimise les risques d’écarts et améliore la qualité des livrables. Il est également chargé de la mise en place d’audits de qualité périodiques pour une continuité des services d’infogérance.
En créant un centre de services forfaitaire, les entreprises disposant d’une solution complète d’infogérance, prenant en charge tous les aspects du projet, de sa conception à sa réalisation. Cela leur permet de se focaliser sur leur activité principale, tout en s’assurant que leurs exigences informatiques sont satisfaites efficacement.

Assistance technique.

L’assistance technique joue un rôle fondamental dans le succès du Nearshoring. Elle est encore plus efficace lorsqu’il s’agit de manipuler des technologies complexes telles que celles proposées par Microsoft ou par des solutions Open-Source. Les centres de services Nearshore mettent à votre disposition des experts Microsoft et Open-Source hautement compétents, capables de répondre efficacement et rapidement à vos besoins techniques.

Experts Microsoft.

Les experts Microsoft sont indispensables pour les entreprises qui s’appuient sur les solutions Microsoft pour leurs activités quotidiennes. Ces experts certifiés par Microsoft, offrent un support technique de premier ordre pour une variété de produits et services à l’instar de Microsoft 365, Azure, Dynamics 365. Leur rôle est déterminant pour optimiser les infrastructures, faciliter la migration vers le cloud et développer des applications sur mesure. Les experts Microsoft garantissent la sécurité de vos données et systèmes.

Experts Open-Source.

Les centres de services Nearshore proposent des experts en technologies Open-Source. Ces spécialistes ont la capacité de gérer et développer des projets utilisant des logiciels libres et Open-Source. Cela inclut des systèmes de gestion de contenu, des Frameworks de développement Web, et des bases de données Open-Source. Leur expertise offre aux entreprises la possibilité de profiter de la flexibilité et de la personnalisation qu’offrent les solutions Open-Source.

Cloud.

Les plateformes Cloud telles que AWS, Azure et GCP offrent des services exhaustifs pour le développement, le déploiement et la gestion des applications Web. Elles fournissent des outils pour la gestion des infrastructures, la sécurité, la surveillance et l’optimisation des performances.
AWS propose, par exemple, des services tels que EC2 pour les instances de serveurs virtuels, S3 pour le stockage d’objets et Lambda pour les fonctions Serverless. Azure offre des services comme Virtual Machines, Blob Storage et Azure Functions. GCP met à disposition des services tels que Compute Engine, Cloud Storage et Cloud Functions.

Front-End.

Le développement Front-End se concentre sur la création de l’interface utilisateur et de l’expérience utilisateur. Les Frameworks et bibliothèques comme Angular, React et VueJS sont essentiels pour développer des applications Web modernes et interactives.
Ces outils facilitent la création d’interfaces utilisateur réactives et responsives, améliorant significativement l’expérience utilisateur. React est souvent utilisé pour les applications à grande échelle nécessitant des mises à jour rapides des composants. Tandis que Angular est préféré pour les applications complexes avec une structure solide et des fonctionnalités avancées.

Back-End.

Le développement Back-End est essentiel pour élaborer la logique serveur et les API qui alimentent les applications Web.

Les langages de programmation et Frameworks tels que .NET, Node.js, Java et Java Enterprise Edition (JEE) sont couramment utilisés pour développer des applications robustes et évolutives.

.NET est souvent choisi pour les applications Windows et les services Web, tandis que Node.js est favorisé pour les applications en temps réel et les micro-services. Java et JEE sont appréciés pour les applications d’entreprise complexes nécessitant fiabilité et scalabilité.

Data.

L’intégration de la science des données et de l’ingénierie des données est essentielle dans le développement Web et le Cloud Computing pour extraire des Insights précieux des données. Les plateformes Cloud mettent à disposition des outils avancés pour l’analyse de données, le Machine Learning et l’intelligence artificielle (IA). Cela permet aux développeurs de concevoir des applications intelligentes et adaptatives.
L’ingénierie des données se concentre sur la conception, la construction et la maintenance des pipelines de données. Elle assure la collecte, le stockage et le traitement efficace des données. Des outils comme Apache Spark, Apache Kafka et les services de gestion de données Coud facilitent la gestion des flux de données complexes et la qualité des données.

Développement de solutions.

La transformation digitale implique le développement de solutions numériques. Cela inclut des applications Cloud et le développement Web. Ces méthodologies sont essentielles pour valider des idées innovantes. Elles aident à réduire les risques et à garantir un lancement rapide et réussi sur le marché.
Le MVP, ou Minimum Viable Product, est une version simplifiée d’un produit. Cela permet de montrer son importance et de recueillir l’avis des utilisateurs. Le MVP permet de tester l’idée sur le marché, afin de confirmer l’intérêt des utilisateurs. Cette version allégée aide à rassembler des informations sur les attentes et préférences.
Le POC, ou Proof of Concept, est un modèle ou une simulation qui atteste de la faisabilité technique d’une idée de produit. Il n’est pas forcément une version opérationnelle du produit. Le POC représente plutôt une démonstration de la viabilité de la technologie ou de l’approche envisagée.
MVP et POC permettent une validation rapide des idées de produit, une réduction significative des risques financiers et un gain de temps sur le développement.

Data.

Le Data Engineering est l’art de concevoir des systèmes destinés à la collecte, au stockage et à l’analyse de données à grande échelle. Les ingénieurs de données établissent des pipelines pour gérer le flux de données au sein de l’organisation.
La Data Science implique l’analyse de données pour en extraire des connaissances et des perspectives. En utilisant des techniques de calcul avancées, des algorithmes, des statistiques et du Machine Learning, les ingénieurs manipulent les données pour prendre des décisions éclairées.
La Data Visualization transforme les données complexes en représentations visuelles claires et intuitives. Cela permet de faciliter leur compréhension et leur analyse. Cette technique est essentielle pour communiquer les résultats des analyses de données, afin d’identifier les tendances, les modèles et les Insights importants.
L’intelligence artificielle, y compris le Machine Learning, est essentielle à la transformation digitale. Elle permet de créer des modèles capables d’apprendre à partir des données et de prendre des décisions de manière autonome.

Pilotage de projets complexes.

La gestion de projets complexes est une mission qui exige un ensemble spécifique de compétences, de méthodes et d’outils.

Les directeurs de projets sont au cœur de la gestion de projets complexes. Ils ont pour mission de maintenir une vision claire de l’objectif final et de naviguer à travers les défis avec leur équipe. Leur responsabilité englobe la définition des objectifs, une planification minutieuse, la gestion des risques, et la coordination entre toutes les parties prenantes.

Les approches agiles comme SCRUM et SAFe sont particulièrement bien adaptées à la gestion des projets complexes. SCRUM se focalise sur le travail en cycles courts ou « Sprints », abordant la complexité un aspect à la fois. SAFe étend les principes de SCRUM à des projets de plus grande envergure.

Urbanisation. Architecture fonctionnelle des S.I.

L’urbanisation et l’architecture fonctionnelle des systèmes d’information (S.I.) sont essentielles pour structurer et améliorer l’efficacité du S.I. au sein d’une organisation. Ces concepts s’appuient sur des principes et méthodes issus de l’urbanisme pour développer un S.I. agile, flexible et capable d’évoluer.
Le schéma directeur joue un rôle vital dans la planification et l’évolution du S.I. Il offre une vue d’ensemble du S.I. à travers une cartographie fonctionnelle. Celle-ci détaille les différentes composantes du S.I., identifiant zones, quartiers, îlots et blocs, chacun ayant des fonctions spécifiques.
Cette visualisation facilite la compréhension de l’architecture actuelle du S.I. Elle aide également à anticiper les évolutions futures en considérant les contraintes et opportunités.

Product Management.

Le Product Management englobe l’ensemble du cycle de vie d’un produit. Il consiste en la planification, le développement, le lancement et la gestion d’un produit ou service. Le rôle du Product Manager est de veiller à ce que le produit satisfasse aux exigences de son marché cible. Un produit adapté aux besoins des clients contribue aux objectifs stratégiques de l’entreprise.
Sa mission le place au cœur de la création et de l’amélioration des produits. Il identifie les opportunités de marché et analyse les besoins des clients. Le Product Manager définit la vision et la stratégie à long terme pour le produit. Ils communiquent ces plans aux équipes de développement, de Design et aux parties prenantes.
Effectuer des recherches de marché et des études utilisateurs est essentiel pour comprendre les préférences et les exigences des clients. Ces informations guident la définition de la feuille de route du produit et la priorisation des fonctionnalités à développer.

Data.

La gestion et l’exploitation des données jouent un rôle essentiel dans la transformation digitale des entreprises. Les analystes de données mettent en place des pipelines ETL (Extract, Transform, Load) pour collecter, nettoyer, enrichir et intégrer les données de diverses sources.
Les données brutes sont converties en données structurées, prêtes à être utilisées par les analystes et les ingénieurs. Ces derniers peuvent ainsi accéder à des données de qualité et fiables. Ils pourront exploiter ces données pour développer des applications d’IA et de Machine Learning.
La sécurité et la gouvernance des données sont primordiales dans la gestion des données. Il est essentiel que les analystes de données implémentent des mesures de sécurité pour maintenir l’intégrité des données. Ils doivent s’assurer de leur conformité avec les réglementations et les politiques de gouvernance de l’entreprise.

MOA Assurance.

Le Maître d’ouvrage (MOA) joue un rôle essentiel dans le domaine de l’assurance, en particulier pour les projets de transformation digitale. Il doit parfaitement comprendre les produits et services proposés, comme les assurances vie, santé et auto.
Il est chargé de l’urbanisation et de l’architecture fonctionnelle des systèmes d’information. Il définit un schéma directeur pour ces systèmes, cartographie les processus fonctionnels et établit une architecture répondant aux besoins actuels et futurs de l’entreprise.
Le MOA Assurance assure la conversion des besoins métiers en exigences fonctionnelles précises pour les systèmes d’information. Cela comprend la gestion de projets et le lancement de nouveaux produits d’assurance, l’optimisation des processus de souscription, la gestion des sinistres, et l’intégration des technologies avancées telles que l’intelligence artificielle (IA).

MOA Banque.

Le Maître d’ouvrage (MOA) joue un rôle essentiel dans le secteur bancaire, surtout pour les projets de transformation digitale. L’expert MOA Banque a pour mission de transformer les besoins des utilisateurs opérationnels de la banque en exigences fonctionnelles précises pour le système d’information (S.I.).

Sa mission inclut la gestion de l’urbanisme du S.I. applicatif et de l’architecture fonctionnelle. Cela nécessite une compréhension approfondie des interactions avec les autres applications et des risques associés. Une vision claire de l’architecture fonctionnelle des S.I. est fondamentale pour la coordination et la réussite des projets.

Il est indispensable pour un MOA Banque de posséder une solide expertise dans le domaine bancaire, incluant le financement des entreprises, la comptabilité, le contrôle de gestion, et les moyens de paiement.