La jagged intelligence : quand l’IA décroche une médaille d’or et rate l’heure qu’il est.

Il y a quelque chose de profondément bizarre dans l’état actuel de l’IA. Un même modèle peut résoudre cinq problèmes sur six à l’Olympiade internationale de mathématiques — en langage naturel, en moins de cinq heures — et se planter sur la lecture d’une montre analogique. Pas légèrement. Massivement. C’est ça, la jagged intelligence, et le rapport AI Index 2026 de Stanford vient de lui donner un nom.

La jagged intelligence, ou le génie socialement inapte.

Le terme vient du rapport publié le 13 avril 2026 par Stanford HAI, dans sa neuvième édition annuelle. « Jagged » signifie « en dents de scie ». C’est exactement l’image : la frontière des capacités de l’IA n’est pas une ligne droite et montante. Elle ressemble plutôt à un électrocardiogramme un peu affolé, avec des pics à des altitudes incroyables et des creux qui font tiquer.

Les pics, d’abord. Gemini Deep Think de Google a remporté la médaille d’or à l’Olympiade internationale de mathématiques 2025. Cinq problèmes sur six résolus, en langage naturel, dans le temps imparti. C’est un bond spectaculaire : en 2024, la médaille d’argent avait nécessité de traduire les problèmes dans un langage formel et plusieurs jours de calcul. Sur les benchmarks de chimie, plusieurs modèles dépassent désormais en moyenne les chimistes humains. Sur OSWorld — qui teste les agents IA sur de vraies tâches d’ordinateur sous Ubuntu, Windows ou macOS — le taux de réussite est passé d’environ 12 % à 66,3 % en un an avec Claude Opus 4.5. C’est à six points de la moyenne humaine.

Tout ça, c’est impressionnant. Vraiment.

Mais 50,6 % pour lire une horloge.

Voilà où ça devient surréaliste. Sur ClockBench — un test qui soumet aux modèles 180 designs d’horloges analogiques et 720 questions — le meilleur modèle testé plafonne à 50,6 % de réussite. Les humains sont à 90,1 %. Et quand l’IA se trompe, elle ne se trompe pas de trois minutes. Son erreur médiane tourne entre une et trois heures.

Du côté de la robotique, c’est pareil. Les meilleurs systèmes atteignent 89,4 % sur RLBench en simulation. Mais dès qu’on les confronte à mille tâches ménagères réalistes dans le BEHAVIOR Challenge 2025, l’équipe gagnante ne complète intégralement que 12,4 % des tâches. Faire la vaisselle dans une vraie cuisine, pas dans une simulation parfaitement calibrée — c’est encore hors de portée. En sciences, plusieurs modèles s’effondrent à moins de 20 % sur la réplication d’astrophysique alors qu’ils surpassent les experts humains sur d’autres benchmarks du même domaine.

On serait tenté de dire que c’est juste un manque de données. Qu’il suffit d’en rajouter.

Ce n'est pas (seulement) une question de données.

C’est là que le rapport apporte quelque chose de plus intéressant. Une étude publiée en 2025 dans IEEE Internet Computing a tenté l’expérience : entraîner les modèles sur 5 000 images synthétiques d’horloges pour corriger le tir. Les modèles se sont améliorés sur les designs familiers. Mais ils n’ont pas généralisé aux photos réelles ou aux designs inhabituels.

Le verrou identifié est plus fin que ça : les modèles peinent à combiner plusieurs indices visuels au sein d’une même image. Concrètement, ils confondent l’aiguille des heures et celle des minutes, ce qui dégrade toute la chaîne d’estimation. Ce n’est pas un problème de volume de données — c’est un problème de raisonnement visuel intégré, et c’est une limite structurelle que les chercheurs n’ont pas encore résolue.

C’est exactement pourquoi la jagged intelligence mérite d’être prise au sérieux par quiconque envisage d’automatiser des processus métier avec de l’IA.

Ce que ça change concrètement pour vous.

Si vous êtes en train d’évaluer ou de déployer de l’IA en entreprise, ce paradoxe a des implications directes. Un modèle peut se montrer bluffant sur une démo soigneusement choisie — et décevant, voire défaillant, sur une tâche qui semble pourtant plus simple. La démo n’est pas le produit.

L’exemple d’OSWorld est parlant dans les deux sens : 66,3 % de réussite sur des tâches d’ordinateur réelles, c’est une vraie progression. Mais ça veut aussi dire qu’environ une tâche sur trois est encore ratée, sur des actions qu’un étudiant en informatique boucle en deux minutes. Vous déployez un agent sur votre poste de travail, vous obtenez quelque chose d’utile deux fois sur trois. Est-ce suffisant ? Ça dépend de la tâche, du contexte, du coût d’une erreur.

C’est pourquoi, comme on l’évoquait dans notre analyse sur l’orchestration des agents IA, les performances brutes ne disent pas tout : l’infrastructure qui encadre ces agents, les garde-fous, les boucles de validation humaine — c’est là que se joue vraiment la fiabilité opérationnelle.

Ce que ça dit de la maturité IA.

La jagged intelligence n’est pas une critique de l’IA. C’est une description honnête de ce qu’elle est aujourd’hui : extraordinairement compétente sur certains terrains, étonnamment fragile sur d’autres, et souvent imprévisible dans la distribution de ces deux états. Ce n’est pas un bug en attente de correction — c’est la nature actuelle du domaine.

La bonne question à poser n’est pas « l’IA est-elle fiable ? » mais « sur quelles tâches précises, dans quelles conditions, avec quel niveau de supervision ? ». Et si vous vous demandez à quelle étape de maturité IA votre organisation se trouve, ce type de questionnement granulaire est exactement le bon point de départ.

L’IA bat des records aux Olympiades. Elle rate l’heure qu’il est. Les deux sont vrais en même temps. Et c’est précisément pour ça qu’il faut tester ses propres cas d’usage — pas ceux de la démo.

Articles récents