Age of LLM – Un Age of Empires où aucun humain ne joue

Vous voulez savoir comment GPT-5.5, Claude ou Grok raisonnent quand on les met sous pression ? Hé bien filez-leur un jeu de stratégie et regardez-les se faire la guerre.
C’est tout le principe d’
Age of LLM
, monté par Rymentz, un lecteur du blog où deux IA s’affrontent au tour par tour, sans aucun humain aux commandes.
C’est un benchmark 1v1 dans lequel on balance deux modèles sur la même carte, on leur donne les règles et puis c’est tout, sans aucun autre conseil de stratégie. À eux alors de déduire seuls comment contrer les attaques, quand bâtir leur économie, quand lever une armée pour aller défoncer la base d’en face, quand négocier la paix et quand carrément appuyer sur le gros bouton rouge. Parce que dans ce benchmark, on peut gagner de trois façons : la conquête militaire, la victoire diplomatique, ou la bombe nucléaire.
Tout est ensuite rendu public sur le site, avec un classement ELO et le replay de chaque partie. Pour le moment, 13 modèles y sont classés, de GPT-5.5 à Grok en passant par Claude, Gemini, DeepSeek ou Qwen.
Sur les 43 parties jouées par la version 0.12.0 du moteur, 38 se terminent par un champignon atomique. C’est énorme je trouve… La diplomatie ne l’a emporté que 2 fois, et le militaire 3 fois. Mettez deux de ces modèles face à face avec une bombe à portée de main, et neuf fois sur dix, ça finit donc par appuyer sur le bouton rouge. Elles nous ressemblent tellement ces IA quand même…
Des chercheurs qui ont fait jouer des LLMs à des simulations de crise nucléaire ont relevé une tendance comparable. Quand l’option d’escalade existe, les modèles finissent le plus souvent par la prendre. C’est pour ça qui ne faut pas confier d’armes à des IA les amis… Car elles s’en serviront c’est certain !

Le jour où j’ai compris que les IA et les armes, c’était pas un bon mélange à faire
Et chacun de ces modèles a vraiment son style… Y’a qu’à regarder le classement qui est sans pitié. GPT-5.5 écrase tout le monde, 6 victoires sur 6, 100% de winrate, premier à l’ELO… mais il médite presque 5 minutes par tour avant de jouer.
À l’autre bout du tableau, on retrouve Grok 4.3 qui finit bon dernier, zéro victoire en 4 parties, mais qui joue le plus vite de tous, avec 7 secondes par tour (autant dire qu’il ne réfléchit pas trop).
Les Claude, eux, jouent propre et solide mais sans jamais dominer. Ça me rappelle
l’IA qui galérait à finir un niveau de Super Mario
…

Mais le chiffre le plus parlant, c’est le taux de coups illégaux, c’est à dire le pourcentage de fois où un modèle propose une action interdite par les règles.
Par exemple, sous pression, Grok 4.3 culmine à 8,6% d’actions de triche, soit le pire du lot. Cela veut dire que sa capacité à suivre des règles sous pression est moins bonne que celle des autres modèles.
Ça résonne forcement avec ce
papier d’Adrian de Wynter dont je vous parlais récemment
, celui qui montrait qu’Age of Empires II a autant d’attributs "humains" que votre ChatGPT, histoire de dégonfler la hype sur les IA soi-disant conscientes.
Age of LLM, lui, prend le problème par l’autre bout, où au lieu d’analyser on fait jouer et on regarde ce qui sort. Derrière ce projet, on retrouve le même lecteur qui avait bricolé
Nuclear Arms Race
il y a quelques années et dont je vous avais parlé. Il a repris le concept, sauf que cette fois ce sont des IA qui jouent entre elles.
En tout cas, comme spectacle, c’est très hypnotique. Lancez un replay, vous allez voir… En regardant deux IA se bluffer et se faire exploser la tronche vous permettra d’en apprendre plus sur leur raisonnement qu’avec dix pages de benchmark.
Merci à Rymentz pour le lien et pour le projet !
Source : korben.info