HRM – L'IA qui ridiculise ChatGPT avec seulement 27 millions de paramètres
Ce lundi matin, pendant que vous buvez votre café tiède en écoutant vos collègues évoquer leur future retraite imaginaire, sachez que des chercheurs singapouriens vient encore de repousser les frontières de l’IA avec HRM, un modèle qui résout des Sudoku impossibles sans même transpirer. Et il ne pèse que 27 Mo.
Je vous explique… La startup Sapient Intelligence vient de sortir le Hierarchical Reasoning Model (HRM), et c’est un véritable game-changer car avec seulement 27 millions de paramètres (c’est 6500 fois moins que GPT-3) cette petite bête arrive à battre les géants de l’IA sur des tâches de raisonnement complexe. Et le plus fort c’est qu’elle n’a besoin que de 1000 exemples pour apprendre, là où les autres en demandent des millions.
Le secret de cette prouesse, c’est une architecture directement inspirée de notre cerveau. Au lieu de faire comme les LLMs classiques qui génèrent du texte token par token en mode “je réfléchis à voix haute”, HRM fonctionne avec deux modules qui bossent ensemble : un module H (High-level) qui fait la planification stratégique lente, et un module L (Low-level) pour les calculs rapides et détaillés. En gros c’est un architecte qui dessine les plans et un maçon qui construit.
Et alors ça donne quoi dans la réalité ? Et bien sur des Sudoku niveau “extreme” où GPT-4 et Claude se cassent les dents avec un score de 0%, HRM affiche tranquillement un taux de réussite quasi parfait. Sur le benchmark ARC-AGI qui teste le raisonnement abstrait, il tape des scores de 40.3% contre 34.5% pour o3-mini d’OpenAI et 21.2% pour Claude 3.7 Sonnet. Pas mal donc pour un modèle qui tient sur une clé USB.
Mais le vrai kiff, c’est la vitesse d’exécution. Guan Wang, le CEO de Sapient Intelligence, parle d’un gain de performance de x100 par rapport aux approches chain-of-thought classiques. Pourquoi ? Et bien parce qu’au lieu de générer des pavés de texte pour expliquer chaque étape de raisonnement, HRM fait tout ça en interne, dans son “espace latent”. C’est ça la différence entre quelqu’un qui marmonne tout ce qu’il pense (le fou de la gare) et quelqu’un qui réfléchit dans sa tête avant de donner la réponse.
D’ailleurs, cette histoire de chain-of-thought, c’est un peu la “béquille” des LLMs actuels. Les chercheurs de Sapient ne mâchent pas leurs mots dans leur papier : en disant que “C’est une béquille, pas une solution satisfaisante. Ça repose sur des décompositions fragiles définies par l’humain où une seule erreur peut faire dérailler tout le processus de raisonnement.” Ouille…
Pour l’entraînement, c’est du grand art aussi. Il faut seulement 2 heures de GPU pour apprendre à résoudre des Sudoku niveau pro, et entre 50 et 200 heures pour le benchmark ARC-AGI. Comparez ça aux milliers d’heures nécessaires pour entraîner GPT-4, et vous comprenez pourquoi les entreprises commencent à s’intéresser sérieusement à cette approche.
L’équipe derrière ça sont des anciens de Google DeepMind, DeepSeek, Anthropic et xAI, accompagnés d’académiques de grandes universités. Ils ont même mis le code en open source sur GitHub, donc si vous voulez jouer avec, c’est cadeau.
Pour les applications concrètes, Wang voit grand : santé pour les diagnostics complexes, prévisions climatiques (ils annoncent 97% de précision sur les prévisions saisonnières), et robotique comme “cerveau décisionnel” embarqué. Parce que oui, avec sa taille réduite et sa faible consommation, HRM peut tourner sur des appareils edge sans problème.
Alors bien sûr, ne jetez pas ChatGPT ou Claude à la poubelle tout de suite car pour les tâches créatives et linguistiques, les LLMs restent imbattables. Mais pour tout ce qui demande du raisonnement pur et dur, c’est à dire optimisation logistique, diagnostic de systèmes complexes, planification…etc, HRM pourrait bien devenir le nouveau standard.
Ainsi, depuis des années, la course à l’IA c’était “qui aura le plus gros modèle” et là, Sapient nous montre qu’avec une architecture intelligente inspirée du cerveau, on peut faire mieux avec infiniment moins. Si vous suivez l’actualité des nouveaux modèles IA comme Llama 4, vous savez que l’industrie commence à explorer des architectures alternatives comme par exemple les Mixture of Experts pour optimiser les performances, donc peut-être que Meta ou d’autres intégreront HRM dans le futur à leurs nouveaux modèles.
Voilà, en attendant la prochaine révolution hebdomadaire de l’IA (Perso, je me régale !! Pas vous ??), vous pouvez déjà aller tester le code sur leur GitHub. Et qui sait, peut-être que dans quelques années, on se souviendra de ce moment comme du jour où l’IA a commencé à vraiment penser comme nous. Enfin, en mieux et en plus vite.
Source : korben.info