18/06/2026

Qwen-Robot Suite – Alibaba donne un corps à son IA

Par admin

Qwen-Robot Suite - Alibaba donne un corps à son IA

Voici une news concernant l’intelligence artificielle, qui je pense devrait vous plaire si vous vous intéressez à la robotique. Alibaba qu’on ne présente plus, vient de sortir sa Qwen-Robot Suite, 3 modèles IA signés Tongyi Lab (les gens derrière
Qwen
) imaginé pour donner un corps à l’IA. Parce qu’une machine capable de décrire votre cuisine au millimètre près mais complétement infoutue d’y attraper une tasse, voilà un peu ce qu’on a en robotique en ce moment…

Car "comprendre" le monde, ça les modèles savent faire. Mais agir dedans, c’est une autre paire de manches. Cette Qwen-Robot Suite découpe donc ça en trois briques, RobotNav pour se déplacer, RobotManip pour saisir des objets, et RobotWorld qui joue les boules de cristal en prédisant ce qui va se passer avant même que le robot ne bouge. Et si vous voulez expérimenter tout ça tout de suite, sans mettre les mains dans le cambouis, y’a même une démo
Chat2Robot
, où vous tapez une instruction dans votre navigateur et un bras robotique l’exécute en direct !

Mais le plus parlant dans leurs démo, c’est ce chien-robot Unitree Go2 (
bourré de failles de sécu, qui balance toutes vos données en chine
) qui, une fois lâché chez vous avec sa seule petite caméra bas de gamme, peut se balader dans toute la maison pour vous rendre tout un tas de services. Sauf qu’ici il opère dans des lieux qu’il n’a jamais vus, en suivant vos consignes vocales de pièce en pièce, et il peut même refaire tout le trajet à l’envers sur commande. C’est en tout cas, assez cool de voir ces world models enfin capables d’apprendre à résoudre des problèmes auxquels il n’a encore jamais été confronté.

L’astuce, c’est d’entraîner un seul modèle sur les données de plein de robots différents d’un coup, au lieu de repartir de zéro pour chaque machine. Du coup un geste appris sur un bras X se transfère direct sur un autre bras Y, et chaque robot profite ainsi, en quelque sorte, de l’expérience accumulée par tous les congénères du lot. Et tout ça a été nourri avec plus de 38 000 heures de données, uniquement en l’open-source, dont des vidéos de gens filmés en train de faire des trucs, et adapté pour que la machine puisse apprendre
en regardant faire des humains
.