12/06/2026

DiffusionGemma : le nouveau modèle de Google écrit son texte d'un bloc, et 4 fois plus vite

Par admin

DiffusionGemma : le nouveau modèle de Google écrit son texte d'un bloc, et 4 fois plus vite

Plus de 1 000 tokens par seconde sur une seule carte H100, l’accélérateur que Nvidia vend aux centres de données, et environ 700 sur une RTX 5090, sa carte gaming haut de gamme. C’est le débit que Google DeepMind annonce pour DiffusionGemma, son nouveau modèle d’IA ouvert, à peu près quatre fois ce que produisent les modèles Gemma classiques de taille comparable.

Toute la différence se joue dans la façon de générer le texte. Les modèles de langage habituels sont autorégressifs : ils écrivent de gauche à droite, un token à la fois, le token étant le petit morceau de mot que manipule une IA. DiffusionGemma fait tout autrement.

Il travaille comme les générateurs d’images, qui partent d’un nuage de bruit et le débruitent petit à petit jusqu’à la photo demandée. Le modèle pose un canevas de 256 tokens fictifs, repasse dessus plusieurs fois pour affiner ses estimations, puis finalise le bloc entier d’un coup.

Sous le capot, on a un Mixture of Experts de 26 milliards de paramètres, une architecture où seule une petite partie du modèle se réveille à chaque calcul, 3,8 milliards ici. Du coup le tout tient dans 18 Go de mémoire vidéo en version compressée, soit une grosse carte graphique grand public.

L’intérêt en local, c’est que cette approche déplace le goulot d’étranglement de la bande passante mémoire, la vitesse à laquelle la carte lit ses propres données, vers le calcul pur. Dans le cloud, les serveurs mutualisent les requêtes de milliers d’utilisateurs et leurs puces tournent en permanence, alors que votre GPU à la maison passe le plus clair de son temps à attendre les données. La diffusion occupe ces cycles perdus.

Et puis il y a les tâches non linéaires, où l’ordre d’écriture ne suit pas l’ordre de lecture. Google a même affiné une version sur le Sudoku, un casse-tête réputé impossible pour les modèles classiques puisque chaque case dépend de cases pas encore écrites. DiffusionGemma, qui corrige son canevas en continu, atteint 80% de réussite en faisant tomber les étapes de calcul de 48 à 12.

Tout n’est pas rose pour autant. Dans une image, un pixel raté passe inaperçu. Un token mal prédit, lui, peut rendre un paragraphe entier incohérent et forcer à tout recommencer. Et pour une réponse de cinq mots, dégrossir un canevas complet gaspille du calcul. C’est d’ailleurs pour ça que les gros Gemini du cloud n’y passent pas.

Le modèle est expérimental, mais il sort sous licence Apache 2.0, la même que le reste de la famille Gemma 4, donc utilisable commercialement sans restriction. Les poids se téléchargent dès maintenant sur Hugging Face, la plateforme de référence des modèles ouverts, avec une optimisation menée main dans la main avec Nvidia. MLX, l’outil d’Apple pour faire tourner l’IA en local, est aussi de la partie, les Mac sont donc servis.

Si vous voulez mon avis, c’est sur ces modèles locaux que Google est le plus intéressant en ce moment, bien plus que sur Gemini.

Source :
ARS Technica

Source : korben.info