24/01/2026

Quand 2 frangins construisent une IA vidéo dans leur garage

Par admin

Quand 2 frangins construisent une IA vidéo dans leur garage

Un modèle text-to-video open source, gratuit et capable de tourner ailleurs que sur un supercalculateur de la NASA ?

J’avoue, j’ai cru au fake en découvrant le truc, surtout quand on voit la puissance de feu qu’il faut chez OpenAI (Sora) ou Google (Veo) pour sortir le moindre clip de 3 secondes. Mais BON, parfois, il suffit de deux frères motivés pour bousculer un peu les géants de l’IA.

Et c’est 2 frères, ce sont Sahil et Manu Chopra, qui depuis l’automne 2022 bosse avec acharnement sur leur modèle de génération de vidéos baptisé
Linum
.

Leur histoire est assez dingue et c’est pour ça que je vous la raconte aujourd’hui. En fait, au début, ils ont fait comme tout le monde. C’est à dire qu’ils ont essayé de bidouiller Stable Diffusion XL pour lui faire cracher de la vidéo. Ils ont fini par mettre au point une extension un peu "hacky" basé sur un modèle image, sauf que ça ne marchait pas très bien.

Enfin si, ça sortait des GIFs d’une seconde en 180p pour Discord mais pas vraiment de quoi faire trembler Hollywood et
Matthew McConaughey
(lol). Le problème, c’est que les VAE (les encodeurs d’images) ne comprennent rien au temps qui passe, alors ils traitent chaque frame indépendamment et ça donne cet effet de scintillement insupportable qu’on retrouve dans pas mal de générateurs vidéo libre ou open source.

Du coup, ils ont pris une décision radicale. Tout foutre à la poubelle et repartir de zéro !

Ils ont donc passé deux longues années à batir Linum v2 "from scratch". Cela veut dire qu’il ont du trouver les données, entraîner des modèles de vision pour filtrer le dataset, mettre manuellement des légendes sur des milliers de vidéos, gérer les clusters de GPU… et j’en passe !