Quand 2 frangins construisent une IA vidéo dans leur garage

Un modèle text-to-video open source, gratuit et capable de tourner ailleurs que sur un supercalculateur de la NASA ?
J’avoue, j’ai cru au fake en découvrant le truc, surtout quand on voit la puissance de feu qu’il faut chez OpenAI (Sora) ou Google (Veo) pour sortir le moindre clip de 3 secondes. Mais BON, parfois, il suffit de deux frères motivés pour bousculer un peu les géants de l’IA.
Et c’est 2 frères, ce sont Sahil et Manu Chopra, qui depuis l’automne 2022 bosse avec acharnement sur leur modèle de génération de vidéos baptisé
Linum
.
Leur histoire est assez dingue et c’est pour ça que je vous la raconte aujourd’hui. En fait, au début, ils ont fait comme tout le monde. C’est à dire qu’ils ont essayé de bidouiller Stable Diffusion XL pour lui faire cracher de la vidéo. Ils ont fini par mettre au point une extension un peu "hacky" basé sur un modèle image, sauf que ça ne marchait pas très bien.
Enfin si, ça sortait des GIFs d’une seconde en 180p pour Discord mais pas vraiment de quoi faire trembler Hollywood et
Matthew McConaughey
(lol). Le problème, c’est que les VAE (les encodeurs d’images) ne comprennent rien au temps qui passe, alors ils traitent chaque frame indépendamment et ça donne cet effet de scintillement insupportable qu’on retrouve dans pas mal de générateurs vidéo libre ou open source.
Du coup, ils ont pris une décision radicale. Tout foutre à la poubelle et repartir de zéro !
Ils ont donc passé deux longues années à batir Linum v2 "from scratch". Cela veut dire qu’il ont du trouver les données, entraîner des modèles de vision pour filtrer le dataset, mettre manuellement des légendes sur des milliers de vidéos, gérer les clusters de GPU… et j’en passe !
Et à la clé de tout ce travail, ils ont fini par obtenir un modèle de 2 milliards de paramètres (ce qui est minuscule pour de la vidéo, je tiens à le dire) capable de générer des clips de 2 à 5 secondes en 720p !
Et le plus beau c’est que c’est sous licence Apache 2.0 donc en open source.
Pour réussir cette prouesse, ils n’ont pas eu d’autre choix que d’être malins.
Par exemple, ils ont choisi d’utiliser le VAE de Wan 2.1 (qui gère très bien la compression temporelle) pour ne pas réinventer la roue sur cette partie. Leur vision en fait, c’est de voir ces modèles comme des "moteurs de rendu inversés". Au lieu de placer des polygones et des lumières comme dans Blender, vous décrivez la scène et le modèle fait le reste.
Linum est un modèle encore jeune et la physique est parfois aux fraises puis ça manque de son mais pour une équipe de deux personnes face à des boîtes qui ont des milliards de budget, le résultat est plutôt pas mal. Faut saluer le taf !
Donc si vous avez une machine qui tient la route (ou un bon cloud) et quelques compétences techniques, sachez que les poids sont disponibles sur
Hugging Face si ça vous chauffe
.
Source : korben.info