28/06/2026

JaiLIP – L'image piégée qui débride les IA qui voient

Par admin

Md Jueal Mia et Hadi Amini, deux chercheurs de
Florida International University
, ont mis au point une méthode qu’ils ont baptisée JaiLIP qui permet de forger une image capable de contourner les garde-fous des LLM pour les jailbreaker.

Pour cela, ils utilisent 2 techniques en simultanée. La première dit à l’image « reste identique à l’originale, qu’aucun humain ne voie la moindre différence » et la seconde dit « pousse le modèle à cracher la réponse interdite« . Ainsi, en poussant ces 2 curseurs d’un coup, ils obtiennent une photo qui au premier abord a l’air normale mais qui fait dérailler les modèles IA.

Vous, vous repérez un chat, des contours, une scène et vous lui courez derrière pour lui faire des papouilles. L’IA, elle voit une grille de chiffres et des corrélations entre pixels. Du coup sa vie est nulle mais surtout, une retouche minuscule, totalement invisible à votre œil, suffit à déplacer ce qu’elle comprend de l’image.

Sur leurs tests, l’image trafiquée a quasiment doublé la part de réponses dangereuses par rapport à la même image laissée intacte, la toxicité étant mesurée avec des outils standards du domaine. Dans l’un de leurs exemples, ils ont trafiqué une image de signalisation routière qui a permis au modèle ensuite d’expliquer OKLM comment ignorer les règles de circulation et éviter les PV.

Les chercheurs ont testé l’attaque sur deux modèles vision-langage open source, BLIP-2 et MiniGPT-4. GPT-4V, Gemini et les autres gros modèles fermés, eux, n’ont pas été testés dans l’étude. Donc non, contrairement à ce que j’ai pu lire par ci et par là, ce n’est pas une faille prouvée dans ChatGPT ou peu importe l’assistant IA que vous utilisez tous les jours.

Et tromper une IA avec une image bricolée, ça existe depuis une bonne dizaine d’années. Mais la nouveauté de JaiLIP, c’est surtout sa recette d’optimisation. En jouant sur les deux pertes à la fois, l’image reste plus discrète à l’œil tout en se montrant un cran plus efficace que les bidouilles précédentes.

Et ce genre de détournement nous concerne tous parce que des modèles qui regardent des images, il y en a partout maintenant. Les agents IA qui bossent à partir de captures d’écran, les assistants à qui vous balancez vos photos, sans oublier la modération automatique qui trie les images avant publication. À cause de ça, l’image est dorénavant un canal d’attaque, exactement comme l’était déjà le texte…

On l’a vu avec
le son inaudible qui pirate les assistants vocaux
, on l’a vu avec
les IA qu’on manipule sans qu’elles s’en aperçoivent
, et c’est toujours la même logique qui revient. Ce n’est pas parce qu’en tant qu’humain, nous ne percevons rien, que l’IA elle n’est pas capable de capter le message 5/5.

Le cousin de cette attaque, côté perception, c’est par exemple
le sticker qui trompe une voiture autonome
. Et côté parade, nos chercheurs esquissent une piste légère : virer au hasard 10 à 30% des mots passés en entrée, histoire de casser l’attaque sans réentraîner le modèle.

Prometteur d’après eux, mais c’est pas encore une solution blindée. Pour le reste, leurs conseils tiennent du bon sens : Ne passez pas d’infos sensibles en image à un modèle, limitez qui peut envoyer des images à vos systèmes, et auditez sérieusement la sécurité avant de mettre un VLM en prod.

C’est pas le graal mais c’est mieux que rien. Bref méfiez vous des images que vous donnez à vos IA. On ne sait jamais.

Source :
le papier JaiLIP sur arXiv

Source : korben.info

Windows 11 prend encore plus de place sur votre PC, mais c’est pour une bonne raison

La nouvelle fonction de restauration de Windows 11 est arrivée. Mais selon Microsoft, celle-ci s’accompagne d’une occupation conséquente de l’espace de stockage de votre PC. On fait le point. Si…

GTA 6 prépare ses versions physiques, Android Auto perd une application phare, c’est le récap’ de la semaine

Le très attendu jeu de Rockstar prévoit des boîtes avec disque, un outil de lecture vidéo tire sa révérence dans nos véhicules, la dalle protectrice du Galaxy S26 Ultra donne……

Les Soldes d’été 2026 sont enfin là : les meilleures offres sont dans notre sélection et elles sont à saisir dès maintenant

Le top départ des Soldes est lancé et, cette année encore, les prix cassés sont au rendez-vous. Durant ce marathon de bons plans, de nombreuses marques et enseignes bradent les……

Ce badge télépéage est gratuit pendant 12 mois grâce à cette offre exclusive

À l’approche des vacances d’été, l’opérateur Fulli vous permet de passer les péages plus rapidement sur l’autoroute, et de manière gratuite, grâce à une promotion sur son offre Nomade. Le……

Une PS6 a plus de 1 000 € ? Sony pourrait faire exploser le prix de sa prochaine console

La prochaine console de Sony pourrait se vendre à prix d’or. La hausse des prix des composants, associée à la crise de la RAM, pourrait en effet faire grimper le……

JaiLIP – L'image piégée qui débride les IA qui voient

Laisser un commentaire Annuler la réponse