JaiLIP – L'image piégée qui débride les IA qui voient

Md Jueal Mia et Hadi Amini, deux chercheurs de
Florida International University
, ont mis au point une méthode qu’ils ont baptisée JaiLIP qui permet de forger une image capable de contourner les garde-fous des LLM pour les jailbreaker.
Pour cela, ils utilisent 2 techniques en simultanée. La première dit à l’image « reste identique à l’originale, qu’aucun humain ne voie la moindre différence » et la seconde dit « pousse le modèle à cracher la réponse interdite« . Ainsi, en poussant ces 2 curseurs d’un coup, ils obtiennent une photo qui au premier abord a l’air normale mais qui fait dérailler les modèles IA.
Vous, vous repérez un chat, des contours, une scène et vous lui courez derrière pour lui faire des papouilles. L’IA, elle voit une grille de chiffres et des corrélations entre pixels. Du coup sa vie est nulle mais surtout, une retouche minuscule, totalement invisible à votre œil, suffit à déplacer ce qu’elle comprend de l’image.
Sur leurs tests, l’image trafiquée a quasiment doublé la part de réponses dangereuses par rapport à la même image laissée intacte, la toxicité étant mesurée avec des outils standards du domaine. Dans l’un de leurs exemples, ils ont trafiqué une image de signalisation routière qui a permis au modèle ensuite d’expliquer OKLM comment ignorer les règles de circulation et éviter les PV.
Les chercheurs ont testé l’attaque sur deux modèles vision-langage open source, BLIP-2 et MiniGPT-4. GPT-4V, Gemini et les autres gros modèles fermés, eux, n’ont pas été testés dans l’étude. Donc non, contrairement à ce que j’ai pu lire par ci et par là, ce n’est pas une faille prouvée dans ChatGPT ou peu importe l’assistant IA que vous utilisez tous les jours.

Et tromper une IA avec une image bricolée, ça existe depuis une bonne dizaine d’années. Mais la nouveauté de JaiLIP, c’est surtout sa recette d’optimisation. En jouant sur les deux pertes à la fois, l’image reste plus discrète à l’œil tout en se montrant un cran plus efficace que les bidouilles précédentes.
Et ce genre de détournement nous concerne tous parce que des modèles qui regardent des images, il y en a partout maintenant. Les agents IA qui bossent à partir de captures d’écran, les assistants à qui vous balancez vos photos, sans oublier la modération automatique qui trie les images avant publication. À cause de ça, l’image est dorénavant un canal d’attaque, exactement comme l’était déjà le texte…
On l’a vu avec
le son inaudible qui pirate les assistants vocaux
, on l’a vu avec
les IA qu’on manipule sans qu’elles s’en aperçoivent
, et c’est toujours la même logique qui revient. Ce n’est pas parce qu’en tant qu’humain, nous ne percevons rien, que l’IA elle n’est pas capable de capter le message 5/5.
Le cousin de cette attaque, côté perception, c’est par exemple
le sticker qui trompe une voiture autonome
. Et côté parade, nos chercheurs esquissent une piste légère : virer au hasard 10 à 30% des mots passés en entrée, histoire de casser l’attaque sans réentraîner le modèle.
Prometteur d’après eux, mais c’est pas encore une solution blindée. Pour le reste, leurs conseils tiennent du bon sens : Ne passez pas d’infos sensibles en image à un modèle, limitez qui peut envoyer des images à vos systèmes, et auditez sérieusement la sécurité avant de mettre un VLM en prod.
C’est pas le graal mais c’est mieux que rien. Bref méfiez vous des images que vous donnez à vos IA. On ne sait jamais.
Source :
le papier JaiLIP sur arXiv
Source : korben.info