Essais sur l'injection de prompt
L'injection de prompt est la première entrée du Top 10 OWASP pour les applications LLM (LLM01) — et la plus persistante, parce qu'elle n'est pas un bug à corriger mais une conséquence de la façon dont les modèles traitent le texte. Quand l'instruction et la donnée empruntent le même canal, tout contenu que le modèle lit peut tenter de devenir une instruction : un message utilisateur, un document récupéré, une page web. Ces essais traitent l'injection comme une question de frontière de confiance plutôt que de formulation : pourquoi un prompt système ne tient pas lieu de contrôle, comment l'injection indirecte arrive par des documents que vous n'avez pas écrits, et quels contrôles — allow-lists, séparation des privilèges, validation hors du modèle — déplacent réellement le risque. À lire en regard de MITRE ATLAS pour les tactiques adverses correspondantes.
Tous les articles → Outil lié : Testeur d'injection de prompt →
L'injection de prompt n'est pas une classe de bug, c'est une frontière de confiance
Arrête de corriger les jailbreaks un par un. Trace correctement la frontière et la plupart cessent d'avoir de l'importance.
Le prompt est le nouveau périmètre
Vingt ans de pensée pare-feu nous ont appris à tracer un cercle autour des choses auxquelles nous faisons confiance. Les LLM ont avalé le cercle. Ce qui le remplace n'est pas une autre boîte — c'est une discipline.
Votre system prompt n'est pas un contrôle de sécurité
« Ne révèle pas le system prompt » est une requête polie, pas une frontière. À quoi ressemble un vrai contrôle.
L'injection de prompt indirecte et les documents que tu n'as pas écrits
Les instructions dangereuses ne viennent pas de ton utilisateur. Elles viennent de la page web que ton agent vient de lire.
Exfiltration de données via un assistant serviable
L'assistant n'a pas divulgué les données par malveillance. Il était simplement serviable envers la mauvaise personne.