L'injection de prompt n'est pas une classe de bug, c'est une frontière de confiance

Les gens de la sécurité ont un vocabulaire pour ce genre de problème qui précède les modèles de langage de plusieurs décennies. L’ennui, c’est que le nouveau système ne ressemble pas aux anciens, donc le vocabulaire n’est appliqué qu’après que quelque chose a cassé.

À quoi ressemble un vrai contrôle

Le moindre privilège est le contrôle le moins cher dont tu disposes. Un agent qui ne peut faire que trois choses ne peut être manipulé que pour faire trois choses. L’instinct d’accorder de larges capacités « par sécurité » est exactement à l’envers.

Mesurer le rayon d’impact

Le logging est le contrôle que personne n’apprécie jusqu’à la revue d’incident. Si tu ne peux pas rejouer précisément ce que le modèle a vu — system prompt, historique, contexte récupéré, appels d’outils — tu n’enquêtes pas, tu devines.

Le modèle mental qui aide le plus, c’est la frontière de confiance. Trace une ligne autour des choses que tu contrôles. Tout ce qui franchit cette ligne — l’entrée utilisateur, les documents récupérés, la sortie des outils, la réponse du modèle elle-même — est non fiable jusqu’à ce que tu aies fait quelque chose de délibéré pour lui accorder ta confiance.

Quoi logger

L’instruction dangereuse vient rarement de l’utilisateur que tu surveilles. Elle vient de la page web que l’agent a récupérée, du document qu’il a retrouvé, du ticket qu’il a résumé. L’injection indirecte est le mode de défaillance qui surprend le plus les équipes.

Les questions que je pose en premier

La gestion des sorties, c’est là où les vieilles vulnérabilités web reviennent sous de nouveaux habits. Le texte du modèle devient le HTML, le SQL ou la commande shell de quelqu’un d’autre. Traite-le comme l’entrée non fiable qu’il est, et les défenses familières s’appliquent toujours.

L’exploit est rarement ingénieux. Le correctif l’est rarement aussi. Trace la frontière, accorde le minimum, logge assez pour pouvoir récupérer, et tu auras géré la majorité de ce qui arrive vraiment.