Pourquoi les allow-lists battent les prompts de garde-fou
Par Ulrich Dohou, AI Engineer à Paris
Les gens de la sécurité ont un vocabulaire pour ce genre de problème qui précède les modèles de langage de plusieurs décennies. L’ennui, c’est que le nouveau système ne ressemble pas aux anciens, donc le vocabulaire n’est appliqué qu’après que quelque chose a cassé.
Mesurer le rayon d’impact
Le moindre privilège est le contrôle le moins cher dont vous disposez. Un agent qui ne peut faire que trois choses ne peut être manipulé pour en faire que trois. L’instinct d’accorder de larges capacités « pour être tranquille » est exactement à l’envers.
Quoi journaliser
La journalisation est le contrôle que personne n’apprécie jusqu’à la revue d’incident. Si vous ne pouvez pas rejouer précisément ce que le modèle a vu — system prompt, historique, contexte récupéré, appels d’outils — vous n’enquêtez pas, vous devinez.
Le modèle mental le plus utile est la frontière de confiance. Tracez une ligne autour des choses que vous contrôlez. Tout ce qui franchit cette ligne — entrée utilisateur, documents récupérés, sortie d’outil, la réponse du modèle lui-même — est non fiable jusqu’à ce que vous ayez fait quelque chose de délibéré pour lui faire confiance.
Les questions que je pose en premier
L’instruction dangereuse vient rarement de l’utilisateur que vous surveillez. Elle vient de la page web que l’agent a récupérée, du document qu’il a consulté, du ticket qu’il a résumé. L’injection indirecte est le mode de défaillance qui surprend le plus les équipes.
La frontière a bougé
Le traitement des sorties est là où les vieilles vulnérabilités web reviennent habillées de neuf. Le texte du modèle devient le HTML, le SQL ou la commande shell de quelqu’un d’autre. Traitez-le comme l’entrée non fiable qu’il est, et les défenses familières s’appliquent toujours.
Le moindre privilège est le contrôle le moins cher dont vous disposez. Un agent qui ne peut faire que trois choses ne peut être manipulé pour en faire que trois. L’instinct d’accorder de larges capacités « pour être tranquille » est exactement à l’envers.
L’exploit est rarement astucieux. Le correctif l’est rarement aussi. Tracez la frontière, accordez le minimum, journalisez assez pour pouvoir récupérer, et vous aurez traité la majorité de ce qui arrive réellement.
Abonnez-vous pour recevoir l'article de vendredi prochain ci-dessous.
Un e-mail · le vendredi · désabonnement à tout moment