ulrich.dev

Pourquoi les allow-lists battent les prompts de garde-fou

Sécurité de l'IA · · 3 min de lecture

Par , AI Engineer à Paris

Les gens de la sécurité ont un vocabulaire pour ce genre de problème qui précède les modèles de langage de plusieurs décennies. L’ennui, c’est que le nouveau système ne ressemble pas aux anciens, donc le vocabulaire n’est appliqué qu’après que quelque chose a cassé.

Mesurer le rayon d’impact

Le moindre privilège est le contrôle le moins cher dont vous disposez. Un agent qui ne peut faire que trois choses ne peut être manipulé pour en faire que trois. L’instinct d’accorder de larges capacités « pour être tranquille » est exactement à l’envers.

Quoi journaliser

La journalisation est le contrôle que personne n’apprécie jusqu’à la revue d’incident. Si vous ne pouvez pas rejouer précisément ce que le modèle a vu — system prompt, historique, contexte récupéré, appels d’outils — vous n’enquêtez pas, vous devinez.

Le modèle mental le plus utile est la frontière de confiance. Tracez une ligne autour des choses que vous contrôlez. Tout ce qui franchit cette ligne — entrée utilisateur, documents récupérés, sortie d’outil, la réponse du modèle lui-même — est non fiable jusqu’à ce que vous ayez fait quelque chose de délibéré pour lui faire confiance.

Les questions que je pose en premier

L’instruction dangereuse vient rarement de l’utilisateur que vous surveillez. Elle vient de la page web que l’agent a récupérée, du document qu’il a consulté, du ticket qu’il a résumé. L’injection indirecte est le mode de défaillance qui surprend le plus les équipes.

La frontière a bougé

Le traitement des sorties est là où les vieilles vulnérabilités web reviennent habillées de neuf. Le texte du modèle devient le HTML, le SQL ou la commande shell de quelqu’un d’autre. Traitez-le comme l’entrée non fiable qu’il est, et les défenses familières s’appliquent toujours.

Le moindre privilège est le contrôle le moins cher dont vous disposez. Un agent qui ne peut faire que trois choses ne peut être manipulé pour en faire que trois. L’instinct d’accorder de larges capacités « pour être tranquille » est exactement à l’envers.

L’exploit est rarement astucieux. Le correctif l’est rarement aussi. Tracez la frontière, accordez le minimum, journalisez assez pour pouvoir récupérer, et vous aurez traité la majorité de ce qui arrive réellement.

Abonnez-vous pour recevoir l'article de vendredi prochain ci-dessous.

Un e-mail · le vendredi · désabonnement à tout moment