Modéliser les menaces d'une fonctionnalité LLM en un après-midi

Les gens de la sécurité ont un vocabulaire pour ce genre de problème qui précède les modèles de langage de plusieurs décennies. L’ennui, c’est que le nouveau système ne ressemble pas aux anciens, alors le vocabulaire ne s’applique pas avant que quelque chose ne casse.

Quoi journaliser

Le moindre privilège est le contrôle le moins cher dont vous disposez. Un agent qui ne peut faire que trois choses ne peut être manipulé que pour faire trois choses. L’instinct d’accorder de larges capacités « par sécurité » est exactement l’inverse de ce qu’il faut faire.

Les questions que je pose en premier

La journalisation est le contrôle que personne n’apprécie jusqu’à la revue d’incident. Si vous ne pouvez pas rejouer précisément ce que le modèle a vu — prompt système, historique, contexte récupéré, appels d’outils — vous n’enquêtez pas, vous devinez.

Le modèle mental qui aide le plus, c’est la frontière de confiance. Tracez une ligne autour des choses que vous contrôlez. Tout ce qui franchit cette ligne — entrée utilisateur, documents récupérés, sortie d’outil, la propre réponse du modèle — est non fiable jusqu’à ce que vous ayez fait quelque chose de délibéré pour lui accorder votre confiance.

La frontière s’est déplacée

L’instruction dangereuse vient rarement de l’utilisateur que vous surveillez. Elle vient de la page web que l’agent a récupérée, du document qu’il a retrouvé, du ticket qu’il a résumé. L’injection indirecte est le mode de défaillance qui surprend le plus les équipes.

À quoi ressemble un vrai contrôle

La gestion de la sortie, c’est là que les anciennes vulnérabilités web reviennent sous de nouveaux atours. Le texte du modèle devient le HTML, le SQL ou la commande shell de quelqu’un d’autre. Traitez-le comme l’entrée non fiable qu’il est, et les défenses familières s’appliquent toujours.

L’exploit est rarement astucieux. Le correctif l’est rarement non plus. Tracez la frontière, accordez le minimum, journalisez assez pour pouvoir vous remettre, et vous aurez géré la majorité de ce qui arrive réellement.