Le moindre privilège pour les modèles de langage

Je tiens une courte liste des manières dont les fonctionnalités IA déraillent en production. Presque toutes se réduisent à la même cause racine : le système a traité comme fiable quelque chose qu’un attaquant pouvait influencer.

Mesurer le rayon d’impact

Le moindre privilège est le contrôle le moins cher dont tu disposes. Un agent qui ne peut faire que trois choses ne peut être manipulé que pour faire trois choses. L’instinct d’accorder de larges capacités « par sécurité » est exactement à l’envers.

Quoi logger

Le logging est le contrôle que personne n’apprécie jusqu’à la revue d’incident. Si tu ne peux pas rejouer précisément ce que le modèle a vu — system prompt, historique, contexte récupéré, appels d’outils — tu n’enquêtes pas, tu devines.

Le modèle mental qui aide le plus, c’est la frontière de confiance. Trace une ligne autour des choses que tu contrôles. Tout ce qui franchit cette ligne — l’entrée utilisateur, les documents récupérés, la sortie des outils, la réponse du modèle elle-même — est non fiable jusqu’à ce que tu aies fait quelque chose de délibéré pour lui accorder ta confiance.

Les questions que je pose en premier

L’instruction dangereuse vient rarement de l’utilisateur que tu surveilles. Elle vient de la page web que l’agent a récupérée, du document qu’il a retrouvé, du ticket qu’il a résumé. L’injection indirecte est le mode de défaillance qui surprend le plus les équipes.

La frontière a bougé

La gestion des sorties, c’est là où les vieilles vulnérabilités web reviennent sous de nouveaux habits. Le texte du modèle devient le HTML, le SQL ou la commande shell de quelqu’un d’autre. Traite-le comme l’entrée non fiable qu’il est, et les défenses familières s’appliquent toujours.

L’exploit est rarement ingénieux. Le correctif l’est rarement aussi. Trace la frontière, accorde le minimum, logge assez pour pouvoir récupérer, et tu auras géré la majorité de ce qui arrive vraiment.