Essais sur les agents IA
Un agent, c'est un modèle à qui on a donné des outils et la latitude de décider quand les appeler. Cette latitude est exactement ce qui le rend utile — et ce qui rend sa sécurité différente de celle d'une simple fonctionnalité de chat. Le risque ne se mesure plus à ce que le modèle dit, mais à ce qu'il peut faire : chaque outil ajouté élargit le rayon d'action en cas de compromission. Ces essais abordent les agents du point de vue du praticien : le moindre privilège appliqué aux modèles de langage, le sandboxing des appels d'outils sans casser le produit, ce que l'OWASP rate à propos des agents, et les petits rituels de revue qui rattrapent les dérapages avant la production. Le fil conducteur : contraindre la capacité, pas seulement le texte.
Tous les articles → Outil lié : Générateur de modèle de menaces LLM →
La boucle d'agent qui a remplacé mon samedi
Un petit agent bien clôturé qui fait le travail que je redoutais. Ce qui l'a rendu assez fiable pour le laisser tourner seul.
Ce que l'OWASP rate à propos des agents LLM
Le Top 10 est une checklist pour applications web. Les agents ne sont pas des applications web. Voici la colonne que j'ajouterais — et celle que je retirerais discrètement.
Le rayon d'explosion d'un agent doté d'un outil de trop
Chaque outil que vous accordez à un agent est une capacité dont hérite un attaquant. Une méthode pour mesurer les dégâts avant qu'ils n'arrivent.
Écrire des skills que votre agent de code utilisera vraiment
Une skill que l'agent ignore, c'est de la documentation. Une skill qu'il sollicite, c'est du levier. La différence est dans le déclencheur.
Le moindre privilège pour les modèles de langage
Le principe a quarante ans. L'appliquer à un LLM avec accès aux outils, c'est là que ça devient intéressant.
L'injection de prompt indirecte et les documents que tu n'as pas écrits
Les instructions dangereuses ne viennent pas de ton utilisateur. Elles viennent de la page web que ton agent vient de lire.
Les trois vérifications que je fais avant de faire confiance à la sortie d'un agent
La vitesse ne vaut rien si vous ne pouvez pas faire confiance au résultat. Une habitude de vérification de 30 secondes qui passe à l'échelle.
Comment j'empêche un binôme IA de réécrire la moitié du dépôt
Discipline de périmètre pour les agents : petits diffs, barrières serrées et une boucle de relecture qui repère la dérive tôt.
Transformer un runbook en agent en un après-midi
Si un humain peut suivre les étapes, un agent le peut généralement aussi — avec les bons garde-fous sur les étapes dangereuses.
Fichiers mémoire : donner à ton agent un cerveau de travail à court terme
Une convention de fichiers simple qui permet à un agent de se souvenir des décisions au fil d'une session sans tout relire.
Secrets, outils, et l'agent qui a lu votre fichier env
Donnez un accès shell à un agent et vos secrets ne sont plus qu'à un prompt astucieux. Des schémas de confinement qui tiennent.
Sandboxer les appels d'outils sans tuer le produit
Une isolation trop stricte ne livre rien ; trop lâche, elle livre des incidents. Trouver la juste ligne.
Apprendre à un agent les conventions de votre équipe
La façon la plus rapide d'obtenir une sortie utilisable est d'encoder les règles non écrites que l'agent ne cesse de deviner.