Essais sur l'architecture de l'IA en production
Une architecture IA en production n'est pas une fonctionnalité à boulonner sur le système existant — c'est un sous-système avec ses propres modes d'échec, ses propres trade-offs, et ses propres invariants. Ces essais traitent les décisions structurelles qui rendent un système LLM tenable au-delà du démo : la séparation décision (modèle) / exécution (code), le streaming comme décision d'UX plutôt que de transport, les fallbacks et timeouts comme art de la dégradation gracieuse, et l'observabilité conçue dès le départ plutôt que rétro-fittée. Le fil conducteur : ce qui distingue une fonctionnalité LLM qui tient un an de production d'une qui finit en post-mortem, ce n'est pas le modèle — c'est l'architecture posée autour. À lire pour qui ship du LLM en production et veut éviter les classiques que l'écosystème a déjà documentés à ses dépens.
Mémoire partagée entre agents IA : la fragmentation est un choix
Mémoire partagée entre agents IA, Claude Code, Codex, assistant perso : ce que la fragmentation coûte vraiment, et la version pragmatique d'une couche commune.
Dynamic Workflows dans Claude Code : ce que change l'orchestration externalisée
Dynamic Workflows dans Claude Code : architecture, cas d'usage Bun, coûts, limites, pourquoi externaliser le plan d'orchestration change la nature des agents.
Le prompt est le nouveau périmètre
Les LLM ont avalé la frontière de confiance. Ce qui la remplace n'est pas une autre boîte, c'est une discipline de séparation des privilèges.
Ce que coûte réellement une fonctionnalité LLM sur un an
Une lecture ligne par ligne de la facture que personne ne modélise avant le lancement, tokens, retries, évals et la longue traîne des abus.
Ton pipeline RAG est un adjoint confus
Un article de 1988 sur le problème du confused deputy en dit plus sur les pipelines RAG modernes que la plupart des posts de 2024.
Le moindre privilège pour les modèles de langage
Le principe a quarante ans. L'appliquer à un LLM avec accès aux outils, c'est là que ça devient intéressant, et non trivial.
Votre logique de retry vous ment
Les retries naïfs transforment une requête lente en trois requêtes lentes et appellent ça de la résilience. Ce qu'il faut faire à la place.
Le streaming des réponses est une décision d'UX, pas de transport
Quand streamer, quand attendre, et pourquoi ce choix appartient autant au produit qu'à l'ingénierie. Trois patterns et leurs compromis.
Fallbacks, timeouts et l'art de se dégrader gracieusement
Le modèle sera en panne, lent ou dans l'erreur. Concevez pour cela avant la panne et la fonctionnalité cesse d'être fragile.