ulrich.dev

Essais sur l'architecture de l'IA en production

Une architecture IA en production n'est pas une fonctionnalité à boulonner sur le système existant — c'est un sous-système avec ses propres modes d'échec, ses propres trade-offs, et ses propres invariants. Ces essais traitent les décisions structurelles qui rendent un système LLM tenable au-delà du démo : la séparation décision (modèle) / exécution (code), le streaming comme décision d'UX plutôt que de transport, les fallbacks et timeouts comme art de la dégradation gracieuse, et l'observabilité conçue dès le départ plutôt que rétro-fittée. Le fil conducteur : ce qui distingue une fonctionnalité LLM qui tient un an de production d'une qui finit en post-mortem, ce n'est pas le modèle — c'est l'architecture posée autour. À lire pour qui ship du LLM en production et veut éviter les classiques que l'écosystème a déjà documentés à ses dépens.

Tous les articles →

Productivité avec l'IA · 3 juin 2026 · 5 min de lecture

Mémoire partagée entre agents IA : la fragmentation est un choix

Mémoire partagée entre agents IA, Claude Code, Codex, assistant perso : ce que la fragmentation coûte vraiment, et la version pragmatique d'une couche commune.

Livrer l'IA · 1 juin 2026 · 22 min de lecture

Dynamic Workflows dans Claude Code : ce que change l'orchestration externalisée

Dynamic Workflows dans Claude Code : architecture, cas d'usage Bun, coûts, limites, pourquoi externaliser le plan d'orchestration change la nature des agents.

Fiabilité de l'IA · 29 avr. 2026 · 14 min de lecture

Le prompt est le nouveau périmètre

Les LLM ont avalé la frontière de confiance. Ce qui la remplace n'est pas une autre boîte, c'est une discipline de séparation des privilèges.

Livrer l'IA · 8 avr. 2026 · 8 min de lecture

Ce que coûte réellement une fonctionnalité LLM sur un an

Une lecture ligne par ligne de la facture que personne ne modélise avant le lancement, tokens, retries, évals et la longue traîne des abus.

Fiabilité de l'IA · 30 mars 2026 · 13 min de lecture

Ton pipeline RAG est un adjoint confus

Un article de 1988 sur le problème du confused deputy en dit plus sur les pipelines RAG modernes que la plupart des posts de 2024.

Fiabilité de l'IA · 23 mars 2026 · 7 min de lecture

Le moindre privilège pour les modèles de langage

Le principe a quarante ans. L'appliquer à un LLM avec accès aux outils, c'est là que ça devient intéressant, et non trivial.

Livrer l'IA · 9 mars 2026 · 7 min de lecture

Votre logique de retry vous ment

Les retries naïfs transforment une requête lente en trois requêtes lentes et appellent ça de la résilience. Ce qu'il faut faire à la place.

Livrer l'IA · 4 mars 2026 · 6 min de lecture

Le streaming des réponses est une décision d'UX, pas de transport

Quand streamer, quand attendre, et pourquoi ce choix appartient autant au produit qu'à l'ingénierie. Trois patterns et leurs compromis.

Livrer l'IA · 31 oct. 2025 · 7 min de lecture

Fallbacks, timeouts et l'art de se dégrader gracieusement

Le modèle sera en panne, lent ou dans l'erreur. Concevez pour cela avant la panne et la fonctionnalité cesse d'être fragile.