ulrich.dev

Déployer l'IA.

Architecture, évaluations, latence, coût et déploiement — la plomberie ingrate qui décide si une fonctionnalité IA survit au contact de la production.

Tous les articles →

Déployer l'IA · 29 mai 2026 · 3 min de lecture

L'éval que vous avez sautée est le bug que vous avez livré

Les évals ressemblent à une corvée jusqu'à ce que la première régression silencieuse atteigne un client. Voici le harnais le moins cher qui l'aurait attrapée.

Déployer l'IA · 14 mai 2026 · 11 min de lecture

Ce que l'OWASP rate à propos des agents LLM

Le Top 10 est une checklist pour applications web. Les agents ne sont pas des applications web. Voici la colonne que j'ajouterais — et celle que je retirerais discrètement.

Déployer l'IA · 8 mai 2026 · 3 min de lecture

La latence est une fonctionnalité, pas une note de bas de page

Les utilisateurs ne lisent pas ton p50. Ils ressentent ton p95. Un guide pratique pour rendre une fonctionnalité LLM rapide.

Déployer l'IA · 7 mai 2026 · 9 min de lecture

J'ai livré une fonctionnalité IA le vendredi. Le lundi, c'était un risque juridique.

Un post-mortem de deux semaines sur le fait d'aller vite avec un LLM, et les quatre garde-fous sans lesquels je ne livrerai plus.

Déployer l'IA · 17 avr. 2026 · 3 min de lecture

Ce que coûte réellement une fonctionnalité LLM sur un an

Une lecture ligne par ligne de la facture que personne ne modélise avant le lancement — tokens, retries, évals et la longue traîne des abus.

Déployer l'IA · 27 mars 2026 · 3 min de lecture

Votre logique de retry vous ment

Les retries naïfs transforment une requête lente en trois et appellent ça de la résilience. Quoi faire à la place.

Déployer l'IA · 6 mars 2026 · 3 min de lecture

Le streaming des réponses est une décision d'UX, pas de transport

Quand streamer, quand attendre, et pourquoi ce choix appartient autant au produit qu'à l'ingénierie.

Déployer l'IA · 13 févr. 2026 · 3 min de lecture

Déployer une fonctionnalité IA sans rollback un vendredi

Flags, cohortes et la discipline ennuyeuse qui permet de livrer un mardi et de dormir tranquille un vendredi.

Déployer l'IA · 23 janv. 2026 · 3 min de lecture

Mettre en cache les prompts : les 30 % les moins chers que vous laissez passer

La mise en cache des prompts est cette rare optimisation qui réduit à la fois le coût et la latence. Un guide de terrain pour la faire sans danger.

Déployer l'IA · 2 janv. 2026 · 3 min de lecture

Pourquoi votre latence p95 a doublé après le lancement

Ça marchait en staging parce que le staging n'a jamais eu de cache froid, de voisin bruyant ou de vrai prompt. Une histoire de debug.

Déployer l'IA · 12 déc. 2025 · 3 min de lecture

La fenêtre de contexte est un budget, dépensez-la délibérément

Chaque token que vous entassez dans le contexte est un token que vous payez et un token qui peut distraire le modèle. Budgétiser vaut mieux qu'entasser.

Déployer l'IA · 21 nov. 2025 · 3 min de lecture

Construire un harnais d'évaluation avant de construire la fonctionnalité

Les tests d'abord, mais pour des systèmes probabilistes. Comment définir le « bon » avant d'avoir écrit un seul prompt.

Déployer l'IA · 31 oct. 2025 · 3 min de lecture

Fallbacks, timeouts et l'art de se dégrader gracieusement

Le modèle sera en panne, lent ou dans l'erreur. Concevez pour cela et la fonctionnalité cesse d'être fragile.

Déployer l'IA · 10 oct. 2025 · 3 min de lecture

La mise à jour de modèle qui a discrètement cassé la production

Un remplacement de modèle « transparent » a changé la forme de la sortie juste assez pour casser un parseur en aval. Comment mettre à niveau sans sourciller.

Déployer l'IA · 19 sept. 2025 · 3 min de lecture

Livrer de l'IA derrière un flag en lequel vous pouvez vraiment avoir confiance

Un feature flag n'est utile que si vous pariez le lancement sur l'interrupteur d'arrêt. Rendre les kill switches réels.

Déployer l'IA · 29 août 2025 · 3 min de lecture

Quand fine-tuner, quand prompter, quand laisser tomber

Trois embranchements sur la route et les signaux honnêtes qui vous disent auquel vous êtes.

Déployer l'IA · 8 août 2025 · 3 min de lecture

La comptabilité des tokens pour ceux qui détestent les tableurs

Une méthode au dos de l'enveloppe pour prédire la dépense avant d'avoir livré la moindre requête.