Déployer l'IA.
Architecture, évaluations, latence, coût et déploiement — la plomberie ingrate qui décide si une fonctionnalité IA survit au contact de la production.
L'éval que vous avez sautée est le bug que vous avez livré
Les évals ressemblent à une corvée jusqu'à ce que la première régression silencieuse atteigne un client. Voici le harnais le moins cher qui l'aurait attrapée.
Ce que l'OWASP rate à propos des agents LLM
Le Top 10 est une checklist pour applications web. Les agents ne sont pas des applications web. Voici la colonne que j'ajouterais — et celle que je retirerais discrètement.
La latence est une fonctionnalité, pas une note de bas de page
Les utilisateurs ne lisent pas ton p50. Ils ressentent ton p95. Un guide pratique pour rendre une fonctionnalité LLM rapide.
J'ai livré une fonctionnalité IA le vendredi. Le lundi, c'était un risque juridique.
Un post-mortem de deux semaines sur le fait d'aller vite avec un LLM, et les quatre garde-fous sans lesquels je ne livrerai plus.
Ce que coûte réellement une fonctionnalité LLM sur un an
Une lecture ligne par ligne de la facture que personne ne modélise avant le lancement — tokens, retries, évals et la longue traîne des abus.
Votre logique de retry vous ment
Les retries naïfs transforment une requête lente en trois et appellent ça de la résilience. Quoi faire à la place.
Le streaming des réponses est une décision d'UX, pas de transport
Quand streamer, quand attendre, et pourquoi ce choix appartient autant au produit qu'à l'ingénierie.
Déployer une fonctionnalité IA sans rollback un vendredi
Flags, cohortes et la discipline ennuyeuse qui permet de livrer un mardi et de dormir tranquille un vendredi.
Mettre en cache les prompts : les 30 % les moins chers que vous laissez passer
La mise en cache des prompts est cette rare optimisation qui réduit à la fois le coût et la latence. Un guide de terrain pour la faire sans danger.
Pourquoi votre latence p95 a doublé après le lancement
Ça marchait en staging parce que le staging n'a jamais eu de cache froid, de voisin bruyant ou de vrai prompt. Une histoire de debug.
La fenêtre de contexte est un budget, dépensez-la délibérément
Chaque token que vous entassez dans le contexte est un token que vous payez et un token qui peut distraire le modèle. Budgétiser vaut mieux qu'entasser.
Construire un harnais d'évaluation avant de construire la fonctionnalité
Les tests d'abord, mais pour des systèmes probabilistes. Comment définir le « bon » avant d'avoir écrit un seul prompt.
Fallbacks, timeouts et l'art de se dégrader gracieusement
Le modèle sera en panne, lent ou dans l'erreur. Concevez pour cela et la fonctionnalité cesse d'être fragile.
La mise à jour de modèle qui a discrètement cassé la production
Un remplacement de modèle « transparent » a changé la forme de la sortie juste assez pour casser un parseur en aval. Comment mettre à niveau sans sourciller.
Livrer de l'IA derrière un flag en lequel vous pouvez vraiment avoir confiance
Un feature flag n'est utile que si vous pariez le lancement sur l'interrupteur d'arrêt. Rendre les kill switches réels.
Quand fine-tuner, quand prompter, quand laisser tomber
Trois embranchements sur la route et les signaux honnêtes qui vous disent auquel vous êtes.
La comptabilité des tokens pour ceux qui détestent les tableurs
Une méthode au dos de l'enveloppe pour prédire la dépense avant d'avoir livré la moindre requête.