ulrich.dev

La latence est une fonctionnalité, pas une note de bas de page

Déployer l'IA · · 3 min de lecture

Par , AI Engineer à Paris

Le plus difficile, quand on met un modèle de langage en production, ce n’est pas le modèle. C’est tout ce qui l’entoure — les retries, les timeouts, le cache, la lente dérive des coûts — qui décide si la chose survit au contact du trafic réel.

Une checklist avant le lancement

La première chose que je fais désormais, c’est écrire l’éval avant la fonctionnalité. Pas une suite exhaustive — juste une douzaine de cas qui encodent ce que « bon » veut dire pour ce travail précis. Ça ressemble à de la surcharge jusqu’au jour où une mise à jour du modèle change silencieusement la sortie, et où l’éval est la seule chose qui s’en aperçoit.

La discipline ennuyeuse

Le coût est fonction des tokens, et les tokens sont fonction des décisions que tu prends dans le code. Le contexte que tu attaches, les retries que tu autorises, la verbosité que tu demandes — chacun est un curseur, et la plupart des équipes livrent avec tous les curseurs poussés au maximum parce que personne n’a regardé.

Je traite chaque réponse du modèle comme non fiable jusqu’à preuve du contraire. Parse-la, valide-la, et prévois un plan pour le moment où elle ne correspondra pas à la forme attendue — parce qu’à un moment, elle ne correspondra pas, et le parser en aval n’a aucun sens de l’humour.

Là où ça casse

La latence, c’est surtout ce que tu fais pendant l’attente. Stream quand l’utilisateur lit, parallélise quand les appels sont indépendants, et mets en cache les parties qui ne changent pas. La vitesse brute du modèle est la part que tu contrôles le moins.

Ce que je fais à la place

La dégradation gracieuse est une décision de conception que tu prends avant la panne, pas pendant. Décide maintenant ce que fait la fonctionnalité quand le modèle est lent, indisponible ou faux, et le mauvais jour devient un non-événement plutôt qu’un incident.

La première chose que je fais désormais, c’est écrire l’éval avant la fonctionnalité. Pas une suite exhaustive — juste une douzaine de cas qui encodent ce que « bon » veut dire pour ce travail précis. Ça ressemble à de la surcharge jusqu’au jour où une mise à jour du modèle change silencieusement la sortie, et où l’éval est la seule chose qui s’en aperçoit.

Rien de tout cela n’est exotique. C’est la plomberie peu glorieuse qui décide si une fonctionnalité IA est un atout ou un fardeau six mois après le post de lancement. Livre la plomberie.

Abonnez-vous pour recevoir l'article de vendredi prochain ci-dessous.

Un e-mail · le vendredi · désabonnement à tout moment