Le streaming des réponses est une décision d'UX, pas de transport
Par Ulrich Dohou, AI Engineer à Paris
J’ai livré assez de fonctionnalités IA pour savoir que la démo est la partie facile. La démo tourne une fois, sur un cache chaud, avec un prompt amical, pendant que tout le monde regarde. La production tourne dix mille fois par jour sur des entrées que personne n’avait anticipées.
La partie que personne ne budgétise
La première chose que je fais désormais, c’est écrire l’éval avant la fonctionnalité. Pas une suite exhaustive — juste une douzaine de cas qui encodent ce que « bon » signifie pour ce travail précis. Ça ressemble à de la surcharge jusqu’au jour où une mise à jour du modèle change silencieusement la sortie et que l’éval est la seule chose qui le remarque.
La dégradation propre est une décision de conception que vous prenez avant la panne, pas pendant. Décidez dès maintenant de ce que fait la fonctionnalité quand le modèle est lent, en panne ou dans l’erreur, et le mauvais jour devient un non-événement au lieu d’un incident.
Une checklist avant le lancement
Le coût est une fonction des tokens, et les tokens sont une fonction des décisions que vous prenez dans le code. Le contexte que vous attachez, les retries que vous autorisez, la verbosité que vous demandez — chacun est une molette, et la plupart des équipes livrent avec toutes les molettes au maximum parce que personne n’a regardé.
La discipline ennuyeuse
La latence, c’est surtout ce que vous faites pendant l’attente. Streamez quand l’utilisateur lit, parallélisez quand les appels sont indépendants, et mettez en cache les parties qui ne changent pas. La vitesse brute du modèle est la partie que vous contrôlez le moins.
Le déploiement, c’est là que la bonne ingénierie est défaite par l’impatience. Derrière un flag, vers une cohorte, avec une métrique en laquelle vous avez confiance et un interrupteur d’arrêt que vous avez réellement testé — c’est la différence entre livrer et parier.
Rien de tout cela n’est exotique. C’est la plomberie peu glamour qui décide si une fonctionnalité IA est un atout ou un risque six mois après le post de lancement. Livrez la plomberie.
Abonnez-vous pour recevoir l'article de vendredi prochain ci-dessous.
Un e-mail · le vendredi · désabonnement à tout moment