ulrich.dev

Essais sur la latence des systèmes IA

La latence d'un système LLM n'est pas un problème d'infrastructure — c'est une décision d'architecture. À partir d'un certain seuil, l'attente n'est plus une attente, c'est une régression d'UX. Et le réflexe naturel — ajouter un retry, augmenter le timeout, mettre du caching — masque souvent un problème plus profond : que faire quand le modèle prend trois fois plus de temps que prévu. Ces essais traitent les trade-offs concrets : streaming comme choix UX plutôt que de transport, fallbacks et timeouts comme art de la dégradation gracieuse, fast mode et son rapport coût-vitesse, et la logique de retry qui ment quand elle compte ce qu'elle ne devrait pas compter. À lire pour qui ship un produit où la latence est une feature à part entière.

Tous les articles →