¿Por qué tu API de LLM es lenta? El trade-off oculto entre broker y cliente
El rendimiento de la API de LLM es un factor crítico en el diseño de aplicaciones. Los desarrolladores a menudo optimizan el throughput aumentando el número de solicitudes paralelas al servidor. Mientras que esto mejora el throughput del servidor (solicitudes por segundo), aumenta la latencia (tiempo por solicitud) debido a la contención de recursos en el servidor. El cliente debe esperar más por cada solicitud, aunque el servidor esté manejando más solicitudes en total.
Por qué nos importa: Los desarrolladores de Brown y equipos a menudo enfrentan este trade-off al construir aplicaciones que usan APIs de LLM. Optimizar por throughput puede conducir a experiencias de usuario más lentas y clientes insatisfechos. La solución es simple: perfillear el rendimiento de la API y ajustar el nivel de concurrencia según las necesidades de la aplicación (throughput o latencia). Pero muchos equipos no perfillean y terminan con rendimiento subóptimo.
“Profiling is the key — you don't know what you don't measure.”