Datadog descubre cómo enrutar las peticiones de LLM entre clusters de Kubernetes
Datadog publicó un análisis profundo de su nueva extensión de inferencia para Kubernetes, que resuelve un problema que ha estado mordiendo en silencio a cualquiera que ejecute LLMs en la vida real: ya no solo envías peticiones a una sola API. Estás manejando OpenAI, Anthropic, tus propios modelos fine-tuned, tal vez una instancia local de Llama 3 — y cada uno tiene costos, latencia y modos de fallo distintos.
La extensión te permite definir reglas de enrutamiento en Kubernetes. Envía una petición al modelo más barato primero, haz failover al más caro si tarda demasiado, enruta prompts pesados en imágenes a un modelo de visión, envía consultas rutinarias a un modelo más pequeño para ahorrar. Puedes controlar esto por servicio, por workload, incluso por usuario. Es básicamente un load balancer que entiende lo que tus modelos realmente pueden hacer.
Datadog ha estado construyendo en esta dirección por un buen tiempo. La compañía empezó como una herramienta de monitoreo para infraestructura, luego se expandió a observabilidad, y ahora está poniendo sus datos de infraestructura a trabajar para la capa de LLM. Las mismas métricas que te dicen que un pod está enfermo son las mismas que te dicen qué endpoint de modelo está rezagado. Los mismos dashboards que atraparon tu deployment fallando ahora atrapan tu API call timeout en una tarde de viernes.
Este es el tipo de trabajo que no hace titulares pero que silenciosamente remodela cómo los equipos construyen. Cuando la inteligencia de enrutamiento vive en tu cluster en lugar de dispersa entre tres clientes de API distintos, dejas de pagar por los errores que sigues cometiendo.
Por qué nos importa: las compañías que construyen estas herramientas son las que deciden qué infraestructura se mantiene, qué costos se mantienen predecibles, y quién queda pagando el caos cuando el enrutamiento falla.
“Dejas de pagar por los errores que sigues cometiendo.”