Ensayos
Sobre desarrollo multi-LLM, observabilidad de agentes de IA, detección de regresiones, optimización de costos e ingeniería de contexto. Escritos, en general, mientras depuramos agentes en producción y notamos patrones. Por el equipo que construye ATO.
-
Reconstruí el LLM Council de Karpathy con tool calls y registro de auditoría
Karpathy publicó llm-council en noviembre del año pasado — 18,7k estrellas, y luego se retiró explícitamente (“no voy a darle soporte”). Misma primitiva, forma distinta: auth multi-proveedor (sin atadura con OpenRouter), tool calls para que los LLMs verifiquen afirmaciones en tu repositorio, agentes especialistas persistentes, y un registro de auditoría que sale en markdown listo para pegar en tu PR.
-
¿Por qué el desarrollo multi-LLM sigue siendo tan doloroso en 2026?
Modelos distintos lideran en tareas distintas — los benchmarks lo muestran claramente. Entonces, ¿por qué la mayoría de los equipos siguen eligiendo uno y usándolo para todo? Una mirada a las diferencias de SWE-bench / MMLU / HumanEval, la brecha de tooling, y cómo son los flujos multi-LLM reales.
-
Cómo entender, de verdad, si un nuevo LLM es mejor
Los proveedores publican scores de benchmarks. Esos scores te dicen algo, pero no todo lo que necesitas. Un recorrido por MMLU, HumanEval, GSM8K, tu propia intuición mientras desarrollas, y qué hacer cuando ya tienes usuarios reales usando tu agente.
-
¿Por qué mi agente de IA empeora sin que nadie cambie nada?
Los modelos cambian. Los prompts cambian. El contexto cambia. La calidad va derivando y te enteras por la queja de un usuario dos semanas después. El estudio de drift temporal de Stanford, las cinco causas de regresión silenciosa, qué monitorear de verdad, y los thresholds que importan.
-
Qué falta cuando el monitoreo tradicional se encuentra con los agentes de IA
El APM tradicional te dice que la API tuvo éxito. La observabilidad de agentes de IA tiene que decirte si la respuesta fue correcta, qué agente tocó qué archivo, y cómo detener al que está atascado. Las cinco preguntas que el APM no responde.
-
¿Por qué mi cuenta de IA no para de crecer?
El costo de los LLMs parece arbitrario porque la mayoría de los equipos no lo instrumentan. Un recorrido por los precios publicados por millón de tokens, por qué las cuentas crecen más rápido que el uso, y qué monitorear antes de que el CFO pregunte.
-
¿Qué separa a los agentes de IA en producción de los demos?
Un agente de demo tiene un prompt. Un agente de producción tiene variables, hooks de contexto, políticas de memoria, evaluators y modelos por tarea. La migración de prompt engineering hacia context engineering, con la literatura detrás (Lost in the Middle, Building Effective Agents de Anthropic).
-
Lo que entregamos: ATO se convierte en la capa de ops para agentes multi-runtime
Doce releases en dos días. Replay de cualquier prompt en otro runtime, regresiones detectadas antes de que las vea el usuario, costos recortados sin perder calidad. Las notas de release de la v2.1 de ATO.