Blog

Ensayos

Sobre desarrollo multi-LLM, observabilidad de agentes de IA, detección de regresiones, optimización de costos e ingeniería de contexto. Escritos, en general, mientras depuramos agentes en producción y notamos patrones. Por el equipo que construye ATO.

    El contenido completo de los posts sigue en inglés — traducción en curso. Para leer ahora, abre la versión en inglés de cada artículo en el enlace de abajo.
  

2026-05-13 · Multi-LLM · 8 min de lectura · en inglés

Reconstruí el LLM Council de Karpathy con tool calls y registro de auditoría

Karpathy publicó llm-council en noviembre del año pasado — 18,7k estrellas, y luego se retiró explícitamente (“no voy a darle soporte”). Misma primitiva, forma distinta: auth multi-proveedor (sin atadura con OpenRouter), tool calls para que los LLMs verifiquen afirmaciones en tu repositorio, agentes especialistas persistentes, y un registro de auditoría que sale en markdown listo para pegar en tu PR.
2026-05-10 · Multi-LLM · 9 min de lectura · en inglés

¿Por qué el desarrollo multi-LLM sigue siendo tan doloroso en 2026?

Modelos distintos lideran en tareas distintas — los benchmarks lo muestran claramente. Entonces, ¿por qué la mayoría de los equipos siguen eligiendo uno y usándolo para todo? Una mirada a las diferencias de SWE-bench / MMLU / HumanEval, la brecha de tooling, y cómo son los flujos multi-LLM reales.
2026-05-10 · Evaluación de LLM · 9 min de lectura · en inglés

Cómo entender, de verdad, si un nuevo LLM es mejor

Los proveedores publican scores de benchmarks. Esos scores te dicen algo, pero no todo lo que necesitas. Un recorrido por MMLU, HumanEval, GSM8K, tu propia intuición mientras desarrollas, y qué hacer cuando ya tienes usuarios reales usando tu agente.
2026-05-10 · Evaluación de LLM · 9 min de lectura · en inglés

¿Por qué mi agente de IA empeora sin que nadie cambie nada?

Los modelos cambian. Los prompts cambian. El contexto cambia. La calidad va derivando y te enteras por la queja de un usuario dos semanas después. El estudio de drift temporal de Stanford, las cinco causas de regresión silenciosa, qué monitorear de verdad, y los thresholds que importan.
2026-05-10 · AI Engineering · 8 min de lectura · en inglés

Qué falta cuando el monitoreo tradicional se encuentra con los agentes de IA

El APM tradicional te dice que la API tuvo éxito. La observabilidad de agentes de IA tiene que decirte si la respuesta fue correcta, qué agente tocó qué archivo, y cómo detener al que está atascado. Las cinco preguntas que el APM no responde.
2026-05-10 · Costos LLM · 8 min de lectura · en inglés

¿Por qué mi cuenta de IA no para de crecer?

El costo de los LLMs parece arbitrario porque la mayoría de los equipos no lo instrumentan. Un recorrido por los precios publicados por millón de tokens, por qué las cuentas crecen más rápido que el uso, y qué monitorear antes de que el CFO pregunte.
2026-05-10 · Arquitectura de IA · 9 min de lectura · en inglés

¿Qué separa a los agentes de IA en producción de los demos?

Un agente de demo tiene un prompt. Un agente de producción tiene variables, hooks de contexto, políticas de memoria, evaluators y modelos por tarea. La migración de prompt engineering hacia context engineering, con la literatura detrás (Lost in the Middle, Building Effective Agents de Anthropic).
2026-05-10 · Producto / Release · 6 min de lectura · en inglés

Lo que entregamos: ATO se convierte en la capa de ops para agentes multi-runtime

Doce releases en dos días. Replay de cualquier prompt en otro runtime, regresiones detectadas antes de que las vea el usuario, costos recortados sin perder calidad. Las notas de release de la v2.1 de ATO.

Ensayos

Reconstruí el LLM Council de Karpathy con tool calls y registro de auditoría

¿Por qué el desarrollo multi-LLM sigue siendo tan doloroso en 2026?

Cómo entender, de verdad, si un nuevo LLM es mejor

¿Por qué mi agente de IA empeora sin que nadie cambie nada?

Qué falta cuando el monitoreo tradicional se encuentra con los agentes de IA

¿Por qué mi cuenta de IA no para de crecer?

¿Qué separa a los agentes de IA en producción de los demos?

Lo que entregamos: ATO se convierte en la capa de ops para agentes multi-runtime