// compara cualquier IA · guarda los recibos ↓
Ejecuta cualquier IA en tu tarea real — ve cuál la resolvió más barato y mejor, con recibos. Un comando para Claude, Codex, Gemini, Grok, MiniMax o cualquiera de los más de 20 runtimes soportados. Ejecutan el mismo prompt en una sola sesión compartida, llaman herramientas reales (read_file, grep, git_log) para verificar afirmaciones en tu repositorio, y producen un registro de auditoría firmado con costo, tokens y recibos de cada tool call. Úsalo desde la GUI, la CLI o tu coding agent vía MCP — los mismos datos, el mismo registro. Local-first. MIT. Trae tus propias claves.
Pegas la misma pregunta en Claude, GPT, Gemini, una pestaña a la vez. Cada uno empieza de cero. Ninguno ve lo que dijeron los demás. El desacuerdo que debería ser la señal queda enterrado en tu historial de copy-paste.
La mayoría de las herramientas de debate multi-LLM no leen tu repositorio, no hacen grep, no verifican una sola afirmación antes de hilvanar las respuestas. Son vibes-as-a-service — ingenioso, pero sin forma de verificar.
Recibes una respuesta, la lees, sigues adelante. Sin registro de qué LLM hizo qué afirmación, sin forma de citar “confirmado por GPT, refutado por Claude,” sin markdown para pegar en un PR. El recibo es el artefacto — y falta.
Cada dispatch multi-LLM cae en tu SQLite local como una sesión que puedes revisar después. Cada fila lleva un resumen auto-generado, los runtimes que hablaron, las personas (cuando usaste --agent), tags y un session id que puedes pasar a ato sessions get desde tu terminal. Sin cuentas, sin round-trip a la nube — todo en la máquina del desarrollador.
ato review --reviewer @security-specialist --reviewer @perf-reviewer --reviewer claude --reviewer minimax • Function-calling tools (read_file, grep, git_log) • Agentes especialistas persistentes con system prompts • Registro de auditoría por turno en la GUI — badges “verificado-vía-N-tool-calls” vs “solo prompt” • Modo lean fuerza a los LLMs a recorrer el repositorio real
run_agent.@reviewer de Sonnet 4.6 a Opus 4.7 y el dashboard te avisa “la tasa de éxito cayó 17pp en 412 conversaciones”. Une automáticamente el ledger de cambios de configuración con ventanas de trace. Etiquetado por severidad: regresiones primero, mejoras después, neutrales ocultos por defecto.{user_name}, {project_root}, {recent_orders} en tu system prompt. Resolvers: estático, env, ruta de proyecto, archivo, consulta de base de datos, llamada de MCP, JS computado.Elige cualquier trace anterior. Haz clic en Replay. Re-ejecuta el prompt original en otro runtime. Mira source vs replay lado a lado con delta de duración + costo estimado. ¿Habría respondido correctamente Codex a esos prompts que fallaron? Ahora puedes averiguarlo.
prompt_agent_inner, así que el replay también es matable y aparece en Runs en Vivo. La pill de estado avanza pending → running → done; el panel de resultado muestra ambas respuestas + delta de duración. Los prompts originales vienen de tu execution log local — ATO nunca envía el contenido del prompt a un servidor que aún no uses.@code-writer · claude → codex · −59% por llamada · proyectado $1.01/mes a este volumen. Muestra swaps concretos cuando tienes historial multi-runtime del mismo agente y la alternativa es significativamente más barata sin perder calidad. Guards de calidad: ≥30% más barato, ok-rate dentro de 10pp, eval-score dentro de 5pp. No muestra nada si ninguna recomendación califica — mejor que falsa confianza.parent_run_id. Una fila por pipeline; haz clic para ver el flujo por etapa con flechas de handoff + timing por etapa + archivos tocados por etapa.Desglose de contexto por runtime. Alterna entre Claude, Codex, OpenClaw y Hermes para ver lo que cada agente cargó. Las skills aparecen como on-demand — no cuentan en el total.
Gestiona skills en todos los runtimes con pestañas por runtime. Explora el marketplace, instala skills de la comunidad, o pídele a la IA que cree una por ti.
Editor visual de workflows que detecta automáticamente flujos a partir de tus skills instaladas. Cualquier skill con headers de Step o Phase se convierte en una automatización visual.
Elige un agente (o un grupo enrutado/secuencial) y un schedule. El system prompt del agente, variables, hooks, memoria y skills disparan en cada ejecución — no solo un prompt crudo.
systemd --user en Linux, Task Scheduler en Windows. Los jobs disparan incluso con ATO cerrado.Dashboard centralizado para almacenar, rotar y aplicar scope a las claves de API de cada proveedor LLM relevante. Las claves se cifran localmente — nunca se envían a ningún servidor.
Dashboard en vivo que muestra sesiones activas, tasas de consumo de tokens, salud del runtime y alertas inteligentes — en todas tus herramientas de IA a la vez.
Registro completo de auditoría de cada acción en tus sistemas agenticos. Filtra por tipo de acción, recurso y ventana de tiempo. Exporta a JSON para compliance.
Conecta el proveedor de identidad de tu empresa. Google Workspace, Okta, Microsoft Entra o cualquier proveedor OIDC — con restricción de dominio y auto-aprovisionamiento.
Cada agente ATO se expone como una herramienta MCP. Cualquier runtime que entienda MCP — Claude Code, Codex, Cursor, otros — puede despachar a cualquier agente ATO, sin importar qué runtime sea su dueño.
Gratis, código abierto y listo para tu plataforma.
> Acceso anticipado: todas las funciones gratis con registro — replay, compare, detección de regresiones, recomendaciones de costo, sync en la nube, retención de traces, evaluators. Sin pago, sin tarjeta de crédito — solo un correo electrónico.
Complementario, no competidor. ATO es tu sala de guerra local para humanos y LLMs — el lado del desarrollador del trabajo multi-runtime con IA. Para observabilidad en producción vía SDK en tu stack desplegado, usa Langfuse, Helicone o LangSmith. La mayoría de equipos de producción usan uno de cada lado — cubren lados distintos del mismo agente. Más sobre cómo encajan juntos →