// compare qualquer IA · guarde os recibos ↓
Rode qualquer IA na sua tarefa real — veja qual resolveu mais barato e melhor, com recibos. Um comando para Claude, Codex, Gemini, Grok, MiniMax ou qualquer um dos mais de 20 runtimes suportados. Eles rodam o mesmo prompt em uma sessão compartilhada, chamam ferramentas reais (read_file, grep, git_log) para verificar afirmações no seu repositório, e produzem uma trilha de auditoria assinada com custo, tokens e recibos de cada chamada de ferramenta. Use pela GUI, pela CLI ou pelo seu coding agent via MCP — mesmos dados, mesma trilha de auditoria. Local-first. MIT. Traga suas próprias chaves.
Você cola a mesma pergunta no Claude, no GPT, no Gemini uma aba por vez. Cada um começa do zero. Nenhum vê o que os outros disseram. A discordância que deveria ser o sinal fica enterrada no seu histórico de copy-paste.
A maioria das ferramentas de debate multi-LLM não lê seu repositório, não faz grep, não verifica uma única afirmação antes de costurar as respostas. É vibes-as-a-service — bonitinho, mas sem verificação.
Você recebe a resposta, lê, segue em frente. Nenhum registro de qual LLM fez qual afirmação, nenhuma forma de citar “confirmado pelo GPT, contestado pelo Claude,” nenhum markdown para colar no PR. O recibo é o artefato — e está faltando.
Cada dispatch multi-LLM cai no seu SQLite local como uma sessão que você pode revisar depois. Cada linha carrega um resumo auto-gerado, os runtimes que falaram, as personas (quando você usou --agent), tags e um session id que você pode passar para ato sessions get do terminal. Sem contas, sem round-trip de nuvem — tudo na máquina do desenvolvedor.
ato review --reviewer @security-specialist --reviewer @perf-reviewer --reviewer claude --reviewer minimax • Function-calling tools (read_file, grep, git_log) • Agentes especialistas persistentes com system prompts • Trilha de auditoria por turno na GUI — badges “verificado-via-N-tool-calls” vs “só pelo prompt” • Modo lean força os LLMs a navegarem o repositório de verdade
run_agent.@reviewer de Sonnet 4.6 para Opus 4.7 e o dashboard avisa “taxa de sucesso caiu 17pp em 412 conversas”. Junta automaticamente o ledger de mudanças de configuração com janelas de trace. Marcado por severidade: regressões primeiro, melhorias depois, neutros escondidos por padrão.{user_name}, {project_root}, {recent_orders} no seu system prompt. Resolvers: estático, env, caminho de projeto, arquivo, query de banco, chamada de MCP, JS computado.Escolha qualquer trace anterior. Clique em Replay. Re-execute o prompt original em outro runtime. Veja source vs replay lado a lado com delta de duração + custo estimado. O Codex teria respondido corretamente naqueles prompts que falharam? Agora você descobre.
prompt_agent_inner, então o replay também é matável e aparece em Runs ao Vivo. A pill de status passa por pending → running → done; o painel de resultado mostra as duas respostas + delta de duração. Os prompts originais vêm do seu execution log local — o ATO nunca envia o conteúdo do prompt para servidor que você ainda não usa.@code-writer · claude → codex · −59% por chamada · projetado em $1.01/mês neste volume. Mostra swaps concretos quando você tem histórico multi-runtime no mesmo agente e a alternativa é meaningfully mais barata sem perder qualidade. Guards de qualidade: ≥30% mais barato, ok-rate dentro de 10pp, eval-score dentro de 5pp. Não mostra nada se nenhuma recomendação qualifica — melhor do que falsa confiança.parent_run_id. Uma linha por pipeline; clique para ver o fluxo por estágio com setas de handoff + timing por estágio + arquivos tocados por estágio.Detalhamento de contexto por runtime. Alterne entre Claude, Codex, OpenClaw e Hermes para ver o que cada agente carregou. Skills aparecem como on-demand — não contam no total.
Gerencie skills em todos os runtimes com abas por runtime. Navegue pelo marketplace, instale skills da comunidade ou peça para a IA criar uma para você.
Editor visual de workflows que detecta automaticamente fluxos a partir das suas skills instaladas. Qualquer skill com headers de Step ou Phase vira uma automação visual.
Escolha um agente (ou um grupo roteado/sequencial) e um agendamento. O system prompt do agente, variáveis, hooks, memória e skills disparam em cada execução — não apenas um prompt cru.
systemd --user no Linux, Task Scheduler no Windows. Jobs disparam mesmo com o ATO fechado.Dashboard centralizado para armazenar, rotacionar e escopar chaves de API de todo provedor LLM relevante. Chaves criptografadas localmente — nunca enviadas para nenhum servidor.
Dashboard ao vivo mostrando sessões ativas, taxas de consumo de tokens, saúde do runtime e alertas inteligentes — em todas as suas ferramentas de IA de uma vez.
Trilha completa de auditoria de cada ação nos seus sistemas agenticos. Filtre por tipo de ação, recurso e janela de tempo. Exporte para JSON para fins de compliance.
Conecte o provedor de identidade da sua empresa. Google Workspace, Okta, Microsoft Entra ou qualquer provedor OIDC — com restrição por domínio e auto-provisionamento.
Cada agente ATO é exposto como uma ferramenta MCP. Qualquer runtime que entenda MCP — Claude Code, Codex, Cursor, outros — pode despachar para qualquer agente ATO, independente de qual runtime é o dono.
Grátis, código aberto e pronto para a sua plataforma.
> Acesso antecipado: todas as funcionalidades grátis com cadastro — replay, compare, detecção de regressão, recomendações de custo, sync na nuvem, retenção de traces, evaluators. Sem pagamento, sem cartão de crédito — só um e-mail.
Complementar, não concorrente. O ATO é sua sala de guerra local para humanos e LLMs — o lado do desenvolvedor do trabalho multi-runtime com IA. Para observabilidade em produção via SDK no seu app implantado, use Langfuse, Helicone ou LangSmith. A maioria dos times de produção usa um de cada lado — cobrem lados diferentes do mesmo agente. Mais sobre como funcionam juntos →