Blog

Ensaios

Sobre desenvolvimento multi-LLM, observabilidade de agentes de IA, detecção de regressão, otimização de custos e engenharia de contexto. Escritos, em geral, enquanto debugamos agentes em produção e percebemos padrões. Pelo time que constrói o ATO.

    Os textos dos posts ainda estão em inglês — tradução em andamento. Para ler agora, abra a versão em inglês de cada artigo no link abaixo.
  

13/05/2026 · Multi-LLM · 8 min de leitura · em inglês

Reconstrui o LLM Council do Karpathy com tool calls e trilha de auditoria

Karpathy soltou o llm-council em novembro do ano passado — 18,7k estrelas, e depois explicitamente foi embora (“não vou dar suporte”). Mesma primitiva, formato diferente: auth multi-provider (sem amarração com OpenRouter), tool calls para que os LLMs verifiquem afirmações no seu repositório, agentes especialistas persistentes, e uma trilha de auditoria que sai em markdown para colar no seu PR.
10/05/2026 · Multi-LLM · 9 min de leitura · em inglês

Por que desenvolvimento multi-LLM ainda é tão doloroso em 2026?

Modelos diferentes lideram em tarefas diferentes — os benchmarks mostram isso claramente. Então por que a maioria dos times ainda escolhe um e usa pra tudo? Um olhar sobre as diferenças de SWE-bench / MMLU / HumanEval, o gap de tooling, e como são os fluxos multi-LLM reais.
10/05/2026 · Avaliação de LLM · 9 min de leitura · em inglês

Como descobrir, de verdade, se um novo LLM é melhor

Fornecedores publicam scores de benchmarks. Esses scores te dizem alguma coisa, mas não tudo que você precisa. Uma passada por MMLU, HumanEval, GSM8K, sua própria intuição enquanto desenvolve, e o que fazer quando você já tem usuários reais usando seu agente.
10/05/2026 · Avaliação de LLM · 9 min de leitura · em inglês

Por que meu agente de IA piora sem ninguém mudar nada?

Modelos mudam. Prompts mudam. Contexto muda. A qualidade vai derivando e você descobre por uma reclamação de usuário duas semanas depois. O estudo de drift temporal de Stanford, as cinco causas de regressão silenciosa, o que monitorar de verdade, e os thresholds que importam.
10/05/2026 · AI Engineering · 8 min de leitura · em inglês

O que falta quando monitoramento tradicional encontra agentes de IA

APM tradicional te diz que a API teve sucesso. Observabilidade de agente de IA precisa te dizer se a resposta estava certa, qual agente tocou qual arquivo, e como parar o que está travado. As cinco perguntas que o APM não responde.
10/05/2026 · Custos LLM · 8 min de leitura · em inglês

Por que minha conta de IA não para de crescer?

Custo de LLM parece arbitrário porque a maioria dos times não instrumenta isso. Uma passada pelos preços publicados por milhão de tokens, por que as contas crescem mais rápido do que o uso, e o que monitorar antes do CFO perguntar.
10/05/2026 · Arquitetura de IA · 9 min de leitura · em inglês

O que separa agentes de IA em produção de demos?

Agente de demo tem um prompt. Agente de produção tem variáveis, hooks de contexto, políticas de memória, evaluators e modelos por tarefa. A migração de prompt engineering para context engineering, com a literatura por trás (Lost in the Middle, Building Effective Agents da Anthropic).
10/05/2026 · Produto / Release · 6 min de leitura · em inglês

O que entregamos: ATO vira a camada de ops para agentes multi-runtime

Doze releases em dois dias. Replay de qualquer prompt em outro runtime, regressões pegas antes do usuário, custo cortado sem perder qualidade. As notas de release da v2.1 do ATO.

Ensaios

Reconstrui o LLM Council do Karpathy com tool calls e trilha de auditoria

Por que desenvolvimento multi-LLM ainda é tão doloroso em 2026?

Como descobrir, de verdade, se um novo LLM é melhor

Por que meu agente de IA piora sem ninguém mudar nada?

O que falta quando monitoramento tradicional encontra agentes de IA

Por que minha conta de IA não para de crescer?

O que separa agentes de IA em produção de demos?

O que entregamos: ATO vira a camada de ops para agentes multi-runtime