Ensaios
Sobre desenvolvimento multi-LLM, observabilidade de agentes de IA, detecção de regressão, otimização de custos e engenharia de contexto. Escritos, em geral, enquanto debugamos agentes em produção e percebemos padrões. Pelo time que constrói o ATO.
-
Reconstrui o LLM Council do Karpathy com tool calls e trilha de auditoria
Karpathy soltou o llm-council em novembro do ano passado — 18,7k estrelas, e depois explicitamente foi embora (“não vou dar suporte”). Mesma primitiva, formato diferente: auth multi-provider (sem amarração com OpenRouter), tool calls para que os LLMs verifiquem afirmações no seu repositório, agentes especialistas persistentes, e uma trilha de auditoria que sai em markdown para colar no seu PR.
-
Por que desenvolvimento multi-LLM ainda é tão doloroso em 2026?
Modelos diferentes lideram em tarefas diferentes — os benchmarks mostram isso claramente. Então por que a maioria dos times ainda escolhe um e usa pra tudo? Um olhar sobre as diferenças de SWE-bench / MMLU / HumanEval, o gap de tooling, e como são os fluxos multi-LLM reais.
-
Como descobrir, de verdade, se um novo LLM é melhor
Fornecedores publicam scores de benchmarks. Esses scores te dizem alguma coisa, mas não tudo que você precisa. Uma passada por MMLU, HumanEval, GSM8K, sua própria intuição enquanto desenvolve, e o que fazer quando você já tem usuários reais usando seu agente.
-
Por que meu agente de IA piora sem ninguém mudar nada?
Modelos mudam. Prompts mudam. Contexto muda. A qualidade vai derivando e você descobre por uma reclamação de usuário duas semanas depois. O estudo de drift temporal de Stanford, as cinco causas de regressão silenciosa, o que monitorar de verdade, e os thresholds que importam.
-
O que falta quando monitoramento tradicional encontra agentes de IA
APM tradicional te diz que a API teve sucesso. Observabilidade de agente de IA precisa te dizer se a resposta estava certa, qual agente tocou qual arquivo, e como parar o que está travado. As cinco perguntas que o APM não responde.
-
Por que minha conta de IA não para de crescer?
Custo de LLM parece arbitrário porque a maioria dos times não instrumenta isso. Uma passada pelos preços publicados por milhão de tokens, por que as contas crescem mais rápido do que o uso, e o que monitorar antes do CFO perguntar.
-
O que separa agentes de IA em produção de demos?
Agente de demo tem um prompt. Agente de produção tem variáveis, hooks de contexto, políticas de memória, evaluators e modelos por tarefa. A migração de prompt engineering para context engineering, com a literatura por trás (Lost in the Middle, Building Effective Agents da Anthropic).
-
O que entregamos: ATO vira a camada de ops para agentes multi-runtime
Doze releases em dois dias. Replay de qualquer prompt em outro runtime, regressões pegas antes do usuário, custo cortado sem perder qualidade. As notas de release da v2.1 do ATO.