Conteúdo detalhado
🧭 Mapa dos modelos
O mercado tem dezenas de modelos. Para agentic, três famílias dominam: OpenAI (GPT-4o, 4o-mini), Anthropic (Claude Sonnet, Haiku) e Google (Gemini Pro, Flash). Cada uma brilha em algo.
Forte em tool calling. Ecossistema maduro. Caro no top.
Forte em raciocínio longo e seguir instrução. Caching agressivo.
Contexto enorme (1M+). Flash é o mais barato do mercado top.
Para casos com restrição de dado ou volume enorme. Self-hosted.
💡 Provider lock-in
Nunca case com um único provedor. Use SDK que abstrai (LiteLLM, LangChain, OpenRouter). Quando o preço mudar — e ele muda — você troca em horas, não em semanas.
🪙 Pricing por tokens
Cobrança é por 1M tokens. Output normalmente custa 3-5x mais que input. Estimar errado quebra a economia do projeto antes do primeiro mês.
Modelo: Claude Sonnet 4 - Input: $3/M tokens - Output: $15/M tokens Sessão típica: - System prompt: 1500 tokens (cacheado: $0.30/M) - 8 turns de histórico: ~3000 tokens - Conhecimento RAG injetado: ~2000 tokens - Output total da sessão: ~800 tokens Custo: - Input cacheado: 1500 * 0.30 / 1M = $0.00045 - Input normal: 5000 * 3.00 / 1M = $0.015 - Output: 800 * 15.00 / 1M = $0.012 TOTAL POR SESSÃO: ~$0.028 (~R$ 0.15) Cliente humano: ~R$ 4.00 por atendimento de 10 min Economia: ~96%
⚠️ Watch the loop
Cuidado com agente que faz multi-step longo. 12 iterações com tool e observation podem fazer 1 sessão custar R$ 2,00 — e perder a economia.
🚦 Roteamento por tarefa
Padrão mais barato de existir: classifique a mensagem com um modelo leve (Haiku, Flash, 4o-mini), e só mande para o top quando precisar mesmo. Pode cortar 60-80% do custo sem perder qualidade.
1. Triagem com modelo leve
Haiku ou Flash. Classifica em "simples / médio / complexo".
2. Roteamento automático
Simples (oi, agradecimento) → Haiku responde direto.
3. Médio com base
Pergunta RAGável → modelo médio com RAG.
4. Complexo no top
Negociação, multi-tool, reasoning longo → modelo top.
5. Monitorar acurácia da triagem
% de mensagens reclassificadas para mais caro. Meta < 10%.
💾 Prompt caching
System prompt grande é estático entre turnos. Anthropic e OpenAI cacheiam o prefixo automaticamente quando você marca — e cobram 10-15% do preço normal por hit. Em bot conversacional isso é dinheiro grátis.
✓ Boa pra cachear
- ✓System prompt da persona
- ✓Lista de tools com schemas
- ✓Few-shot examples fixos
- ✓Glossário/contexto do negócio
- ✓Histórico longo sumarizado
✗ Não dá pra cachear
- ✗Custom fields do cliente (mudam)
- ✗Última mensagem do usuário
- ✗Tool observations (dinâmicas)
- ✗Conteúdo recém-buscado por RAG
- ✗Qualquer coisa que muda por turno
💡 Estrutura para caching
Coloque tudo que é estático no INÍCIO do prompt e tudo que é dinâmico no fim. Caching cobre apenas o prefixo comum. Estrutura errada = cache miss = sem economia.
📏 Context window
Limite de tokens por chamada vai de 8k (modelos legados) até 1M+ (Gemini, Claude). Mais contexto custa mais E perde precisão no meio ("lost in the middle"). Janela grande não é solução, é ferramenta.
📐 Quanto contexto usar de verdade
Mesmo com 200k disponíveis, raramente vale encher:
- •System prompt: 1-3k (cacheado)
- •Few-shot: 0.5-1k
- •Histórico curto sumarizado: 1-2k
- •RAG top-5 chunks: 2-4k
- •Custom fields: < 0.5k
- •Total prático: 5-10k por chamada
⚠️ Não encha por encher
Jogar histórico inteiro no prompt parece tentador, mas: (1) custa muito mais, (2) o modelo perde foco em conversas longas, (3) você atrasa cada resposta. Sumarize.
📈 Monitorar custo
Custo agregado mente. "Pagamos $500 mês" não diz nada. Custo por sessão, por intent resolvido e por conversão guia decisão de negócio.
📊 Dashboard mínimo de custo
- $ por sessão (média + p95) — p95 alto = outliers caros
- $ por intent resolvido — divide custo pela métrica de valor
- $ por conversão — comparar com CAC tradicional
- Tokens cacheados vs não-cacheados (%) — meta > 60% cache hit
- Modelo por % de tráfego — vê se o router está funcionando
- Budget cap por dia — alerta em 80%, kill em 100%
💡 Defense in depth
Configure alerta de custo no provedor + alerta próprio em cima do log. Se um deles falhar, o outro pega. Já vi conta de $30k em uma noite por bug que loopava tool sem stop.
📌 Resumo do módulo
Próximo:
3.3 — 🏠 Caso real: bot imobiliário ponta a ponta