Módulo 3.2 — Modelos, custo e otimização

Conteúdo detalhado

🧭 Mapa dos modelos

O mercado tem dezenas de modelos. Para agentic, três famílias dominam: OpenAI (GPT-4o, 4o-mini), Anthropic (Claude Sonnet, Haiku) e Google (Gemini Pro, Flash). Cada uma brilha em algo.

OpenAI

Forte em tool calling. Ecossistema maduro. Caro no top.

Anthropic

Forte em raciocínio longo e seguir instrução. Caching agressivo.

Google

Contexto enorme (1M+). Flash é o mais barato do mercado top.

Open-source

Para casos com restrição de dado ou volume enorme. Self-hosted.

💡 Provider lock-in

Nunca case com um único provedor. Use SDK que abstrai (LiteLLM, LangChain, OpenRouter). Quando o preço mudar — e ele muda — você troca em horas, não em semanas.

🪙 Pricing por tokens

Cobrança é por 1M tokens. Output normalmente custa 3-5x mais que input. Estimar errado quebra a economia do projeto antes do primeiro mês.

// Exemplo de cálculo de custo por sessão

Modelo: Claude Sonnet 4
- Input:  $3/M tokens
- Output: $15/M tokens

Sessão típica:
- System prompt: 1500 tokens (cacheado: $0.30/M)
- 8 turns de histórico: ~3000 tokens
- Conhecimento RAG injetado: ~2000 tokens
- Output total da sessão: ~800 tokens

Custo:
- Input cacheado: 1500 * 0.30 / 1M = $0.00045
- Input normal:   5000 * 3.00 / 1M = $0.015
- Output:          800 * 15.00 / 1M = $0.012
TOTAL POR SESSÃO: ~$0.028 (~R$ 0.15)

Cliente humano: ~R$ 4.00 por atendimento de 10 min
Economia: ~96%

⚠️ Watch the loop

Cuidado com agente que faz multi-step longo. 12 iterações com tool e observation podem fazer 1 sessão custar R$ 2,00 — e perder a economia.

🚦 Roteamento por tarefa

Padrão mais barato de existir: classifique a mensagem com um modelo leve (Haiku, Flash, 4o-mini), e só mande para o top quando precisar mesmo. Pode cortar 60-80% do custo sem perder qualidade.

1. Triagem com modelo leve

Haiku ou Flash. Classifica em "simples / médio / complexo".

2. Roteamento automático

Simples (oi, agradecimento) → Haiku responde direto.

3. Médio com base

Pergunta RAGável → modelo médio com RAG.

4. Complexo no top

Negociação, multi-tool, reasoning longo → modelo top.

5. Monitorar acurácia da triagem

% de mensagens reclassificadas para mais caro. Meta < 10%.

💾 Prompt caching

System prompt grande é estático entre turnos. Anthropic e OpenAI cacheiam o prefixo automaticamente quando você marca — e cobram 10-15% do preço normal por hit. Em bot conversacional isso é dinheiro grátis.

✓ Boa pra cachear

✓System prompt da persona
✓Lista de tools com schemas
✓Few-shot examples fixos
✓Glossário/contexto do negócio
✓Histórico longo sumarizado

✗ Não dá pra cachear

✗Custom fields do cliente (mudam)
✗Última mensagem do usuário
✗Tool observations (dinâmicas)
✗Conteúdo recém-buscado por RAG
✗Qualquer coisa que muda por turno

💡 Estrutura para caching

Coloque tudo que é estático no INÍCIO do prompt e tudo que é dinâmico no fim. Caching cobre apenas o prefixo comum. Estrutura errada = cache miss = sem economia.

📏 Context window

Limite de tokens por chamada vai de 8k (modelos legados) até 1M+ (Gemini, Claude). Mais contexto custa mais E perde precisão no meio ("lost in the middle"). Janela grande não é solução, é ferramenta.

📐 Quanto contexto usar de verdade

Mesmo com 200k disponíveis, raramente vale encher:

•System prompt: 1-3k (cacheado)
•Few-shot: 0.5-1k
•Histórico curto sumarizado: 1-2k
•RAG top-5 chunks: 2-4k
•Custom fields: < 0.5k
•Total prático: 5-10k por chamada

⚠️ Não encha por encher

Jogar histórico inteiro no prompt parece tentador, mas: (1) custa muito mais, (2) o modelo perde foco em conversas longas, (3) você atrasa cada resposta. Sumarize.

📈 Monitorar custo

Custo agregado mente. "Pagamos $500 mês" não diz nada. Custo por sessão, por intent resolvido e por conversão guia decisão de negócio.

📊 Dashboard mínimo de custo

$ por sessão (média + p95) — p95 alto = outliers caros
$ por intent resolvido — divide custo pela métrica de valor
$ por conversão — comparar com CAC tradicional
Tokens cacheados vs não-cacheados (%) — meta > 60% cache hit
Modelo por % de tráfego — vê se o router está funcionando
Budget cap por dia — alerta em 80%, kill em 100%

💡 Defense in depth

Configure alerta de custo no provedor + alerta próprio em cima do log. Se um deles falhar, o outro pega. Já vi conta de $30k em uma noite por bug que loopava tool sem stop.

📌 Resumo do módulo

✓

Mapa dos modelos — não case com um provedor — abstraia

✓

Pricing por tokens — calcule custo unitário antes de prometer ROI

✓

Roteamento por tarefa — modelo certo na hora certa = -70% de custo

✓

Prompt caching — estático no topo, dinâmico no fim

✓

Context window — janela é ferramenta, não solução

✓

Monitorar custo — unit economics + cap = sono tranquilo

3.3 — 🏠 Caso real: bot imobiliário ponta a ponta

← Anterior Próximo →

💸 Modelos, custo e otimização