⚡ AutomationsAI|Portal de Cursos →

Verificando acesso...

MÓDULO 3.2

💸 Modelos, custo e otimização

Quando GPT-4o, quando Claude, quando Gemini Flash. Roteamento por tarefa, prompt caching e janela de contexto sem perder qualidade nem queimar a conta.

6
Tópicos
50
Minutos
Médio
Nível
Prático
Tipo

Conteúdo detalhado

1

🧭 Mapa dos modelos

O mercado tem dezenas de modelos. Para agentic, três famílias dominam: OpenAI (GPT-4o, 4o-mini), Anthropic (Claude Sonnet, Haiku) e Google (Gemini Pro, Flash). Cada uma brilha em algo.

OpenAI

Forte em tool calling. Ecossistema maduro. Caro no top.

Anthropic

Forte em raciocínio longo e seguir instrução. Caching agressivo.

Google

Contexto enorme (1M+). Flash é o mais barato do mercado top.

Open-source

Para casos com restrição de dado ou volume enorme. Self-hosted.

💡 Provider lock-in

Nunca case com um único provedor. Use SDK que abstrai (LiteLLM, LangChain, OpenRouter). Quando o preço mudar — e ele muda — você troca em horas, não em semanas.

2

🪙 Pricing por tokens

Cobrança é por 1M tokens. Output normalmente custa 3-5x mais que input. Estimar errado quebra a economia do projeto antes do primeiro mês.

// Exemplo de cálculo de custo por sessão
Modelo: Claude Sonnet 4
- Input:  $3/M tokens
- Output: $15/M tokens

Sessão típica:
- System prompt: 1500 tokens (cacheado: $0.30/M)
- 8 turns de histórico: ~3000 tokens
- Conhecimento RAG injetado: ~2000 tokens
- Output total da sessão: ~800 tokens

Custo:
- Input cacheado: 1500 * 0.30 / 1M = $0.00045
- Input normal:   5000 * 3.00 / 1M = $0.015
- Output:          800 * 15.00 / 1M = $0.012
TOTAL POR SESSÃO: ~$0.028 (~R$ 0.15)

Cliente humano: ~R$ 4.00 por atendimento de 10 min
Economia: ~96%

⚠️ Watch the loop

Cuidado com agente que faz multi-step longo. 12 iterações com tool e observation podem fazer 1 sessão custar R$ 2,00 — e perder a economia.

3

🚦 Roteamento por tarefa

Padrão mais barato de existir: classifique a mensagem com um modelo leve (Haiku, Flash, 4o-mini), e só mande para o top quando precisar mesmo. Pode cortar 60-80% do custo sem perder qualidade.

1

1. Triagem com modelo leve

Haiku ou Flash. Classifica em "simples / médio / complexo".

2

2. Roteamento automático

Simples (oi, agradecimento) → Haiku responde direto.

3

3. Médio com base

Pergunta RAGável → modelo médio com RAG.

4

4. Complexo no top

Negociação, multi-tool, reasoning longo → modelo top.

5

5. Monitorar acurácia da triagem

% de mensagens reclassificadas para mais caro. Meta < 10%.

4

💾 Prompt caching

System prompt grande é estático entre turnos. Anthropic e OpenAI cacheiam o prefixo automaticamente quando você marca — e cobram 10-15% do preço normal por hit. Em bot conversacional isso é dinheiro grátis.

✓ Boa pra cachear

  • System prompt da persona
  • Lista de tools com schemas
  • Few-shot examples fixos
  • Glossário/contexto do negócio
  • Histórico longo sumarizado

✗ Não dá pra cachear

  • Custom fields do cliente (mudam)
  • Última mensagem do usuário
  • Tool observations (dinâmicas)
  • Conteúdo recém-buscado por RAG
  • Qualquer coisa que muda por turno

💡 Estrutura para caching

Coloque tudo que é estático no INÍCIO do prompt e tudo que é dinâmico no fim. Caching cobre apenas o prefixo comum. Estrutura errada = cache miss = sem economia.

5

📏 Context window

Limite de tokens por chamada vai de 8k (modelos legados) até 1M+ (Gemini, Claude). Mais contexto custa mais E perde precisão no meio ("lost in the middle"). Janela grande não é solução, é ferramenta.

📐 Quanto contexto usar de verdade

Mesmo com 200k disponíveis, raramente vale encher:

  • System prompt: 1-3k (cacheado)
  • Few-shot: 0.5-1k
  • Histórico curto sumarizado: 1-2k
  • RAG top-5 chunks: 2-4k
  • Custom fields: < 0.5k
  • Total prático: 5-10k por chamada

⚠️ Não encha por encher

Jogar histórico inteiro no prompt parece tentador, mas: (1) custa muito mais, (2) o modelo perde foco em conversas longas, (3) você atrasa cada resposta. Sumarize.

6

📈 Monitorar custo

Custo agregado mente. "Pagamos $500 mês" não diz nada. Custo por sessão, por intent resolvido e por conversão guia decisão de negócio.

📊 Dashboard mínimo de custo

  • $ por sessão (média + p95) — p95 alto = outliers caros
  • $ por intent resolvido — divide custo pela métrica de valor
  • $ por conversão — comparar com CAC tradicional
  • Tokens cacheados vs não-cacheados (%) — meta > 60% cache hit
  • Modelo por % de tráfego — vê se o router está funcionando
  • Budget cap por dia — alerta em 80%, kill em 100%

💡 Defense in depth

Configure alerta de custo no provedor + alerta próprio em cima do log. Se um deles falhar, o outro pega. Já vi conta de $30k em uma noite por bug que loopava tool sem stop.

📌 Resumo do módulo

Mapa dos modelos — não case com um provedor — abstraia
Pricing por tokens — calcule custo unitário antes de prometer ROI
Roteamento por tarefa — modelo certo na hora certa = -70% de custo
Prompt caching — estático no topo, dinâmico no fim
Context window — janela é ferramenta, não solução
Monitorar custo — unit economics + cap = sono tranquilo

Próximo:

3.3 — 🏠 Caso real: bot imobiliário ponta a ponta