Scoring Methodology
O Motor de Decisão RAG vs Fine-Tuning pontua quatro classes de arquitetura — RAG, Fine-Tuning, Long-Context e Hybrid — contra nove dimensões do seu caso de uso. Esta página explica como cada dimensão é ponderada, como as estimativas de custo são derivadas e como a confiança e o risco são reportados.
1. As nove dimensões de pontuação
Cada dimensão contribui com pontos positivos ou negativos a uma ou mais classes de arquitetura. Pontos não são percentuais — são sinais aditivos. A classe com a pontuação total mais alta vence. A margem entre primeira e segunda classe determina a confiança.
Frescura dos dados
Com que frequência seus dados-fonte mudam. Dados em tempo real (1) favorecem fortemente RAG porque modelos fine-tuned não podem incorporar novas informações sem um ciclo de re-treinamento. Dados estáticos (5) removem a vantagem-chave do RAG.
Volume de documentos
O tamanho do seu corpus de conhecimento. Corpora pequenos (<10K docs, pontuação 1) podem caber em uma janela long-context. Corpora massivos (>10M docs, pontuação 5) excluem long-context e favorecem fortemente retrieval baseado em vetor.
Volume mensal de consultas
Total de chamadas de inferência por mês. Em volumes muito altos (>1M/mês), custos de retrieval por consulta se compõem e podem tornar fine-tuning mais econômico. Em volumes baixos (<10K/mês), overhead de infraestrutura inclina a balança para long-context.
Precisão de citações
Se seu caso de uso requer referências verificáveis. Citação de grau de auditoria (4) favorece fortemente RAG ou hybrid, porque modelos fine-tuned alucinam proveniência — não podem citar fontes que não viram em tempo de treinamento.
SLA de latência
Seu orçamento de latência ponta-a-ponta em milissegundos. RAG adiciona um salto de retrieval de 100–400 ms. Se seu SLA está abaixo de 500 ms, fine-tuning (sem retrieval) pode ser necessário. Long-context adiciona overhead de TTFT em grandes contagens de tokens.
Sensibilidade de dados
Classificação regulatória e de confidencialidade dos seus dados. Alta sensibilidade (4–5) limita quais provedores de API hospedados você pode usar para retrieval, e pode requerer infraestrutura de embedding e inferência auto-hospedada.
Especificidade de domínio
Quão especializado é seu vocabulário de domínio e formato de saída. Domínios altamente especializados (4–5) com jargão proprietário, esquemas de saída ou voz de marca beneficiam mais da adaptação em nível de pesos do fine-tuning do que apenas de retrieval.
Capacidade ML
Sua maturidade interna de engenharia de ML (1 = sem equipe ML, 5 = classe mundial). Arquiteturas fine-tuning e hybrid requerem expertise em ML para projetar, treinar, avaliar e manter. Equipes de baixa capacidade devem usar RAG ou long-context por padrão.
Limite de orçamento
Gasto mensal máximo. Se o custo estimado da abordagem líder excede 120% do seu limite, o motor aplica uma penalidade. Orçamento < $2K geralmente exclui hybrid; <$5K pode excluir fine-tuning quando o treinamento é amortizado.
2. Sinais compostos
Além das pontuações individuais por dimensão, o motor aplica sinais compostos que capturam interações entre dimensões:
- Alto volume + citações rigorosas: Se consultas mensais ≥ 1M e citações = 4, Hybrid recebe +20 adicionais porque RAFT amortiza o custo de treinamento enquanto preserva a precisão de citação.
- Baixo volume + baixo orçamento + não air-gapped: Long-context recebe +15 porque levantar infraestrutura vetorial não é economicamente justificado.
- On-premises ou air-gapped: Fine-Tuning e Hybrid recebem +15/+10 porque podem ser implantados auto-hospedados, enquanto long-context (que requer chamadas de API hospedadas) é penalizado em −20.
- Penalidade de orçamento: Se o custo mensal estimado de uma abordagem excede 120% do seu limite declarado, essa abordagem recebe −15 pontos.
3. Metodologia de estimativa de custo
Estimativas de custo são derivadas do seu volume mensal de consultas, contagens médias de tokens e dados de preços LLM ao vivo obtidos do nosso banco de modelos. A fórmula para cada classe:
RAG (mensal)
Custo único de embedding (amortizado em 6 meses) + taxa de Vector DB (em camadas por volume do corpus) + tokens de retrieval (preço de entrada do modelo de geração) + tokens de entrada e saída de geração + 15% de overhead operacional.
Fine-Tuning (mensal)
Custo de execução de treinamento ($1.200–$25.000, dirigido pela especificidade) amortizado em 6 meses + inferência fine-tuned a 1,2× o preço do modelo base + reserva de re-treinamento (2× custo inicial / ano).
Long-Context (mensal)
Tokens de documento por consulta × preço de entrada do modelo de geração + tokens de saída × preço de saída, menos economias de prompt-cache (sua taxa de hit do cache × 70% de desconto) e economias de batch-API (sua taxa elegível × 50% de desconto).
Hybrid / RAFT (mensal)
Todos os custos RAG + 60% dos custos Fine-Tuning (reflete a realidade de que RAFT requer tanto infraestrutura de retrieval quanto uma execução de treinamento, mas a inferência em tempo de consulta é mais eficiente que RAG puro).
Preço do Vector DB é em camadas por volume do corpus (escala 1–5 mapeando para $70–$3.000/mês), baseado em preços observados do pgvector, Pinecone, Weaviate e Qdrant a partir do Q1 2026. Preços de tokens LLM são puxados ao vivo do nosso banco de modelos e caem para padrões conservadores ($3/1M entrada, $12/1M saída) se o banco está indisponível.
4. Margem de confiança
A confiança é determinada pela margem de pontos entre a classe vencedora e o vice:
- Confiança alta: margem ≥ 25 pontos — uma abordagem domina claramente.
- Confiança média: margem 10–24 pontos — um líder claro, mas o vice é viável.
- Confiança baixa: margem < 10 pontos — múltiplas abordagens estão estreitamente combinadas; uma prova de conceito com ambas é recomendada.
Se a pontuação vencedora estiver abaixo de 40, o motor também define uma "flag de re-escopo" indicando que nenhuma abordagem única domina — tipicamente um sinal de que o escopo do caso de uso deve ser estreitado antes de comprometer infraestrutura.
5. Registro de riscos
O motor avalia sete gatilhos de risco contra suas entradas e a recomendação vencedora. Cada risco tem um nível de severidade (alto, médio ou baixo) e uma recomendação de mitigação:
- Risco de Citações Alucinadas (alto): Fine-Tuning recomendado + citações ≥ 3.
- Limite de Orçamento em Risco (médio): Custo estimado > 90% do seu limite declarado.
- Risco de Violação de Residência de Dados (alto): residência UE ou alta sensibilidade + Long-Context recomendado.
- Lacuna de Capacidade ML (médio): Capacidade ≤ 2 + Fine-Tuning ou Hybrid recomendado.
- Dados de Preço Obsoletos (baixo): Dados de preço Vector DB com mais de 90 dias.
- Risco de Deriva do Corpus (médio): Frescura ≤ 2 + Fine-Tuning recomendado.
- Orçamento de Latência em Risco (alto): SLA de latência < 500 ms + RAG ou Hybrid recomendado.
6. Limitações e suposições
- Estimativas de custo são apenas indicativas. Custos reais dependem do fornecedor, tamanho do modelo, configuração de infraestrutura e preços negociados.
- O modelo de pontuação é intencionalmente opinativo e baseado em padrões de produção observados em clientes Buzzi a partir do Q1 2026. Não substitui revisão arquitetural por engenheiro de ML experiente.
- O motor não modela multi-tenancy, overhead de testes A/B, custo de pipeline de avaliação ou custo de rotulagem de dados para fine-tuning.
- Custo Hybrid / RAFT assume um único ciclo de re-treinamento por janela de 6 meses. Equipes com necessidades de re-treinamento mais frequentes devem aumentar o divisor de amortização do treinamento.