Scoring Methodology

O Motor de Decisão RAG vs Fine-Tuning pontua quatro classes de arquitetura — RAG, Fine-Tuning, Long-Context e Hybrid — contra nove dimensões do seu caso de uso. Esta página explica como cada dimensão é ponderada, como as estimativas de custo são derivadas e como a confiança e o risco são reportados.

1. As nove dimensões de pontuação

Cada dimensão contribui com pontos positivos ou negativos a uma ou mais classes de arquitetura. Pontos não são percentuais — são sinais aditivos. A classe com a pontuação total mais alta vence. A margem entre primeira e segunda classe determina a confiança.

  • Frescura dos dados

    Com que frequência seus dados-fonte mudam. Dados em tempo real (1) favorecem fortemente RAG porque modelos fine-tuned não podem incorporar novas informações sem um ciclo de re-treinamento. Dados estáticos (5) removem a vantagem-chave do RAG.

  • Volume de documentos

    O tamanho do seu corpus de conhecimento. Corpora pequenos (<10K docs, pontuação 1) podem caber em uma janela long-context. Corpora massivos (>10M docs, pontuação 5) excluem long-context e favorecem fortemente retrieval baseado em vetor.

  • Volume mensal de consultas

    Total de chamadas de inferência por mês. Em volumes muito altos (>1M/mês), custos de retrieval por consulta se compõem e podem tornar fine-tuning mais econômico. Em volumes baixos (<10K/mês), overhead de infraestrutura inclina a balança para long-context.

  • Precisão de citações

    Se seu caso de uso requer referências verificáveis. Citação de grau de auditoria (4) favorece fortemente RAG ou hybrid, porque modelos fine-tuned alucinam proveniência — não podem citar fontes que não viram em tempo de treinamento.

  • SLA de latência

    Seu orçamento de latência ponta-a-ponta em milissegundos. RAG adiciona um salto de retrieval de 100–400 ms. Se seu SLA está abaixo de 500 ms, fine-tuning (sem retrieval) pode ser necessário. Long-context adiciona overhead de TTFT em grandes contagens de tokens.

  • Sensibilidade de dados

    Classificação regulatória e de confidencialidade dos seus dados. Alta sensibilidade (4–5) limita quais provedores de API hospedados você pode usar para retrieval, e pode requerer infraestrutura de embedding e inferência auto-hospedada.

  • Especificidade de domínio

    Quão especializado é seu vocabulário de domínio e formato de saída. Domínios altamente especializados (4–5) com jargão proprietário, esquemas de saída ou voz de marca beneficiam mais da adaptação em nível de pesos do fine-tuning do que apenas de retrieval.

  • Capacidade ML

    Sua maturidade interna de engenharia de ML (1 = sem equipe ML, 5 = classe mundial). Arquiteturas fine-tuning e hybrid requerem expertise em ML para projetar, treinar, avaliar e manter. Equipes de baixa capacidade devem usar RAG ou long-context por padrão.

  • Limite de orçamento

    Gasto mensal máximo. Se o custo estimado da abordagem líder excede 120% do seu limite, o motor aplica uma penalidade. Orçamento < $2K geralmente exclui hybrid; <$5K pode excluir fine-tuning quando o treinamento é amortizado.

2. Sinais compostos

Além das pontuações individuais por dimensão, o motor aplica sinais compostos que capturam interações entre dimensões:

  • Alto volume + citações rigorosas: Se consultas mensais ≥ 1M e citações = 4, Hybrid recebe +20 adicionais porque RAFT amortiza o custo de treinamento enquanto preserva a precisão de citação.
  • Baixo volume + baixo orçamento + não air-gapped: Long-context recebe +15 porque levantar infraestrutura vetorial não é economicamente justificado.
  • On-premises ou air-gapped: Fine-Tuning e Hybrid recebem +15/+10 porque podem ser implantados auto-hospedados, enquanto long-context (que requer chamadas de API hospedadas) é penalizado em −20.
  • Penalidade de orçamento: Se o custo mensal estimado de uma abordagem excede 120% do seu limite declarado, essa abordagem recebe −15 pontos.

3. Metodologia de estimativa de custo

Estimativas de custo são derivadas do seu volume mensal de consultas, contagens médias de tokens e dados de preços LLM ao vivo obtidos do nosso banco de modelos. A fórmula para cada classe:

RAG (mensal)

Custo único de embedding (amortizado em 6 meses) + taxa de Vector DB (em camadas por volume do corpus) + tokens de retrieval (preço de entrada do modelo de geração) + tokens de entrada e saída de geração + 15% de overhead operacional.

Fine-Tuning (mensal)

Custo de execução de treinamento ($1.200–$25.000, dirigido pela especificidade) amortizado em 6 meses + inferência fine-tuned a 1,2× o preço do modelo base + reserva de re-treinamento (2× custo inicial / ano).

Long-Context (mensal)

Tokens de documento por consulta × preço de entrada do modelo de geração + tokens de saída × preço de saída, menos economias de prompt-cache (sua taxa de hit do cache × 70% de desconto) e economias de batch-API (sua taxa elegível × 50% de desconto).

Hybrid / RAFT (mensal)

Todos os custos RAG + 60% dos custos Fine-Tuning (reflete a realidade de que RAFT requer tanto infraestrutura de retrieval quanto uma execução de treinamento, mas a inferência em tempo de consulta é mais eficiente que RAG puro).

Preço do Vector DB é em camadas por volume do corpus (escala 1–5 mapeando para $70–$3.000/mês), baseado em preços observados do pgvector, Pinecone, Weaviate e Qdrant a partir do Q1 2026. Preços de tokens LLM são puxados ao vivo do nosso banco de modelos e caem para padrões conservadores ($3/1M entrada, $12/1M saída) se o banco está indisponível.

4. Margem de confiança

A confiança é determinada pela margem de pontos entre a classe vencedora e o vice:

  • Confiança alta: margem ≥ 25 pontos — uma abordagem domina claramente.
  • Confiança média: margem 10–24 pontos — um líder claro, mas o vice é viável.
  • Confiança baixa: margem < 10 pontos — múltiplas abordagens estão estreitamente combinadas; uma prova de conceito com ambas é recomendada.

Se a pontuação vencedora estiver abaixo de 40, o motor também define uma "flag de re-escopo" indicando que nenhuma abordagem única domina — tipicamente um sinal de que o escopo do caso de uso deve ser estreitado antes de comprometer infraestrutura.

5. Registro de riscos

O motor avalia sete gatilhos de risco contra suas entradas e a recomendação vencedora. Cada risco tem um nível de severidade (alto, médio ou baixo) e uma recomendação de mitigação:

  • Risco de Citações Alucinadas (alto): Fine-Tuning recomendado + citações ≥ 3.
  • Limite de Orçamento em Risco (médio): Custo estimado > 90% do seu limite declarado.
  • Risco de Violação de Residência de Dados (alto): residência UE ou alta sensibilidade + Long-Context recomendado.
  • Lacuna de Capacidade ML (médio): Capacidade ≤ 2 + Fine-Tuning ou Hybrid recomendado.
  • Dados de Preço Obsoletos (baixo): Dados de preço Vector DB com mais de 90 dias.
  • Risco de Deriva do Corpus (médio): Frescura ≤ 2 + Fine-Tuning recomendado.
  • Orçamento de Latência em Risco (alto): SLA de latência < 500 ms + RAG ou Hybrid recomendado.

6. Limitações e suposições

  • Estimativas de custo são apenas indicativas. Custos reais dependem do fornecedor, tamanho do modelo, configuração de infraestrutura e preços negociados.
  • O modelo de pontuação é intencionalmente opinativo e baseado em padrões de produção observados em clientes Buzzi a partir do Q1 2026. Não substitui revisão arquitetural por engenheiro de ML experiente.
  • O motor não modela multi-tenancy, overhead de testes A/B, custo de pipeline de avaliação ou custo de rotulagem de dados para fine-tuning.
  • Custo Hybrid / RAFT assume um único ciclo de re-treinamento por janela de 6 meses. Equipes com necessidades de re-treinamento mais frequentes devem aumentar o divisor de amortização do treinamento.