Scoring Methodology

O Motor de Decisão RAG vs Fine-Tuning pontua quatro classes de arquitetura — RAG, Fine-Tuning, Long-Context e Hybrid — contra nove dimensões do seu caso de uso. Esta página explica como cada dimensão é ponderada, como as estimativas de custo são derivadas e como a confiança e o risco são reportados.

1. As nove dimensões de pontuação

Cada dimensão contribui com pontos positivos ou negativos a uma ou mais classes de arquitetura. Pontos não são percentuais — são sinais aditivos. A classe com a pontuação total mais alta vence. A margem entre primeira e segunda classe determina a confiança.

Frescura dos dados
Com que frequência seus dados-fonte mudam. Dados em tempo real (1) favorecem fortemente RAG porque modelos fine-tuned não podem incorporar novas informações sem um ciclo de re-treinamento. Dados estáticos (5) removem a vantagem-chave do RAG.
Volume de documentos
O tamanho do seu corpus de conhecimento. Corpora pequenos (<10K docs, pontuação 1) podem caber em uma janela long-context. Corpora massivos (>10M docs, pontuação 5) excluem long-context e favorecem fortemente retrieval baseado em vetor.
Volume mensal de consultas
Total de chamadas de inferência por mês. Em volumes muito altos (>1M/mês), custos de retrieval por consulta se compõem e podem tornar fine-tuning mais econômico. Em volumes baixos (<10K/mês), overhead de infraestrutura inclina a balança para long-context.
Precisão de citações
Se seu caso de uso requer referências verificáveis. Citação de grau de auditoria (4) favorece fortemente RAG ou hybrid, porque modelos fine-tuned alucinam proveniência — não podem citar fontes que não viram em tempo de treinamento.
SLA de latência
Seu orçamento de latência ponta-a-ponta em milissegundos. RAG adiciona um salto de retrieval de 100–400 ms. Se seu SLA está abaixo de 500 ms, fine-tuning (sem retrieval) pode ser necessário. Long-context adiciona overhead de TTFT em grandes contagens de tokens.
Sensibilidade de dados
Classificação regulatória e de confidencialidade dos seus dados. Alta sensibilidade (4–5) limita quais provedores de API hospedados você pode usar para retrieval, e pode requerer infraestrutura de embedding e inferência auto-hospedada.
Especificidade de domínio
Quão especializado é seu vocabulário de domínio e formato de saída. Domínios altamente especializados (4–5) com jargão proprietário, esquemas de saída ou voz de marca beneficiam mais da adaptação em nível de pesos do fine-tuning do que apenas de retrieval.
Capacidade ML
Sua maturidade interna de engenharia de ML (1 = sem equipe ML, 5 = classe mundial). Arquiteturas fine-tuning e hybrid requerem expertise em ML para projetar, treinar, avaliar e manter. Equipes de baixa capacidade devem usar RAG ou long-context por padrão.
Limite de orçamento
Gasto mensal máximo. Se o custo estimado da abordagem líder excede 120% do seu limite, o motor aplica uma penalidade. Orçamento < $2K geralmente exclui hybrid; <$5K pode excluir fine-tuning quando o treinamento é amortizado.

2. Sinais compostos

Além das pontuações individuais por dimensão, o motor aplica sinais compostos que capturam interações entre dimensões:

Alto volume + citações rigorosas: Se consultas mensais ≥ 1M e citações = 4, Hybrid recebe +20 adicionais porque RAFT amortiza o custo de treinamento enquanto preserva a precisão de citação.
Baixo volume + baixo orçamento + não air-gapped: Long-context recebe +15 porque levantar infraestrutura vetorial não é economicamente justificado.
On-premises ou air-gapped: Fine-Tuning e Hybrid recebem +15/+10 porque podem ser implantados auto-hospedados, enquanto long-context (que requer chamadas de API hospedadas) é penalizado em −20.
Penalidade de orçamento: Se o custo mensal estimado de uma abordagem excede 120% do seu limite declarado, essa abordagem recebe −15 pontos.

3. Metodologia de estimativa de custo

Estimativas de custo são derivadas do seu volume mensal de consultas, contagens médias de tokens e dados de preços LLM ao vivo obtidos do nosso banco de modelos. A fórmula para cada classe:

RAG (mensal)

Custo único de embedding (amortizado em 6 meses) + taxa de Vector DB (em camadas por volume do corpus) + tokens de retrieval (preço de entrada do modelo de geração) + tokens de entrada e saída de geração + 15% de overhead operacional.

Fine-Tuning (mensal)

Custo de execução de treinamento ($1.200–$25.000, dirigido pela especificidade) amortizado em 6 meses + inferência fine-tuned a 1,2× o preço do modelo base + reserva de re-treinamento (2× custo inicial / ano).

Long-Context (mensal)

Tokens de documento por consulta × preço de entrada do modelo de geração + tokens de saída × preço de saída, menos economias de prompt-cache (sua taxa de hit do cache × 70% de desconto) e economias de batch-API (sua taxa elegível × 50% de desconto).

Hybrid / RAFT (mensal)

Todos os custos RAG + 60% dos custos Fine-Tuning (reflete a realidade de que RAFT requer tanto infraestrutura de retrieval quanto uma execução de treinamento, mas a inferência em tempo de consulta é mais eficiente que RAG puro).

Preço do Vector DB é em camadas por volume do corpus (escala 1–5 mapeando para $70–$3.000/mês), baseado em preços observados do pgvector, Pinecone, Weaviate e Qdrant a partir do Q1 2026. Preços de tokens LLM são puxados ao vivo do nosso banco de modelos e caem para padrões conservadores ($3/1M entrada, $12/1M saída) se o banco está indisponível.

4. Margem de confiança

A confiança é determinada pela margem de pontos entre a classe vencedora e o vice:

Confiança alta: margem ≥ 25 pontos — uma abordagem domina claramente.
Confiança média: margem 10–24 pontos — um líder claro, mas o vice é viável.
Confiança baixa: margem < 10 pontos — múltiplas abordagens estão estreitamente combinadas; uma prova de conceito com ambas é recomendada.

Se a pontuação vencedora estiver abaixo de 40, o motor também define uma "flag de re-escopo" indicando que nenhuma abordagem única domina — tipicamente um sinal de que o escopo do caso de uso deve ser estreitado antes de comprometer infraestrutura.

5. Registro de riscos

O motor avalia sete gatilhos de risco contra suas entradas e a recomendação vencedora. Cada risco tem um nível de severidade (alto, médio ou baixo) e uma recomendação de mitigação:

Risco de Citações Alucinadas (alto): Fine-Tuning recomendado + citações ≥ 3.
Limite de Orçamento em Risco (médio): Custo estimado > 90% do seu limite declarado.
Risco de Violação de Residência de Dados (alto): residência UE ou alta sensibilidade + Long-Context recomendado.
Lacuna de Capacidade ML (médio): Capacidade ≤ 2 + Fine-Tuning ou Hybrid recomendado.
Dados de Preço Obsoletos (baixo): Dados de preço Vector DB com mais de 90 dias.
Risco de Deriva do Corpus (médio): Frescura ≤ 2 + Fine-Tuning recomendado.
Orçamento de Latência em Risco (alto): SLA de latência < 500 ms + RAG ou Hybrid recomendado.

6. Limitações e suposições

Estimativas de custo são apenas indicativas. Custos reais dependem do fornecedor, tamanho do modelo, configuração de infraestrutura e preços negociados.
O modelo de pontuação é intencionalmente opinativo e baseado em padrões de produção observados em clientes Buzzi a partir do Q1 2026. Não substitui revisão arquitetural por engenheiro de ML experiente.
O motor não modela multi-tenancy, overhead de testes A/B, custo de pipeline de avaliação ou custo de rotulagem de dados para fine-tuning.
Custo Hybrid / RAFT assume um único ciclo de re-treinamento por janela de 6 meses. Equipes com necessidades de re-treinamento mais frequentes devem aumentar o divisor de amortização do treinamento.

Run the decision engine Talk to an architect

About

Insights

Streamline

Integration

Solutions

Healthcare AI

Use Cases

Industries

Scoring Methodology

1. As nove dimensões de pontuação

Frescura dos dados

Volume de documentos

Volume mensal de consultas

Precisão de citações

SLA de latência

Sensibilidade de dados

Especificidade de domínio

Capacidade ML

Limite de orçamento