Scoring Methodology
El Motor de Decisión RAG vs Fine-Tuning puntúa cuatro clases de arquitectura — RAG, Fine-Tuning, Long-Context e Hybrid — frente a nueve dimensiones de tu caso de uso. Esta página explica cómo se pondera cada dimensión, cómo se derivan las estimaciones de coste y cómo se reportan la confianza y el riesgo.
1. Las nueve dimensiones de puntuación
Cada dimensión contribuye con puntos positivos o negativos a una o más clases de arquitectura. Los puntos no son porcentajes — son señales aditivas. La clase con la puntuación total más alta gana. El margen entre la primera y la segunda clase determina la confianza.
Frescura de datos
Con qué frecuencia cambian tus datos fuente. Datos en tiempo real (1) favorecen fuertemente RAG porque los modelos fine-tuned no pueden incorporar nueva información sin un ciclo de re-entrenamiento. Datos estáticos (5) eliminan la ventaja clave de RAG.
Volumen de documentos
El tamaño de tu corpus de conocimiento. Corpus diminutos (<10K docs, puntuación 1) pueden caber en una ventana long-context. Corpus masivos (>10M docs, puntuación 5) descartan long-context y favorecen fuertemente la recuperación basada en vectores.
Volumen mensual de consultas
Total de llamadas de inferencia por mes. A volúmenes muy altos (>1M/mes), los costes de recuperación por consulta se acumulan y pueden hacer fine-tuning más eficiente en coste. A volúmenes bajos (<10K/mes), la sobrecarga de infraestructura inclina la balanza hacia long-context.
Precisión de citación
Si tu caso de uso requiere referencias verificables. Citación de grado de auditoría (4) favorece fuertemente RAG o hybrid, porque los modelos fine-tuned alucinan procedencia — no pueden citar fuentes que no vieron en tiempo de entrenamiento.
SLA de latencia
Tu presupuesto de latencia end-to-end en milisegundos. RAG añade un salto de recuperación de 100–400 ms. Si tu SLA está por debajo de 500 ms, fine-tuning (sin recuperación) puede ser necesario. Long-context añade sobrecarga TTFT con conteos de tokens grandes.
Sensibilidad de datos
Clasificación regulatoria y de confidencialidad de tus datos. Alta sensibilidad (4–5) limita qué proveedores hospedados puedes usar para recuperación, y puede requerir infraestructura auto-alojada de embedding e inferencia.
Especificidad de dominio
Cuán especializado es tu vocabulario y formato de salida. Dominios altamente especializados (4–5) con jerga propietaria, esquemas de salida o voz de marca se benefician más de la adaptación a nivel de pesos del fine-tuning que de sólo recuperación.
Capacidad ML
La madurez de tu ingeniería ML interna (1 = sin equipo ML, 5 = de clase mundial). Las arquitecturas de fine-tuning y hybrid requieren experiencia ML para diseñar, entrenar, evaluar y mantener. Equipos de baja capacidad deberían usar RAG o long-context por defecto.
Límite de presupuesto
Gasto mensual máximo. Si el coste estimado del enfoque líder excede el 120 % de tu límite, el motor aplica una penalización. Presupuesto < $2K generalmente descarta hybrid; <$5K puede descartar fine-tuning cuando el entrenamiento se amortiza.
2. Señales compuestas
Más allá de las puntuaciones individuales por dimensión, el motor aplica señales compuestas que capturan interacciones entre dimensiones:
- Alto volumen + citas estrictas: Si las consultas mensuales ≥ 1M y citas = 4, Hybrid recibe +20 adicionales porque RAFT amortiza el coste de entrenamiento mientras preserva la precisión de citación.
- Bajo volumen + bajo presupuesto + no aislado: Long-context recibe +15 porque levantar infraestructura de vectores no se justifica económicamente.
- On-premises o aislado: Fine-Tuning e Hybrid reciben +15/+10 porque pueden desplegarse auto-alojados, mientras que long-context (que requiere llamadas a API hospedadas) es penalizado en −20.
- Penalización por presupuesto: Si el coste mensual estimado de un enfoque excede el 120 % de tu límite, ese enfoque recibe −15 puntos.
3. Metodología de estimación de coste
Las estimaciones de coste se derivan de tu volumen mensual de consultas, conteos promedio de tokens y datos de precios LLM en vivo obtenidos de nuestra base de modelos. La fórmula para cada clase:
RAG (mensual)
Coste único de embedding (amortizado en 6 meses) + tarifa de Vector DB (escalonada por volumen del corpus) + tokens de recuperación (precio de entrada del modelo de generación) + tokens de entrada y salida de generación + 15 % de sobrecarga operativa.
Fine-Tuning (mensual)
Coste de entrenamiento ($1.200–$25.000, impulsado por especificidad) amortizado en 6 meses + inferencia fine-tuned a 1,2× el precio del modelo base + reserva de re-entrenamiento (2× coste inicial / año).
Long-Context (mensual)
Tokens de documento por consulta × precio de entrada del modelo de generación + tokens de salida × precio de salida, menos ahorros de prompt-cache (tu tasa de aciertos × 70 % de descuento) y ahorros de batch-API (tu tasa elegible × 50 % de descuento).
Hybrid / RAFT (mensual)
Todos los costes de RAG + 60 % de los costes de Fine-Tuning (refleja la realidad de que RAFT requiere tanto infraestructura de recuperación como una corrida de entrenamiento, pero la inferencia en tiempo de consulta es más eficiente que RAG puro).
El precio de Vector DB está escalonado por volumen del corpus (escala 1–5 mapeando a $70–$3.000/mes), basado en precios observados de pgvector, Pinecone, Weaviate y Qdrant a Q1 2026. Los precios de tokens LLM se obtienen en vivo de nuestra base de modelos y caen a valores conservadores ($3/1M entrada, $12/1M salida) si la base no está disponible.
4. Margen de confianza
La confianza se determina por el margen de puntos entre la clase ganadora y el subcampeón:
- Confianza alta: margen ≥ 25 puntos — un enfoque domina claramente.
- Confianza media: margen 10–24 puntos — un líder claro pero el subcampeón es viable.
- Confianza baja: margen < 10 puntos — múltiples enfoques están muy emparejados; se recomienda una prueba de concepto con ambos.
Si la puntuación ganadora está por debajo de 40, el motor también activa una “bandera de re-alcance” indicando que ningún enfoque domina — típicamente una señal de que el alcance del caso de uso debería reducirse antes de comprometer infraestructura.
5. Registro de riesgos
El motor evalúa siete activadores de riesgo contra tus entradas y la recomendación ganadora. Cada riesgo tiene un nivel de severidad (alto, medio o bajo) y una recomendación de mitigación:
- Riesgo de Citas Alucinadas (alto): Fine-Tuning recomendado + citas ≥ 3.
- Límite de Presupuesto en Riesgo (medio): Coste estimado > 90 % de tu límite declarado.
- Riesgo de Violación de Residencia de Datos (alto): residencia EU o alta sensibilidad + Long-Context recomendado.
- Brecha de Capacidad ML (medio): Capacidad ≤ 2 + Fine-Tuning o Hybrid recomendado.
- Datos de Precio Obsoletos (bajo): Datos de precios de Vector DB con más de 90 días.
- Riesgo de Deriva del Corpus (medio): Frescura ≤ 2 + Fine-Tuning recomendado.
- Presupuesto de Latencia en Riesgo (alto): SLA de latencia < 500 ms + RAG o Hybrid recomendado.
6. Limitaciones y supuestos
- Las estimaciones de coste son sólo indicativas. Los costes reales dependen del proveedor, tamaño del modelo, configuración de infraestructura y precios negociados.
- El modelo de puntuación es intencionalmente opinado y se basa en patrones de producción observados en clientes de Buzzi a Q1 2026. No sustituye una revisión arquitectónica por un ingeniero ML experimentado.
- El motor no modela multi-tenancy, sobrecarga de pruebas A/B, coste de pipeline de evaluación o coste de etiquetado de datos para fine-tuning.
- El coste Hybrid / RAFT asume un único ciclo de re-entrenamiento por ventana de 6 meses. Equipos con necesidades de re-entrenamiento más frecuentes deben aumentar el divisor de amortización del entrenamiento.