Scoring Methodology

De RAG vs Fine-Tuning Decision Engine scoort vier architectuurklassen — RAG, Fine-Tuning, Long-Context en Hybrid — tegen negen dimensies van uw use case. Deze pagina legt uit hoe elke dimensie wordt gewogen, hoe kostenschattingen worden afgeleid en hoe vertrouwen en risico worden gerapporteerd.

1. De negen scoring-dimensies

Elke dimensie draagt positieve of negatieve punten bij aan een of meer architectuurklassen. Punten zijn geen percentages — ze zijn additieve signalen. De klasse met de hoogste totaalscore wint. De marge tussen eerste en tweede klasse bepaalt het vertrouwen.

  • Data-versheid

    Hoe vaak uw bron-data verandert. Realtime-data (1) bevoordeelt sterk RAG omdat fine-tuned modellen geen nieuwe informatie kunnen opnemen zonder een retraining-cyclus. Statische data (5) verwijdert het belangrijkste voordeel van RAG.

  • Documentvolume

    De grootte van uw kennis-corpus. Kleine corpora (<10K documenten, score 1) kunnen passen in een long-context-venster. Massieve corpora (>10M documenten, score 5) sluiten long-context uit en bevoordelen sterk vector-gebaseerde retrieval.

  • Maandelijks query-volume

    Totale inferentie-aanroepen per maand. Bij zeer hoge volumes (>1M/maand) stapelen retrieval-kosten per query op en kunnen ze fine-tuning kosteneffectiever maken. Bij lage volumes (<10K/maand) verschuift de infrastructuur-overhead de balans naar long-context.

  • Citaten-nauwkeurigheid

    Of uw use case verifieerbare bronverwijzingen vereist. Audit-grade citatie (4) bevoordeelt sterk RAG of hybrid, omdat fine-tuned modellen herkomst hallucineren — ze kunnen geen bronnen citeren die ze niet zagen tijdens training.

  • Latentie-SLA

    Uw end-to-end latentie-budget in milliseconden. RAG voegt een retrieval-hop van 100–400 ms toe. Als uw SLA onder 500 ms ligt, kan fine-tuning (geen retrieval) noodzakelijk zijn. Long-context voegt TTFT-overhead toe bij grote token-aantallen.

  • Datagevoeligheid

    Regelgevings- en vertrouwelijkheidsclassificatie van uw data. Hoge gevoeligheid (4–5) beperkt welke gehoste API-providers u kunt gebruiken voor retrieval, en kan zelf-gehoste embedding- en inferentie-infrastructuur vereisen.

  • Domein-specificiteit

    Hoe gespecialiseerd uw domein-vocabulaire en output-formaat zijn. Sterk gespecialiseerde domeinen (4–5) met eigen jargon, output-schema's of merkstem profiteren meer van fine-tuning's gewichtsniveau-aanpassing dan van retrieval alleen.

  • ML-capaciteit

    Uw interne ML-engineering-volwassenheid (1 = geen ML-team, 5 = wereldklasse). Fine-tuning- en hybrid-architecturen vereisen ML-expertise om te ontwerpen, trainen, evalueren en onderhouden. Teams met lage capaciteit moeten standaard RAG of long-context kiezen.

  • Budgetplafond

    Maximaal maandelijks budget. Als de geschatte kosten van de leidende aanpak 120% van uw plafond overschrijden, past de engine een straf toe. Budget < $2K sluit hybrid in het algemeen uit; <$5K kan fine-tuning uitsluiten wanneer training wordt geamortiseerd.

2. Samengestelde signalen

Naast individuele dimensiescores past de engine samengestelde signalen toe die interacties tussen dimensies vastleggen:

  • Hoog volume + strikte citaten: Als maandelijkse query's ≥ 1M en citaten = 4, krijgt Hybrid extra +20 omdat RAFT trainingskosten amortiseert terwijl de citaat-nauwkeurigheid behouden blijft.
  • Laag volume + laag budget + niet air-gapped: Long-context krijgt +15 omdat het opzetten van vector-infrastructuur economisch niet gerechtvaardigd is.
  • On-premises of air-gapped: Fine-Tuning en Hybrid krijgen +15/+10 omdat ze zelf-gehost geïmplementeerd kunnen worden, terwijl long-context (dat gehoste API-calls vereist) wordt bestraft met −20.
  • Budgetstraf: Als de geschatte maandelijkse kosten van een aanpak 120% van uw vastgestelde plafond overschrijden, krijgt die aanpak −15 punten.

3. Kostenschatting-methodologie

Kostenschattingen worden afgeleid van uw maandelijks query-volume, gemiddelde token-aantallen en live LLM-prijsdata opgehaald uit onze modeldatabase. De formule voor elke klasse:

RAG (maandelijks)

Eenmalige embedding-kosten (over 6 maanden geamortiseerd) + Vector DB-kosten (gelaagd op corpus-volume) + retrieval-tokens (input-prijs generatiemodel) + generatie input- en output-tokens + 15% operationele overhead.

Fine-Tuning (maandelijks)

Trainingsuitvoeringskosten ($1.200–$25.000, gedreven door specificiteit) over 6 maanden geamortiseerd + fine-tuned inferentie tegen 1,2× de basisprijs van het model + retraining-reserve (2× initiële kosten / jaar).

Long-Context (maandelijks)

Document-tokens per query × input-prijs generatiemodel + output-tokens × output-prijs, minus prompt-cache-besparingen (uw cache-hit-ratio × 70% korting) en batch-API-besparingen (uw batch-eligible ratio × 50% korting).

Hybrid / RAFT (maandelijks)

Alle RAG-kosten + 60% van Fine-Tuning-kosten (weerspiegelt de realiteit dat RAFT zowel retrieval-infrastructuur als een trainingsuitvoering vereist, maar query-tijd inferentie efficiënter is dan pure RAG).

Vector DB-prijzen zijn gelaagd op corpus-volume (1–5-schaal mapt naar $70–$3.000/maand), gebaseerd op waargenomen prijzen van pgvector, Pinecone, Weaviate en Qdrant per Q1 2026. LLM-token-prijzen worden live opgehaald uit onze modeldatabase en vallen terug op conservatieve standaardwaarden ($3/1M input, $12/1M output) als de database niet beschikbaar is.

4. Vertrouwens-marge

Vertrouwen wordt bepaald door de punten-marge tussen de winnende klasse en de tweede:

  • Hoog vertrouwen: marge ≥ 25 punten — één aanpak domineert duidelijk.
  • Middel vertrouwen: marge 10–24 punten — een duidelijke leider maar de tweede is haalbaar.
  • Laag vertrouwen: marge < 10 punten — meerdere aanpakken zijn nauw gekoppeld; een proof-of-concept met beide wordt aanbevolen.

Als de winnende score onder 40 ligt, stelt de engine ook een "rescope-vlag" in die aangeeft dat geen enkele aanpak domineert — meestal een teken dat de use-case-scope moet worden vernauwd voordat infrastructuur wordt vastgelegd.

5. Risico-register

De engine evalueert zeven risico-triggers tegen uw input en de winnende aanbeveling. Elk risico heeft een ernstniveau (hoog, midden of laag) en een mitigatie-aanbeveling:

  • Risico Gehalcineerde Citaten (hoog): Fine-Tuning aanbevolen + citaten ≥ 3.
  • Budgetplafond in Risico (midden): Geschatte kosten > 90% van uw vastgestelde plafond.
  • Risico Data-Residency-Schending (hoog): EU-residency of hoge gevoeligheid + Long-Context aanbevolen.
  • ML-Capaciteits-Gat (midden): Capaciteit ≤ 2 + Fine-Tuning of Hybrid aanbevolen.
  • Verouderde Prijsdata (laag): Vector DB-prijsdata ouder dan 90 dagen.
  • Risico Corpus-Drift (midden): Versheid ≤ 2 + Fine-Tuning aanbevolen.
  • Latentiebudget in Risico (hoog): Latentie-SLA < 500 ms + RAG of Hybrid aanbevolen.

6. Beperkingen en aannames

  • Kostenschattingen zijn alleen indicatief. Werkelijke kosten zijn afhankelijk van leverancier, modelgrootte, infrastructuurconfiguratie en onderhandelde prijzen.
  • Het scoring-model is opzettelijk opinion-based en gebaseerd op waargenomen productiepatronen bij Buzzi-klanten per Q1 2026. Het is geen vervanging voor architecturale review door een ervaren ML-engineer.
  • De engine modelleert geen multi-tenancy, A/B-test-overhead, evaluatie-pipeline-kosten of data-labeling-kosten voor fine-tuning.
  • Hybrid / RAFT-kosten gaan uit van één retraining-cyclus per 6-maanden venster. Teams met frequentere retraining-behoeften moeten de trainings-amortisatie-deler verhogen.