Scoring Methodology
Die RAG-vs-Fine-Tuning-Decision-Engine bewertet vier Architekturklassen — RAG, Fine-Tuning, Long-Context und Hybrid — gegen neun Dimensionen Ihres Anwendungsfalls. Diese Seite erklärt, wie jede Dimension gewichtet wird, wie Kostenschätzungen abgeleitet werden und wie Konfidenz und Risiko berichtet werden.
1. Die neun Scoring-Dimensionen
Jede Dimension trägt positive oder negative Punkte zu einer oder mehreren Architekturklassen bei. Punkte sind keine Prozentsätze — sie sind additive Signale. Die Klasse mit dem höchsten Gesamtwert gewinnt. Der Abstand zwischen erster und zweiter Klasse bestimmt die Konfidenz.
Datenaktualität
Wie häufig sich Ihre Quelldaten ändern. Echtzeitdaten (1) bevorzugen RAG stark, weil fine-tuned Modelle ohne Retraining-Zyklus keine neuen Informationen aufnehmen können. Statische Daten (5) entfernen den Hauptvorteil von RAG.
Dokumentenvolumen
Die Größe Ihres Wissenskorpus. Winzige Korpora (<10K Dokumente, Score 1) können in ein Long-Context-Fenster passen. Massive Korpora (>10M Dokumente, Score 5) schließen Long-Context aus und bevorzugen vektor-basierte Retrieval stark.
Monatliches Anfragevolumen
Gesamte Inferenzaufrufe pro Monat. Bei sehr hohen Volumina (>1M/Monat) summieren sich Retrieval-Kosten pro Anfrage und können Fine-Tuning kostengünstiger machen. Bei niedrigen Volumina (<10K/Monat) kippt der Infrastruktur-Overhead die Balance zu Long-Context.
Zitiergenauigkeit
Ob Ihr Anwendungsfall verifizierbare Quellenverweise erfordert. Audit-taugliche Zitierung (4) bevorzugt RAG oder Hybrid stark, weil fine-tuned Modelle Provenienz halluzinieren — sie können keine Quellen zitieren, die sie zur Trainingszeit nicht gesehen haben.
Latenz-SLA
Ihr End-to-End-Latenzbudget in Millisekunden. RAG fügt einen Retrieval-Sprung von 100–400 ms hinzu. Wenn Ihr SLA unter 500 ms liegt, kann Fine-Tuning (kein Retrieval) notwendig sein. Long-Context fügt TTFT-Overhead bei großen Token-Anzahlen hinzu.
Datensensibilität
Regulatorische und Vertraulichkeitsklassifikation Ihrer Daten. Hohe Sensibilität (4–5) begrenzt, welche gehosteten API-Anbieter Sie für Retrieval nutzen können, und kann selbst-gehostete Embedding- und Inferenz-Infrastruktur erfordern.
Domänenspezifität
Wie spezialisiert Ihr Domänen-Vokabular und Ausgabeformat sind. Hochspezialisierte Domänen (4–5) mit proprietärem Jargon, Ausgabeschemata oder Markenstimme profitieren mehr von der Gewichtsanpassung des Fine-Tunings als von Retrieval allein.
ML-Fähigkeit
Ihre interne ML-Engineering-Reife (1 = kein ML-Team, 5 = Weltklasse). Fine-Tuning- und Hybrid-Architekturen erfordern ML-Expertise zum Entwerfen, Trainieren, Bewerten und Warten. Teams mit niedriger Fähigkeit sollten standardmäßig RAG oder Long-Context wählen.
Budget-Obergrenze
Maximaler monatlicher Aufwand. Wenn die geschätzten Kosten des führenden Ansatzes 120 % Ihrer Obergrenze überschreiten, wendet die Engine eine Strafe an. Budget < 2K $ schließt im Allgemeinen Hybrid aus; <5K $ kann Fine-Tuning ausschließen, wenn Training amortisiert wird.
2. Zusammengesetzte Signale
Über individuelle Dimensions-Scores hinaus wendet die Engine zusammengesetzte Signale an, die Wechselwirkungen zwischen Dimensionen erfassen:
- Hohes Volumen + strenge Zitate: Wenn monatliche Anfragen ≥ 1M und Zitate = 4, erhält Hybrid zusätzliche +20, weil RAFT die Trainingskosten amortisiert und gleichzeitig die Zitiergenauigkeit bewahrt.
- Niedriges Volumen + niedriges Budget + nicht air-gapped: Long-context erhält +15, weil der Aufbau einer Vektor-Infrastruktur wirtschaftlich nicht gerechtfertigt ist.
- On-Premises oder air-gapped: Fine-Tuning und Hybrid erhalten +15/+10, weil sie selbst-gehostet bereitgestellt werden können, während long-context (das gehostete API-Aufrufe erfordert) mit −20 bestraft wird.
- Budget-Strafe: Wenn die geschätzten monatlichen Kosten eines Ansatzes 120 % Ihrer angegebenen Obergrenze überschreiten, erhält dieser Ansatz −15 Punkte.
3. Kostenschätzungs-Methodik
Kostenschätzungen werden aus Ihrem monatlichen Anfragevolumen, durchschnittlichen Token-Anzahlen und Live-LLM-Preisdaten aus unserer Modelldatenbank abgeleitet. Die Formel für jede Klasse:
RAG (monatlich)
Einmalige Embedding-Kosten (über 6 Monate amortisiert) + Vector-DB-Gebühr (gestaffelt nach Korpus-Volumen) + Retrieval-Tokens (Eingabepreis Generierungsmodell) + Generierungs-Eingabe- und Ausgabe-Tokens + 15 % operationaler Overhead.
Fine-Tuning (monatlich)
Trainingslaufkosten (1.200–25.000 $, getrieben von Spezifität) über 6 Monate amortisiert + Fine-tuned-Inferenz zu 1,2× Basismodell-Preis + Retraining-Reserve (2× Initialkosten / Jahr).
Long-Context (monatlich)
Dokument-Tokens pro Anfrage × Eingabepreis Generierungsmodell + Ausgabe-Tokens × Ausgabepreis, abzüglich Prompt-Cache-Einsparungen (Ihre Cache-Trefferquote × 70 % Rabatt) und Batch-API-Einsparungen (Ihre Batch-fähige Quote × 50 % Rabatt).
Hybrid / RAFT (monatlich)
Alle RAG-Kosten + 60 % der Fine-Tuning-Kosten (spiegelt die Realität wider, dass RAFT sowohl Retrieval-Infrastruktur als auch einen Trainingslauf erfordert, aber die Anfrage-Inferenz effizienter ist als reines RAG).
Vector-DB-Preise sind nach Korpus-Volumen gestaffelt (1–5-Skala mappt auf 70–3.000 $/Mon.), basierend auf beobachteten Preisen von pgvector, Pinecone, Weaviate und Qdrant ab Q1 2026. LLM-Token-Preise werden live aus unserer Modelldatenbank gezogen und fallen auf konservative Defaults zurück (3 $/1M Eingabe, 12 $/1M Ausgabe), wenn die Datenbank nicht verfügbar ist.
4. Konfidenzabstand
Die Konfidenz wird durch den Punkteabstand zwischen Gewinnerklasse und Zweitplatzierter bestimmt:
- Hohe Konfidenz: Abstand ≥ 25 Punkte — ein Ansatz dominiert klar.
- Mittlere Konfidenz: Abstand 10–24 Punkte — ein klarer Anführer, aber der Zweitplatzierte ist tragfähig.
- Niedrige Konfidenz: Abstand < 10 Punkte — mehrere Ansätze sind eng beieinander; ein Proof-of-Concept mit beiden wird empfohlen.
Wenn der Gewinnerwert unter 40 liegt, setzt die Engine auch eine „Rescope-Flagge“, die anzeigt, dass kein einzelner Ansatz dominiert — typischerweise ein Zeichen, dass der Anwendungsfall-Umfang vor einer Infrastrukturverpflichtung eingeengt werden sollte.
5. Risikoregister
Die Engine bewertet sieben Risiko-Auslöser gegen Ihre Eingaben und die Gewinnerempfehlung. Jedes Risiko hat einen Schweregrad (hoch, mittel oder niedrig) und eine Minderungsempfehlung:
- Risiko halluzinierter Zitate (hoch): Fine-Tuning empfohlen + Zitate ≥ 3.
- Budget-Obergrenze gefährdet (mittel): Geschätzte Kosten > 90 % Ihrer angegebenen Obergrenze.
- Risiko Datenresidenz-Verletzung (hoch): EU-Residenz oder hohe Sensibilität + Long-Context empfohlen.
- ML-Kapazitätslücke (mittel): Kapazität ≤ 2 + Fine-Tuning oder Hybrid empfohlen.
- Veraltete Preisdaten (niedrig): Vector-DB-Preisdaten älter als 90 Tage.
- Korpus-Drift-Risiko (mittel): Frische ≤ 2 + Fine-Tuning empfohlen.
- Latenzbudget gefährdet (hoch): Latenz-SLA < 500 ms + RAG oder Hybrid empfohlen.
6. Einschränkungen und Annahmen
- Kostenschätzungen sind nur indikativ. Tatsächliche Kosten hängen von Anbieter, Modellgröße, Infrastrukturkonfiguration und ausgehandelten Preisen ab.
- Das Scoring-Modell ist absichtlich meinungsstark und basiert auf beobachteten Produktionsmustern bei Buzzi-Kunden ab Q1 2026. Es ersetzt keine Architekturüberprüfung durch einen erfahrenen ML-Ingenieur.
- Die Engine modelliert keine Multi-Tenancy, A/B-Test-Overhead, Evaluationspipeline-Kosten oder Datenmarkierungskosten für Fine-Tuning.
- Hybrid-/RAFT-Kosten gehen von einem einzigen Retraining-Zyklus pro 6-Monats-Fenster aus. Teams mit häufigeren Retraining-Anforderungen sollten den Trainings-Amortisationsdivisor erhöhen.