Scoring Methodology

RAG vs Fine-Tuning Decision Engineは、4぀のアヌキテクチャ・クラス — RAG、Fine-Tuning、Long-Context、Hybrid — をナヌスケヌスの9぀の次元に察しおスコアリングしたす。このペヌゞは、各次元がどのように重み付けされるか、コスト芋積もりがどのように導出されるか、信頌床ずリスクがどのように報告されるかを説明したす。

1. 9぀のスコアリング次元

各次元は、1぀たたは耇数のアヌキテクチャ・クラスにプラスたたはマむナスのポむントを寄䞎したす。ポむントはパヌセンテヌゞではありたせん — 加算されるシグナルです。合蚈スコアが最も高いクラスが勝ちたす。1䜍ず2䜍の差が信頌床を決定したす。

  • デヌタの鮮床

    ゜ヌス・デヌタが倉化する頻床。リアルタむム・デヌタ1はRAGを匷く奜みたす。ファむンチュヌンされたモデルは、再トレヌニング・サむクルなしに新しい情報を取り蟌めないためです。静的デヌタ5はRAGの䞻芁な利点を取り陀きたす。

  • ドキュメント・ボリュヌム

    ナレッゞ・コヌパスのサむズ。小さなコヌパス<10Kドキュメント、スコア1はlong-contextりィンドりに収たる可胜性がありたす。倧芏暡なコヌパス>10Mドキュメント、スコア5はlong-contextを陀倖し、ベクトルベヌスのリトリヌバルを匷く奜みたす。

  • 月間ク゚リ・ボリュヌム

    月あたりの掚論コヌル総数。非垞に高いボリュヌム>1M/月では、ク゚リあたりのリトリヌバル・コストが环積し、ファむンチュヌニングの方がコスト効率的になる可胜性がありたす。䜎ボリュヌム<10K/月では、むンフラ・オヌバヌヘッドがlong-contextに傟きたす。

  • 匕甚粟床

    ナヌスケヌスが怜蚌可胜な゜ヌス参照を必芁ずするかどうか。監査グレヌドの匕甚4はRAGたたはhybridを匷く奜みたす。ファむンチュヌンされたモデルは出所を幻芚するためです — トレヌニング時に芋おいない゜ヌスを匕甚できたせん。

  • レむテンシSLA

    ゚ンドツヌ゚ンドのレむテンシ予算ミリ秒。RAGは100〜400 msのリトリヌバル・ホップを远加したす。SLAが500 ms未満の堎合、ファむンチュヌニングリトリヌバルなしが必芁かもしれたせん。Long-contextは倧きなトヌクン数でTTFTオヌバヌヘッドを远加したす。

  • デヌタ機密性

    デヌタの芏制および機密性分類。高機密性4〜5は、リトリヌバルに䜿甚できるホストAPIプロバむダヌを制限し、セルフホストの゚ンベディングず掚論むンフラが必芁になる可胜性がありたす。

  • ドメむン特異性

    ドメむンの語圙ず出力フォヌマットの専門性。専有甚語、出力スキヌマ、ブランド・ボむスを持぀高床に専門化されたドメむン4〜5は、リトリヌバル単独よりもファむンチュヌニングの重みレベルの適応からより倚くの恩恵を受けたす。

  • ML胜力

    瀟内のML゚ンゞニアリング成熟床1 = MLチヌムなし、5 = 䞖界クラス。ファむンチュヌニングずhybridアヌキテクチャは、蚭蚈、トレヌニング、評䟡、メンテナンスにML専門知識を必芁ずしたす。䜎胜力チヌムはRAGたたはlong-contextをデフォルトにすべきです。

  • 予算䞊限

    最倧月額支出。リヌディング・アプロヌチの掚定コストが䞊限の120%を超える堎合、゚ンゞンはペナルティを適甚したす。予算 < $2Kは䞀般的にhybridを陀倖し、<$5Kはトレヌニングが償华される堎合にファむンチュヌニングを陀倖する可胜性がありたす。

2. 耇合シグナル

個別の次元スコアを超えお、゚ンゞンは次元間の盞互䜜甚を捉える耇合シグナルを適甚したす

  • 高ボリュヌム + 厳栌な匕甚月間ク゚リ ≥ 1Mか぀匕甚 = 4の堎合、Hybridは远加の+20を受け取りたす。RAFTは匕甚粟床を維持しながらトレヌニング・コストを償华するためです。
  • 䜎ボリュヌム + 䜎予算 + ゚アギャップなしLong-contextは+15を受け取りたす。ベクトル・むンフラを立ち䞊げるこずが経枈的に正圓化されないためです。
  • オンプレミスたたぱアギャップFine-TuningずHybridは+15/+10を受け取りたす。セルフホストでデプロむ可胜なためです。䞀方、long-contextホストAPIコヌルが必芁は−20でペナルティを受けたす。
  • 予算ペナルティあるアプロヌチの掚定月額コストが指定䞊限の120%を超える堎合、そのアプロヌチは−15ポむントを受けたす。

3. コスト芋積もり方法論

コスト芋積もりは、月間ク゚リ数、平均トヌクン数、モデル・デヌタベヌスから取埗したラむブLLM䟡栌デヌタから導出されたす。各クラスの匏

RAG月額

゚ンベディング初回コスト6ヶ月で償华+ Vector DB手数料コヌパス・ボリュヌムごずに段階的+ リトリヌバル・トヌクン生成モデル入力䟡栌+ 生成入力&出力トヌクン + 15%の運甚オヌバヌヘッド。

Fine-Tuning月額

トレヌニング実行コスト$1,200〜$25,000、特異性が決定を6ヶ月で償华 + 1.2倍の基本モデル䟡栌でのファむンチュヌン掚論 + 再トレヌニング予備幎間2倍の初期コスト。

Long-Context月額

ク゚リあたりのドキュメント・トヌクン × 生成モデル入力䟡栌 + 出力トヌクン × 出力䟡栌、匕いおプロンプト・キャッシュの節玄キャッシュ・ヒット率 × 70%割匕ずバッチAPI節玄バッチ察象率 × 50%割匕。

Hybrid / RAFT月額

å…šRAGコスト + Fine-Tuningコストの60%RAFTがリトリヌバル・むンフラずトレヌニング実行の䞡方を必芁ずするが、ク゚リ時の掚論は玔粋なRAGより効率的ずいう珟実を反映。

Vector DB䟡栌はコヌパス・ボリュヌムで段階的1〜5スケヌルが$70〜$3,000/月にマップ、Q1 2026時点のpgvector、Pinecone、Weaviate、Qdrantで芳察された䟡栌に基づいおいたす。LLMトヌクン䟡栌はモデル・デヌタベヌスからラむブで取埗され、デヌタベヌスが利甚できない堎合は保守的なデフォルト$3/1M入力、$12/1M出力にフォヌルバックしたす。

4. 信頌床マヌゞン

信頌床は、勝者クラスず2䜍の間のポむント・マヌゞンによっお決定されたす

  • 高信頌床マヌゞン ≥ 25ポむント — 1぀のアプロヌチが明らかに支配。
  • 䞭信頌床マヌゞン10〜24ポむント — 明確なリヌダヌ、ただし2䜍も実珟可胜。
  • 䜎信頌床マヌゞン < 10ポむント — 耇数のアプロヌチが拮抗、䞡方でPoCが掚奚されたす。

勝者スコアが40未満の堎合、゚ンゞンは「再スコヌプ・フラグ」も蚭定し、単䞀のアプロヌチが支配しないこずを瀺したす — 通垞、むンフラにコミットする前にナヌスケヌス範囲を狭めるべき兆候です。

5. リスク・レゞスタヌ

゚ンゞンは7぀のリスク・トリガヌを入力ず勝者の掚奚に察しお評䟡したす。各リスクには重倧床レベル高、䞭、䜎ず緩和掚奚がありたす

  • 幻芚匕甚リスク高Fine-Tuning掚奚 + 匕甚 ≥ 3。
  • 予算䞊限リスク䞭掚定コスト > 指定䞊限の90%。
  • デヌタ垞駐違反リスク高EU垞駐たたは高機密 + Long-Context掚奚。
  • ML胜力ギャップ䞭胜力 ≀ 2 + Fine-TuningたたはHybrid掚奚。
  • 叀い䟡栌デヌタ䜎Vector DB䟡栌デヌタが90日以䞊前。
  • コヌパス・ドリフト・リスク䞭鮮床 ≀ 2 + Fine-Tuning掚奚。
  • レむテンシ予算リスク高レむテンシSLA < 500 ms + RAGたたはHybrid掚奚。

6. 制限ず前提

  • コスト芋積もりは指暙的なものに過ぎたせん。実際のコストはプロバむダヌ、モデル・サむズ、むンフラ構成、亀枉䟡栌に䟝存したす。
  • スコアリング・モデルは意図的に意芋的で、Q1 2026時点でBuzziのクラむアントで芳察された本番パタヌンに基づいおいたす。経隓豊富なML゚ンゞニアによるアヌキテクチャ・レビュヌの代替ではありたせん。
  • ゚ンゞンはマルチテナンシヌ、A/Bテスト・オヌバヌヘッド、評䟡パむプラむン・コスト、Fine-Tuning甚のデヌタラベリング・コストをモデル化したせん。
  • Hybrid / RAFTコストは6ヶ月りィンドりあたり1回の再トレヌニング・サむクルを想定しおいたす。より頻繁な再トレヌニングが必芁なチヌムは、トレヌニング償华陀数を増やすべきです。