Scoring Methodology

RAG vs Fine-Tuning Decision Engineは、4つのアーキテクチャ・クラス — RAG、Fine-Tuning、Long-Context、Hybrid — をユースケースの9つの次元に対してスコアリングします。このページは、各次元がどのように重み付けされるか、コスト見積もりがどのように導出されるか、信頼度とリスクがどのように報告されるかを説明します。

1. 9つのスコアリング次元

各次元は、1つまたは複数のアーキテクチャ・クラスにプラスまたはマイナスのポイントを寄与します。ポイントはパーセンテージではありません — 加算されるシグナルです。合計スコアが最も高いクラスが勝ちます。1位と2位の差が信頼度を決定します。

データの鮮度
ソース・データが変化する頻度。リアルタイム・データ（1）はRAGを強く好みます。ファインチューンされたモデルは、再トレーニング・サイクルなしに新しい情報を取り込めないためです。静的データ（5）はRAGの主要な利点を取り除きます。
ドキュメント・ボリューム
ナレッジ・コーパスのサイズ。小さなコーパス（<10Kドキュメント、スコア1）はlong-contextウィンドウに収まる可能性があります。大規模なコーパス（>10Mドキュメント、スコア5）はlong-contextを除外し、ベクトルベースのリトリーバルを強く好みます。
月間クエリ・ボリューム
月あたりの推論コール総数。非常に高いボリューム（>1M/月）では、クエリあたりのリトリーバル・コストが累積し、ファインチューニングの方がコスト効率的になる可能性があります。低ボリューム（<10K/月）では、インフラ・オーバーヘッドがlong-contextに傾きます。
引用精度
ユースケースが検証可能なソース参照を必要とするかどうか。監査グレードの引用（4）はRAGまたはhybridを強く好みます。ファインチューンされたモデルは出所を幻覚するためです — トレーニング時に見ていないソースを引用できません。
レイテンシSLA
エンドツーエンドのレイテンシ予算（ミリ秒）。RAGは100〜400 msのリトリーバル・ホップを追加します。SLAが500 ms未満の場合、ファインチューニング（リトリーバルなし）が必要かもしれません。Long-contextは大きなトークン数でTTFTオーバーヘッドを追加します。
データ機密性
データの規制および機密性分類。高機密性（4〜5）は、リトリーバルに使用できるホストAPIプロバイダーを制限し、セルフホストのエンベディングと推論インフラが必要になる可能性があります。
ドメイン特異性
ドメインの語彙と出力フォーマットの専門性。専有用語、出力スキーマ、ブランド・ボイスを持つ高度に専門化されたドメイン（4〜5）は、リトリーバル単独よりもファインチューニングの重みレベルの適応からより多くの恩恵を受けます。
ML能力
社内のMLエンジニアリング成熟度（1 = MLチームなし、5 = 世界クラス）。ファインチューニングとhybridアーキテクチャは、設計、トレーニング、評価、メンテナンスにML専門知識を必要とします。低能力チームはRAGまたはlong-contextをデフォルトにすべきです。
予算上限
最大月額支出。リーディング・アプローチの推定コストが上限の120%を超える場合、エンジンはペナルティを適用します。予算 < $2Kは一般的にhybridを除外し、<$5Kはトレーニングが償却される場合にファインチューニングを除外する可能性があります。

2. 複合シグナル

個別の次元スコアを超えて、エンジンは次元間の相互作用を捉える複合シグナルを適用します：

高ボリューム + 厳格な引用：月間クエリ ≥ 1Mかつ引用 = 4の場合、Hybridは追加の+20を受け取ります。RAFTは引用精度を維持しながらトレーニング・コストを償却するためです。
低ボリューム + 低予算 + エアギャップなし：Long-contextは+15を受け取ります。ベクトル・インフラを立ち上げることが経済的に正当化されないためです。
オンプレミスまたはエアギャップ：Fine-TuningとHybridは+15/+10を受け取ります。セルフホストでデプロイ可能なためです。一方、long-context（ホストAPIコールが必要）は−20でペナルティを受けます。
予算ペナルティ：あるアプローチの推定月額コストが指定上限の120%を超える場合、そのアプローチは−15ポイントを受けます。

3. コスト見積もり方法論

コスト見積もりは、月間クエリ数、平均トークン数、モデル・データベースから取得したライブLLM価格データから導出されます。各クラスの式：

RAG（月額）

エンベディング初回コスト（6ヶ月で償却）+ Vector DB手数料（コーパス・ボリュームごとに段階的）+ リトリーバル・トークン（生成モデル入力価格）+ 生成入力&出力トークン + 15%の運用オーバーヘッド。

Fine-Tuning（月額）

トレーニング実行コスト（$1,200〜$25,000、特異性が決定）を6ヶ月で償却 + 1.2倍の基本モデル価格でのファインチューン推論 + 再トレーニング予備（年間2倍の初期コスト）。

Long-Context（月額）

クエリあたりのドキュメント・トークン × 生成モデル入力価格 + 出力トークン × 出力価格、引いてプロンプト・キャッシュの節約（キャッシュ・ヒット率 × 70%割引）とバッチAPI節約（バッチ対象率 × 50%割引）。

Hybrid / RAFT（月額）

全RAGコスト + Fine-Tuningコストの60%（RAFTがリトリーバル・インフラとトレーニング実行の両方を必要とするが、クエリ時の推論は純粋なRAGより効率的という現実を反映）。

Vector DB価格はコーパス・ボリュームで段階的（1〜5スケールが$70〜$3,000/月にマップ）、Q1 2026時点のpgvector、Pinecone、Weaviate、Qdrantで観察された価格に基づいています。LLMトークン価格はモデル・データベースからライブで取得され、データベースが利用できない場合は保守的なデフォルト（$3/1M入力、$12/1M出力）にフォールバックします。

4. 信頼度マージン

信頼度は、勝者クラスと2位の間のポイント・マージンによって決定されます：

高信頼度：マージン ≥ 25ポイント — 1つのアプローチが明らかに支配。
中信頼度：マージン10〜24ポイント — 明確なリーダー、ただし2位も実現可能。
低信頼度：マージン < 10ポイント — 複数のアプローチが拮抗、両方でPoCが推奨されます。

勝者スコアが40未満の場合、エンジンは「再スコープ・フラグ」も設定し、単一のアプローチが支配しないことを示します — 通常、インフラにコミットする前にユースケース範囲を狭めるべき兆候です。

5. リスク・レジスター

エンジンは7つのリスク・トリガーを入力と勝者の推奨に対して評価します。各リスクには重大度レベル（高、中、低）と緩和推奨があります：

幻覚引用リスク（高）：Fine-Tuning推奨 + 引用 ≥ 3。
予算上限リスク（中）：推定コスト > 指定上限の90%。
データ常駐違反リスク（高）：EU常駐または高機密 + Long-Context推奨。
ML能力ギャップ（中）：能力 ≤ 2 + Fine-TuningまたはHybrid推奨。
古い価格データ（低）：Vector DB価格データが90日以上前。
コーパス・ドリフト・リスク（中）：鮮度 ≤ 2 + Fine-Tuning推奨。
レイテンシ予算リスク（高）：レイテンシSLA < 500 ms + RAGまたはHybrid推奨。

6. 制限と前提

コスト見積もりは指標的なものに過ぎません。実際のコストはプロバイダー、モデル・サイズ、インフラ構成、交渉価格に依存します。
スコアリング・モデルは意図的に意見的で、Q1 2026時点でBuzziのクライアントで観察された本番パターンに基づいています。経験豊富なMLエンジニアによるアーキテクチャ・レビューの代替ではありません。
エンジンはマルチテナンシー、A/Bテスト・オーバーヘッド、評価パイプライン・コスト、Fine-Tuning用のデータラベリング・コストをモデル化しません。
Hybrid / RAFTコストは6ヶ月ウィンドウあたり1回の再トレーニング・サイクルを想定しています。より頻繁な再トレーニングが必要なチームは、トレーニング償却除数を増やすべきです。

Run the decision engine Talk to an architect

About

Insights

Streamline

Integration

Solutions

Healthcare AI

Use Cases

Industries

Scoring Methodology

1. 9つのスコアリング次元

データの鮮度

ドキュメント・ボリューム

月間クエリ・ボリューム

引用精度

レイテンシSLA

データ機密性

ドメイン特異性

ML能力

予算上限