Scoring Methodology
RAG vs Fine-Tuning Decision Engine оценивает четыре класса архитектуры — RAG, Fine-Tuning, Long-Context и Hybrid — по девяти измерениям вашего варианта использования. Эта страница объясняет, как взвешивается каждое измерение, как выводятся оценки стоимости и как сообщается о доверии и риске.
1. Девять измерений оценки
Каждое измерение вносит положительные или отрицательные баллы в один или несколько классов архитектуры. Баллы — это не проценты, а аддитивные сигналы. Класс с наибольшим общим баллом побеждает. Маржа между первым и вторым классом определяет доверие.
Свежесть данных
Как часто меняются ваши исходные данные. Данные в реальном времени (1) сильно благоприятствуют RAG, поскольку fine-tuned модели не могут включать новую информацию без цикла переобучения. Статические данные (5) устраняют ключевое преимущество RAG.
Объём документов
Размер вашего корпуса знаний. Крошечные корпуса (<10K документов, балл 1) могут поместиться в окно long-context. Массивные корпуса (>10M документов, балл 5) исключают long-context и сильно благоприятствуют извлечению на основе векторов.
Ежемесячный объём запросов
Общее количество вызовов инференса в месяц. При очень больших объёмах (>1M/мес.) затраты на извлечение на запрос накапливаются и могут сделать fine-tuning более экономичным. При малых объёмах (<10K/мес.) накладные расходы инфраструктуры склоняют чашу весов к long-context.
Точность цитирования
Требует ли ваш вариант использования проверяемых ссылок на источники. Цитирование уровня аудита (4) сильно благоприятствует RAG или hybrid, поскольку fine-tuned модели галлюцинируют происхождение — они не могут цитировать источники, которые не видели на обучении.
SLA задержки
Ваш сквозной бюджет задержки в миллисекундах. RAG добавляет хоп извлечения 100–400 мс. Если ваш SLA ниже 500 мс, может потребоваться fine-tuning (без извлечения). Long-context добавляет накладные расходы TTFT при больших количествах токенов.
Чувствительность данных
Регуляторная и конфиденциальная классификация ваших данных. Высокая чувствительность (4–5) ограничивает, каких хостинг-провайдеров API вы можете использовать для извлечения, и может потребовать самостоятельно размещённой инфраструктуры встраивания и инференса.
Специфичность домена
Насколько специализирован ваш доменный словарь и формат вывода. Сильно специализированные домены (4–5) с проприетарным жаргоном, схемами вывода или брендовым голосом получают больше пользы от адаптации на уровне весов fine-tuning, чем от одного только извлечения.
ML-возможности
Ваша внутренняя зрелость ML-инжиниринга (1 = нет ML-команды, 5 = мирового класса). Архитектуры fine-tuning и hybrid требуют ML-экспертизы для проектирования, обучения, оценки и поддержки. Команды с низкими возможностями должны по умолчанию использовать RAG или long-context.
Потолок бюджета
Максимальные ежемесячные расходы. Если расчётная стоимость ведущего подхода превышает 120% вашего потолка, движок применяет штраф. Бюджет < $2K, как правило, исключает hybrid; <$5K может исключить fine-tuning, когда обучение амортизируется.
2. Составные сигналы
Помимо индивидуальных баллов измерений, движок применяет составные сигналы, которые улавливают взаимодействия между измерениями:
- Высокий объём + строгие цитаты: Если ежемесячные запросы ≥ 1M и цитаты = 4, Hybrid получает дополнительные +20, поскольку RAFT амортизирует стоимость обучения, сохраняя точность цитирования.
- Низкий объём + низкий бюджет + не изолировано: Long-context получает +15, поскольку развёртывание векторной инфраструктуры экономически не оправдано.
- On-premises или изолировано: Fine-Tuning и Hybrid получают +15/+10, поскольку их можно развернуть self-hosted, в то время как long-context (требующий хостинговых API-вызовов) штрафуется на −20.
- Штраф за бюджет: Если расчётная ежемесячная стоимость подхода превышает 120% вашего заявленного потолка, этот подход получает −15 баллов.
3. Методология оценки стоимости
Оценки стоимости получены из вашего ежемесячного объёма запросов, средних количеств токенов и данных о ценах LLM в реальном времени, полученных из нашей базы моделей. Формула для каждого класса:
RAG (ежемесячно)
Единовременная стоимость встраивания (амортизируется за 6 месяцев) + плата за Vector DB (многоуровневая по объёму корпуса) + токены извлечения (цена ввода модели генерации) + токены ввода и вывода генерации + 15% эксплуатационных накладных расходов.
Fine-Tuning (ежемесячно)
Стоимость обучения ($1 200–$25 000, зависит от специфичности), амортизированная за 6 месяцев + fine-tuned-инференс по 1,2× базовой цены модели + резерв на переобучение (2× начальной стоимости / год).
Long-Context (ежемесячно)
Токены документа на запрос × цена ввода модели генерации + токены вывода × цена вывода, минус экономия prompt-cache (ваш коэффициент попадания в кэш × 70% скидка) и экономия batch-API (ваш коэффициент batch-eligible × 50% скидка).
Hybrid / RAFT (ежемесячно)
Все затраты RAG + 60% затрат Fine-Tuning (отражает реальность того, что RAFT требует как инфраструктуры извлечения, так и запуска обучения, но инференс во время запроса эффективнее, чем чистый RAG).
Ценообразование Vector DB многоуровневое по объёму корпуса (шкала 1–5 соответствует $70–$3 000/мес.), основано на наблюдаемых ценах pgvector, Pinecone, Weaviate и Qdrant по состоянию на Q1 2026. Цены токенов LLM получаются в реальном времени из нашей базы моделей и откатываются к консервативным значениям по умолчанию ($3/1M ввод, $12/1M вывод), если база недоступна.
4. Маржа доверия
Доверие определяется маржой баллов между классом-победителем и вторым:
- Высокое доверие: маржа ≥ 25 баллов — один подход чётко доминирует.
- Среднее доверие: маржа 10–24 балла — чёткий лидер, но второй жизнеспособен.
- Низкое доверие: маржа < 10 баллов — несколько подходов тесно сравнимы; рекомендуется proof-of-concept с обоими.
Если победный балл ниже 40, движок также устанавливает «флаг переоценки», указывающий, что ни один подход не доминирует — обычно признак того, что объём варианта использования следует сузить, прежде чем брать обязательства по инфраструктуре.
5. Реестр рисков
Движок оценивает семь триггеров риска против ваших входных данных и выигравшей рекомендации. Каждый риск имеет уровень серьёзности (высокий, средний или низкий) и рекомендацию по смягчению:
- Риск галлюцинированных цитат (высокий): Рекомендован Fine-Tuning + цитаты ≥ 3.
- Потолок бюджета под угрозой (средний): Расчётная стоимость > 90% вашего заявленного потолка.
- Риск нарушения резидентности данных (высокий): Резидентность ЕС или высокая чувствительность + рекомендован Long-Context.
- Разрыв в ML-возможностях (средний): Возможность ≤ 2 + рекомендован Fine-Tuning или Hybrid.
- Устаревшие данные о ценах (низкий): Данные о ценах Vector DB старше 90 дней.
- Риск дрейфа корпуса (средний): Свежесть ≤ 2 + рекомендован Fine-Tuning.
- Бюджет задержки под угрозой (высокий): SLA задержки < 500 мс + рекомендован RAG или Hybrid.
6. Ограничения и допущения
- Оценки стоимости носят только ориентировочный характер. Фактическая стоимость зависит от поставщика, размера модели, конфигурации инфраструктуры и согласованных цен.
- Модель оценки намеренно занимает позицию и основана на наблюдаемых производственных паттернах у клиентов Buzzi по состоянию на Q1 2026. Она не является заменой архитектурного обзора опытным ML-инженером.
- Движок не моделирует мульти-арендность, накладные расходы A/B-тестов, стоимость пайплайна оценки или стоимость маркировки данных для fine-tuning.
- Стоимость Hybrid / RAFT предполагает один цикл переобучения за 6-месячное окно. Команды с более частыми потребностями в переобучении должны увеличить делитель амортизации обучения.