Scoring Methodology

RAG vs Fine-Tuning Decision Engine оценивает четыре класса архитектуры — RAG, Fine-Tuning, Long-Context и Hybrid — по девяти измерениям вашего варианта использования. Эта страница объясняет, как взвешивается каждое измерение, как выводятся оценки стоимости и как сообщается о доверии и риске.

1. Девять измерений оценки

Каждое измерение вносит положительные или отрицательные баллы в один или несколько классов архитектуры. Баллы — это не проценты, а аддитивные сигналы. Класс с наибольшим общим баллом побеждает. Маржа между первым и вторым классом определяет доверие.

  • Свежесть данных

    Как часто меняются ваши исходные данные. Данные в реальном времени (1) сильно благоприятствуют RAG, поскольку fine-tuned модели не могут включать новую информацию без цикла переобучения. Статические данные (5) устраняют ключевое преимущество RAG.

  • Объём документов

    Размер вашего корпуса знаний. Крошечные корпуса (<10K документов, балл 1) могут поместиться в окно long-context. Массивные корпуса (>10M документов, балл 5) исключают long-context и сильно благоприятствуют извлечению на основе векторов.

  • Ежемесячный объём запросов

    Общее количество вызовов инференса в месяц. При очень больших объёмах (>1M/мес.) затраты на извлечение на запрос накапливаются и могут сделать fine-tuning более экономичным. При малых объёмах (<10K/мес.) накладные расходы инфраструктуры склоняют чашу весов к long-context.

  • Точность цитирования

    Требует ли ваш вариант использования проверяемых ссылок на источники. Цитирование уровня аудита (4) сильно благоприятствует RAG или hybrid, поскольку fine-tuned модели галлюцинируют происхождение — они не могут цитировать источники, которые не видели на обучении.

  • SLA задержки

    Ваш сквозной бюджет задержки в миллисекундах. RAG добавляет хоп извлечения 100–400 мс. Если ваш SLA ниже 500 мс, может потребоваться fine-tuning (без извлечения). Long-context добавляет накладные расходы TTFT при больших количествах токенов.

  • Чувствительность данных

    Регуляторная и конфиденциальная классификация ваших данных. Высокая чувствительность (4–5) ограничивает, каких хостинг-провайдеров API вы можете использовать для извлечения, и может потребовать самостоятельно размещённой инфраструктуры встраивания и инференса.

  • Специфичность домена

    Насколько специализирован ваш доменный словарь и формат вывода. Сильно специализированные домены (4–5) с проприетарным жаргоном, схемами вывода или брендовым голосом получают больше пользы от адаптации на уровне весов fine-tuning, чем от одного только извлечения.

  • ML-возможности

    Ваша внутренняя зрелость ML-инжиниринга (1 = нет ML-команды, 5 = мирового класса). Архитектуры fine-tuning и hybrid требуют ML-экспертизы для проектирования, обучения, оценки и поддержки. Команды с низкими возможностями должны по умолчанию использовать RAG или long-context.

  • Потолок бюджета

    Максимальные ежемесячные расходы. Если расчётная стоимость ведущего подхода превышает 120% вашего потолка, движок применяет штраф. Бюджет < $2K, как правило, исключает hybrid; <$5K может исключить fine-tuning, когда обучение амортизируется.

2. Составные сигналы

Помимо индивидуальных баллов измерений, движок применяет составные сигналы, которые улавливают взаимодействия между измерениями:

  • Высокий объём + строгие цитаты: Если ежемесячные запросы ≥ 1M и цитаты = 4, Hybrid получает дополнительные +20, поскольку RAFT амортизирует стоимость обучения, сохраняя точность цитирования.
  • Низкий объём + низкий бюджет + не изолировано: Long-context получает +15, поскольку развёртывание векторной инфраструктуры экономически не оправдано.
  • On-premises или изолировано: Fine-Tuning и Hybrid получают +15/+10, поскольку их можно развернуть self-hosted, в то время как long-context (требующий хостинговых API-вызовов) штрафуется на −20.
  • Штраф за бюджет: Если расчётная ежемесячная стоимость подхода превышает 120% вашего заявленного потолка, этот подход получает −15 баллов.

3. Методология оценки стоимости

Оценки стоимости получены из вашего ежемесячного объёма запросов, средних количеств токенов и данных о ценах LLM в реальном времени, полученных из нашей базы моделей. Формула для каждого класса:

RAG (ежемесячно)

Единовременная стоимость встраивания (амортизируется за 6 месяцев) + плата за Vector DB (многоуровневая по объёму корпуса) + токены извлечения (цена ввода модели генерации) + токены ввода и вывода генерации + 15% эксплуатационных накладных расходов.

Fine-Tuning (ежемесячно)

Стоимость обучения ($1 200–$25 000, зависит от специфичности), амортизированная за 6 месяцев + fine-tuned-инференс по 1,2× базовой цены модели + резерв на переобучение (2× начальной стоимости / год).

Long-Context (ежемесячно)

Токены документа на запрос × цена ввода модели генерации + токены вывода × цена вывода, минус экономия prompt-cache (ваш коэффициент попадания в кэш × 70% скидка) и экономия batch-API (ваш коэффициент batch-eligible × 50% скидка).

Hybrid / RAFT (ежемесячно)

Все затраты RAG + 60% затрат Fine-Tuning (отражает реальность того, что RAFT требует как инфраструктуры извлечения, так и запуска обучения, но инференс во время запроса эффективнее, чем чистый RAG).

Ценообразование Vector DB многоуровневое по объёму корпуса (шкала 1–5 соответствует $70–$3 000/мес.), основано на наблюдаемых ценах pgvector, Pinecone, Weaviate и Qdrant по состоянию на Q1 2026. Цены токенов LLM получаются в реальном времени из нашей базы моделей и откатываются к консервативным значениям по умолчанию ($3/1M ввод, $12/1M вывод), если база недоступна.

4. Маржа доверия

Доверие определяется маржой баллов между классом-победителем и вторым:

  • Высокое доверие: маржа ≥ 25 баллов — один подход чётко доминирует.
  • Среднее доверие: маржа 10–24 балла — чёткий лидер, но второй жизнеспособен.
  • Низкое доверие: маржа < 10 баллов — несколько подходов тесно сравнимы; рекомендуется proof-of-concept с обоими.

Если победный балл ниже 40, движок также устанавливает «флаг переоценки», указывающий, что ни один подход не доминирует — обычно признак того, что объём варианта использования следует сузить, прежде чем брать обязательства по инфраструктуре.

5. Реестр рисков

Движок оценивает семь триггеров риска против ваших входных данных и выигравшей рекомендации. Каждый риск имеет уровень серьёзности (высокий, средний или низкий) и рекомендацию по смягчению:

  • Риск галлюцинированных цитат (высокий): Рекомендован Fine-Tuning + цитаты ≥ 3.
  • Потолок бюджета под угрозой (средний): Расчётная стоимость > 90% вашего заявленного потолка.
  • Риск нарушения резидентности данных (высокий): Резидентность ЕС или высокая чувствительность + рекомендован Long-Context.
  • Разрыв в ML-возможностях (средний): Возможность ≤ 2 + рекомендован Fine-Tuning или Hybrid.
  • Устаревшие данные о ценах (низкий): Данные о ценах Vector DB старше 90 дней.
  • Риск дрейфа корпуса (средний): Свежесть ≤ 2 + рекомендован Fine-Tuning.
  • Бюджет задержки под угрозой (высокий): SLA задержки < 500 мс + рекомендован RAG или Hybrid.

6. Ограничения и допущения

  • Оценки стоимости носят только ориентировочный характер. Фактическая стоимость зависит от поставщика, размера модели, конфигурации инфраструктуры и согласованных цен.
  • Модель оценки намеренно занимает позицию и основана на наблюдаемых производственных паттернах у клиентов Buzzi по состоянию на Q1 2026. Она не является заменой архитектурного обзора опытным ML-инженером.
  • Движок не моделирует мульти-арендность, накладные расходы A/B-тестов, стоимость пайплайна оценки или стоимость маркировки данных для fine-tuning.
  • Стоимость Hybrid / RAFT предполагает один цикл переобучения за 6-месячное окно. Команды с более частыми потребностями в переобучении должны увеличить делитель амортизации обучения.