Scoring Methodology

محرك قرار RAG مقابل Fine-Tuning يقيم أربع فئات بنية — RAG و Fine-Tuning و Long-Context و Hybrid — مقابل تسعة أبعاد لحالة استخدامك. تشرح هذه الصفحة كيف يتم ترجيح كل بُعد، وكيف يتم اشتقاق تقديرات التكلفة، وكيف يتم الإبلاغ عن الثقة والمخاطر.

1. أبعاد التسجيل التسعة

كل بُعد يساهم بنقاط إيجابية أو سلبية في فئة بنية واحدة أو أكثر. النقاط ليست نسبًا مئوية — إنها إشارات تراكمية. الفئة بأعلى مجموع نقاط تفوز. الهامش بين الفئة الأولى والثانية يحدد الثقة.

  • جدارة البيانات

    كم مرة تتغير بياناتك المصدر. البيانات في الوقت الفعلي (1) تفضل بقوة RAG لأن النماذج fine-tuned لا يمكنها دمج معلومات جديدة دون دورة إعادة تدريب. البيانات الثابتة (5) تزيل ميزة RAG الرئيسية.

  • حجم المستندات

    حجم مجموعة معرفتك. مجموعات صغيرة (<10K مستند، نتيجة 1) قد تتناسب مع نافذة long-context. مجموعات ضخمة (>10M مستند، نتيجة 5) تستبعد long-context وتفضل بقوة الاسترجاع المستند إلى المتجهات.

  • حجم الاستفسارات الشهري

    إجمالي مكالمات الاستدلال شهريًا. في الأحجام العالية جدًا (>1M/شهر)، تتراكم تكاليف الاسترجاع لكل استفسار ويمكن أن تجعل fine-tuning أكثر فعالية من حيث التكلفة. في الأحجام المنخفضة (<10K/شهر)، يميل حمل البنية التحتية الميزان نحو long-context.

  • دقة الاستشهادات

    ما إذا كانت حالة استخدامك تتطلب مراجع مصدر يمكن التحقق منها. استشهاد بمستوى التدقيق (4) يفضل بقوة RAG أو hybrid، لأن النماذج fine-tuned تهلوس المنشأ — لا يمكنها الاستشهاد بمصادر لم ترها في وقت التدريب.

  • SLA الكمون

    ميزانية الكمون من البداية إلى النهاية بالمللي ثانية. RAG يضيف قفزة استرجاع 100–400 مللي ثانية. إذا كان SLA الخاص بك أقل من 500 مللي ثانية، قد يكون fine-tuning (بدون استرجاع) ضروريًا. Long-context يضيف حمل TTFT في عدد كبير من الرموز.

  • حساسية البيانات

    التصنيف التنظيمي والسرية لبياناتك. الحساسية العالية (4–5) تحد من مزودي API المستضافين الذين يمكنك استخدامهم للاسترجاع، وقد تتطلب بنية تحتية للتضمين والاستدلال ذاتية الاستضافة.

  • خصوصية المجال

    مدى تخصص مفردات مجالك وتنسيق الإخراج. المجالات المتخصصة جدًا (4–5) ذات المصطلحات المسجلة الملكية أو مخططات الإخراج أو صوت العلامة التجارية تستفيد أكثر من تكييف مستوى الوزن لـ fine-tuning من الاسترجاع وحده.

  • قدرة ML

    نضج هندسة ML الداخلية لديك (1 = لا فريق ML، 5 = من الطراز العالمي). هياكل fine-tuning و hybrid تتطلب خبرة ML للتصميم والتدريب والتقييم والصيانة. الفرق ذات القدرة المنخفضة يجب أن تستخدم RAG أو long-context كافتراضي.

  • سقف الميزانية

    الإنفاق الشهري الأقصى. إذا تجاوزت التكلفة المقدرة للنهج الرائد 120% من سقفك، يطبق المحرك عقوبة. الميزانية < $2K تستبعد عمومًا hybrid؛ <$5K قد تستبعد fine-tuning عند استهلاك التدريب.

2. الإشارات المركبة

بالإضافة إلى درجات الأبعاد الفردية، يطبق المحرك إشارات مركبة تلتقط التفاعلات بين الأبعاد:

  • حجم مرتفع + استشهادات صارمة: إذا كانت الاستفسارات الشهرية ≥ 1M والاستشهادات = 4، يحصل Hybrid على +20 إضافية لأن RAFT يستهلك تكلفة التدريب مع الحفاظ على دقة الاستشهاد.
  • حجم منخفض + ميزانية منخفضة + غير معزول: يحصل Long-context على +15 لأن إقامة بنية تحتية للمتجهات غير مبررة اقتصاديًا.
  • محلي أو معزول: يحصل Fine-Tuning و Hybrid على +15/+10 لأنه يمكن نشرهما ذاتيًا، بينما يعاقب long-context (الذي يتطلب استدعاءات API مستضافة) بـ −20.
  • عقوبة الميزانية: إذا تجاوزت التكلفة الشهرية المقدرة لنهج 120% من سقفك المعلن، يحصل هذا النهج على −15 نقطة.

3. منهجية تقدير التكلفة

تشتق تقديرات التكلفة من حجم الاستفسارات الشهري وعدد الرموز المتوسط وبيانات تسعير LLM المباشرة المسترجعة من قاعدة بيانات النماذج. الصيغة لكل فئة:

RAG (شهريًا)

تكلفة embedding لمرة واحدة (مستهلكة على 6 أشهر) + رسوم Vector DB (متدرجة حسب حجم المجموعة) + رموز الاسترجاع (سعر إدخال نموذج التوليد) + رموز إدخال وإخراج التوليد + 15% حمل تشغيلي.

Fine-Tuning (شهريًا)

تكلفة تشغيل التدريب ($1,200–$25,000، مدفوعة بالخصوصية) مستهلكة على 6 أشهر + استدلال fine-tuned بـ 1.2× سعر النموذج الأساسي + احتياطي إعادة التدريب (2× التكلفة الأولية / سنة).

Long-Context (شهريًا)

رموز المستند لكل استفسار × سعر إدخال نموذج التوليد + رموز الإخراج × سعر الإخراج، ناقص توفير prompt-cache (معدل إصابة الذاكرة المؤقتة × 70% خصم) وتوفير batch-API (معدل الأهلية × 50% خصم).

Hybrid / RAFT (شهريًا)

كل تكاليف RAG + 60% من تكاليف Fine-Tuning (يعكس واقع أن RAFT يتطلب كلًا من البنية التحتية للاسترجاع وتشغيل التدريب، لكن استدلال وقت الاستفسار أكثر كفاءة من RAG النقي).

تسعير Vector DB متدرج حسب حجم المجموعة (مقياس 1–5 يطابق $70–$3,000/شهر)، بناءً على الأسعار الملاحظة من pgvector و Pinecone و Weaviate و Qdrant اعتبارًا من Q1 2026. يتم سحب أسعار رموز LLM مباشرة من قاعدة بيانات النماذج وتعود إلى الإعدادات الافتراضية المحافظة ($3/1M إدخال، $12/1M إخراج) إذا كانت قاعدة البيانات غير متوفرة.

4. هامش الثقة

تحدد الثقة بهامش النقاط بين الفئة الفائزة والثانية:

  • ثقة عالية: هامش ≥ 25 نقطة — نهج واحد يهيمن بوضوح.
  • ثقة متوسطة: هامش 10–24 نقطة — قائد واضح لكن الثاني قابل للتطبيق.
  • ثقة منخفضة: هامش < 10 نقاط — عدة نهج متطابقة بإحكام؛ يوصى بإثبات مفهوم لكليهما.

إذا كانت النتيجة الفائزة أقل من 40، يضع المحرك أيضًا "علم إعادة النطاق" يشير إلى أن لا يوجد نهج واحد مهيمن — عادة علامة على أن نطاق حالة الاستخدام يجب تضييقه قبل الالتزام بالبنية التحتية.

5. سجل المخاطر

يقيم المحرك سبعة محفزات مخاطر مقابل مدخلاتك والتوصية الفائزة. كل خطر له مستوى خطورة (عالي أو متوسط أو منخفض) وتوصية للتخفيف:

  • خطر الاستشهادات الموهومة (عالي): Fine-Tuning موصى به + الاستشهادات ≥ 3.
  • سقف الميزانية في خطر (متوسط): التكلفة المقدرة > 90% من سقفك المعلن.
  • خطر انتهاك إقامة البيانات (عالي): إقامة EU أو حساسية عالية + Long-Context موصى به.
  • فجوة قدرة ML (متوسط): القدرة ≤ 2 + Fine-Tuning أو Hybrid موصى به.
  • بيانات تسعير قديمة (منخفض): بيانات تسعير Vector DB أقدم من 90 يومًا.
  • خطر انجراف المجموعة (متوسط): الجدارة ≤ 2 + Fine-Tuning موصى به.
  • ميزانية الكمون في خطر (عالي): SLA الكمون < 500 مللي ثانية + RAG أو Hybrid موصى به.

6. القيود والافتراضات

  • تقديرات التكلفة إرشادية فقط. التكاليف الفعلية تعتمد على المزود وحجم النموذج وتكوين البنية التحتية والأسعار المتفاوض عليها.
  • نموذج التسجيل عمدًا متحيز ويستند إلى أنماط الإنتاج الملاحظة لدى عملاء Buzzi اعتبارًا من Q1 2026. لا يحل محل المراجعة المعمارية من مهندس ML ذي خبرة.
  • المحرك لا يصمم تعدد المستأجرين أو حمل اختبار A/B أو تكلفة خط أنابيب التقييم أو تكلفة وسم البيانات لـ fine-tuning.
  • تكلفة Hybrid / RAFT تفترض دورة إعادة تدريب واحدة لكل نافذة 6 أشهر. الفرق ذات احتياجات إعادة التدريب الأكثر تكرارًا يجب أن تزيد مقسوم استهلاك التدريب.