Baidu: ERNIE 4.5 VL 28B A3B
Baidu: ERNIE 4.5 VL 28B A3B هو نموذج متعدد الوسائط مخصص لـفهم الرؤية واللغة. يجمع بين معالجة الإدخال متعدد الوسائط، فهم الصور وسياق بحجم 30K tokens وملف منخفض التكلفة لتقديم عمل موثوق في vision-language understanding and content analysis. وهو خيار عملي عندما تكون الجودة والسرعة والتكلفة مهمة، خصوصًا للفرق التي تحتاج إلى مخرجات ثابتة ونشر مرن ومساحة للتوسع.
Input
$0.14/1M
Output
$0.56/1M
Cached
$0.01/1M
Batch
$0.05/1M