Meta: Llama 3.2 11B Vision Instruct
Meta: Llama 3.2 11B Vision Instruct एक मल्टीमॉडल मॉडल है, जिसे vision-language समझ के लिए बनाया गया है। यह multimodal input handling، छवि समझ, 131K tokens का context और कम लागत profile जोड़कर vision-language understanding and content analysis में भरोसेमंद काम करता है। यह तब व्यावहारिक विकल्प है जब गुणवत्ता, गति और लागत महत्वपूर्ण हो, खासकर उन टीमों के लिए जिन्हें स्थिर output,
Input
$0.24/1M
Output
$0.24/1M
Cached
$0.01/1M
Batch
$0.03/1M