Google: Gemma 3n 4B
Google: Gemma 3n 4B एक टेक्स्ट मॉडल है, जिसे vision-language समझ के लिए बनाया गया है। यह multimodal input handling، ऑडियो प्रोसेसिंग, 33K tokens का context और कम लागत profile जोड़कर audio understanding and multimodal input में भरोसेमंद काम करता है। यह तब व्यावहारिक विकल्प है जब latency, cost और throughput महत्वपूर्ण हो, खासकर उन टीमों के लिए जिन्हें स्थिर output,
Input
$0.06/1M
Output
$0.12/1M