Google: Gemma 3n 4B
Google: Gemma 3n 4B est un modèle texte conçu pour compréhension vision-langage. Il associe la gestion multimodale des entrées et le traitement audio, un contexte de 33K tokens et un profil à faible coût pour un travail fiable sur audio understanding and multimodal input.
Input
$0.06/1M
Output
$0.12/1M