Idéal pour : (Vision + Text)
Best Multimodal LLM (Vision + Text)
Ranked on vision benchmark accuracy, context window, and combined per-query cost for image + text workloads.
Mis à jour May 2026. Top 3 ce mois-ci : Qwen3.5 Plus 2026-02-15, Qwen3.5 397B A17B, GPT-4o (2024-11-20).