Language

Synthszr Charts — die großen AI-Marken im Wettkampf ums Podium

Qwen3-VL-8B

#25 in Multimodale Modelle

qwen · v3 · vl 8b · seit 2025-10-15 · 4× · zuletzt 29. Juni 2026

Momentum

Qwen3-VL-8B ist ein quelloffenes multimodales Vision-Language-Modell von Alibaba Clouds Qwen-Team mit ca. 8,77 Milliarden dichten Parametern. Es wurde am 15. Oktober 2025 als Teil der Qwen3-VL-Serie veröffentlicht und ist unter der Apache-2.0-Lizenz für kommerzielle Nutzung freigegeben. Das Modell verarbeitet Text, Bilder und Videos in einem nativen Kontextfenster von 256K Tokens (erweiterbar auf 1 Million Tokens). Es ist sowohl zur Cloud-API-Nutzung als auch zur lokalen Self-Hosted-Deployment verfügbar.

Momentum-Verlauf

04.04.03.07.

Features

Kontextfenster (Token)	256.000 Tokens nativ (262.144 Token laut Modellkarte); erweiterbar auf ca. 1 Million Tokens; maximale Output-Länge: 32.768 Tokens
Multimodale Eingaben	Text, Bilder und Videos; OCR in 32 Sprachen; 2D/3D-Objektgrounding; GUI-Steuerung (PC/Mobile); Code-Generierung aus Bildern/Videos (Draw.io, HTML, CSS, JS)
Preis pro Unit	$0.08 pro 1M Input-Tokens / $0.50 pro 1M Output-Tokens (via OpenRouter/Novita; Instruct-Variante)
Vision-Language Benchmark-Score	Qwen3-VL-8B-Instruct: DocVQA (test) 96.1%, ScreenSpot 94.4%, OCRBench 89.6%, MMBench-V1.1 85.0%, AI2D 85.7%; Qwen3-VL-8B-Thinking: DocVQA 95.3%, ScreenSpot 93.6%, MMBench-V1.1 87.5%, MMLU-Redux 88.8%

Qwen3-VL-8B

Features

Belege (4)

Subscribe free. Unsubscribe the second it sucks.