

Qwen3-VL-8B
#25 in Multimodale Modelleqwen · v3 · vl 8b · seit 2025-10-15 · 4× · zuletzt 29. Juni 2026
15
Momentum
Qwen3-VL-8B ist ein quelloffenes multimodales Vision-Language-Modell von Alibaba Clouds Qwen-Team mit ca. 8,77 Milliarden dichten Parametern. Es wurde am 15. Oktober 2025 als Teil der Qwen3-VL-Serie veröffentlicht und ist unter der Apache-2.0-Lizenz für kommerzielle Nutzung freigegeben. Das Modell verarbeitet Text, Bilder und Videos in einem nativen Kontextfenster von 256K Tokens (erweiterbar auf 1 Million Tokens). Es ist sowohl zur Cloud-API-Nutzung als auch zur lokalen Self-Hosted-Deployment verfügbar.
Momentum-Verlauf
04.04.03.07.
Features
| Kontextfenster (Token) | 256.000 Tokens nativ (262.144 Token laut Modellkarte); erweiterbar auf ca. 1 Million Tokens; maximale Output-Länge: 32.768 Tokens |
| Multimodale Eingaben | Text, Bilder und Videos; OCR in 32 Sprachen; 2D/3D-Objektgrounding; GUI-Steuerung (PC/Mobile); Code-Generierung aus Bildern/Videos (Draw.io, HTML, CSS, JS) |
| Preis pro Unit | $0.08 pro 1M Input-Tokens / $0.50 pro 1M Output-Tokens (via OpenRouter/Novita; Instruct-Variante) |
| Vision-Language Benchmark-Score | Qwen3-VL-8B-Instruct: DocVQA (test) 96.1%, ScreenSpot 94.4%, OCRBench 89.6%, MMBench-V1.1 85.0%, AI2D 85.7%; Qwen3-VL-8B-Thinking: DocVQA 95.3%, ScreenSpot 93.6%, MMBench-V1.1 87.5%, MMLU-Redux 88.8% |