

Qwen-Image-2.0
#31 in Multimodale Modellealibaba · v2.0 · seit Februar 2026 · 6× · zuletzt 30. Juni 2026
12
Momentum
Qwen-Image-2.0 ist ein von Alibaba im Februar 2026 veröffentlichtes Bildgenerierungs- und Bearbeitungsmodell mit 7 Milliarden Parametern. Es vereinheitlicht Text-zu-Bild-Generierung und Bildbearbeitung in einer einzigen Architektur, rendert professionelle Typografie mit bis zu 1.000-Token-Prompts und generiert nativ mit 2.048×2.048-Pixel-Auflösung. Das Modell rangiert auf AI Arena auf Platz 1 in beiden Kategorien (Text-zu-Bild und Bildbearbeitung).
Momentum-Verlauf
04.04.03.07.
Features
| Kontextfenster (Token) | Bis zu 1.000 Token Prompt-Eingabe (für Text-to-Image-Generierung und Bildbearbeitung) |
| Multimodale Eingaben | Text-Prompts (bis 1.000 Token) + Bild-Eingaben (für Bildbearbeitung/Image Editing); Ausgabe: Bilder bis 2048×2048 px nativ. Kein Video-Input dokumentiert – reine Bild-/Text-Eingaben. |
| On-Device vs. Cloud | Cloud (API-Zugang über Alibaba Cloud BaiLian / DashScope; Open Weights zum Zeitpunkt der Recherche noch nicht veröffentlicht – API-only-Einladungstest) |
| Preis pro Unit | $0.035 pro generiertem Bild (über Qwen Cloud / DashScope, internationaler Endpunkt; Rate-Limit: 120 RPM) |
| Vision-Language Benchmark-Score | DPG-Bench: 88.32 (vs. FLUX.1 12B: 83.84); GenEval: ~0.91; #1 auf AI Arena ELO-Leaderboard (Blind Human Evaluation) in den Kategorien Text-to-Image-Generierung und Bildbearbeitung |