Language

Synthszr Charts — die großen AI-Marken im Wettkampf ums Podium

Qwen3-TTS CustomVoice

alibaba · v3 · tts customvoice · seit 22. Januar 2026 · 15× · zuletzt 30. Juni 2026

Momentum

Qwen3-TTS CustomVoice ist ein von Alibabas Qwen-Team entwickeltes Text-to-Speech-Modell, das 9 vordefinierte Premium-Stimmen mit stilistischer Kontrolle über natürliche Sprachanweisungen kombiniert. Es unterstützt 10 Hauptsprachen sowie mehrere Dialektvarianten und basiert auf dem selbstentwickelten Qwen3-TTS-Tokenizer-12Hz für eine ressourcenschonende, latenzarme Sprachsynthese. Das Modell ist Teil der Open-Source-Qwen3-TTS-Familie (Apache-2.0-Lizenz) und wurde am 22. Januar 2026 veröffentlicht; es ist auch über die DashScope/Alibaba-Cloud-API nutzbar.

Momentum-Verlauf

04.04.03.07.

Features

Echtzeit-Streaming	Ja – Dual-Track-Streaming-Architektur, erstes Audiopaket nach einem Zeichen
Latenz	End-to-End-Synthese-Latenz bis zu 97 ms (Streaming)
Lizenz	Apache License 2.0
Plattform	GitHub, Hugging Face, ModelScope, DashScope/Alibaba Cloud API
Preis	Open-Source-Modell kostenlos (Apache 2.0); Cloud-API ca. $0,013 pro 1.000 Zeichen
Release-Datum	22. Januar 2026 (Open-Source-Veröffentlichung 0.6B/1.7B)
Sprachen	10 Sprachen: Chinesisch, Englisch, Japanisch, Koreanisch, Deutsch, Französisch, Russisch, Portugiesisch, Spanisch, Italienisch
Voice-Cloning	Nicht Teil von CustomVoice (nur im Base-Modell: 3-Sek.-Voice-Cloning); CustomVoice bietet 9 feste Premium-Stimmen

Qwen3-TTS CustomVoice

Features

Belege (15)

Subscribe free. Unsubscribe the second it sucks.