Language

Synthszr Charts — die großen AI-Marken im Wettkampf ums Podium

Miso TTS

#16

unknown · seit 2026-06-03 · 2× · zuletzt 29. Juni 2026

Momentum

Miso TTS 8B ist ein Open-Weight-Text-to-Speech-Modell von Miso Labs mit 8 Milliarden Parametern, das am 3. Juni 2026 veröffentlicht wurde. Es basiert auf einer hierarchischen RVQ-Transformer-Architektur (inspiriert von Sesame CSM) aus einem 7,7-Milliarden-Parameter-Backbone (Llama-3.2-Stil) und einem 300-Millionen-Parameter-Audio-Decoder. Das Modell konditioniert die Sprachgenerierung auf sowohl Text- als auch optionalen Audioinput (Konversationshistorie), womit One-Shot-Voice-Cloning möglich ist. Aktuell unterstützt es ausschließlich Englisch; die Gewichte sind unter einer modifizierten MIT-Lizenz auf Hugging Face verfügbar.

Momentum-Verlauf

04.04.03.07.

Features

Echtzeitfähigkeit	~110 ms Latenz (Time-to-First-Byte auf H100-Hardware laut Hersteller); lokale Inferenz auf Consumer-GPUs deutlich langsamer
Modellgröße (Parameter)	~8,2 Mrd. gesamt (7,7B Backbone + 300M Audio-Decoder)
Preis-Tier	Open-Weight / kostenlos selbst hostbar (modifizierte MIT-Lizenz); API-Zugang angekündigt, aber noch nicht verfügbar
Unterstützte Sprachen	Englisch (aktuell nur Englisch; v1)
Voice-Cloning	One-Shot Voice Cloning aus ca. 10-Sekunden-Referenz-Audio (optional, via Audio-Kontextkonditionierung)

Miso TTS

Features

Belege (2)

Subscribe free. Unsubscribe the second it sucks.