Synthszr Charts — die großen AI-Marken im Wettkampf ums Podium
synthszr charts

Miso TTS

#16

unknown · seit 2026-06-03 · 2× · zuletzt 29. Juni 2026

18
Momentum

Miso TTS 8B ist ein Open-Weight-Text-to-Speech-Modell von Miso Labs mit 8 Milliarden Parametern, das am 3. Juni 2026 veröffentlicht wurde. Es basiert auf einer hierarchischen RVQ-Transformer-Architektur (inspiriert von Sesame CSM) aus einem 7,7-Milliarden-Parameter-Backbone (Llama-3.2-Stil) und einem 300-Millionen-Parameter-Audio-Decoder. Das Modell konditioniert die Sprachgenerierung auf sowohl Text- als auch optionalen Audioinput (Konversationshistorie), womit One-Shot-Voice-Cloning möglich ist. Aktuell unterstützt es ausschließlich Englisch; die Gewichte sind unter einer modifizierten MIT-Lizenz auf Hugging Face verfügbar.

Momentum-Verlauf
04.04.03.07.

Features

Echtzeitfähigkeit~110 ms Latenz (Time-to-First-Byte auf H100-Hardware laut Hersteller); lokale Inferenz auf Consumer-GPUs deutlich langsamer
Modellgröße (Parameter)~8,2 Mrd. gesamt (7,7B Backbone + 300M Audio-Decoder)
Preis-TierOpen-Weight / kostenlos selbst hostbar (modifizierte MIT-Lizenz); API-Zugang angekündigt, aber noch nicht verfügbar
Unterstützte SprachenEnglisch (aktuell nur Englisch; v1)
Voice-CloningOne-Shot Voice Cloning aus ca. 10-Sekunden-Referenz-Audio (optional, via Audio-Kontextkonditionierung)

Belege (2)

Subscribe free. Unsubscribe the second it sucks.

High-signal news across AI, business, UX, and tech. Every morning.