

Ink-2
#3cartesia · v2 · seit 16. Juni 2026 · 6× · zuletzt 29. Juni 2026
Cartesia Ink-2 ist ein Streaming-Speech-to-Text-Modell (STT), das speziell für Echtzeit-Sprachagenten entwickelt wurde. Es basiert auf einer State-Space-Model-Architektur (SSM) statt auf Transformern und liefert laut Hersteller die niedrigste Word Error Rate aller Streaming-STT-Modelle. Das Modell enthält native Turn-Detektion (turn.start, turn.eager_end, turn.end) ohne externe VAD-Komponente und verwendet semantisches Endpointing, das Gesprächspausen inhaltlich bewertet. Ink-2 wurde zusammen mit Sonic-3.5 am 16. Juni 2026 veröffentlicht und debütierte als Platz 1 auf dem Artificial-Analysis-Streaming-STT-Leaderboard. Zum Launch unterstützt es ausschließlich Englisch; Mehrsprachigkeit ist für zukünftige Versionen angekündigt.
Features
| Latenz (ms) | Time to final transcript: 100 ms (0,1 s); sub-350 ms Partial-Latenz; turn.eager_end reduziert Lücke zwischen letztem Wort und erster LLM-Antwort zusätzlich |
| Mehrsprachigkeit (dialekte) | Zum Launch English only; andere Sprachen erfordern Fallback auf ink-whisper; Multilingual-Unterstützung für Ink-2 explizit als 'in Arbeit' angekündigt |
| On-Device Ausführung | VPC/On-Premise-Deployment für Enterprise-Kunden verfügbar (erwähnt als Entscheidungskriterium für Cartesia vs. Alternativen) |
| Sprachen | Englisch only (zum Launch); Multilingual in Entwicklung angekündigt |