Language

Synthszr Charts — die großen AI-Marken im Wettkampf ums Podium

MAI-Transcribe-1

#16

microsoft · v1 · seit 2. April 2026 · 16× · zuletzt 30. Juni 2026

Momentum

MAI-Transcribe-1 ist Microsofts erstes eigenentwickeltes Spracherkennungsmodell (ASR) des MAI-Teams (Superintelligence-Team) und wandelt gesprochene Sprache in 25 Sprachen in Text um. Es erreicht laut Microsoft die niedrigste Wortfehlerrate (WER, ca. 3,9%) auf dem FLEURS-Benchmark und schlägt dabei Modelle wie Whisper-large-V3, GPT-Transcribe, ElevenLabs Scribe v2 und Gemini 3.1 Flash-Lite. Es ist rund 2,5-mal schneller als Azure Fast Transcription bei etwa 50% geringeren GPU-Kosten und kostet ab 0,36 USD pro Audiostunde. Das Modell ist als Public Preview über Microsoft Foundry und Azure Speech verfügbar, unterstützt aber noch keine Echtzeit-Transkription, Sprecher-Diarisierung oder Keyword-Biasing (laut Microsoft für ein späteres Update geplant).

Momentum-Verlauf

04.04.03.07.

Features

Echtzeit-Streaming	Nicht unterstützt (Batch-Modell); Echtzeit-Transkription laut Microsoft in Entwicklung
Latenz	Batch-Transkription 2,5x schneller als Azure Fast Transcription; ~69x Echtzeit laut Artificial Analysis
Plattform	Microsoft Foundry / Azure Speech (LLM Speech API); Integration in Copilot, Teams, Bing, PowerPoint
Preis	ab 0,36 USD pro Audiostunde
Release-Datum	2. April 2026 (Public Preview)
Sprachen	25 Sprachen (u.a. Englisch, Deutsch, Französisch, Spanisch, Hindi, Japanisch, Koreanisch, Chinesisch, Arabisch)

MAI-Transcribe-1

Features

Belege (16)

Subscribe free. Unsubscribe the second it sucks.