

MAI-Transcribe-1
#16microsoft · v1 · seit 2. April 2026 · 16× · zuletzt 30. Juni 2026
MAI-Transcribe-1 ist Microsofts erstes eigenentwickeltes Spracherkennungsmodell (ASR) des MAI-Teams (Superintelligence-Team) und wandelt gesprochene Sprache in 25 Sprachen in Text um. Es erreicht laut Microsoft die niedrigste Wortfehlerrate (WER, ca. 3,9%) auf dem FLEURS-Benchmark und schlägt dabei Modelle wie Whisper-large-V3, GPT-Transcribe, ElevenLabs Scribe v2 und Gemini 3.1 Flash-Lite. Es ist rund 2,5-mal schneller als Azure Fast Transcription bei etwa 50% geringeren GPU-Kosten und kostet ab 0,36 USD pro Audiostunde. Das Modell ist als Public Preview über Microsoft Foundry und Azure Speech verfügbar, unterstützt aber noch keine Echtzeit-Transkription, Sprecher-Diarisierung oder Keyword-Biasing (laut Microsoft für ein späteres Update geplant).
Features
| Echtzeit-Streaming | Nicht unterstützt (Batch-Modell); Echtzeit-Transkription laut Microsoft in Entwicklung |
| Latenz | Batch-Transkription 2,5x schneller als Azure Fast Transcription; ~69x Echtzeit laut Artificial Analysis |
| Plattform | Microsoft Foundry / Azure Speech (LLM Speech API); Integration in Copilot, Teams, Bing, PowerPoint |
| Preis | ab 0,36 USD pro Audiostunde |
| Release-Datum | 2. April 2026 (Public Preview) |
| Sprachen | 25 Sprachen (u.a. Englisch, Deutsch, Französisch, Spanisch, Hindi, Japanisch, Koreanisch, Chinesisch, Arabisch) |