

MAI
#27 in Multimodale Modellemicrosoft · seit 2. Juni 2026 (Microsoft Build 2026); erste MAI-Modelle (MAI-Voice-1, MAI-1-preview) bereits im August 2025 gestartet · 3× · zuletzt 29. Juni 2026
15
Momentum
MAI ist eine Familie von sieben neuen Sprachmodellen von Microsoft, die verschiedene Fähigkeiten im Bereich Reasoning, Programmierung, Bild- und Sprachverarbeitung sowie Transkription abdecken. Entwickler können die Modellgewichte selbst anpassen.
Momentum-Verlauf
04.04.03.07.
Features
| Multimodalität | Text, Bild, Sprache und Transkription |
| Key-Benchmark (%) | MAI-Thinking-1: 53% SWE-Bench Pro, 97% AIME 2025 (entspricht Claude Opus 4.6); MAI-Code-1-Flash: 51,2% SWE-Bench Pro |
| Kontextfenster (Token) | 256.000 Token (MAI-Thinking-1, 35B aktive Parameter, MoE, ~1T Gesamtparameter) |
| Lizenz | Proprietär/kommerziell, Zugriff über Microsoft Foundry (teils Private Preview); Frontier Tuning erlaubt Kunden eigene Gewichts-Anpassung |
| Multimodalität | Text/Reasoning, Code, Bildgenerierung & -bearbeitung, Sprachsynthese (Voice), Sprach-zu-Text (Transkription) – 4 Modalitäten in 7 Modellen |
| Plattform | Microsoft Foundry (Azure), zusätzlich OpenRouter, Fireworks AI und Baseten; MAI-Code-1-Flash in GitHub Copilot & VS Code |
| Preis pro 1M Token | MAI-Image-2.5: $5 Text-Input / $8 Bild-Input / $47 Bild-Output; MAI-Code-1-Flash: $0,75 Input / $4,50 Output; MAI-Voice-2: $22 pro 1M Zeichen |
| Release-Datum | 2. Juni 2026 (Build 2026: MAI-Thinking-1, MAI-Image-2.5, MAI-Voice-2, MAI-Transcribe-1.5, MAI-Code-1-Flash) |