

Nemotron 3.5 ASR
#9nvidia · v3.5 · asr · seit 2026-06-04 · 2× · zuletzt 29. Juni 2026
Nemotron 3.5 ASR (nvidia/nemotron-3.5-asr-streaming-0.6b) ist ein mehrsprachiges, streaming-fähiges Automatic-Speech-Recognition-Modell von NVIDIA mit 600 Millionen Parametern. Es basiert auf einer Cache-Aware-FastConformer-RNNT-Architektur, die ohne überlappende Neuberechnungen auskommt und dadurch sehr geringe End-to-End-Latenz bei hoher GPU-Parallelität ermöglicht. Ein einziger Checkpoint deckt 40 Sprach-Locale-Kombinationen (ca. 36 Sprachen) ab, inklusive nativer Interpunktion und Großschreibung. Das Modell steht als Open-Weights unter der OpenMDW-1.1-Lizenz frei zur Verfügung und kann auf Hugging Face und NVIDIA NGC heruntergeladen werden.
Features
| Latenz (ms) | Sub-100ms End-of-Utterance-Latenz; runtime-konfigurierbare Chunk-Größen: 80ms, 160ms, 320ms, 560ms, 1120ms – keine Neutrainierung erforderlich |
| Modellgröße (Parameterzahl) | 600 Millionen Parameter (0,6B) |
| Verarbeitungsgeschwindigkeit (x Realtime) | ~17x mehr gleichzeitige Streams gegenüber gepuffertem Streaming (Parakeet RNNT 1.1B) auf einem NVIDIA H100; bei 80ms-Einstellung 240 vs. 14 parallele Streams, bei 1120ms 2.400 vs. 400 |