Language

Synthszr Charts — die großen AI-Marken im Wettkampf ums Podium

Nemotron 3.5 ASR

nvidia · v3.5 · asr · seit 2026-06-04 · 2× · zuletzt 29. Juni 2026

Momentum

Nemotron 3.5 ASR (nvidia/nemotron-3.5-asr-streaming-0.6b) ist ein mehrsprachiges, streaming-fähiges Automatic-Speech-Recognition-Modell von NVIDIA mit 600 Millionen Parametern. Es basiert auf einer Cache-Aware-FastConformer-RNNT-Architektur, die ohne überlappende Neuberechnungen auskommt und dadurch sehr geringe End-to-End-Latenz bei hoher GPU-Parallelität ermöglicht. Ein einziger Checkpoint deckt 40 Sprach-Locale-Kombinationen (ca. 36 Sprachen) ab, inklusive nativer Interpunktion und Großschreibung. Das Modell steht als Open-Weights unter der OpenMDW-1.1-Lizenz frei zur Verfügung und kann auf Hugging Face und NVIDIA NGC heruntergeladen werden.

Momentum-Verlauf

04.04.03.07.

Features

Latenz (ms)	Sub-100ms End-of-Utterance-Latenz; runtime-konfigurierbare Chunk-Größen: 80ms, 160ms, 320ms, 560ms, 1120ms – keine Neutrainierung erforderlich
Modellgröße (Parameterzahl)	600 Millionen Parameter (0,6B)
Verarbeitungsgeschwindigkeit (x Realtime)	~17x mehr gleichzeitige Streams gegenüber gepuffertem Streaming (Parakeet RNNT 1.1B) auf einem NVIDIA H100; bei 80ms-Einstellung 240 vs. 14 parallele Streams, bei 1120ms 2.400 vs. 400

Nemotron 3.5 ASR

Features

Belege (2)

Subscribe free. Unsubscribe the second it sucks.