

NVIDIA Cosmos
#5nvidia · seit Mai 31, 2026 · 7× · zuletzt 30. Juni 2026
NVIDIA Cosmos 3 ist eine Suite omnimodaler World-Foundation-Modelle, die Text, Bilder, Video, Audio und Action-Sequenzen in einer einheitlichen Mixture-of-Transformers-Architektur verarbeiten und generieren können. Cosmos ist eine World-Foundation-Model-Plattform zur Beschleunigung der Physical-AI-Entwicklung, die es Maschinen ermöglicht, die physische Welt für Robotik, autonomes Fahren und intelligente Umgebungen zu verstehen, zu simulieren und damit zu interagieren. Das Modell vereint kritische Modalitäten für Physical AI in einem einzigen Framework und subsummiert Vision-Language-Modelle, Videogeneratoren, World-Simulatoren und World-Action-Modelle.
Features
| Eingabeformat | Text, Bild, Video, Audio, Action-Sequenzen |
| Modellgröße | Edge (4B), Nano (16B), Super (64B) |
| Video-Auflösung | 256p, 480p, 720p |
| Video-Länge | 5–400 Frames |