Language

Synthszr Charts — die großen AI-Marken im Wettkampf ums Podium

LocateAnything

#32 in Multimodale Modelle

nvidia · seit 2026-06-29 · 3× · zuletzt 29. Juni 2026

Momentum

NVIDIA LocateAnything-3B ist ein 3-Milliarden-Parameter Vision-Language-Modell (VLM) zur visuellen Lokalisierung, das der Eagle-VLM-Familie entstammt. Es kombiniert einen MoonViT-SO-400M-Bildencoder mit einem Qwen2.5-3B-Sprachmodell und führt mit „Parallel Box Decoding" (PBD) die vollständige Bounding-Box-Vorhersage in einem einzigen parallelen Schritt durch, anstatt Koordinaten Token für Token autoregressiv zu generieren. Das Modell wurde auf einem Datensatz mit 12 Millionen Bildern, 138 Millionen Abfragen und 785 Millionen Bounding Boxes trainiert. Die Veröffentlichung erfolgte unter einer NVIDIA-Lizenz ausschließlich für Forschungs- und Entwicklungszwecke (nicht kommerziell).

Momentum-Verlauf

04.04.03.07.

Features

Kontextfenster (Token)	25.000 Token (25K); für lange Sequenzen ≥32K ist optionale MagiAttention-Integration vorgesehen
Preis pro Unit	Kostenlos (Open Weights); NVIDIA-Lizenz für nicht-kommerzielle Nutzung (Forschung & Entwicklung); kommerzielle Nutzung nicht gestattet
Videoanalyse-Fähigkeit	Unterstützt Objekt-Lokalisierung (Pointing) in Bildern und Videos; der offizielle Hugging Face Space akzeptiert explizit Foto- und Video-Uploads für die Lokalisierung

LocateAnything

Features

Belege (3)

Subscribe free. Unsubscribe the second it sucks.