

LocateAnything
#32 in Multimodale Modellenvidia · seit 2026-06-29 · 3× · zuletzt 29. Juni 2026
NVIDIA LocateAnything-3B ist ein 3-Milliarden-Parameter Vision-Language-Modell (VLM) zur visuellen Lokalisierung, das der Eagle-VLM-Familie entstammt. Es kombiniert einen MoonViT-SO-400M-Bildencoder mit einem Qwen2.5-3B-Sprachmodell und führt mit „Parallel Box Decoding" (PBD) die vollständige Bounding-Box-Vorhersage in einem einzigen parallelen Schritt durch, anstatt Koordinaten Token für Token autoregressiv zu generieren. Das Modell wurde auf einem Datensatz mit 12 Millionen Bildern, 138 Millionen Abfragen und 785 Millionen Bounding Boxes trainiert. Die Veröffentlichung erfolgte unter einer NVIDIA-Lizenz ausschließlich für Forschungs- und Entwicklungszwecke (nicht kommerziell).
Features
| Kontextfenster (Token) | 25.000 Token (25K); für lange Sequenzen ≥32K ist optionale MagiAttention-Integration vorgesehen |
| Preis pro Unit | Kostenlos (Open Weights); NVIDIA-Lizenz für nicht-kommerzielle Nutzung (Forschung & Entwicklung); kommerzielle Nutzung nicht gestattet |
| Videoanalyse-Fähigkeit | Unterstützt Objekt-Lokalisierung (Pointing) in Bildern und Videos; der offizielle Hugging Face Space akzeptiert explizit Foto- und Video-Uploads für die Lokalisierung |