Synthszr Charts — die großen AI-Marken im Wettkampf ums Podium
synthszr charts
nvidia

LocateAnything

#32 in Multimodale Modelle

nvidia · seit 2026-06-29 · 3× · zuletzt 29. Juni 2026

12
Momentum

NVIDIA LocateAnything-3B ist ein 3-Milliarden-Parameter Vision-Language-Modell (VLM) zur visuellen Lokalisierung, das der Eagle-VLM-Familie entstammt. Es kombiniert einen MoonViT-SO-400M-Bildencoder mit einem Qwen2.5-3B-Sprachmodell und führt mit „Parallel Box Decoding" (PBD) die vollständige Bounding-Box-Vorhersage in einem einzigen parallelen Schritt durch, anstatt Koordinaten Token für Token autoregressiv zu generieren. Das Modell wurde auf einem Datensatz mit 12 Millionen Bildern, 138 Millionen Abfragen und 785 Millionen Bounding Boxes trainiert. Die Veröffentlichung erfolgte unter einer NVIDIA-Lizenz ausschließlich für Forschungs- und Entwicklungszwecke (nicht kommerziell).

Momentum-Verlauf
04.04.03.07.

Features

Kontextfenster (Token)25.000 Token (25K); für lange Sequenzen ≥32K ist optionale MagiAttention-Integration vorgesehen
Preis pro UnitKostenlos (Open Weights); NVIDIA-Lizenz für nicht-kommerzielle Nutzung (Forschung & Entwicklung); kommerzielle Nutzung nicht gestattet
Videoanalyse-FähigkeitUnterstützt Objekt-Lokalisierung (Pointing) in Bildern und Videos; der offizielle Hugging Face Space akzeptiert explizit Foto- und Video-Uploads für die Lokalisierung

Belege (3)

Subscribe free. Unsubscribe the second it sucks.

High-signal news across AI, business, UX, and tech. Every morning.

LocateAnything — Synthszr Ranking