

Hunyuan-Turbo-Vision
#38 in Multimodale Modelletencent · turbo vision · 2× · zuletzt 29. Juni 2026
10
Momentum
Hunyuan-Turbo-Vision ist ein multimodales Sprachmodell von Tencent, das Bild- und Texteingaben kombiniert verarbeiten kann. Es ist Teil der Hunyuan-Turbo-Modellfamilie und wird ausschließlich als Cloud-API über Tencent Cloud bereitgestellt. Das Modell unterstützt Bildverständnis, Bildbeschreibung, multimodale Dialoge sowie – in der erweiterten Variante hunyuan-turbos-vision-video – auch Videoanalyse per URL-Eingabe. Laut Tencent-Cloud-Billing-Dokumentation teilt es sich ein gemeinsames Token-Freikontingent mit anderen Hunyuan-Multimodalmodellen.
Momentum-Verlauf
04.04.03.07.
Features
| Kontextfenster (Token) | 32.000 Tokens (32K) |
| Multimodale Eingaben | Bild + Text (image_url + text); offiziell dokumentiert als hunyuan-vision-Modell für Bildverstehen, Bildbeschreibung, multimodale Dialoge, Bild-OCR und wissensbasierte Bildanalyse |
| On-Device vs. Cloud | Cloud only – ausschließlich als API über Tencent Cloud (hunyuan.tencentcloudapi.com) verfügbar, kein On-Device-Betrieb |
| Preis pro Unit | $1.20 pro 1 Million Tokens (Input + Output kombiniert, laut Preisübersicht für das Hunyuan-Turbo-Vision-Modell auf Tencent Cloud) |
| Videoanalyse-Fähigkeit | Ja – über die Variante hunyuan-turbos-vision-video: Videoanalyse per video_url-Eingabetyp mit konfigurierbarer FPS-Rate, dokumentiert in der offiziellen Tencent Cloud API-Dokumentation |