Language

Synthszr Charts — die großen AI-Marken im Wettkampf ums Podium

Hunyuan-Turbo-Vision

#38 in Multimodale Modelle

tencent · turbo vision · 2× · zuletzt 29. Juni 2026

Momentum

Hunyuan-Turbo-Vision ist ein multimodales Sprachmodell von Tencent, das Bild- und Texteingaben kombiniert verarbeiten kann. Es ist Teil der Hunyuan-Turbo-Modellfamilie und wird ausschließlich als Cloud-API über Tencent Cloud bereitgestellt. Das Modell unterstützt Bildverständnis, Bildbeschreibung, multimodale Dialoge sowie – in der erweiterten Variante hunyuan-turbos-vision-video – auch Videoanalyse per URL-Eingabe. Laut Tencent-Cloud-Billing-Dokumentation teilt es sich ein gemeinsames Token-Freikontingent mit anderen Hunyuan-Multimodalmodellen.

Momentum-Verlauf

04.04.03.07.

Features

Kontextfenster (Token)	32.000 Tokens (32K)
Multimodale Eingaben	Bild + Text (image_url + text); offiziell dokumentiert als hunyuan-vision-Modell für Bildverstehen, Bildbeschreibung, multimodale Dialoge, Bild-OCR und wissensbasierte Bildanalyse
On-Device vs. Cloud	Cloud only – ausschließlich als API über Tencent Cloud (hunyuan.tencentcloudapi.com) verfügbar, kein On-Device-Betrieb
Preis pro Unit	$1.20 pro 1 Million Tokens (Input + Output kombiniert, laut Preisübersicht für das Hunyuan-Turbo-Vision-Modell auf Tencent Cloud)
Videoanalyse-Fähigkeit	Ja – über die Variante hunyuan-turbos-vision-video: Videoanalyse per video_url-Eingabetyp mit konfigurierbarer FPS-Rate, dokumentiert in der offiziellen Tencent Cloud API-Dokumentation

Hunyuan-Turbo-Vision

Features

Belege (2)

Subscribe free. Unsubscribe the second it sucks.