Language

Synthszr Charts — die großen AI-Marken im Wettkampf ums Podium

TurboQuant

#24

google · seit Preprint arXiv: 28. April 2025; Google Research Blog-Ankündigung: 24. März 2026; ICLR 2026 Konferenzpräsentation: April · 11× · zuletzt 30. Juni 2026

Momentum

TurboQuant ist ein von Google Research entwickelter Algorithmus zur Vektorquantisierung, der den KV-Cache großer Sprachmodelle auf 3–4 Bit komprimiert. Die Methode kombiniert PolarQuant (Rotations-basierte Skalarkquantisierung) mit einem 1-Bit QJL-Restfehler-Korrekturschritt und erzielt laut Google mindestens 6-fache KV-Cache-Speicherreduktion ohne messbare Genauigkeitsverluste. TurboQuant ist trainings- und kalibrierungsfrei und läuft auf beliebigen Transformer-Architekturen. Eine offizielle Google-Referenzimplementierung wurde noch nicht veröffentlicht (Stand Q2 2026); Community-Implementierungen für PyTorch, vLLM und llama.cpp existieren.

Momentum-Verlauf

04.04.03.07.

Features

Lizenz	Kein offizielles Google-Open-Source-Release (Stand Q2 2026); Community-Implementierungen unter MIT-Lizenz
Plattform	Modell-agnostisch (beliebige Transformer-Architektur); Benchmarks auf NVIDIA H100; Community-Ports: PyTorch, vLLM, MLX/Apple Silicon, llama.cpp
Preis	Kein kommerzielles Produkt; Algorithmus als Forschungspaper frei verfügbar
Rechenleistung (FLOPS/TOPS)	Bis zu 8× Speedup bei Attention-Logit-Berechnung (4-Bit TurboQuant vs. 32-Bit unquantisiert) auf NVIDIA H100
Release-Datum	arXiv-Preprint: 28. Apr. 2025; Google Research Blog: 24. März 2026; ICLR 2026 Konferenz: Apr. 2026
Speicher	KV-Cache-Kompression auf 3–4 Bit/Wert; mind. 6× Reduktion vs. FP16 (z.B. Llama 3.1 70B 128k: ~40 GB → ~7,5 GB KV-Cache)
Verfügbarkeit	Algorithmus/Paper: öffentlich (arXiv 2504.19874, ICLR 2026); offizielle Google-Implementierung: noch nicht veröffentlicht; Community-Implementierungen: PyPI/GitHub (nicht von Google)

TurboQuant

Features

Belege (11)

Subscribe free. Unsubscribe the second it sucks.