

TurboQuant
#24google · seit Preprint arXiv: 28. April 2025; Google Research Blog-Ankündigung: 24. März 2026; ICLR 2026 Konferenzpräsentation: April · 11× · zuletzt 30. Juni 2026
TurboQuant ist ein von Google Research entwickelter Algorithmus zur Vektorquantisierung, der den KV-Cache großer Sprachmodelle auf 3–4 Bit komprimiert. Die Methode kombiniert PolarQuant (Rotations-basierte Skalarkquantisierung) mit einem 1-Bit QJL-Restfehler-Korrekturschritt und erzielt laut Google mindestens 6-fache KV-Cache-Speicherreduktion ohne messbare Genauigkeitsverluste. TurboQuant ist trainings- und kalibrierungsfrei und läuft auf beliebigen Transformer-Architekturen. Eine offizielle Google-Referenzimplementierung wurde noch nicht veröffentlicht (Stand Q2 2026); Community-Implementierungen für PyTorch, vLLM und llama.cpp existieren.
Features
| Lizenz | Kein offizielles Google-Open-Source-Release (Stand Q2 2026); Community-Implementierungen unter MIT-Lizenz |
| Plattform | Modell-agnostisch (beliebige Transformer-Architektur); Benchmarks auf NVIDIA H100; Community-Ports: PyTorch, vLLM, MLX/Apple Silicon, llama.cpp |
| Preis | Kein kommerzielles Produkt; Algorithmus als Forschungspaper frei verfügbar |
| Rechenleistung (FLOPS/TOPS) | Bis zu 8× Speedup bei Attention-Logit-Berechnung (4-Bit TurboQuant vs. 32-Bit unquantisiert) auf NVIDIA H100 |
| Release-Datum | arXiv-Preprint: 28. Apr. 2025; Google Research Blog: 24. März 2026; ICLR 2026 Konferenz: Apr. 2026 |
| Speicher | KV-Cache-Kompression auf 3–4 Bit/Wert; mind. 6× Reduktion vs. FP16 (z.B. Llama 3.1 70B 128k: ~40 GB → ~7,5 GB KV-Cache) |
| Verfügbarkeit | Algorithmus/Paper: öffentlich (arXiv 2504.19874, ICLR 2026); offizielle Google-Implementierung: noch nicht veröffentlicht; Community-Implementierungen: PyPI/GitHub (nicht von Google) |