

SGLang
#3lmsys · seit Januar 2024 · 6× · zuletzt 30. Juni 2026
25
Momentum
SGLang ist ein quelloffenes, hochperformantes Inference-Framework für große Sprachmodelle und multimodale Modelle, das von LMSYS unter einer Non-Profit-Organisation gehostet wird. Das System kombiniert eine in Python eingebettete Programmiersprache für strukturierte Text-Generierung mit einer optimierten Runtime und nutzt RadixAttention für effiziente KV-Cache-Wiederverwendung. SGLang wird in der Produktionen auf über 400.000 GPUs weltweit eingesetzt und generiert täglich Billionen von Tokens.
Momentum-Verlauf
04.04.03.07.
Features
| Agent-Fähigkeiten | Strukturierte Generierung mit Primitiven für Generierung, Auswahl und parallele Kontrollflüsse; Tool-Integration möglich |
| Basis-Modell/Framework | Model-agnostisch; Unterstützt Llama, Qwen, DeepSeek, Kimi, GLM, GPT, Gemma, Mistral u.a.; Kompatibel mit Hugging Face und OpenAI APIs |
| Code-Ausführung & Sandboxing | Keine dedizierten Code-Execution/Sandboxing-Features dokumentiert |
| Human-in-the-Loop | Keine dedizierte Human-in-the-Loop-Funktionalität dokumentiert |
| Kontexterhaltung | RadixAttention für automatische KV-Cache-Wiederverwendung; Hierarchisches KV-Caching für lange Kontextfenster; Chunked Prefill; Prefix-Caching |
| Preis-Tier | Kostenlos (Open-Source unter Apache License) |