

vLLM
#1vllm · seit Juni 2023 (offizielles erstes Release) · 40× · zuletzt 30. Juni 2026
vLLM ist eine quelloffene Inferenz- und Serving-Engine für Large Language Models (LLMs), ursprünglich am Sky Computing Lab der UC Berkeley entwickelt und seit 2023 als Community-Projekt gepflegt. Die Kernarchitektur basiert auf PagedAttention (virtuelle Speicherverwaltung des KV-Cache) und Continuous Batching, was deutlich höheren Durchsatz gegenüber naiven Serving-Ansätzen ermöglicht. vLLM unterstützt über 200 Modellarchitekturen von Hugging Face und läuft auf einer breiten Palette von Hardware-Beschleunigern. Das Projekt ist kostenlos nutzbar (Apache 2.0) und wird durch ein Ökosystem von über 2.000 Contributors sowie Unterstützer wie NVIDIA, AMD, Google, AWS und Intel betrieben.
Features
| Lizenz | Apache License 2.0 |
| Preis | Kostenlos / Open Source (keine Lizenzkosten; Spenden via GitHub & OpenCollective) |
| Release-Datum | Juni 2023 (erstes offizielles Release); aktuell v0.24.0 auf PyPI (Stand Juli 2026) |