Synthszr Charts — die großen AI-Marken im Wettkampf ums Podium
synthszr charts
llama-cpp

llama.cpp

#2

llama-cpp · seit 10. März 2023 (Erstveröffentlichung durch Georgi Gerganov) · 28× · zuletzt 30. Juni 2026

64
Momentum

llama.cpp ist eine quelloffene C/C++-Bibliothek für die lokale und Cloud-Inferenz großer Sprachmodelle, entwickelt von Georgi Gerganov. Sie läuft ohne externe Abhängigkeiten auf CPUs und GPUs verschiedenster Hersteller und nutzt das eigene GGUF-Dateiformat für quantisierte Modelle. Das Projekt bietet CLI-Tools sowie einen Server mit OpenAI-kompatibler API und bildet die technische Grundlage vieler bekannter lokaler LLM-Anwendungen wie Ollama und LM Studio. Es steht unter der MIT-Lizenz und wird kostenlos zum Download bereitgestellt.

Momentum-Verlauf
04.04.03.07.

Features

Deployment (Self-host/Cloud)Self-hosted (lokal, Server, Docker) sowie Cloud-Deployment möglich, z.B. via Hugging Face Inference Endpoints
Durchsatz/LatenzStark hardwareabhängig; Beispiel: RTX 3060 12GB ca. 42 tok/s (8B, Q4), M1 MacBook ca. 30-50 tok/s (7B quantisiert)
LizenzMIT License
PlattformWindows, Linux, macOS; läuft auf CPU, Apple Silicon (Metal), NVIDIA (CUDA), AMD (HIP), Intel/SYCL, Vulkan, RISC-V u.a.
PreisKostenlos, Open Source (keine Lizenzgebühren)
Protokoll-KompatibilitätOpenAI-kompatible API-Endpunkte (z.B. v1/chat/completions), Grammar-basierte JSON-Ausgabe
Release-Datum10. März 2023 (Initial-Release durch Georgi Gerganov)
Unterstützte Modelle/ProviderLlama, Mistral, Gemma, DeepSeek, gpt-oss, Phi, Qwen u.v.m. im GGUF-Format

Belege (28)

Subscribe free. Unsubscribe the second it sucks.

High-signal news across AI, business, UX, and tech. Every morning.