

Bonsai
#19 in Small & Edge-Modelleprism-ml · seit 2026-03-31 · 2× · zuletzt 29. Juni 2026
10
Momentum
Bonsai-4B ist ein quelloffenes 1-Bit-Sprachmodell von PrismML, das auf der Qwen3-Architektur basiert und für den Einsatz auf Edge-Geräten (iPhone, Mac, CUDA-GPUs) konzipiert ist. Die Gewichte werden mit 1,125 Bit pro Parameter gespeichert (1 Sign-Bit + ein FP16-Scale pro Gruppe von 128 Gewichten). Das Modell wird als GGUF (Q1_0) und MLX-1-Bit-Format bereitgestellt und ist unter der Apache-2.0-Lizenz kostenlos nutzbar. PrismML veröffentlichte es gemeinsam mit Bonsai-8B und Bonsai-1.7B am 31. März 2026 aus dem Stealth-Modus heraus.
Momentum-Verlauf
04.04.03.07.
Features
| Durchsatz (Tokens/Sekunde) | Ca. 23 Tokens/s auf M1 MacBook Air (unabhängiger Test); Bonsai-8B als Referenz: 44 Tokens/s auf iPhone 17 Pro Max; 80–100+ Tokens/s auf RTX 5060 Ti (für das 8B-Modell gemeldet) |
| Kontextfenster | 32.768 Token (32K) |
| Modellgröße (Parameter) | 4 Milliarden Parameter (Architektur: Qwen3); GGUF-Datei: 572 MB (Q1_0, 1,125 bpw) |
| Offline-Fähigkeit | Vollständig offline-fähig; läuft lokal auf iPhone/iPad (via MLX Swift), Apple Silicon Macs (MLX) sowie CUDA- und Metal-GPUs (llama.cpp-Fork). Kein Cloud-Zugriff erforderlich. |
| Preis-Tier | Kostenlos / Open Source (Apache 2.0) – kommerzielle Nutzung, Modifikation und Redistribution ohne Einschränkungen erlaubt |
| Speicherbedarf (GB) | ~0,5 GB (GGUF Q1_0 auf Disk: 0,57 GB inkl. Tokenizer/Metadaten; Parameter-Memory ohne Metadaten noch kleiner); zum Vergleich: Unpacked/FP16-Variante benötigt 8,1 GB VRAM |