Language

Synthszr Charts — die großen AI-Marken im Wettkampf ums Podium

Bonsai

#19 in Small & Edge-Modelle

prism-ml · seit 2026-03-31 · 2× · zuletzt 29. Juni 2026

Momentum

Bonsai-4B ist ein quelloffenes 1-Bit-Sprachmodell von PrismML, das auf der Qwen3-Architektur basiert und für den Einsatz auf Edge-Geräten (iPhone, Mac, CUDA-GPUs) konzipiert ist. Die Gewichte werden mit 1,125 Bit pro Parameter gespeichert (1 Sign-Bit + ein FP16-Scale pro Gruppe von 128 Gewichten). Das Modell wird als GGUF (Q1_0) und MLX-1-Bit-Format bereitgestellt und ist unter der Apache-2.0-Lizenz kostenlos nutzbar. PrismML veröffentlichte es gemeinsam mit Bonsai-8B und Bonsai-1.7B am 31. März 2026 aus dem Stealth-Modus heraus.

Momentum-Verlauf

04.04.03.07.

Features

Durchsatz (Tokens/Sekunde)	Ca. 23 Tokens/s auf M1 MacBook Air (unabhängiger Test); Bonsai-8B als Referenz: 44 Tokens/s auf iPhone 17 Pro Max; 80–100+ Tokens/s auf RTX 5060 Ti (für das 8B-Modell gemeldet)
Kontextfenster	32.768 Token (32K)
Modellgröße (Parameter)	4 Milliarden Parameter (Architektur: Qwen3); GGUF-Datei: 572 MB (Q1_0, 1,125 bpw)
Offline-Fähigkeit	Vollständig offline-fähig; läuft lokal auf iPhone/iPad (via MLX Swift), Apple Silicon Macs (MLX) sowie CUDA- und Metal-GPUs (llama.cpp-Fork). Kein Cloud-Zugriff erforderlich.
Preis-Tier	Kostenlos / Open Source (Apache 2.0) – kommerzielle Nutzung, Modifikation und Redistribution ohne Einschränkungen erlaubt
Speicherbedarf (GB)	~0,5 GB (GGUF Q1_0 auf Disk: 0,57 GB inkl. Tokenizer/Metadaten; Parameter-Memory ohne Metadaten noch kleiner); zum Vergleich: Unpacked/FP16-Variante benötigt 8,1 GB VRAM

Bonsai

Features

Belege (2)

Subscribe free. Unsubscribe the second it sucks.