

Llada Instruct
#41 in Open-Source-Sprachmodelleunknown · seit 2025-02-14 · 2× · zuletzt 29. Juni 2026
LLaDA-8B-Instruct (Large Language Diffusion with mAsking) ist ein 8-Milliarden-Parameter-Sprachmodell der GSAI-ML-Gruppe (Renmin University of China), das vollständig von Grund auf neu trainiert wurde – nicht auf Basis eines bestehenden Autoregressive-Modells. Es verwendet eine Masked-Diffusion-Architektur: Während des Pre-Trainings werden Token zufällig maskiert, und das Modell lernt, diese iterativ zu rekonstruieren. Nach Supervised Fine-Tuning (SFT) auf 4,5 Millionen Paaren zeigt LLaDA-8B-Instruct Instruction-Following-Fähigkeiten, die mit LLaMA3 8B Instruct vergleichbar sind, jedoch ohne Reinforcement Learning. Das Modell ist unter der MIT-Lizenz veröffentlicht und auf Hugging Face verfügbar.
Features
| Benchmark-Score (MMLU/ähnlich) | MMLU (5-shot): 65,9 (Base); LLaDA 8B Instruct: GSM8K 69,4 / MATH 31,9 / GPQA 33,3 / HumanEval 49,4 / MBPP 41,0 (laut offiziellem Paper, Tab. 2) |
| Modellgröße (Parameter) | 8 Milliarden Parameter (8B), trainiert auf 2,3 Billionen Token; SFT auf 4,5 Millionen Paaren |
| Preis-Tier | Kostenlos / Open Source (MIT-Lizenz); Modellgewichte frei auf Hugging Face verfügbar (GSAI-ML/LLaDA-8B-Instruct) |