

LLaDA
#38 in Open-Source-Sprachmodelleunknown · seit 2025-02-14 · 2× · zuletzt 30. Juni 2026
13
Momentum
LLaDA ist ein Sprachmodell, das auf diffusionsbasierten Methoden zur Textgenerierung basiert. Das Besondere an LLaDA ist, dass es demonstriert hat, dass diffusionsbasierte Ansätze in große Sprachmodelle skaliert werden können.
Momentum-Verlauf
04.04.03.07.
Features
| Benchmark-Score (MMLU/ähnlich) | MMLU 5-shot: 65,9 (LLaDA 8B Base) — übertrifft LLaMA3 8B Base (65,4) bei gleichen Trainings-Tokens (2,3T); GSM8K: 70,7; Math: 27,3; HumanEval: 33,5 |
| Kontextfenster | Nativ bis 8.192 Tokens (8k); LongBench-Tests zeigen, dass 8k das unterstützte Kontextfenster ist – bei 4k und 8k evaluiert, darüber hinaus gehende Inhalte werden abgeschnitten |
| Modellgröße (Parameter) | 8 Milliarden Parameter (8B), trainiert von Grund auf (from scratch) |
| Preis-Tier | Kostenlos / Open Source (Apache-2.0-lizenziert, Gewichte auf HuggingFace unter GSAI-ML/LLaDA-8B-Base und GSAI-ML/LLaDA-8B-Instruct öffentlich verfügbar) |