

Deepseek R1 Distill Qwen
#15 in Reasoning-Modelledeepseek · seit 2025-01-20 · 3× · zuletzt 29. Juni 2026
DeepSeek-R1-Distill-Qwen ist eine Familie von vier quelloffenen, dichten Reasoning-Modellen (1,5B, 7B, 14B, 32B Parameter), die durch Wissens-Destillation aus dem großen DeepSeek-R1-Modell entstanden sind. Als Basismodelle dienten Qwen2.5-Varianten; die Feinabstimmung erfolgte auf 800.000 von DeepSeek-R1 synthetisierten Reasoning-Samples ausschließlich per Supervised Fine-Tuning (kein RL-Schritt). Die Modelle übertreffen auf AIME-2024- und MATH-500-Benchmarks zahlreiche größere Open-Source-Modelle und erzielen laut offizieller Dokumentation bei der 32B-Variante 72,6 % Pass@1 auf AIME 2024. Alle Gewichte sind öffentlich auf Hugging Face verfügbar und unter Apache 2.0 lizenziert.
Features
| Kontextfenster (Tokens) | 128.000 Tokens (alle Qwen-Varianten: 1.5B, 7B, 14B, 32B); maximale Generierungslänge 32.768 Tokens |
| Kosteffizient (€/1M Tokens) | R1-Distill-Qwen-32B: $0,30 Input / $0,30 Output pro 1M Tokens (Drittanbieter-Hosting, niedrigster verfügbarer Preis); kleinere Varianten (1.5B) derzeit ohne kommerziellen API-Anbieter gelistet |
| Parametergröße (Mrd.) | Modellfamilie mit 4 Größen: 1,5 Mrd. / 7 Mrd. / 14 Mrd. / 32 Mrd. Parameter (alle auf Qwen2.5-Basis) |
| Reasoning-Fähigkeit (AIME-Score %) | 1.5B: 28,9 % Pass@1 | 7B: 55,5 % Pass@1 | 14B: 69,7 % Pass@1 | 32B: 72,6 % Pass@1 (AIME 2024) |
| Verfügbarkeitsstatus | Open Weights – alle vier Varianten (1.5B, 7B, 14B, 32B) öffentlich auf Hugging Face verfügbar; Apache-2.0-Lizenz, kommerziell nutzbar; 32B zusätzlich via API-Anbieter (z. B. Groq) |