Language

Synthszr Charts — die großen AI-Marken im Wettkampf ums Podium

Deepseek R1 Distill Qwen

#15 in Reasoning-Modelle

deepseek · seit 2025-01-20 · 3× · zuletzt 29. Juni 2026

Momentum

DeepSeek-R1-Distill-Qwen ist eine Familie von vier quelloffenen, dichten Reasoning-Modellen (1,5B, 7B, 14B, 32B Parameter), die durch Wissens-Destillation aus dem großen DeepSeek-R1-Modell entstanden sind. Als Basismodelle dienten Qwen2.5-Varianten; die Feinabstimmung erfolgte auf 800.000 von DeepSeek-R1 synthetisierten Reasoning-Samples ausschließlich per Supervised Fine-Tuning (kein RL-Schritt). Die Modelle übertreffen auf AIME-2024- und MATH-500-Benchmarks zahlreiche größere Open-Source-Modelle und erzielen laut offizieller Dokumentation bei der 32B-Variante 72,6 % Pass@1 auf AIME 2024. Alle Gewichte sind öffentlich auf Hugging Face verfügbar und unter Apache 2.0 lizenziert.

Momentum-Verlauf

04.04.03.07.

Features

Kontextfenster (Tokens)	128.000 Tokens (alle Qwen-Varianten: 1.5B, 7B, 14B, 32B); maximale Generierungslänge 32.768 Tokens
Kosteffizient (€/1M Tokens)	R1-Distill-Qwen-32B: $0,30 Input / $0,30 Output pro 1M Tokens (Drittanbieter-Hosting, niedrigster verfügbarer Preis); kleinere Varianten (1.5B) derzeit ohne kommerziellen API-Anbieter gelistet
Parametergröße (Mrd.)	Modellfamilie mit 4 Größen: 1,5 Mrd. / 7 Mrd. / 14 Mrd. / 32 Mrd. Parameter (alle auf Qwen2.5-Basis)
Reasoning-Fähigkeit (AIME-Score %)	1.5B: 28,9 % Pass@1 \| 7B: 55,5 % Pass@1 \| 14B: 69,7 % Pass@1 \| 32B: 72,6 % Pass@1 (AIME 2024)
Verfügbarkeitsstatus	Open Weights – alle vier Varianten (1.5B, 7B, 14B, 32B) öffentlich auf Hugging Face verfügbar; Apache-2.0-Lizenz, kommerziell nutzbar; 32B zusätzlich via API-Anbieter (z. B. Groq)

Deepseek R1 Distill Qwen

Features

Belege (3)

Subscribe free. Unsubscribe the second it sucks.