

oMLX
#10omlx · seit 2026-02-13 · 2× · zuletzt 29. Juni 2026
16
Momentum
oMLX ist ein nativer macOS-Inferenz-Server für Apple Silicon (M1 oder neuer), der auf Apples MLX-Framework aufbaut. Das Kernmerkmal ist ein zweistufiger KV-Cache (Hot-Tier im RAM, Cold-Tier auf SSD im safetensors-Format), der Cache-Blöcke auch über Server-Neustarts hinweg persistent hält. Der Server unterstützt Text-LLMs, VLMs, OCR-Modelle, Embeddings und Reranker und stellt sowohl eine OpenAI-kompatible als auch eine Anthropic-kompatible REST-API bereit. Verwaltet wird er über eine native macOS-Menüleisten-App (kein Electron) mit ergänzendem Web-Admin-Dashboard.
Momentum-Verlauf
04.04.03.07.
Features
| API-Typ | OpenAI-kompatibel (/v1/chat/completions) + Anthropic-kompatibel (/v1/messages); FastAPI-basiert |
| Inference-Backend | Apple MLX (mlx-lm / mlx-vlm); BatchGenerator für Continuous Batching; zweistufiger Paged-KV-Cache (RAM + SSD) |
| Maximale Modellgröße (GB RAM) | Minimum 16 GB RAM; 64 GB+ empfohlen; getestete Konfigurationen bis 512 GB (Mac Studio M3 Ultra) |
| Plattformen (OS-Unterstützung) | macOS 15+ (Sequoia) auf Apple Silicon (M1/M2/M3/M4) — kein Windows, kein Linux, kein Intel Mac |
| Preis-Tier | Kostenlos, Open Source (Apache License 2.0) |
| UI-Typ | Native macOS-Menüleisten-App (SwiftUI/PyObjC, kein Electron) + Web-Admin-Dashboard (/admin) für Modellverwaltung, Chat, Benchmarks und Monitoring |