

Veo 3
#7google · v3 · seit Mai 2025 (Google I/O, 20.–21. Mai 2025) · 15× · zuletzt 30. Juni 2026
33
Momentum
Google Veo 3 ist ein Text-zu-Video-Modell von Google DeepMind, das im Mai 2025 auf dem Google I/O vorgestellt wurde. Es generiert kurze Videos (4, 6 oder 8 Sekunden pro Clip) mit nativ synchronisiertem Audio – einschließlich Dialogen, Soundeffekten und Umgebungsklängen – aus Text- oder Bildprompts. Das Modell ist ausschließlich cloudbasiert über Googles APIs und Konsumentenprodukte zugänglich; eine lokale Ausführung ist nicht möglich. Seit Ende 2025 ist Veo 3.1 als aktuellere Nachfolgeversion verfügbar; die Veo-3.0-Endpunkte sind ab Juni 2026 abgekündigt.
Momentum-Verlauf
04.04.03.07.
Features
| Fine-tuning | Nicht verfügbar / nicht öffentlich dokumentiert. Veo 3 ist ein Closed-weights-Modell ohne publik zugängliche Fine-tuning-Option. |
| Generierungszeit | Laut offizieller Gemini-API-Dokumentation: Minimum 11 Sekunden, Maximum 6 Minuten (in Stoßzeiten / peak hours). |
| Lizenz | Proprietär / Closed-weights – kein öffentliches Modell-Download; Nutzung ausschließlich über Googles APIs und Produkte unter Googles Nutzungsbedingungen. |
| Max-Auflösung | 720p oder 1080p nativ (16:9 oder 9:16); 4K via Upscaling (Vertex AI / Gemini API, Premium-Tier). Offizielle Docs: 720p, 1080p, 4K. |
| Max. Videolänge | 8 Sekunden pro Clip (wählbar: 4s, 6s oder 8s). Via Extend-Funktion können bis zu 20 Verlängerungen à 7 Sek. verkettet werden, was eine Gesamtlänge von bis zu 148 Sekunden (~2,5 Min.) ermöglicht. |
| Plattform | Cloud-only: Gemini API, Vertex AI (Google Cloud), Google AI Studio, Google Flow (Filmmaking-Tool), Gemini App (Consumer). Kein lokaler Download/Betrieb möglich. |
| Release-Datum | Mai 2025 (angekündigt und veröffentlicht auf dem Google I/O, 20.–21. Mai 2025) |