Veo 3.1 Prompt-Leitfaden: So schreibst du cineastische KI-Video-Prompts, die stabil bleiben

Wer heute nach veo 3.1 prompts sucht, bekommt meist nur Listen mit Beispielen. Das eigentliche Problem ist aber selten ein Mangel an Beispielen.
Das eigentliche Problem ist Kontrolle.
Du brauchst Prompts, die in kurzen Clips stabil bleiben, eine klare Kameralogik halten, die Identität des Motivs über mehrere Shots tragen und typische Fehler vermeiden: verwaschene Bewegung, versehentlichen Text oder Szenen, die zu viel auf einmal wollen. Das gilt besonders dann, wenn du nicht nur "ein KI-Video", sondern etwas mit echter Regie-Anmutung willst.
Dieser Guide konzentriert sich auf die Praxis:
- wie du einen cineastischen Prompt strukturierst
- wann du text-to-video, image-to-video, first-and-last-frame oder ingredients-to-video einsetzen solltest
- wie du Charakter- und Shot-Kontinuität über mehrere Clips hältst
- wie du Dialog, Sound und Constraints schreibst, ohne gegen das Modell zu arbeiten
- was am häufigsten kaputtgeht und wie du es schnell behebst
Wenn du zuerst den größeren Produktkontext willst, lies /blog/veo-3-1-complete-guide-google-ai-video-generator. Wenn du das Modell schon kennst und direkt den Ablauf willst, bleib hier.
Die kurze Antwort
Der sicherste Weg zu besseren Ergebnissen mit Veo 3.1 ist nicht, mehr lose Ideen in den Prompt zu kippen. Der sichere Weg ist, den Prompt wie eine Shot-Anweisung zu schreiben.
Starte mit dieser Struktur:
| Prompt-Block | Aufgabe | So klingt ein guter Input |
|---|---|---|
| Kamerasprache | Shot-Größe und Bewegung festlegen | low-angle medium shot, slow dolly in, shallow depth of field, 35mm lens look |
| Motiv | Person, Objekt oder Szenenanker definieren | a young fashion designer in a charcoal wool coat with silver scissors in hand |
| Aktion | Einen Haupt-Beat festlegen | she lifts the fabric, studies the cut, and exhales quietly |
| Kontext | Ort, Zeit und Umgebungsverhalten setzen | inside a narrow Paris studio at blue hour, neon reflections on wet window glass |
| Stil und Atmosphäre | Licht, Textur und Finish bestimmen | moody cinematic lighting, restrained color palette, premium editorial look |
Diese fünf Ebenen sind das stabilste Grundgerüst. Den Unterschied macht danach vor allem Disziplin:
- ein kurzer Clip für eine einzige Szene
- derselbe Identitätsblock, wenn die Figur wiederkommt
- bei image-to-video nur Bewegung beschreiben
- dasselbe seed verwenden, wenn Konsistenz wichtig ist
- Dialog, Soundeffekte und Ambiente trennen

Was in Veo 3.1 aktuell wirklich funktioniert
Stand 4. April 2026 sind diese Annahmen für Veo 3.1 am robustesten:
- in Vertex AI sind
veo-3.1-generate-001,veo-3.1-fast-generate-001und Preview-Varianten sichtbar - praktisch relevante Clip-Längen sind 4, 6 und 8 Sekunden
- die wichtigsten Formate sind 16:9 und 9:16
- der Standardpfad konzentriert sich auf 720p und 1080p
- mit der Referenzbild-Methode für Subjekte sind bis zu 3 Referenzbilder möglich
- der Prompt Rewriter von Veo 3 / 3.1 lässt sich nicht deaktivieren
- Flow baut auch Sprachfunktionen in Frames to Video aus, aber im Moment ist ein konservativer Einsatz sinnvoller
Diese Details ändern die Schreibweise.
Erstens bleibt Veo 3.1 ein Kurzclip-Modell. Ein cineastischer Prompt ist also kein Mini-Drehbuch, sondern ein klar verdichteter einzelner Shot.
Zweitens spielt der Prompt Rewriter eine echte Rolle. Wenn dein Prompt zu kurz, zu leer oder zu allgemein bleibt, bekommt das System zu viel Interpretationsspielraum. In der Praxis halten strukturierte Prompts mittlerer Länge meist besser als eine spontane Ein-Zeilen-Idee.
Drittens sind Referenzbilder längst kein Randtrick mehr. Wenn dieselbe Person, dasselbe Outfit oder dasselbe Produkt über mehrere Clips konsistent bleiben soll, ist ein stabiles Referenz-Setup stärker als noch mehr Adjektive.
Ein weiterer wichtiger Punkt: Auf Veo 3.1 ist der verlässlichste Weg derzeit die Subjekt-Referenz. Reine style-image-Steuerung ist weniger robust als Verfahren, die auf Subjekt- und Konsistenzkontrolle setzen. Für die meisten cineastischen Fälle ist das kein Problem. Wenn Motiv und Kamerasprache sauber gesetzt sind, verbessert sich das Ergebnis bereits deutlich.
Wie du einen cineastischen Veo-3.1-Prompt baust
Der einfachste Qualitätshebel ist, in Schichten und in der richtigen Reihenfolge zu schreiben. Nicht mit Stimmungswörtern anfangen, sondern mit dem Shot.
1. Zuerst die Kamera fixieren
Der Kamerablock ist kein Schmuck. Er ist der schnellste Hebel, um von generischer KI-Bewegung zu einem planvollen Shot zu kommen.
Nützliche Kamerabegriffe für Veo 3.1:
wide shotmedium shotclose-upextreme close-uplow angleeye-level shottracking shotslow dolly incrane shotPOV shotshallow depth of field
Wenn diese Basis schwach ist, wirkt der Rest oft ebenfalls schwach.
2. Das Motiv als wiederverwendbaren Identitätsblock formulieren
Für einen Einzelszene kann das Motiv kurz bleiben. Für mehrere Shots lohnt sich ein wiederverwendbares Identitätsmodul.
Mindestens sinnvoll sind:
- Altersbereich oder Rolle
- Gesichts- oder Haaranker
- Outfit-Anker
- ein oder zwei markante Props
- Grundemotion
- bei Bedarf eine Stimmcharakteristik
Dann musst du später nur noch Aktion oder Framing ändern.
3. Nur einen Haupt-Beat behalten
Viele cineastische Prompts scheitern genau hier.
Ein kurzer Clip verträgt keine Kette wie:
- kommt herein
- setzt sich
- öffnet ein Notizbuch
- lächelt
- schaut in die Kamera
- beginnt zu sprechen
Das ist zu viel. Wähle einen Haupt-Beat. Für mehr Beats brauchst du mehrere Clips.
4. Kontext wie Production Design behandeln
Kontext ist nicht nur der Ort. Es ist die komplette Umgebung des Shots.
Hier setzt du:
- Tageszeit
- Wetter
- räumliche Dichte
- Hintergrundbewegung
- Texturhinweise
- praktische Lichtquellen
Genau das lässt einen Shot gestaltet wirken statt leer.
5. Stil und Ton ans Ende setzen
Stil ist die Finish-Schicht, nicht das Skelett. Er soll das Ergebnis schärfen, nicht alles allein tragen.
Hilfreiche Finish-Begriffe:
moody editorial looksoft practical lightingcool blue night palettesubtle film grainpremium commercial finishquiet city ambiencedistant traffic hisssoft fabric movement
Wenn Sound wichtig ist, trenne gedanklich:
- Dialog
- Effekte
- Ambiente
Nicht alles mitten in die Bildbeschreibung kippen.
Ein wiederverwendbares Veo-3.1-Prompt-Template
Wenn du etwas Cineastisches willst, das gleichzeitig produktionstauglich bleibt, ist diese Struktur ein guter Start:
[Shot and camera language], [main subject with stable identity cues],
[one primary action], in [specific environment and time of day].
Lighting: [key light, mood, practical sources].
Style: [cinematic finish, palette, texture].
Motion: [camera movement, subject movement, environmental movement].
Audio: [dialogue if any], [sound effects], [ambient noise].
Avoid: [what should not appear or happen].Beispiel:
Eye-level medium shot, a young luxury fashion designer with a blunt black bob,
a charcoal wool coat, and silver tailoring scissors clipped at the waist,
studying a draped silk jacket on a mannequin in a narrow Paris atelier at blue
hour. Soft window light from the left, warm practical lamp on the worktable,
muted blue-gray palette, premium editorial finish with subtle film grain. Slow
dolly in as the designer lifts the sleeve and checks the shoulder line. Fabric
rustles softly. Ambient city rain outside the window. Avoid extra people, text
on screen, exaggerated facial motion, and sudden camera shake.Die 4 Prompt-Methoden, die wirklich zählen
Viele Veo-3.1-Artikel bleiben zu abstrakt. In echter Produktion ist es meist sinnvoller, zuerst die richtige Methode zu wählen.
| Methode | Optimal für | Wichtigste Regel |
|---|---|---|
| Text-to-video | Neuer Shot, kein Ausgangsmaterial, Explorationsphase | Den kompletten Shot in 5 Schichten schreiben |
| Ingredients-to-video / Subjekt-Referenz | Konsistenz bei Figur, Produkt oder Objekt | Immer denselben Identitätsblock und enge Referenzen nutzen |
| Image-to-video | Das richtige Standbild existiert schon | Nur Bewegung beschreiben |
| First-and-last-frame | Übergänge, Verbindungs-Shots, Enthüllungen | Start, Ende und Bewegungslogik klar definieren |
Methode 1: text-to-video für den ersten sauberen Shot
Das ist der beste Startpunkt, wenn du die visuelle Richtung noch suchst.
Ideal für:
- Eröffnungs-Shots
- stimmungsgetriebene Konzept-Szenen
- Establishing Shots
- Hero-Momente im Werbestil
Best Practices:
- ein klarer Shot-Typ
- wenige Subjekte
- keine Kette aus Mikrohandlungen
- ein klares Lichtkonzept
Methode 2: ingredients-to-video für Konsistenz
Wenn "cineastisch" auch bedeutet, dass dieselbe Figur im dritten Clip noch dieselbe Figur ist, dann ist das der richtige Weg.
Am sichersten ist:
- Referenzbilder untereinander konsistent halten
- bis zu 3 Referenzen nutzen, wenn Identität wichtig ist
- denselben Charakterblock in jedem Prompt wiederholen
- Gesicht und Kleidung nicht ständig umformulieren, außer du willst bewusst ändern
Das ist viel stärker als nur mehr Adjektive.
Methode 3: image-to-video für subtile Bewegung
Wenn das richtige Standbild schon existiert, musst du nicht die ganze Szene neu beschreiben.
Das Eingabebild trägt bereits:
- Motiv
- Layout
- Licht
- Grundstil
Der image-to-video-Prompt sollte also vor allem steuern:
- Kamerabewegung
- Motivbewegung
- Umgebungsbewegung
Gute Motion-Prompts sind zum Beispiel:
slow dolly in on the subjecthair moves gently in the windfog rolls in across the streetthe subject blinks, shifts weight, and looks toward the window
Der häufigste Fehler ist hier die vollständige Neubeschreibung des Bildes.
Methode 4: first-and-last-frame für cineastische Übergänge
Wenn Start und Ziel klar sind, wird dieser Weg sehr stark.
Besonders geeignet für:
- Reveal-Shots
- bogenförmige Bewegungen
- Perspektivwechsel
- Before-and-after-Übergänge
Wichtig ist nicht, die komplette Mitte zu erzählen, sondern die Bewegungslogik:
- wo es beginnt
- wo es endet
- welche emotionale Verschiebung passiert
- wie sich der Ton mitbewegt
Timestamp Prompting kann zusätzlich helfen, einen 8-Sekunden-Clip stärker als kleine Sequenz zu kontrollieren, sollte aber sparsam eingesetzt werden.

Wie du über mehrere Clips Konsistenz hältst
Sobald du über einen einzelnen isolierten Clip hinausgehst, wird cineastisches Prompting deutlich schwieriger.
Die echten Konsistenzhebel sind:
Immer denselben Identitätsblock wiederholen
Wenn dieselbe Figur wieder auftaucht, wiederhole dieselben visuellen Anker:
- Haare
- Gesicht
- Outfit
- Alter oder Rolle
- Stimme, wenn gesprochen wird
Hier ist Wiederholung kein Nachteil, sondern ein Vorteil.
Dasselbe seed nutzen, wenn Kontinuität wichtig ist
Wenn du eine Sequenz aufbaust und visuelle, stilistische oder sogar stimmliche Kontinuität brauchst, ist ein konstantes seed die sicherste Wahl, sofern die Oberfläche das zulässt.
Die Szene in Clips aufteilen, nicht in Absätze
Eine cineastische Sequenz funktioniert meist stärker als:
- Etablierung
- Detail
- Reaktion
- Enthüllung
statt als ein überladener Einzelprompt.
Pro Clip nur eine dominante Kamerageste
Nicht gleichzeitig einbauen:
- pan
- dolly
- tilt
- zoom
- rack focus
- plus quer durchs Bild laufendes Subjekt
Stärker ist eher:
slow dolly in while the subject turns toward the window
Audio-Instruktionen sauber halten
Wenn ein Clip Dialog, Ambiente und Effekte hat, denke sie als getrennte Ebenen. Je sauberer die Tonbühne, desto stabiler wirkt oft das Ergebnis.
Häufigste Fehler und schnelle Korrekturen
| Problem | Ursache | Schnellste Korrektur |
|---|---|---|
| Das Bild wirkt matschig | Zu viele Aktionen in einem Kurzclip | Auf eine Szene und einen Beat reduzieren |
| Die Figur driftet zwischen Clips | Identität wird nicht wiederholt | Immer denselben Subjektblock und dieselben Referenzen nutzen |
| image-to-video ignoriert das Eingabebild | Du beschreibst die ganze Szene neu | Nur Bewegung, Kamera und Atmosphärenwechsel schreiben |
| Dialog erzeugt seltsamen Text | Das Format ist zu wörtlich | Zeilen kürzer und konservativer formulieren |
| Der Shot wirkt nicht cineastisch | Es fehlt Kamerasprache | Mit Shot-Typ, Winkel und Bewegung anfangen |
| Das Ergebnis driftet weg | Der Rewriter hat zu viel Spielraum | Einen strukturierten Prompt mittlerer Länge verwenden |
| Der Clip wirkt wie mehrere unfertige Szenen | Du hast eine Sequenz statt eines Shots geschrieben | Die Story in mehrere Clips zerlegen |
Wichtiges Detail: Wenn beim Dialog plötzlich Wörter im Bild auftauchen, ist die Formulierung meist zu textartig. Kürzere und zurückhaltendere Sprachhinweise sind sicherer.
cinematic nicht als bloßes Atmosphärenwort behandeln
Viele verwenden cinematic nur als Stilwort. Allein ist das zu vage.
In Veo 3.1 basiert Cineastik meist auf fünf konkreten Dingen:
- klare Kamerasprache
- lesbare Licht-Hierarchie
- klarer Motivfokus
- kontrollierte Bewegung
- konsistenter Ton über mehrere Schnitte
Die stärksten cineastischen Prompts sind also nicht die poetischsten, sondern die mit der klarsten Produktionslogik.
Wenn du schneller iterieren willst, ist dieser Ablauf stark:
- einen kurzen Shot-Plan schreiben
- in einen strukturierten Veo-Prompt übersetzen
- einen Clip generieren
- prüfen, was kaputtging
- nur die kaputte Schicht korrigieren
Das ist deutlich effizienter als jedes Mal alles umzuschreiben.
Wann Veo 4 den Ablauf einfacher macht
Veo 3.1 ist stark, aber Prompt-Qualität ist nur die halbe Miete. Teams brauchen auch einen Ort, an dem sie Ergebnisse vergleichen, verschiedene Wege testen und Ideen bis zu wirklich nutzbaren Ergebnissen bringen können.
Genau dort wird Veo 4 praktischer.
Veo 4 ist die bessere Route, wenn du:
- mehrere Kreativpfade in einem Workspace willst
- Prompt, Referenz und Output schneller iterieren möchtest
- nicht in einer einzigen Anbieter-Oberfläche leben willst
- Ideation, Bildvorbereitung und Videogenerierung in einen gemeinsamen Fluss bringen willst
Wenn du nicht nur einen einzelnen Veo-3.1-Clip testen, sondern einen wiederholbaren KI-Video-Ablauf aufbauen willst, starte bei .
FAQ
Wie lang sollte ein Veo-3.1-Prompt sein?
Lang genug, damit Shot, Motiv, Aktion, Umgebung und Finish klar werden. In der Praxis ist ein strukturierter Prompt mittlerer Länge meist stabiler als eine einzelne Zeile.
Kann Veo 3.1 Referenzbilder verwenden?
Ja. Der derzeit stabilste Weg für Subjekt-Referenzen unterstützt bis zu 3 Bilder für dieselbe Person, Figur oder dasselbe Produkt.
Sollte ein Prompt mehrere Shots abdecken?
Meist nein. Veo 3.1 funktioniert stärker, wenn ein kurzer Clip nur eine Szene oder einen Haupt-Beat trägt.
Wie hält man dieselbe Figur über mehrere Clips am besten konsistent?
Mit demselben Subjektblock, derselben Referenz-Konfiguration und wenn möglich demselben seed. Konsistenz entsteht aus Wiederholung und Disziplin, nicht aus mehr zufälligen Adjektiven.
Was ist der häufigste Fehler bei image-to-video?
Das ganze Bild erneut zu beschreiben. Wenn der Frame schon existiert, sollte der Prompt vor allem Bewegung, Kameraverhalten und Atmosphärenwechsel steuern.
Fazit
Der beste Veo-3.1-Prompt ist nicht die "kreativste" Formulierung. Es ist die klarste Shot-Anweisung.
Wenn du cineastische Ergebnisse willst, denke wie eine Regie:
- zuerst den Shot definieren
- dann das Motiv definieren
- dann einen Haupt-Beat definieren
- dann die Umgebung definieren
- zuletzt das Finish definieren
Und dann Konsistenz über seed, Referenzen und Clip-Aufteilung absichern.
Genau so hält eine Methode langfristig.



