Veo 3.1 Prompt-Leitfaden: So schreibst du cineastische KI-Video-Prompts, die stabil bleiben

Editoriales Titelbild für einen Veo-3.1-Leitfaden zu stabileren und cineastischeren KI-Video-Prompts

Wer heute nach veo 3.1 prompts sucht, bekommt meist nur Listen mit Beispielen. Das eigentliche Problem ist aber selten ein Mangel an Beispielen.

Das eigentliche Problem ist Kontrolle.

Du brauchst Prompts, die in kurzen Clips stabil bleiben, eine klare Kameralogik halten, die Identität des Motivs über mehrere Shots tragen und typische Fehler vermeiden: verwaschene Bewegung, versehentlichen Text oder Szenen, die zu viel auf einmal wollen. Das gilt besonders dann, wenn du nicht nur "ein KI-Video", sondern etwas mit echter Regie-Anmutung willst.

Dieser Guide konzentriert sich auf die Praxis:

wie du einen cineastischen Prompt strukturierst
wann du text-to-video, image-to-video, first-and-last-frame oder ingredients-to-video einsetzen solltest
wie du Charakter- und Shot-Kontinuität über mehrere Clips hältst
wie du Dialog, Sound und Constraints schreibst, ohne gegen das Modell zu arbeiten
was am häufigsten kaputtgeht und wie du es schnell behebst

Wenn du zuerst den größeren Produktkontext willst, lies /blog/veo-3-1-complete-guide-google-ai-video-generator. Wenn du das Modell schon kennst und direkt den Ablauf willst, bleib hier.

Die kurze Antwort

Der sicherste Weg zu besseren Ergebnissen mit Veo 3.1 ist nicht, mehr lose Ideen in den Prompt zu kippen. Der sichere Weg ist, den Prompt wie eine Shot-Anweisung zu schreiben.

Starte mit dieser Struktur:

Prompt-Block	Aufgabe	So klingt ein guter Input
Kamerasprache	Shot-Größe und Bewegung festlegen	`low-angle medium shot`, `slow dolly in`, `shallow depth of field`, `35mm lens look`
Motiv	Person, Objekt oder Szenenanker definieren	`a young fashion designer in a charcoal wool coat with silver scissors in hand`
Aktion	Einen Haupt-Beat festlegen	`she lifts the fabric, studies the cut, and exhales quietly`
Kontext	Ort, Zeit und Umgebungsverhalten setzen	`inside a narrow Paris studio at blue hour, neon reflections on wet window glass`
Stil und Atmosphäre	Licht, Textur und Finish bestimmen	`moody cinematic lighting, restrained color palette, premium editorial look`

Diese fünf Ebenen sind das stabilste Grundgerüst. Den Unterschied macht danach vor allem Disziplin:

ein kurzer Clip für eine einzige Szene
derselbe Identitätsblock, wenn die Figur wiederkommt
bei image-to-video nur Bewegung beschreiben
dasselbe seed verwenden, wenn Konsistenz wichtig ist
Dialog, Soundeffekte und Ambiente trennen

Konzeptionelle Illustration, in der fünf Prompt-Ebenen zu einem cineastischen KI-Video-Shot zusammenlaufen

Was in Veo 3.1 aktuell wirklich funktioniert

Stand 4. April 2026 sind diese Annahmen für Veo 3.1 am robustesten:

in Vertex AI sind veo-3.1-generate-001, veo-3.1-fast-generate-001 und Preview-Varianten sichtbar
praktisch relevante Clip-Längen sind 4, 6 und 8 Sekunden
die wichtigsten Formate sind 16:9 und 9:16
der Standardpfad konzentriert sich auf 720p und 1080p
mit der Referenzbild-Methode für Subjekte sind bis zu 3 Referenzbilder möglich
der Prompt Rewriter von Veo 3 / 3.1 lässt sich nicht deaktivieren
Flow baut auch Sprachfunktionen in Frames to Video aus, aber im Moment ist ein konservativer Einsatz sinnvoller

Diese Details ändern die Schreibweise.

Erstens bleibt Veo 3.1 ein Kurzclip-Modell. Ein cineastischer Prompt ist also kein Mini-Drehbuch, sondern ein klar verdichteter einzelner Shot.

Zweitens spielt der Prompt Rewriter eine echte Rolle. Wenn dein Prompt zu kurz, zu leer oder zu allgemein bleibt, bekommt das System zu viel Interpretationsspielraum. In der Praxis halten strukturierte Prompts mittlerer Länge meist besser als eine spontane Ein-Zeilen-Idee.

Drittens sind Referenzbilder längst kein Randtrick mehr. Wenn dieselbe Person, dasselbe Outfit oder dasselbe Produkt über mehrere Clips konsistent bleiben soll, ist ein stabiles Referenz-Setup stärker als noch mehr Adjektive.

Ein weiterer wichtiger Punkt: Auf Veo 3.1 ist der verlässlichste Weg derzeit die Subjekt-Referenz. Reine style-image-Steuerung ist weniger robust als Verfahren, die auf Subjekt- und Konsistenzkontrolle setzen. Für die meisten cineastischen Fälle ist das kein Problem. Wenn Motiv und Kamerasprache sauber gesetzt sind, verbessert sich das Ergebnis bereits deutlich.

Wie du einen cineastischen Veo-3.1-Prompt baust

Der einfachste Qualitätshebel ist, in Schichten und in der richtigen Reihenfolge zu schreiben. Nicht mit Stimmungswörtern anfangen, sondern mit dem Shot.

1. Zuerst die Kamera fixieren

Der Kamerablock ist kein Schmuck. Er ist der schnellste Hebel, um von generischer KI-Bewegung zu einem planvollen Shot zu kommen.

Nützliche Kamerabegriffe für Veo 3.1:

wide shot
medium shot
close-up
extreme close-up
low angle
eye-level shot
tracking shot
slow dolly in
crane shot
POV shot
shallow depth of field

Wenn diese Basis schwach ist, wirkt der Rest oft ebenfalls schwach.

2. Das Motiv als wiederverwendbaren Identitätsblock formulieren

Für einen Einzelszene kann das Motiv kurz bleiben. Für mehrere Shots lohnt sich ein wiederverwendbares Identitätsmodul.

Mindestens sinnvoll sind:

Altersbereich oder Rolle
Gesichts- oder Haaranker
Outfit-Anker
ein oder zwei markante Props
Grundemotion
bei Bedarf eine Stimmcharakteristik

Dann musst du später nur noch Aktion oder Framing ändern.

3. Nur einen Haupt-Beat behalten

Viele cineastische Prompts scheitern genau hier.

Ein kurzer Clip verträgt keine Kette wie:

kommt herein
setzt sich
öffnet ein Notizbuch
lächelt
schaut in die Kamera
beginnt zu sprechen

Das ist zu viel. Wähle einen Haupt-Beat. Für mehr Beats brauchst du mehrere Clips.

4. Kontext wie Production Design behandeln

Kontext ist nicht nur der Ort. Es ist die komplette Umgebung des Shots.

Hier setzt du:

Tageszeit
Wetter
räumliche Dichte
Hintergrundbewegung
Texturhinweise
praktische Lichtquellen

Genau das lässt einen Shot gestaltet wirken statt leer.

5. Stil und Ton ans Ende setzen

Stil ist die Finish-Schicht, nicht das Skelett. Er soll das Ergebnis schärfen, nicht alles allein tragen.

Hilfreiche Finish-Begriffe:

moody editorial look
soft practical lighting
cool blue night palette
subtle film grain
premium commercial finish
quiet city ambience
distant traffic hiss
soft fabric movement

Wenn Sound wichtig ist, trenne gedanklich:

Dialog
Effekte
Ambiente

Nicht alles mitten in die Bildbeschreibung kippen.

Ein wiederverwendbares Veo-3.1-Prompt-Template

Wenn du etwas Cineastisches willst, das gleichzeitig produktionstauglich bleibt, ist diese Struktur ein guter Start:

[Shot and camera language], [main subject with stable identity cues],
[one primary action], in [specific environment and time of day].
Lighting: [key light, mood, practical sources].
Style: [cinematic finish, palette, texture].
Motion: [camera movement, subject movement, environmental movement].
Audio: [dialogue if any], [sound effects], [ambient noise].
Avoid: [what should not appear or happen].

Beispiel:

Eye-level medium shot, a young luxury fashion designer with a blunt black bob,
a charcoal wool coat, and silver tailoring scissors clipped at the waist,
studying a draped silk jacket on a mannequin in a narrow Paris atelier at blue
hour. Soft window light from the left, warm practical lamp on the worktable,
muted blue-gray palette, premium editorial finish with subtle film grain. Slow
dolly in as the designer lifts the sleeve and checks the shoulder line. Fabric
rustles softly. Ambient city rain outside the window. Avoid extra people, text
on screen, exaggerated facial motion, and sudden camera shake.

Die 4 Prompt-Methoden, die wirklich zählen

Viele Veo-3.1-Artikel bleiben zu abstrakt. In echter Produktion ist es meist sinnvoller, zuerst die richtige Methode zu wählen.

Methode	Optimal für	Wichtigste Regel
Text-to-video	Neuer Shot, kein Ausgangsmaterial, Explorationsphase	Den kompletten Shot in 5 Schichten schreiben
Ingredients-to-video / Subjekt-Referenz	Konsistenz bei Figur, Produkt oder Objekt	Immer denselben Identitätsblock und enge Referenzen nutzen
Image-to-video	Das richtige Standbild existiert schon	Nur Bewegung beschreiben
First-and-last-frame	Übergänge, Verbindungs-Shots, Enthüllungen	Start, Ende und Bewegungslogik klar definieren

Methode 1: text-to-video für den ersten sauberen Shot

Das ist der beste Startpunkt, wenn du die visuelle Richtung noch suchst.

Ideal für:

Eröffnungs-Shots
stimmungsgetriebene Konzept-Szenen
Establishing Shots
Hero-Momente im Werbestil

Best Practices:

ein klarer Shot-Typ
wenige Subjekte
keine Kette aus Mikrohandlungen
ein klares Lichtkonzept

Methode 2: ingredients-to-video für Konsistenz

Wenn "cineastisch" auch bedeutet, dass dieselbe Figur im dritten Clip noch dieselbe Figur ist, dann ist das der richtige Weg.

Am sichersten ist:

Referenzbilder untereinander konsistent halten
bis zu 3 Referenzen nutzen, wenn Identität wichtig ist
denselben Charakterblock in jedem Prompt wiederholen
Gesicht und Kleidung nicht ständig umformulieren, außer du willst bewusst ändern

Das ist viel stärker als nur mehr Adjektive.

Methode 3: image-to-video für subtile Bewegung

Wenn das richtige Standbild schon existiert, musst du nicht die ganze Szene neu beschreiben.

Das Eingabebild trägt bereits:

Motiv
Layout
Licht
Grundstil

Der image-to-video-Prompt sollte also vor allem steuern:

Kamerabewegung
Motivbewegung
Umgebungsbewegung

Gute Motion-Prompts sind zum Beispiel:

slow dolly in on the subject
hair moves gently in the wind
fog rolls in across the street
the subject blinks, shifts weight, and looks toward the window

Der häufigste Fehler ist hier die vollständige Neubeschreibung des Bildes.

Methode 4: first-and-last-frame für cineastische Übergänge

Wenn Start und Ziel klar sind, wird dieser Weg sehr stark.

Besonders geeignet für:

Reveal-Shots
bogenförmige Bewegungen
Perspektivwechsel
Before-and-after-Übergänge

Wichtig ist nicht, die komplette Mitte zu erzählen, sondern die Bewegungslogik:

wo es beginnt
wo es endet
welche emotionale Verschiebung passiert
wie sich der Ton mitbewegt

Timestamp Prompting kann zusätzlich helfen, einen 8-Sekunden-Clip stärker als kleine Sequenz zu kontrollieren, sollte aber sparsam eingesetzt werden.

Storyboard-artiges Visual mit einer Drei-Clip-Struktur aus Etablierung, Detail und Enthüllung bei konsistenter Figurenführung

Wie du über mehrere Clips Konsistenz hältst

Sobald du über einen einzelnen isolierten Clip hinausgehst, wird cineastisches Prompting deutlich schwieriger.

Die echten Konsistenzhebel sind:

Immer denselben Identitätsblock wiederholen

Wenn dieselbe Figur wieder auftaucht, wiederhole dieselben visuellen Anker:

Haare
Gesicht
Outfit
Alter oder Rolle
Stimme, wenn gesprochen wird

Hier ist Wiederholung kein Nachteil, sondern ein Vorteil.

Dasselbe seed nutzen, wenn Kontinuität wichtig ist

Wenn du eine Sequenz aufbaust und visuelle, stilistische oder sogar stimmliche Kontinuität brauchst, ist ein konstantes seed die sicherste Wahl, sofern die Oberfläche das zulässt.

Die Szene in Clips aufteilen, nicht in Absätze

Eine cineastische Sequenz funktioniert meist stärker als:

Etablierung
Detail
Reaktion
Enthüllung

statt als ein überladener Einzelprompt.

Pro Clip nur eine dominante Kamerageste

Nicht gleichzeitig einbauen:

pan
dolly
tilt
zoom
rack focus
plus quer durchs Bild laufendes Subjekt

Stärker ist eher:

slow dolly in while the subject turns toward the window

Audio-Instruktionen sauber halten

Wenn ein Clip Dialog, Ambiente und Effekte hat, denke sie als getrennte Ebenen. Je sauberer die Tonbühne, desto stabiler wirkt oft das Ergebnis.

Häufigste Fehler und schnelle Korrekturen

Problem	Ursache	Schnellste Korrektur
Das Bild wirkt matschig	Zu viele Aktionen in einem Kurzclip	Auf eine Szene und einen Beat reduzieren
Die Figur driftet zwischen Clips	Identität wird nicht wiederholt	Immer denselben Subjektblock und dieselben Referenzen nutzen
image-to-video ignoriert das Eingabebild	Du beschreibst die ganze Szene neu	Nur Bewegung, Kamera und Atmosphärenwechsel schreiben
Dialog erzeugt seltsamen Text	Das Format ist zu wörtlich	Zeilen kürzer und konservativer formulieren
Der Shot wirkt nicht cineastisch	Es fehlt Kamerasprache	Mit Shot-Typ, Winkel und Bewegung anfangen
Das Ergebnis driftet weg	Der Rewriter hat zu viel Spielraum	Einen strukturierten Prompt mittlerer Länge verwenden
Der Clip wirkt wie mehrere unfertige Szenen	Du hast eine Sequenz statt eines Shots geschrieben	Die Story in mehrere Clips zerlegen

Wichtiges Detail: Wenn beim Dialog plötzlich Wörter im Bild auftauchen, ist die Formulierung meist zu textartig. Kürzere und zurückhaltendere Sprachhinweise sind sicherer.

`cinematic` nicht als bloßes Atmosphärenwort behandeln

Viele verwenden cinematic nur als Stilwort. Allein ist das zu vage.

In Veo 3.1 basiert Cineastik meist auf fünf konkreten Dingen:

klare Kamerasprache
lesbare Licht-Hierarchie
klarer Motivfokus
kontrollierte Bewegung
konsistenter Ton über mehrere Schnitte

Die stärksten cineastischen Prompts sind also nicht die poetischsten, sondern die mit der klarsten Produktionslogik.

Wenn du schneller iterieren willst, ist dieser Ablauf stark:

einen kurzen Shot-Plan schreiben
in einen strukturierten Veo-Prompt übersetzen
einen Clip generieren
prüfen, was kaputtging
nur die kaputte Schicht korrigieren

Das ist deutlich effizienter als jedes Mal alles umzuschreiben.

Wann Veo 4 den Ablauf einfacher macht

Veo 3.1 ist stark, aber Prompt-Qualität ist nur die halbe Miete. Teams brauchen auch einen Ort, an dem sie Ergebnisse vergleichen, verschiedene Wege testen und Ideen bis zu wirklich nutzbaren Ergebnissen bringen können.

Genau dort wird Veo 4 praktischer.

Veo 4 ist die bessere Route, wenn du:

mehrere Kreativpfade in einem Workspace willst
Prompt, Referenz und Output schneller iterieren möchtest
nicht in einer einzigen Anbieter-Oberfläche leben willst
Ideation, Bildvorbereitung und Videogenerierung in einen gemeinsamen Fluss bringen willst

Wenn du nicht nur einen einzelnen Veo-3.1-Clip testen, sondern einen wiederholbaren KI-Video-Ablauf aufbauen willst, starte bei .

zuerst den Shot definieren
dann das Motiv definieren
dann einen Haupt-Beat definieren
dann die Umgebung definieren
zuletzt das Finish definieren

Und dann Konsistenz über seed, Referenzen und Clip-Aufteilung absichern.

Genau so hält eine Methode langfristig.

Veo 3.1 Prompt-Leitfaden: So schreibst du cineastische KI-Video-Prompts, die stabil bleiben

Inhaltsverzeichnis

Veo 3.1 Prompt-Leitfaden: So schreibst du cineastische KI-Video-Prompts, die stabil bleiben

Die kurze Antwort

Was in Veo 3.1 aktuell wirklich funktioniert

Wie du einen cineastischen Veo-3.1-Prompt baust

1. Zuerst die Kamera fixieren

2. Das Motiv als wiederverwendbaren Identitätsblock formulieren

3. Nur einen Haupt-Beat behalten

4. Kontext wie Production Design behandeln

5. Stil und Ton ans Ende setzen

Ein wiederverwendbares Veo-3.1-Prompt-Template

Die 4 Prompt-Methoden, die wirklich zählen

Methode 1: text-to-video für den ersten sauberen Shot

Methode 2: ingredients-to-video für Konsistenz

Methode 3: image-to-video für subtile Bewegung

Methode 4: first-and-last-frame für cineastische Übergänge

Wie du über mehrere Clips Konsistenz hältst

Immer denselben Identitätsblock wiederholen

Dasselbe seed nutzen, wenn Kontinuität wichtig ist

Die Szene in Clips aufteilen, nicht in Absätze

Pro Clip nur eine dominante Kamerageste

Audio-Instruktionen sauber halten

Häufigste Fehler und schnelle Korrekturen

`cinematic` nicht als bloßes Atmosphärenwort behandeln

Wann Veo 4 den Ablauf einfacher macht

FAQ

Wie lang sollte ein Veo-3.1-Prompt sein?

Kann Veo 3.1 Referenzbilder verwenden?

Sollte ein Prompt mehrere Shots abdecken?

Wie hält man dieselbe Figur über mehrere Clips am besten konsistent?

Was ist der häufigste Fehler bei image-to-video?

Fazit

Verwandte Beiträge

Happy Horse 1.0 vs Veo 3.1: Welches KI-Videomodell eignet sich besser für echte Produktionen?

Was ist HappyHorse 1.0? Das KI-Videomodell auf Platz 1

Die besten kostenlosen Tests für KI-Videogeneratoren 2026: 5 Optionen für Marketing-Teams