veo 4
Loading your next page...
Preparing layouts, sections, and account state.
veo 4
Loading the next page...
Preparing pricing, articles, and creator-facing sections.
Veo 3.1 プロンプトガイド:映画的な AI 動画プロンプトを安定して書く方法 | ブログ
veo 4 ブログ Veo 3.1 プロンプトガイド:映画的な AI 動画プロンプトを安定して書く方法 Veo 3.1 プロンプトガイド:映画的な AI 動画プロンプトを安定して書く方法
いま veo 3.1 prompts を探すと、多くのページは単に例文を並べます。しかし、本当のボトルネックは例の数ではありません。
問題はコントロールです。
必要なのは、短いクリップ長でも崩れにくく、カメラ意図を明確に保ち、複数ショットでも被写体の同一性を維持し、曖昧な動きや不要な文字、濁ったシーン遷移を避けられるプロンプトです。とくに目指しているのが「とりあえず AI 動画」ではなく、演出されたように見えるシネマティックな AI 動画ならなおさらです。
このガイドでは次の実務だけに絞ります。
映画的なプロンプト構造をどう組むか
text-to-video、image-to-video、first-and-last-frame、ingredients-to-video をどう使い分けるか
複数クリップで人物とショットの連続性をどう保つか
セリフ、音、制約をどう書けばモデルとぶつからないか
何が壊れやすく、どう直すのが最速か
まず製品全体の理解が欲しいなら を読んでください。すでに Veo 3.1 の概要は知っていて、実践ワークフローだけ欲しいならこのまま進めば十分です。
Veo 3.1 の結果を良くしたいなら、思いつきを並べるのではなく、プロンプトをショット指示として書くことです。
まずはこの構造を使ってください。
プロンプトの層 役割 良い入力の形 カメラ言語 画角、景別、動きを固定する low-angle medium shot、slow dolly in、shallow depth of field、35mm lens look被写体 焦点となる人物、物、場面を定義する a young fashion designer in a charcoal wool coat with silver scissors in hand動作 主たる 1 ビートだけを書く she lifts the fabric, studies the cut, and exhales quietly
コンテキスト 場所、時間、環境の振る舞いを決める inside a narrow Paris studio at blue hour, neon reflections on wet window glass
スタイルと空気感 光、質感、完成トーンを決める moody cinematic lighting, restrained color palette, premium editorial look
この 5 層が一番安定した土台です。さらに効くのは次の実務です。
1 つの短いクリップには 1 つのシーンだけ
同じ人物が再登場するときは同じ被写体識別ブロックを繰り返す
image-to-video では画像再説明ではなく動きだけを書く
一貫性が重要なら同じ seed を使う
セリフ、効果音、環境音を分けて書く
2026 年 4 月 4 日 時点で、Veo 3.1 を実務で使うなら次の前提で考えるのが安全です。
Vertex AI では veo-3.1-generate-001、veo-3.1-fast-generate-001、preview 系が見えている
実用的なクリップ長は 4、6、8 秒
主なアスペクト比は 16:9 と 9:16
通常の出力導線は 720p と 1080p
被写体参照ワークフローでは 最大 3 枚の参照画像 を使える
Veo 3 / 3.1 では prompt rewriter を 無効化できない
Flow の Frames to Video では speech 機能も進んでいるが、現時点では保守的に扱う方がよい
まず、Veo 3.1 は依然として短尺クリップのモデルです。つまり、シネマティックなプロンプトとは短い映画脚本ではなく、強い 1 ショットを短く圧縮したものです。
次に、prompt rewriter の影響が大きいことです。短すぎる、曖昧すぎる、汎用的すぎるプロンプトは、システムに解釈余地を与えすぎます。実務では、構造のある中程度の長さの方が一行プロンプトより安定しやすいです。
さらに、参照画像ワークフローはもはや裏技ではありません。同じ顔、服、製品を複数ショットで揃えたいなら、形容詞を増やすより、参照設定を安定させる方が強いです。
もう一つ実務的に重要なのは、Veo 3.1 で今もっとも信頼しやすいのは 被写体参照画像 だということです。純粋な style image 制御は、被写体一貫性ワークフローほど安定していません。とはいえ、多くの映画的な用途では問題になりません。被写体とカメラ言語をロックできれば、結果はかなり改善します。
品質を上げる一番簡単な方法は、層ごとに、しかも順番に書くことです。気分語から始めないで、まずショットから始めます。
カメラの層は飾りではありません。普通の AI 動きから「演出されたショット」へ引き上げる最短の手段です。
Veo 3.1 で使いやすいカメラ用語は次の通りです。
wide shot
medium shot
close-up
extreme close-up
low angle
eye-level shot
tracking shot
slow dolly in
crane shot
POV shot
shallow depth of field
ここが弱いと、被写体やスタイルも弱く見えがちです。
単発ショットなら短くても構いません。複数ショットを前提にするなら、被写体は再利用可能な識別ブロックとしてまとめるのが有効です。
年齢帯や役割
顔や髪型のアンカー
衣装アンカー
1 つか 2 つの特徴的な小物
基本感情
セリフがあるなら声の特徴
こうしておけば、以後は動作やフレーミングだけを変えればよくなります。
多くのシネマティック・プロンプトが壊れるのはここです。
入ってくる
座る
ノートを開く
微笑む
カメラを見る
話し始める
1 クリップには多すぎます。主ビートを 1 つ選びましょう。必要なビートが多いならクリップを分けます。
コンテキストは単なる場所ではありません。ショットの環境全体です。
時間帯
天候
空間密度
背景の動き
質感の手掛かり
実光源
ここがあると、ショットは空虚な背景ではなく、設計された場面に見えます。
スタイルは仕上げの層であって、骨格ではありません。曖昧さを増やすのではなく、結果を絞るために使います。
moody editorial look
soft practical lighting
cool blue night palette
subtle film grain
premium commercial finish
quiet city ambience
distant traffic hiss
soft fabric movement
シネマティックで、かつ制作ワークフローに乗せやすい形としては次が使いやすいです。
[Shot and camera language], [main subject with stable identity cues],
[one primary action], in [specific environment and time of day].
Lighting: [key light, mood, practical sources].
Style: [cinematic finish, palette, texture].
Motion: [camera movement, subject movement, environmental movement].
Audio: [dialogue if any], [sound effects], [ambient noise].
Avoid: [what should not appear or happen]. Eye-level medium shot, a young luxury fashion designer with a blunt black bob,
a charcoal wool coat, and silver tailoring scissors clipped at the waist,
studying a draped silk jacket on a mannequin in a narrow Paris atelier at blue
hour. Soft window light from the left, warm practical lamp on the worktable,
muted blue-gray palette, premium editorial finish with subtle film grain. Slow
dolly in as the designer lifts the sleeve and checks the shoulder line. Fabric
rustles softly. Ambient city rain outside the window. Avoid extra people, text
on screen, exaggerated facial motion, and sudden camera shake. 多くの Veo 3.1 記事は抽象的すぎます。実際には、まずワークフローを選ぶ方がずっと重要です。
ワークフロー 向いている用途 最重要のルール Text-to-video 新規ショット、素材なし、探索段階 5 層構造でショット全体を書く Ingredients-to-video / 被写体参照 人物、製品、物体の一貫性 同じ被写体識別ブロックを繰り返し、参照を絞る Image-to-video すでに正しい静止フレームがある シーン再説明ではなく動きだけ書く First-and-last-frame トランジション、橋渡し、見せ場の提示 始点、終点、移動ロジックを明示する
冒頭ショット
ムード重視のコンセプトシーン
状況説明ショット
広告のヒーローショット
景別を一つに絞る
被写体数を増やしすぎない
複数イベントを鎖状にしない
照明設計は一つに絞る
「映画的」であることが「3 クリップ目でも同じ人物に見える」ことを含むなら、この経路です。
参照画像同士の見た目を揃える
一貫性が重要なら 3 枚の被写体参照を使う
毎回同じキャラクターブロックを繰り返す
本当に変えるとき以外、顔や衣装を言い換えない
正しい静止フレームがもうあるなら、場面全体を書き直す必要はありません。
だから image-to-video のプロンプトは主に:
slow dolly in on the subject
hair moves gently in the wind
fog rolls in across the street
the subject blinks, shifts weight, and looks toward the window
リビールショット
弧を描く移動
視点変化
前後比較の遷移
重要なのは途中を全部書くことではありません。運動ロジックを書くことです。
どこから始まるか
どこで終わるか
動きの中で感情がどう変わるか
音がどう変化するか
1 本の 8 秒クリップをより制御された小さなシーケンスとして扱いたいなら timestamp prompting も有効ですが、使いすぎは逆効果です。少数の強いビートに使う方が向いています。
1 つの孤立したクリップを超えた瞬間、シネマティック・プロンプトは難しくなります。
同じ人物が出るなら、同じ視覚アンカーを繰り返します。
ここでは言い換えで変化をつけない方がよいです。反復こそが強みです。
複数ショットで見た目、スタイル、場合によっては音の連続性が欲しいなら、seed が触れる場所では固定するのが安全です。
状況説明ショット
ディテール
リアクション
リビール
pan
dolly
tilt
zoom
rack focus
さらに人物が横切る
slow dolly in while the subject turns toward the window
セリフ、環境音、効果音が全部あるなら、考え方として分けて書く方が結果は安定します。
失敗パターン 起きる理由 最速の修正 画が濁る 短いクリップに動作を詰め込みすぎている シーンと主ビートを 1 つに絞る キャラクターがクリップごとに変わる 被写体の識別情報が暗示だけで反復されていない 同じ被写体ブロックと参照画像を使う image-to-video が入力画像を無視する 画像再説明になっている 動き、カメラ、環境変化だけ書く セリフで変な文字が出る 書式が文字的すぎる セリフを短くして保守的な書き方にする ただの AI 動画に見えて映画的でない カメラ言語がない shot type、angle、movement から始める 結果が毎回ずれる prompt rewriter に解釈余地を与えすぎている 中程度の構造化プロンプトにする クリップが未完成の複数シーンの寄せ集めに見える ショットではなくシーケンスを書いている 物語を複数クリップに分割する
一つ覚えておきたいのは、セリフで意図しない文字が出るなら、台詞が長すぎるか、書き方が文字指示に寄りすぎているということです。短くし、音声指示として保守的に書いた方が安全です。
多くの人は cinematic を雰囲気語として使います。それだけでは弱すぎます。
Veo 3.1 で映画的に見えるものは、たいてい次の 5 要素に分解できます。
カメラ言語が明確
光の階層が読める
被写体の焦点が明確
動きが節度を持っている
カットをまたいでトーンが揃っている
つまり、最も強いシネマティック・プロンプトは、最も詩的なものではなく、最も制作ロジックが通っているものです。
ショット要件メモを書く
それを構造化 Veo prompt に変える
まず 1 クリップ出す
何が壊れたか確認する
壊れた層だけ直す
毎回全部書き換えるより、この方が圧倒的に効率的です。
Veo 3.1 自体は強力ですが、プロンプト品質だけではワークフローは完成しません。チームは結果比較、別経路のテスト、アイデアから納品可能アセットまでの移行を一か所で進められる場所も必要です。
次のような条件なら Veo 4 の方が扱いやすいです。
一つの作業空間で複数の制作ルートを持ちたい
プロンプト、参照、出力をもっと速く回したい
一つのベンダー UI に閉じこもりたくない
発想、画像準備、動画生成を一続きの生産線に乗せたい
1 本の Veo 3.1 クリップを試すだけでなく、再現性ある AI 動画フローを作りたいなら veo4.im から始めるのが手早いです。
ショット、被写体、動作、環境、仕上げが十分に明確になる長さです。多くの場合、一行プロンプトより構造化された中程度の長さの方が安定します。
使えます。現在の安定した被写体参照ルートでは、同じ人物、キャラクター、製品に対して最大 3 枚の参照画像を使えます。
通常は避けた方がいいです。Veo 3.1 は、短いクリップごとに一つのシーン、一つの主ビートに絞る方が強いです。
同じ被写体ブロック、同じ参照設定、可能なら同じ seed を使うことです。一貫性は形容詞の多さではなく、反復と節度から生まれます。
入力画像全体をもう一度説明してしまうことです。画像がすでにあるなら、プロンプトは主に動き、カメラ、雰囲気の変化を制御すべきです。
最も強い Veo 3.1 プロンプトは、最も“創造的な一文”ではなく、最も明確なショット指示です。
映画的な結果を狙うなら、監督のように考えてください。
まずショットを定義する
次に被写体を定義する
次に主ビートを一つだけ定義する
次に環境を定義する
最後に完成トーンを定義する
そして、seed、参照画像、クリップ分割で一貫性を守ることです。
Veo 3.1 プロンプトガイド:映画的な AI 動画プロンプトを安定して書く方法
まず最短の答え
今の Veo 3.1 で実際に効く前提
シネマティックな Veo 3.1 プロンプトの組み方
1. まずカメラを固定する
2. 被写体は再利用可能な識別ブロックにする
3. 動作は 1 ビートに絞る
4. コンテキストは美術設計として書く
5. スタイルと音は最後に置く
そのまま使える Veo 3.1 プロンプトテンプレート
押さえるべき 4 つのプロンプト・ワークフロー
ワークフロー 1:最初のクリーンショットは text-to-video
ワークフロー 2:一貫性には ingredients-to-video
ワークフロー 3:細かい動きには image-to-video
ワークフロー 4:シネマティックな遷移は first-and-last-frame
複数クリップで一貫性を保つ方法
同じ被写体識別ブロックを繰り返す
一貫性が必要なら同じ seed を使う
シーンは段落ではなくクリップに分ける
1 クリップに 1 つの主要カメラ意図だけを入れる
音の指示はクリーンに保つ
よくある失敗と最速の修正方法
cinematic をただの飾り語にしない
Veo 4 を使う方が楽になる場面
FAQ
Veo 3.1 のプロンプトはどれくらいの長さが適切ですか?
Veo 3.1 は参照画像を使えますか?
一つのプロンプトで複数ショットをカバーすべきですか?
同じキャラクターを複数クリップで維持する最善策は?
image-to-video で一番多い失敗は何ですか?
最終結論