Kling 3.0においてプロンプト作成が重要な理由
Kling 3.0はAI動画生成における大きな飛躍を遂げましたが、出力の品質はプロンプトの書き方に大きく依存します。プロンプトを単なる説明文として扱う以前のモデルとは異なり、Kling 3.0は映画的な意図を理解します。つまり、監督が脚本を読むようにあなたのプロンプトを読み解くのです。
適切に構成された200語のプロンプトは、曖昧な20語のプロンプトよりも一貫して優れた結果をもたらします。素人っぽいAI動画とプロ品質の映像の差は、多くの場合、Kling 3.0のプロンプトをどう書くかという1点に集約されます。
このガイドでは、基本的な構造から、ネイティブオーディオを備えた高度なマルチショットシーケンスまで、Kling 3.0の可能性を最大限に引き出す実証済みのプロンプトテクニックを解説します。
5層のプロンプト構造
最も効果的なKling 3.0のプロンプトは、一貫した5層構造に従います。各層を積み重ねることで、完全なシーン演出を作り上げると考えてください。
第1層:シーンの定義
まずは明確な環境を設定することから始めます。これにより、何かが動く前にKling 3.0に空間的および照明的なコンテキストを与えます。
- 場所: 具体的に指定します。「カフェ」よりも「バルセロナの陽光あふれる屋上カフェ」の方が効果的です。
- 時間帯: 朝の光、ゴールデンアワー、真夜中など、それぞれ劇的に異なる結果を生み出します。
- 雰囲気: 天候、ムード、環境の詳細。
第2層:キャラクターの指定
被写体を明確かつ一貫して定義します。「誰か」や「人」といった曖昧な表現は避けてください。
- 明確な識別子を使用します:「赤いウールのコートを着た女性」や「銀縁メガネをかけた背の高い男性」など。
- 複数のショットに登場する場合は、キャラクターの説明を一貫させます。
- モデルが認識できるような特徴的な要素を盛り込みます。
第3層:アクションのタイムライン
何が起こるかを順を追って説明します。長い動画(最大15秒)の場合は、アクションを時間単位のセグメントに分割します。
- 良い例: 「彼女はコーヒーカップを持ち上げ、窓の外を見るために一時停止し、その後振り返って微笑む」
- 悪い例: 「彼女はコーヒーを飲んで微笑む」
第4層:カメラの指示
ここが多くのクリエイターが不足している部分です。Kling 3.0においてカメラの指示はもはやオプションではありません。 明示的なカメラの指示がない場合、モデルは静的なフレーミングをデフォルトとします。
以下を指定してください:
- ショットの種類: ワイド、ミディアム、クローズアップ、エクストリームクローズアップ
- 動き: パン、トラック、プッシュイン、プルバック、オービット
- タイミング: 「カメラは最初の5秒間でゆっくりとプッシュインし、その後停止する」
第5層:オーディオとスタイル
Kling 3.0は、ダイアログ、環境音、声のトーン制御を含むネイティブオーディオ出力をサポートしています。
- 環境音の記述:「背景で流れるソフトジャズ、遠くの交通騒音」
- 視覚スタイルの指定:「温かみのあるカラーグレーディング、浅い被写界深度、35mmフィルムの粒子感」
カメラ制御:プロ品質の結果を得る鍵
カメラの指示は、初心者向けのプロンプトとプロのプロンプトを分ける境界線です。Kling 3.0で最も効果的なカメラ指示を以下に示します:
| カメラの動き | 使用するタイミング | プロンプトの断片例 |
|---|---|---|
| トラッキングショット | 動く被写体を追う場合 | 「彼女が市場を歩くのに合わせてカメラが追従する」 |
| プッシュイン | 緊張感や焦点を高める場合 | 「ミディアムショットから彼の顔へのゆっくりとしたプッシュイン」 |
| オービット | 被写体を全方位から見せる場合 | 「カメラが彫刻の周りを180度旋回する」 |
| 静止ワイド | シーンを確立する場合 | 「ワイドショット、固定、夕暮れの街並み全体を表示」 |
| POV | 没入感のある一人称視点 | 「雨に濡れた路地を歩くPOVショット」 |
| ショット・リバース・ショット | キャラクター間の会話 | 「会話中、各話者のクローズアップを交互に切り替える」 |
カメラのタイミングに関するヒント
15秒の動画では、全期間にわたってカメラの動きを計画してください:
- 0〜5秒: ワイドまたはミディアムショットでシーンを確立
- 5〜10秒: アクションが高まるにつれて、よりタイトなフレーミングへ移行
- 10〜15秒: 重要な瞬間に固定するか、 reveal(種明かし)のために引きの画にする
ダイアログとオーディオプロンプトの書き方
Kling 3.0の際立った特徴の一つは、リアルな発話、リップシンク、環境音を備えたネイティブオーディオ生成です。効果的なプロンプトの書き方は以下の通りです。
話者のタグ付け
誰が話しているかを常に明示的にタグ付けしてください。これにより、エンジンが正しいキャラクターにリップシンクを割り当てやすくなります。
[Speaker: 赤いコートの女性、温かく自信に満ちた声]: 「この瞬間をずっと待っていたの。」
[Speaker: メガネの男性、緊張したトーン]: 「本当にこれでいいのか?」マルチキャラクターのダイアログのヒント
- プロンプト全体を通して、ユニークで一貫したキャラクターラベルを使用します。
- 各話者に特定のトーンと感情を割り当てます。
- ダイアログを視覚的なアクションと結びつけます:まず動きを説明し、その後に発話を記述します。
- シーケンス制御のために「すぐに」「次に」「間を置いて」といった接続詞を使用します。
環境音
環境オーディオを忘れないでください。「窓を叩く雨の音」や「遠くの教会の鐘」を加えることで、最終的な動画がはるかに豊かになります。
マルチショットのプロンプトテクニック
Kling 3.0 Multi Shotは、1回の生成で最大6つのショットのストーリーボードをサポートしています。これは、物語性のあるコンテンツにおいてモデルが真価を発揮する機能です。
マルチショットプロンプトの構成方法
各ショットに明示的にラベルを付け、フレーミング、被写体、動きを独立して記述します:
Shot 1 (0-3s): ゴールデンアワーの海岸の崖のワイドショット。
女性が端に立ち、白いドレスが風になびいている。
カメラはゆっくりとプッシュインする。
Shot 2 (3-6s): 横顔のクローズアップ、目を閉じ、
日光が彼女の髪を照らしている。カメラは固定。
Shot 3 (6-10s): 海を見下ろす肩越しのショット。
カメラが下に傾き、砕ける波を表示する。
Shot 4 (10-15s): 彼女が目を開け、
カメラの方を向く下からのミディアムショット。ゆっくりと上向きにチルト。マルチショットのベストプラクティス
- すべてのショットでキャラクターの説明を一貫させます。
- 視覚的な面白さのためにショットの種類を変えます(ワイド → クローズ → ミディアム)。
- 関連がある場合は、ショット間の遷移を記述します。
- ペースを制御するためにタイミングマーカーを使用します。
すぐに使えるプロンプトテンプレート
独自のプロジェクトに応用できる、実証済みのプロンプトテンプレートを紹介します。
テンプレート1:映画のようなキャラクターシーン
夜の東京のダウンタウン、雨に濡れた屋上の端に立つダークグリーンのトレンチコートを着た女性。ネオンサインが足元の水たまりに反射している。彼女はゆっくりとカメラの方を向き、顔にかかった濡れた髪をかき上げる。表情は決意に満ちている。カメラはワイドな確立ショットから始まり、10秒かけてミディアムクローズアップへトラッキングする。雨が静かに降り、下からは交通の音が聞こえる。冷たい青い影に対する温かいタングステン光のハイライト。アナモルフィックレンズで撮影、浅い被写界深度。
テンプレート2:テキスト付き製品紹介
朝の柔らかな光の中、大理石のキッチンカウンターに置かれた洗練された黒いコーヒーマシン。横には淹れたてのカップから湯気が立ち上っている。マシンのフロントパネルには、すっきりとしたサンセリフ体で「Brew Calm」と刻印されている。カメラは12秒かけて左から右へマシンをゆっくりと旋回し、ブランド名で少し停止する。温かみのある男性のナレーション:「毎朝を穏やかに始めよう」。開いた窓の外からは鳥の環境音。
テンプレート3:マルチキャラクターのダイアログ
午後、床から天井までの窓から光が差し込むモダンなオープンオフィスの廊下。ネイビーのブレザーを着た自信に満ちた女性がタブレットを持って歩いている。[Speaker: 女性、落ち着いた権威ある声]:「明日ローンチするわ。遅延は許さない。」若いアシスタントが息を切らしながら彼女のペースに合わせようと急ぐ。[Speaker: アシスタント、緊張した声]:「でも、デッキはまだ完成していません。」彼女は立ち止まり、振り返り、直接目を合わせる。[Speaker: 女性]:「なら、終わらせなさい。」二人が歩く様子を横からのアングルで追跡し、彼女が立ち止まったら正面のクローズアップに切り替える。
テンプレート4:自然と風景
夜明けの霧深い山の谷間、松に覆われた尾根の間に霧が立ち込めている。赤いジャケットを着た一人の人物が岩場に立ち、景色を眺めている。遠くで鳥が鳴いている。カメラはエクストリームワイドショットから始まり、15秒かけて人物がフレームの中心を占めるまでゆっくりとプッシュインする。雲の間から黄金の朝の光が差し込む。風と木々が揺れる音。深い緑と温かいハイライトを備えた映画のようなカラーグレーディング。
避けるべき一般的なプロンプトのミス
| ミス | なぜ失敗するのか | より良いアプローチ |
|---|---|---|
| 「美しい映画のようなシーン」 | 曖昧すぎて具体的な指示がない | 照明、構図、動きを具体的に記述する |
| ショット間で代名詞を使う | モデルがキャラクターを見失う | キャラクターの説明を一貫して繰り返す |
| カメラの指示がない | 静的で退屈なフレーミングになる | 常にショットの種類と動きを指定する |
| すべてのアクションを1文に圧縮 | 複雑なシーケンスを解析できない | タイミングを付けて順を追って分割する |
| オーディオを無視 | Kling 3.0の能力の半分を逃す | ダイアログタグ、環境音、音楽の合図を追加する |
プロンプトとモーションコントロールの組み合わせ
より正確な結果を得るには、プロンプトとKling 3.0 Motion Controlを組み合わせてください。モーションコントロールを使用すると、参照動画を使って特定の動きをAI生成キャラクターに転送できます。その際、テキストプロンプトは引き続きシーン、キャラクター、スタイルをガイドします。
この組み合わせは特に以下の場合に強力です:
- ダンスシーケンス: 参照動画が振り付けを提供し、プロンプトがキャラクターと設定を定義する
- 製品デモ: 参照動画が手の動きを制御し、プロンプトがブランディングと環境を設定する
- アクションシーン: 参照動画が物理的な動きを駆動し、プロンプトが撮影技術とオーディオを処理する
Kling 3.0プロンプトを始める
優れたKling 3.0プロンプトを書くことは、練習によって向上するスキルです。5層構造から始め、カメラの指示を試し、慣れてきたら徐々にダイアログやマルチショットのテクニックを追加していきましょう。
覚えておくべき重要な原則:
- 説明者ではなく、監督のように考える
- シーン、キャラクター、アクション、カメラ、オーディオについて具体的に記述する
- 長い動画にはタイミングマーカーを使用する
- ダイアログシーンでは話者を明示的にタグ付けする
- ショット間でキャラクターの説明を一貫させる
これらのテクニックを実践する準備はできましたか?Nano Banana 2では、Kling 3.0に即座にアクセスできるほか、画像や動画生成のための他の数十のAIモデルも利用可能です。


