為什麼提示詞撰寫對 Kling 3.0 至關重要
Kling 3.0 代表了 AI 影片生成領域的重大飛躍,但輸出品質在很大程度上取決於您撰寫提示詞的方式。與早期將提示詞視為簡單描述的模型不同,Kling 3.0 具備電影級的意圖理解能力——它閱讀您的提示詞就像導演閱讀劇本一樣。
一份結構良好的 200 字提示詞,其表現將始終優於模糊的 20 字提示詞。業餘 AI 影片與專業級影像之間的差距,通常歸結為一件事:您如何撰寫 Kling 3.0 提示詞。
本指南拆解了能完全釋放 Kling 3.0 潛力的實證提示詞技巧,從基本結構到結合原生音訊的高階多鏡頭序列,應有盡有。
5 層提示詞結構
最有效的 Kling 3.0 提示詞都遵循一致的五層結構。將每一層視為在前一層的基礎上進行構建,以建立完整的場景指導。
第 1 層:場景定義
首先讓模型在清晰的環境中紮根。這能在任何動作發生前,為 Kling 3.0 提供空間與光影背景。
- 地點:具體說明——「巴塞隆納陽光普照的屋頂咖啡館」比「一家咖啡館」效果更好
- 時間:晨光、黃金時刻與午夜產生的效果截然不同
- 氛圍:天氣、情緒、環境細節
第 2 層:角色規格
清晰且一致地定義您的主體。避免使用「某人」或「一個人」等模糊的指代。
- 使用明確的識別特徵:「穿著紅色羊毛大衣的女性」或「戴著銀框眼鏡的高個子男人」
- 若角色出現在多個鏡頭中,請保持角色描述的一致性
- 提及模型可以鎖定的顯著特徵
第 3 層:動作時間軸
按順序描述發生的事情。對於較長的影片(最長 15 秒),請將動作拆分為計時片段。
- 優良: 「她拿起咖啡杯,停下來看向窗外,然後轉過身微笑」
- 較弱: 「她喝咖啡並微笑」
第 4 層:鏡頭指導
這是許多創作者容易忽略的地方。在 Kling 3.0 中,鏡頭指令已不再是選填項目。 若沒有明確的鏡頭指導,模型預設會使用靜態構圖。
請指定:
- 鏡頭類型:遠景、中景、特寫、極端特寫
- 運動:平移、跟拍、推入、拉出、環繞
- 時機: 「攝影機在前 5 秒緩慢推入,然後保持不動」
第 5 層:音訊與風格
Kling 3.0 支援原生音訊輸出,包括對話、環境音與語音語氣控制。
- 描述環境音:「背景播放著柔和的爵士樂,遠處有交通噪音」
- 指定視覺風格:「暖色調調色、淺景深、35mm 膠卷顆粒感」
鏡頭控制:專業成果的關鍵
鏡頭指導是區分新手提示詞與專業提示詞的關鍵。以下是 Kling 3.0 最有效的鏡頭指令:
| 鏡頭運動 | 使用時機 | 提示詞範例片段 |
|---|---|---|
| 跟拍 (Tracking shot) | 跟隨移動的主體 | 「當她在市場中行走時,攝影機隨之跟拍」 |
| 推入 (Push-in) | 營造緊張感或聚焦 | 「從中景緩慢推入至臉部特寫」 |
| 環繞 (Orbit) | 從各個角度展示主體 | 「攝影機繞著雕塑旋轉 180 度」 |
| 靜態遠景 (Static wide) | 建立場景 | 「遠景,固定鏡頭,展示黃昏時完整的城市景觀」 |
| 主觀鏡頭 (POV) | 沉浸式第一人稱視角 | 「穿過雨中巷弄的主觀鏡頭」 |
| 正反打 (Shot-reverse-shot) | 角色間的對話 | 「對話期間在每位說話者的特寫鏡頭間切換」 |
鏡頭時間規劃技巧
對於 15 秒的影片,請規劃整個過程中的鏡頭運動:
- 0–5 秒:以遠景或中景建立場景
- 5–10 秒:隨著動作發展過渡到更近的構圖
- 10–15 秒:停留在關鍵時刻或拉出以進行揭示
撰寫對話與音訊提示詞
Kling 3.0 的突出功能之一是具備逼真語音、口型同步與環境音的原生音訊生成。以下是如何有效地對其進行提示。
標記說話者
務必明確標記誰在說話。這有助於引擎將口型同步正確地分配給正確的角色。
[Speaker: 穿紅大衣的女性,溫暖且自信的聲音]: "我一直在等待這一刻。"
[Speaker: 戴眼鏡的男人,緊張的語氣]: "你確定嗎?"多角色對話技巧
- 在整個提示詞中使用獨特且一致的角色標籤
- 為每位說話者分配特定的語氣與情緒
- 將對話與視覺動作綁定:先描述動作,再描述對話
- 使用「立即」、「然後」、「停頓後」等過渡詞來控制順序
環境音
別忘了環境音訊。加入「雨水打在窗戶上的聲音」或「遠處的教堂鐘聲」能創造出豐富得多的最終影片。
多鏡頭提示詞技巧
Kling 3.0 Multi Shot 支援在單次生成中包含多達 六個鏡頭 的分鏡腳本。這是該模型在敘事內容方面真正大放異彩的地方。
如何建構多鏡頭提示詞
明確標記每個鏡頭,並獨立描述其構圖、主體與運動:
Shot 1 (0-3s): 黃金時刻海岸懸崖的遠景。
一位女性站在邊緣,白色連身裙在風中飄揚。
攝影機緩慢推入。
Shot 2 (3-6s): 她臉部的側面特寫,雙眼閉合,
陽光灑在她的頭髮上。靜態鏡頭。
Shot 3 (6-10s): 望向海洋的過肩鏡頭。
攝影機向下傾斜,露出下方拍打的浪花。
Shot 4 (10-15s): 從下方拍攝的中景,她睜開眼睛
並轉身面對鏡頭。緩慢向上傾斜。多鏡頭最佳實踐
- 確保角色描述在所有鏡頭中保持一致
- 變換鏡頭類型以增加視覺趣味(遠景 → 特寫 → 中景)
- 在相關時描述鏡頭間的過渡
- 使用時間標記來控制節奏
即用型提示詞範本
以下是經過實戰驗證的提示詞範本,您可以將其調整應用於自己的專案中。
範本 1:電影級角色場景
一位穿著深綠色風衣的女性,站在夜晚東京市中心雨水浸濕的屋頂邊緣。霓虹燈在腳下的水坑中倒映。她緩慢轉身面對鏡頭,撥開臉上的濕髮,表情堅定。攝影機從遠景建立鏡頭開始,然後在 10 秒內跟拍推進至中特寫。雨水輕柔落下,遠處傳來交通聲。暖色鎢絲燈光與冷藍色陰影形成對比。使用變形鏡頭拍攝,淺景深。
範本 2:帶文字的產品展示
一台時尚的黑色咖啡機放在清晨柔和光線下的大理石廚房檯面上。旁邊剛沖泡好的咖啡杯冒著熱氣。機器前面板上刻有簡潔無襯線字體的「Brew Calm」。攝影機在 12 秒內從左向右緩慢環繞機器,並在品牌名稱處短暫停留。溫暖的男性旁白說道:「以平靜開啟每個早晨。」窗外傳來鳥鳴的環境音。
範本 3:多角色對話
一間現代開放式辦公室,午後陽光透過落地窗灑入。一位穿著海軍藍西裝外套、自信的女性拿著平板電腦走過走廊。[Speaker: 女性,穩定且權威的聲音]: 「我們明天發布——不准延誤。」一位年輕助理快步跟上她的步伐,略顯氣喘。[Speaker: 助理,緊張的聲音]: 「但簡報還沒完成。」她停下腳步,轉身,直視對方。[Speaker: 女性]: 「那就把它完成。」當兩人行走時從側面跟拍,當她停下時切換至正面特寫。
範本 4:自然與風景
黎明時分霧氣繚繞的山谷,層層濃霧在松樹覆蓋的山脊間翻湧。一個穿著紅色夾克的身影站在岩石露頭上,眺望遠景。遠處傳來鳥鳴。攝影機從極遠景開始,在 15 秒內緩慢推入,直到人物填滿畫面中心。金色的晨光穿透雲層。風聲與樹葉沙沙作響。電影級調色,深綠色與暖色高光。
應避免的常見提示詞錯誤
| 錯誤 | 失敗原因 | 更好的方法 |
|---|---|---|
| 「一個美麗的電影場景」 | 太模糊,沒有可執行的指導 | 描述具體的光影、構圖、運動 |
| 在不同鏡頭中使用代名詞 | 模型會丟失角色追蹤 | 重複一致的角色描述 |
| 沒有鏡頭指導 | 預設為靜態、無聊的構圖 | 務必指定鏡頭類型與運動 |
| 將所有動作壓縮成一句話 | 模型無法解析複雜序列 | 拆分為帶有時間標記的順序步驟 |
| 忽略音訊 | 錯失 Kling 3.0 一半的能力 | 加入對話標籤、環境音、音樂提示 |
結合提示詞與運動控制
為了獲得更精確的結果,請將您的提示詞與 Kling 3.0 Motion Control 搭配使用。運動控制讓您可以使用參考影片,將特定的運動轉移到 AI 生成的角色上——而您的文字提示詞仍會引導場景、角色與風格。
這種組合對於以下情況特別強大:
- 舞蹈序列:參考影片提供編舞,提示詞定義角色與場景
- 產品演示:參考影片控制手部動作,提示詞設定品牌與環境
- 動作場景:參考影片驅動物理運動,提示詞處理攝影與音訊
開始使用 Kling 3.0 提示詞
撰寫出色的 Kling 3.0 提示詞是一項熟能生巧的技能。從 5 層結構開始,嘗試不同的鏡頭指導,並在熟悉後逐步加入對話與多鏡頭技巧。
要記住的核心原則:
- 像導演一樣思考,而不是描述者
- 具體說明場景、角色、動作、鏡頭與音訊
- 為較長的影片使用時間標記
- 為對話場景明確標記說話者
- 保持角色描述在各鏡頭間的一致性
準備好將這些技巧付諸實踐了嗎?Nano Banana 2 讓您能立即使用 Kling 3.0 以及其他數十種用於影像與 影片生成 的 AI 模型。


