为什么提示词对 Kling 3.0 至关重要
Kling 3.0 代表了 AI 视频生成领域的重大飞跃,但输出质量在很大程度上取决于你如何撰写提示词。与将提示词视为简单描述的早期模型不同,Kling 3.0 能够理解电影级的创作意图——它像导演阅读剧本一样解读你的提示词。
一个结构合理的 200 字提示词,其效果始终优于模糊的 20 字提示词。AI 视频看起来是业余还是专业,往往取决于一件事:你如何撰写 Kling 3.0 提示词。
本指南详细介绍了能够充分发挥 Kling 3.0 潜力的成熟提示词技巧,涵盖从基础结构到包含原生音频的高级多镜头序列。
5 层提示词结构
最有效的 Kling 3.0 提示词遵循一致的五层结构。将每一层视为在前一层基础上的叠加,以构建完整的场景指导。
第 1 层:场景定义
首先为模型设定一个清晰的环境。这能在任何动作发生前,为 Kling 3.0 提供空间和光影背景。
- 地点:要具体——“巴塞罗那阳光明媚的屋顶咖啡馆”比“一家咖啡馆”效果更好
- 时间:清晨光线、黄金时刻和午夜会产生截然不同的效果
- 氛围:天气、情绪、环境细节
第 2 层:角色设定
清晰且一致地定义你的主体。避免使用“某人”或“一个人”等模糊指代。
- 使用明确的标识符:“穿着红色羊毛大衣的女人”或“戴着银框眼镜的高个子男人”
- 如果角色出现在多个镜头中,保持角色描述的一致性
- 提及模型可以锁定的显著特征
第 3 层:动作时间轴
按顺序描述发生的动作。对于较长的视频(最长 15 秒),将动作分解为分段的时间点。
- 优秀: “她拿起咖啡杯,停顿了一下看向窗外,然后转过身微笑着”
- 较弱: “她喝咖啡并微笑”
第 4 层:镜头语言
这是许多创作者容易忽略的地方。在 Kling 3.0 中,镜头指令不再是可选项。 如果没有明确的镜头语言,模型会默认使用静态构图。
请指定:
- 景别:全景、中景、特写、极限特写
- 运动:平移、追踪、推入、拉出、环绕
- 时机: “摄像机在前 5 秒缓慢推入,然后保持不动”
第 5 层:音频与风格
Kling 3.0 支持原生音频输出,包括对话、环境音和语音语调控制。
- 描述环境音:“背景中播放着柔和的爵士乐,远处传来交通噪音”
- 指定视觉风格:“暖色调分级、浅景深、35mm 胶片颗粒感”
镜头控制:实现专业效果的关键
镜头语言是区分新手提示词和专业提示词的分水岭。以下是 Kling 3.0 最有效的镜头指令:
| 镜头运动 | 使用场景 | 提示词片段示例 |
|---|---|---|
| 追踪镜头 | 跟随移动的主体 | “当她在市场中穿行时,摄像机跟随她移动” |
| 推入 | 营造紧张感或聚焦 | “从中景缓慢推入到他脸部的特写” |
| 环绕 | 全方位展示主体 | “摄像机围绕雕塑进行 180 度环绕拍摄” |
| 静态全景 | 建立场景 | “全景镜头,固定机位,展示黄昏时完整的城市景观” |
| POV | 沉浸式第一人称视角 | “POV 镜头,走过雨水浸湿的小巷” |
| 正反打 | 角色间对话 | “对话期间在每位说话者的特写镜头之间切换” |
镜头时间控制建议
对于 15 秒的视频,请规划好整个过程的镜头运动:
- 0–5秒:用全景或中景建立场景
- 5–10秒:随着动作推进,过渡到更近的景别
- 10–15秒:定格在关键时刻或拉出以进行揭示
对话与音频提示词撰写
Kling 3.0 的一大亮点是具有逼真语音、口型同步和环境音的原生音频生成功能。以下是如何有效进行提示的方法。
标记说话者
始终明确标记谁在说话。这有助于引擎将口型同步正确地匹配给对应的角色。
[Speaker: 穿红大衣的女人,温暖自信的声音]: “我一直在等这一刻。”
[Speaker: 戴眼镜的男人,紧张的语调]: “你确定吗?”多角色对话建议
- 在整个提示词中使用独特且一致的角色标签
- 为每位说话者分配特定的语调和情绪
- 将对话与视觉动作绑定:先描述动作,再描述语音
- 使用“立即”、“然后”、“停顿后”等过渡词来控制顺序
环境音
不要忘记环境音频。添加“雨水敲击窗户的声音”或“远处的教堂钟声”会让最终视频更加丰富。
多镜头提示词技巧
Kling 3.0 多镜头 支持在单次生成中包含最多 6 个镜头的分镜脚本。这是该模型在叙事内容方面真正大放异彩的地方。
如何构建多镜头提示词
明确标注每个镜头,并独立描述其景别、主体和运动:
镜头 1 (0-3秒): 黄金时刻海岸悬崖的全景。
一个女人站在边缘,白色的裙子在风中飘动。
摄像机缓慢推入。
镜头 2 (3-6秒): 她侧脸的特写,闭着眼睛,
阳光照在她的头发上。静态镜头。
镜头 3 (6-10秒): 越肩镜头,看向海洋。
摄像机向下倾斜,露出下方拍打的浪花。
镜头 4 (10-15秒): 从下方拍摄的中景,她睁开眼睛,
转头面对摄像机。缓慢向上倾斜。多镜头最佳实践
- 确保角色描述在所有镜头中保持一致
- 变换镜头类型以增加视觉趣味(全景 → 特写 → 中景)
- 在相关时描述镜头间的过渡
- 使用时间标记来控制节奏
即用型提示词模板
以下是经过实战检验的提示词模板,你可以根据自己的项目进行调整。
模板 1:电影级角色场景
一个穿着深绿色风衣的女人站在东京市中心雨夜中湿漉漉的屋顶边缘。霓虹灯在脚下的水坑中反射。她缓慢转过身面对摄像机,拂去脸上的湿发,表情坚定。摄像机从全景建立镜头开始,然后在 10 秒内追踪推进到中景特写。雨水轻柔落下,下方传来交通声。暖色钨丝灯光与冷蓝色阴影形成对比。使用变形镜头拍摄,浅景深。
模板 2:带文字的产品展示
一台时尚的黑色咖啡机放在清晨柔和光线下的大理石厨房台面上。旁边的一杯现磨咖啡冒着热气。咖啡机前面板上刻有清晰的无衬线字体“Brew Calm”。摄像机在 12 秒内从左向右缓慢环绕咖啡机,并在品牌名称上稍作停留。温暖的男声旁白说:“以平静开启每一个早晨。”开着的窗外传来鸟鸣的环境音。
模板 3:多角色对话
一个现代开放式办公室,午后的阳光穿过落地窗。一位穿着海军蓝西装外套的自信女性拿着平板电脑走在走廊上。[Speaker: 女性,沉稳权威的声音]: “我们明天发布——不能延误。” 一位年轻助理匆忙赶上她的步伐,略显气喘吁吁。[Speaker: 助理,紧张的声音]: “但方案还没完成。” 她停下脚步,转身,进行直接的眼神交流。[Speaker: 女性]: “那就去完成它。” 当他们行走时,从侧面角度追踪两人,当她停下时,切换到正面特写。
模板 4:自然与风景
黎明时分雾气缭绕的山谷,层层薄雾在松树覆盖的山脊间翻滚。一个穿着红色夹克的孤独身影站在岩石露头上,眺望远景。远处传来鸟鸣。摄像机从极限全景开始,在 15 秒内缓慢推入,直到人物填满画面中心。金色的晨光穿透云层。风声和树叶沙沙作响的声音。电影级色彩分级,深绿色调与暖色高光。
避免常见的提示词错误
| 错误 | 失败原因 | 更好的方法 |
|---|---|---|
| “一个美丽的电影场景” | 太模糊,没有可操作的指导 | 描述具体的光影、构图、运动 |
| 在镜头间使用代词 | 模型会丢失角色追踪 | 始终重复角色描述 |
| 没有镜头语言 | 默认静态,构图乏味 | 始终指定景别和运动 |
| 将所有动作压缩成一句话 | 模型无法解析复杂的序列 | 分解为带时间点的顺序步骤 |
| 忽略音频 | 浪费了 Kling 3.0 的一半能力 | 添加对话标签、环境音、音乐提示 |
将提示词与运动控制结合
为了获得更精确的结果,请将你的提示词与 Kling 3.0 运动控制 结合使用。运动控制允许你使用参考视频将特定的动作转移到 AI 生成的角色上——而你的文字提示词依然可以引导场景、角色和风格。
这种组合在以下方面特别强大:
- 舞蹈序列:参考视频提供编舞,提示词定义角色和环境
- 产品演示:参考视频控制手部动作,提示词设定品牌和环境
- 动作场景:参考视频驱动身体运动,提示词处理摄影和音频
Kling 3.0 提示词入门
撰写出色的 Kling 3.0 提示词是一项可以通过练习提升的技能。从 5 层结构开始,尝试不同的镜头语言,并在熟练后逐步添加对话和多镜头技巧。
需要记住的关键原则:
- 像导演一样思考,而不是像描述者
- 具体说明场景、角色、动作、镜头和音频
- 使用时间标记来处理较长的视频
- 明确标记说话者以进行对话场景
- 保持角色描述一致,贯穿所有镜头
准备好将这些技巧付诸实践了吗?Nano Banana 2 为你提供 Kling 3.0 的即时访问权限,以及数十种用于图片和 视频生成 的其他 AI 模型。


