S7 英语导入视频 · 制作教程
一、整体制作总流程
Step 1
准备素材
人物三视图 + 场景图 + 道具图
Step 2
生成视频
Seedance 2.0 生成镜头
Step 3
视频修改
补镜头、延长、衔接
Step 4
画质增强
Topaz 超清
Step 5
调色
达芬奇统一色调
Step 6
合成输出
最终导出成片
二、视觉统一标准
1. 人物标准(实拍 + AI 数字人通用)
- 头身比例:1:7.5~1:8,避免卡通化
- 注意:Nanobanana、Seedance 易比例失真,三视图与分镜需要检查
- 脸型与五官:保持真实感、一致性
- 眼睛颜色:瞳孔容易变色,需要检查
- 发型:尽量简约,方便调整
- 质感:衣服避免油腻感,提前测试
三视图


2. 场景标准
- 风格:真人写实、电影感、16:9
- 检查:仔细排查场景中的不合理元素与明显错误
- 场面调度:摄像机调度、演员调度,以及道具、光影、声音等各项调度的整体把控
场景风格参考
三、制作流程
步骤 1:素材准备
1.1 人物三视图制作
人物三视图制作示意
- 从真人照片 / 视频提取角度
- 修正比例、细节
- 高清重绘 → 输出白底三视图
1.2 场景图制作(发布会舞台)
发布会舞台场景图
提示词:
Prompt
整体风格:真人写实,电影感构图,16:9 银幕质感。
一座大型科技发布会的主舞台,空舞台全景构图,无人物。舞台整体以极简主义风格设计,地面采用深色哑光材质,表面带有极轻微的镜面反光,将头顶灯光的冷蓝色和白色光晕隐约映射在地板上,增添了一层科技感的层次(舞台纵深较短,整体比较宽)。
舞台正中央背景墙上,一块超大 LED 屏幕占据视野核心,屏幕此刻处于待机状态,散发出均匀的深蓝色冷光,边缘与黑色背景融为一体。舞台顶部架设几组专业聚光灯,光束呈锥形向舞台中心汇聚,形成强烈的戏剧性明暗对比——舞台中央被白色和冷蓝色光柱照亮,四周迅速沉入深邃的暗部。
近景处,观众席以深色剪影形式隐约可见,人群轮廓模糊,融入观众台黑暗之中,营造出一种宏大而神秘的氛围。整体色调以深黑色为绝对主基调,冷蓝色和纯白色光线作为点缀,画面构图宽阔。超高质量电影感真人写实风格,8K 分辨率,专业级舞台摄影(减少画面纵深比)。
- 主场景确定后,用 9 宫格 / 25 宫格 生成多角度备选
生成案例:


- 以上画面可以挑选想要的场景进行提取
- 提取方式:截图高清重绘 / 提示词提取
- 提取单格镜头提示词(Nanobanana):
Prompt
提取第 X 列第 X 行镜头为单独图片,不改变原有内容
25 宫格 Gem 链接:打开 Gemini Gem
25 宫格 Gem 源文件:
25宫格分镜Gem
(NanoBananaPro分镜拆解提示词定制
:核心角色 "创意视觉化脚本助手"
:目的 "根据剧本和参考图,生成NanoBananaPro专用的5x5宫格分镜JSON,追求极致精简的关键词描述。"
:作者 "白灵",改编自原作者:"黄鑫波"
:修订 "用户定制版"
:版本 "0.3.3 (精简关键词版)"
:角色 (
(角色名 "Creative Visualization Script Assistant - Concise Mode")
(核心技能 (
"1. 极简提炼:将复杂场景压缩为3-5个核心关键词。"
"2. 视觉转化:提取参考图风格标签。"
"3. 宫格规划:设计25个独立分镜。"
"4. 格式控制:严格遵循JSON与字数限制。"
))
)
:任务 (
(核心功能 "生成5x5宫格分镜JSON,每个分镜提示词极致精简。")
(输出要求 (
"1. 格式:纯净JSON字符串。"
"2. 结构:包含 standard fields (model, layout, shots)。"
"3. 数量:shots数组精确25个对象。"
"4. 字数强制:每个 prompt_text 严格控制在 20-30 个英文单词之间。"
"5. 语法:舍弃长句,使用 '关键词 + 逗号' (Tags) 的形式。"
"6. 风格:提取参考图核心风格标签 (Style Tags)。"
"7. 强制包含:'no timecode, no subtitles'。"
))
)
:输入 (
(格式 "中文剧本文本 + 视觉参考图片")
(处理逻辑 (
"1. 拆解剧本为25个瞬间。"
"2. 提取参考图风格为3-4个单词的标签 (e.g., 'Cyberpunk, Neon, Oil Painting')。"
"3. 组合公式:[景别] + [主体与动作] + [环境] + [风格标签] + [排除词]。"
))
)
:输出 (
(格式 "JSON String")
(核心结构 (
(image_generation_model "NanoBananaPro")
(grid_layout "5x5")
(grid_aspect_ratio "16:9")
(shots [
{
"shot_number": "分镜1",
"prompt_text": "Short keywords prompt... no timecode, no subtitles."
},
... (共25个对象)
])
))
)
:约束 (
(C1 "格式:标准JSON,无Markdown废话。")
(C2 "数量:Shots数组必须为25个。")
(C3 "字数锁:每个 prompt_text 限制在 25 词左右 (±5词)。")
(C4 "句式:严禁使用长难句,严禁使用 'A scene showing...', 'There is a...' 等废话。")
(C5 "排除指令:必须包含 'no timecode, no subtitles'。")
(C6 "去水印:严禁添加 '分镜X in corner' 等文字指令。")
)
:风格 (
(策略 "提取标签 (Tag Extraction)")
(执行 "分析参考图,提取 3-4 个最具代表性的风格单词,追加在每个Prompt后部。")
(例如 "Anime style, 3D render, 8k, Volumetric lighting")
)
)
9 宫格提示词:
Prompt
【指令】
分析输入图像的整体构图。识别所有关键主体(无论是单人、群体/情侣、交通工具还是特定物体)及其空间关系/互动。
生成一个连贯的3×3网格"电影分镜表",包含9个不同的镜头,呈现同一环境中的这些主体。
你必须调整标准电影镜头类型以适配内容(例如:若主体是群体,需保持群体完整;若主体是物体,需框入整个物体):
第1行(建立场景):
1. 极远景镜头(ELS):主体在广阔环境中显得很小。
2. 远景镜头(LS):完整呈现主体/群体(从头到脚,或从车轮到车顶)。
3. 中远景镜头(美式/3/4镜头):框取至膝盖以上(人物),或呈现物体的3/4视角。
第2行(核心呈现):
4. 中景镜头(MS):框取至腰部以上(或物体的核心部分)。聚焦于互动/动作。
5. 中近景镜头(MCU):框取至胸部以上。对主要主体的近距离取景。
6. 近景镜头(CU):紧凑框取面部(人物),或物体的"正面"。
第3行(细节与角度):
7. 极近景镜头(ECU):微距细节,聚焦关键特征(眼睛、手、标志、纹理)。
8. 低角度镜头(仰拍):从地面向上拍摄主体(营造威严/英雄感)。
9. 高角度镜头(俯拍):从上方向下拍摄主体。
请确保严格的一致性:9个画面中主体/物体、服饰、光线完全一致。景深需真实变化(近景镜头中呈现虚化效果)。
【说明】
一个专业的3×3电影分镜网格,包含9个画面。
该网格以全方位的焦距呈现输入图像中的特定主体/场景。
顶行:宽环境镜头、完整视图、3/4取景。
中行:腰部以上视图、胸部以上视图、面部/正面近景。
底行:微距细节、低角度、高角度。
所有画面均具有写实纹理、统一的电影色调,且取景方式与分析出的主体/物体数量相匹配。
步骤 2:视频生成(Seedance 2.0)
前置要求
- 参考素材:@面部参考、@全身参考、@场景参考、@音色参考
- 全局风格:电影级写实、8K、35mm 胶片、光线追踪、自然景深、手持呼吸感
- 动作要求:符合物理重力、骨骼联动、肌肉张力
- 输出:无字幕、无背景音乐
分段描述结构
- 镜头 001(2s):【景别构图】【机位运镜】【动作描述】
- 镜头 002(1.5s):【前序动作】【景别构图】【机位运镜】【动作描述】
- 镜头 003(5s):【前序动作】【景别构图】【机位运镜】【动作描述】
提示词结构示意
提示词示例:
Prompt
第1段 | 8.5s | 镜头001-003,@图片1迈克特写面部参考、@图片2迈克全身服饰参考、@图片3发布会现场全景。迈克音色参考@音频。人物服装与场景光影均与参考图一致。
【全局统一风格】电影级写实风格,发布会现场采用真实的舞台聚光灯(Spotlight)与环境漫反射布光。高精度人物皮肤纹理与毛孔渲染,物理光线追踪。画面带有自然的光学景深与极轻微的摄影机呼吸感,人物动作符合重力与真实骨骼力学;无字幕,无背景音乐。
【整段表演重点】展现迈克在发布会开场时的物理状态转换:从步入舞台的惯性动势,到定场时的重心沉降,再到沉稳、克制且充满微肌肉张力的台词表达。
镜头001|2s
【景别构图】舞台全景(Wide Shot):迈克位于画面左侧(占画面约15%),背景为深色的发布会大屏幕与隐约的观众席,舞台聚光灯从上方投射。
【机位运镜】正前方平视机位,光学变焦(Optical Zoom)极其缓慢地向舞台中央推近。
【动作描述】迈克步伐稳健地从舞台左侧向中央走动,大腿肌肉发力带动身体重心平稳前移,双脚踏在木质舞台上带来真实的躯干微小上下颠簸感,手臂与步行的惯性自然摆动。
镜头002|1.5s
【前序动作】迈克保持向前迈步的动势,重心处于左脚跟过渡到脚掌的瞬间。
【景别构图】人物侧面中近景(Medium Close-up):迈克占画面约40%,背景为大光圈下的舞台纵深虚化。
【机位运镜】斯坦尼康(Steadicam)侧面平滑跟拍(Tracking Shot)。
【动作描述】迈克行至舞台中央区域,视线率先转向台下观众,头部跟随视线转动,随后肩颈与躯干连贯地向右侧旋转;停步时,右脚前掌先着地,膝盖微曲进行真实的物理缓冲,身体重心平稳过渡并沉降至双腿之间。
镜头003|5s
【前序动作】迈克双脚站定,身体重心平稳,双臂自然下垂,目光刚刚锁定正前方。
【景别构图】人物正面近景(Close-up):胸部以上入画,迈克面部占画面约50%,聚光灯在眼球表面形成清晰的反射高光,背景极度柔焦。
【机位运镜】机位固定,带有手持摄影机极其轻微的呼吸晃动感,焦点(Rack Focus)死死咬住迈克双眼。
【动作描述】迈克胸腔因深呼吸而发生明显的物理起伏,肩膀肌肉随之微微下沉释放张力。他视线专注,眼睑肌肉微收,说:"Current technology is powerful." 话音刚落,他喉结微动,视线在镜头前方的虚空中进行了一次短促的游移,右手小臂抬起,手腕肌肉微收带动指节自然弯曲,眉头因强调语气而牵扯眉心肌肉微微聚拢,继续说:"But it speaks a different language than the living world." 尾音时下颚微收,瞳孔中反射出清晰的聚光灯轮廓,嘴角肌肉保持着严谨而专注的紧绷感。
以上提示词通过 Gemini 进行优化修改完成。
Gemini 提示词优化过程
步骤 3:视频修改与衔接
3.1 需要合成
未修改镜头 1-3 原素材:
第 1 段 · 8.5s · 镜头 001-003 原始素材
镜头 1 重新生成素材:
镜头 1 · 向前延长 4s
提示词:


合成效果:
合成演示 1
原素材 + 延长素材合成后的最终效果
合成步骤:
合成演示
完整的合成操作步骤演示
复杂背景抠像 / 非纯色抠像:推荐使用 Mat Anyone 或 Goodbye Greenscreen。
3.2 不需要合成
全景需要衔接的片段:
全景衔接视频
作为衔接生成的输入参考
提示词:
衔接提示词示意
Prompt
@视频结尾画面(迈克侧身看屏幕状态参考)、@发布会现场环境参考。@迈克音色参考。@迈克脸部参考,@迈克全身参考。人物服装(红色毛衣与深色长裤)与场景光影均与视频结尾保持完全一致。
【全局统一风格】电影级写实风格,35mm 胶片质感。发布会现场采用真实的舞台聚光灯(Spotlight)与环境漫反射布光。高精度人物皮肤纹理、毛孔与毛衣针织面料渲染;物理光线追踪。画面带有自然的光学景深与极轻微的手持摄影机呼吸感,人物动作严格符合物理重力、肌肉张力与面部解剖学骨骼联动原理;无字幕,无背景音乐。
【整段表演重点】展现迈克从注视屏幕到直面观众的物理状态转换。重点刻画躯干回正时的骨骼连带关系,以及在台词递进中,面部微肌肉从略带松弛的调侃,迅速收紧为极具信念感与压迫感的写实微表情拉扯。
镜头001|9s
【前序动作】迈克身体微侧,双手自然下垂,肩背保持平稳的物理站姿,重心略偏向右腿(参考@视频中的动作)。
【景别构图】人物正面半身近景(Medium Close-up):腰部以上入画,迈克占据画面核心区域,背景巨大的发布会巨幕(画面背景参考@图片6)处于真实大光圈浅景深光学虚化(Bokeh)中。
【机位运镜】固定机位,带有手持摄影机极其微弱的客观呼吸晃动感,焦点(Rack Focus)随着人物头部回正,迅速且平滑地从轻微失焦状态死死锁定至迈克的双眼。
【动作描述】迈克的颈部肌肉牵扯带动头部从右侧缓慢转回正前方,肩颈与躯干遵循物理骨骼联动原则随之连贯回正,目光重新锐利地对焦于正前方的镜头。身体重心随着转正平稳过渡并微沉,他单侧嘴角肌肉牵扯出一个极小幅度、带有松弛感的弧度,声音略带调侃地说:"Sounds like a dream, right?" 话音刚落,嘴角的弧度瞬间收敛,面部肌肉恢复冷峻克制,下颚微抬,胸腔伴随短促的深吸气发生物理微伏,咬字带有明确力学顿挫感地说:"But it's real." 随后,他双手大臂发力带动小臂克服重力,在胸腹前微微抬起,手指自然微曲,做出一个极度克制、向内收敛的物理手势,说:"It's a new start." 在最后半句的停顿间隙,他喉结微动完成了一次真实的轻微吞咽,双手顺应重力极微小地下沉释放部分张力。极具穿透力地面对镜头说:"And, it's alive." 尾音落下时,嘴唇自然闭合,胸口随平缓的呼吸微伏,面部在舞台光影的勾勒下保持着极具压迫感的物理定格。
衔接镜头成片:
结尾演示
全景衔接后的完整成片
步骤 4:Topaz 超清增强
- 推荐模型:星光 mini
- 输出:720p / 1080p ×2
- 优点:操作简单、画面相对自然
- 缺点:不建议用 HQ / SL(AI 感重)
步骤 5:达芬奇调色
达芬奇调色
调色操作演示
步骤 6:合成输出
对所有素材做最终的剪辑排序、音频同步与导出。
四、其他流程
产品扫光动画
产品扫光动画 · 分镜 1(0-3 秒)
风格:高端工业写实风 · 极简主义 · 微距摄影 · 商业广告级光影
参考原视频
参考原视频
用作分镜分析与风格参考
1. 用 Gemini 分析参考视频 → 生成分镜脚本


2. 替换产品关键词、修改风格提示词
Seedance 生成:
- 风格:高端工业写实、极简、微距、商业光影
- 分镜:微距扫描 → 细节特写 → 全景环绕


3. 视频修改,调整画面部分内容
原图:
修改:



视频修改:
修改效果
修改后最终效果
产品扫光动画 · 成片