S7 英语导入视频 · 制作教程

一、整体制作总流程

Step 1

准备素材

人物三视图 + 场景图 + 道具图

Step 2

生成视频

Seedance 2.0 生成镜头

Step 3

视频修改

补镜头、延长、衔接

Step 4

画质增强

Topaz 超清

Step 5

调色

达芬奇统一色调

Step 6

合成输出

最终导出成片

二、视觉统一标准

1. 人物标准（实拍 + AI 数字人通用）

头身比例：1:7.5～1:8，避免卡通化
注意：Nanobanana、Seedance 易比例失真，三视图与分镜需要检查
脸型与五官：保持真实感、一致性
眼睛颜色：瞳孔容易变色，需要检查
发型：尽量简约，方便调整
质感：衣服避免油腻感，提前测试

三视图

2. 场景标准

风格：真人写实、电影感、16:9
检查：仔细排查场景中的不合理元素与明显错误
场面调度：摄像机调度、演员调度，以及道具、光影、声音等各项调度的整体把控

场景风格参考

三、制作流程

步骤 1：素材准备

1.1 人物三视图制作

人物三视图制作示意

从真人照片 / 视频提取角度
修正比例、细节
高清重绘 → 输出白底三视图

1.2 场景图制作（发布会舞台）

发布会舞台场景图

提示词：

Prompt 整体风格：真人写实，电影感构图，16:9 银幕质感。一座大型科技发布会的主舞台，空舞台全景构图，无人物。舞台整体以极简主义风格设计，地面采用深色哑光材质，表面带有极轻微的镜面反光，将头顶灯光的冷蓝色和白色光晕隐约映射在地板上，增添了一层科技感的层次（舞台纵深较短，整体比较宽）。舞台正中央背景墙上，一块超大 LED 屏幕占据视野核心，屏幕此刻处于待机状态，散发出均匀的深蓝色冷光，边缘与黑色背景融为一体。舞台顶部架设几组专业聚光灯，光束呈锥形向舞台中心汇聚，形成强烈的戏剧性明暗对比——舞台中央被白色和冷蓝色光柱照亮，四周迅速沉入深邃的暗部。近景处，观众席以深色剪影形式隐约可见，人群轮廓模糊，融入观众台黑暗之中，营造出一种宏大而神秘的氛围。整体色调以深黑色为绝对主基调，冷蓝色和纯白色光线作为点缀，画面构图宽阔。超高质量电影感真人写实风格，8K 分辨率，专业级舞台摄影（减少画面纵深比）。

主场景确定后，用 9 宫格 / 25 宫格生成多角度备选

生成案例：

以上画面可以挑选想要的场景进行提取
提取方式：截图高清重绘 / 提示词提取
提取单格镜头提示词（Nanobanana）：

Prompt 提取第 X 列第 X 行镜头为单独图片，不改变原有内容

25 宫格 Gem 链接：打开 Gemini Gem

25 宫格 Gem 源文件：

25宫格分镜Gem (NanoBananaPro分镜拆解提示词定制 :核心角色 "创意视觉化脚本助手" :目的 "根据剧本和参考图，生成NanoBananaPro专用的5x5宫格分镜JSON，追求极致精简的关键词描述。" :作者 "白灵"，改编自原作者："黄鑫波" :修订 "用户定制版" :版本 "0.3.3 (精简关键词版)" :角色 ( (角色名 "Creative Visualization Script Assistant - Concise Mode") (核心技能 ( "1. 极简提炼：将复杂场景压缩为3-5个核心关键词。" "2. 视觉转化：提取参考图风格标签。" "3. 宫格规划：设计25个独立分镜。" "4. 格式控制：严格遵循JSON与字数限制。" )) ) :任务 ( (核心功能 "生成5x5宫格分镜JSON，每个分镜提示词极致精简。") (输出要求 ( "1. 格式：纯净JSON字符串。" "2. 结构：包含 standard fields (model, layout, shots)。" "3. 数量：shots数组精确25个对象。" "4. 字数强制：每个 prompt_text 严格控制在 20-30 个英文单词之间。" "5. 语法：舍弃长句，使用 '关键词 + 逗号' (Tags) 的形式。" "6. 风格：提取参考图核心风格标签 (Style Tags)。" "7. 强制包含：'no timecode, no subtitles'。" )) ) :输入 ( (格式 "中文剧本文本 + 视觉参考图片") (处理逻辑 ( "1. 拆解剧本为25个瞬间。" "2. 提取参考图风格为3-4个单词的标签 (e.g., 'Cyberpunk, Neon, Oil Painting')。" "3. 组合公式：[景别] + [主体与动作] + [环境] + [风格标签] + [排除词]。" )) ) :输出 ( (格式 "JSON String") (核心结构 ( (image_generation_model "NanoBananaPro") (grid_layout "5x5") (grid_aspect_ratio "16:9") (shots [ { "shot_number": "分镜1", "prompt_text": "Short keywords prompt... no timecode, no subtitles." }, ... (共25个对象) ]) )) ) :约束 ( (C1 "格式：标准JSON，无Markdown废话。") (C2 "数量：Shots数组必须为25个。") (C3 "字数锁：每个 prompt_text 限制在 25 词左右 (±5词)。") (C4 "句式：严禁使用长难句，严禁使用 'A scene showing...', 'There is a...' 等废话。") (C5 "排除指令：必须包含 'no timecode, no subtitles'。") (C6 "去水印：严禁添加 '分镜X in corner' 等文字指令。") ) :风格 ( (策略 "提取标签 (Tag Extraction)") (执行 "分析参考图，提取 3-4 个最具代表性的风格单词，追加在每个Prompt后部。") (例如 "Anime style, 3D render, 8k, Volumetric lighting") ) )

9 宫格提示词：

Prompt 【指令】分析输入图像的整体构图。识别所有关键主体（无论是单人、群体/情侣、交通工具还是特定物体）及其空间关系/互动。生成一个连贯的3×3网格"电影分镜表"，包含9个不同的镜头，呈现同一环境中的这些主体。你必须调整标准电影镜头类型以适配内容（例如：若主体是群体，需保持群体完整；若主体是物体，需框入整个物体）：第1行（建立场景）： 1. 极远景镜头（ELS）：主体在广阔环境中显得很小。 2. 远景镜头（LS）：完整呈现主体/群体（从头到脚，或从车轮到车顶）。 3. 中远景镜头（美式/3/4镜头）：框取至膝盖以上（人物），或呈现物体的3/4视角。第2行（核心呈现）： 4. 中景镜头（MS）：框取至腰部以上（或物体的核心部分）。聚焦于互动/动作。 5. 中近景镜头（MCU）：框取至胸部以上。对主要主体的近距离取景。 6. 近景镜头（CU）：紧凑框取面部（人物），或物体的"正面"。第3行（细节与角度）： 7. 极近景镜头（ECU）：微距细节，聚焦关键特征（眼睛、手、标志、纹理）。 8. 低角度镜头（仰拍）：从地面向上拍摄主体（营造威严/英雄感）。 9. 高角度镜头（俯拍）：从上方向下拍摄主体。请确保严格的一致性：9个画面中主体/物体、服饰、光线完全一致。景深需真实变化（近景镜头中呈现虚化效果）。【说明】一个专业的3×3电影分镜网格，包含9个画面。该网格以全方位的焦距呈现输入图像中的特定主体/场景。顶行：宽环境镜头、完整视图、3/4取景。中行：腰部以上视图、胸部以上视图、面部/正面近景。底行：微距细节、低角度、高角度。所有画面均具有写实纹理、统一的电影色调，且取景方式与分析出的主体/物体数量相匹配。

步骤 2：视频生成（Seedance 2.0）

前置要求

参考素材：@面部参考、@全身参考、@场景参考、@音色参考
全局风格：电影级写实、8K、35mm 胶片、光线追踪、自然景深、手持呼吸感
动作要求：符合物理重力、骨骼联动、肌肉张力
输出：无字幕、无背景音乐

分段描述结构

镜头 001（2s）：【景别构图】【机位运镜】【动作描述】
镜头 002（1.5s）：【前序动作】【景别构图】【机位运镜】【动作描述】
镜头 003（5s）：【前序动作】【景别构图】【机位运镜】【动作描述】

提示词结构示意

提示词示例：

Prompt 第1段 | 8.5s | 镜头001-003，@图片1迈克特写面部参考、@图片2迈克全身服饰参考、@图片3发布会现场全景。迈克音色参考@音频。人物服装与场景光影均与参考图一致。【全局统一风格】电影级写实风格，发布会现场采用真实的舞台聚光灯（Spotlight）与环境漫反射布光。高精度人物皮肤纹理与毛孔渲染，物理光线追踪。画面带有自然的光学景深与极轻微的摄影机呼吸感，人物动作符合重力与真实骨骼力学；无字幕，无背景音乐。【整段表演重点】展现迈克在发布会开场时的物理状态转换：从步入舞台的惯性动势，到定场时的重心沉降，再到沉稳、克制且充满微肌肉张力的台词表达。镜头001｜2s 【景别构图】舞台全景（Wide Shot）：迈克位于画面左侧（占画面约15%），背景为深色的发布会大屏幕与隐约的观众席，舞台聚光灯从上方投射。【机位运镜】正前方平视机位，光学变焦（Optical Zoom）极其缓慢地向舞台中央推近。【动作描述】迈克步伐稳健地从舞台左侧向中央走动，大腿肌肉发力带动身体重心平稳前移，双脚踏在木质舞台上带来真实的躯干微小上下颠簸感，手臂与步行的惯性自然摆动。镜头002｜1.5s 【前序动作】迈克保持向前迈步的动势，重心处于左脚跟过渡到脚掌的瞬间。【景别构图】人物侧面中近景（Medium Close-up）：迈克占画面约40%，背景为大光圈下的舞台纵深虚化。【机位运镜】斯坦尼康（Steadicam）侧面平滑跟拍（Tracking Shot）。【动作描述】迈克行至舞台中央区域，视线率先转向台下观众，头部跟随视线转动，随后肩颈与躯干连贯地向右侧旋转；停步时，右脚前掌先着地，膝盖微曲进行真实的物理缓冲，身体重心平稳过渡并沉降至双腿之间。镜头003｜5s 【前序动作】迈克双脚站定，身体重心平稳，双臂自然下垂，目光刚刚锁定正前方。【景别构图】人物正面近景（Close-up）：胸部以上入画，迈克面部占画面约50%，聚光灯在眼球表面形成清晰的反射高光，背景极度柔焦。【机位运镜】机位固定，带有手持摄影机极其轻微的呼吸晃动感，焦点（Rack Focus）死死咬住迈克双眼。【动作描述】迈克胸腔因深呼吸而发生明显的物理起伏，肩膀肌肉随之微微下沉释放张力。他视线专注，眼睑肌肉微收，说："Current technology is powerful." 话音刚落，他喉结微动，视线在镜头前方的虚空中进行了一次短促的游移，右手小臂抬起，手腕肌肉微收带动指节自然弯曲，眉头因强调语气而牵扯眉心肌肉微微聚拢，继续说："But it speaks a different language than the living world." 尾音时下颚微收，瞳孔中反射出清晰的聚光灯轮廓，嘴角肌肉保持着严谨而专注的紧绷感。

以上提示词通过 Gemini 进行优化修改完成。

Gemini 提示词优化过程

步骤 3：视频修改与衔接

3.1 需要合成

未修改镜头 1-3 原素材：

第 1 段 · 8.5s · 镜头 001-003 原始素材

镜头 1 重新生成素材：

镜头 1 · 向前延长 4s

提示词：

合成效果：

合成演示 1 原素材 + 延长素材合成后的最终效果

合成步骤：

合成演示完整的合成操作步骤演示

复杂背景抠像 / 非纯色抠像：推荐使用 Mat Anyone 或 Goodbye Greenscreen。

3.2 不需要合成

全景需要衔接的片段：

全景衔接视频作为衔接生成的输入参考

提示词：

衔接提示词示意

Prompt @视频结尾画面（迈克侧身看屏幕状态参考）、@发布会现场环境参考。@迈克音色参考。@迈克脸部参考，@迈克全身参考。人物服装（红色毛衣与深色长裤）与场景光影均与视频结尾保持完全一致。【全局统一风格】电影级写实风格，35mm 胶片质感。发布会现场采用真实的舞台聚光灯（Spotlight）与环境漫反射布光。高精度人物皮肤纹理、毛孔与毛衣针织面料渲染；物理光线追踪。画面带有自然的光学景深与极轻微的手持摄影机呼吸感，人物动作严格符合物理重力、肌肉张力与面部解剖学骨骼联动原理；无字幕，无背景音乐。【整段表演重点】展现迈克从注视屏幕到直面观众的物理状态转换。重点刻画躯干回正时的骨骼连带关系，以及在台词递进中，面部微肌肉从略带松弛的调侃，迅速收紧为极具信念感与压迫感的写实微表情拉扯。镜头001｜9s 【前序动作】迈克身体微侧，双手自然下垂，肩背保持平稳的物理站姿，重心略偏向右腿（参考@视频中的动作）。【景别构图】人物正面半身近景（Medium Close-up）：腰部以上入画，迈克占据画面核心区域，背景巨大的发布会巨幕（画面背景参考@图片6）处于真实大光圈浅景深光学虚化（Bokeh）中。【机位运镜】固定机位，带有手持摄影机极其微弱的客观呼吸晃动感，焦点（Rack Focus）随着人物头部回正，迅速且平滑地从轻微失焦状态死死锁定至迈克的双眼。【动作描述】迈克的颈部肌肉牵扯带动头部从右侧缓慢转回正前方，肩颈与躯干遵循物理骨骼联动原则随之连贯回正，目光重新锐利地对焦于正前方的镜头。身体重心随着转正平稳过渡并微沉，他单侧嘴角肌肉牵扯出一个极小幅度、带有松弛感的弧度，声音略带调侃地说："Sounds like a dream, right?" 话音刚落，嘴角的弧度瞬间收敛，面部肌肉恢复冷峻克制，下颚微抬，胸腔伴随短促的深吸气发生物理微伏，咬字带有明确力学顿挫感地说："But it's real." 随后，他双手大臂发力带动小臂克服重力，在胸腹前微微抬起，手指自然微曲，做出一个极度克制、向内收敛的物理手势，说："It's a new start." 在最后半句的停顿间隙，他喉结微动完成了一次真实的轻微吞咽，双手顺应重力极微小地下沉释放部分张力。极具穿透力地面对镜头说："And, it's alive." 尾音落下时，嘴唇自然闭合，胸口随平缓的呼吸微伏，面部在舞台光影的勾勒下保持着极具压迫感的物理定格。

衔接镜头成片：