1
构思脚本
ChatGPT / Claude · 3-5min
没有脚本的视频=随机画面。这步决定后面所有步骤的质量。
确定主角
性别/年龄/外貌/服装风格,越具体越好。模糊描述=角色漂移。
确定动作逻辑
0-15秒内发生了什么?用白话文写,不要用"美丽的画面"这种废话。
确定视频长度
15秒以内:单段生成。超过15秒:必须分段,每段15秒,用上一段视频作为下一段参考。
确定发布平台
抖音/小红书选9:16竖版。YouTube/B站选16:9横版。
💡用一句话描述场景 → 粘贴给ChatGPT → 让它扩展成8块结构化提示词。比自己手写快10倍。
2
制作角色卡
GPT Image 2 / Midjourney · 5-10min
角色卡是整个工作流的基础。没有角色卡=角色漂移=浪费点数。
生成三视图(必须)
用GPT Image 2生成:[角色描述] 三视图(正面/侧面/背面),统一服装,白色背景。一张图包含三个角度,这是锁定角色的最高效方式。
生成2张表情特写
在三视图基础上,生成2张表情特写(微笑/严肃/惊讶)。三视图1张+表情特写2张=共3张,这是最优配置。
检查分辨率
最低1080p,推荐2K。低分辨率=模型平均化角色=脸漂移。
(可选)生成场景参考图
用GPT Image 2生成目标场景图,作为环境参考。
⚠只用1张正面图=角色脸会漂移。必须提供三视图。
💡三视图让模型在单张图里理解角色的立体形态,比分开的多张图更稳定。
3
收集参考素材
Pinterest / 电影截图 · 10-15min
Seedance支持9图+3视频+3音频参考。参考素材是"偷"风格的工具,不是抄内容。
图片槽位(最多9张)
角色卡3张+环境参考1-2张+打光参考1张。总共5-6张是甜蜜点,超过6张反而混乱。
视频参考(最多3段,≤15秒)
找你喜欢的镜头运动:推镜/拉镜/手持/航拍/环绕。你是在偷镜头语法,不是抄画面。
音频参考(最多3段,≤15秒)
音乐基调10秒+环境音(可选)+人声音调参考(口播类必填)。
整理到本地文件夹
按角色图/环境图/视频参考/音频分类存放,上传时不要搞混。
💡放一段推拉摇移的电影片段进视频参考槽,模型会复刻那个摄像机运动方式。
4
写提示词
Seedance Enhance Prompt · 5-10min
Seedance是导演工具。你写的是分镜脚本,不是描述。用8块Timeline结构,不要写一段话。
8块结构
Subject(主角)/ Wardrobe(服装)/ Environment(场景)/ Mood(氛围)/ Music(音乐)/ Color(色彩)/ Logic(分镜逻辑)/ Dial(电影参考)。每块独立。
或用Enhance Prompt
写一句话场景描述 → 点Enhance Prompt → 自动扩展为Seedance训练格式。比手写快10倍。
用@引用参考素材
在提示词里写:参考@Image1的角色外观,参考@Video1的镜头运动。不引用=模型忽略你上传的素材。
Logic块最重要
精确到秒+镜头类型:0-5s:低角仰拍,主角从背后走来→5-10s:切正面近景→10-15s:慢动作定格。
⚠上传了参考素材但不在提示词里@引用=模型完全忽略。这是最常见的浪费积分方式。
💡Logic块是最重要的。用白话文写0-15秒内发生了什么,越具体越好。"美丽的场景"=随机结果。
5
720p迭代
Seedance 2.0 · 每次2-5min
永远先720p迭代,满意后才出2K。2K消耗是720p的4倍。
先选720p
不要选1080p或2K。迭代阶段720p够用,而且快。
评估第一版
检查:角色脸是否稳定?镜头运动是否符合预期?动作逻辑是否正确?
每次只改一个变量
脸漂移→增加角色参考图。镜头不对→换视频参考。动作不对→修改Logic块。
重复2-5次
通常需要2-5次迭代。确认满意后切换2K。
⚠直接上2K=一下午烧光一个月积分。
💡每次只改一个变量。同时改提示词+参考图+分辨率=不知道是哪个改动起了作用。
6
后期剪辑
CapCut / 剪映 · 15-30min
视频生成只是第一步。后期剪辑决定最终发布效果。
多段拼接(>15秒)
把Clip 1上传到Clip 2的视频参考槽,模型会从Clip 1结束的地方继续。这是保持多段连续性的唯一方法。
导入CapCut/剪映
按顺序排列所有片段,拖入时间轴。
添加音乐+字幕
口播类必须加字幕。CapCut有自动字幕功能。
调色+导出
选一个和视频风格匹配的预设滤镜。抖音/小红书选1080p 60fps。
💡多段视频:每段新视频的视频参考槽=上一段生成的视频。这告诉模型"从这里继续"。