AI视频端到端制作技能培训

从客户一句话需求到交付成片的完整闭环。
先理解世界观,再碰工具。

ai-video-assembly v7.8.4 107个文件 · 7段流程 · 17个脚本 引擎无关 西区SA团队内训

G 术语速查表

这套体系里有大量缩写和专有名词。读正文之前先扫一遍这张表——遇到不认识的词随时点导航栏「术语表」回来查。

分组: ①核心架构 ②范式与引擎 ③评估与质检 ④后期与工程 ⑤业务与角色 ⑥人名与作品
① 核心架构 · 全篇基础概念
SSOT 单一事实源
Single Source of Truth。一个事实只在一个地方定义,下游所有引用从这里读取。改style_card一处,全片色调跟着动;这就是SSOT。
出现在:信念一、段二、段三、反模式
manifest 项目清单
项目级总配置文件,27个字段定义"这个项目要做什么、用什么引擎、什么风格、什么预算"。整个流水线的总开关。
出现在:信念二、段一、工作流、Q&A
Tier 1/2/3 三梯队
manifest字段的修改代价分层。Tier 1硬约束(改=全片重做)/ Tier 2平台设备(改=返工本段)/ Tier 3迭代约束(可调整)。
出现在:信念二、段一
L1 / L2 / L3 三层指令
prompt分层。L1基础设定(角色/场景/规则,全片不变)/ L2氛围画质(视觉宪法,全片统一)/ L3画面内容(每镜独有)。占比20-30/10-15/55-70%。
出现在:信念一、Tuner
anchor 锚点
用于"锁定"一致性的参考资产。style_anchor=风格锚(纯风景帧);character_anchor=人物锚(含面部和服装的标准图)。AI视频跨镜一致性的核心抓手。
出现在:信念一、段二、坑·风格锚选错
style_card / character_card / scene_card / props_card
资产工程的四类卡片。分别定义风格基线、角色档案、场景档案、道具档案。每张卡是一份SSOT,被多个prompt引用。
出现在:段二、Tuner
style_id 风格编号
28档基线风格库的编号系统。C系列=电影写实(C1王家卫雨夜)、F系列=金融商务(F1阳光科技蓝)、H系列=人文纪录(H1黄金时刻自然光)。
出现在:段一、金融专项
契约 段间契约
借自微服务的API契约思想。每段输出的字段、类型、必填项有白纸黑字规定,下一段开工前先lint验证全绿。
出现在:信念二
② 范式与引擎 · 选型语言
T2V 文生视频
Text-to-Video。只用文本prompt生成视频。最自由但一致性最弱,适合无人物/抽象镜头。
出现在:信念一、Tuner
I2V 图生视频
Image-to-Video。用首帧图+prompt生成视频。首帧锁定L1静态层,一致性显著提升,是当前主流范式。
出现在:信念一、Tuner、I2V天花板
R2V 参考图生视频
Reference-to-Video。挂≤9张参考图,prompt里用[Image N]显式引用。适合多角色协同、多场景固定元素。
出现在:Tuner、入口参数
V2V 视频生成视频
Video-to-Video。源视频驱动+音频/风格转换。源视频≤500MB/3-60s。适合口型同步、风格迁移。
出现在:Tuner、入口参数
HH / HappyHorse 万镜HH引擎
阿里万镜平台的HH系列视频引擎。HH-1.0-i2v=主力图生视频;多人互动强但身份漂移高。无独立image模型,首帧须外接。
出现在:I2V天花板、Q&A
Wan2.7 通义万相2.7
阿里通义万相2.7系列。wan2.7-i2v支持driving_audio口播,wan2.7-image-pro用于首帧生成。一致性优于HH但多人互动稍弱。
出现在:I2V天花板、模型SSOT
CU 计算单元
Compute Unit。万镜平台的统一计费单位。1秒视频生成约消耗3-10 CU,根据引擎和分辨率浮动。预算管理的基础单位。
出现在:段一、成本与团队
seed 随机种子
控制随机性的整数。同prompt+同首帧+同seed理论上结果一致;改seed=换一次"骰子"。锁seed是复现实验、做对比的前提。
出现在:信念三、I2V天花板
首帧 first_frame
I2V范式的输入图。决定L1静态层不可被prompt修改的部分(角色面部、服装、场景布局)。首帧选错=镜头废。
出现在:段二、四步门禁
prompt 提示词
告诉模型生成什么的文本指令。tuner产出的是"prompt";assembly不写prompt,管"何时写什么样的prompt"。
出现在:信念一、Tuner
③ 评估与质检 · 验收门词典
VLM 视觉语言模型
Vision-Language Model。能看图/视频并用语言描述、评分的模型(qwen3-vl-plus等)。AI视频自动质检的底座。注意:评分有通胀,中度问题仍给3-4分,须人工复检。
出现在:段三、段四、模型SSOT
早筛三关 early_screen
人工10秒级目检:①主体在不在 ②姿态对不对 ③风格像不像。0/1快筛,过了再交给自动评分。
出现在:信念三、四步门禁
fast_fail 快速失败
fast_fail_check.py。五维自动评分(构图/曝光/锐度/色彩/主体),低于阈值直接停,不送下游。质量左移的核心机制。
出现在:信念三、四步门禁
identity_match 身份匹配
identity_match.py。跨镜对比同一角色的面部/服装特征,输出相似度分。<80%禁进段四,触发人物锚返修。
出现在:信念三、四步门禁
batch_qc 批量质检
N×5热力图+REPORT。把一批镜头的5维评分铺成矩阵,一眼看出哪几镜异常。
出现在:信念三、四步门禁
四步门禁 four-step gate
段三→段四的强制关卡:早筛→fast_fail→identity_match→batch_qc。任何一步不达标禁止进段四。风信子项目验证:跳过=17/25镜翻车。
出现在:信念三、段四
12维评分 frame_qc
镜头级12维度审视:构图/曝光/锐度/色彩/主体/动作/情绪/物理/连贯/风格/伦理/合规。生产阶段每镜过这12关。
出现在:段四
P0 / P1 优先级
问题严重度。P0=阻塞性问题必修;P1=显著问题应修。段四验收要求4.5 P0+P1全清。
出现在:段四
DRIFT_VOCAB 漂移词典
identity_match使用的"漂移特征词表"。年龄、肤色、发型、脸型等可量化维度,用于跨镜定量对比。
出现在:段四
VBench 视频评测基准
学界标准AI视频评测基准。提供运动一致性、主体一致性、美学等维度量化指标。引擎选型的参考维度之一。
出现在:段一、Q&A
Animatic 动态分镜预览
用静帧拼接+时间轴标注,10分钟出结构预览。在投入正式生成前确认节奏和叙事弧线。低成本验证的代表。
出现在:信念三、段三
prop_identity 道具一致性
fast_fail六维之一。专门校验道具跨帧是否变形/数量变化。I2V当前最大短板,每镜必查。
出现在:信念三、I2V天花板
④ 后期与工程 · 工具术语
ffmpeg / ffprobe
命令行视频处理瑞士军刀。ffmpeg=转码/剪辑/混音;ffprobe=探测视频元信息(流、编码、时长)。本体系剪辑全靠它。
出现在:段五
Pillow Python图像库
Python Imaging Library。负责所有"画面里的文字"——UI文字、Logo、数字、字幕——后期叠加(AI生成的文字几乎必乱)。
出现在:段五、金融专项
xfade 交叉淡化
ffmpeg滤镜。两段视频之间的交叉过渡(叠化/划像/翻页等)。比fade更智能,能避免PTS漂移。
出现在:段五、转场方法论
drawtext ffmpeg文字滤镜
ffmpeg内置文字渲染。中文字体配置麻烦+渲染质量差,本体系弃用,改走Pillow覆字流程。
出现在:段五(反例)
nlmeans 非局部均值降噪
ffmpeg降噪滤镜。比传统denoise保细节。AI视频后期降噪标配,配unsharp增锐使用。
出现在:段五
unsharp 非锐化掩模
ffmpeg增锐滤镜。先降噪再增锐,是AI视频"清晰度补偿"的标准组合。
出现在:段五
CRF 恒定质量因子
Constant Rate Factor。ffmpeg视频压缩参数,0=无损/23=默认/51=最差。本体系粗剪crf20,成片crf18。
出现在:段五
BGM 背景音乐
Background Music。三轨混音模型中音量约12%,配afade 3秒淡入淡出。
出现在:段五
TTS 文本转语音
Text-to-Speech。品牌片用longyuan_v2;通用用cosyvoice-v3-flash+longanyang。CosyVoice-v2/longxiaocheng_v2已418废弃。
出现在:段五、音频偏好
LUT 查找表/调色配方
Look-Up Table。预设的色彩映射表,用于全片统一调色风格。AI视频跨镜色温不一致,LUT是兜底校正手段。
出现在:段五
amix 音频混合
ffmpeg多轨音频混合滤镜。normalize=0防止自动归一化破坏混音平衡,配trim裁掉头尾噪声。
出现在:段五
acompressor 动态压缩
ffmpeg音频压缩滤镜。压扁旁白动态范围,配BGM不会被人声峰值"打没"。
出现在:段五
OCR 光学字符识别
Optical Character Recognition。识别图片中的文字。本体系最佳实践=Pillow分片+multimodal Read,不用传统OCR库。
出现在:段二(资产抽取)
match cut 动作匹配剪辑
前后镜的动作/形状/色彩在剪点处对齐,让转场"看不见"。Murch六准则之一,本体系转场方法论核心技法。
出现在:转场方法论
2×2 Grid 2×2网格预检
同一镜头一次抽4个候选,2×2网格排版,5秒人工筛选。低成本验证的代表手法。
出现在:转场方法论、段四
_platform 跨平台抽象层
封装ffmpeg/ffprobe/tmp_file/字体解析/标准输出等跨macOS/Linux/Windows差异的内部库。下游脚本只调它不直接调系统。
出现在:技能结构
⑤ 业务与角色 · 团队/客户语言
SA 解决方案架构师
Solution Architect。本团队岗位主体。AI视频项目里SA同时承担客户对接+manifest起草+总验收三角色。
出现在:成本与团队、客户脚本
QC 质量控制
Quality Control。生产阶段每镜过12维评分、跨镜过identity_match。本团队由专职QC角色担当。
出现在:成本与团队、段四
VI 视觉识别系统
Visual Identity。客户的Logo、主色、辅助色、字体规范包。AI视频项目段一必须问客户要VI手册,没有就先做色板提案。
出现在:金融专项、输入地图
CIPS 人民币跨境支付系统
Cross-border Interbank Payment System。富滇案例中"茶农直收人民币"的支付底座。金融片常用术语。
出现在:实战案例·富滇
PM 项目经理
Project Manager。本体系下PM和SA常合一,负责manifest起草、节奏管理、客户沟通。
出现在:成本与团队
PPU / DWS 阿里产品线缩写
PPU=按量付费产品线;DWS=数据仓库服务。TL双周报四板块之一。
出现在:(双周报相关,非本培训)
一票否决 硬红线
金融项目合规硬约束。任一项违反,整片直接报废重来:① UI文字AI生成 ② 数据无据 ③ 监管表述偏移 ④ 客户脸不打码 ⑤ 竞品Logo出现。
出现在:金融专项
三层输入分类 必给/SA配/自动
客户输入清单分三类:必须客户给(品牌资产+内容决策+合规)/ SA决策(manifest 7配置)/ 系统自动(音频/视觉/质检)。
出现在:输入地图
⑥ 人名与作品 · 引用源
Murch 沃尔特·默奇
好莱坞传奇剪辑师,《教父》《现代启示录》剪辑师,著《剪辑之道》。本体系转场方法论六准则的源头:情绪>叙事>节奏>视线>2D空间>3D空间。
出现在:转场方法论
王家卫 style_id=C1原型
C1电影写实风格的视觉锚——《重庆森林》《花样年华》式的高对比霓虹+雨夜+浅景深+手持。富滇片采用。
出现在:段一、实战案例·富滇
Daft Punk LED屏脸隐喻
法国电子组合。常年戴LED头盔示人。AI友好度评估中"短板变美学"的代表案例——用LED屏遮脸规避人脸一致性难题。
出现在:信念三·AI友好度
DashScope 百炼
阿里通义/万镜的统一API网关。本体系所有模型调用走DashScope。API_KEY约定从~/.qoderwork/config/happyhorse.json读取。
出现在:安装上手、模型SSOT
qwen3-vl-plus / qwen3.7-max / qvq-max 通义系列
qwen3-vl-plus=几何/grounding/视频分析最强;qwen-vl-ocr=OCR专用;qwen3.7-max=纯文本;qvq-max已淘汰。模型SSOT的选型指南。
出现在:模型SSOT、Q&A
风信子项目 v6→v7认知升级源
早期一个跳过四步门禁的项目,结果17/25镜翻车。这次踩坑后才提炼出"质量左移"和强制四步门禁机制,是v7的诞生背景。
出现在:信念三、Q&A
富滇银行 在云南,每个人都在出海
本培训实战案例项目。9:16/30s抖音信息流,三人物并列(茶农/货代/咖啡主理人),CIPS+老挝基普直兑+富乐GO三线叙事。
出现在:实战案例
ai-video-assembly / tuner 两个核心skill
assembly=七段流程编排+manifest+段间契约;tuner=单镜prompt生成+三层指令+十维支架。两者在段三交汇,分工边界清晰。
出现在:技能结构、Tuner

没找到的术语?在 video-prompt-tuner 的 references/ 目录或 ai-video-assembly 的 _meta/glossary.yaml 里查; 新人遇到没解释的缩写,请反馈给培训人加入本表。

00 30秒定位

是什么

AI视频的施工管理规范——有蓝图、有工序、有验收门、有变更控制。它不写prompt(那是tuner的活),它管"做什么、什么顺序做、什么时候该回头"。

能做什么

企业宣传片、品牌形象片、创意短片、IP动画。全程不需要Premiere/Final Cut,只要ffmpeg + Pillow + 视频生成API。引擎无关。

暂时不能做什么

不能替代审美判断、不能100%保证一致性、不做实拍混剪。当前天花板:道具跨帧崩溃、运动保守、运镜默认平视。

最好的建议

先理解四条设计信念再碰工具。信念对了不看文件也知道下一步干什么;信念不对看完107个文件还是转圈。

01 为什么需要这套东西

从大家实际踩过的坑开始——"你做AI视频踩过最深的坑是什么?"

痛点A · 方向散了

第三镜才发现第一镜的风格和客户调性不一致,前面全白做。改第三镜又影响第四镜,越改越远。

根因:manifest里的style_id没有三梯队锁定,下游每一镜都在"重新诠释"风格。

痛点B · 拼一起就别扭

每镜单看不错,拼在一起色温跳、人物变脸、光线方向矛盾。AI视频跨镜色温天然不一致——这是引擎物理特性。

根因:没有"风格SSOT"机制,六维度风格没有统一定义在一张style_card上。

痛点C · 抽卡地狱

prompt改了十几版还不对。不知道是prompt问题、首帧问题、引擎问题还是资产设定矛盾。改10轮越改越偏。

根因:没有"三步定位法"。应该先判断属于哪一段、是否段内可解、连续2轮无提升则跳出。

三个坑的同一个根——没有分层,没有契约,没有验证前置。
把AI视频当"写prompt→出视频→改prompt"的单循环来做,就必然走进这三个坑。

02 四条设计信念——世界观的骨架

所有的七段流程、模板、脚本都是这四条信念的落地工具。

信念一:资产工程是底层,不是prompt工程

v7.0最大的认知升级——AI视频质量的瓶颈不在prompt工程而在资产工程和后期工程。

prompt是函数调用,资产卡是类定义。发现第5镜角色衣服颜色变了?修character_card——修一处全片跟着动。

顶层 后期工程(编辑/混音/调色/交付)
中层 创作工程(分镜/prompt/抽卡)
底层 资产工程(剧本/资产卡/依赖图)— 20-30% prompt占比但决定全片一致性

三层世界观结构:

层级内容prompt占比特征
L1 基础设定角色/场景/规则20-30%全片不变
L2 氛围画质视觉宪法10-15%全片统一
L3 画面内容每镜独有内容55-70%每镜不同

大多数人把100%精力放在L3,但L1+L2才是一致性的基座。prompt_assemble.py自动注入L1+L2,用户只需手写L3。

实例:首帧参考图是一致性的核心手段

纯文本prompt对风格控制力近乎为零(实测5镜分布在3个完全不同风格)。必须挂3-4张多图参考——视觉条件的贡献比文本高一个数量级。

S01首帧
S01 首帧 — 开场镜,奠定全片色调基础
S06首帧
S06 首帧 — 角色近景,继承L1+L2风格锚定
S12首帧
S12 首帧 — 场景转换,style_card SSOT保证色调一致
甜区 · 一致性七档谱系

从弱到强:① prompt文本约束 → ② 风格词锚定 → ③ 设备词锚定 → ④ 参考图输入 → ⑤ I2V首帧锁定 → ⑥ 引擎内置身份锁 → ⑦ 多帧联合生成。不需要全部用上,根据项目需求选合适的档位。

坑 · style_anchor选了含角色的剧照

style_anchor只能是纯风景/无主角的帧。含特定角色的剧照会导致角色特征泄漏到全片所有镜头。实测教训:参考图里一个红蝴蝶结,全片滑翔翼变伞形。

坑 · 设备词位置错误

"shot on ARRI Alexa LF"必须放L2层开头独立声明。混入L3叙事段落会被模型渲染为画面内文字——真有项目出过画面底部赫然出现相机型号字样。

信念二:段间契约优先——宁可卡住,不可带病前进

每段的输出是下一段的输入约束。任何一段输出契约不达标,下一段不开工。

微服务架构的API契约思想——段一输出就是段二的接口文档,字段类型、必填项、验收条件白纸黑字。

manifest 27字段三梯队 核心机制

梯队数量特征改动代价
Tier 1 硬约束11项画幅/引擎/风格ID/人设锚点…改 = 全片重做
Tier 2 平台设备11项分辨率/音频策略/字幕策略…改 = 返工该段
Tier 3 迭代约束5项seed策略/迭代轮次/CU预算…可迭代调整

三步起草:填表 → 用户书面确认 → 下游lint验证全绿才进段二。locked后下游需改 → 强制回退到段一。

坑 · 跳段进入但不补前段契约

"我已经有prompt了,直接从段四开始吧"——最常见反模式。跳段可以,但必须先检查上游模板是否已有对应产出物。缺了就补最小骨架再进新段,否则段六交付时无基线可回。

信念三:低成本验证优先——改设计5分钟,硬刚迭代3天

规避短板 > 硬刚短板。
甜区 · AI友好度评估(红黄绿六维度)

在写剧本之前对创意做"引擎适配体检"——角色面部/动作复杂度/场景数量/文字UI/口型对白/时间跨度。核心哲学叫"短板变美学":LED屏脸规避人脸一致性(Daft Punk风格);鸵鸟替代人类规避精细五官;丧尸本该丑容错天然高。

甜区 · 四步门禁——质量左移到首帧阶段

段三→段四之间有一道关卡,不是抽完卡再发现首帧不对:

① 早筛三关
人工10秒
② fast_fail_check.py
五维自动评分
③ identity_match.py
跨镜身份对比
④ batch_qc
N×5热力图

四步全过才能进段四。跳过此门的后果——风信子项目实测:17/25镜翻车。

甜区 · Animatic(10分钟验证2小时的决策)

段三末尾做低成本Animatic预览:静帧拼接+时间轴标注,10分钟出结构预览。确认节奏和叙事弧线对了再投入段四正式生成。避免"方向错了还在精修细节"。

信念四:经验跨项目传递——系统自进化

段七复盘的经验写回references,下个项目自动继承。每3个项目做一次模式识别。
甜区 · 工具切换决策

连续2轮无提升不是"再试一次"的信号,是换工具的信号:换引擎(HH→Wan2.7)/ 换范式(T2V→I2V→R2V)/ 改分镜设计 / 告知客户"AI现在做不了"。大多数人在这里多花3-5轮无效迭代。

坑 · 复盘变成流水账

不是写感悟,是改规则。复盘后形成至少1条可写回references的规则——这是段七的验收门。如果三个项目下来references没有新增一条规则,说明复盘流于形式。

03 七段流程——甜区与陷阱地图

段一
锁方向
段二
建资产
段三
排分镜
段四
抽卡生产
段五
剪辑拼接
段六
验收交付
段七
复盘回写
项目死活 90% 决于段一段二。段四翻车的根因几乎全部能追溯到段一选题/manifest 没锁好、或段二资产卡 SSOT 没立住——抽卡再用力也补不回前两段的窟窿。所以高亮的不是抽卡,是锁方向

本章读法 · 七段不是平均用力

七段里段三、段四、段五决策密度最高、最容易翻车——本章节深挖这三段的方法论:

段一、段二、段六、段七的"输入→产出→甜区→坑"已经在 04 章节逐段配齐——它们决定项目方向但操作密度低,按表对照即可,不需要在本章再展开方法论。

段三插入:video-prompt-tuner —— 世界观如何落地为prompt

assembly 管"全片怎么编排",tuner 管"单镜 prompt 怎么写好"。两个 skill 在段三交汇——分镜表排好了,每一镜的 prompt 由 tuner 生成。

关键认知:prompt 不是从零写起。在 assembly 管线内,prompt 继承世界观的 L1+L2(由 prompt_assemble.py 自动注入),tuner 只写 L3(本镜画面内容)。

核心模型:三层指令 × 四范式

这是 tuner 的脊柱——所有维度、体检表、自检都是它的具象化:

层级内涵典型崩法载体强度
L1 静态属性
per-frame
身份/外观/构图/配色/光影/道具/镜头几何角色变脸、黑白衣互换、巨人变侏儒首帧图(I2V)最强
文本(T2V)最弱
L2 动态属性
across-frame
动作起止/轨迹/幅度/接触面/速度曲线翻身变倒立、五指轻叩变怪异手势源视频(V2V)最强
视频文本看范式
L3 语义因果物理拟真/常识/叙事目的性/情绪连贯翻身又回床上、起身太从容(该惊吓)模型先验+文本提示

载体强度光谱——同一个"L1身份要锁住"的需求,用不同载体效果天差地别:

文本(T2V)
弱·翻译率<100%
参考图(R2V)
中·锁身份不锁全帧
首帧图(I2V)
强·像素级硬锁
源视频(V2V)
极强·静态+动态都锁

十维度脚手架(写prompt的实操脑回路)

写一条prompt时按这个顺序过脑子——先物理,再工程,最后横切层:

#维度核心律最常见错误
1机位四件套(景别+角度+高度+运镜)独立成块,缺一不得送抽卡只写景别没写角度和高度→全片平视中景
2空间前/中/后景分层 + 选锚物 + 跨镜锚定声明多角色位置靠"大概描述"→每帧随机站位
3光照与风格光源/方向/质感/色温四要素缺一不可"cinematic lighting"=等于没写
4动作写起止状态,一镜一动作,手指级放弃转大肌肉群一镜堆5个动作→模型选择性执行或全静止
5抽卡探索期随机seed → 早筛三关 → 锁定期固定seed一直随机seed没锁定→好效果复现不了
6多视角跨视角一致靠多图参考表 + 先查有没有这个角度选了参考表没覆盖的角度→身份崩溃
7人物刻画真实感靠可见细节不靠标签"一位老人"远不如"五十多岁、眼角皱纹、花白鬓角"
8表演工程情绪时间隔离 / 视线锚定 / 因果链prompt情绪靠抽象词"悲伤地"→AI不知道怎么表现
9音频音频是显式维度,L1层声明声音规则忽略音频→AI随机脑补不相关的声音
10句法规范命令式/陈述式,禁10类不确定词"可能在走路"→遵从率比"walks forward"低40-60%

世界观→prompt的完整链路

把前面讲的"信念一资产工程是底层"落到技术操作上:

style_card
六维度风格SSOT
character_card
角色9层字段集
prompt_assemble.py
自动注入L1+L2
tuner写L3
本镜画面内容
完整prompt
L1+L2+L3

用户只需要写L3(55-70%的内容),但这55-70%决定了"这一镜画什么"。前面的20-30%(L1)+10-15%(L2)由系统从资产卡自动继承——这就是"资产工程是底层"的技术兑现。

正反对比:同一个镜头意图的两种写法

镜头意图:"茶农老张蹲在茶园里,阳光透过茶树,他抬头微笑看向远方"

错误写法 遵从率~30%

A old Chinese farmer might be squatting in a beautiful tea garden with cinematic lighting and film grain. He seems to look into the distance with a warm smile. The atmosphere should feel peaceful and maybe nostalgic. Shot in a professional way.

问题:might/seems/should/maybe=4个不确定词;cinematic lighting=抽象词;film grain=会变噪点;无机位四件套;无空间分层;无光源方向

正确写法 遵从率~85%

[机位] Medium shot, low angle (15° upward), camera at knee height, static.

[空间] Foreground: tea bushes at waist height. Midground: a 55-year-old Chinese man with sun-weathered skin and deep smile lines, squatting between rows. Background: rolling green hills dissolving into morning mist.

[光照] Golden hour back-rim light from upper-left, soft diffused fill from overcast sky, warm 4500K.

[动作] He lifts his chin 20° upward over 2 seconds, lips part into a slight smile revealing crow's feet deepening.

[设备词] Shot on ARRI Alexa Mini LF, Cooke S7i 50mm T2.0, shallow depth of field.

全命令式 / 机位四件套完整 / 光照四要素 / 动作有起止+幅度+时长 / 设备词L2独立 / 无抽象词

铁律三条(写prompt前必背)

比喻全删

模型不做语义翻译。"如诗如画的晨雾"→"white translucent fog layer at 1.5m height, visibility 30m"。业务概念转译不是删除("复利增长"→"树木从幼苗到大树的延时")。

审美词全删

"意境/高级感/氛围感/质感"→翻译成可见的光影色调动作。"高级感"到底是什么?是冷色调+低饱和度+大面积留白+慢运动。写后者。

meta指令无效

"两人比例正常""构图要平衡""画面干净"——模型不执行这种约束。要从描述结构控制:声明空间分层、给出具体尺寸/距离、用negative排除。

能力画像与放弃律——知道什么时候停手

没有这一节,人会无限改prompt。这节告诉你什么时候停手换策略

档位内容行动
确定不行手指精细动作 / 中文Logo像素还原 / UI界面数字图表 / 过渡态首帧直接放弃,后期Pillow叠加或换方案
吃运气近景脸跨镜身份(<60%) / 暗光相近色(<70%) / 长prompt后段(<50%) / 多角色≥3人加抽卡预算,3-4 takes起步
能力甜区中远景人物 / 单动作 / 明确光照 / 环境氛围 / 物体质感正常流程,2 takes足够

换策略时机:1-3版调文字 → 4-5版换机位/景别 → 6版+换工具/范式。连续3版同一种问题没解决 → 强制换策略,不要第7版还在改同一个词。

甜区 · 失败定位决策树

看到崩case第一件事——三步定位:

Q1 崩在哪一层?→ L1(身份/构图) / L2(动作/轨迹) / L3(物理/叙事)
Q2 我用的是哪种范式?→ T2V / I2V / R2V / V2V
Q3 这一层在这个范式下,本应被哪个载体焊死?→ 回那个载体去改

铁律:用错关就是用错药。L2的崩(动作跑偏)拿到L1(出图)去改首帧,改到死也没用——应该改视频prompt的动作描述。

坑 · §0.5 工程约束跳过(占prompt失败50%以上)

最常见的反模式:跳到§3写词时不读§0.5 → 长度堆砌(200字I2V塞了500字) / 比喻泛滥("如梦似幻的") / 审美词污染("高级感")。这三类问题占prompt失败案例的一半以上。§0.5全部覆盖,是真正的"写之前先读"。


段四实战:赛马对比——同一镜两个引擎的差异

风信子项目Phase A赛马,同prompt+同首帧,HappyHorse vs Wan2.7对比:

HappyHorse — 温度感/表演丰富度领先
Wan2.7 — 指令遵循/叙事连贯/零穿帮领先

关键实证结论:两者共同弱点是camera指令遵循差(hand-held shake/dutch tilt均不执行)。用户选HH的理由:"温度感对吉卜力短片更核心"——非量化审美判断优先于0.05分数差距。

甜区 · 双种子验证

每个新prompt首次必须两个seed同跑:两好→锁定 / 两崩→改prompt / 一好一坏→第三seed。能区分系统性问题和随机性问题。

坑 · VLM评分通胀

thinking模式VLM极度宽松——14/14镜可能全打满分。严格评分须:(1)逐条check-off "prompt说了X→视频是否兑现X" (2)不允许"animation style所以物理放宽"逃生通道。

段五:剪辑工程——BGM是拼贴感最大的解药

甜区 · 转场ROI优先级

80%的"生硬感"来自情绪/叙事/节奏断层而非技术过渡:

手段顺滑度贡献投入时机
BGM60%最先做
Sound Bridge20%段落口衔接
Match Cut15%画面内容接力
Dissolve/Whip等技巧5%最后考虑

铁律:若全片未配BGM,禁止做per-cut xfade调优。

粗剪预览

先用concat demuxer硬切拼接(10秒搞定)验证叙事弧线,确认OK后再做精剪:

风信子项目粗剪v4 — 25镜硬切拼接验证叙事弧线(精剪前节奏不对转场做再好也白做)
坑 · film grain被渲染为数字噪点

prompt写"film grain"→引擎理解为"加颗粒状噪声"不是胶片美学。替代写法:ultra-clean sensor, no visible noise。已有素材降噪:nlmeans=s=10:p=7:r=5 + unsharp,降噪后码率下降18%。

QA时间线抽帧网格

QA时间线抽帧网格
成片QA时间线抽帧 — 每3秒抽帧检查画面内容和转场,一图发现所有问题

04 完整任务工作流——每段在做什么、产出什么、谁验收

前面讲了"流程长什么样"和"为什么这么设计",这一节是真正的施工蓝图——每一段的输入→任务→工具→产出→验收门→工时。开工时按这张表走,不会漏环节。

一句话总览:段一定方向、段二建底座、段三排画面、段四出素材、段五拼成片、段六交客户、段七喂下一个项目。每段的输出是下一段的"开工许可证",没拿到许可证不能进下一段。

段一 · 项目准备 锁方向

目标:把客户一句话需求 → 落到 27 字段可执行的 manifest。这一段决定后面 6 段的所有默认值。

环节具体动作工具/模板产出物
输入客户 brief(业务目标/受众/渠道/时长/红线)+ 品牌资产(Logo/VI/字体)会议纪要
1.1 选题三档候选 → 与客户拍板一个(避免段三返工)templates/topic_confirm.md
references/flow/topic_matrix.md
topic_confirm.md
1.2 brief 转写客户原话翻译为 SA 可执行项目简报templates/brief.mdbrief.md
1.3 AI 友好度评估对选题做六维度红黄绿打分(人脸/动作/UI 文字/口型/时长/场景)references/flow/ai_friendliness.mdai_friendliness.md
1.4 品牌学习抽取品牌色/字体/调性/禁忌 → brand_profile.yamlreferences/flow/brand_profile_example.mdbrand_profile.yaml
1.5 manifest 起草27 字段三梯队全部填齐(Tier1 硬约束 11/Tier2 平台 11/Tier3 迭代 5)templates/project-meta.md
references/flow/project-preparation.md
manifest.yaml
1.6 引擎选型从 AI 友好度+预算+客户偏好选主引擎+fallbackreferences/proxy/engine-routing.md
engine-cards
manifest.engine_id
验收门客户书面确认 + lint 全绿 → manifest.locked=true不通过禁进段二
工时单镜短片 0.5 天 / 30s 宣传片 1-2 天 / 复杂叙事片 3-5 天
甜区 · style_id 锁 28 库不自创

28 档基线风格库(C/F/H/N/V/A 等系列)已经穷举了金融/科技/人文等行业的常用调性。新人 SA 想"我们做个独家风格"——大概率走 200 镜抽卡才稳。能用 28 库就用 28 库,确实必须自创时,至少要客户付返工预算的心理准备。

甜区 · 选题三档备选+一档主推

不要只给客户一个选题等他点头。三档备选+一档主推(含每档的 AI 友好度六维红黄绿)给客户。客户大多会同意主推,一旦不同意你也立刻知道偏离方向,不用第二次开会重提。

坑 · 客户没给 VI 就开工

"先做着吧 Logo 后面补"——做到段五客户拿出 VI 你才发现品牌色完全不对,前面四段全废。没拿到 brand_profile.yaml 全部字段填齐前,manifest.locked 不准置 true。客户拖延就发邮件留痕,让对方知道是他在卡进度。

坑 · CU 预算字段空着进段四

manifest.cu_budget 没填,段四抽卡按"先抽再说"思路开干,30 镜抽到第 12 镜发现 CU 烧完。段一必须算清三档 CU 预算(基线/中位/上限),按上限的 80% 触发预警、100% 强制砍镜或回段一谈钱。

段二 · 资产工程 建底座

目标:把 manifest 的抽象描述 → 实体化为可被 prompt_assemble.py 调用的资产卡。这一段决定全片一致性的上限。

环节具体动作工具/模板产出物
输入manifest.yaml + brand_profile.yaml + 客户提供的 Logo/参考图
2.1 世界观三层声明 L1 基础设定 / L2 氛围画质 / L3 画面内容的边界references/flow/world-building.mdworld.yaml
2.2 角色卡9 层字段(身份/外观/服装/视觉 anchor/性格 anchor/年代/语言/职业/禁忌)templates/character_card.mdcharacter_card.md(每角色一份)
2.3 场景卡地点/时段/天气/室内外/空间布局/光源方向templates/scene_card.mdscene_card.md(每场景一份)
2.4 风格卡(SSOT)六维度:色温/饱和度/对比度/颗粒/设备词/参考图风格templates/style_card.md
references/proxy/style-library.md
style_card.md(全片仅一份)
2.5 道具卡跨镜复用道具的形态/材质/标志性特征templates/props_card.mdprops_card.md
2.6 资产命名{地点}_{景别}_{时间}_{状态} 规则命名所有资产文件references/flow/asset-naming.md资产目录树
2.7 资产包打包asset-package.md 索引全部资产 + 依赖图templates/asset-package.mdasset-package.md
验收门所有资产卡填齐 + 跨镜一致性 lint 通过 + 视觉 anchor 已生成缺一项禁进段三
工时单角色单场景 2-4 小时 / 多角色多场景 1-2 天 / 复杂世界观 3-5 天
甜区 · 一张卡只是一份 SSOT

style_card 全片只有一份、character_card 每角色只有一份。下游 prompt 永远从卡里读,不在 prompt 里重新描述风格/角色外观。改风格只动 style_card 一处,全片色调跟着动;这是"风格不漂移"的工程兑现。

甜区 · 首帧外接 wan2.7-image-pro

HH 引擎本身没有独立 image 模型,让它"自己生首帧"=每镜首帧风格抖动。固定走 wan2.7-image-pro 生首帧 → 喂给 HH/Wan2.7 做 i2v,跨镜一致性立刻提升 20-30%。这是段二的"小动作大收益"。

坑 · 用 OCR 抠 Logo 进资产

有人想"客户 PPT 里有 Logo,OCR 一下抠出来用作首帧锚物"——抠出来的 Logo 永远是有损的(边缘锯齿/底色残留),AI 复现率更低。所有 Logo/UI 文字一律段五 Pillow 后期叠加,绝不进资产卡进首帧

坑 · character_card 字段不全

9 层字段(身份/外观/服装/视觉 anchor/性格 anchor/年代/语言/职业/禁忌)写到第 4 层就结束 ="差不多吧"。结果就是镜镜变脸——AI 在缺失的字段里自由发挥。lint 卡死必须 9 层字段全填,能写"无"也得写,不准空。

段三 · 单镜创作 排画面

目标:把世界观 → 落到逐镜可送抽卡的 prompt。这一段是 assembly 和 tuner 的交汇点。

环节具体动作工具/模板产出物
输入asset-package.md + 客户旁白文稿(如有)
3.1 叙事策略五种叙事策略选一(线性/平行/倒叙/蒙太奇/意识流)references/flow/single-shot-creation.md叙事大纲
3.2 分镜表逐镜:景别/构图/运镜/画面内容/时长/音频意图templates/storyboard.md
references/flow/shot-design.md
storyboard.md
3.2b 情绪→机位映射每镜按情绪反查机位四件套(景别+角度+高度+运镜)references/flow/emotion-to-camera.mdstoryboard 加 camera 列
3.3 首帧生成用 wan2.7-image / flux 生成每镜首帧 + 多图参考qianwen-image-generation skillS01_first_frame.png 等
3.4 调用 tuner 写 promptprompt_assemble.py 注入 L1+L2 → tuner 写 L3scripts/prompt_assemble.py
video-prompt-tuner skill
production-order.md(逐镜 prompt)
3.5 Animatic 预览首帧拼接+时间轴标注,10 分钟出结构预览scripts/animatic.pyanimatic_v1.mp4
验收门(Murch Pre-Edit Gate)Animatic 确认叙事弧线 OK + prompt lint 通过叙事不对禁送抽卡
工时5 镜 0.5-1 天 / 15 镜 1-2 天 / 30 镜 3-5 天
甜区 · Animatic 卡叙事再去抽卡

逐镜首帧拼成动态分镜,加旁白草稿 + 时间戳,10 分钟出预览。给客户先看 Animatic 而非成片——节奏问题在静帧阶段就能发现并改,到段四再发现要全部重抽。"Murch Pre-Edit Gate"是段三→段四唯一的强制门。

甜区 · 情绪→机位的反向查表

不要"想好画面再写机位",而是先定每镜情绪(紧张/松弛/敬畏/亲密),从 emotion-to-camera 反查机位四件套。同样"客户开心",远景仰拍是英雄叙事、近景平视是平等对话——情绪先行才不会画面"漂亮但没情绪"。

坑 · L1+L2 在 prompt 里又写了一遍

tuner 只该写 L3。但有人怕模型不听,把 character_card 的外观、style_card 的色调全部 copy 进 prompt,结果 200 字的 i2v 被塞了 500 字,长 prompt 后段遵循率掉到 50% 以下。L1+L2 由 prompt_assemble.py 自动注入,tuner 严格只补 L3。

坑 · 一镜堆 5 个动作

"他走过来,转身,抬手敬礼,露出微笑,然后看向远方"——AI 会选择性执行 1-2 个,剩下的全静止或乱动。一镜一动作铁律,多动作必须拆镜。镜数加 1 比抽卡重抽 5 次便宜得多。

段四 · 抽卡生产 出素材

目标:把 prompt → 实际视频片段。这一段是 CU 消耗大头,也是最容易翻车的环节。

环节具体动作工具/模板产出物
输入production-order.md + 首帧图 + manifest.engine_id
4.1 早筛三关人工 10 秒过:首帧是否符合预期 / 资产卡是否一致 / 机位是否完整references/flow/fast-fail.md通过/否决标记
4.2 Fast-Fail 自检六维度+prop_identity 自动评分,<80% 禁进抽卡scripts/fast_fail_check.pyfast_fail_report.json
4.3 identity_match跨镜身份一致性对比(vs 角色 anchor)scripts/identity_match.pyidentity_match.json
4.4 batch 抽卡静态镜 2 takes / 动态镜 3 takes / 高难度镜 4-6 takesqianwen-video-generation skill
scripts/hh_utils.py
runs/<shot>/<seed>/*.mp4
4.5 batch_qc 热力图N×5 维度热力图 + REPORT.mdscripts/batch_first_frame_qc.pyqc_grid.png + REPORT.md
4.6 候选片选优P0+P1 评估,≥4.5 分进选片池scripts/candidate_select.py
references/flow/candidate-selection.md
footage-index.md
4.7 赛马(可选)项目级多引擎横评 12+1 维评分卡references/flow/horse-race-scorecard.mdscorecard.jsonl
验收门每镜至少一条 P0 选片 + 跨镜 identity ≥4.0 + 段四 4.5 P0+P1缺镜禁进段五
工时单镜 5-15 分钟(含等待)/ 15 镜整批 4-8 小时 / 30 镜整批 1-2 天
甜区 · 三步定位法决定下一抽改哪里

看到崩 case 不要直接改 prompt。先定崩在哪一层(L1/L2/L3)→ 用的什么范式(T2V/I2V/R2V/V2V)→ 这层在该范式下应该被哪个载体焊死,回那个载体去改。L2 动作崩拿 L1 首帧改,改到死也没用。这一条节省 30%+ 抽卡量。

甜区 · 连续 2 轮无提升强制跳出

没有这条人会无限改 prompt。设硬上限:同一镜连续 2 轮(各 2 takes)无明显提升,立刻跳出——换机位/换景别/换范式/拆镜,不在第 7 版还在改同一个词。这是 v7 体系最值钱的"放弃律"。

坑 · 跳过四步门禁直接进段五

"看着差不多就够了,赶紧拼"——风信子项目原话。结果 17/25 镜段五才发现身份漂移,回段三全部重抽。早筛三关(10s 人工)→ fast_fail(自动 5 维)→ identity_match(≥80%)→ batch_qc(N×5 热力图),任何一步不达标禁进段五,这是硬纪律不是建议。

坑 · 不锁 seed 没法做对比

探索期可以随机 seed,但找到一条好结果立刻锁 seed 写进日志。不锁的话明天客户说"这镜再小改一下"——你抽 50 次也复现不了昨天的画面。candidate_select.py 选片时同时记录 seed+prompt 哈希,是复盘必备。

段五 · 剪辑工程 拼成片

目标:把零散素材 → 成片。这一段决定"拼贴感"还是"电影感"。

环节具体动作工具/模板产出物
输入footage-index.md(选优后的素材)+ 旁白文稿 + BGM 简报
5.1 时间线粗剪concat demuxer 硬切拼接,10 秒出粗剪验证叙事scripts/segment_utils.pyrough_cut.mp4
5.2 转场决策Murch 六准则评分 → 选 hardcut / xfade / match cut / 音桥references/flow/transition-design.md转场清单
5.3 音频三轨BGM 25% + 旁白 100% + 环境音 12%;旁白 acompressor / BGM afadescripts/audio_mix.py
scripts/tts_cosyvoice.py
scripts/bgm_synth.py
audio_mix.wav
5.4 xfade 精拼每路 setpts=PTS-STARTPTS 防漂移,offset 计算严格scripts/xfade_assembly.pyfine_cut.mp4
5.5 调色C-COLOR 验收硬约束,LUT 应用scripts/palette_tools.py
references/flow/color-grading.md
graded.mp4
5.6 字幕/Logo 叠加Pillow 渲染(避开 ffmpeg drawtext)→ overlayscripts/subtitle_overlay.pyfinal_with_text.mp4
5.7 发布合规免责卡 / AI 水印 / BGM 署名references/flow/publishing-compliance.mdcompliance_overlay.mp4
验收门Murch 六准则评分 ≥80% + 三轨混音电平合规 + 字幕零错位不通过禁进段六
工时15s 短片 2-4 小时 / 30s 宣传片 1 天 / 复杂叙事片 2-3 天
甜区 · 先粗剪再精修

concat demuxer 硬切 10 秒出粗剪,先验证叙事弧线对不对。叙事不对,xfade 调到天花板也救不回来;叙事对了,硬切都可看。BGM 上来后再回头精修转场——80% 的"生硬感"靠 BGM 解决,不是靠 xfade。

甜区 · 文字一律 Pillow 后期叠

所有 UI 文字、Logo、数字、字幕——一律 Pillow 渲染后 ffmpeg overlay,绝不用 ffmpeg drawtext,更绝不让 AI 生成。Pillow 文字像素级精确、可任意字体、零乱码;drawtext 中文字体配置麻烦+渲染粗糙;AI 生成的文字几乎必乱。这是金融片合规底线。

坑 · xfade 不做 setpts

xfade 多路素材帧率/起始 PTS 不一致时直接拼,画面会跳秒、音画不同步。每路输入先 setpts=PTS-STARTPTS 归零,offset 按累计时长严格计算,否则 30s 片到第 20s 开始漂移。xfade_assembly.py 已封装这套逻辑,别绕过它手搓。

坑 · 旁白被 BGM 盖住

三轨混音直接 amix=normalize=1,会按峰值自动归一化,结果 BGM 高潮段把旁白整段压没。正确做法:normalize=0,旁白前置 acompressor 压缩动态、BGM 用 sidechain 在旁白处自动让位。模板都在 audio_mix.py 里,照搬。

段六 · 验收交付 交客户

目标:成片 → 多版本交付包 + 客户审片通过。

环节具体动作工具/模板产出物
输入final_with_text.mp4 + manifest.delivery_spec
6.1 自动 QC 12 项分辨率/帧率/码率/音频电平/字幕同步/黑边/穿帮…scripts/qc_video.py
references/qc/qc-checklist.md
qc_report.json
6.2 评分卡(12 维)VLM 调用 video_analyze.py 打分,<4 项需复检scripts/video_analyze.py
templates/criteria.md
criteria_scorecard.md
6.3 Murch 审片情绪/叙事/节奏/视线/二维空间/三维空间六维度人工审references/qc/acceptance-delivery.mdmurch_review.md
6.4 多版本适配完整版/精华版/短视频版(9:16)/无声版scripts/multi_version.py
references/qc/multi-version.md
versions/*.mp4
6.5 交付包打包成片 + 源工程 + 资产卡 + 评分报告 + 复盘卡templates/delivery-package.md
templates/master-package.md
delivery.zip
6.6 客户审片提交审片 → 收集反馈 → 决定是否回段三/段五迭代客户书面确认
验收门自动 QC 全绿 + 评分卡均分 ≥4.0 + 客户书面确认不通过禁结项
工时单版本 1-2 小时 / 多版本 3-6 小时 / 含客户反馈轮 1-3 天
甜区 · 客户审片用 P0/P1 分级

不要让客户随便提反馈。给客户一份 12 维评分卡的"已自评结果"+ P0/P1 分级反馈表,让他在 P0=必改、P1=建议改、P2=可选 三档里选。客户会聚焦在叙事/合规这种真问题,而不是"这朵花颜色再红一点"——同样审片,反馈量减半,改片轮次从 3 轮压到 1 轮。

甜区 · 多版本一次性出齐

客户接到成片往往会临时要"再切一个 9:16 抖音版"——临时切=临时返工。段六初次交付就把完整版/精华版/9:16 短视频版/无声版 4 个常用版本一起出,multi_version.py 一键打包,多花 2 小时省后面 3 天。

坑 · 一次性把成片完整版砸给客户

客户拿到完整版第一反应是逐镜挑刺——3 分钟片能挑出 50 个改点,越细越偏离方向。正确节奏:段三 Animatic 卡叙事 → 段五粗剪卡节奏 → 段六成片只对照已确认的两个里程碑做最终签字。三关分批审,比一次砸完节省 60% 沟通成本。

坑 · 不留 24h 反馈窗就硬交

"客户说要明天用,今天交吧"——结果客户当晚提 8 条改动,你熬通宵改完第二天发现客户领导又改方向。合同里写明审片反馈 24h 窗口,超时视为通过。这一条让客户内部对齐先于你动手,否则改片轮次失控。

段七 · 迭代复盘 喂下一个

目标:把项目踩的坑 → 写回 references / MEMORY,让下个项目自动继承。

环节具体动作工具/模板产出物
输入delivery.zip + 客户反馈 + 段四/段五的失败记录
7.1 段级复盘逐段统计:CU 消耗 / 迭代次数 / 失败模式 / 翻车镜references/flow/retro-protocol.md段级数据表
7.2 项目级复盘"当时我以为…直到看清…"叙事 → 根因 → 改进规则templates/retrospective.mdretrospective.md
7.3 经验回写新规则写入 references/flow/* 或 references/proxy/* 或 90-badcase-vault/references/flow/iteration-loop.mdreferences 增量 commit
7.4 模式识别(每 3 项目)跨项目规律 → MEMORY.md(个人)/ 团队 wikimemory toolMEMORY.md 增量
7.5 投后数据闭环(可选)客户投放数据 → 反推哪些设计决策有效data_feedback.md
验收门至少 1 条可写回 references 的规则(否则复盘流于形式)软门 · 自律
工时单项目复盘 2-4 小时 / 每 3 项目模式识别 0.5-1 天
甜区 · 复盘三件套强制产出

不要等"有空再复盘"。段七强制产出三件套:① 数据回写库(CU 实际/计划、迭代次数、翻车镜清单)② 分镜复盘(每镜 1-2 句"做对了什么/做错了什么")③ 模型偏好刷新(哪个引擎在哪类镜头表现)。每个项目固定 2-4 小时,半年后形成的"私人模型偏好库"是西区 SA 团队的真实护城河。

甜区 · 每 3 项目做一次模式识别

单项目复盘只能发现"这个项目的偶然问题",模式只在跨项目里浮现。每完成 3 个项目花半天做一次跨项目对比,把出现 ≥2 次的现象提炼为新规则写进 references/flow 或 references/proxy。这一步把个人经验变成团队资产,新人入职第一天就能继承。

坑 · 只复盘失败镜不复盘成功镜

大家天然只盯着翻车的镜头复盘,结果好实践(哪个 prompt 写法一次过、哪种首帧选型百发百中)就这么流失了。复盘表必须并列两栏:失败模式 + 成功公式,把成功公式抽象成 references/flow/cookbook.md 里的"招式卡"。下个项目能直接套招。

坑 · 复盘不写回就等于没做

很多 SA 复盘写完发到群里说"分享一下"——一周后没人记得。复盘的产物必须落到三个地方之一:references/flow/* 或 references/proxy/* 或 90-badcase-vault/,git commit 留痕。下次启动新项目 AGENTS.md 自动加载这些规则——没写回的复盘对未来等于不存在。

横切关注点(贯穿七段)

模式路由

创作模式(重审美/慢)/ 工程模式(重一致/快)/ 顾问模式(只给方案不下手)。在段一 manifest 锁定,影响七段所有决策密度。

参考:references/flow/mode-routing.md

跨段一致性

六维度(身份/空间/光照/时序/风格/品牌)跨七段持续校验。任何一段引入的变化都必须回查前段是否冲突。

参考:references/proxy/consistency-management.md

预算监控

CU 实时累计 vs manifest.cu_budget。≥80% 触发预警,≥100% 强制回段一调整预算或砍镜。

参考:references/proxy/sampling-economics.md

回退决策

下游发现需改 manifest → 强制回退段一(判则 6),禁下游就地改。最常见回退点:段四发现风格不对 → 改 style_card 重做段二+段三。

参考:references/flow/iteration-loop.md

整体工时基线(按项目复杂度)

项目类型镜数段一段二段三段四段五段六段七合计
极简短片(朋友圈)3-50.5d0.5d0.5d0.5d0.5d0.5d0.5d3-4d
标准宣传片8-151d1d1d1d1d1d0.5d6.5-7d
复杂叙事片20-302d2-3d3-5d2d2-3d1-2d1d13-18d
多角色多场景大片30+3-5d5d+5-7d3-5d3-5d2-3d1d22-31d

基线假设:单人 SA、引擎正常、客户反馈周期 24h 内。任一假设失效(多人协作 / 引擎不稳 / 客户拖审)工时翻倍。

工作流落地三句话:① 每段必须看到上一段的验收门通过再开工——这是最重要的纪律。② 段四发现问题不要原地硬刚——回段三改 prompt / 回段二改 anchor / 回段一改 manifest,选其中之一。③ 别忘了段七——没有段七的项目,下一个项目还会踩同样的坑。

05 用户需要准备什么——输入/配置/素材三层地图

"我接了客户项目,开工前需要找客户要什么?哪些系统自己能搞定?"

第一层 必须客户提供(不可替代)

品牌资产类

内容决策类

合规类

最常被遗漏的:品牌Logo。很多SA做到段五才发现客户还没给Logo,又等一周。开工时就要。

第二层 SA可配置/决策的(系统提供选项,人来选)

manifest核心配置(段一锁定后驱动全片)

配置项默认值什么时候改
画幅比16:9抖音→9:16 / 朋友圈→1:1
分辨率720P高品质→1080P / 大屏→4K
帧率24fps欧洲→25 / 体育游戏→60
风格ID28个baseline选(金融仅C1/F1/H1)
引擎能力匹配+成本+偏好
模式创作/工程/顾问三选一
音频策略纯BGM/旁白主导/环境音/对白/静音
时长15s/30s/60s/自定义
CU预算镜数×单镜成本

一句话:SA核心决策集中在段一——画幅/风格/引擎/模式/预算/时长。选对这7个,后面六段默认值基本够用。

第三层 系统自动生成的(无需外部输入)

音频侧 全自动

  • BGM → Suno AI生成(零成本+定制化)
  • 旁白语音 → CosyVoice v3自动合成
  • 环境音效 → 保留AI原生/AI生成
  • 字幕SRT时间轴 → 从音频自动对齐

视觉侧 大部分自动

  • prompt三层装配 → prompt_assemble.py
  • 首帧参考图组装 → 从资产卡自动抽取
  • 调色 → palette_tools.py生成LUT建议
  • 降噪 → ffmpeg nlmeans自动处理
  • 字体回落 → resolve_font()按平台查找

流程侧 全自动质检

  • Fast-Fail五维 → fast_fail_check.py
  • 跨镜身份 → identity_match.py
  • 批量热力图 → batch_first_frame_qc.py
  • 视频理解评分 → video_analyze.py
  • 格式归一化 → segment_utils.py
  • xfade拼接 → xfade_assembly.py
一句话:音频全自动、视觉大部分自动、质检全自动。SA要做的是"决策"不是"动手"。

开工前找客户要的Checklist(可直接发给客户)

必须提供

  • 一段话说清"给谁看/在哪看/想让他们做什么"
  • Logo文件(PNG透明底,深色+浅色版)
  • 品牌色值(主色+辅色+点缀色hex)
  • 明确红线/禁忌
  • 审批人是谁、审批周期多久

最好能给

  • VI手册或品牌规范PDF
  • 2-3条"我喜欢这种感觉"的参考视频
  • 旁白文稿初稿(草稿也行)
  • 品牌指定字体文件
  • 产品截图/实物照片

06 实战案例:风信子项目

25镜吉卜力风格短片,完整走了七段流程+赛马+四步门禁。

首帧参考图赛马Grid

Phase A 5镜赛马选片——用Contact Sheet一屏决策:

赛马Grid对比
赛马Grid — 5镜×2引擎对比,1分钟完成选片决策(替代20轮对话逐帧比较)

单镜产出展示

从首帧到成片的完整链路——style_card + character_card → prompt_assemble → I2V生成 → 选优:

S19首帧
S19 首帧输入 — I2V chain,继承前镜角色身份
S24首帧
S24 首帧输入 — 远景镜,环境氛围锚定
S06 最终选优 — 角色近景镜(I2V生成)
S12 最终选优 — 场景转换镜(T2V生成)
S01 最终选优 — 开场建立镜(奠定全片基调)

段五产出:引擎赛马对比

同一镜S13——HappyHorse vs Wan2.7,感受"温度感 vs 指令遵循"的取舍:

HH · 表演丰富/温度感强/微表情自然
Wan2.7 · 指令遵循严格/零穿帮/线性叙事

赛马决策树:≥4镜同一引擎胜出→锁定。维度互胜→展示对比报告给用户拍板。用户选择优先于综合分(审美判断 > 0.05分数差距)。

06b 80%的质量差异来自"前AI时代"的功夫

装了skill不等于能出好片——同引擎同模型同预算下,成片差异来自镜头语言、节奏感、视觉一致性。

投入优先级(可能反直觉)

投入项权重说明
看片40%电影语言一百年不变
拉片+镜头语言25%景别/角度/运镜/节奏
美术基础15%色彩/构图/光影
AI工具熟练度15%工具半年一换
追工具新闻5%ROI最低

达不到时有代偿手段:先排剪辑表再抽卡(代偿节奏感)、先剪音轨脊再挂画面(代偿音画感)、用Murch六准则打分表强制量化(代偿取舍力)。

07 金融行业专项——西区SA团队主战场

14 人团队 80% 客户都是金融机构。金融行业有独特的合规约束、表达范式、审批节奏,单独成章。tuner 的 references/70-domain-financial.md 是完整 SSOT,本节是销售/项目层的提要。

合规硬约束(一票否决,违反即下架)

红线 · 数字与百分比

禁止 AI 生成具体收益率/利率/费率数字(如"年化 4.5%")。任何数字必须客户法务文案过审后、用 Pillow 后期叠加。

实战教训:某项目 AI 生成"年化 5.8%",客户法务发现后整片重做。

红线 · 业绩承诺

禁止"保本""稳赚""高收益""稳健增长"等承诺式表达。slogan 必须提前法务审。

红线 · 监管/牌照表达

禁止 AI 生成监管标志、牌照号、机构代码。Logo/牌照号全部 Pillow 后期叠加,源文件由客户提供。

红线 · 人脸与族裔

金融宣传严控人脸(怕被举报"AI 换脸诈骗")。优先:中远景人物 / 背面 / 局部(手/侧脸)/ 概念化形象(LED 头像/抽象造型)替代清晰特写。

红线 · 内容真实性

AI 视频必须标注 AI 水印(隐藏/片尾/全程三选一,看客户合规要求)。涉及金融机构的"真实场景"不可 AI 编造,必须实拍或客户授权素材。

风格与视觉范式

style_id 严格三选一

风格 ID调性适用场景禁用场景
C1 商务写实深空蓝 #0A1628 / 区域线 #1677FF / 金融科技橙 #F77834对公业务/IPO 路演/科技形象零售场景
F1 莫兰迪低饱和区域 #5C7A99 / 行业 #A87C5A / 米白底 #F5F4F0财富管理/私行/高净值/家办互联网金融/年轻化
H1 高对比商务深底+霓虹强调色,电影感科技创新/数字化转型/未来感传统业务/老年客群

禁用:吉卜力/赛博朋克/水墨/卡通/写意——金融客户对调性敏感度极高,跨界尝试基本被否。

抽象金融概念的视觉隐喻

抽象概念错误做法正确视觉隐喻
复利增长"显示复利增长"树木从幼苗到大树的延时镜头
资产配置"展示资产配置"调色师调色板的色块平衡 / 园艺师修剪不同植物
风险对冲"展示对冲"跷跷板平衡 / 双锚船只稳定
跨境支付"展示跨境"不同币种实物(人民币/美元/基普/泰铢)流转动画 / 港口集装箱装卸
财富传承"展示传承"三代人围坐 / 钥匙交接 / 老物件→新物件转场
普惠金融"展示普惠"多元客群剪影(茶农/小店主/外卖员/退休教师)
数字化转型"展示数字化"实体业务流程逐步替换为屏幕界面/光线流动

铁律:金融概念翻译为可见的实物动作,不要给 AI"概念词"——它不会画"复利"。

客户审批节奏适配

客户类型审批层级审批周期SA 应对
国有大行3-5 层(业务部门→品宣→合规→分管行长)2-4 周段一就要 brief 全审一遍,避免段六返工
股份制银行2-3 层1-2 周段三 Animatic 时再审一次
城商行/农商行1-2 层3-7 天正常七段流程
互联网金融/Fintech1 层(业务/品牌总监)1-3 天可快速迭代
券商/基金2-3 层(含投教/合规)1-2 周合规约束更严,slogan/数字提前法务
保险/资管3-4 层2-3 周禁忌词清单提前要

关键纪律:金融项目工时按基线 × 1.5 报,因为审批排队不算工时但占周期。

金融客户开工 Checklist(必问)

必须先要

  • 禁忌词清单(行内+行业+监管三层)
  • VI 手册(含规范字体/Logo/色值)
  • 历史宣传片 2-3 条(确认调性参照)
  • 法务审批人 + 节奏(决定项目排期)
  • AI 标注政策(隐藏 / 片尾 / 全程水印)

最好能问

  • 同行近期成片参考(避免撞款)
  • 客户群体画像(决定人物呈现策略)
  • 分发渠道(决定画幅 + 时长)
  • 是否有真实场景实拍素材可用
  • 未来 6 个月是否有系列化需求(决定资产卡复用)
金融项目铁三角:合规先行 + 调性保守 + 数字后期。任何一项松动都可能项目作废。
宁可前期多花 3 天和法务沟通,不要后期重做 7 天。

08 成本测算与团队分工

销售对客户、对内对老板都要算账。这一节给标准化的报价口径和 14 人团队的分工模板。

CU 消耗速算表(按引擎 × 复杂度)

引擎单镜成本典型 takes/镜5 镜短片15 镜宣传片30 镜叙事片
wan2.7-image(首帧)2 CU/张3-530-50 CU90-150 CU180-300 CU
wan2.7-video(I2V)~25 CU/8s2-3250-375 CU750-1125 CU1500-2250 CU
HappyHorse(I2V)36 CU/段2-3 静态
3-6 动态
360-540 CU1080-1620 CU2160-3240 CU
VLM 视频评分~3 CU/次1-215-30 CU45-90 CU90-180 CU
TTS(CosyVoice)~0.5 CU/秒15s ≈ 8 CU30s ≈ 15 CU60s ≈ 30 CU
总预算建议400-600 CU1200-1800 CU2500-3800 CU

已含 20% 冗余应对返工。复杂叙事片建议 +30% 冗余。赛马项目(多引擎并跑)翻倍。

vs 传统外包 ROI 对比

方案30s 宣传片成本周期修改成本系列化复用
传统外包(4A 公司)30-100万1-3 个月单次 5-15万低(每次重做)
独立工作室5-20万3-6 周单次 1-3万
实拍 + AI 后期10-30万2-4 周中等
本方案纯 AICU 成本 + 1 人 1 周工时3-7 天极低(改 prompt 即可)高(资产卡复用)

真正杀手锏在系列化:客户做完第一支 30s 宣传片,第二支同系列只需复用 60%-80% 资产卡,成本降至 1/3。这是对客户的最强卖点。

14 人团队分工模板(建议)

角色人数主要职责能力要求
项目 SA(PM)3-4段一 brief 转译 / 段六客户审片 / 全程客户对接客户沟通 + 行业理解 + manifest 字段熟
资产工程师2-3段二资产卡 / 角色场景风格库 / brand_profile 维护美术基础 + tuner 维度熟 + 跨项目复用思维
创作导演2-3段三叙事策略 / 分镜表 / 情绪→机位映射电影语言 + 拉片量大 + 节奏感
生产工程师3-4段四抽卡批量 / Fast-Fail 自动化 / 选优归档命令行熟 + 调度耐心 + ffmpeg 基础
后期工程师2-3段五剪辑/调色/混音/字幕 / 多版本适配剪辑节奏 + 音频混音 + Pillow 渲染
质检与复盘1-2(兼)段六 Murch 审片 / 段七复盘回写 / references 维护批判性思维 + 写作能力 + 跨项目模式识别

小项目(<10 镜)可以 1 人全栈 4-7 天搞定,不需要分工。中大项目(≥15 镜)建议分工,能并行节省 30-50% 时间。

客户报价话术(参考)

话术 · 标准 30s 宣传片

"周期 5-7 天交付,含创意/分镜/制作/调色/字幕/三版适配(横版/竖版/方版)。修改 2 轮内免费。同系列第二支 3-5 天交付,成本降至 1/3。"

用周期+复用打动客户,不要直接报 CU 数字(客户不懂)。

话术 · 客户问"AI 做出来会不会很假"

"我们用三层一致性锁定(资产卡 + 首帧参考 + 跨镜身份匹配)+ 12 维 Murch 审片,避免 AI 拼贴感。可以先看我们做过的金融项目样片再决定。"

用方法论 + 样片证明,不要硬辩。

话术 · 客户问"为什么比外包便宜这么多"

"AI 减少了 80% 的实拍成本(场地/灯光/演员/设备)和 60% 的后期成本(剪辑/调色/特效)。我们卖的是创意+流程管理+合规审查,不是体力。"

09 常见反模式合集——一页带走

前面分散在各章的坑统一收口。培训完打印这一页贴在工位上。

流程类反模式

坑 #1 · 跳段开工

"我已经有 prompt 了,直接从段四开始吧"——最常见。结果段六交付时无基线可回,客户问改哪就懵。

解药:跳段可以,但必须补最小骨架(manifest 至少 Tier1 11 项 + 角色卡视觉 anchor)再进新段。

坑 #2 · 验收门跳过

"段三 Animatic 还没做完,但客户催就先去段四了"——结果段四发现叙事不对,全片白做。

解药:验收门是硬纪律,任何理由都不跳。客户催 → 解释验收门是为了少返工。

坑 #3 · 段四原地硬刚

"prompt 改了第 7 版还不对"——根本不在 prompt,在首帧/资产卡/manifest。继续改 prompt 等于在错的方向上加速跑。

解药:连续 3 版同问题没解决 → 强制回退(改 prompt → 改首帧 → 改资产卡 → 改 manifest)。

坑 #4 · 复盘流水账

段七只写"这次项目用了 1500 CU,做了 5 天"——这不是复盘,是日志。

解药:复盘必须有 ≥1 条可写回 references 的规则,否则不算完成。

prompt 写法反模式

坑 #5 · 比喻泛滥

"如诗如画的晨雾""梦幻般的色彩""沉浸式氛围"——AI 完全不理解。

解药:翻译为可见的 "white translucent fog at 1.5m height, visibility 30m"。

坑 #6 · 审美词污染

"高级感""质感""氛围感""调性"——这些都是结果不是手段。

解药:拆解为光影色调动作。"高级感"="冷色调+低饱和+大留白+慢运动",写后者。

坑 #7 · meta 指令

"两人比例正常""构图要平衡""画面干净""避免穿帮"——模型不执行这种约束。

解药:从描述结构控制——声明空间分层、给具体尺寸距离、用 negative 排除。

坑 #8 · 不确定词

"might""seems""maybe""could be""should feel"——遵从率比命令式低 40-60%。

解药:全部改命令式。"He might walk" → "He walks forward at slow pace"。

坑 #9 · 设备词位置错

"shot on ARRI Alexa LF" 混入 L3 叙事段落 → 画面底部出现相机型号字样。

解药:设备词必须 L2 层开头独立成块声明。

坑 #10 · film grain 被渲染为数字噪点

引擎理解为"加颗粒状噪声"不是胶片美学。

解药:写 "ultra-clean sensor, no visible noise",后期 nlmeans+unsharp 补颗粒感。

资产/一致性反模式

坑 #11 · style_anchor 选含角色的剧照

实测教训:参考图里一个红蝴蝶结,全片滑翔翼变伞形。

解药:style_anchor 只能用纯风景/无主角的帧。

坑 #12 · 资产卡缺视觉 anchor

角色卡只写文字描述("30 岁中国男性"),不挂参考图 → 每镜角色脸完全不一样。

解药:character_card 必须含 visual_anchor 字段,挂 1-3 张参考图。

坑 #13 · 跨镜不复用 seed

每镜都随机 seed → 好效果复现不了,连续镜风格漂移。

解药:探索期随机 → 选定后固定 seed → 同角色跨镜复用同 seed。

评估/选片反模式

坑 #14 · VLM 评分通胀

thinking 模式 VLM 极度宽松——14/14 镜全打满分,"animation style 所以物理放宽"成为逃生通道。

解药:逐条 check-off "prompt 说了 X → 视频是否兑现 X",禁止逃生通道;qwen3.6-plus 视频评分通胀严重,中度问题仍给 3-4 分,须人工复检。

坑 #15 · 抽 2 帧评分

偷懒只抽首尾两帧 → 中间崩没看出来 / anchor-ref 泄漏。

解药:逐帧审视,至少每秒 1 帧。section 字段须 literal heading 防泄漏。

坑 #16 · 用 Grid 拼图代替原片

给客户/上级审片时用 contact sheet 拼图 → 看不出节奏感和动作流畅度。

解药:审片必须给原片 mp4,contact sheet 只用于内部赛马快速选片。

工程/部署反模式

坑 #17 · 跨平台 import 漏 setup_stdout

Windows cp936 终端跑脚本 → emoji/中文崩。

解药:所有 __main__ 入口前置 setup_stdout(),库内用 safe_print()。

坑 #18 · API Key 跨 workspace 丢失

跨项目跑脚本,DASHSCOPE_API_KEY 没读到,FAILED 返回。

解药:~/.qoderwork/config/happyhorse.json 作为兜底;新 workspace 须 cp .env。

坑 #19 · ffmpeg drawtext 在 mac 上失败

macOS 默认 ffmpeg 没编 libfreetype → drawtext 静默失败。

解药:所有字幕/Logo 用 Pillow 渲染 PNG 后 overlay,不依赖 drawtext。

坑 #20 · media[] 嵌套 dict 的 url 不触发自动上传

I2V 首帧/音频 url 写进 media[].url → FAILED。

解药:first_frame_url / driving_audio_url 必须放顶层字段。

10 常见 Q&A——培训现场必问

14 人团队、不同水平、不同关注点的 SA 提的高频问题。培训前先看一遍,省得现场卡壳。

客户层 Q&A

Q1 · 客户中途改需求怎么办?

看改在哪一段:

▸ 改 brief(业务目标/受众)→ 回段一重做 manifest 全片重来 → 谈追加费用
▸ 改风格/品牌色 → 改 style_card → 段二+段三重做
▸ 改具体某镜内容 → 改 storyboard 该镜 → 重抽该镜
▸ 改字幕/Logo → 直接重渲染段五

关键:合同里写明"修改 2 轮内免费,超出按 X CU/工时 计费"。

Q2 · 客户问"为什么 AI 视频还需要这么久"?

解释三件事:① 创意时间 ≠ 渲染时间(实拍也要剧本/分镜/演员);② 一致性锁定需要资产工程不是即兴;③ 法务合规审批占大头(金融客户)。给真实工时拆分表,让客户看到大头不在 AI 算力上。

Q3 · 客户问"AI 会不会被替代/会不会被竞品抄"?

① 模型半年一换,但创意+资产+流程管理是壁垒;② 资产卡是定制 IP,不会被复用;③ 同行用同样的工具≠能做出同样的作品(80% 质量差异来自前 AI 时代功夫)。

Q4 · 客户要赠送源工程/资产卡怎么办?

合同里区分:成片归客户 + 资产卡可授权使用(限本项目)+ skill 流程方法论保留所有权。复用费另算。

能力层 Q&A

Q5 · 我没设计基础,能学会吗?

能。但要补两件事:① 看片量(每月 5-10 部电影/广告片专门拉镜头);② 跟设计同事配对——他出风格判断,你出工程执行。三个月能上手。

Q6 · prompt 是 AI 写还是人写?

分层:L1+L2 由 prompt_assemble.py 从资产卡自动注入;L3(本镜画面内容)由人写,调用 tuner 优化。即"骨架自动,画面手写"。

Q7 · 跟用 Midjourney+Premiere 比有什么优势?

① 端到端流程化,不需要切多个工具;② 资产卡+一致性锁定是 MJ+PR 没有的;③ 引擎无关,今天用 wan2.7,明天换 HappyHorse 不用重做流程;④ 复用率高(同系列项目复用 60%-80%)。

Q8 · 能不能脱离 skill 自己写 prompt?

能,但代价是踩坑率高+无法跨项目复用。skill 不是写词工具,是流程管理框架——单 prompt 偶尔好运可以脱离,做 ≥3 镜的项目几乎不可能脱离。

Q9 · 我做的视频质量上不去怎么办?

诊断顺序:① 看是否过了四步门禁(早筛/Fast-Fail/identity_match/batch_qc);② 看 style_card 是否填满六维度;③ 看是否复用 seed;④ 看是否做了 Animatic 验收;⑤ 看是否懂段七复盘。前 4 步都没做就别问质量。

工具层 Q&A

Q10 · 引擎怎么选?HappyHorse vs wan2.7 vs Kling?

① 温度感/表演丰富 → HappyHorse;② 指令遵循严/叙事连贯/零穿帮 → wan2.7;③ Character ID 锁定 → Kling;④ 不确定 → 段四前 5 镜赛马,用户拍板。

Q11 · 跑崩了找谁?

① 报错信息+REPRO 步骤 → 团队群(先 grep references/ 有没有同类 badcase);② API 返回异常 → 看是否 API Key 过期/超限;③ 跨镜身份漂移 → 看是否 seed 复用+I2V chain;④ 验证不通过 → 跑 check_env.py 排环境。

Q12 · skill 更新了怎么办?

① 看 CHANGELOG.md 顶部 entry 描述影响范围;② 跑 check_env.py 确认环境兼容;③ 进行中项目锁 SKILL.md 版本(pin),新项目用新版;④ 跨 skill 更新(如 tuner+assembly 双更)须看 _meta/contract.md。

Q13 · 没装 dashscope SDK 能跑吗?

不能跑视频生成。但可以跑 prompt 写作(tuner 是纯方法论 skill,不依赖 API)+ 资产工程(assembly 段一段二段三大部分功能)。第一周学员可以先不装 dashscope 学方法论。

Q14 · 跨平台问题(Windows/Linux 同事报错)?

① 字体:resolve_font() 已做五档回落,应该自动找到;② ffmpeg:装 gyan.dev 完整版 + 加 PATH;③ 终端编码:脚本入口都加了 setup_stdout();④ 兜底:跑 check_env.py 看哪一项 FAIL。

团队层 Q&A

Q15 · 团队是单人全栈还是分工?

小项目(<10 镜)单人 4-7 天搞定,不需要分工。中大项目(≥15 镜)分工节省 30-50% 时间。建议见第 08 章团队分工模板。

Q16 · 怎么沉淀经验给新人?

① 每项目段七复盘必出 ≥1 条 references 增量;② 团队 wiki 维护 badcase-vault;③ 每月 1 次跨项目模式识别会;④ 新人前 4 周 shadow 老人做 1 个完整项目。

11 安装上手与学习路径

从零到能独立交付第一支客户项目,分四周走。

第一步 · 环境安装(30 分钟)

1.1 解压 skill 包

# 下载 ai-video-skills.zip 后
unzip ai-video-skills.zip -d ~/Downloads/
mkdir -p ~/.qoderwork/skills/
cp -r ~/Downloads/ai-video-skills/ai-video-assembly ~/.qoderwork/skills/
cp -r ~/Downloads/ai-video-skills/video-prompt-tuner ~/.qoderwork/skills/
cp -r ~/Downloads/ai-video-skills/qianwen-image-generation ~/.qoderwork/skills/
cp -r ~/Downloads/ai-video-skills/qianwen-video-generation ~/.qoderwork/skills/

1.2 装系统依赖

# macOS
brew install ffmpeg python@3.11
pip3 install pillow requests numpy dashscope pyyaml

# Linux
sudo apt-get install ffmpeg python3-pip fonts-noto-cjk
pip3 install pillow requests numpy dashscope pyyaml

# Windows
# 1. 装 Python 3.9+ from python.org
# 2. 装 ffmpeg from gyan.dev (完整版,加入 PATH)
# 3. pip install pillow requests numpy dashscope pyyaml

1.3 配 API Key

# 方式 A:环境变量(推荐)
echo 'export DASHSCOPE_API_KEY="<YOUR-DASHSCOPE-KEY>"' >> ~/.zshrc
source ~/.zshrc

# 方式 B:兜底配置文件
mkdir -p ~/.qoderwork/config/
echo '{"DASHSCOPE_API_KEY":"<YOUR-DASHSCOPE-KEY>"}' > ~/.qoderwork/config/happyhorse.json

API Key 申请:阿里云 DashScope 控制台 → API-KEY → 创建。

1.4 跑环境检查

python3 ~/Downloads/ai-video-skills/check_env.py

脚本会检查 7 项:Python 版本 / 4 个 skill 目录 / ffmpeg + 滤镜 / Python 包 / API Key / 中文字体 / workspace 权限。看到 ✅ ALL OK 即可。失败项跑 --fix 看修复建议。

第二步 · 学习路径(4 周计划)

阶段时间任务产出
Week 1 · 方法论5 天 × 2h读 SKILL.md(assembly + tuner)+ 看本培训页 + 看团队历史项目复盘能讲清楚七段流程和四条信念
Week 2 · 最小项目5 天 × 4h跑 15s 单镜短片:无人物、无对话、单一场景(如"晨雾中的茶园")第一支成片 + 段七复盘
Week 3 · 标准项目5 天 × 6h跑 30s 3-5 镜短片:单角色、单场景、含旁白第二支成片 + 资产卡复用
Week 4 · 客户项目5-10 天shadow 老人做一个真实客户项目,承担段二+段三能独立承接小型客户项目

"出师"标准:能独立完成 15 镜以内项目的段一-段五,段六需 senior 复审。

第三步 · 按角色分支学习

SA / PM 路径

重点:段一 brief 转写 + manifest 27 字段 + 客户审片话术 + 金融合规
核心文档:project-preparation.md / ai_friendliness.md / 70-domain-financial.md

创作导演路径

重点:段三叙事策略 + 情绪→机位映射 + 拉片练习
核心文档:single-shot-creation.md / emotion-to-camera.md / 01-camera.md

生产工程师路径

重点:段四批量抽卡 + Fast-Fail 自动化 + 跨平台脚本 + 引擎卡
核心文档:shot-production.md / fast-fail.md / 30-engine-cards/*

后期工程师路径

重点:段五剪辑工程 + ffmpeg + Pillow 渲染 + 音频混音
核心文档:editing-engineering.md / transition-design.md / color-grading.md

第四步 · 卡住时查哪里

症状查这里
不知道下一步干什么本页 04 完整工作流 → 找当前段的环节表
段一 manifest 不会填templates/project-meta.md + references/flow/project-preparation.md
段二资产卡不会写references/flow/asset-engineering.md + asset-parameterization.md
段三 prompt 不会写video-prompt-tuner/SKILL.md §3.1-3.10
段四抽卡崩了references/flow/shot-production.md + references/90-badcase-vault/INDEX.md
段五拼接出错references/flow/editing-engineering.md + scripts/xfade_assembly.py --help
VLM 评分通胀本页 09 反模式 #14
跨平台报错references/README-cross-platform.md
金融合规问题本页 07 金融专项 + tuner/references/70-domain-financial.md
引擎选型本页 Q10 + tuner/references/30-engine-cards/
客户报价本页 08 成本测算

第五步 · 客户项目建议

第一个客户项目

选 15-30s、单角色、单场景的简单项目。客户最好是熟客户能容忍迭代。预算控制在 1500 CU 内。

金融客户特别注意

style_id 只用 C1/F1/H1。合规文档先要。所有数字/Logo 全后期 Pillow 叠加。审批周期按基线×1.5 报。

系列化客户

开工前明确是否系列化。如果是,资产卡按系列复用设计,第一支成本高、后续 1/3 成本。报价同步打折。

不能接的项目

精细手部动作 / 中文 Logo 像素还原 / UI 界面数字图表 / 真人特写跨镜身份锁。提前告知客户"AI 现在做不了",给替代方案。

一句话记住整场培训:资产是地基,契约是墙,低成本验证是脚手架,复盘是给下一栋楼的图纸。
不要用"写prompt→出视频→改prompt"的单循环。用七段流水线+段间契约+四步门禁+段七复盘,让每一步都在"已验证的基础上"往前走。

12 技能完整结构与功能说明

两个 skill 的目录、脚本、引用文件一览。理解结构才能在卡住时快速找到对应文档。

ai-video-assembly v7.8.5

端到端AI视频制作与迭代优化。管"全片怎么编排"——从客户一句话需求到投后数据回流的完整闭环。

顶层文件

文件功能
SKILL.md主文档 — 七段流程 + 三层金字塔 + 契约定义 + Pitfalls + Verification
CHANGELOG.md版本变更日志(v7.0→v7.8.5 全记录)
models.json项目选型 SSOT — 模型ID映射 + 引擎卡交叉引用

references/flow/ — 全流程方法论(29份)

文件所属段功能
project-preparation.md段一manifest 27字段三梯队起草 + AI友好度评估 + 品牌学习
topic_matrix.md段一选题矩阵
ai_friendliness.md段一AI友好度评估6维度(红→绿规避策略)
director-literacy.md段一导演素养(创作模式必读)
asset-engineering.md段二资产工程详写 — 13子段 + 继承机制 + 一致性七档
world-building.md段二世界观三层(基础设定/氛围画质/画面内容)
asset-naming.md段二资产命名规范 {地点}_{景别}_{时间}_{状态}
asset-parameterization.md段二资产参数化(character_card/scene_card/style_card)
brand_profile_example.md段二品牌档案示例
cross-project-reuse.md段二跨项目资产复用
single-shot-creation.md段三单镜创作详写 — 7子段 + 首帧多图参考铁律
emotion-to-camera.md段三情绪→机位映射表 + per-shot baseline override
shot-design.md段三分镜四维度(景别/构图/运镜/画面内容)
multi-shot-prompt.md段三多镜prompt编排(Mx-Shell双层)
prompt-handoff.md段三prompt交接规范(assembly→tuner)
storyboard-as-edit-blueprint.md段三分镜表作为剪辑蓝图
shot-production.md段四抽卡生产详写 — 成本档位 + Fast-Fail + P0/P1选优
canvas-workspace.md段四画布工作流(小云雀风格)
fast-fail.md段四首帧Fast-Fail检查
candidate-selection.md段四候选片选优策略
animatic-preview.md段四动态预览(粗剪预览门)
horse-race-scorecard.md段四赛马评分卡 — 12+1维 + 决策树 + scorecard.jsonl
editing-engineering.md段五剪辑工程详写 — 5.1~5.7七子段
transition-design.md段五转场设计方法论 — Murch六准则 + Match Cut六维度
color-grading.md段五调色(C-COLOR验收硬约束)
post-compositing.md段五后期合成(变速/黑边/光效/抠像/字幕)
publishing-compliance.md段五发布合规(免责卡/AI水印/BGM署名)
retrospective.md段七迭代复盘详写 — 7.1~7.7七子段
iteration-loop.md段七双层迭代循环 + verify gate
retro-protocol.md段七段级+项目级双层复盘
mode-routing.md横切层创作/工程/顾问三模式路由

references/proxy/ — 双源代理(12份)

与 video-prompt-tuner/references/ 同主题。本侧承接"项目流程层"。

文件功能
audio-strategy.md音频策略 — 消费 manifest.audio_policy
bgm-generation.mdBGM生成方法论 — AI音乐决策树 + Suno提示词六要素
camera-language.md镜头语言基线 — 消费 manifest.camera_baseline
style-vocabulary.md风格词汇 — 消费 manifest.style_id + color_mood
style-library.md风格库 — 28风格基线 A1-H9
style-consistency-checklist.md风格一致性检查
consistency-management.md跨段一致性6维度
spatial-consistency.md空间一致性(太阳/旗杆/镜像翻转)
sampling-economics.md抽卡经济学 — 消费 manifest.cu_budget
engine-routing.md引擎路由 — 消费 manifest.engine_id/fallback
ai-assisted-action-prompt.mdAI辅助动作prompt(武戏双层)
writing_guide.md写作风格指南

references/qc/ — 质量控制(4份)

文件功能
acceptance-delivery.md段六验收交付详写 — 自动QC 12项 + Murch六准则
qc-checklist.md自动QC 12项清单
multi-version.md多版本适配(完整版/精华版/短视频版/无声版)
production-optimization.md生产流程优化手册(Disconnect项目复盘沉淀)

templates/ — 交付物模板(16份)

文件用途所属段
topic_confirm.md选题确认书段一
project-meta.md项目元数据(manifest 27字段)段一
brief.md项目简报段一
character_card.md角色卡(外观/造型/视觉anchor)段二
scene_card.md场景卡(空间/光照/氛围)段二
style_card.md风格卡(SSOT六维度)段二
props_card.md道具卡段二
asset-package.md资产包清单段二
storyboard.md分镜表段三
production-order.md生产工单(逐镜指令)段三→四
bgm-brief.mdBGM创作简报段五
criteria.md评价标准(12维评分卡)段六
footage-index.md素材索引(选优记录)段四→六
delivery-package.md交付包段六
master-package.md最终交付清单段六
retrospective.md复盘报告模板段七

scripts/ — 自动化脚本(16份)

脚本功能调用时机
prompt_assemble.py自动装配prompt(L1+L2注入+L3组装)段三→段四
batch_first_frame_qc.py批量首帧质检(N×5热力图)段四
fast_fail_check.py快速失败检查(六维+prop_identity)段四
identity_match.py跨镜身份一致性验证段四
candidate_select.py候选片P0/P1排序选优段四
video_analyze.py视频理解分析(VLM调用)段四/六/七
xfade_assembly.pyxfade转场拼接段五
audio_mix.py三轨混音(环境+旁白+BGM)段五
bgm_synth.pyBGM生成调用段五
tts_cosyvoice.pyCosyVoice TTS生成段五
subtitle_overlay.py字幕/文字叠加(Pillow渲染)段五
palette_tools.py调色板工具段五
segment_utils.py片段归一化工具段五
animatic.py动态预览/粗剪生成段四→五
qc_video.py自动QC 12项检查段六
multi_version.py多版本裁切适配段六
hh_utils.pyHappyHorse API封装(重试+超时)段四
asset_extract.py资产自动提取段二

scripts/_platform/ — 跨平台抽象层

收敛 macOS/Windows/Linux 四大坑(PEP604兼容/字面量复检/safe_print/resolve_font回落)

模块功能
_ffmpeg_bin.pyffmpeg/ffprobe 路径自动探测
_fonts.py字体解析五档回落(resolve_font)
_io_utils.pysafe_print + setup_stdout(UTF-8安全输出)
_paths.py临时文件 + 路径规范化

video-prompt-tuner v5.9.2

AI视频提示词跨范式调优专家。管"单镜prompt怎么写好"——三层指令×四范式×十维脚手架。引擎无关、平台无关。

顶层文件

文件功能
SKILL.md主文档 — §0~§6 全覆盖(网关/工程约束/总纲/范式/维度脚手架/一致性/引擎适配/体检)

references/ 主索引(17份核心文档)

文件对应章节功能
00-instruction-following.md§1 总纲三层指令×四范式深化 + 失败定位决策树
01-camera.md§3.1 机位四层语言 + 情绪反查表 + 各平台落点
02-spatial.md§3.2 空间分层脚手架 + 锚物 + 巨人俯身案
03-lighting-and-style.md§3.3 光照四要素 + 跨镜光照圣经 + 氛围光色配方表
04-action.md§3.4 动作状态转换 + 单动作律 + 幅度分级
05-sampling.md§3.5 抽卡探索→锁定 + 早筛三关 + ELECT + 成本权衡
06-multiview.md§3.6 多视角角色表覆盖度反查 + 各平台ID语法
07-character-depiction.md§3.7 人物刻画年龄真实感谱系 + 职业群体 + 国别准确性
08-performance-engineering.md§3.8 表演工程情绪时间隔离 + 视线锁定 + 微动作串联
09-audio.md§3.9 音频音频策略决策树 + TTS/BGM/环境音三轨
10-consistency.md§4 一致性六种一致性谱系 + 品牌资产 + 年代服化道
11-prompt-syntax.md§3.10 句法句法结构 + 分隔符约定 + 负向词格式
20-vbench-checklist.md§6 体检VBench 21维详表 ↔ prompt手段双向映射
21-remedy-routing.md§6 复盘扣分维度→轻/中/重修复梯度→回tuner §路由
22-output-checklist.md§7 出稿自检清单 + 输出格式模板 + 反模式表
25-integration-interface.md§9 集成调用契约 — 入参YAML / 出参指针 / 错误路由
50-capability-map.md§1.5 能力确定不行 / 部分能行 / 已知难题完整表
60-engineering-rules.md§0.5 工程注意力经济学 + 模块化 + 审美词转译

references/30-engine-cards/ — 引擎能力卡(7张)

每张卡固定字段:身份/范式支持/prompt长度上限/L1-L3强弱/音频支持/特殊语法/关键参数/价格。

引擎卡覆盖引擎范式
wan2.7-image.md万相2.7 图片T2I + 多图参考I2I
wan2.7-video.md万相2.7 视频T2V / I2V(含首尾帧)
happyhorse.mdHappyHorse 1.0T2V / I2V / R2V / V2V
seedance-2.0.mdSeedance 2.0多模态多镜头一段式
kling-3.0.md可灵 3.0T2V / I2V / R2V (Character ID)
runway.mdRunway Gen-XT2V / I2V
veo.mdVeo / Veo 2T2V

references/40-rewrite-cases/ — 改写案例(7份)

整段prompt前后改写样本,颗粒度=一整段prompt。

案例范式场景核心问题
case-01R2V 多角色车内对话短剧600+字超长 / 毫米级精度
case-02I2V产品广告重复约束 / 静态描述堆叠
case-03T2V打斗动作一镜多动作 / 武术术语堆叠
case-04I2V徒步遮罩转场转场术语vs镜头描述混排
case-05R2V 多分镜古装历史剧多分镜空间锚不清
case-06V2V风格迁移只描delta / 风格污染防护
case-07I2V / T2V数字人口播跨句一致 / 口型降级 / 半身固定

references/70-domain-* — 领域语境层

文件功能
70-domain-financial.md金融行业:合规硬约束(一票否决)+ 抽象概念视觉隐喻 + 全球化地理符号

references/90-badcase-vault/ — 失败模式案例库

颗粒度=一个崩点,薄卡片(<200字),六字段固定结构。当前收录 17张 失败卡。

编号范围主题
001-014身份漂移 / 解剖崩塌 / 色彩交换 / 道具消失 / 面部先验 / 姿态失控 / 风格压人
020-021翻身方向随机 / 情绪不匹配
030-033长prompt尾部失效 / 比喻失败 / 元指令失败 / 近距离陷阱
040V2V人脸破碎
050-055金融合规 / 国籍泛化 / 地理错误 / 产品外观漂移 / 品牌色偏 / anchor跨句跳

archive/ — 历史版本快照

保留 v3-snapshot-20260604 完整快照(含 evals.json / evolution.json / manifest.json / 旧references),供溯源和对照。日常使用无需关注。

2-Skill 生态协同总览

┌─────────────────────────────────────────────────────────────────────┐ │ ai-video-assembly │ │ ┌──────┐ ┌──────┐ ┌──────┐ ┌──────┐ ┌──────┐ ┌──────┐ ┌──────┐ │ │ │ 段一 │→│ 段二 │→│ 段三 │→│ 段四 │→│ 段五 │→│ 段六 │→│ 段七 │ │ │ │准备 │ │资产 │ │创作 │ │生产 │ │剪辑 │ │验收 │ │复盘 │ │ │ └──────┘ └──────┘ └──┬───┘ └──┬───┘ └──────┘ └──────┘ └──┬───┘ │ │ │ │ │ │ │ ▼ ▼ ▼ │ │ ┌─────────────────────────────────────────────┐ │ │ │ prompt_assemble.py │ │ │ │ (L1 style_card + L2 character_card │ │ │ │ + production-order → 调用 tuner) │ │ │ └────────────────────┬────────────────────────┘ │ └────────────────────────────────────┼───────────────────────────────┘ │ 调用 ▼ ┌─────────────────────────────────────────────────────────────────────┐ │ video-prompt-tuner │ │ │ │ §0 网关 → §0.5 工程约束 → §1 三层×四范式 → §2 范式入口 │ │ │ │ §3.1 机位 │ §3.2 空间 │ §3.3 光照 │ §3.4 动作 │ §3.5 抽卡 │ │ §3.6 多视角│ §3.7 人物 │ §3.8 表演 │ §3.9 音频 │ §3.10 句法 │ │ │ │ §4 一致性 → §5 引擎卡 → §6 VBench体检 │ │ │ │ ┌──────────────────────────────────────────┐ │ │ │ 30-engine-cards/ (7张引擎能力卡) │ │ │ │ 40-rewrite-cases/ (7份改写案例) │ │ │ │ 90-badcase-vault/ (17张失败卡) │ │ │ └──────────────────────────────────────────┘ │ └─────────────────────────────────────────────────────────────────────┘ 协同契约:_meta/contract.md (6判则 + 17主题归属表 + 七段触点表) 注册表: _meta/ssot-registry.yaml (机器视图) 校验: _meta/scripts/check_dual_source.py (10项lint)