AI 学习笔记 — 4月25日

DeepSeek-V4 架构 vs Flash Attention vs Multi-Head Attention

把这三层放在一起对比，能看清楚"算法优化"和"架构创新"的本质区别。

一、Multi-Head Attention（MHA）：基础版本

核心公式：

Attention(Q, K, V) = softmax(Q·Kᵀ / √d_k) · V

结构上把 Q、K、V 分成 h 个头，每个头独立算注意力，最后拼接。

KV Cache 痛点：推理时需要缓存每一层的 K、V，内存消耗巨大。缓存大小 = 2 × n_layers × seq_len × d_model × batch_size，对长序列极其昂贵——内存复杂度 O(n²)，长序列时显存爆炸。

二、Flash Attention：不改架构，只改算法

Flash Attention 不是新的注意力结构，而是 MHA 的高效计算实现。

计算结果：与标准 MHA 完全相同（数学等价）
核心思路：分块（tiling）计算，避免把完整的 n×n 注意力矩阵写入 HBM
内存访问：从 O(n²) HBM 读写降到 O(n)
速度：2-4x 更快
改了什么：只改 GPU 内存访问模式（IO-aware）

类比：把一道需要先把所有食材摆上桌的菜，改成边拿边炒——结果一样，但省了很多台面空间。

三、DeepSeek-V4 的 CSA / HCA：真正改变架构

这才是核心创新。它解决的是 MHA 的结构性问题，而不仅仅是实现效率。

3.1 CSA（Compressed Sparse Attention，压缩稀疏注意力）

原理：在注意力计算之前，先对 K、V 做低秩压缩，把高维向量压缩到低维潜在空间。

传统 MHA:
  K = X · Wₖ   ← 维度 d_model
  V = X · Wᵥ   ← 维度 d_model

CSA:
  c_KV = X · W_c     ← 压缩到低维 d_c（d_c << d_model）
  K = c_KV · Wₖ_up   ← 再升维回来
  V = c_KV · Wᵥ_up

KV Cache 只需存 c_KV！内存压缩比可达 5-10x。这其实是 DeepSeek-V2/V3 的 MLA（Multi-head Latent Attention）思想的延续与增强版。

3.2 HCA（Heavily Compressed Attention，重度压缩注意力）

比 CSA 压缩率更高，用于某些层（通常是中间层），对精度要求略低的地方换取更大的效率提升。混合设计意味着：不同 Transformer Block 可以交替使用 CSA 和 HCA，根据层深度做自适应选择。

3.3 Pre-Block / Post-Block Mixing

Pre-Block Mixing:  在进入注意力之前，混合当前层和相邻层的表示
Post-Block Mixing: 在注意力之后，再次整合信息

这是跨层信息混合机制，类似 DenseNet 的 dense connection 思想，让信息在层间更流畅地流动。

3.4 mHC 残差

图中 ⊕ 旁边的"叠层矩形"代表 multi-Head Compression 残差，是对传统残差连接的增强：

传统残差:  x_out = x_in + Attention(x_in)

mHC 残差:  x_out = Mix([x_in, x_in_compressed_1, x_in_compressed_2]) + Attention(x_in)

维护多个不同压缩程度的表示，在残差加法时融合，捕获多尺度特征。

四、三者核心差异

标准 MHA
  ↓ （同样架构，只优化 GPU 内存访问）
Flash Attention（实现优化，结果完全相同）
  ↓ （改变架构，压缩 KV 表示）
MLA / CSA / HCA（架构创新，本质上减少了需要存储和计算的信息量）

维度	MHA	Flash Attention	CSA/HCA (V4)
是否改变架构	基准	不改	改变
解决的问题	—	GPU IO 瓶颈	KV Cache + 计算量
KV Cache 大小	100%	100%（不变）	~10-20%
数学等价	基准	完全等价	近似（有信息损失）
适用场景	通用	所有场景可替换	大模型长序列推理
主要收益	—	训练/推理速度	推理内存 + 吞吐量

五、直觉理解

MHA：每个人（头）都带着全套笔记（K、V）开会
Flash Attention：同样每人带全套笔记，但开会流程更高效，不用把所有笔记铺满桌子
CSA/HCA：开会前先把所有笔记压缩成摘要，大家只带摘要，会后再按需查原始资料——桌子占用小得多，但摘要可能丢了一点细节

这就是为什么 DeepSeek-V4 能在保持强大性能的同时，支持极长上下文和更高的推理吞吐量。

GPT-Image 2 + Seedance 2.0：AI 短片制作工作流

完整流程：创意想法 → 场景表 → 分镜脚本 → 图像放大 → Seedance 2.0 提示词 → 生成片段 → 剪辑。

第一步｜创建场景表

把创意想法塞进下面这个系统提示词的"在此输入你的场景创意"位置，清晰描述场景内容（在发生什么、画面看起来什么样、场景如何推进），然后反复调整输出，直到场景在视觉和叙事上都足够扎实。

场景表系统提示词（结构化字段）：

场景标题
视觉格式 / 风格
地点 / 环境
演员 / 角色说明
镜头分解
基调 / 情感节奏
摄影机 / 电影语言
灯光设计
声音 / 音频设计
场景目标

使用规则：

保持专业的电影级语气，适用于图生视频或电影视频生成工作流程
严格使用上方加粗字段名，格式不变
输出应读起来像导演的场景表或分镜拆解，而非散文或传统剧本

镜头分解的详细规则

把场景构建成一系列编号镜头（镜头 1、镜头 2……）
每个镜头明确包含：镜头类型（极端特写、全景、中景、过肩镜头）、画面动作、角色行为与时机（停顿、反应、细微动作）、嵌入对话（引号写在对应镜头内）
对白要简练、自然、有电影感——避免信息量过载的台词
加入微节拍（沉默、犹豫、眼神移动、张力转变）
确保镜头之间有因果连续性
强调视觉叙事，而非直白解释

总体创作方向

使用精确的电影语言：构图、镜头、景深、调度和运动
文字简洁但视觉信息密度高
保持强烈的节奏感（紧张 → 停顿 → 释放）
通过视觉行为、构图和时机传达情绪，而非直接解释
输出结果应可直接被视频生成模型或电影制作团队使用

第二步｜生成分镜脚本

在同一个对话里向 ChatGPT 提问：

"根据上方的场景表，生成一张 21:9 比例的 3×3 分镜网格图，不含任何文字或对白。"

这样就拿到了可以直接使用的视觉镜头参考。

第三步｜挑选并放大图像

从分镜网格里挑你最喜欢的帧，做图像放大（作者用 Magnific 处理真实皮肤质感）。这些放大后的画面将成为主要视觉参考图。

第四步｜场景表 → Seedance 2.0 提示词

使用 "Seedance 2.0 Prompt Director" GPT，把场景表转化为 3 段独立的 15 秒片段提示词。至此，创意已被结构化为可供生成的格式。

第五步｜生成片段并剪辑

把放大后的参考图上传到 Seedance 2.0
用 Seedance 2.0 提示词生成 3 段片段
快速剪辑，完工

附注：作者用 Magnific 视频放大器把最终成片提升至 4K 画质。