Meta 的新模型:Muse Spark

Meta 之前的开源模型系列叫 Llama,现在他们放弃了这个路线,推出了全新的模型家族 Muse。首发的是 Muse Spark,定位是"小而快"的版本(相当于系列里的入门款)。负责人是 Alexandr Wang(Wang 的公司 Scale AI 之前被 Meta 收购),他带队用 9 个月从零重建了整个 AI 训练架构。

最重要的一个数字:10倍效率提升。同样的能力,只需要之前 Llama 4 Maverick 十分之一的算力。这在工程上是非常大的突破。

测试项目 Muse Spark Claude Opus
CharXiv Reasoning(数学推理)86.4 ✅ 第一低于 Spark
HealthBench Hard(医疗问答)42.8 ✅ 碾压14.8
SWE-Bench Verified(写代码)77.4 ⚠️ 弱点80.8

医疗方向特别强——因为训练数据是由 1000 多名医生亲自筛选标注的。代码是当前公认的弱点,但对于一个全新架构的 v1 来说已经很不错。

Contemplating 模式(沉思模式)= 并行多智能体推理——不是一个模型在单独想,而是多个子 agent 并行推理,最后汇总结果。

战略转变:从开源到闭源。Meta 这次不再想做"AI 界的 Linux",而是直接用 AI 赋能自己的产品矩阵(WhatsApp、Instagram、Threads、Ray-Ban 眼镜),直达数十亿普通用户。

排名:第 4(仅次于 Gemini 3.1 Pro、GPT-5.4、Claude Opus)。核心逻辑:不追求最强,追求效率极高 + 分发极广。用十分之一的算力达到顶尖水平,再通过几十亿用户的产品矩阵铺开——这是 Meta 独有的打法。

Simon Willison 的发现:聊天框背后藏着 16 个工具

研究者 Simon Willison 直接问 meta.ai 的聊天界面"你有哪些工具",它老实回答了,暴露了 16 个隐藏工具:联网搜索 + 打开网页、代码解释器(Python 3.9)、生成可交互的 HTML/SVG 页面(类似 Claude Artifacts)、像素级物体识别、生成子 agent 来做分析和委托任务、搜索你自己的 Instagram/Threads/Facebook 帖子、编辑沙箱里的文件、连接 Google/Outlook 日历和邮件。

最有意思的是 visual_grounding:测试时用了一张 AI 生成的"浣熊坐在垃圾桶上戴垃圾帽"的图,它能精确识别出浣熊的 12 根胡须(每根的坐标)、8 个爪子、眼睛、耳朵、垃圾帽的位置框。这不是调用外部 API,而是模型本身的原生能力通过工具调用来实现的。

我新的两个思考

一、AI 工具本质上是一种新型游戏

Claude Code、Codex 这类"skills + AI"的软件,表面上是生产力工具,但从体验结构来看,它更接近于游戏的一种变体。游戏让人上瘾的核心机制叫做 agency(能动性)——你操作一个角色,角色真的在影响世界,这种"我的行动有效果"的即时反馈,是成瘾的根源。AI agent 工具给了你完全一样的感觉。

但它比游戏更有意思的地方在于:游戏的世界是封闭的,输了重来,代价可控。而 AI agent 操作的是真实世界——真实的文件、真实的部署、真实的后果。这让它兼具了游戏的爽感和现实世界的意义感,是一种前所未有的交互形态。

二、Vibe Coding 之于传统编程,就像网络小说之于经典文学

网络小说出现之前,"写了一部小说"是有门槛的事——你要打磨文笔,通过出版社的筛选,才能让人看到。网络小说打掉了守门人,写作和发表的门槛大幅下降,结果是小说的数量和种类爆炸式增长。

Vibe Coding 正在走同一条路。以前"做了一个软件"的门槛是:你得懂架构、懂调试、懂部署。现在门槛变成了:你有没有一个真实的需求

这里面隐藏着一个新职业的雏形——不是写代码的人,而是能判断 AI 写的代码好不好用的人。就像网络小说催生了专业编辑和评分机制,Vibe Coding 也会催生出新的质量过滤层。守门人不会消失,只是换了一批人。

LLM 训练并行策略全景图

一句话心智模型:训练 LLM 的所有 parallelism 都在回答同一个问题:当模型、数据、优化器状态、activation 这四样东西加起来装不下一张 GPU 的时候,沿着哪个维度切,谁留下、谁传出去、谁计算、谁通信。

  • DP(数据并行):同一个模型复制到所有卡,每卡看不同 batch。通信:all-reduce 梯度(每 step 1 次)。
  • TP(张量并行):切权重矩阵(按列 or 按行)。通信:all-reduce activation(每 layer 2 次)。单机内,用 NVLink 高带宽。
  • PP(流水线并行):按层切开。通信:点对点(发 activation,收 gradient)。可跨机,低带宽可接受。
  • SP(序列并行):切 Activation 的 sequence 维度,大幅节省 activation 显存。通常和 TP 绑着用。
  • CP(上下文并行):seq ≥ 32K 时用,更激进的序列切分。
  • EP(专家并行):只有 MoE 模型用。

ZeRO:DP 上的分片优化

  • ZeRO-1:分片 Optimizer states(Adam 的 m、v)——免费的午餐
  • ZeRO-2:+ 分片 Gradients
  • ZeRO-3(= FSDP):+ 分片 Weights 本身——极致节省,但通信代价更高

显存账本

Training memory ≈ 16 × N_params + activations

Weights (bf16)        : 2 bytes × N_params
Gradients (bf16)      : 2 bytes × N_params
Adam states (fp32 m,v): 8 bytes × N_params
Master weights (fp32) : 4 bytes × N_params

7B 都已经装不下一张 80GB H100 的训练需求(100+ GB)。这就是为啥现在所有严肃的 LLM 训练都至少用 ZeRO-1 + TP。

picotron vs nanotron 的关系

picotron 教你"每个 parallelism 单独怎么运作",nanotron 教你"它们怎么组合起来并且能 resume、能切 FP8、能切 sequence parallel"。前者是黑板,后者是工厂。