医疗 LLM 重构:四个发现
- ml-intern v0.1 不能 unattended overnight。当前
turn_complete是软判断,没有 deliverable 校验——任务还没真做完它就声称完成了。 - 多格式任务相互干扰。加 PubMedQA 3k 数据:PubMedQA +28.6,但 MedQA −4.2、MedMCQA −9.3。混合 yes/no/maybe + A/B/C/D + 自由文本三种输出格式时,模型的输出头会被撕裂。
- iCliniq schema bug + scale mismatch。Schema bug 已修;scale 跟 ChatDoctor 2023 不直接可比,需要切到 raw BERTScore 协议才能做对照。
- SFT 25% 步数就收敛。packing + 1 epoch 设定下,step 50/175 已经 plateau。后面 75% 的算力没有任何收益。
五个前沿模型的架构差异
规模与稀疏性。这五个模型横跨从稠密小模型到超大 MoE 的完整谱系。Gemma 4 (31B) 是唯一的纯稠密架构,所有 31B 参数每次推理都会激活。其余四个都是 MoE:总参数量巨大,但每次推理只激活一小部分——GLM-5.1 (744B) 激活约 40B、Kimi K2.6 (1T) 激活约 32B、DeepSeek V4-Pro (1.6T) 激活约 49B。
注意力机制——最大的分化点。
- Gemma 4:5:1 的局部/全局注意力混合比例。局部用滑动窗口(32 头),全局注意力较稀疏(10 头),是经典多头注意力的轻量变体。
- Qwen 3.6:最激进的混合——Gated DeltaNet(线性注意力)与标准全注意力按 3:1 比例交替叠加。前三层用线性注意力 + MoE,第四层才用全注意力 + MoE,大幅降低计算复杂度。
- GLM-5.1 与 Kimi K2.6:都采用多头潜在注意力(MLA,DeepSeek V3 首创),通过压缩 KV cache 大幅降低显存占用,两者架构极为相似。
- DeepSeek V4-Pro:在 MLA 基础上进一步分层,区分了普通压缩注意力(CSA)和重度压缩注意力(HCA),并引入了 mhC(流形约束超连接),用 4 条并行残差流替代传统的单一 x+F(x) 残差结构,是五者中结构最复杂的。
MoE 路由策略。DeepSeek V4-Pro 的前 3 个 block 用基于哈希的 MoE(而非学习到的 top-k 路由),避免了训练初期路由不稳定的问题。其余模型均用标准可学习路由。
上下文长度。从 Gemma 4 的 256k,到 Qwen 3.6 和 DeepSeek V4-Pro 支持 1M token,差距明显。背后对应的是不同的位置编码扩展策略(都基于 RoPE)。
Project Deal:让 agent 之间互相交易
Anthropic 最近做了一个叫 Project Deal 的实验:为期一周的内部测试,69 名员工把买卖决策完全交给 Claude agent,没有任何人工审批。每个参与者起始预算 100 美元。Agent 在 Slack 里自己挂出 listing、谈价、接受报价、完成交易。
整个实验产生了 186 笔交易,总值超过 4000 美元,覆盖 500 多件物品。它也暴露了一个明显的模型质量差距:Claude Opus agent 始终能谈到更好的价格、完成更多交易;Haiku 版本则明显逊色——但大多数用户根本没意识到自己得到的是更差的结果。
启示:AI 商业化可能比预期来得更快,但 agent 之间并不平等。当 agent 互相博弈时,模型层级的差距会被放大暴露出来。
GeoGuessr + 时间
线上版的 GeoGuessr,多了一个时间维度。形态做得很简单——纯在线小游戏——但出乎意料地耐玩。值得想想:最小可行机制经常比花里胡哨的机制更有竞争力,前提是核心循环本身真的好玩。
你才是最贵的那个模型
论点很锋利:AI agent 真正的成本是你的时间,不是 API 账单。麦当劳不会让 CEO 站去烤汉堡——那 1 小时值 9230 美元。AI 同理:你不需要每件事都用 frontier 模型。没必要每半小时花 75 美分($1,095/月)让 Claude Opus 帮你查待办事项——这种事更小的模型几分钱就能搞定。
这个框架背后的核心提示是:管控 AI 成本的第一项预算,是你自己花在监督 agent 上的注意力。第二个洞察:别再让 agent 在多个终端、多个分支之间散养——把每个任务打包到一个工作空间里,配活的 spec、agent 的笔记、完整的变更可见性。把 agent 当成一个系统去编排,而不是当成一群蜂群放出去自己跑。