AI 学习笔记 — 4月13日

ai 写作比你想象的要难

关于 AI 与写作的讨论通常认为，输入提示词，输出文本，任务就完成了。但 Katie Parrott 揭示了其中更为复杂的过程：在动笔之前，有智能体与她进行"面试"；在文章结构上，她需要反复修改与争取；她还有一组名为"海明威"和"希区柯克"的 AI 评论员来协助修改；最后还会进行一遍通读，标记出所有听起来像机器生成的内容。

data annotation：小模型配专业数据可能比大模型效果更好

一个 40 亿参数的模型，通过训练正确的金融数据，最近击败了一个体量大它 60 倍的模型。Shutterstock 和 News Corp 通过向 AI 实验室授权数据获利数亿美元，合同每年增长 20%。关键问题：你公司的私有数据有多少价值，以及是授权出去、自己训练，还是两者都做。

人工智能医疗试点项目

一种有趣的分阶段部署方式：前 250 次 AI 处方审核需由医生进行把关，只有当 AI 的判断与医生的意见一致率超过 98% 时，才能自动完成后续流程。接下来的 1,000 次处方审核则要求一致性率更高，需达到 99% 以上。之后监管方式转为每月随机检测。这是在高风险领域负责任部署 AI 的方式。

我自己用 claude 报税发现的一些问题

两个卡点：

效率奇低。目前 claude 用自带的插件控制浏览器，大部分情况下没有手动输入快，而且是要慢十几倍。主要原因是目前它读取浏览器内容靠截图，然后大部分网站又不能一下子全部截图好，需要他上下滑动，截图，读取信息，会消耗很多时间。还有就是点击页面经常有错误。
中途有一些地方他应该停下来问我，结果没有。比如他因为不知道我的银行账户信息，所以选择了让我寄支票去付税，而没有选择线上填银行账户然后线上付款。

GLM-5.1 架构解读：MoE、RMSNorm、MLA、DSA

GLM-5.1 是智谱（Z.ai）的 744B 参数 MoE 开源模型（每个 token 激活 40B 参数），MIT 协议。整体结构从下到上：输入文字 → Token Embedding → 78 个重复的 Block → Final RMSNorm → Linear 输出层 → 预测下一个词。每个 block 里有两大组件：Attention 和 FFN/MoE。

RMSNorm（归一化层）：就像音频的"压缩器"，把声音电平拉平，防止爆音。每经过一层，就把数值"归一化"一次，强制拉回到合理范围。

MLA（Multi-head Latent Attention / 多头潜在注意力）：DeepSeek 发明的，GLM-5.1 直接继承了它。不直接存完整的 K 和 V，而是先把它们压缩成一个很小的"潜在向量"，用的时候再解压回来。就像把 4K 图压缩成 JPEG 存着，需要显示时再还原，内存占用大幅下降。GLM-5.1 支持 202k 上下文，MLA 功不可没。

DSA（DeepSeek Sparse Attention / 稀疏注意力）：只在"有意义的词对"之间算注意力，跳过大量无关组合，把计算量从 O(n²) 降下来。MLA + DSA 同时存在于每个 block——MLA 解决内存，DSA 解决计算量。

MoE（Mixture of Experts / 专家混合）：把 FFN 那一层拆成 256 个"专家"，每个专家是一个独立的小网络。Router 路由器对每个 token 决策："你去找哪几个专家处理"。GLM-5.1 总参数 744B，每次推理只用到 40B 的参数，计算量相当于 40B 小模型，但知识容量是 744B 大模型。

GLM-5.1 社区评价

SWE-Bench Pro 58.4 分，首次以开源模型身份登顶，超过 GPT-5.4（57.7）和 Claude Opus 4.6（57.3）
长时自主编码能力让人印象深刻——可以持续 8 小时自主"计划→执行→测试→修复→优化"循环
全程在华为昇腾 910B 上用 MindSpore 训练，没用任何 Nvidia GPU
弱点：不是通才模型，通用推理能力"明显弱于 Claude 和 GPT"。本地运行痛苦：IQ2_M 量化在 M4 Max 上只有 3-5 tok/s
"击败 Claude Opus 4.6"的说法有误导性——只在 SWE-Bench Pro 这一个基准上成立

Claude.md：文件夹就是 agent

一种有趣的 agent 原生开发模式：一个 repo 文件夹里包含积累的机构知识，任何新代理都会自动继承这些知识。阅读顺序：先读 CLAUDE.md，然后是架构文档，再是助手系统报告，最后是助手的提示词。

作者构建了一个"调度层"：一个 Ruby 守护进程，监听任务请求，自动把任务分配到对应的文件夹，worker 跑完把结果写回文件，他只需要看最终结果。他每天用两个命令：/hey（早上看一遍所有 agent 的进展汇报）和 /orchestrate "Fix issue #1765"（丢一个任务进去，agent 自动拆解、干活、提 PR，他来审查）。