ai 写作比你想象的要难

关于 AI 与写作的讨论通常认为,输入提示词,输出文本,任务就完成了。但 Katie Parrott 揭示了其中更为复杂的过程:在动笔之前,有智能体与她进行"面试";在文章结构上,她需要反复修改与争取;她还有一组名为"海明威"和"希区柯克"的 AI 评论员来协助修改;最后还会进行一遍通读,标记出所有听起来像机器生成的内容。

data annotation:小模型配专业数据可能比大模型效果更好

一个 40 亿参数的模型,通过训练正确的金融数据,最近击败了一个体量大它 60 倍的模型。Shutterstock 和 News Corp 通过向 AI 实验室授权数据获利数亿美元,合同每年增长 20%。关键问题:你公司的私有数据有多少价值,以及是授权出去、自己训练,还是两者都做。

人工智能医疗试点项目

一种有趣的分阶段部署方式:前 250 次 AI 处方审核需由医生进行把关,只有当 AI 的判断与医生的意见一致率超过 98% 时,才能自动完成后续流程。接下来的 1,000 次处方审核则要求一致性率更高,需达到 99% 以上。之后监管方式转为每月随机检测。这是在高风险领域负责任部署 AI 的方式。

我自己用 claude 报税发现的一些问题

两个卡点:

  • 效率奇低。目前 claude 用自带的插件控制浏览器,大部分情况下没有手动输入快,而且是要慢十几倍。主要原因是目前它读取浏览器内容靠截图,然后大部分网站又不能一下子全部截图好,需要他上下滑动,截图,读取信息,会消耗很多时间。还有就是点击页面经常有错误。
  • 中途有一些地方他应该停下来问我,结果没有。比如他因为不知道我的银行账户信息,所以选择了让我寄支票去付税,而没有选择线上填银行账户然后线上付款。

GLM-5.1 架构解读:MoE、RMSNorm、MLA、DSA

GLM-5.1 是智谱(Z.ai)的 744B 参数 MoE 开源模型(每个 token 激活 40B 参数),MIT 协议。整体结构从下到上:输入文字 → Token Embedding → 78 个重复的 Block → Final RMSNorm → Linear 输出层 → 预测下一个词。每个 block 里有两大组件:Attention 和 FFN/MoE。

RMSNorm(归一化层):就像音频的"压缩器",把声音电平拉平,防止爆音。每经过一层,就把数值"归一化"一次,强制拉回到合理范围。

MLA(Multi-head Latent Attention / 多头潜在注意力):DeepSeek 发明的,GLM-5.1 直接继承了它。不直接存完整的 K 和 V,而是先把它们压缩成一个很小的"潜在向量",用的时候再解压回来。就像把 4K 图压缩成 JPEG 存着,需要显示时再还原,内存占用大幅下降。GLM-5.1 支持 202k 上下文,MLA 功不可没。

DSA(DeepSeek Sparse Attention / 稀疏注意力):只在"有意义的词对"之间算注意力,跳过大量无关组合,把计算量从 O(n²) 降下来。MLA + DSA 同时存在于每个 block——MLA 解决内存,DSA 解决计算量。

MoE(Mixture of Experts / 专家混合):把 FFN 那一层拆成 256 个"专家",每个专家是一个独立的小网络。Router 路由器对每个 token 决策:"你去找哪几个专家处理"。GLM-5.1 总参数 744B,每次推理只用到 40B 的参数,计算量相当于 40B 小模型,但知识容量是 744B 大模型。

GLM-5.1 社区评价

  • SWE-Bench Pro 58.4 分,首次以开源模型身份登顶,超过 GPT-5.4(57.7)和 Claude Opus 4.6(57.3)
  • 长时自主编码能力让人印象深刻——可以持续 8 小时自主"计划→执行→测试→修复→优化"循环
  • 全程在华为昇腾 910B 上用 MindSpore 训练,没用任何 Nvidia GPU
  • 弱点:不是通才模型,通用推理能力"明显弱于 Claude 和 GPT"。本地运行痛苦:IQ2_M 量化在 M4 Max 上只有 3-5 tok/s
  • "击败 Claude Opus 4.6"的说法有误导性——只在 SWE-Bench Pro 这一个基准上成立

Claude.md:文件夹就是 agent

一种有趣的 agent 原生开发模式:一个 repo 文件夹里包含积累的机构知识,任何新代理都会自动继承这些知识。阅读顺序:先读 CLAUDE.md,然后是架构文档,再是助手系统报告,最后是助手的提示词。

作者构建了一个"调度层":一个 Ruby 守护进程,监听任务请求,自动把任务分配到对应的文件夹,worker 跑完把结果写回文件,他只需要看最终结果。他每天用两个命令:/hey(早上看一遍所有 agent 的进展汇报)和 /orchestrate "Fix issue #1765"(丢一个任务进去,agent 自动拆解、干活、提 PR,他来审查)。