AI 学习笔记 — 4月21日

benchmarks 目前的可靠性？

代理基准（agentic benchmarks）目前处于一个不错的状态，但基准已经不再像过去那样被视为真实世界性能的可靠关联指标。这个灰色地带的一个典型例子是 Gemini 3：基准分数惊艳，但在当前 AI 工具真正被测试和部署的领域（也就是 agents）里几乎毫无存在感。这种反差说明，我们现有的测量体系存在明显且持久的缺陷。

RLVR 是什么

RLVR 是 Reinforcement Learning with Verifiable Rewards，直译就是"用可验证奖励做强化学习"。

理解它最快的方式是跟 RLHF 对比。

RLHF 的问题在哪里

RLHF 里，奖励信号来自人类标注者的偏好判断——"这个回答比那个好"。这个判断是主观的、模糊的，而且成本很高。更麻烦的是，模型可能学会"取悦人类"而不是"真正做对事情"，也就是所谓的 reward hacking。

RLVR 的核心思想

RLVR 换了一种奖励来源：只在答案可以被客观验证的任务上训练。

数学题：答案对不对，程序自动算一下就知道
代码：能不能跑通测试用例，直接执行就知道
形式逻辑、定理证明：有没有语法错误，验证器直接判

这样奖励信号是 0/1 的硬信号，不需要人来评判，可以大规模自动化，也不会被模型糊弄过去。

为什么现在变成主流

DeepSeek-R1 是个标志性案例。他们发现，只用 RLVR 在数学和代码上训练，模型自发涌现出了"链式思考"、自我反思、回溯等推理行为——这些能力不是直接教的，是强化学习摸索出来的。效果比纯 SFT（监督微调）强得多，还便宜。

局限在哪里

RLVR 只能用在有客观答案的任务上。写作好不好、翻译地不地道、解释清不清楚——这些没法自动验证，RLHF 或者其他方法还是必要的。

Kimi K2.6

Moonshot 表示 K2.6 可以连续运行 12 小时，在一个会话中进行超过 4,000 次工具调用，并在更大任务上协调多达 300 个并行子代理。

官方放出来的对比图有点太过了——你到底怎么客观评判哪个设计更好？

Hermes agent 的几个设计模式

1. 无状态并行单元

普通 agent 会记住之前的对话和文件，但这样多个 agent 同时跑起来会互相干扰。加上 skip_memory=True 这类参数，让 agent 变成"用完即丢"的状态，每次都是全新的，这样才能真正并行跑很多个。

2. 失败了不要盲目重试

传统做法是任务失败了就直接再试一次。更聪明的做法是：失败时把"失败的原因、哪一步出错、调用了什么工具"这些信息结构化地记录下来，然后让 LLM 分析这些信息，重新规划怎么做，而不是无脑重跑。

3. 动态注入上下文

不同的子任务需要不同的背景知识。与其把所有信息一股脑塞进同一个 prompt，不如在不同目录下放各自的说明文件（AGENTS.md），agent 执行到哪个目录，才读取那个目录的说明。按需加载，更干净。

生态系统也在向自我改进的套件（self-improving harnesses）和长期运行方向转变：例如 hermes-skill-factory、maestro、icarus-plugin 和云模板，以及对"LLM 代理中外部化智能"这一调查的讨论——该调查将能力描述为越来越多地存在于模型权重之外——在内存系统、工具、协议和 harness 中。

"构建网页"这个需求已经被大量应用满足

Manus、Lovable 是最早一批，然后 Claude Design，再到 Kimi K2.6 agent。

这些是网页构建系统，可以从单个提示生成完整的生产就绪网站，在单次运行中把高级设计、交互视觉效果和后端基础设施结合在一起。用 React、TypeScript、Tailwind、Three.js 这样的工具栈。

我的预测：下一步是构建 app，再往后是"一个 idea 构建一家公司"，包括上线、法务等等，所有服务都可以打包，甚至 agent 给人派活。

Build dashboard

Anthropic 的全新 Cowork 功能使 Claude 能够构建实时仪表板、跟踪器和内部工具，这些工具与 Slack、Salesforce、Google Drive、Asana 和 Jira 等应用程序相连，并且报告会在每次重新打开时刷新。曾经需要商业智能软件、数据管道和技术团队的工作，现在只需一个提示和一次权限点击即可开始。在一个早期示例中，Claude 在不到一分钟的时间内构建了一个谷歌和 Meta 广告仪表板，提取了活动数据、发现趋势、安排重复性任务，并帮助生成新的创意。

后商品经济

这篇文章由芝加哥大学经济学家 Alex Imas 撰写，核心论点是：AI 自动化不会让人类劳动消失，而是会催生一个"后商品经济"。

核心逻辑

文章从星巴克的案例出发：这家公司本可以完全自动化，却最终选择雇佣更多咖啡师、推行手写杯名和陶瓷杯——因为顾客要的不只是一杯咖啡，而是一种体验。这揭示了一个关键问题：当 AI 能生产几乎所有商品时，什么会变得稀缺？

结构性变革的历史规律

经济学早有先例。农业曾雇用美国 40% 的劳动力，如今不到 2%，但人们并没有挨饿——机械化让农业变得便宜，人们的收入提高了，消费转向了其他地方。关键在于：人变富后，不会只买更多同类商品，而是转向"收入弹性更高"的产品，比如更好的餐厅、更有趣的体验、更贴心的服务。

模仿欲望与稀缺性

文章引入了哲学家吉拉德的"模仿欲望"概念：人类渴望得到他人也渴望却得不到的东西。这种对排他性、地位和来源感的追求，是永远无法被完全满足的。作者的实验数据显示，当人们得知某商品会有人被排除在外，他们的支付意愿几乎翻倍。另一项研究则发现，AI 介入会削弱作品的"独一性感知"，导致溢价缩水。

"关系部门"的崛起

作者预测，AI 会让可自动化的商品生产越来越便宜，但这恰恰会推动消费向"关系型服务"转移——护士、治疗师、教师、工匠、厨师、表演者、社区服务者……这些领域的核心价值在于人本身的参与，而这正是 AI 无法真正复制的。

对"需求崩溃"的反驳

文章还回应了一种悲观预测：AI 消灭就业 → 工人没收入 → 购买力崩溃 → 经济萎缩。作者认为，模仿性欲望的比较性特征意味着对高端、人性化产品的需求不会轻易饱和，经济有足够的"泄压阀"来承接结构性转型。

结语

未来真正持久的工作，不是"监控 AI"或"提示词工程"，而是那些人类参与本身就构成价值的工作。历史上，技术每一次大规模替代劳动，经济都没有崩溃，而是转型了。AI 这次可能也不例外——只是转型的方向，是朝着更有人情味、更难被量产的那一侧。