AI 学习笔记 — 5月13日

本周要做的事

弄清楚你的 agent 最长能跑多久。METR 教会我们：持续时间可能是难度的良好近似。问自己：你最长信任 agent 自动运行的时间有多长？如果你不知道，你就无法延长它。

Perplexity：怎么设计 skill

Perplexity，一家构建代理研究和浏览工具的 AI 搜索公司，发布了其设计 agent skill 的方法论。主要教训：不要从 skill 开始，而要从测试开始。

先写 evals。从生产查询、已知故障和边界案例中提取五到十个案例。包含负面示例——不应调用此 skill 的查询。
触发方式像人类一样表述。以「Load when…」开头，并使用你的用户使用的语言。不要用「monitors pull requests」，而尝试「babysit a PR」「watch CI」或「make sure this lands」。这样 skill 就会在团队无需特定命令或技术短语的情况下加载。
正文用原则而非步骤。模型已经知道命令；它需要关于如何应用的指导。与其列出详细步骤（检出分支、挑选文件、检查冲突……），不如写「将提交 cherry-pick 到干净的分支上。解决冲突并保留意图」。
把失败转化为教训。当 agent 在生产中失败时，把失败模式写入 skill 文件。错误就成为一项永久指令，防止未来重犯。
严格编辑说明。每增加一行都要问：「没有这一行，agent 会出错吗？」如果不会，就删掉它。每增加一行都增加上下文成本。

基准测试不断变难

研究级推理基准持续升级。Soohak 引入了由 64 位数学家（包括 38 位教授）从零开始创作的 439 个研究级数学问题，明确针对超出标准奥赛风格数学的能力。在医学评估方面，SophontAI 发布了 Medmarks v1.0，将其开放医学基准套件从 20→30 个基准、46→61 个模型扩展。越来越多的观点认为旧评估正在饱和：应该用得分较低、挑战前沿的测试取代分数普遍偏高的基准。

Blackwell 成为大型 MoE 服务的参考平台

Blackwell 机架正成为服务大型 MoE 的参考平台。Perplexity 发布了在 NVIDIA GB200 NVL72 上服务 post-trained Qwen3 235B 的细节，认为 GB200 相对 Hopper 是大型 MoE 的重要推理升级。基准引用：NVLS all-reduce 延迟从 H200 的 586.1µs 降到 GB200 的 313.3µs，MoE prefill combine 在 EP=4 时从 730.1µs 降到 438.5µs，并在高 token 率下有更好的解码吞吐。这实质性地改变了服务大型 MoE 的 prefill/decode 解耦。

Demis Hassabis 谈 AI 用于健康

Demis Hassabis 一直认为 AI 的头号应用应该是改善人类健康。这项工作始于 AlphaFold，如今在 Isomorphic Labs 继续，使命是重新构想药物发现、有朝一日解决所有疾病——并以 21 亿美元新融资加速这一目标。

更安全的代码生成正成为独立研究方向

GitHub 的 pull_request_target 仍然是 fork-based PR 自动化中最锋利的 CI/CD 陷阱之一。在工作站层面，建议把密钥从普遍的本地 .env 文件移到合适的密钥管理器中。与斯坦福相关的 SecureForge 工作通过提示优化来发现/预防 LLM 生成代码中的漏洞，将其框定为代码生成与安全评估之间的桥梁。更广泛的观点：编码代理现在足够强大，以至于供应链加固和安全生成评估需要被视为核心基础设施，而不是次要关注点。

用 Intel Optane 跑 1 万亿参数模型

一台使用 Intel Optane DC 持久内存 DIMM 的高内存 Xeon，据报道可在本地通过 llama.cpp 混合 GPU/CPU 推理以约 4 tokens/s 运行 Kimi K2.5（一个 ~1T 参数 MoE 模型）。关键技术点：768GB Optane PMem 在 Memory Mode 下表现为系统 RAM，192GB DDR4 ECC DRAM 作为缓存，因此模型的稀疏专家权重驻留在 PMem 中，而注意力/密集/共享专家/路由张量则用 override-tensor 或 ngl auto/cmoe 放进 RTX 3060 12GB。评论者讨论了更高核心数的 Cascade Lake Xeon 是否有帮助、Optane Storage Mode 加 mmap 是否可能优于 Memory Mode，以及 4 tokens/s 对交互式使用是否实际可接受。

Google：用 AI 取代点击和输入

在 I/O 大会之前，谷歌发布了新的基于 Gemini 的产品：AI 原生的「Googlebook」笔记本电脑、面向 Android 的跨设备 Gemini Intelligence 系统，以及一个新的 AI 驱动光标 Magic Pointer。Magic Pointer 让用户指向屏幕上的某个物体，同时 Gemini 理解周围环境并直接响应语音指令。例如：指向视频中的建筑物 →「给我展示路线」；指向邮件中的日期 → 创建会议；指向一张表 → 把它变成图表。该系统可在 Chrome、Android 应用和 Google 服务中运行，无需不断打开聊天窗口或编写详细提示。谷歌还宣布了 AI 辅助语音输入、Chrome 中的自动浏览以及 AI 生成的部件。

为什么实时通讯重要

大多数 AI 仍然像即时通讯软件一样工作：输入一些内容，等待，然后得到回应。人类协作不是这样的。Thinking Machines 认为下一阶段的人工智能不仅仅是更智能，更是更好的交互。如果这些系统得到改进，人工智能的体验可能会开始不那么像使用软件，更像是在与一个能够倾听、反应并实时保持在场的事物一起工作。