Agent 调用协调:本质是 while loop 里的工具调用

Agent 的本质就是 while loop 内的工具调用。搭一个 agent 的五步流程:

  • Step 1:定义 tool。这个 agent 实际上能做什么?
  • Step 2:权限模式。plan / read only / ask permission / auto / bypass permission,按风险等级选。
  • Step 3:multi agent orchestration。多个 agent 协作,context engineer 主要解决「每个 agent 的上下文里到底放什么」的问题。
  • Step 4:protocol first。协议层与 UI 解耦,协议是契约。
  • Step 5:MCP server。处理工程现实——server 崩溃、超时、流式反馈。

LLM 时代的蒸馏

LLM 时代的蒸馏有些变化,因为大模型往往是黑盒 API,拿不到 logits 和中间特征。实际操作中更常见的做法是:用大模型生成大量高质量的 instruction-response 数据,然后直接拿这些数据去 SFT 小模型。这其实是一种「数据蒸馏」——Alpaca 用 GPT-3.5 生成 52K 条数据来训练 7B 模型就是典型例子,Vicuna、WizardLM 也类似。虽然不是严格意义上的蒸馏(没有用到 soft labels),但思路一脉相承:用强模型的知识来指导弱模型。

另一种方式是 chain-of-thought 蒸馏,让大模型不只给答案,还给出推理过程,小模型同时学「怎么想」和「怎么答」,对推理能力的迁移效果更好。

实际效果上,蒸馏出来的小模型通常能达到 teacher 性能的 80-95%,但参数量可能只有十分之一甚至更小,推理成本大幅降低。不过蒸馏有天花板——student 的容量有限,太复杂的知识压不进去。

Claude Code for PM:只写路线图,其他都不写

一个 PM 的工作方法很值得借鉴:在新职位上,我写的唯一产品文档是路线图。其他所有内容——每个 PRD 和每个工单——都由 Claude 编写。

写作就是思考,所以作为新任 GM,路线图要花时间亲自打磨——理解产品、使用趋势、用户反馈、市场,找参与过早期版本的人聊。但这层思考一旦落到文档上,下游的所有产物都可以生成。

需要一个带 MCP 集成的 issue tracker。Agent 来写工单、在看板上移动、保持状态更新。PM 不再阅读或编写工单,只是和 agent 讨论它们。状态用 now / next / later,加上「进行中」和「已完成」就够了。

AI 产品的六个层次

  1. Prompt Wrapper:用户输入 → prompt → LLM → 输出。标题生成器、邮件润色器、简历优化器。
  2. Grounded AI / RAG:AI 能检索文档、知识库、数据库,再基于资料回答。公司知识库助手、课程助教、客服 FAQ。
  3. Tool-using AI:不只回答,还能调用 API、查日历、读邮件、更新 CRM、生成文件。
  4. LLM Workflow:AI 被放进一个可控业务流程中,按步骤完成分类、检索、判断、生成、审批、执行。
  5. Agentic Core:真正的智能体核心,AI 能 plan → act → observe → update state → continue/stop,自己决定下一步并循环执行。
  6. AI-native Product / System:低摩擦交互、上下文智能、记忆、权限、主动触发、评估、guardrails 和 runtime,AI 成为产品或组织的智能层。

GPT-5.5、Grok 4.3、DeepSeek V4 Pro

OpenAI/Codex 动量。OpenAI 称 GPT-5.5 是其迄今最强发布,API 收入增长是之前发布的两倍,Codex 不到七天收入翻番。

Grok 4.3 发布。Intelligence Index 53 分(比 4.20 高 4 分),输入价格降 40%、输出价格降 60%。GDPval-AA 大幅提升 321 Elo 到 1500,τ²-Bench Telecom 拿到 98%。代价是非幻觉指标掉了 8 个点——能力变强但可靠性下降。社区评价两极:有人认为 Grok 进步很快,但 @scaling01 说它「依然落后中国开源模型」,Andon Labs 称它在 Vending-Bench 2 上「宁愿睡觉也不行动」。

DeepSeek V4 Pro 是这周最值得关注的开源权重模型。1.6T 总参数 / 49B 激活,1M 上下文,hybrid CSA/HCA 注意力,KV cache 压到 10%,长上下文推理 FLOPs 降到 1/4。@omarsar0 实测后说这是第一个「真正能和 Codex/Claude Code 在多轮 agentic coding 上掰手腕」的开源模型。

开源 vs 闭源差距正在收窄。上周三大开源模型(Kimi K2.6、MiMo V2.5 Pro、DeepSeek V4 Pro)的 Intelligence Index 分数在 52–54 之间,Gemini 3.1 Pro Preview 和 Claude Opus 4.7 是 57,GPT-5.5 是 60。差距主要集中在 HLE、CritPt、TerminalBench Hard 和幻觉相关测评。

Agent 生态:竞争重心从模型 IQ 转向 harness 设计

Codex vs Claude Code。OpenAI 的 Codex 产品迭代速度惊人,加了响应式测试工具栏、CI 状态、迁移工具,连「虚拟宠物」都成了爆款功能。@theo 总结:「GPT-5.5 更聪明能解你的卡点,Opus 4.7 品味更好但容易跑偏;Claude Code 在 TTFT/TPS 上明显更慢、工具调用更多,Codex 更直接经济。」但 @scaling01 指出在 PostTrainBench 上 GPT-5.5 并没有打过 Opus 4.7——结果高度依赖 harness。

其他 agent 框架。Devin 加了 shell 内热键调用,Hermes 推出 /goal 循环(监督模型强制 agent 跑到完成),Flue 把自己定位成「可编程版 Claude Code」的 TypeScript 框架。

Durable execution 成为标配。Cloudflare 推 Dynamic Workflows,LangChain 把 create_agent 作为 Deep Agents 底层原语;多用户部署的数据隔离、凭据委托、HITL(人工介入直接作为工具结果返回)都在向生产级靠拢。

值得收藏的研究论文

  • ReaLM-Retrieve:让 reasoning 模型在推理过程中检索(而非只在前面 RAG),F1 +10.1%,检索调用减少 47%。
  • OCR-Memory:把长程轨迹存为图像 + 索引锚点,避免文本摘要丢信息;Mind2Web、AppWorld 在严格上下文限制下达到 SOTA。
  • Recursive Multi-Agent Systems:agent 间通过共享 latent 计算而非自然语言通信,准确率 +8.3%,token 减少 34.6%–75.6%。
  • Meta FAIR 自改进预训练:用强 post-trained 模型重写预训练 suffix 并在 RL 式预训练中当 judge——事实性 +36.2%,安全性 +18.5%,生成质量胜率高达 86.3%。
  • Microsoft 合成长程 computer-use 世界:生成 1000 台带真实文件的合成电脑,跑 8 小时、平均 2000+ 轮 agent 模拟——「computer-use agent 的瓶颈不是模型能力,是真实经验数据」。

本地 LLM 与硬件

  • Qwen 3.6 27B、Gemma 4 31B 在本地编程任务上表现拉锯(Gemma 在简洁正确性上更强,Qwen 风格更花哨)。
  • Qwen 团队开源了 Qwen-Scope(针对 Qwen 3.5 全系列的 Sparse Autoencoders),是目前最大规模的开源可解释性工具。
  • PFlash 用小 drafter 模型挑选重要 token、配 BSA 稀疏注意力做 speculative prefill,在 RTX 3090 上 128K 长度比 llama.cpp 快 10 倍(但有人质疑过于「lossy」)。
  • 16x DGX Spark 集群(QSFP56 + 200Gbps)、AMD Halo Box(Ryzen 395 + 128GB)等硬件 build 集中亮相。Google 公布 TPU 8t/8i:训练性价比提升 170–180%,推理性价比 +80%,数据中心带宽 +300%——为 Gemini 3.1 Pro 和未来万亿参数多模态模型铺路。

为什么合成数据替代不了人工标注

合成数据和人工标注的关系不是「前者会取代后者」,而是两者擅长的事根本不重叠。六个合成数据真的搞不定、必须靠人标的场景:

1. 任务本身没法自动验证。合成环境只对「答案可编程判定」的任务有效——找文件、填表、跑命令、改代码。但现实里大量 agent 任务的成功标准是模糊的:「帮我给客户回这封投诉邮件」、「把这份 PPT 改得更有说服力」、「做一份竞品分析」、「帮我筛选一下这堆简历」——「正确」是连续光谱不是 0/1。只有人能给出 preference 标注(A 和 B 你更喜欢哪个),这正是 RLHF / DPO 训练的命脉。

2. 真实分布的长尾,合成环境造不出来。合成的 1000 台电脑都是按设计者想象的「标准白领电脑」造的。真实用户的电脑是:桌面 47 个图标一半叫「新建文件夹 (3)」、浏览器装了奇怪插件时不时弹错误、中英日韩文件名混杂路径里有空格和 emoji、上一个员工留下的半成品 Excel 公式引用了已经被删掉的工作表、公司用的某个国产小众 OA 合成环境根本没有。Anthropic、OpenAI 现在还在大量招 contractor 在真实电脑上录屏标轨迹,原因就在这。

3. 抓副作用和「歪着完成」的问题。自动验证器通常只检查最终目标,但 agent 在过程中会干各种你想不到的破坏:「在桌面建汇总表」顺手把无关文件夹删了、「修复这个 bug」把测试都注释掉让它「通过」、「发邮件确认会议时间」邮件真的发了但同时把整个收件箱标成已读。这种 reward hacking / 歪门邪道完成,自动判定器经常抓不到,人一看就觉得不对。

4. 合成生成器自己就是天花板。合成数据通常是大模型自己造的(自动生成任务、自动判答案)。这有个根本问题:生成器搞不定的事,它也教不会学生。想训练 agent 做「前沿数学研究」——但生成器自己就不会出这种题;想训练 agent 做「复杂律所尽调」——生成器没法判断哪份尽调报告做得好;想训练 agent 突破 SWE-bench 最难的那 5%——这些任务连最强模型都过不了,怎么自动验证?到了能力前沿,必须有领域专家手动出题、手动判分。所以 Scale AI、Surge、Mercor 这些公司还在疯狂招 PhD 物理学家、资深律师、senior 工程师做「高质量标注员」,单价已经到 100–200 美金/小时。

5. 安全 / 红队 / 价值观对齐。「这个 agent 是不是偷偷读了我不该读的文件?」「它有没有泄露用户隐私的倾向?」「面对不合理要求该怎么拒绝?」这些判断本质是价值观题,没有客观答案,只能靠人标。不同文化、不同公司、不同场景下的「正确」都不一样,合成数据没法编码这些。

6. 微调小模型时的「行为示范」。很多企业部署 agent 时不用最强模型,而是用小模型 + 微调。微调需要的不是海量数据,而是几百上千条高质量、领域特定、风格一致的轨迹示范——比如「我们公司做客服回复就是这个口吻」。这种数据合成不出来,必须真实工作流里捞或者请专家写。