Code with Claude:Managed Agents

本周 Code with Claude 开发者大会的核心叙事:未来你只需要给 Claude 两样东西——一个结果(outcome)和一个预算(budget),就能完成一个目标。这就是新的 Managed Agents 功能的方向:把 Claude 封装在云端的一台计算机里,你可以按需启动、扩展和管理。Anthropic 正在解决那个「杀死大多数 agent 产品」的底层基础设施,并确保它能扩展到全天候运行的 agent。

访谈:Anthropic 平台团队(Every 播客)

这是对 Anthropic 平台团队两位负责人的访谈——产品负责人 Angela 和工程负责人 Caitlin。重点如下:

一、平台的演进轨迹

最早的「平台」就是一个 completion endpoint:发个 prompt,拿个回复。然后加上工具调用、聊天会话,再到现在的有状态会话。整体方向是从无状态到有状态、从低级原语到更高层抽象,目的都是一个:让用户用最少的工作拿到最好的结果。

二、Managed Agents 是什么、给谁用

它建立在 Messages API 和内置工具(代码执行沙箱、网页搜索等)之上,把 Anthropic 自己反复造过几次的基础设施打包成一套开箱即用的方案。两类目标用户:公司内部要搭自动化或平台的人(端到端的软件开发平台,或一个让法务自动审查营销文案的小流程);以及要把 agent 集成进自己对外产品的开发者——这种场景仍需大量定制,但基础设施工程不值得自己重造。

有主持人提到锁定(lock-in)的担忧:他的团队用一台 Mac mini 跑 claude -p 命令循环,担心切到 managed agents 会跟不上 Claude Code 的新功能。Caitlin 的回应是:Anthropic 自己的一方产品(Claude Code、co-worker 等)也建立在同一个平台上,所以未来 divergence 会越来越小。

三、Harness 与模型的路径依赖

过去流行做一个非常通用的 harness,可以热插拔不同模型。但 Angela 认为这种思路正在过时——各家实验室对模型的训练方向越来越不一样,harness 和模型会越来越绑定。你仍然需要冗余、仍然会用其他模型,但热插拔的层级会上升到「agent」(即 harness + 模型)这个粒度,而不是模型本身。她举例:同样做 memory 这个功能,他们试了好几种 harness 设计,eval 结果差异巨大。harness engineering 本身就有大量 alpha。代价是:选什么作为核心原语会深度影响模型的能力方向。Anthropic 押注的是文件系统和 skills,所以模型也越来越擅长这些。

四、用户以为难的 vs 实际难的

用户以为最难的是 harness engineering(prompt caching、上下文窗口管理等)。实际上撞墙的地方是基础设施:sandbox 掉了 agent 就死了、长跑 server、transcript 存储、安全沙箱、扩展性。Managed Agents 主打就是替你解决这一层。

五、Agent 应用的层次

个人生产力工具到处都是,但团队级 agent 才是真正复杂、真正有杠杆的地方——多个 agent 互相协作、流程端到端自动化,需要一个比「单 agent」更高一层的平台抽象。Vercel 的 Guillermo 把这种组织形态描述为「内部的 AI 软件工厂」。具体案例:法务审营销文案的 agent,这事不能只用 skill 解决,因为需要 human in the loop、不同人协作、agent 跨会话运行。建出来后,营销和法务的用户其实并不直接改 prompt,而是通过另一个 Claude 来跟那个 agent 交互——「managed agents all the way down」。

六、Multi-agent orchestration 的新玩法

可以拼装出不同的策略架构:advisor/executor 分离、对抗式(一个生成一个挑刺)、分治再合并、best-of-N、swarm 协作等。不同架构适合不同任务——swarm 适合 bug hunting,分治适合 deep research。原语越像乐高,越能在更高层 hill climb。

七、怎么衡量 agent 成功

除了常规 eval,他们更倾向于 verifiable outcome——比如代码 agent 就看 PR 有没有被 merge。终极愿景是用户只用提供两个参数:可验证的 outcome + budget,剩下的全部由系统自己搞定。

八、Agent 过期 / 退役

确实是个真问题。他们做了一些 skill 来帮助升级模型、做迁移,把它当成「breaking change」来正经对待。最 AGI-pilled 的玩家会跑 agent 来监控自家 agent 是否过期。

九、一年后的愿景

Angela:希望接近那个「outcome + budget」两参数的世界,Claude 自己懂自己,自己选模型、自己拉子 agent、自己写 harness,用户不用再操心架构选型和 prompt 工程。一年内可能能做到 outcome 那部分,budget 还会有点误差。Caitlin:那个世界对平台的扩展性要求极高——agent 永远在跑、在自我重建,平台必须保证 token 进出、长跑请求、各种异形负载都不能成为瓶颈。