Sakana 的 Conductor:AI 管理 AI
Sakana AI 发布了一个值得关注的多智能体成果。他们用强化学习训练了一个 7B 的 Conductor 模型,作用不是直接解题,而是用自然语言去编排一组前沿模型。Conductor 动态决定 调用哪个 agent、分配什么子任务、暴露哪些上下文。
报告的数据相当亮眼:LiveCodeBench 上 83.9%,GPQA-Diamond 上 87.5%,超过了池子里任何单个 worker。Hardmaru 把这个总结为「AI 管理 AI」,认为「递归自选择」是 test-time scaling 的一个新维度。
这里就引出一个有意思的问题:是一个贵的 agent 更好,还是几个便宜 agent 加智能路由更好?「递归自选择」其实指向一个更本质的方向:元认知能力比直接能力更稀缺。知道「我不擅长这个,应该交给谁」本身就是一种高价值技能。这意味着未来的竞争力可能不在于单模型有多强,而在于编排层的智能程度——Conductor 本身反而可能是最值得投资的部分。
OpenAI 悄悄做 AI 优先的手机
据报道 OpenAI 正在做自家的 AI 优先智能手机,早期计划指向 2028 年左右量产。据称在和高通、联发科合作开发定制芯片,立讯精密可能负责设计与组装。
这个设备不再以 app 为中心,而是以执行端到端任务的 AI agent 为核心。硬件针对端侧 AI 做优化,更重的负载推到 OpenAI 的云端。如果这个方向走通,可能会把手机从 app 驱动的界面 转向 结果驱动的交互,对苹果和谷歌的生态构成压力。
GUI Agent 数据标注:完全不同的范式
「操控软件完成任务」这类 AI,对应的标注需求和传统 NLP 标注是完全不同的范式。
传统 NLP 标注是「文本进,文本出」,标注员判断对错。但 GUI Agent 的标注要捕捉的是:在某个屏幕状态下,人类会做什么操作,为什么这样做。
1. 屏幕录制 + 操作轨迹捕获
工具需要同时记录:
- 每一帧的截图(或 UI tree 的结构化 dump)
- 鼠标坐标、点击类型、键盘输入
- 时间戳
目前业界用的方案类似 rrweb(web 端)或 pyautogui 配合截图。关键难点是 粒度——是记录像素坐标,还是记录语义元素(「点击了购买按钮」)?
2. 任务意图标注层
纯操作轨迹是「行为」,但模型需要理解「目的」。所以需要在轨迹上叠加标注:
- 整体任务目标(「帮我点一份麻辣烫」)
- 每步子目标(「正在搜索餐厅」→「正在选菜」→「正在填地址」)
- 关键决策点的理由(「为什么选这家而不是那家」)
这层标注成本极高,因为需要标注员真正理解任务语义。
3. 状态-动作对的验证工具
多步任务最麻烦的地方是 错误传播——第三步做错了,后面全错。标注工具需要支持:
- 回放和分叉(在某一步重新录制另一种操作路径)
- 标记「此步骤是否是最优操作」
- 标注「此步骤失败的原因」(网络慢、UI 变了、理解错了任务)
4. 跨 App 任务的上下文拼接
这是最难的部分。比如「用美团订完外卖,把订单截图发给微信好友」,涉及 App 切换、状态保持、上下文传递。标注工具需要把跨 App 的操作序列拼成一条完整轨迹,并且「App 切换」本身也是一个有意义的动作节点。
当前行业怎么做
- Operator-style 数据:OpenAI Operator、Anthropic Computer Use 都需要大量人工演示数据,标注员在真实或沙箱环境里完成任务,工具录制全程。
- 合成数据:用规则或另一个模型生成操作轨迹,再让人审核——但跨 App 场景合成质量差。
- 众包平台:Scale AI、Surge 等开始提供专门的 GUI 任务标注流水线,本质是把标注员的电脑桌面变成标注工具本身。
真正的瓶颈
瓶颈不是工具,而是 任务多样性和环境一致性的矛盾。真实用户的外卖 App 版本、手机型号、账号状态都不一样,导致同一个任务的「正确操作序列」在不同环境下完全不同。如何建立一个 可复现的标注沙箱环境,同时保持任务的真实分布,是这个方向目前最核心的工程挑战。
简单说:这类数据的标注工具,本质上是把标注员的整个操作桌面变成了标注介质,而不是一个表格或文本框。
YC 2026 夏季创业方向征集
YC 最新一期 RFS 像是一个论点:AI 已从功能变成基础设施。他们希望看到软件、服务和芯片被重建。14 个方向,挑几个有意思的:
- AI 原生服务公司:不卖软件,直接卖服务结果。重点领域:保险经纪、会计税务、合规、医疗行政。服务市场规模远大于软件市场。
- Agent 工作流推理芯片:现有 GPU 对 Agent 循环(调工具→分支→回溯→保持上下文)利用率只有 30-40%。需要专为 Agent 执行图设计的芯片,关键在编译器。
- 动态软件界面:用 AI 编程让每个用户成为自己的「前向部署工程师」,界面高度个性化——同一款邮件客户端,对我显示任务列表,对学生显示日历。
- SaaS 挑战者:AI 将软件生产成本降低了 10-100 倍,旧 SaaS 护城河消失。可以用 1/10 价格克隆产品,或重新设计工作流,或去攻打 ERP、芯片设计软件等「不可攻克」的巨头。
- 面向 Agent 的软件:下一批「万亿用户」是 AI Agent 而非人类。需要为 Agent 重建所有软件:API/MCP/CLI 替代按钮和表单,完善文档让 Agent 自主发现和接入工具。
「前向部署工程师」是什么意思
这个词来自大公司的做法——比如 Salesforce 卖给波音,会专门派一个工程师驻扎在波音内部,把软件改得符合波音的工作流。这叫 forward deployed engineer。以前只有大客户才能享受这种待遇,因为太贵了。
YC 的意思是:未来 AI 编程能力足够强之后,每个普通用户都能享受这种级别的定制,AI 就是你专属的那个驻场工程师。你告诉 AI「我希望我的邮件客户端看起来像一个任务清单,按紧急程度排序,已读的自动折叠」,AI 直接帮你 改掉软件本身——不是换个主题,而是重新生成一个只属于你的界面和交互逻辑。
关于评估(Evaluations)
好的评估设计起来出人意料地困难。最好的评估简单到可以无处不在,但又具体到可以真正衡量有意义的事情。清晰的输出、快速的反馈、明显的信号。大多数评估在其中一项上失败了。设置基础设施、解释结果或调试失败的摩擦,决定了研究人员是否会在他们的迭代循环中实际使用它。
一个伟大的基准会成为一个谢林点(Schelling point)。一旦它存在,整个领域都会围绕它展开,因为每个人都想声称自己击败了它。通过激励每个人针对它进行优化,你可以推动整个领域的发展。这就是为什么创建正确的评估有时比创建在其中表现良好的模型更有影响力。