Claude 用量上限提高
Anthropic 宣布与 SpaceX 建立新的算力合作,并立即把多出来的算力转化为产品端的更高用量上限:Claude Code 的 5 小时速率限制对 Pro、Max、Team 和按座位计费的 Enterprise 翻倍;Pro 和 Max 的高峰时段限制下调被取消;Opus API 的速率限制大幅提升。
Harvey 发布 LAB 法律 Agent 基准
Harvey 推出 LAB,一个开源的长期法律 Agent 基准,覆盖 24 个法律实践方向、共 1200 个任务。LangChain、Baseten、Artificial Analysis 等机构参与了支持和评论。法律是少有的「长任务、长上下文、高准确率要求」三者同时存在的领域,比单点 QA 更难。
Genesis AI:为人手级精细控制设计的机器人模型
Genesis AI 推出 GENE-26.5,一个专为需要精细手部动作和协调能力的任务设计的机器人模型。
为了训练系统,公司还做了一只机械手 + 一副动作捕捉手套——人戴着手套做任务即可生成训练数据。Genesis 表示这套硬件比传统方案便宜约 100 倍,数据采集速度也快得多。
展示视频中机器人完成了打鸡蛋、切番茄、做实验、解魔方、弹钢琴等任务,手部动作出乎意料地流畅。
为什么这件事重要:
- 当下机器人最大的瓶颈正在变成「数据」——需要海量真实世界示例展示人类如何移动和操作物体
- Genesis 的思路是把人类正常活动转化为训练数据。如果走通了,每一次交互都是学习过程的一部分,机器人迭代速度会大幅加快
Kanwas:开源的「团队第二大脑」
Kanwas 把自己定位为「为现代团队构建的开源第二大脑」。这个产品形态值得参考——「怎么做一个团队级的大脑」是个有意思的问题。
Figure 公司参观笔记
这是一段对人形机器人公司 Figure 总部的探访视频,由创始人带队介绍研发、制造、测试基地。
公司概况
- 加州园区四栋楼,约 500 名员工(其中 250-300 人在总部)
- 公司成立不到 4 年,目前拥有数百台机器人
- 目标:让机器人数量超过员工数量
- 近期成为首家把人形机器人送进白宫的公司
核心产品 Figure 3
- 约 40 个关节电机,每个都可 360 度旋转
- 整机约 135 磅(约 61 公斤),电池续航 4-5 小时
- 通过脚底无线感应充电(2 千瓦),充 1 小时可工作 4-5 小时
- 装有摄像头、IMU、Wi-Fi、5G、蓝牙
- 外面套可拆卸织物外衣(背后有拉链),脚上穿高帮运动鞋
关键技术:Helix 神经网络
- 自研的 Vision-Language-Action 模型(VLA),完全替代传统手写控制代码
- 在机器人本体的 GPU 上跑推理,无需联网也能工作
- 每秒输出 50-200 次全身关节指令
- 训练数据接近百万小时,主要在仿真环境中通过强化学习训练,再零样本迁移到实体
- "Never Fall" 项目:即使丢失某个关节(比如膝盖),机器人也能单腿跛行而不摔倒
制造基地 BotQ
- 头部、电池、四肢、手指等关键部件均自主设计制造
- 电池为 2.25 千瓦时,结构性设计可防止热失控蔓延
- 三月份产量创历史新高,目标是「全自动黑灯工厂」——机器人造机器人
- 去年与宝马合作,机器人参与组装了世界首辆由人形机器人制造的汽车(X3)
设计演变
- Figure 1(2022):CNC 加工,单台造价数十万美元,肌腱驱动手部(已弃用)
- Figure 2:电池移入躯干,算力翻 3 倍,约生产 50 台后退役
- Figure 3:成本降低约 90%(单台 < 10 万美元),更轻薄、外层包覆软泡沫
- Figure 4:研发后期,预计将是迄今最大跨越
商业方向
- 家庭场景:定价目标约每月 400-600 美元租赁制(类似汽车租约),可做家务、洗衣、整理
- 商业场景:制造、物流、医疗等
- 主战场在美国,欧洲因数据隐私问题较复杂
创始人观点
- 认为 AGI 可能先在具身智能上实现,因为真实世界的交互数据是关键拼图
- 设计哲学倾向「西部世界」路线(拟人化),而非「机械姬」风格
- 数据采集团队穿着紧身衣进行动作捕捉训练
整体感觉:这是一家把硬件、AI、制造垂直整合做到极致的公司,正处在「翻盖手机到 iPhone 1」的过渡节点。
一、数据规模和层级
创始人 Brett 提到的训练数据分两层:
- 预训练 + 中训练(pre/mid-training):Helix 模型大约用了接近 100 万小时的数据。这是基座能力,决定机器人「懂不懂世界」
- 后训练(post-training):只有几千小时量级。这部分针对特定任务(叠衣服、整理客厅、搬包裹)做精调
这个比例其实很说明问题——绝大多数数据工作的价值密度在预训练,后训练更像是「对齐」。如果做数据这一行,预训练数据的清洗、去重、质量分级很可能是更长期的活儿。
二、数据采集的三条路径
1. 人体动作捕捉(穿紧身衣那批人)
视频里说「园区里有人穿 spandex 走来走去」——这是关节级运动追踪(joint-level tracking)。原理是用紧身衣上的 marker 或惯性传感器,把人做家务时每个关节的角度、速度、轨迹记录下来。
为什么必须穿紧身衣?因为宽松衣物会让 marker 飘,关节角解算就不准。从数据角度讲,这类数据的价值在于:
- 提供「人类动作先验」——机器人不用从零探索「洗碗该怎么挥手」
- 配合视频帧做图像条件化(image conditioning):每一帧画面对应一组关节状态,这就是 VLA 模型的核心训练对(视觉 → 动作)
2. 仿真合成数据(重头戏)
控制团队负责人 Mortz 说的那段是关键:
「我们花大量时间想现实世界里能发生的所有事,然后在仿真里把它们都发生一遍。」
这是域随机化(domain randomization)的标准玩法。在物理仿真器里随机化:
- 重力、摩擦系数
- 关节阻尼、电机延迟
- 光照、贴图、相机噪声
- 外部扰动(被推一把)
因为仿真里的数据不需要人工标注——状态、动作、奖励都是仿真器直接吐出来的,所以可以无限造。这也是 Figure 从写代码的传统控制器切换到强化学习神经网络的根本原因:数据量级差几个数量级。
3. 真机遥操作 + 自主回传
视频里 Brett 明确否认了「机器人是被遥控的」,但训练阶段遥操作数据是必经之路——这是行业普遍做法(特斯拉、1X、Physical Intelligence 都这么做)。家庭里部署的机器人会把每天的运行数据上传回中央训练任务,然后 OTA 更新模型权重。
三、零样本迁移(Sim-to-Real Zero-Shot)
视频里这个词出现在被推机器人那段:
「我们在仿真里训练好控制器,然后直接 zero-shot 到这台机器人上——加载到电脑里就行,性能就这样。」
「零样本」在这里的精确含义是:模型在真机上一次都没训练过,直接部署就能 work。能做到这点要满足几个前提:
- 仿真到现实的差距(sim-to-real gap)足够小——Figure 自己设计电机、自己测扭矩响应曲线,所以仿真里的电机模型和真机非常接近
- 域随机化覆盖足够广——训练时见过的扰动空间 ≥ 真实世界扰动空间
- 观测空间一致——仿真相机的内参、视野、噪声要尽量贴近真机
对做数据这一行来说,这意味着:纯仿真任务里数据工作很少(仿真器自动产生标签),但仿真器调参、真机回归测试这类 QA 工作会变多——比如标注「哪些真机失败案例对应仿真里的哪个未覆盖场景」。
四、数据处理的几个细节
关于隐私与匿名化
Brett 说的是「我们大部分关心的是机器人的状态——比如它眼里看到的场景,怎么用来让它泛化」。换句话说:
- 人脸、文字、私人信息这类要做遮挡或模糊处理
- 真正进训练集的是:像素 → 机器人本体状态 → 动作这个三元组
- 欧洲因为 GDPR 暂不部署,说明他们的脱敏管线还没做到欧盟合规级别
关于「正向迁移(positive transfer)」假设
Brett 提到一个关键判断:
「我们假设现在采集的这批数据,会在几乎任何环境下都产生大量正向迁移。」
这是在赌 数据多样性 vs 数据量 的平衡——同样的动作(开抽屉、捡东西)在不同环境下重复采集,能让模型学到动作的本质而非环境的偶然性。从数据策略上讲:
- 多样性维度的标签(光照、材质、布局、物体种类)比单纯增加样本数更值钱
- 要考虑长尾分布——常见场景标到一定量就够,稀有场景反而要重点标
五、训练流程
视频里直接说的:
- 在机载 GPU 上跑推理,50-200 Hz
- 单一模型多任务(家务 + 物流 + 制造)
- 模型架构是 transformer-based VLA
行业惯例补充(视频没明说,但是公开信息):Helix 是双系统架构——一个慢速的「System 2」做语义理解和任务规划(约 7-9Hz),一个快速的「System 1」做动作生成(约 200Hz)。任务级标签("这是在叠衣服的第几步")和动作级标签(每帧的关节状态)需求是分开的。
六、新一代手部 = 新的数据挑战
Brett 强调他们刚发布的高自由度手「关节数和人手一样多」,目的是能从人类视频被动学习。这暗示一个新方向:
- 用大量互联网人类视频(YouTube 做饭、家务)做预训练
- 数据重点从「机器人怎么动」转向「视频里的人手关节怎么动」
- 需要 hand pose estimation 的高精度标注,可能涉及 MANO 模型这类参数化手部表示
Reachy Mini:Hugging Face 给桌面机器人做 App Store
一句话版本:Hugging Face 给一款叫 Reachy Mini 的小桌面机器人,做了个「App Store」。就跟 iPhone 的 App Store 一样——只不过这次「手机」是个机器人。
几个名词先搞清
Hugging Face:原本是个 AI 模型托管平台,行业里训好的开源模型基本都往那儿放。去年他们收购了一家法国机器人公司 Pollen Robotics,从纯软件踏进了硬件。
Reachy Mini:就是 Pollen 做的一款桌面级小机器人。注意——它不是 Figure 那种人形机器人,而是一个:
- 高 28cm,重 1.5kg,放桌上的
- 只有一个会动的头(6 自由度)+ 两根天线 + 一个摄像头 + 麦克风
- 价格 $299-$449(人民币 2000 来块)
- 完全开源
跟 Figure 03 那个 6 万美元、能洗衣服的大家伙完全是两个物种。这玩意儿更像「会动的智能音箱 + AI 玩具」。