AI 学习笔记 — 5月7日

Claude 用量上限提高

Anthropic 宣布与 SpaceX 建立新的算力合作，并立即把多出来的算力转化为产品端的更高用量上限：Claude Code 的 5 小时速率限制对 Pro、Max、Team 和按座位计费的 Enterprise 翻倍；Pro 和 Max 的高峰时段限制下调被取消；Opus API 的速率限制大幅提升。

Harvey 发布 LAB 法律 Agent 基准

Harvey 推出 LAB，一个开源的长期法律 Agent 基准，覆盖 24 个法律实践方向、共 1200 个任务。LangChain、Baseten、Artificial Analysis 等机构参与了支持和评论。法律是少有的「长任务、长上下文、高准确率要求」三者同时存在的领域，比单点 QA 更难。

Genesis AI：为人手级精细控制设计的机器人模型

Genesis AI 推出 GENE-26.5，一个专为需要精细手部动作和协调能力的任务设计的机器人模型。

为了训练系统，公司还做了一只机械手 + 一副动作捕捉手套——人戴着手套做任务即可生成训练数据。Genesis 表示这套硬件比传统方案便宜约 100 倍，数据采集速度也快得多。

展示视频中机器人完成了打鸡蛋、切番茄、做实验、解魔方、弹钢琴等任务，手部动作出乎意料地流畅。

为什么这件事重要：

当下机器人最大的瓶颈正在变成「数据」——需要海量真实世界示例展示人类如何移动和操作物体
Genesis 的思路是把人类正常活动转化为训练数据。如果走通了，每一次交互都是学习过程的一部分，机器人迭代速度会大幅加快

Kanwas：开源的「团队第二大脑」

Kanwas 把自己定位为「为现代团队构建的开源第二大脑」。这个产品形态值得参考——「怎么做一个团队级的大脑」是个有意思的问题。

Figure 公司参观笔记

这是一段对人形机器人公司 Figure 总部的探访视频，由创始人带队介绍研发、制造、测试基地。

公司概况

加州园区四栋楼，约 500 名员工（其中 250-300 人在总部）
公司成立不到 4 年，目前拥有数百台机器人
目标：让机器人数量超过员工数量
近期成为首家把人形机器人送进白宫的公司

核心产品 Figure 3

约 40 个关节电机，每个都可 360 度旋转
整机约 135 磅（约 61 公斤），电池续航 4-5 小时
通过脚底无线感应充电（2 千瓦），充 1 小时可工作 4-5 小时
装有摄像头、IMU、Wi-Fi、5G、蓝牙
外面套可拆卸织物外衣（背后有拉链），脚上穿高帮运动鞋

关键技术：Helix 神经网络

自研的 Vision-Language-Action 模型（VLA），完全替代传统手写控制代码
在机器人本体的 GPU 上跑推理，无需联网也能工作
每秒输出 50-200 次全身关节指令
训练数据接近百万小时，主要在仿真环境中通过强化学习训练，再零样本迁移到实体
"Never Fall" 项目：即使丢失某个关节（比如膝盖），机器人也能单腿跛行而不摔倒

制造基地 BotQ

头部、电池、四肢、手指等关键部件均自主设计制造
电池为 2.25 千瓦时，结构性设计可防止热失控蔓延
三月份产量创历史新高，目标是「全自动黑灯工厂」——机器人造机器人
去年与宝马合作，机器人参与组装了世界首辆由人形机器人制造的汽车（X3）

设计演变

Figure 1（2022）：CNC 加工，单台造价数十万美元，肌腱驱动手部（已弃用）
Figure 2：电池移入躯干，算力翻 3 倍，约生产 50 台后退役
Figure 3：成本降低约 90%（单台 < 10 万美元），更轻薄、外层包覆软泡沫
Figure 4：研发后期，预计将是迄今最大跨越

商业方向

家庭场景：定价目标约每月 400-600 美元租赁制（类似汽车租约），可做家务、洗衣、整理
商业场景：制造、物流、医疗等
主战场在美国，欧洲因数据隐私问题较复杂

创始人观点

认为 AGI 可能先在具身智能上实现，因为真实世界的交互数据是关键拼图
设计哲学倾向「西部世界」路线（拟人化），而非「机械姬」风格
数据采集团队穿着紧身衣进行动作捕捉训练

整体感觉：这是一家把硬件、AI、制造垂直整合做到极致的公司，正处在「翻盖手机到 iPhone 1」的过渡节点。

一、数据规模和层级

创始人 Brett 提到的训练数据分两层：

预训练 + 中训练（pre/mid-training）：Helix 模型大约用了接近 100 万小时的数据。这是基座能力，决定机器人「懂不懂世界」
后训练（post-training）：只有几千小时量级。这部分针对特定任务（叠衣服、整理客厅、搬包裹）做精调

这个比例其实很说明问题——绝大多数数据工作的价值密度在预训练，后训练更像是「对齐」。如果做数据这一行，预训练数据的清洗、去重、质量分级很可能是更长期的活儿。

二、数据采集的三条路径

1. 人体动作捕捉（穿紧身衣那批人）

视频里说「园区里有人穿 spandex 走来走去」——这是关节级运动追踪（joint-level tracking）。原理是用紧身衣上的 marker 或惯性传感器，把人做家务时每个关节的角度、速度、轨迹记录下来。

为什么必须穿紧身衣？因为宽松衣物会让 marker 飘，关节角解算就不准。从数据角度讲，这类数据的价值在于：

提供「人类动作先验」——机器人不用从零探索「洗碗该怎么挥手」
配合视频帧做图像条件化（image conditioning）：每一帧画面对应一组关节状态，这就是 VLA 模型的核心训练对（视觉 → 动作）

2. 仿真合成数据（重头戏）

控制团队负责人 Mortz 说的那段是关键：

「我们花大量时间想现实世界里能发生的所有事，然后在仿真里把它们都发生一遍。」

这是域随机化（domain randomization）的标准玩法。在物理仿真器里随机化：

重力、摩擦系数
关节阻尼、电机延迟
光照、贴图、相机噪声
外部扰动（被推一把）

因为仿真里的数据不需要人工标注——状态、动作、奖励都是仿真器直接吐出来的，所以可以无限造。这也是 Figure 从写代码的传统控制器切换到强化学习神经网络的根本原因：数据量级差几个数量级。

3. 真机遥操作 + 自主回传

视频里 Brett 明确否认了「机器人是被遥控的」，但训练阶段遥操作数据是必经之路——这是行业普遍做法（特斯拉、1X、Physical Intelligence 都这么做）。家庭里部署的机器人会把每天的运行数据上传回中央训练任务，然后 OTA 更新模型权重。

三、零样本迁移（Sim-to-Real Zero-Shot）

视频里这个词出现在被推机器人那段：

「我们在仿真里训练好控制器，然后直接 zero-shot 到这台机器人上——加载到电脑里就行，性能就这样。」

「零样本」在这里的精确含义是：模型在真机上一次都没训练过，直接部署就能 work。能做到这点要满足几个前提：

仿真到现实的差距（sim-to-real gap）足够小——Figure 自己设计电机、自己测扭矩响应曲线，所以仿真里的电机模型和真机非常接近
域随机化覆盖足够广——训练时见过的扰动空间 ≥ 真实世界扰动空间
观测空间一致——仿真相机的内参、视野、噪声要尽量贴近真机

对做数据这一行来说，这意味着：纯仿真任务里数据工作很少（仿真器自动产生标签），但仿真器调参、真机回归测试这类 QA 工作会变多——比如标注「哪些真机失败案例对应仿真里的哪个未覆盖场景」。

四、数据处理的几个细节

关于隐私与匿名化

Brett 说的是「我们大部分关心的是机器人的状态——比如它眼里看到的场景，怎么用来让它泛化」。换句话说：

人脸、文字、私人信息这类要做遮挡或模糊处理
真正进训练集的是：像素 → 机器人本体状态 → 动作这个三元组
欧洲因为 GDPR 暂不部署，说明他们的脱敏管线还没做到欧盟合规级别

关于「正向迁移（positive transfer）」假设

Brett 提到一个关键判断：

「我们假设现在采集的这批数据，会在几乎任何环境下都产生大量正向迁移。」

这是在赌 数据多样性 vs 数据量 的平衡——同样的动作（开抽屉、捡东西）在不同环境下重复采集，能让模型学到动作的本质而非环境的偶然性。从数据策略上讲：

多样性维度的标签（光照、材质、布局、物体种类）比单纯增加样本数更值钱
要考虑长尾分布——常见场景标到一定量就够，稀有场景反而要重点标

五、训练流程

视频里直接说的：

在机载 GPU 上跑推理，50-200 Hz
单一模型多任务（家务 + 物流 + 制造）
模型架构是 transformer-based VLA

行业惯例补充（视频没明说，但是公开信息）：Helix 是双系统架构——一个慢速的「System 2」做语义理解和任务规划（约 7-9Hz），一个快速的「System 1」做动作生成（约 200Hz）。任务级标签（"这是在叠衣服的第几步"）和动作级标签（每帧的关节状态）需求是分开的。

六、新一代手部 = 新的数据挑战

Brett 强调他们刚发布的高自由度手「关节数和人手一样多」，目的是能从人类视频被动学习。这暗示一个新方向：

用大量互联网人类视频（YouTube 做饭、家务）做预训练
数据重点从「机器人怎么动」转向「视频里的人手关节怎么动」
需要 hand pose estimation 的高精度标注，可能涉及 MANO 模型这类参数化手部表示

Reachy Mini：Hugging Face 给桌面机器人做 App Store

一句话版本：Hugging Face 给一款叫 Reachy Mini 的小桌面机器人，做了个「App Store」。就跟 iPhone 的 App Store 一样——只不过这次「手机」是个机器人。

几个名词先搞清

Hugging Face：原本是个 AI 模型托管平台，行业里训好的开源模型基本都往那儿放。去年他们收购了一家法国机器人公司 Pollen Robotics，从纯软件踏进了硬件。

Reachy Mini：就是 Pollen 做的一款桌面级小机器人。注意——它不是 Figure 那种人形机器人，而是一个：

高 28cm，重 1.5kg，放桌上的
只有一个会动的头（6 自由度）+ 两根天线 + 一个摄像头 + 麦克风
价格 $299-$449（人民币 2000 来块）
完全开源

跟 Figure 03 那个 6 万美元、能洗衣服的大家伙完全是两个物种。这玩意儿更像「会动的智能音箱 + AI 玩具」。