Intel 与 agent 时代的 CPU 叙事
LLM 本身的推理(forward pass)依然是 GPU 的活——矩阵乘法、KV cache、attention 这些核心计算放在 CPU 上跑会慢几个数量级。所以"推理拐点到了 → 要买更多 CPU"这个直接因果链是不成立的。但文章真正在讲的,其实是推理周边的工作负载,这部分确实是 CPU 密集型的,而且和 agentic AI 的爆发强相关。
一是 agent / tool use 的执行环境。Claude Code、Devin、各种 coding agent 跑起来,模型生成的代码要在沙箱里执行——编译、跑测试、起容器、文件 I/O,这些全是 CPU 工作。一个 agent 任务可能要起几十个沙箱,每个沙箱后面都是 CPU 核。OpenAI、Anthropic、各家 coding 公司都在大规模铺这种沙箱基础设施。
二是 RL 训练里的 environment / rollout。RL gym、SWE-bench 这类环境要并行模拟成千上万个 episode,模型推理在 GPU 上,但环境 step 在 CPU 上。RL 越重要,CPU/GPU 的配比就越往 CPU 偏。
三是 serving 基础设施本身:tokenization、请求路由、batching、KV cache 管理、检索(向量库、BM25)、安全过滤、日志……每一台 GPU 服务器前后都要配相当数量的 CPU 才能喂饱它。
四是 Doug 提到的刷新周期论点——2020-2021 那波 COVID 大采购的 CPU 已经到自然报废节点,过去两年大家把预算全砸 GPU 了,CPU 只做最低限度维护。所以即使需求只是温和增长,叠加积压的 refresh,也可能出现一个 CPU 紧张窗口。
更准确的表述是:LLM 推理本身不吃 CPU,但 "AI 系统" 整体——尤其是 agent 化之后——是吃 CPU 的,而且过去两年这部分被严重欠投资。 "算力需求两年涨百万倍"那种话有水分,但 "agent 时代 CPU 需求曲线在抬头" 这件事方向上是对的,只是斜率远没有 GPU 那么夸张。
CPU 主要 players 是谁
数据中心 CPU 这块比 GPU 那边热闹得多,可以分成三层来看。
第一梯队:x86 双寡头。Intel(Xeon)和 AMD(EPYC)还是绝对主力,几乎所有非超大规模云厂的服务器 CPU 都从这两家买。AMD 过去五六年从市场份额 5% 不到打到现在数据中心 CPU 营收接近一半,靠的是 EPYC(Zen 架构)在核数、能效、性价比上全面压制 Xeon。Intel 是这一轮 AI 周期最大的输家之一,制程被台积电拉开,Xeon 在云上节节败退,Lip-Bu Tan 上任后在做大刀阔斧的重组(剥离代工、聚焦产品)。
第二梯队:ARM 阵营,真正的颠覆变量。超大规模云厂自研 ARM CPU 是过去五年最重要的趋势:
- AWS Graviton:跑得最早最猛,AWS 内部新增容量里 Graviton 占比已经过半,Lambda、ECS、RDS 大量默认跑在上面。
- Google Axion:2024 年发布,正在把 GCP 内部 workload 往这边迁。
- Microsoft Cobalt:Azure 自研,和 Maia(AI 加速器)一起出。
- NVIDIA Grace:专门和 GPU 配对(Grace Hopper、Grace Blackwell),做"GPU + 紧耦合 CPU"的整套方案。
- Ampere Computing:商用 ARM 服务器 CPU 主要的独立玩家,Oracle Cloud 大量用,但被 hyperscaler 自研挤压得不轻。
ARM 阵营吃的就是 Intel/AMD 的份额。Hyperscaler 自己设计、台积电代工、去掉 x86 授权和经销利润,能效还更好,没理由不做。
第三梯队:中国和 specialty。阿里平头哥(倚天 710)——阿里云内部用,ARM 路线。华为鲲鹏——制裁后还在迭代,国内政企市场。Marvell、Broadcom——不直接卖通用 CPU,但帮云厂做定制 ARM 芯片。
回到 AI 推理周边的 CPU 需求:如果你是 OpenAI / Anthropic 这种自己不造芯片的,要扩 sandbox 和 RL 环境容量,最快的途径是从 AWS / GCP / Azure 租,那本质上吃的是 Graviton / Cobalt / Axion 的产能,不一定流到 Intel 财报上。但如果是企业自建数据中心,或者云厂的"非自研区域",Intel 和 AMD 才是直接受益方——所以 Lip-Bu Tan 喊的那个数字要打个折看。
真正的赢家概率排序大致是:AMD ≈ hyperscaler 自研 ARM > Intel > Ampere。Intel 是"基本盘还在、但份额持续被啃"的姿态,不是"乘 AI 东风起飞"的姿态。
一台人形机器人要多少 GPU / CPU
这要分机器人身上和云端两块讲,因为完全不一样。
机器人本体(onboard compute)
一台人形机器人头里 / 胸腔里塞的算力,远比想象的小。当前主流配置:
- NVIDIA Jetson 系列:业内 80% 以上的人形机器人都用这个。Jetson Orin(上一代,275 TOPS)现在最普遍,Jetson Thor(2025 年量产,2070 FP4 TOPS、专为 humanoid 设计)正在成为新一代标准。Figure、Boston Dynamics、Agility、1X、Apptronik 都在用 NVIDIA 这条线。
- Tesla Optimus 自研:用的是 FSD 那套 Dojo 衍生的自研芯片,自己一条线。
- 国产路线:宇树、智元用 NVIDIA Orin + 部分国产 NPU(地平线、寒武纪)混搭,受出口管制影响在分散供应。
典型配置:1 颗主 SoC(Jetson Thor 这种级别)跑 VLA 模型推理 + 视觉感知,里面 GPU + CPU 集成;若干微控制器 / 实时控制 CPU(ARM Cortex-R / x86)跑关节伺服、力反馈、安全逻辑——毫秒级延迟,跑不了 LLM;不需要独立 CPU 服务器。所以问"一台多少 GPU 多少 CPU"——主算力其实是一颗 Jetson Thor,把 GPU + CPU + NPU 全包了,不是数据中心那种分立堆法。功耗预算大概 100W,因为电池就那么大。
云端训练
- 训 VLA 基础模型(Figure 的 Helix、Physical Intelligence 的 π0、Google 的 RT-2 这一类):业内规模一般是数百到几千张 H100/H200。
- 训仿真策略 / RL policy:再加一层 GPU,做大规模并行 rollout。
- Tesla:Dojo + H100 混合,自家供应。
仿真环境 —— CPU 大户
- Isaac Sim / MuJoCo / Genesis 这种仿真器,并行跑成千上万个 episode 训 RL policy,物理仿真主要在 CPU 上(虽然 NVIDIA 在推 GPU 加速的 Isaac,但物理引擎瓶颈仍然偏 CPU)。
- 一个像样的 RL 集群通常是几千到几万核 CPU + 几百张 GPU 做 rollout 的视觉部分。
主要厂商一览
- 本体主算力:NVIDIA(Jetson Orin / Thor)一家独大,Tesla 自研,国产用地平线/寒武纪补。
- 关节实时控制:NXP、TI、ST、Infineon 的微控制器。
- 训练 GPU:NVIDIA(H100/H200/B200/GB200),少数用 AMD MI300、自研 ASIC。
- 仿真 CPU:AMD EPYC 占主导,Intel Xeon、ARM(Graviton 等)跟进。
- 数据存储 / 网络:Pure Storage、VAST、NetApp,NVIDIA Spectrum/Mellanox 网络。
一台 Figure 03 意味着多少算力:机器人本身一颗 Jetson Thor 级别 SoC(约值 $3000–5000);Figure 自己背后烧的训练算力是几千张 H100 持续跑(这部分均摊到每台机器人才是真实成本);仿真 / RL 是几万核 CPU 集群,可能是 AWS/Azure 租的。
真正稀缺的不是 GPU 也不是 CPU,是"既能装进机器人又够跑 VLA 模型的 edge SoC"——这块 Jetson Thor 是 2025–2026 的事实垄断。这也是为什么 Mobileye 收 Mentee 这种动作有意思——它在赌"自动驾驶 SoC 那条产业链可以横向打到 humanoid",挑战 NVIDIA 在 onboard 的位置。
Mayo Clinic 的 REDMOD:胰腺癌提前三年
在梅奥诊所,一种名为 REDMOD 的模型在近 2000 例已由放射科医生审核并标记为正常的 CT 扫描中进行了测试。它仍然在 73% 的病例中识别出胰腺癌的早期迹象,有时甚至在诊断前长达三年。在两年的时间点,它检测到的病例大约是放射科医生的三倍。
对照同一批片子的资深放射科医生只有 39% 的敏感度。胰腺癌之所以五年生存率不到 15%,就是因为 85% 都是扩散后才发现的——这个东西如果跑通临床(Mayo 已经在做 AI-PACED 前瞻研究),是真能救命级别的进展。
Stripe 的 agent 支付栈:四层协议 + 一条链
Stripe 这次发的不是单一产品,是四层协议 + 一条链,可以理解成"为 AI agent 经济铺基础设施"。
1. Machine Payments Protocol(MPP,机器支付协议)。由 Stripe 和 Tempo 联合起草的开放标准,3 月 18 日先发布过。核心思路:
- 让 agent 和服务之间通过 HTTP 直接谈支付,不需要走传统的卡组织通道。
- 复活了 HTTP 402 状态码——这个码 1989 年就在 HTTP spec 里了,叫 "Payment Required",30 年没人用过。MPP 把它启用了:API 请求来了,服务返回 402 + 一段 challenge,说"你要付 0.01 美金才能继续",agent 钱包响应一个签名 token,付款,服务返回数据。
- 支持微支付——一次 API 调用可以是几分之一美分。这是现有信用卡通道完全做不到的(每笔交易至少 30 美分手续费)。
2. Universal Commerce Protocol(UCP,通用商务协议)。Stripe 进的一个多家共同参与的标准(Tech Council 成员),目标更广:跨平台 checkout 互通、身份链接、订单跟踪、支付 token 安全交换。跟 OpenAI 推的 ACP(Agentic Commerce Protocol)是直接竞争关系。Google 站队 UCP(Stripe 也和 Google 做了合作,让你能直接在 Gemini 里买东西),OpenAI 站 ACP,这是 2026 年正在打的协议战争。
3. Tempo —— 一条专门给支付用的 Layer 1 区块链。由 Stripe + Paradigm 孵化,3 月上线,宣称做了 50 亿美元的链上规模:
- 专为高频支付设计,无原生 gas token(这点很反常——大多数 L1 都有自己的代币)。
- 设计目标:大规模 agent 之间结算,stablecoin 做基础结算单位。
- 可以理解成"为支付重新设计的以太坊替代品"。
4. Shared Payment Tokens(共享支付代币)。最贴近 agent 页面核心机制:
- 你(人类)授权一个 token 给 agent,比如"10 美金以下、限酒店预订、有效期 24 小时"。
- agent 拿这个 token 去任何接 Stripe 的商户结账。
- agent 永远看不到你的真实卡号或银行账户。
- 出问题随时撤销。
类似 Apple Pay / Google Pay 的"虚拟卡号"思路,但是面向 agent 场景做了限额、用途、时间维度的可编程化。
5. 加 stablecoin 和 "agentic tokens"。文档里说"很快会支持 stablecoins 和 agentic tokens"。后者比较模糊,目前看是和 Mastercard / Visa 这些卡组织合作发的、专门给 AI agent 场景的代币产品。
把这五层叠起来:如果你是开发者要做一个"会替用户买东西"的 agent,过去你要集成 Stripe(卡)、集成支付宝 / 微信 / PayPal、自己写 fraud 检测、自己处理用户授权 / 撤销、处理跨境结算。现在 Stripe 给你一套打包:Link Wallet 替用户管授权,MPP 处理 agent ↔ 服务的支付握手,UCP 处理跨平台互操作,Tempo 处理大规模结算,Shared Tokens 处理凭证安全。
这就是 Stripe 在 2026 年下的 thesis:未来大量经济交易是 agent 发起的,而 agent 发起的支付不是"信用卡 + checkout 表单"那种 1990 年代的范式,需要全新的协议层。Stripe 想成为这一层的事实标准,就像它在 2010 年代成为开发者支付集成的事实标准一样。
Pangram 的 AI 文本检测
根据 Max 的说法,Pangram 的误报率为 1/10,000。如果 Pangram 说某物是 AI 生成的,可以非常有信心它是由 AI 生成的。并不是万无一失——短文本、高度人性化的内容或非常新的模型可能会漏网。但当他们标记某物时,他们声称有 98.99% 的准确率。Max 提到之前 GPTZero 这种"AI 检测"工具经常被嘲笑,因为它们经常给出大量误报,例如说独立宣言是由 AI 编写的,并表示这种情况不再发生了。