AI 学习笔记 — 5月17日

中美前沿模型 Elo 随时间的对比

来自 U.S. Center for AI Standards and Innovation 的一张图，把 2024 年 1 月到 2026 年 5 月各家前沿模型的能力分（Elo）画在发布时间轴上，分别画出了中美两条趋势线。

图表内容

美国阵营（从低到高）：OpenAI GPT-4o（2024 年 1 月，约 100 Elo） → Anthropic 3.6 Sonnet → OpenAI o1 → OpenAI o3-mini → OpenAI o3 → Anthropic Opus 4 → OpenAI GPT-5 → OpenAI GPT-5.2 → OpenAI GPT-5.4（约 1100）→ Anthropic Opus 4.6（约 1100）→ OpenAI GPT-5.5（约 1250，当前最高）。

中国阵营：DeepSeek R1（2025 年 1 月，约 150）→ 阿里 Qwen3 → DeepSeek R1-0528 → 阿里 QwQ → DeepSeek V3.1 → Kimi K2-Thinking → Kimi K2.5 → DeepSeek V4 Pro（约 800，当前最高）。

值得记下的几点观察

斜率相近，起点错开。两条趋势线的爬升速度几乎相同，所谓「中国追赶速度更快」在斜率上并没有明显体现。真正存在的是起点差距：中国前沿模型在时间轴上大约滞后 6–9 个月。
当前能力 gap 约 450 Elo。美国线在 2026 年中已经摸到 1250，中国最高（DeepSeek V4 Pro）约 800。
Elo 并不等于绝对能力。榜单分是对模型行为的一种粗粒度压缩，两个 Elo 接近的模型在具体任务上的表现可能差异很大。
按现有斜率外推，gap 不缩小。把两条线按当前斜率往前延，距离基本保持不变，而不是逐渐收敛。

需要注意的边界

这是一份基于公开榜单、公开发布的视图。各家实验室未公布的闭源模型、内部评测快照、未发布版本都不在图里。任何从这张图得到的结论，都应该在这个前提下保持克制。