中美前沿模型 Elo 随时间的对比

来自 U.S. Center for AI Standards and Innovation 的一张图,把 2024 年 1 月到 2026 年 5 月各家前沿模型的能力分(Elo)画在发布时间轴上,分别画出了中美两条趋势线。

图表内容

美国阵营(从低到高):OpenAI GPT-4o(2024 年 1 月,约 100 Elo) → Anthropic 3.6 Sonnet → OpenAI o1 → OpenAI o3-mini → OpenAI o3 → Anthropic Opus 4 → OpenAI GPT-5 → OpenAI GPT-5.2 → OpenAI GPT-5.4(约 1100)→ Anthropic Opus 4.6(约 1100)→ OpenAI GPT-5.5(约 1250,当前最高)。

中国阵营:DeepSeek R1(2025 年 1 月,约 150)→ 阿里 Qwen3 → DeepSeek R1-0528 → 阿里 QwQ → DeepSeek V3.1 → Kimi K2-Thinking → Kimi K2.5 → DeepSeek V4 Pro(约 800,当前最高)。

值得记下的几点观察

  • 斜率相近,起点错开。两条趋势线的爬升速度几乎相同,所谓「中国追赶速度更快」在斜率上并没有明显体现。真正存在的是起点差距:中国前沿模型在时间轴上大约滞后 6–9 个月。
  • 当前能力 gap 约 450 Elo。美国线在 2026 年中已经摸到 1250,中国最高(DeepSeek V4 Pro)约 800。
  • Elo 并不等于绝对能力。榜单分是对模型行为的一种粗粒度压缩,两个 Elo 接近的模型在具体任务上的表现可能差异很大。
  • 按现有斜率外推,gap 不缩小。把两条线按当前斜率往前延,距离基本保持不变,而不是逐渐收敛。

需要注意的边界

这是一份基于公开榜单、公开发布的视图。各家实验室未公布的闭源模型、内部评测快照、未发布版本都不在图里。任何从这张图得到的结论,都应该在这个前提下保持克制。