GPT-5.5 发布

GPT-5.5 今天发布。它够快可以持续使用、够友好可以协作、够坚定可以完成复杂工程任务。在写作上,它比过去一年所有 OpenAI 模型都更好;在新发布的"高级工程师基准"——衡量模型按高级工程师方式重写混乱生产代码库的能力——上拿到了最强成绩。"同时更易用又更强大"的模型很罕见。

速度是最明显的变化。在一对一测试里,GPT-5.5 比 Opus 4.7 快很多,给人一种低摩擦的熟练感——更容易迭代、更容易保持同步,在日常专业工作里更值得信赖。它也更愿意花时间规划和审查、提出更多问题、在继续之前检查自己的工作,尤其是在高推理设置下。

跑分之外:GPT-5.5 比 5.4 用 token 少了约 40%,价格更贵,但综合下来净涨约 20%——同时更聪明、更快。

AI native 公司:Latent Space × Unsupervised Learning 联合播客

嘉宾 swyx(AI Engineer 社区创始人,现任职 Cognition)与主持人 Jacob Effron 就 2026 年 AI 生态深度对谈。核心观点:

① AI 工程当下热点

工程师最关注的议题:harness engineering(编排层工程)、context engineering(上下文工程)、skills(技能包)。后者已经成为 agent 的最小可行打包格式——本质上一个 markdown 加几个脚本——这是基础设施趋于稳定的信号。

② 应用公司比基础设施公司更耐打

AI 基础设施公司每年都得颠覆自己(LangChain / LangGraph 是典型)。应用公司(Sierra、Lara)扮演"外包 AI 团队",跟上最先进模型即可,客户粘性更高。

③ Agent 实验室路径

头部 coding agent 公司(Cursor、Cognition)的打法:先用前沿大模型起步,在特定领域积累足够数据后,自己训练专有模型,以降低成本和延迟。在搜索、代码补全等高频定型任务上,这是真实价值,不是噱头。

④ 开源模型 + 替代芯片

swyx 改变了此前对开源模型偏悲观的判断。原因之一:非英伟达芯片(Cerebras、Taalas 等)的推理速度已达每秒数千 token,每 10 倍速度提升都会催生全新的产品体验。

更正一笔:2025 年 12 月,英伟达以约 200 亿美元收购 Groq 的核心资产,是有史以来最大的一笔交易。结构特殊——英伟达拿走技术授权和核心高管团队(包括创始人 Jonathan Ross),但 Groq 公司"壳"还在,由财务总监接任 CEO,以独立公司形式继续存在。FTC 已将其列入"伪装成合并"调查名单。2026 年 3 月英伟达发布基于 Groq LPU 技术的新芯片,声称对万亿参数模型的推理吞吐是 Blackwell 的 35 倍。

Taalas:把模型刻进硅

播客里说的"Talu"其实是 Taalas——多伦多的芯片创业公司,思路非常激进:不做通用 GPU,而是把 AI 模型的参数直接刻进芯片晶体管,变成硬件电路而不是软件运行。

性能数据夸张——HC1 芯片每秒 1.4 万 token,声称比 Cerebras 快 10 倍,比 GPU 快约 100 倍,功耗只有 200 瓦(普通 GPU 机架要 120 到 600 千瓦)。代价是灵活性:芯片为特定模型定制,第一款产品绑定 Llama 3.1 8B。今年 2 月完成 2.19 亿美元融资。

这也解释了 swyx 说的"开源模型 + 替代芯片"逻辑:Taalas 这类公司只能跑开源模型(拿到权重才能刻),所以开源生态和非英伟达硬件的崛起是相互绑定的。

用一个比喻理解

普通 GPU:厨师每次做菜都要去仓库取食材、回来烹饪、再去取——大量时间浪费在"搬运"。AI 推理的真正瓶颈不是算力不够,而是搬数据太慢——专业术语叫内存带宽瓶颈。

Taalas:把模型参数直接"刻"进芯片电路,就像把菜谱烧进厨师的肌肉记忆——数据就在原地,拿起来就用。没有搬运,速度自然快几十甚至上百倍。

代价也很明显:这个"厨师"只会做一道菜。换个模型就得重新定制芯片,大约要两个月。这是典型的灵活性换速度取舍——对于规模化跑同一个模型的场景非常划算,对于需要频繁换模型的研究场景就不适用。

⑤ AI 编程战争进入"能力探索"阶段

Anthropic 的 Claude Code 约 25 亿美元 ARR,OpenAI 和 Cursor 各约 20 亿——这些市场是过去一年内凭空创造的。整个行业处于"花得越多越被奖励"的阶段,效率优化尚未到来。

⑥ 2026 年的核心论断

swyx 的判断:2025 年是 coding agent 之年;2026 年是 coding agent 突破边界、渗透到其他一切领域之年。逻辑链——软件吞噬世界 → coding agent 吞噬软件 → coding agent 吞噬世界。

⑦ 消费级 AI 遇瓶颈,coding AI 仍在加速

ChatGPT 用户量不再增长,看起来更像整个消费级 AI 品类碰到了频率和产品设计的天花板,而非竞品抢走份额。coding AI 则是真正日活级别的刚需品类。

⑧ 传统 SaaS 正在被蚕食

swyx 自己公司的年度活动管理软件花了 20 万美元,他认为用 AI 搭一个定制版只需 2000 美元。内部最大阻力来自团队接受程度——AI 原住民与传统派之间存在真实的文化裂痕。

⑨ "黑暗工厂"是下一个边界

行业已接受"零人类编写代码",下一个更激进的前沿是"零人类审查代码"——模型写完直接上线,倒逼企业从根基重构测试和验证体系。

⑩ 记忆是最慢的扩展因子

上下文长度从 4K 到 100 万 token 花了三年,而且即便有了百万 token 上下文,大多数真实工作流也没有因此改变。记忆与个性化将是 AI 下一阶段最关键的瓶颈,也是用户选择产品的核心依据。

⑪ LLM 的"心灵捕手"困境

结尾的比喻很有画面感:今天的大模型像《心灵捕手》里的马特·达蒙——读过一切,却没有活过。Fei-Fei Li 提出的"空间智能"问题正指向这个本质缺口:AI 知道"桌子"这个词,但不知道桌子是什么感觉。世界模型研究的意义就在这里。

OpenAI Privacy Filter:浏览器内可跑的小模型

OpenAI 开源了一个真正有用的模型 Privacy Filter——15 亿参数,但只有 5000 万活跃参数,小到可以在浏览器里完全离线运行。Xenova 做了一个 Web 演示。这种小模型的实用价值很高——可以用来过滤医疗数据等隐私敏感场景的输入,过滤后再喂给云端 AI 工具。

语音输入 + 光标位置感知

"Here, fix THIS thing"——你不用说"this"是什么,Claude 会通过查看你光标当时的位置来推断。这种"近指代 + 视觉上下文"的组合让远程办公的语音工作流体验明显升级。

Kimi K2.6:在家版 Opus(如果你有数据中心)

Kimi K2.6 发布。开源模型的重量级一档继续逼近闭源旗舰。

医疗方向

OpenAI 发布了临床医生/医疗模型 + Workspace Agents 组合。同时 Together AI 报告 token 用量从 30B/月增长到 300T/月(同比),是大规模推理需求扩张的一个指标。Epoch AI 下调了 Stargate Abilene 当前可运行功率的估计到 ~0.3 GW,把完整的 1.2 GW 里程碑推迟到 2026 Q4——前沿算力部署的不确定性仍然很高。

OpenAI Human Verification:World ID 4.0

World 推出了 World ID 4.0——AI 内容泛滥时代用来验证"真人"的新版本。平台用一个叫 Orb 的虹膜扫描设备生成唯一的加密身份。已有超过 1800 万用户在 160 个国家注册。

更重要的是采用信号——新合作伙伴包括 Tinder、Zoom、DocuSign、Shopify、Okta、AWS、Vercel。Tinder 在加"真人验证徽章",Zoom 在测试视频通话的 deepfake 检查,DocuSign 计划对签名做人工验证。

noscroll:替你刷 X 的 AI

"X 拥有互联网上最好的信息和最差的激励与文化。noscroll 是替你 doomscroll 的 AI,只把真正重要的信息发给你。没有 feed、没有脑残化、没有 ragebait——只有 signal。"

Remotion + Claude Code:(几乎) 一镜到底拍产品视频

Every 的增长主管 Austin Tedesco 与开源视频创作工具 Remotion 和 Claude Code 折腾了几天,摸索出一套可复用的产品视频工作流。每次需要做产品发布或功能演示视频时都用得上:

  • 步骤 1:用屏幕录制把你实时点击产品功能的过程录下来。需要的就是一段原始素材。
  • 步骤 2:把录像发给一个模型(Austin 偏爱 Opus),让它起草分镜脚本。录像提供了 UI 工作方式与文案的"地面真相",避免最常见的"看似合理但其实是幻觉"的标签和功能。
  • 步骤 3:跟模型来回打磨分镜脚本,直到 hook、节奏、逐拍计划都对劲。
  • 步骤 4:把分镜脚本交给 coding agent,让它在 Remotion 里把视频搭出来。有屏幕录像和对应分镜,第一次完整渲染通常就可以发布。不是真正的 one-shot,但能省下大量时间。