AI 学习笔记 — 4月24日

GPT-5.5 发布

GPT-5.5 今天发布。它够快可以持续使用、够友好可以协作、够坚定可以完成复杂工程任务。在写作上，它比过去一年所有 OpenAI 模型都更好；在新发布的"高级工程师基准"——衡量模型按高级工程师方式重写混乱生产代码库的能力——上拿到了最强成绩。"同时更易用又更强大"的模型很罕见。

速度是最明显的变化。在一对一测试里，GPT-5.5 比 Opus 4.7 快很多，给人一种低摩擦的熟练感——更容易迭代、更容易保持同步，在日常专业工作里更值得信赖。它也更愿意花时间规划和审查、提出更多问题、在继续之前检查自己的工作，尤其是在高推理设置下。

跑分之外：GPT-5.5 比 5.4 用 token 少了约 40%，价格更贵，但综合下来净涨约 20%——同时更聪明、更快。

AI native 公司：Latent Space × Unsupervised Learning 联合播客

嘉宾 swyx（AI Engineer 社区创始人，现任职 Cognition）与主持人 Jacob Effron 就 2026 年 AI 生态深度对谈。核心观点：

① AI 工程当下热点

工程师最关注的议题：harness engineering（编排层工程）、context engineering（上下文工程）、skills（技能包）。后者已经成为 agent 的最小可行打包格式——本质上一个 markdown 加几个脚本——这是基础设施趋于稳定的信号。

② 应用公司比基础设施公司更耐打

AI 基础设施公司每年都得颠覆自己（LangChain / LangGraph 是典型）。应用公司（Sierra、Lara）扮演"外包 AI 团队"，跟上最先进模型即可，客户粘性更高。

③ Agent 实验室路径

头部 coding agent 公司（Cursor、Cognition）的打法：先用前沿大模型起步，在特定领域积累足够数据后，自己训练专有模型，以降低成本和延迟。在搜索、代码补全等高频定型任务上，这是真实价值，不是噱头。

④ 开源模型 + 替代芯片

swyx 改变了此前对开源模型偏悲观的判断。原因之一：非英伟达芯片（Cerebras、Taalas 等）的推理速度已达每秒数千 token，每 10 倍速度提升都会催生全新的产品体验。

更正一笔：2025 年 12 月，英伟达以约 200 亿美元收购 Groq 的核心资产，是有史以来最大的一笔交易。结构特殊——英伟达拿走技术授权和核心高管团队（包括创始人 Jonathan Ross），但 Groq 公司"壳"还在，由财务总监接任 CEO，以独立公司形式继续存在。FTC 已将其列入"伪装成合并"调查名单。2026 年 3 月英伟达发布基于 Groq LPU 技术的新芯片，声称对万亿参数模型的推理吞吐是 Blackwell 的 35 倍。

Taalas：把模型刻进硅

播客里说的"Talu"其实是 Taalas——多伦多的芯片创业公司，思路非常激进：不做通用 GPU，而是把 AI 模型的参数直接刻进芯片晶体管，变成硬件电路而不是软件运行。

性能数据夸张——HC1 芯片每秒 1.4 万 token，声称比 Cerebras 快 10 倍，比 GPU 快约 100 倍，功耗只有 200 瓦（普通 GPU 机架要 120 到 600 千瓦）。代价是灵活性：芯片为特定模型定制，第一款产品绑定 Llama 3.1 8B。今年 2 月完成 2.19 亿美元融资。

这也解释了 swyx 说的"开源模型 + 替代芯片"逻辑：Taalas 这类公司只能跑开源模型（拿到权重才能刻），所以开源生态和非英伟达硬件的崛起是相互绑定的。

用一个比喻理解

普通 GPU：厨师每次做菜都要去仓库取食材、回来烹饪、再去取——大量时间浪费在"搬运"。AI 推理的真正瓶颈不是算力不够，而是搬数据太慢——专业术语叫内存带宽瓶颈。

Taalas：把模型参数直接"刻"进芯片电路，就像把菜谱烧进厨师的肌肉记忆——数据就在原地，拿起来就用。没有搬运，速度自然快几十甚至上百倍。

代价也很明显：这个"厨师"只会做一道菜。换个模型就得重新定制芯片，大约要两个月。这是典型的灵活性换速度取舍——对于规模化跑同一个模型的场景非常划算，对于需要频繁换模型的研究场景就不适用。

⑤ AI 编程战争进入"能力探索"阶段

Anthropic 的 Claude Code 约 25 亿美元 ARR，OpenAI 和 Cursor 各约 20 亿——这些市场是过去一年内凭空创造的。整个行业处于"花得越多越被奖励"的阶段，效率优化尚未到来。

⑥ 2026 年的核心论断

swyx 的判断：2025 年是 coding agent 之年；2026 年是 coding agent 突破边界、渗透到其他一切领域之年。逻辑链——软件吞噬世界 → coding agent 吞噬软件 → coding agent 吞噬世界。

⑦ 消费级 AI 遇瓶颈，coding AI 仍在加速

ChatGPT 用户量不再增长，看起来更像整个消费级 AI 品类碰到了频率和产品设计的天花板，而非竞品抢走份额。coding AI 则是真正日活级别的刚需品类。

⑧ 传统 SaaS 正在被蚕食

swyx 自己公司的年度活动管理软件花了 20 万美元，他认为用 AI 搭一个定制版只需 2000 美元。内部最大阻力来自团队接受程度——AI 原住民与传统派之间存在真实的文化裂痕。

⑨ "黑暗工厂"是下一个边界

行业已接受"零人类编写代码"，下一个更激进的前沿是"零人类审查代码"——模型写完直接上线，倒逼企业从根基重构测试和验证体系。

⑩ 记忆是最慢的扩展因子

上下文长度从 4K 到 100 万 token 花了三年，而且即便有了百万 token 上下文，大多数真实工作流也没有因此改变。记忆与个性化将是 AI 下一阶段最关键的瓶颈，也是用户选择产品的核心依据。

⑪ LLM 的"心灵捕手"困境

结尾的比喻很有画面感：今天的大模型像《心灵捕手》里的马特·达蒙——读过一切，却没有活过。Fei-Fei Li 提出的"空间智能"问题正指向这个本质缺口：AI 知道"桌子"这个词，但不知道桌子是什么感觉。世界模型研究的意义就在这里。

OpenAI Privacy Filter：浏览器内可跑的小模型

OpenAI 开源了一个真正有用的模型 Privacy Filter——15 亿参数，但只有 5000 万活跃参数，小到可以在浏览器里完全离线运行。Xenova 做了一个 Web 演示。这种小模型的实用价值很高——可以用来过滤医疗数据等隐私敏感场景的输入，过滤后再喂给云端 AI 工具。

语音输入 + 光标位置感知

"Here, fix THIS thing"——你不用说"this"是什么，Claude 会通过查看你光标当时的位置来推断。这种"近指代 + 视觉上下文"的组合让远程办公的语音工作流体验明显升级。

Kimi K2.6：在家版 Opus（如果你有数据中心）

Kimi K2.6 发布。开源模型的重量级一档继续逼近闭源旗舰。

医疗方向

OpenAI 发布了临床医生/医疗模型 + Workspace Agents 组合。同时 Together AI 报告 token 用量从 30B/月增长到 300T/月（同比），是大规模推理需求扩张的一个指标。Epoch AI 下调了 Stargate Abilene 当前可运行功率的估计到 ~0.3 GW，把完整的 1.2 GW 里程碑推迟到 2026 Q4——前沿算力部署的不确定性仍然很高。

OpenAI Human Verification：World ID 4.0

World 推出了 World ID 4.0——AI 内容泛滥时代用来验证"真人"的新版本。平台用一个叫 Orb 的虹膜扫描设备生成唯一的加密身份。已有超过 1800 万用户在 160 个国家注册。

更重要的是采用信号——新合作伙伴包括 Tinder、Zoom、DocuSign、Shopify、Okta、AWS、Vercel。Tinder 在加"真人验证徽章"，Zoom 在测试视频通话的 deepfake 检查，DocuSign 计划对签名做人工验证。

noscroll：替你刷 X 的 AI

"X 拥有互联网上最好的信息和最差的激励与文化。noscroll 是替你 doomscroll 的 AI，只把真正重要的信息发给你。没有 feed、没有脑残化、没有 ragebait——只有 signal。"

Remotion + Claude Code：(几乎) 一镜到底拍产品视频

Every 的增长主管 Austin Tedesco 与开源视频创作工具 Remotion 和 Claude Code 折腾了几天，摸索出一套可复用的产品视频工作流。每次需要做产品发布或功能演示视频时都用得上：

步骤 1：用屏幕录制把你实时点击产品功能的过程录下来。需要的就是一段原始素材。
步骤 2：把录像发给一个模型（Austin 偏爱 Opus），让它起草分镜脚本。录像提供了 UI 工作方式与文案的"地面真相"，避免最常见的"看似合理但其实是幻觉"的标签和功能。
步骤 3：跟模型来回打磨分镜脚本，直到 hook、节奏、逐拍计划都对劲。
步骤 4：把分镜脚本交给 coding agent，让它在 Remotion 里把视频搭出来。有屏幕录像和对应分镜，第一次完整渲染通常就可以发布。不是真正的 one-shot，但能省下大量时间。