AI 学习笔记 — 4月17日

关注 Claude 在 X 上的账号

比如今天 reset，我们就没有得到这个消息，不然昨天我们可以大幅度地用。关注官方动态是真能省 token 的。

Oversee Agents 是未来方向，而不是 Write Code

Dan Shipper 的观点：开发工作正在走向监督 agents，而不是写代码。被否定的假设：CLI 会吞噬 UI。在以 CLI 为主的工作流中，你主要通过文本来监督：命令、日志、git 状态、diff、终端输出。但现在 agent 在写代码，这已经不是一个好的主界面了。

未来的 coding UI 会围绕：管理并行工作、保持 git/任务上下文的感知，最重要的是——对你正在构建的东西有实时预览。

我觉得这个很有意思。很多人会说 CLI 就是未来，但未来到底是不是只有程序员能够 oversee agents？就像同事做汇报，也要照顾到 non-technical background 的同事，要说人话。UI 其实就是人话。人话是被需要的。

Opus 4.7 让我惊讶的两点

它派出 haiku 去处理文档探索类的东西，然后我用的是 Opus 4.7 max。这个很神奇，等于说它在主动减少 token 的消耗量并且提升速度。
它能识别出我们中文简历用的是哪个网站上的模板，这个我确实没想到。

Fast Mode Claude 用不了了

4.6 能用，更新了就用不了，也是服了。

另外看到两个新 mode 目前定位不太清楚：

Allow bypass permissions mode：跳过所有权限检查，让 Claude 不受干扰地工作。适合修 lint 错误、生成样板代码这种场景。但让 Claude 跑任意命令是有风险的，可能导致数据丢失、系统损坏或通过 prompt injection 泄露数据。
Allow auto permissions mode：Auto mode 让 Claude 在 coding session 中自己决定权限，这样开发者可以跑更长的任务而不被 Claude 频繁打断。Auto mode 也包含针对 prompt injection 的额外保护。

这两个 mode 的定位和边界目前还不太清楚。

OpenAI Codex 更新

OpenAI 悄悄收购了一家叫 Software Apps Inc 的公司，该公司大约一年前推出了一款名为 Sky 的 macOS AI 伴侣。这个团队对 Mac 非常痴迷，他们竟然打造了一种神奇的体验——很大一部分原因是他们在后台控制着 Mac。你在一个文档上工作，Codex 在另一个文档上点击按钮并执行操作，而不会打断你。

听说 computer use 现在很顺滑？Computer use UX 正成为主流产品类别：OpenAI 的 Codex 桌面/computer use 更新引起了异常强烈的从业者反应。有人称子代理 + computer use "非常接近"实际感觉中的 AGI。

Warp Terminal 支持所有 CLI Agent

Warp 在我看来是最好的终端体验，刚刚发布了对任何 CLI agent 的一流支持——Claude Code、Codex、OpenCode、Gemini CLI，全部可以并排运行在垂直标签页里，带实时状态指示器。

杀手级功能，也解决了我认为 Claude Code 最痛的点——agent 需要你时的通知。如果你用过 Claude Code，你就知道不停检查它是不是在等权限或输入的痛。Warp 会通知你。你过去批准一下，回去继续做你的事。他们还加了集成的代码审查、富多模态输入编辑器，以及——这个很疯——手机远程控制。

Claude Code 团队的最佳建议

委派，不要微管——把任务完整交给 agent，别每步都管。
把完整的目标 + 约束 + 验收标准放在前面——一次性把信息给足。
告诉模型如何验证——把测试工作流写进 claude.md 或 skills。

这强烈暗示 Anthropic 优化的方向是自主任务循环，其中显式的 validation 是核心。

建立自验证循环

配置 Claude 自动运行构建、测试和 lint 来验证自己的工作。这让 Claude 能更长时间地自主工作并自行发现错误，在让 Claude 先写测试再写代码时尤为有效。

培养任务分类直觉

学会区分哪些任务适合异步处理（边缘功能、原型开发），哪些需要同步监督（核心业务逻辑、关键修复）。产品边缘的抽象任务可以用"自动接受模式"处理，而核心功能需要更严密的监督。

写清晰、详细的提示

当多个组件名称或功能相似时，请求要极其具体。提示越好越详细，就越能放心让 Claude 独立工作，而不会意外修改代码库中错误的地方。

CLAUDE.md 的作用范围

你在 /Desktop/claudecode/ 下开的 tab：
  读：全局 + 这个项目 + 记忆

你在 /Desktop/其他项目/ 下开的 tab：
  读：全局 + 那个项目的 CLAUDE.md（如果有）+ 那个项目的记忆

→ 全局 CLAUDE.md 是共享的
→ 项目 CLAUDE.md 是独立的
→ 对话上下文永远是独立的（除非你用 /resume）

Claude Code 团队自己怎么用 Claude Code

会话结束后自动更新文档：团队让 Claude Code 在每次工作会话结束时总结已完成的工作并提出改进建议。这形成了持续改进的闭环——Claude Code 根据实际使用情况不断完善 claude.md 文档和工作流说明，让后续迭代越来越顺畅。

跨多个实例并行管理任务：在处理长时间运行的数据任务时，他们在不同仓库里为不同项目打开多个 Claude Code 实例。每个实例都保有完整的上下文，即使几小时或几天后再切换回来，Claude Code 也能精确记得之前做到哪里、正在做什么。

继续学习 nano-vllm

整个推理流程：

你输入: "今天天气真好"
         │
         ▼
    ┌─────────┐
    │ tokenize│  ← 把文字切成数字
    └─────────┘
         │
         ▼
    [15, 234, 89, 12, 456, 78]
         │
         ▼
  ═══════════════════════════════
         INFERENCE（推理）
  ═══════════════════════════════
         │
         ├─ 阶段1: PREFILL
         │   把整串数字一次性喂给 GPU
         │
         └─ 阶段2: DECODE
             一个 token 一个 token 地吐

Batching（批处理）

同时 decode N 个请求 → 单步时间差不多 → 吞吐量 ×N。这是 vLLM、nano-vllm 这类推理框架最核心的性能来源。

Static Batching:
  等 [A, B, C, D] 凑齐 → 一起出发
  A 用 50 个 token 说完了 → 但还要等 B、C、D 一起结束
  → A 占的"座位"白白空着

Continuous Batching:
  A 结束立刻下车，新人立刻上车
  → 座位永远有人坐

Preempt（抢占）

显存不够时，nano-vllm 的做法：

before:
  显存: [A 100MB] [B 200MB] [C 60MB]
  请求 D 需要 150MB → 挤不进来

操作 preempt(A):
  把 A 踢回 waiting 队列
  释放 A 的 KV cache (100MB)

after:
  显存: [___空___] [B 200MB] [C 60MB]
  现在有 100MB 空闲

继续 preempt(B):
  显存: [___空___] [___空___] [C 60MB]
  现在有 300MB 空闲 ✅
  请求 D 进来，分配 150MB

被踢出去的 A 怎么办？A 的 KV cache 没了，等下再轮到它的时候，重新 prefill 一次——把整个历史（prompt + 已经生成的）重算一遍。"重算"比"等着"快得多，因为 prefill 是 compute-bound，非常快。

Prefix Caching

block 表：
  block 0: "请介绍"的 K、V        (A、B 都指向这里)
  block 1: "北京的"的 K、V        (A、B 都指向这里)
  block 2: "历史，"的 K、V        (A、B 都指向这里)
  block 3: "重点讲明清"的 K、V    (只有 A 指向)
  block 4: "重点讲民国"的 K、V    (只有 B 指向)

用 block 的 ref_count（引用计数）管理：
  block 0 的 ref_count = 2  (A、B 在用)
  block 3 的 ref_count = 1  (只有 A 用)

当 A 结束：block 0 的 ref_count 从 2 → 1，不释放
当 B 也结束：block 0 的 ref_count 从 1 → 0，才释放

为什么服务商能给出极低的 system prompt 价格？用了 prefix caching 后，5000 tokens 的 system prompt 只有第一次算，后续全部复用 block。服务商几乎没花算力，所以收你超便宜的价。

Generate 伪代码

function generate(prompt, max_new_tokens):
    # Step 1: tokenize
    tokens = tokenize(prompt)

    # Step 2: prefill —— 把整个 tokens 一次喂进去
    next_token, kv_cache = model(tokens, kv_cache=empty)
    tokens.append(next_token)

    # Step 3: decode loop —— 每次只喂上一个新 token
    for i in range(max_new_tokens - 1):
        last_token = tokens[-1]
        next_token, kv_cache = model([last_token], kv_cache)
        tokens.append(next_token)

    # Step 4: detokenize
    return detokenize(tokens)

两个关键认知

1. Q、K、V 是从同一个 token 通过三个不同的矩阵 W_Q、W_K、W_V 算出来的（这就是为什么"模型参数"占显存大——这些 W 矩阵巨大）。

2. kv_cache 只存 K 和 V，不存 Q（Q 每步现算，K、V 历史不变存起来）。

简单理解 Attention

Attention 公式：
  Attention(Q, K, V) = softmax(Q · K) · V

用比喻：
  Q (Query)   = "我要找什么？"     ← 当前 token 的问题
  K (Key)     = "我是什么类型？"   ← 历史每个 token 的标签
  V (Value)   = "我的实际内容"     ← 历史每个 token 的信息

图书馆查资料：
  你的问题 Q          = "我想学 prefill"
  每本书的书名 K       = "Python 入门"、"LLM 推理"、"Transformer 论文"...
  每本书的内容 V       = 书里的具体文字

  attention 就是：
    1. 拿 Q 跟每个 K 比，看哪本书相关（softmax(Q·K)）
    2. 按相关度加权读每本书的 V
    3. 得到一个"融合"的答案

QKV Forward

function model_forward(new_tokens, kv_cache):
    # Step 1: 对每个新 token，算出它的 Q, K, V
    for each token in new_tokens:
        embedding = embed(token)
        Q = embedding @ W_Q
        K = embedding @ W_K
        V = embedding @ W_V

        # 把新的 K, V 追加到 kv_cache
        kv_cache["K"].append(K)
        kv_cache["V"].append(V)

    # Step 2: 用当前 Q + kv_cache 里所有的 K, V 做 attention
    all_K = kv_cache["K"]
    all_V = kv_cache["V"]
    context = attention(Q, all_K, all_V)

    # Step 3: context → 更多层 → 预测下一个 token
    logits = output_layer(context)
    next_token = sample(logits)

    return next_token, kv_cache

Prefill（3 个 token 一次进模型）:

  今 → Q1, K1, V1  ↘
  天 → Q2, K2, V2  →  GPU 并行算完 3 份 K、V
  气 → Q3, K3, V3  ↗

Decode（1 个 token 进模型）:

  好 → Q4, K4, V4   ← 只算 1 份 K、V

Prefix caching 的坑：nano-vllm 里 prefix caching 是"按块计算的"，不是按 token。block_size = 256，如果 prompt 才 22 个 token，连半块都没装满，根本不会生成 hash，第二个请求也就查不到——miss。

React 仪表盘 vs Jupyter Notebook

Jupyter Notebook 是临时的——跑一次、看一下、然后扔掉，下次评估又要重新写。React 仪表盘是一个真正的 Web 应用，部署之后可以一直用，每次新模型训练完直接把数据接进去就能看，不用重写任何东西。

他们强调的核心点是：模型性能的可视化其实很复杂，不是看一个 accuracy 数字就够了，需要多维度、交互式地看。Power BI/Tableau 这类工具是通用的，但他们需要高度定制化的视图来理解 RL 训练中的特定指标。所以干脆让 Claude Code 直接帮他们写一个专属 React Web App。

为什么还用 Figma

Figma 现在仍然是设计行业的绝对标准，并没有"老"。它一直在迭代，去年还推出了 AI 功能。设计师的工具链是：Figma 做视觉设计 + Claude Code 把设计转成真实代码，两者是互补关系，不是替代关系。

文档里说他们用 Figma 80% 的时间都打开着，说明 Figma 反而因为 Claude Code 变得更重要了——设计师可以直接把 Figma 截图粘进 Claude Code 来生成代码原型。

GitHub Actions 自动工单

这个是 Claude Code 官方支持的一个功能——可以把 Claude Code 接入 GitHub Actions，当有人提 Issue 或 PR comment 时自动触发 Claude 来分析并提出修改建议甚至直接开 PR。设计团队用这个来处理积压的小改动，比如改个间距、改个文案。

996 已经消散，24/7 才是新常态

在知识工作史上，第一次有人回家时没有把大脑的副本带在身边。996 作为一个概念已经消亡，我们现在是 24/7 的员工——但 24/7 的员工并不是一个工作 24 小时的人，而是一个 agent 能够进行巨大并行化的人。

到 2026 年，大多数团队仍然在协调上存在瓶颈，而不是在打字上，大多数组织才开始进行重组。但前沿总是未来最先出现的地方，而前沿已经在这里了。这篇文章并不是对整个行业的描述，而是对已经在最 AI 原生的团队中发生的事情的描述。

之后我想要做一期这个相关的视频。

概率问题：程序员无法保证自己代码一定可以跑

这不是一个未来的问题，而是一个现在的问题。在某个吞吐量之后，错误会溜进来不是因为审查者粗心，而是因为输出量已经超过了人类注意力可以有意义地检查的范围，而且进行大部分审查的模型本身是非确定性的，并且会错过很多。代码库不再是一个你知道它能正常工作的东西，而是一个你相信它能正常工作的东西，一个你无法再精确描述概率的东西。

这对大多数领导团队来说具有战略意义，但尚未完全理解。你并不是在为你已有的模型构建组织能力，而是在为你尚未拥有的模型构建能力。你正在学习编写的规范、正在建立的审查文化、正在集成的可观测性、正在学习指挥的代理舰队、正在试验的培训仪式——所有这些都不是针对 2026 年的能力，而是为 2027 年和 2028 年的能力搭建的脚手架。

现在正在搭建这种脚手架的公司，将在下一次能力跃迁中利用这一优势，而那些等待工具成熟后再重新调整组织的公司，将在下一个能力时代的第一年学习早期采用者已经知道的东西，而早期采用者则会不断积累优势。

McKinsey：代理型组织（Agentic Organization）

来源：McKinsey Podcast — Alexis Krivkovich × Lucia Rahilly（2026-04-02）

核心悖论

超过 80% 的公司对 AI 进行了大规模投资，却尚未看到底线回报。问题不在技术，在于组织没有跟上重新设计。

五个支柱

1. 商业模式：近零边际成本的交付能力，将打破所有依赖摩擦的护城河。比如：agent 替用户自动在各银行间搬钱追最优利率 → 银行账户黏性消失。

2. 团队结构：75% 的岗位需要在 2-3 年内根本性重塑。不是消失，是职责边界全部要重写，包括管理层。大型组织过去十年多增加了 1-3 层管理，agent 可能让高管实现"超人管理幅度"，压缩层级、加速决策。

3. 工作流程：最大价值不是"用 AI 把某个任务做快"，而是端到端重构整条流程。例子：保险承保全流程重构；HR 从招聘到入职的全流程重构；AAA（美国仲裁协会）：agent 自动整理案件时间线、梳理事实、生成裁决建议 → 仲裁员只需判断"我是否同意"。

4. 领导力：

Human in the loop：agent 做部分步骤，交给人处理其余部分
Human above the loop：agent 完成整个核心流程，人只做最终判断 ← 这是方向

5. 人才：判断力、系统思维、人际管理等软技能反而更值钱。Junior 员工悖论：如果 agent 接管了所有"打杂"工作，新人失去积累判断力的路径 → 解法是把 L&D 从边缘活动变成职业旅程核心。变革管理从"阶段性"变为永续状态："Change management is no longer an episodic thing. It's a perpetual state." 用"双向门"（可逆实验），别押注整个公司。

关联

和上面 Dan Shipper 的"oversee agents 是未来方向"是同一趋势，McKinsey 这篇是企业组织管理版本。