关注 Claude 在 X 上的账号

比如今天 reset,我们就没有得到这个消息,不然昨天我们可以大幅度地用。关注官方动态是真能省 token 的。

Oversee Agents 是未来方向,而不是 Write Code

Dan Shipper 的观点:开发工作正在走向监督 agents,而不是写代码。被否定的假设:CLI 会吞噬 UI。在以 CLI 为主的工作流中,你主要通过文本来监督:命令、日志、git 状态、diff、终端输出。但现在 agent 在写代码,这已经不是一个好的主界面了。

未来的 coding UI 会围绕:管理并行工作、保持 git/任务上下文的感知,最重要的是——对你正在构建的东西有实时预览。

我觉得这个很有意思。很多人会说 CLI 就是未来,但未来到底是不是只有程序员能够 oversee agents?就像同事做汇报,也要照顾到 non-technical background 的同事,要说人话。UI 其实就是人话。人话是被需要的。

Opus 4.7 让我惊讶的两点

  1. 它派出 haiku 去处理文档探索类的东西,然后我用的是 Opus 4.7 max。这个很神奇,等于说它在主动减少 token 的消耗量并且提升速度。
  2. 它能识别出我们中文简历用的是哪个网站上的模板,这个我确实没想到。

Fast Mode Claude 用不了了

4.6 能用,更新了就用不了,也是服了。

另外看到两个新 mode 目前定位不太清楚:

  • Allow bypass permissions mode:跳过所有权限检查,让 Claude 不受干扰地工作。适合修 lint 错误、生成样板代码这种场景。但让 Claude 跑任意命令是有风险的,可能导致数据丢失、系统损坏或通过 prompt injection 泄露数据。
  • Allow auto permissions mode:Auto mode 让 Claude 在 coding session 中自己决定权限,这样开发者可以跑更长的任务而不被 Claude 频繁打断。Auto mode 也包含针对 prompt injection 的额外保护。

这两个 mode 的定位和边界目前还不太清楚。

OpenAI Codex 更新

OpenAI 悄悄收购了一家叫 Software Apps Inc 的公司,该公司大约一年前推出了一款名为 Sky 的 macOS AI 伴侣。这个团队对 Mac 非常痴迷,他们竟然打造了一种神奇的体验——很大一部分原因是他们在后台控制着 Mac。你在一个文档上工作,Codex 在另一个文档上点击按钮并执行操作,而不会打断你。

听说 computer use 现在很顺滑?Computer use UX 正成为主流产品类别:OpenAI 的 Codex 桌面/computer use 更新引起了异常强烈的从业者反应。有人称子代理 + computer use "非常接近"实际感觉中的 AGI。

Warp Terminal 支持所有 CLI Agent

Warp 在我看来是最好的终端体验,刚刚发布了对任何 CLI agent 的一流支持——Claude Code、Codex、OpenCode、Gemini CLI,全部可以并排运行在垂直标签页里,带实时状态指示器。

杀手级功能,也解决了我认为 Claude Code 最痛的点——agent 需要你时的通知。如果你用过 Claude Code,你就知道不停检查它是不是在等权限或输入的痛。Warp 会通知你。你过去批准一下,回去继续做你的事。他们还加了集成的代码审查、富多模态输入编辑器,以及——这个很疯——手机远程控制

Claude Code 团队的最佳建议

  • 委派,不要微管——把任务完整交给 agent,别每步都管。
  • 把完整的目标 + 约束 + 验收标准放在前面——一次性把信息给足。
  • 告诉模型如何验证——把测试工作流写进 claude.md 或 skills。

这强烈暗示 Anthropic 优化的方向是自主任务循环,其中显式的 validation 是核心。

建立自验证循环

配置 Claude 自动运行构建、测试和 lint 来验证自己的工作。这让 Claude 能更长时间地自主工作并自行发现错误,在让 Claude 先写测试再写代码时尤为有效。

培养任务分类直觉

学会区分哪些任务适合异步处理(边缘功能、原型开发),哪些需要同步监督(核心业务逻辑、关键修复)。产品边缘的抽象任务可以用"自动接受模式"处理,而核心功能需要更严密的监督。

写清晰、详细的提示

当多个组件名称或功能相似时,请求要极其具体。提示越好越详细,就越能放心让 Claude 独立工作,而不会意外修改代码库中错误的地方。

CLAUDE.md 的作用范围

你在 /Desktop/claudecode/ 下开的 tab:
  读:全局 + 这个项目 + 记忆

你在 /Desktop/其他项目/ 下开的 tab:
  读:全局 + 那个项目的 CLAUDE.md(如果有)+ 那个项目的记忆

→ 全局 CLAUDE.md 是共享的
→ 项目 CLAUDE.md 是独立的
→ 对话上下文永远是独立的(除非你用 /resume)

Claude Code 团队自己怎么用 Claude Code

会话结束后自动更新文档:团队让 Claude Code 在每次工作会话结束时总结已完成的工作并提出改进建议。这形成了持续改进的闭环——Claude Code 根据实际使用情况不断完善 claude.md 文档和工作流说明,让后续迭代越来越顺畅。

跨多个实例并行管理任务:在处理长时间运行的数据任务时,他们在不同仓库里为不同项目打开多个 Claude Code 实例。每个实例都保有完整的上下文,即使几小时或几天后再切换回来,Claude Code 也能精确记得之前做到哪里、正在做什么。

继续学习 nano-vllm

整个推理流程:

你输入: "今天天气真好"
         │
         ▼
    ┌─────────┐
    │ tokenize│  ← 把文字切成数字
    └─────────┘
         │
         ▼
    [15, 234, 89, 12, 456, 78]
         │
         ▼
  ═══════════════════════════════
         INFERENCE(推理)
  ═══════════════════════════════
         │
         ├─ 阶段1: PREFILL
         │   把整串数字一次性喂给 GPU
         │
         └─ 阶段2: DECODE
             一个 token 一个 token 地吐

Batching(批处理)

同时 decode N 个请求 → 单步时间差不多 → 吞吐量 ×N。这是 vLLM、nano-vllm 这类推理框架最核心的性能来源

Static Batching:
  等 [A, B, C, D] 凑齐 → 一起出发
  A 用 50 个 token 说完了 → 但还要等 B、C、D 一起结束
  → A 占的"座位"白白空着

Continuous Batching:
  A 结束立刻下车,新人立刻上车
  → 座位永远有人坐

Preempt(抢占)

显存不够时,nano-vllm 的做法:

before:
  显存: [A 100MB] [B 200MB] [C 60MB]
  请求 D 需要 150MB → 挤不进来

操作 preempt(A):
  把 A 踢回 waiting 队列
  释放 A 的 KV cache (100MB)

after:
  显存: [___空___] [B 200MB] [C 60MB]
  现在有 100MB 空闲

继续 preempt(B):
  显存: [___空___] [___空___] [C 60MB]
  现在有 300MB 空闲 ✅
  请求 D 进来,分配 150MB

被踢出去的 A 怎么办?A 的 KV cache 没了,等下再轮到它的时候,重新 prefill 一次——把整个历史(prompt + 已经生成的)重算一遍。"重算"比"等着"快得多,因为 prefill 是 compute-bound,非常快。

Prefix Caching

block 表:
  block 0: "请介绍"的 K、V        (A、B 都指向这里)
  block 1: "北京的"的 K、V        (A、B 都指向这里)
  block 2: "历史,"的 K、V        (A、B 都指向这里)
  block 3: "重点讲明清"的 K、V    (只有 A 指向)
  block 4: "重点讲民国"的 K、V    (只有 B 指向)

用 block 的 ref_count(引用计数)管理:
  block 0 的 ref_count = 2  (A、B 在用)
  block 3 的 ref_count = 1  (只有 A 用)

当 A 结束:block 0 的 ref_count 从 2 → 1,不释放
当 B 也结束:block 0 的 ref_count 从 1 → 0,才释放

为什么服务商能给出极低的 system prompt 价格?用了 prefix caching 后,5000 tokens 的 system prompt 只有第一次算,后续全部复用 block。服务商几乎没花算力,所以收你超便宜的价。

Generate 伪代码

function generate(prompt, max_new_tokens):
    # Step 1: tokenize
    tokens = tokenize(prompt)

    # Step 2: prefill —— 把整个 tokens 一次喂进去
    next_token, kv_cache = model(tokens, kv_cache=empty)
    tokens.append(next_token)

    # Step 3: decode loop —— 每次只喂上一个新 token
    for i in range(max_new_tokens - 1):
        last_token = tokens[-1]
        next_token, kv_cache = model([last_token], kv_cache)
        tokens.append(next_token)

    # Step 4: detokenize
    return detokenize(tokens)

两个关键认知

1. Q、K、V 是从同一个 token 通过三个不同的矩阵 W_Q、W_K、W_V 算出来的(这就是为什么"模型参数"占显存大——这些 W 矩阵巨大)。

2. kv_cache 只存 K 和 V,不存 Q(Q 每步现算,K、V 历史不变存起来)。

简单理解 Attention

Attention 公式:
  Attention(Q, K, V) = softmax(Q · K) · V

用比喻:
  Q (Query)   = "我要找什么?"     ← 当前 token 的问题
  K (Key)     = "我是什么类型?"   ← 历史每个 token 的标签
  V (Value)   = "我的实际内容"     ← 历史每个 token 的信息

图书馆查资料:
  你的问题 Q          = "我想学 prefill"
  每本书的书名 K       = "Python 入门"、"LLM 推理"、"Transformer 论文"...
  每本书的内容 V       = 书里的具体文字

  attention 就是:
    1. 拿 Q 跟每个 K 比,看哪本书相关(softmax(Q·K))
    2. 按相关度加权读每本书的 V
    3. 得到一个"融合"的答案

QKV Forward

function model_forward(new_tokens, kv_cache):
    # Step 1: 对每个新 token,算出它的 Q, K, V
    for each token in new_tokens:
        embedding = embed(token)
        Q = embedding @ W_Q
        K = embedding @ W_K
        V = embedding @ W_V

        # 把新的 K, V 追加到 kv_cache
        kv_cache["K"].append(K)
        kv_cache["V"].append(V)

    # Step 2: 用当前 Q + kv_cache 里所有的 K, V 做 attention
    all_K = kv_cache["K"]
    all_V = kv_cache["V"]
    context = attention(Q, all_K, all_V)

    # Step 3: context → 更多层 → 预测下一个 token
    logits = output_layer(context)
    next_token = sample(logits)

    return next_token, kv_cache
Prefill(3 个 token 一次进模型):

  今 → Q1, K1, V1  ↘
  天 → Q2, K2, V2  →  GPU 并行算完 3 份 K、V
  气 → Q3, K3, V3  ↗

Decode(1 个 token 进模型):

  好 → Q4, K4, V4   ← 只算 1 份 K、V

Prefix caching 的坑:nano-vllm 里 prefix caching 是"按块计算的",不是按 token。block_size = 256,如果 prompt 才 22 个 token,连半块都没装满,根本不会生成 hash,第二个请求也就查不到——miss。

React 仪表盘 vs Jupyter Notebook

Jupyter Notebook 是临时的——跑一次、看一下、然后扔掉,下次评估又要重新写。React 仪表盘是一个真正的 Web 应用,部署之后可以一直用,每次新模型训练完直接把数据接进去就能看,不用重写任何东西。

他们强调的核心点是:模型性能的可视化其实很复杂,不是看一个 accuracy 数字就够了,需要多维度、交互式地看。Power BI/Tableau 这类工具是通用的,但他们需要高度定制化的视图来理解 RL 训练中的特定指标。所以干脆让 Claude Code 直接帮他们写一个专属 React Web App。

为什么还用 Figma

Figma 现在仍然是设计行业的绝对标准,并没有"老"。它一直在迭代,去年还推出了 AI 功能。设计师的工具链是:Figma 做视觉设计 + Claude Code 把设计转成真实代码,两者是互补关系,不是替代关系。

文档里说他们用 Figma 80% 的时间都打开着,说明 Figma 反而因为 Claude Code 变得更重要了——设计师可以直接把 Figma 截图粘进 Claude Code 来生成代码原型。

GitHub Actions 自动工单

这个是 Claude Code 官方支持的一个功能——可以把 Claude Code 接入 GitHub Actions,当有人提 Issue 或 PR comment 时自动触发 Claude 来分析并提出修改建议甚至直接开 PR。设计团队用这个来处理积压的小改动,比如改个间距、改个文案。

996 已经消散,24/7 才是新常态

在知识工作史上,第一次有人回家时没有把大脑的副本带在身边。996 作为一个概念已经消亡,我们现在是 24/7 的员工——但 24/7 的员工并不是一个工作 24 小时的人,而是一个 agent 能够进行巨大并行化的人。

到 2026 年,大多数团队仍然在协调上存在瓶颈,而不是在打字上,大多数组织才开始进行重组。但前沿总是未来最先出现的地方,而前沿已经在这里了。这篇文章并不是对整个行业的描述,而是对已经在最 AI 原生的团队中发生的事情的描述。

之后我想要做一期这个相关的视频。

概率问题:程序员无法保证自己代码一定可以跑

这不是一个未来的问题,而是一个现在的问题。在某个吞吐量之后,错误会溜进来不是因为审查者粗心,而是因为输出量已经超过了人类注意力可以有意义地检查的范围,而且进行大部分审查的模型本身是非确定性的,并且会错过很多。代码库不再是一个你知道它能正常工作的东西,而是一个你相信它能正常工作的东西,一个你无法再精确描述概率的东西。

这对大多数领导团队来说具有战略意义,但尚未完全理解。你并不是在为你已有的模型构建组织能力,而是在为你尚未拥有的模型构建能力。你正在学习编写的规范、正在建立的审查文化、正在集成的可观测性、正在学习指挥的代理舰队、正在试验的培训仪式——所有这些都不是针对 2026 年的能力,而是为 2027 年和 2028 年的能力搭建的脚手架。

现在正在搭建这种脚手架的公司,将在下一次能力跃迁中利用这一优势,而那些等待工具成熟后再重新调整组织的公司,将在下一个能力时代的第一年学习早期采用者已经知道的东西,而早期采用者则会不断积累优势。

McKinsey:代理型组织(Agentic Organization)

来源:McKinsey Podcast — Alexis Krivkovich × Lucia Rahilly(2026-04-02)

核心悖论

超过 80% 的公司对 AI 进行了大规模投资,却尚未看到底线回报。问题不在技术,在于组织没有跟上重新设计。

五个支柱

1. 商业模式:近零边际成本的交付能力,将打破所有依赖摩擦的护城河。比如:agent 替用户自动在各银行间搬钱追最优利率 → 银行账户黏性消失。

2. 团队结构:75% 的岗位需要在 2-3 年内根本性重塑。不是消失,是职责边界全部要重写,包括管理层。大型组织过去十年多增加了 1-3 层管理,agent 可能让高管实现"超人管理幅度",压缩层级、加速决策。

3. 工作流程:最大价值不是"用 AI 把某个任务做快",而是端到端重构整条流程。例子:保险承保全流程重构;HR 从招聘到入职的全流程重构;AAA(美国仲裁协会):agent 自动整理案件时间线、梳理事实、生成裁决建议 → 仲裁员只需判断"我是否同意"。

4. 领导力

  • Human in the loop:agent 做部分步骤,交给人处理其余部分
  • Human above the loop:agent 完成整个核心流程,人只做最终判断 ← 这是方向

5. 人才:判断力、系统思维、人际管理等软技能反而更值钱。Junior 员工悖论:如果 agent 接管了所有"打杂"工作,新人失去积累判断力的路径 → 解法是把 L&D 从边缘活动变成职业旅程核心。变革管理从"阶段性"变为永续状态:"Change management is no longer an episodic thing. It's a perpetual state." 用"双向门"(可逆实验),别押注整个公司。

关联

和上面 Dan Shipper 的"oversee agents 是未来方向"是同一趋势,McKinsey 这篇是企业组织管理版本。