AI 学习笔记 — 5月19日
Meta 在裁员前几天把 7,000 人调入 AI Native 新部门。类人机器人的四大子系统框架。当边际成本归零,价值不是消失而是迁移——以 Spotify 为例。
公开思考。
这些是笔记、想法、进度日志和尚在形成中的想法。有些会经得起时间考验,有些不会 —— 这就是意义所在。
Meta 在裁员前几天把 7,000 人调入 AI Native 新部门。类人机器人的四大子系统框架。当边际成本归零,价值不是消失而是迁移——以 Spotify 为例。
无人机战争:Yaroslav Azhnyuk 谈 FPV 无人机如何成为前线「新的战争之神」、中国 40 亿架级产能、稀土为何是硬约束,以及西方尚未建好的能力。
中美前沿模型 Elo 随时间对比。斜率相近、起点错开,当前 gap 约 450 Elo,按线性外推并不收敛。
对 Figure 的怀疑 vs 对机器人加速的信念。销售作为相对稳定的岗位。Cerebras IPO。Codex 远程控制。
Abridge 从 AI 医疗记录工具走向临床智能层。三大战略阶段:省时间、省钱、救命。为什么原型胜过 PRD。
一个由数据泄漏导致的经典训练翻车案例:脓毒症预测模型用了未来信息「作弊」,在真实医院里崩盘。
用最长 agent 运行时长作为难度近似。Perplexity 怎么设计 skill。Blackwell 成为大型 MoE 服务参考平台。Hassabis 谈 AI 用于健康。
Few-shot 与 zero-shot 提示词概念详解与选用建议。以及全双工多模态交互。
Jack Clark 的 Import AI:60%+ 概率出现 human-out-of-the-loop 的 AI 自主研发。前置部署工程师。中国 AI/机器人公司在做什么。
Code with Claude:Managed Agents——给 Claude 一个目标和预算就能完成任务。Anthropic 平台团队谈 harness 与模型的路径依赖。
结合二级市场与媒体报道看 Anthropic 的估值。Figure 机器人相关记录。
数据行业为何尚未成熟:单个 RL 环境投入超 100 万美元、年均数亿美元,前沿实验室仍倾向自建。Anthropic Dreaming:让 Agent 在后台回顾会话、重写记忆,作为团队跨运行学习。GPT-Realtime-Translate 实时语音翻译上线,70+ 输入语言 到 13 输出语言。
Anthropic 与 SpaceX 达成算力合作,Claude 各档套餐用量上限翻倍。Harvey LAB 基准覆盖 1200 个长任务、24 个法律方向。Genesis AI 推出 GENE-26.5,数据采集硬件比传统方案便宜 100 倍。Figure 总部探访:约 100 万小时预训练数据、Sim-to-Real 零样本迁移、50-200 Hz 机载推理、新一代高自由度手准备从人类视频学习。Hugging Face Reachy Mini App Store 指向桌面机器人新品类。
AI for science:o3 把原本几天的物理计算压缩到 11 分钟。Anthropic 联手 Blackstone/H&F/Goldman、OpenAI 推 The Deployment Company——模型公司下场做 to B 咨询。GPT-5.5 Instant 成 ChatGPT 默认设置并公开「记忆来源」。RL 基础设施从「单次生成+奖励」转向长期运行的动作系统;Anthropic Orbit 与 Manus 指向新的「主动助手」品类。
从「提供工具的软件」到「交付结果的软件」。新一代数据供应商打法:结果交付、生命周期管理、产品化服务分层、与模型指标挂钩的定价。Meta 收购 ARI,把机器人当成训练策略。模型 × harness × 上下文才是胜负手——只换提示和中间件就能让 gpt-5.2-codex 在 Terminal-Bench 2.0 上提升 13.7 分。
赛博精神病——一天 163 次提交,直接在生产环境 Vibe Coding。什么是 AI 复制不了的:高级订阅信、精品咨询、精选品牌、会员俱乐部、承担法律责任的主体。Cursor Composer 2:在 RL 之前加 continued pretraining,CursorBench 一口气提升 17.1 分。Keep Rate 作为行为级 north-star 指标。为什么 PM 会变成「回路设计者」、product taste 本质是成本判断。应对 AI cyberattack 的可执行清单。
AI 数据标注行业的市场全景、公司画像、定价模型、技术趋势与痛点机会的实地调研与分析。
AI Native 组织形态:个人快 15-40%、公司却零提升的根因。三个重建样本——把开发剥离到子公司、内部 3-5 人 Pod、裁掉所有写代码的人只留 AI Architect。端到端产品负责、按 Trait 而非 Job Family 组队、Context 基础设施才是护城河。Cursor UI/UX lead 谈软件是「概念的堆叠」。为什么 fine-tune 改名 customization,新的 pre/mid/post 训练流水线。坏数据、taste 规模化、benchmark 泄露。
Agent 调用协调本质是 while loop 内的工具调用,五步搭出来。LLM 时代的蒸馏:数据蒸馏与 CoT 蒸馏。Claude Code for PM——只写路线图,其他让 Claude 写。AI 产品的六个层次。GPT-5.5、Grok 4.3、DeepSeek V4 Pro 与开闭源差距收窄。六个合成数据搞不定、必须靠人工标注的场景。
编程 agent 横评:Claude Code、Claude Design、Cursor、Codex 同一份落地页 brief 的对比。nanochat depth 翻倍与 FP8 训练「骚操作」。Cursor SDK 在 Terminal-Bench 2.0 拿下第一。为什么 Apache 2.0 对企业用户真的重要。2023–2025 AI 价值都被基础设施层捕获:VR NVL72 与 neocloud 利润空间的压缩。
为什么 agent 时代的 CPU 叙事是真实的,但远没有 GPU 的故事大。CPU 玩家全景:AMD、Intel、hyperscaler 自研 ARM、Ampere。一台人形机器人需要多少 GPU/CPU——Jetson Thor 是 onboard 的事实垄断。Mayo Clinic REDMOD 比临床确诊提前最多三年识别胰腺癌。Stripe 的四层 agent 支付协议栈。
NVIDIA Nemotron 3 Nano Omni:30B/A3B 多模态 MoE,256K 上下文,约 9 倍吞吐。Mini-SGLang 用 radix 树做前缀匹配。Unsloth LoRA 合并 vs 不合并的权衡。用 167MB 的 adapter 模仿《红楼梦》风格。TRL DPO 完整跑通。
Sakana 7B Conductor 用 RL 编排前沿模型,LiveCodeBench 83.9%。OpenAI 的 AI 优先手机瞄准 2028。GUI Agent 标注是完全不同的范式。YC 2026 夏季 RFS:14 个方向押注「AI 已从功能变基础设施」。
医疗 LLM 重构的 4 个发现:unattended 跑通的瓶颈、多格式任务相互干扰。Gemma 4、Qwen 3.6、GLM-5.1、Kimi K2.6、DeepSeek V4-Pro 的架构差异。Anthropic Project Deal:Opus agent 的成交价格明显优于 Haiku。
SkillsBench vs 我们自建的 skillrank——七个错误复盘:用 LLM-as-judge 代替确定性 verifier、用 pairwise 代替 pass/fail、缺 with/without 基线、把时间都花在基础设施上。
一本关于东西方四大智慧传统——禅宗、儒家、斯多葛、阿德勒心理学——在「如何过好这一生」这个问题上汇合的书。
DeepSeek-V4 vs Flash Attention vs MHA——算法优化与架构创新的本质差异。CSA/HCA 用低秩潜在压缩把 KV cache 缩小 5-10x。GPT-Image 2 + Seedance 2.0 短片制作工作流。
GPT-5.5 发布——更快、综合更便宜、更聪明。swyx 谈 AI-native:skills 是 agent 的最小单位、应用公司比基础设施公司更耐打、Taalas 把模型刻进硅。World ID 4.0 接入 Tinder、Zoom、DocuSign。
Shopify 内部 AI 使用率接近 100%,关键是批评循环而非并行 agent;Tangle、Tangent、SimGym 三件套。MacAskill 论 AI 性格是最被低估的杠杆。mini-sglang RadixAttention vs nano-vllm:单 3090 跑出 7311 tok/s。
Claude Design 锁死创意。GPT-Image-2 在 Image Arena 领先 +242 Elo。ChatGPT Images 2.0 把推理烧进图像生成。RankAI 的 SEO+GEO 技术栈拆解。Google:75% 新代码由 AI 生成。
通过 DeepSeek-R1 理解 RLVR。Hermes agent 的三个设计模式:无状态单元、结构化失败记录、目录内 AGENTS.md。Alex Imas 谈后商品经济。
Generative Agents(Smallville)、OASIS 大规模社交模拟、Love First Know Later——三篇论文为 Halo 这类 persona 产品画出理论地图。
Claude Code 终端快捷键(Shift+Tab、Esc、@)。奉天的工作流:两个 Max 套餐 + 语音输入 + Agent Team 模式 = 10 倍生产力。
Claude Design 全流程:Pinterest 找灵感 → AI 生成背景和角色 → Seedance 2.0 做动画 → motionsites.ai 模板 → Landbook 参考布局。
Oversee agents 才是未来,而不是写代码。nano-vllm 深入:attention、preempt、prefix caching。McKinsey 谈代理型组织。
能量模型(EBM):Hopfield 网络、玻尔兹曼机、扩散模型都源于此。Yann LeCun 押注 EBM 将取代自回归 LLM。
本地模型 Reddit 排名,如何用参考图片引导 AI 生成网站设计,2026 年 AI 工程师路线图,Karpathy 谈 AI 能力认知分化。
nano-vLLM 深度解析:prefill vs decode、KV cache、PagedAttention、continuous batching。Notion 的模型行为工程师角色。
GLM-5.1 架构解读(MoE、MLA、DSA)。用 Claude 报税踩到的坑。AI 写作比你想象的难。文件夹即 agent 的设计模式。
安静的一天。有时候让想法沉淀一下也是好的。
顾问式 agent 协调:廉价执行器 + 高昂顾问。Haiku + Opus 组合使 BrowseComp 得分比单独使用 Haiku 高出一倍以上。
Meta Muse Spark:十分之一算力达到顶尖水平,meta.ai 藏着 16 个工具。两个新思考:AI 工具本质是游戏,Vibe Coding 如同网络小说。
Mythos 在 SWE-bench 拿到 93.9%——核武器级代码能力。picotron 分布式训练:朴素 DP vs Bucket DP,AFAB vs 1F1B 流水线调度。
Moltbook:AI 剧场还是真正的涌现?Nebius $460 亿确认合同。Ryan Leoplo 谈零人工代码的 harness 工程。
为什么改一个字比生成赛博朋克城市图更难?扩散模型完整原理(含数学推导和代码)。
Claude 的 Cowork 功能支持跨设备 Computer Use——可以控制另一台配置好的远程电脑,无需操作本机浏览器。
一个简单的数字改变了一切。三万天。这就是一个人一生大概拥有的天数。这个认知重塑了我对生活、工作和时间的理解。
选择公开记录一切并不容易。这是我选择透明而非完美的原因,以及我希望从中获得什么。
我的创业失败了。但关于倾听用户、把握时机、以及信念与验证之间差距的教训,比任何成功都更有价值。