Abridge:从记录工具到临床智能层
核心信息:Abridge(成立于 2018 年)正从「AI 医疗记录工具」升级为「临床智能层」,目标是为美国医疗系统提供贯穿就诊前、中、后的 AI 基础设施。
公司规模:预计今年支持 8000 万+ 医患对话,覆盖 250 家大型美国医疗系统,支持 28+ 种语言、50+ 种专科。2025 年 6 月以 53 亿美元估值融资 3 亿美元。
三大战略阶段:省时间 → 省钱 → 救命
- 省时间:减轻医生每周 10–20 小时的文书负担(消除「睡衣时间」——医生回家穿着睡衣补病历)。
- 省钱 / 多赚钱:帮助医院在低利润环境下优化计费、合规、预授权。
- 救命:通过临床决策支持改善患者结局。
产品演进:从被动记录到主动智能
目标是让 AI 像「空调」一样存在——在背景中默默工作,只在必要时介入。90% 以上的传统医疗警报被忽略,所以 Abridge 选择在就诊之前预备医生,而非就诊中频繁打断。
预授权(Prior Authorization)案例:传统流程——开了 MRI → 4 周后被保险拒绝 → 病人重新预约。Abridge 方式——在病人还在诊室时,提醒医生补问关键问题(如「是否做过物理治疗?疼痛是否超过 6 周?」),实时满足保险条件。
关键技术挑战与方法
最难的 AI 问题:在高风险临床场景中同时实现高质量 + 低延迟 + 低成本的实时支持。
模型策略:第三方前沿模型 + 自有专有模型(基于 1 亿+ 医疗对话数据训练)。「每个 agent 本质上都是 coding agent」,EHR 可视为 agent 的「文件系统」。
个性化三层级:个人医生(风格偏好)、专科(心内 vs 皮肤科)、医院系统(机构内部指南)。
评估体系(Evals):LFD(内部临床医生先看数据)、LLM 裁判、第三方评估员 + 专科特定评估、渐进式发布(类比 Waymo 自动驾驶)。客户已从季度发布周期缩短到月度。
隐私与合规:所有数据单向去标识化(不可逆)。严格 HIPAA / PHI 管控,写入客户合同。
反共识观点:「PRD 并未死亡,原型并非万能」
在高风险、高复杂度产品中,清晰的书面思考比快速原型更重要。「Go slow to go fast」。早期初创可以「先扔 30 个原型试错」,但在 Abridge 规模下,每个决策都涉及 200+ 医院系统的实施成本。
监管利好
FDA 于 2026 年 1 月更新临床决策支持指南,对 AI 更友好。政府推动系统间互操作性。高风险领域反而会最先解决最难的 AI 问题(80/20 在医疗不适用)。
团队特色:临床科学家(Clinician Scientists)
既有 MD 背景又懂技术的「突变体」,嵌入产品和评估团队,从根本上提高产品标准。
未来愿景
同一段医患对话可同时服务:医生(病历)、患者(就诊总结)、保险公司(理赔依据)、药企(临床试验匹配)——把今天分散昂贵的多套系统折叠成一个平台。
代理的执行隔离持续成熟
W&B/CoreWeave 推出了 CoreWeave Sandboxes,用于 RL、工具使用和评估工作负载中的隔离执行,明确测试大规模的破坏性命令(如 rm -rf /)。在类似精神下,围绕代理调试的开源/本地开发工具涌现——一个免费的本地代理调试堆栈,其 trace 暴露给 Codex/Claude Code,用于自动化评估编写。
CoreWeave(Weights & Biases 的母公司)在预览版中推出了 Sandboxes:通过 W&B SDK 提供的隔离 CPU 环境,代理可以在其中执行代码、克隆仓库、安装依赖——所有这些都是供应链事件后你不希望在主机器上发生的事情。一个明显的用例:代理评估需要每个测试都有新鲜、一致的环境,然后清理。Sandboxes 正好解决了这个问题。
转向 Hermes(Nous Research)
一个有意思的行业叙事转变:本周有几位长期关注 AI 的评论者独立地切换了他们日常使用的 agent harness。共同的故事是:某个流行的 agent harness 早期非常神奇,但在 Anthropic 的价格调整使通过它使用 Max 级别 Opus 变得非常昂贵之后,再加上几个月里每次更新都不断出问题,魔法就消失了——用户发现自己在「不断修复它」而不是使用它。
于是有人转向 Codex,有人转向 Nous Research 的 Hermes。为什么是 Hermes?它现在是 OpenRouter 全球上使用最广泛的 CLI 代理,在 OpenRouter 使用上超越了其他 harness,甚至超越了 Claude Code。它有 /goal、steering,以及通过 TryCUA 集成实现的后台计算机使用。它是开放的,所以你可以无缝移植你的记忆、profile 和配置文件。
Steering 可能是最被低估的补充——这是一个 Codex 功能,在 Hermes 中也存在:你可以发送后续消息,代理会在下一次工具调用后看到它,而不是在整个思维链完成之后。这让对话变得自然得多。
Thinking Machines:一个 276B MoE
交互模型是一个 276B 的 MoE,其中 12B 活跃。本地模型社区的期待:权重可以被量化以在小型家用硬件上运行,实现完全离线、始终在场的家庭助手。反复出现的主题——小而强、能本地运行的模型,作为环境式助手的基础。