AI 学习笔记 — 5月12日

Few-shot 与 zero-shot

这两个概念最初来自机器学习中的「小样本学习（Few-shot Learning）」和「零样本学习（Zero-shot Learning）」，但在大语言模型时代，它们更多被用来描述你在提示词里给模型提供多少示例。

Zero-shot（零样本）

不给模型任何示例，直接让它完成任务。你只用自然语言描述要做什么，模型靠预训练时学到的知识自行理解并执行。举个例子，做情感分析：

判断下面这句话的情感是正面、负面还是中性：
"今天天气真好，心情特别舒畅。"

模型没看过任何示范，直接根据指令输出「正面」。

适用场景：任务本身比较常见、表述清晰、模型在预训练中大概率见过类似任务，比如翻译、摘要、改写、基础分类、写一封礼貌的邮件。优点：提示词短、写起来快、消耗 token 少。缺点：当任务格式特殊、需要严格遵循某种风格，或者是模型不熟悉的领域时，输出容易不稳定、跑偏。

Few-shot（少样本）

在提示词里给模型几个「输入—输出」配对的示例（通常 1 到 10 个），让它通过模仿这些示例来完成新任务。这也叫 in-context learning（上下文学习）——注意，模型的权重并没有被更新，它只是在当前对话里「临场领悟」了你想要的模式。同样是情感分析：

判断下面句子的情感：

句子：这家餐厅服务态度太差了。
情感：负面

句子：电影还行，没什么特别的。
情感：中性

句子：今天收到礼物开心了一整天。
情感：正面

句子：他终于通过了考试。
情感：

模型会观察到前三个示例的格式，然后用同样的格式回答「正面」。衍生概念：只给一个示例的叫 one-shot（单样本），是 few-shot 的特例。

适用场景：需要特定输出格式（比如固定的 JSON 结构）、有微妙的判断标准（什么算「正面」取决于你的业务定义）、任务比较冷门、或者你希望输出风格一致。优点：能显著提升准确率和格式一致性，相当于「现场教学」。缺点：示例占用上下文窗口，token 消耗变大；示例选得不好反而会误导模型（分布不均、覆盖不全、甚至有错误）。

两者对比与选用建议

简单总结：zero-shot 是「告诉模型该干什么」，few-shot 是「演示给模型看怎么干」。实际工作中的经验法则是：先用 zero-shot 试一遍，看效果如何。如果输出已经符合预期，就不必加示例，省 token 又省事；如果出现格式不稳定、判断标准模糊、或者跑偏到错误方向，再加 2–5 个高质量示例改成 few-shot。再不行就考虑加 Chain-of-Thought（让模型分步推理）、或者干脆做微调（fine-tuning）。

需要注意的是，示例的质量远比数量重要。三个精心挑选、覆盖典型情况和边界情况的示例，往往比十个随便堆上去的示例效果好得多。示例之间最好风格统一、格式一致，并尽量覆盖你期望模型处理的不同输入类型。

什么是「全双工多模态交互」

全双工（full-duplex）：通信术语。打电话是全双工——双方可以同时说话、互相打断；对讲机是半双工——一个人说完另一个人才能说。当前大多数 AI 语音助手（包括 ChatGPT 语音模式）本质上还是半双工：你说完，它才开始处理，然后回复，再等你说。

多模态（multimodal）：能同时处理多种信息形式——语音、视频、文字、图像。全双工多模态交互：AI 能同时听你说话、看摄像头画面、思考、搜索、回应——而且这些动作是并发的，不是排队进行的。

「从头训练」 vs 「叠加」

这是最关键的一点。传统做法（叠加）：现在的 ChatGPT 语音模式大致是这样拼起来的：语音识别模型（把你说的话转成文字）、LLM（处理文字、生成回复文字）、语音合成模型（把回复文字转成语音），外加一些规则判断「你说完了吗」（轮流发言）、「要不要调用工具」。这就像把几个独立的零件用胶水粘起来。模型骨子里还是「基于轮次（turn-based）」的——你一句、它一句。

新做法（从头训练）：Thinking Machines 直接训练一个模型，它的「输入」就是连续的音频+视频+文字流，「输出」也是连续的音频+文字流。没有中间转换，没有轮次概念，模型天生就活在「连续时间」里。

「人类↔AI 带宽问题」

引用的几个人（John Schulman 是 RLHF 的核心作者之一，Soumith Chintala 是 PyTorch 创始人）把这个问题框定为带宽问题。意思是：人和人交流时，信息是高带宽并发的——你说话时我在听、在看你表情、在想怎么回、还可能在查手机。但现在人和 AI 交流是低带宽串行的——必须一方说完另一方才能动。新模型要解决的就是把「人↔AI 之间的信息管道」加宽，让交流像人和人之间那样自然。

演示里强调的几个能力

连续时间感知：模型不是被「喂」一段录音，而是实时感知时间流逝（比如能意识到「用户已经沉默 3 秒了」）。
中断处理：你说到一半改主意打断它，它能立刻停下来听新内容——而不是把准备好的回复说完。
同时语音：双方可以重叠说话，像真人对话里的「嗯嗯」「对对」。
视觉主动性：摄像头看到的画面，模型会主动注意并融入回应，不用你提示「看一下这个」。
后台工具使用：它在和你说话的同时偷偷搜索/调用工具，而不会冒出一句「我现在在搜索...」然后卡住几秒。对你来说体验是连贯的。

最后一句「零样本学习」是什么意思

类型签名（type signature）是编程术语，指一个函数的输入和输出类型。Schulman 的意思是：以前 AI 的类型签名是 文字 → 文字（或加几个零件后变成 语音 → 语音），新模型的类型签名是 连续音频+视频+文本 → 音频+文本。当模型的「原生输入输出」就是这种丰富的多模态流时，很多以前需要专门搭建系统才能做的任务，现在直接 zero-shot 就能做——不需要专门训练、不需要给示例。举例：以前做「实时手语翻译」得专门训练手语识别模型 + 翻译模型 + 语音合成模型拼起来，现在新模型直接看视频、听语音、输出语音，一次到位；以前「边看你写代码边给口头建议」需要屏幕识别 + 代码理解 + 语音生成的复杂管道，现在直接 zero-shot。

一句话总结：Thinking Machines 预览了一种原生就是连续多模态实时交互的新模型，不是把现有 LLM 拼装出语音功能，而是从训练阶段就让模型学会「同时听、说、看、想、查」。一旦模型的能力底座变成这样，很多过去需要专门系统才能完成的实时交互任务，现在不用任何额外训练就能直接做到（zero-shot）。

深度代理 / 本地代理正在快速成熟

深度代理 CLI 可以在对话中途热替换底层模型提供者而不丢失上下文，这是许多代理堆栈仍然缺失的非平凡系统功能。LangChain 还强调了为 provider/模型特定调优而使用 profile。另一份分项定价分析认为，对于高容量代理工作负载，DeepSeek V4 Flash 可以比 GPT/Gemini flash 级选项便宜得多。

本地/开源模型持续以比硬件天花板更快的速度改进。一个最有力的论点：在相同的顶级 MacBook Pro 内存限制下，「你能实际运行的最智能开源权重模型」从 Llama 3 70B 时代的能力提升到了 DeepSeek V4 Flash 混合 Q2 GGUF 时代的能力，在 24 个月内增长约 4.7 倍，意味着每约 10.7 个月翻一番，比摩尔定律更快。支持性数据点来自 GGUF 上传的快速增长，以及社区反复观察到的 Qwen 3.6、Gemma 4 和 DeepSeek 变体现在可用于本地执行非平凡的代理任务。