based on Reddit:本地模型排名
以下是人们实际推荐的模型,而不仅仅是 benchmark 第一:
- Qwen 3.5 — 目前跨使用场景最广泛推荐的模型家族
- Gemma 4 — 本地可用性口碑很好,尤其是中小型部署
- GLM-5 / GLM-4.7 — 在广泛开源模型排名中名列前茅
- MiniMax M2.5 / M2.7 — 反复被推荐用于 agentic 和工具密集型工作
- DeepSeek V3.2 — 仍然是最强开源通用模型的前排选手
- GPT-oss 20B — 越来越多被推荐为实用的本地选项
本地编程领域:压倒性共识是 Qwen3-Coder-Next。
如何让 AI 做成你想要的网站样式
图像的带宽高于文字。很难用文字来引导模型。你可以写一段关于想要"干净、现代、有大量留白"的文字,但这几乎是无用的——你总是会得到默认的风格。
图片可以让模型做出独特的设计,因为它们携带了更多的信息。截图包含了关于间距、颜色和布局的数百个微决策,而这些是你无法用文字定义的。因此,除非你有代码示例,否则参考图片是引导 AI 的最佳方式。
2026 年人工智能工程师路线图
大多数开发者都在构建玩具,而世界需要的是系统。要变得不可或缺,你必须深入构建——理解编排、内存和本地推理。五个生产级项目等级:
- 初级:具有 SLM 的 AI 驱动移动应用——边缘 AI + 资源优化(量化、电池优化、离线优先同步)
- 中级:自我改进的编码代理——代理循环(计划→执行→测试→反思)、记忆层次结构、沙箱策略
- 高级:为视频编辑器设计的光标——多模态 AI + 复杂工具集成
- 专家:个人生活操作系统代理——深度上下文 + 隐私优先架构
- 大师:自主企业工作流代理——生产级编排、多代理委托、审计跟踪、RBAC
robot tax
宾夕法尼亚大学 + 波士顿大学的博弈论论文:每家公司裁员降低成本 → 被裁员工停止消费 → 各行各业收入崩溃 → 裁光员工的公司自己也破产了。这是一个有数学支撑的囚徒困境。自动化你能短期活下去,不自动化你被竞争对手干掉,但所有人都自动化就摧毁了让所有公司可行的需求基础。
研究者找到的唯一解决方案:皮古税(Pigouvian automation tax)—— "机器人税"。UBI 和利润税解决不了结构性问题。
我想说:很多所谓的 agent 调度其实非常简单
看了 Sparkle(一个 Mac 文件整理应用)的架构:它先用 Opus 4.6(聪明且昂贵)分析文件确定文件夹结构,用户确认后,再用 Haiku 4.5(快速、便宜)来分类新文件。"Q1 invoice.pdf" → Finance,不需要大量 AI 推理。
我的想法:现在很多所谓的 agent 调度其实也是非常简单的,就是难的东西用高级模型,简单的执行类、不需要大量思考的,用低级模型,然后两个中间交互一下,可能就是用 skills 交互。
a16z 报告
- ChatGPT 依然强但护城河在变。周活 9 亿用户,约 20% 的 ChatGPT 用户同一周也用 Gemini——忠诚度靠的不再是"没得选",而是上下文积累(数据、装的应用、连接的服务)。
- 平台分化很清晰。OpenAI 走消费者超级应用路线,Anthropic 走专业基础设施路线(MCP、Claude Code、企业 API)。有点像当年 iOS vs Android 的分化,不是一场战争,是两个不同的市场。
- 创意工具的洗牌。2023 年 top 10 里 9 个有 7 个是图像生成器,现在只剩 3 个。Midjourney 从 top 10 跌到第 46 名。存活下来的(Suno 做音乐、ElevenLabs 做语音克隆)靠的是"有观点的特性"。
- 测量方式在失效。当 AI 变成到处都有的功能(Excel 里、浏览器里、系统级),网页访问量和 MAU 就越来越无法反映真实使用情况了。比如一个全职用 Claude Code 的工程师,根本不会出现在这个榜单的统计里。
Karpathy 的观点
两个群体在各说各话。第一类:去年某个时候尝试了 ChatGPT 的免费版,对它的各种怪癖和幻觉嘲笑。第二类:每月支付 $200 使用最先进的前沿代理模型(OpenAI Codex / Claude Code),在编程、数学和研究领域专业使用。这第二类人正在经历"AI 精神错乱"——今年在这些领域的进步简直令人震惊。
关键在于:这些领域有明确的、可验证的奖励函数(单元测试通过与否),容易做强化学习,同时在 B2B 环境中最有价值,所以研究团队的最大部分都集中在改进它们。
我是完全同意的。国内现在有一些人,问了豆包一个问题,豆包回答错了,就说 AI 不行。可能是 prompt 不对,可能是表达不清楚,也可能豆包目前就是没做好。相反程序员群体内,如果是在用世界顶尖模型,大规模用的,你一定会被震惊,甚至我可以说 arguably AGI 已经到来。