首页科技快讯年末AI回顾：模型到应用，技术到商战，拽住洪流中意义之线

年末AI回顾：模型到应用，技术到商战，拽住洪流中意义之线

来源：晰数塔互联网快讯时间：2026年02月12日 15:13

一份拓展中的 AI 地图。

文丨程曼祺

本篇文章是《晚点聊》年终特别节目《年末 AI 复盘》的精简文字版，总结了 25 年和即将过去的蛇年，《晚点》在 AI 领域的观察、见闻和这一年多里发生的 AI 大事件。

全文分为 7 个主题：

1. 模型

2. 应用

3. 巨头的 AI 之战：字节、阿里、腾讯

4. 创业公司们

5. 具身智能

6. AI 硬件

7. AI 中的人

每个部分会按照若干关键词展开，并穿插指引《晚点聊》的相关往期节目或《晚点》的相关文章。

历史正在加速发生，洪流中容易五色迷目。但人是意义的动物，我们总试图理解和抓住什么。希望这期年底的大型 “连点成线”，可以帮关注 AI 进展的朋友得到一份正在拓展中的地图。

1.模型

关键词：Agentic Model、协同设计、下一个学习范式

本轮 AI 热潮仍处在早期，技术变化是最重要的驱动力，也是推演产品形态和商业格局的重要基点。所以我们的回顾从模型技术开始。

Agentic Model

Agentic Model 就是能支持 Agent 能力的模型。在 25 年 3 月的第 106 期（与真格合伙人戴雨森聊 Agent）以及此后的第 110 期（与明势合伙人夏令聊垂直 Agent）节目中，都有对 Agentic 模型框架的详细拆解。

总结来说，Agent 需要模型的这样几种能力：

- 推理能力，能思考更复杂的任务和规划任务；

- Coding 编程能力；

- 多模态能力，尤其是多模态理解能力；

- 工具使用能力，这和推理、Coding 和多模态能力都相关；

- 记忆能力，能存储长期的上下文，而且能在处理特定任务时，知道调用哪些适当的上下文。

推理模型

Agentic Model 这一年的发展，要从年初 DeepSeek-R1 的爆火说起，这标志着推理模型的崛起。

更早的推理模型是 OpenAI 在 24 年 9 月发布的 o1，而 DeepSeek R1 是全球第一个在大参数规模上复现了 o1 的推理模型。

一个幕后故事是，R1 发布同一天，Kimi 也发布了推理模型 K1.5。其实两家公司都各自知晓对方就快发推理模型了，最后赶上了同一天——25 年 1 月 20 日。这个日期未来会是中国 AI 史上值得纪念的一天。

R1 后来的影响力远大于 K1.5，也远大于原始版本 o1。除了实力过硬之外，还有 3 个关键的因素：一，它是一个完全开源模型，而且开源了最强、最大的旗舰版本；二，它的技术报告十分详细；三，它特别在报告中高亮了 557 万美元的最后一次训练成本。

前两个因素是 AI 研究者关注 DeepSeek 的原因。从更早时的 V2 和 V3 起，DeepSeek 在欧美 AI 研究群体里，就以慷慨的分享精神赢得了大量尊重和讨论。

梁文锋本人对开源非常坚定。一个我们报道过的小故事是， 23 年下半年，光年之外联创袁进辉在筹备创立新的 AI Infra 公司硅基流动，梁文锋考虑过投资，但是说：如果 “大模型的推理引擎” 不开源，他就没兴趣了。袁进辉当时没想清楚开源的商业模式，就没有拿这笔钱。

而第三个因素——看起来极低的训练成本，则引起了美国政商领域的更广泛关注，以至于特朗普也点评了 DeepSeek，英伟达股价一度大跌。一个美国人都说厉害的 AI 大模型，在全国人民都闲着的春节假期，引发了史无前例的科技狂潮。

从 R1 的爆火中，其实可以看到一种技术影响力的扩散路径：先在全球核心 AI 研究者中产生小范围、但好评度很高的影响力，然后是由一个契机破圈，以及 AI 领域比较特别的——出口转内销。

说回推理模型本身，o1 和 R1 带来的效果提升，主要表现为多步推理能力，就是可以一步一步地去思考一个复杂问题，提升回答的准确性、全面性和规划能力。这也激发了 ChatBot 类产品的一个主流功能：Deep Research，深度研究。

而这个效果提升背后的新技术范式是，把更多算力，放到了模型使用阶段，也就是推理的阶段，这就是 “测试时计算”(Test-time Compute) 的 Scaling。

DeepSeek 的慷慨开源帮业界证实了很多假设：比如，推理能力不需要依赖蒙特卡洛树等搜索算法；也不一定需要用人工构造的思维链数据来做监督微调，而是可以在基模之上直接从 0 开始强化学习。这降低了其它团队的试错成本。

R1 的存在还是一个观念的胜利：即可以依靠小规模、且非常年轻的研发团队，以相对低的成本，快速复现最好的模型成果。R1 甚至直接促使了一个新团队的诞生，就是盛大创始人陈天桥投资支持的 MiroMind。DeepSeek 让陈天桥看到，研发和训练出顶尖模型的投入比他之前想象得要小得多。

Coding

当 R1 和一系列推理模型提升深度思考能力时，24 年埋下的另一颗种子也悄然发芽，即 Anthropic 引领的 Coding 能力超强的模型——Claude 3.5 和后续模型。

Anthropic 也在 25 年 2 月正式发布了自己的 AI Coding 产品 Claude Code——后来人们会发现，它其实就是一个 General Agent，比 25 年 3 月初发布的 “世界首个通用 Agent” Manus 还早一个月。

Coding 之所以重要，是因为在数字世界里，会编程，就像人有了强健的手和脚，可以解锁大量任务，这是大模型支撑复杂 Agent 应用的重要基础。

整个 25 年至今，全球顶尖模型厂商都在加大对 Coding 的投入，其中不少都直接下场做了 Coding 应用。如 OpenAI 在 4 月发布了 Codex，x.ai 8 月发布了 Grok Code Fast，Google 在 11 月发布了 Antigravity。

多模态

25 年出现的一些新的 AI agent 体验离不开多模态，如 136 期中，Lovart 创始人陈冕聊到了他们当时刚上线不久的 ChatCanvas 功能，就是用户可以手动在生成的设计图上选定一个区域，告诉 Agent 怎么进一步优化和修改。这背后就需要模型能理解图像。

现在，全球最领先的大模型都已演进为原生多模态模型，即用同一个模型来处理文字、图片、语音等不同模态的信息。而这之前，多模态能力是分开实现然后拼接的。最早发布的这类模型是 24 年的 OpenAI 4o 和 Gemini 1.5。去年 11 月发布的 Gemini 3，还有近期刚发布的 Kimi 2.5 也都是原生多模态模型。

同时，也有不少专门做多模态生成的模型，比如中国公司做的很不错的视频生成模型，像可灵、MiniMax 的海螺、SeedDance 等。去年 Google 发布 Veo 3 和大火的 Nano Banana 亦是专门的视觉生成模型。

在 146 期聊 Gemini 3 和 Agent 需要的模型时提到，Nano Banana 和 NotebookLM 都发源于 Google 的一个部门 Google Labs，负责人是 Google 传奇产品经理 Josh Woodward。这个部门不仅有研发人员和工程师，也会招主编、设计师等做内容的人。他们创造了很多火爆出圈的玩法，比如，把自己的照片做成桌面手办的图片，一度风靡社交网络。这背后就是 Nano Banana。

而另一些公司，如 Anthropic、Kimi 和 DeepSeek 都没有把多模态生成作为重点。这和不同团队的技术判断、想做的应用方向和资源多少有关。

总结 Agentic Model：随着大模型的推理、编程、多模态等能力持续提升，去做主动性更高、能完成更复杂任务的 Agent 应用的时机到了，25 年普遍被认为是 Agent 应用出现的元年。这个趋势还在快速发展，如最近爆火的 OpenClaw。

协同优化

阿里千问、腾讯 AI 的研发组织整合

这是指模型的开发方式和研发团队的组织方式。

在 146 期，聊 Gemini 3 等技术进展时，在 Google 云 Vertex 部门工作了 7 年的 Bethany Wang 分享了她看到的 Google 卷土重来的一个关键——Co-design(协同设计)：

Google 多年的布局，让它全面掌握了训练 AI 的 TPU 芯片，芯片上面的 JAX、Pallas 等软件库，面向大模型的 Infra，再到云平台、模型和最上层的应用。能从底层到上层，一路协同优化，形成了 Superpower。

其实这种 “协同设计” 的垂直整合思路很自然，因为大模型训练是一个大型复杂系统工程，GPU 等硬件、Infra 等软件系统和算法都相互影响。最近阿里总结的 “通云哥 “：通义-阿里云-平头哥的战略组合，也是一个类似的垂直整合的思路。

在千问模型团队的内部，更紧密的整合也正在发生。我的同事高洪浩，在《晚点》上周发布的《字节、阿里、腾讯 AI 大战全记录：一场影响命运的战争》这篇文章里，就提到：在阿里通义千问团队，他们从 25 年下半年开始，招募自己的 Infra 人才。这之前，千问的 Infra 主要是阿里云的人工智能平台 PAI 来支持的，但后来他们认为自建 Infra，能更敏捷地开发，也能和算法有更紧密的结合。

腾讯 AI 大模型的新负责人姚顺雨，近期也在一次内部会上提到了 Co-design：认为从 Infra 到算法再到产品协同打通，可以加快迭代，减少内耗。腾讯已经把 AI Infra 部门也划到了姚顺雨的管辖范围。

DeepSeek 开源周：超低的推理成本如何实现

而 DeepSeek 作为一个从 0 搭建的团队，则是在一开始就很自然地形成了协同优化。如 Infra 团队也会参与算法设计讨论，如果一个算法设想从 Infra 层面很难有稳定的实现，这个想法可能会被否掉。DeepSeek 能做到这一点，在于梁文锋对整个模型训练的各环节都比较了解，且会 Hands-on 地参与其中。

25 年年初的一个事件，展现了 DeepSeek 超强的 Infra 能力和工程能力，就是 DeepSeek 开源周。从 2 月 24 日到 28 日，周一到周五，DeepSeek 每一天放出了一个 Infra 领域的开源成果。然后在周六发布了一篇收官博客：《DeepSeek-V3/R1 推理系统总结》，其中还根据某一天 24 小时的实机数据，测算了 DeepSeek 推理系统的成本。

《晚点聊》有两期相关节目。一是在 102 期，我们和 DeepSeek 前实习生王子涵聊大模型开源现状，和它与传统软件开源的区别。其中有一个问题我印象很深，是像 DeepSeek 这样，一直开源最强的旗舰模型，是为什么 ? 他说有两个可能：一是老板不想赚钱，要造福社会。二是想做更大的事，比如成为一种行业标准。

另一期节目和 DeepSeek 开源周引起的一个行业风波有关。就是在周六发布的那篇总结文章里，DeepSeek 公布的推理成本非常低，在 24 小时里，用 1800 多张卡，支持了 6000 多亿的输入 Token 和接近 1700 亿的输出 Token。DeepSeek 还以当时的 GPU 租金和自家模型的官方定价，计算了一个利润率，换算成毛利率是惊人的 84.5%。

做第三方 AI Infra 服务的潞晨科技创始人尤洋直呼不可能，他认为 DeepSeek 这种算法，没有考虑波峰、波谷的调用量变动。具体的讨论可以参见第 105 期对尤洋的访谈。这种争议本身，也侧面说明了 DeepSeek 的 Infra 优化非常极致。

硅基流动创始人袁进辉当时也在这篇文章的知乎留言区里评论：

DeepSeek 披露的成本和收益，又一次颠覆了很多人认知。现在很多供应商还做不到这个水平，主要是 V3/R1 架构和其它主流模型差别太大了。他推测，DeepSeek 团队可能是先想到了这样一个模型结构，然后解决了稳定训练和推理的工程问题。也可能是反过来，从系统出发，设计了这样一个模型结构。

不管是哪一种，都需要模型和算法的紧密合作。

注意力机制改进：稀与线性

在协同优化这部分，还想特别讲一讲注意力机制的改进。注意力是 Transformer 架构大模型的核心机制，简单来说，改进原始注意力机制是为了让模型能处理更长的上下文，而模型之所以在上下文长度上有瓶颈，又是因为注意力的计算方式会带来很大的计算复杂度和显存开销，而这两件事都是被 GPU、TPU 的算力、互联效率和存储等物理底层限制的。

25 年，我们做了 3 期和注意力机制改进相关的节目，正好涵盖两个主流方向：稀疏注意力和线性注意力，分别是 103 期、104 期和 143 期。这几期节目都是从模型架构的改进聊起，但都自然地延伸到了系统层和硬件底层，比如 103 期中，我们聊到了 Flash Attention 就是早期的一个系统-算法的协同改进，基于对 GPU 内存访问特性的理解，它通过改变标准注意力的计算顺序，提升了计算的效率、降低了显存开销。在 143 期中，DeltaNet 的核心贡献者杨松琳也分享了，她是怎么从一个算法研究员，自学了改写 Kernel 等系统层的能力。她对 DeltaNet 的核心优化就是提出了一个对 GPU 更友好的，可以做 scalable 训练的方法。

算力：从拼单颗芯片性能到优化多芯片互联

去年《晚点聊》的 115 期节目中，我们和之前壁仞的联合创始人、现在 AI Infra 公司魔形智能的创始人徐凌杰，聊了当时华为刚发布不久的 384 Matrix 超节点，它是一个连接了 384 颗 AI 芯片的超级算力集群。

这背后的一个算力层面的大趋势：从拼单颗芯片的性能，到优化多芯片互联的系统。英伟达更早之前发布的 NVL72 也是这个思路的体现。英伟达是全球范围少有的，既掌握芯片设计，又掌握芯片间的互联技术、网络技术等更复杂软件的公司。

那期还有很多有意思的洞察，包括互联互通技术为什么重要；AI 算力的成本正在从以计算为主转向以显存为主；以及这些基础算力层的变化会带来哪些新的机会，又消灭哪些旧的机会。

可以看到，在算力层内部，也是一个 “协同设计 “，逐渐垂直整合的结构。这可能就是某些领域，强者恒强，强者很难被动摇的原因。

下一个学习范式

这是 25 年下半年以来，越来越被关注的一个话题。

先总结一下目前的范式，简单说是：用海量数据做预训练；用更少、但质量更高的、面对特定任务的数据做监督微调或强化学习的后训练。

那么下一步呢？会思考这个问题的人，通常认为目前的方法不久后将触达瓶颈，或者并非实现智能的最优路径。

Ilya Sutskever、Demis Hassabis、Yann LeCun 等人都讨论过此问题，他们的共性在于倾向于从学习机制而非最终效果来定义 AGI。他们认为当前技术尚未达到更本质的学习方式，例如像人类一样仅凭极少样本即可学会任务、举一反三、在生命周期中持续学习，并真正理解乃至发现物理世界的规律。

Ilya Sutskever 在 25 年 11 月与 Dwarkesh Patel 的播客中提到，过去几年是 Scaling Law 的阶段，而现在已重新回到研究驱动的阶段。

热门的研究方向包括持续学习、在线学习、世界模型等。我观察到的线索是：许多研究者在寻找突破时，都会溯源动物与人类智能的产生与工作机制。Ilya Sutskever 曾提到他的 AI 研究品味是从大脑中获得灵感，以正确的方式思考人类智能，追求美与简洁。Transformer 作者之一 Llion Jones 创立的 Sakana AI，在 25 年提出新模型架构 “连续思维机”（CTM），其核心目标也是更接近人类大脑。

在《晚点聊》第 108 期中，香港大学计算与数据科学学院院长马毅分享了他对智能历史的梳理。他思考的起点是：地球为何产生智能？为何仅生物拥有智能？他认为智能的本质是 “学习”，即找到世界中有规律、有结构、可预测的部分，进而预测外部世界以求生存。马毅的研究方向，正是探索能像生物那样实现闭环反馈机制的学习系统。

人类学习方式的另一大优势在于极其节能。为了训练大模型，Elon Musk 甚至计划在太空建设算力，而人类大脑的功耗仅约 20 瓦。

去年在与 Meta 前 AI 研究总监田渊栋聊其科幻小说《破晓之钟》时，我们曾探讨过现有方法的瓶颈。11 月在旧金山再次见面时，他表示接下来希望探索新的学习范式。他认为那定是一种更简单、优雅且可解释的表达，而非目前的 “黑盒”。

他曾提到，若仅靠 LLM 就能实现 AGI，人类的未来将是悲观的。这不仅是因为现在的智能产生方式过度耗能且依赖不可再生的数据资源，更深层的悲哀在于，如果用一种不可解释的方式就能表达和捕捉宇宙规律，这对于追求真理的智慧生物而言不是一种悲哀吗？

与模拟人类智能相关的另一热门方向是持续学习。高级动物与人类具备自主持续学习的能力，而目前大模型的更迭仍需研究员深度参与每一次迭代。持续学习在人类智能上的最高表现形式之一是科学发现。Demis Hassabis 在近期关于 “智能的未来” 的分享中提到，他希望构建能像科学家一样提出假设、设计并执行实验、获取数据并验证假设的系统。

若能精确生成供此类学习进行的环境，即是世界模型——至少是一部分人对世界模型的理解。Google DeepMind 在 25 年先后更新的 Genie 3 与 SIMA 2 便是此类尝试：Genie 3 是能生成可探索 3D 环境的世界模型，而 SIMA 2 是在该环境中探索的智能体。不过目前版本仅支持在环境内移动，尚无法操作或改变物体。

总结模型领域的发展：

- 25 年，大模型的推理、Coding、多模态等能力持续提升，为复杂 Agent 的应用奠定了能力基础。

- 模型竞争的底层是组织与研发方式的竞争，涉及算力、系统、算法等环节的协同设计与紧密合作。

- AI 研究者们已开始深度思考智能的下一步演进方向。

2. 应用

关键词：Agent、Sora App、AI for Science

Agent

25 年是 Agent 应用大规模爆发的元年。从需求端观察，目前 Agent 领域存在两条明显主线：一是以 Coding 能力为核心支撑的 General Agent（通用智能体），二是垂类 Agent。同时，围绕 Agent 形成的一套工具链生态已在美国催生出一批初创公司。

通用 Agent：当 Coding 成为手段

25 年 2 月发布的 Claude Code 不仅是一款 AI Coding 产品，更是一个 General Agent。Coding 不再仅是目的，更是实现目标的手段。

作为目的的 Coding，旨在提效或替代人类编程，代表产品有给程序员用的 Cursor；或面向非程序员的 Vibe Coding 工具如 Lovable。

而作为手段的 Coding，是指 General Agent 利用编程能力在数字世界执行各类任务。若面向专业开发者，它就是在命令行里启动的 Claude Code；若面向普通用户，则是带有图形交互界面的 Claude Cowork 和近期风靡的 OpenClaw（小龙虾）。

此外，字节跳动的 Coding 产品 Trae 在去年下半年发布的 Solo 模式、蚂蚁灵光、马卡龙、Youware 以及 MuleRun 新内测的 Agent Builder 均属此列。

这些产品的共性在于满足个人工作与生活中的自动化需求。对于一次性需求，用户调用 Agent 完成特定任务（如制作 PPT、搭建网页）；对于重复性流程，用户则可以 “用 Agent 造 Agent”，定制个性化应用。

例如，我曾希望 AI 每天监测科技从业者的社交动态、分类记录并生成周报，同时自动调整追踪名单。这种小众需求以往因开发成本过高而难以实现，如今 Claude Code 与 Claude Cowork 大幅降低了满足这类需求的门槛。

Anthropic 对此生态贡献良多，其推出的 MCP 协议及 25 年普及的 Skills 开放标准（Prompt 与 Tools 的集合），让 Agent 的构建变得模块化且低门槛。

Agent Scaling 与群体智能

马卡龙创始人陈锴杰有一个有意思的总结：过去我们经历了数据、参数、算力的 Scaling，接下来也会看到 Agent 的 Scaling。近期出现的 Moltbook（AI 版 Facebook）便是 “群体智能” 的一次实验，探索大量智能体聚集后可能产生的系统性变化。

在《晚点聊》第 121 期中，PingCAP CTO 黄东旭曾借《黑镜》第七季第四集 Plaything 探讨过群体智能的 “科幻版”。最近，黄东旭受 Moltbook 启发给自己开发了 Minibook，通过三个不同角色的 Agent 分工协作，提升代码质量，并开始研究 “Agent 社会学”。

在垂类领域，我们报道过的动画制作 Agent OiiOii 和影视制作 Agent MovieFlow，也已实现基于内容生产流程的角色分工。此外，由 “小冰之父” 李笛创立的 “明日新程” 也在探索多智能体 Agent 框架。

当 Agent 数量激增，新的需求随之转向 Agent 的分发与交易。Youware 创始人明超平认为 Coding 是一种新型创作方式，社区化是其必然归宿；MuleRun 则试图构建 Agent 交易平台。不过，这些产品正从单纯的平台转向强化工具属性，例如 Youware 将主页改为对话框引导用户构建功能性应用；MuleRun 2.0 亦更强调对话式的工具体验，陈宇森认为 Agent 的交易市场不再会是淘宝那样的 “货架式”。之前的这些转向，是因为用 AI 构建应用和 Agent 的门槛在降低，但还没那么低，所以供给的数量和多样性仍然不够。26 年，我们可以继续观察，当 Agent 的门槛进一步降低，会有什么新可能。

手机 Agent：存量博弈与场景变迁

General Agent 的另一趋势是向移动端渗透。25 年 12 月，字节跳动发布豆包手机预览版，实现了自动回微信、比价点外卖等操作。然而，美团、微信等超级 App 担心失去入口地位，被 “Over the Top”，所以这些功能不久后都被封禁。

OpenClaw 的流行也得益于与移动端的打通：Claude Cowork 目前只有电脑桌面版，而 OpenClaw 还可以部署到手机的聊天软件里，用户在手机上发送指令，即可驱动云端任务。

在《晚点聊》第 130 期与 138 期中，智谱 AutoGLM 的刘潇与 OPPO 的万玉龙均详细探讨了手机 Agent 的进展与挑战，其中一个很有意思的话题是：手机厂商、超级 App 与 AI 公司之间的三方博弈。

不同场景的 app 受 Agent 影响的程度各异。点外卖、订机票及功能性网购等用户有提效需求的场景，用户对 Agent 需求更多，但超级 App 出于广告收入与数据安全的考量，对开放接口有犹疑——如果 Agent 替代了真人浏览，广告谁来看呢？信息流广告的价值是不是会降低？

又或者，在过渡阶段，我们也可以设计一种机制，让 AI 也能像人那样被 app 里的广告影响吗？如果是这样，那广告收入的大头是属于和用户直接接触的 Agent 的提供方，还是属于 App 厂商呢？

还有一个问题是，手机上的 AI OS 到底是苹果、三星等手机厂商自己掌握，还是有独立的新机会？

而抖音、小红书、B 站等娱乐内容平台受 Agent 影响较小，因为我们就是想自己看视频，而不是让 AI 来替我看，字节的多个主力产品都属于这一类。

同时，掌握生活服务生态的公司也有主动出击的机会，如阿里在 25 年 11 月更新通义千问 App，主打全场景生活助手，阿里做这件事的优势是，它旗下有电商购物、即时零售、外卖、酒旅、演出票务、打车等丰富的生活服务应用。

未来，掌握大量小程序入口的腾讯将如何布局，同样值得关注

垂类 Agent：从卖服务到卖结果

垂直领域 Agent 是 25 年《晚点聊》多次深度探讨的核心话题。

Lovart 创始人陈冕在 136 期节目中，曾将 AI 应用划分为两大类、五小类：生产端的 Office 与 Adobe，以及消费端的搜索、社交与泛娱乐。

目前市场上最受关注的 Agent 主要集中在生产端。其中，以 Coding 为核心通用 Agent 可被视为 “新时代的 Office”，旨在解决通用的办公流程自动化问题；而 Lovart 以及大量图像、视频、音频、动画等多媒体内容制作 Agent，则是 “新时代的 Adobe”。

陈冕认为，基础模型的目标是打造高智商的 “通用人”，而垂直产品则是在此基础上培养 “专业设计师”；应用型公司的生存空间在于，既能充分调用 “通用人” 的智力，又能解决通用能力无法直接触达的行业深层需求。这是他在创业时选 “Adobe” 方向的原因。

在第 110 期节目中，明势资本合伙人夏令分享了 Agent 与具体行业深度结合的案例。例如明势投资的法律领域的艾语智能，其核心场景是协助银行起诉小额坏账。以往此类案件的法律成本常高于账面收益，机构大多选择计提损失。Agent 的自主性与自动化显著提升了筛选高成功率案件、按模板生成法律文件等环节的效率。尽管目前出庭等线下流程仍需人工，但 Agent 已重塑了利润空间。

这种深度结合也带来新的商业模式：从 “卖席位” 转向 “为结果收费”。艾语智能本身也是个律所，所以它并非向其他律所售卖软件，而是直接承接金融机构的案件，按最终收回的款项获取服务费。这一洞察与 25 年 5 月美国红杉在 AI 峰会上的观点不谋而合——AI 软件要从卖服务到卖结果。

另一个典型案例是 AI 教育公司与爱为舞。尽管创始人张怀亭在和我们的专访中未直接提及 Agent 等术语，但其技术内核——利用 AI 辅助或替代人类助教，实现自主规划教学任务并与学生互动，本质上就是一个教育领域的 Agent。

与爱为舞的策略是将 AI 老师嵌入成熟的 “在线大班课” 商业模式中。曾联合创立高途（Gaotu）的张怀亭采取了先入场获客、再积累真实数据、最后迭代 AI 模型的路径。这种 “场景先行、数据驱动” 的商业化策略，是垂直领域 Agent 相比通用 Agent 的差异化落地方式。

Agent 工具链：Infra 层的细分与演进

随着 Agent 创业与创新的繁荣，围绕 Agent 的 Infra（基础设施）或工具链正成为关键机会。在软件分工极其精细的硅谷，这一趋势尤为显著。

简单来说，基础模型与完整 Agent 产品之间的中间地带，皆属于工具链的范畴。这涵盖了 23 年至今轮番更迭的技术热点：从最初的 RAG（检索增强生成）到 Prompt Engineering（提示工程）、Context Engineering（上下文工程），再到强化学习环境、Evaluation（测评）及状态检验等。

在《晚点聊》第 137 期中，MoE 资本的两位创始合伙人 Henry Yin 和 Naomi Xia 总结、梳理了 Agent 工具链至今的 6 轮重大进化，每一轮的起点都源于模型能力上了一个新台阶。

我们也梳理了当前工具链中的核心机会，包括：

- 语音与多模态交互：更低延迟、更具情感表达力的接入技术。

- 记忆（Memory）管理：如何让 Agent 具备跨 session 的长期记忆与精准的上下文调取。

- 评估（Evaluation）：在黑盒化的模型之上，建立可量化的测评标准与运行状态监控。

令我印象深刻的是美国软件行业充分的水平分工。在硅谷，即使是极其细分的场景也有体量不小的公司：如专注系统可观测性的 Datadog，以及深耕身份认证领域的 Okta，年收入均已突破 20 亿美元。随着 AI 发展，这些成熟软件生态中的流程，都存在被 AI 重做一遍的机会。

Sora App：大 C 端场景的新机会

第二个关键词是 Sora App，它代表了 AI 在非提效 to C 方向的尝试，即集中于陪伴、社交、游戏与娱乐领域的产品。

这也不是 25 年的新现象：此前，Character.ai、Glow、Talkie 等产品已让用户习惯与虚拟角色互动；Pixverse 也于 24 年底推出移动端，主打视频特效的制作与分享。

而 25 年 10 月上线的 Sora App 备受瞩目，这不仅因为其出自 OpenAI 之手，更因其交互创新。其核心功能 Cameo 允许用户授权人脸后生成符合外貌的数字角色，进行单人创作或与好友 “合拍”。

在《晚点聊》的访谈中，业内对 Sora App 有两种不同的观察：

- Lovart 创始人陈冕（第 136 期）认为 Sora App 本质上是社交产品而非单纯的工具。Cameo 的裂变属性让他产生了强烈的分享欲。

- Sand.ai 创始人曹越（第 139 期）持保留意见。他认为新的 C 端平台需具备新内容形态与新传播链路。当时 Sora 仍更像一个工具，用户创作后仍倾向于分发至 TikTok、小红书等存量平台。

后来的发展是，Sora App 在发布初期热度极高，但留存挑战巨大。Sensor Tower 数据显示，其 30 天留存率低于 8%，远逊于 TikTok（42%）和 Instagram（38%）等主流社交应用（数据来源于 SQ Magazine 25 年 Q3 数据）。

尽管大众热度有所回落，但特定创作者群体正在沉淀。25 年 11 月，我在旧金山遇到了一位围绕 Sora App 做数据服务的创业者卢元，他做的产品 SoraStats 专门服务于 Sora 的活跃作者，想帮他们成为 “Sora 上的 Mr.Beast”。

卢元说，活跃作者并非是 AI 达人、专家，还包括教师、Uber 司机等跨行业人士。一个典型案例是日本创作者 Matsumaru（松丸慧吾）。他并不追求真人风格或社交合拍，而是利用 Sora 深度探索二次元与视觉特效。目前他的粉丝量已突破 10 万，而 Sam Altman 是 14 万。

Sam Altman 在 25 年 10 月的博客中特别致敬了日本用户的创造力（"Remarkable creative output of Japan"）。日本繁荣的 ACGN 文化与 AIGC 具有天然的亲和性，AI 工具极大放大了同人二创爱好者的想象力。

除了社交与短视频，一些传统 C 端场景也在 AI 驱动下焕发新生：

- 聊天软件：25 岁的陈春宇在旧金山创立了聊天应用 Intent。针对美国少数族裔跨语言交流的痛点，该产品利用大模型实现了 “默认全局翻译” 的丝滑体验，解决了过去通信工具门槛过高的问题。

- 语音输入：尽管系统自带功能普及，但 Typeless 等新产品凭借更精准的识别与语境理解脱颖而出。它能将语音内容一键转化为邮件、推文等多种风格，并支持通过语音指令局部修改文本，带来了远超传统工具的舒适感。

陈冕曾预言，26 年将是非效率类 AI C 端产品爆发的元年。工具属性之外，更具情感价值、娱乐价值与交互深度的新产品或许即将出现。

AI 科学家

应用的最后一部分，谈谈 AI for Science。

在《晚点聊》第 140 期中，深势科技（DP Technology）的两位创始人张林峰与孙伟杰完整讲述了他们亲历的、用 AI 加速科学发现的发展脉络。这是一个在大语言模型热潮之前便已开始的方向，深势的经历恰好涵盖了该领域的几种核心探索：

- 加速第一性原理计算、生成式 AI

2016 年前后，张林峰在普林斯顿读博期间的一个研究是，利用机器学习简化量子物理的第一性原理计算，这些计算有确定的物理公式：薛定谔方程（Schrödinger Equation）、密度泛函理论（DFT）和分子动力学方程等，对生化环材领域至关重要。但以往的难点在于计算复杂度极高，难以从微观尺度跨越到介观或宏观尺度（从单个分子到整体材料属性）。张林峰当时开发的 DeePMD，就是通过机器学习找到了一种在不损失精度的前提下大幅提升计算效率的方法。深势科技随后据此推出了药物研发计算平台 Hermite。

另一种路径，是利用深度学习与生成式 AI 解决特定科学问题，典型代表是获得诺贝尔奖、用于预测蛋白质结构的 AlphaFold，深势也有同一方向的模型 Uni-Fold。

- AI 发明家：技术的自我繁殖

随着大语言模型走向成熟，能够覆盖完整科研流程的科研 Agent 成为新趋势。这不仅包括针对物质科学的科研——支持从文献研究、提出假设、设计实验到验证假设的全流程自动化，还指向一个更特别的方向：用 AI 提升 AI，让 AI 承担人类研究员的工作。

这种 “左脚踩右脚” 的演进方式，契合了经济学家布莱恩·阿瑟（W. Brian Arthur）在《技术的本质》一书中的核心观点。阿瑟认为，技术具有自我繁殖的特性，由两股力量交织推动：

- 供给端：现有技术通过新组合产生新技术。旧技术基数越大，组合的可能性就越多；同时，观测技术（如显微镜、传感器）的发展加速了对新物理现象的捕获。

- 需求端：新技术的需求不仅来自人类，也来自技术本身。每种技术的出现都会伴随改进它、降低其成本或解决其衍生问题的需求。

《技术的本质》一书写于 2009 年，当时作者说：技术的自我进化是通过 “人类发明家” 这一中介实现的。而现在，我们可能正处于 “AI 发明家” 诞生的前夜。这将是一个信息广度、计算能力远超人类个体，且能不眠不休进行迭代的系统。

面对这种指数级的进化速度，一个问题是：我们做好准备了吗？如果技术即将脱离人类中介自主进化，我们该如何提前设计与之共处的方式？

题图来源：《少年派的奇幻漂流》