首页科技快讯对话原力灵机唐文斌：中国最早AI创业者做具身，他选择先不做人形

对话原力灵机唐文斌：中国最早AI创业者做具身，他选择先不做人形

来源：晰数塔互联网快讯时间：2026年04月24日 15:28

“今天的问题不是谁行、谁不行，而是这个行业到底多快能行。”

文丨程曼祺实习生李清旸

编辑丨宋玮

原力灵机是一家刚成立一年多的具身智能公司，也是一个已经做智能机器人十年的团队。

2011 年，原力灵机联合创始人兼 CEO 唐文斌与两位清华同学，印奇、杨沐一起创立旷视，这是中国最早的 AI 创业公司，只比 DeepMind 晚一年。

原力灵机的其他三位联创范浩强、周而进和汪天才也来自旷视。

2011 年，读高二的范浩强因为 IOI（国际信息学奥赛）金牌保送清华，“没事干了”。当时是中国 IOI 国家队总教练的唐文斌说：正好我刚创业了，要不你来我们这儿上班吧。范浩强成为旷视第 6 号员工。

两年后，范浩强和旷视实习生周而进组成的 “强进组合”，成为旷视最早探索深度学习的团队，拿下 ICCV 2013 人脸关键点定位赛世界第一。和现在的 AI 大模型研发相似，那也是个 “年轻实习生 carry 全场” 的时刻。

原力灵机现在正和大模型创业公司阶跃星辰合作，直接参与多模态基模的预训练。而其它多数具身智能公司的做法是基于开源的多模态模型做具身模型后训练。

阶跃星辰也与旷视有渊源。旷视联创和前 CEO 印奇现在担任阶跃的董事长。阶跃联创之一的张祥雨来自旷视研究院，是 AI 领域被引用最多的论文 ResNet 的四位作者之一。

从 2016 年起，唐文斌在旷视发起了机器人业务，做仓储和物流机器人及调度系统，服务了天猫超市、宝洁、富士康、优衣库等客户。在优衣库上海大仓里，旷视的系统能协同调度千台机器人一起工作。唐文斌全盘管理这个事业部的研发、产品和商业交付。

原力灵机选择先不做人形机器人，也不进特斯拉和 Figure 等公司看好的汽车产线。唐文斌认为，第一步是去找 “人能兜底” 的高容错场景，机器人 “搞砸” 的事，人能接着干完。

这来自他多年做物流和工厂场景的核心洞察：调度能力往往是决定生产场景效率的关键，调度网络里过去就有自动化设备和人，现在也可以新增智能机器人。单体机器人能力不足的地方，系统可以补位。

过往经验在新环境里是对是错，现在难以判断。可以确认的是，原力灵机是一家想按自己的方式探索具身智能的公司。

唐文斌说，机器人一直是他们最初的梦想，旷视的英文名是 Megvii ，意思是 “给机器以视觉”。

从旷视到原力灵机：“我们就是一个崭新的公司”

晚点：旷视从 2016 年就在做机器人业务，为什么决定在 2025 年成立一家新公司来做具身智能？

唐文斌：2024 年时，小强（范浩强）、而进、天才已在尝试用大模型方式做机器人，研究 VLA 。同时我们也在看旷视最终是否上市，上市会是一个结构，不上市又是另一个结构。

核心是资源。当时我们就能看到，具身智能创业需要极大的资源。

晚点：从 2024 年年中旷视决定撤回上市，到 2025 年 3 月原力灵机正式运营，中间这段时间在做什么？

唐文斌：做重组，重新安排股东权益。

晚点：现在原力灵机和旷视是什么关系？

唐文斌：有一些相同的股东。

晚点：印奇现在同时担任千里科技、阶跃星辰的董事长。阶跃和千里有合作，和原力灵机也有合作，这几家公司之间什么关系？

唐文斌：是 “兄弟公司”，有一些股东重合。我们会面对一些重要场景，比如具身智能等做联合训练，原力灵机会在数据环节和预训练环节就参与进来。

晚点：因为原力灵机有一些之前的股东，在吸引新人才时，你们能像其它新成立的创业公司那样留出足够激励吗？

唐文斌：我们现在就是一个崭新的公司，激励方式完全按照新公司来。我们留了大概 30% 左右的期权池，比一般公司还大。

晚点：你们的筹备期比较长，又赶上具身智能创业火热，范浩强、周而进、汪天才等重要骨干都没有离开去其他公司创业，这是为什么？

唐文斌：小强他们都不缺机会。大家还在一起，一是相信我们这群人一起有更大概率做成：我们有多年的信赖，又有做物流机器人这么多年积累的客户和场景。

当然还有兄弟感情。而进是我的中学师弟，也参加信息奥赛，我认识他时他是初二。小强在人大附读初一时，我就去给他们讲课，人大附很多孩子聪明而不认真，而小强是又聪明又认真，总是坐在第一排。后来他果然进了国家队，代表中国拿了 IOI（世界信息奥赛）金牌。

他保送清华后没什么事做，高二就在旷视上班了，是我们的第 6 号员工。强的人会喜欢跟强的人在一起。

旷视技术和业务团队合影。第三排左二印奇、左四杨沐、左六范浩强、左八唐文斌；第二排左三孙剑。

晚点：为什么当年这么高的人才密度没能转化成商业大成功。旷视研究院高峰时有十几个 IOI 金牌。

唐文斌：能力强的人都想去做最难、最本质的事情。挺逗的，以前在研究院的一个口头禅就是：“这不本质”。

但到了商业落地阶段，所有对客户有影响的事都是本质的，不是最难的事才本质，所以就需要另一群人来配合，做好需求洞察和客户服务。

晚点：你觉得最强的人怎么看财务回报？旷视创业十几年也没有上市。

唐文斌：这也是印奇跟我心中有愧的地方。但在财务回报之外，大家对于把事情做成、对社会产生影响力和价值感也有更高追求。而且我们这帮人还是相信，这么多年的积累最终能转化成价值。

具身原生：与阶跃星辰合作，参与基模预训练环节

晚点：原力灵机做具身模型的理念是 “具身原生”，这是指什么？

唐文斌：目前大家做 VLA（vision language action 视觉语言动作模型），多数公司的做法是基于开源 VLM，再加一个 action（动作）模块去得到 VLA。这是 “嫁接”。

而 “具身原生” 是具身智能公司直接参与 VLM 预训练。

晚点：嫁接做法有什么问题吗？看起来它成本更低、更有研发效率。

唐文斌：VLA 模型的性能和 VLM 的能力都会受影响。这就像让一个孩子接受完九年制义务教育后才去练体育，筋骨不健壮，文化课也丢了。

晚点：你们具体怎么解决这些问题？

唐文斌：第一，在 VLM 初期就让模型见到机器人的数据；第二，在 VLA 训练时，不只训练 action（动作）能力，同时也去训练 grounding（视觉定位）、VQA（视觉问答）这类偏 VLM 的能力，做联合训练。

晚点：这种做法以往有两个难点：一是 VLM 需要大量数据，而机器人数据相对有限；二是训练多模态基模的成本很高，以往只有大公司和大模型公司有算力、人才投入 VLM 预训练。

唐文斌：在数据上，和物理世界相关的数据对机器人都有用，主要有 3 类：多模态的互联网数据、智驾数据和量机器人操作数据，前两类数据的量很大，这三类数据一开始就可以放在一起，训出一个 “物理世界原生” 的 VLM，再用于 VLA。

在训练投入上，我们现在是和阶跃星辰合作，一起预训练原生 VLM，然后原力会在此基础上再做 VLA 后训练。

晚点：你们和阶跃星辰具体怎么分工、合作？

唐文斌：我们有机器人数据、阶跃有互联网数据，我们几家公司可以联合训练模型，这对我们各自的模型都有帮助，训出来的基模可以让所有人都受益。

晚点：你们现在选择和阶跃这样的大模型公司合作，长期来说，在机器人的 “智能” 层面，有什么只有具身智能公司能做，而基础大模型公司做不了的吗？

唐文斌：一是现在很多公司都在提双系统。基础大模型公司在 System 2，就是负责推理、任务分解的慢思考上很擅长，但到负责运动控制的 System1 上就需要有动作能力的模型，如 VLA。

而一些更精细的操作，还需要融入力觉、触觉的更快速运行的一层系统 System 0。所以未来可能是三层结构。大模型公司和 System 2 强关联，而具身智能公司可以在 System 1 和 System 0 上做努力。这也是软件与硬件更紧密结合的部分。

二是数据。最终具身的数据不能仅来自互联网上已经存在的数据，而是要靠数据飞轮：一定要让机器人被批量化用起来，再回传真实数据，这对提升智能能力才是最有用的。这部分不是大模型公司或互联网大厂投资源就能轻易搞定的。

创业公司也可以做 Infra 生态：当年天元的问题是开源太晚

晚点：原力灵机对外做了很多行业基础设施的工作，如发起和运营 RoboChallenge 评测平台、开源 Dexbotic 具身框架。做这些工作的意义是什么？

唐文斌：这些工作的初衷是服务内部，后来我们觉得做得不错、对整个业界有用，就开放了出来。

今天的问题不是谁行、谁不行，而是这个行业到底多快能行。而决定行业迭代效率的又是一系列基础设施。

如果迭代够快，具身机器人能达到可应用水平，市场可以存活很多公司；否则除了搞科研和文娱，所有公司都是泡沫。

晚点：之前旷视也开源过天元（MegEngine）深度学习框架，但相比 TensorFlow、PyTorch 等并不活跃。为什么现在要再做一遍类似的事儿呢？

唐文斌：天元恰恰是开源太晚了。其实 2013 年我们就开始做天元，因为当时只有 Caffe（注：最初由伯克利团队研发和开源的一个深度学习框架，Meta 基于此开发了 Caffe 2，后被并入 PyTorch）还没有 PyTorch，外部工具是真的不好用。

但当时我们对开源没有认知，觉得引擎好用，自己用就行了，等 2018 年再去开源时已经没意义了。

基础设施能被更多人使用，核心之一是要早，具身智能行业还在早期，现在我们选择把 Dexbotic 开放出来。

晚点：具身模型的开发有什么 TensorFlow 和 PyTorch 不能支持的地方吗？重新做的必要性是什么呢？

唐文斌：首先，Debotic 不是替代 PyTorch，它是 PyTorch 上的一层封装，是一个工具箱，可以配置 vision encoder，统一数据格式和部署方式，让具身开发和实验更方便。

Debotic 更偏模仿学习，而清华汪玉老师和无问芯穹团队那边做的 RLinf，更侧重面向具身的强化学习，我们两边已经打通了接口，希望逐步合成一个更大的项目。目前我们的框架已经有 1000 多个外部开发者了，很多高校在用，业界也有阿里千问等团队在用。

晚点：另一个策略是，直接用大公司推出一些 Infra，这样会不会对你们来说更节省开发资源？

唐文斌：现在确实没有好用的。其实不管是测评平台 RoboChallenge 还是具身开发框架 Dexbotic，工作量都蛮大的，不是一朝一夕的事，而且需要足够的分享精神。

对我们来说，不管开不开源，这些工具对我们自己都非常重要，因为这决定迭代效率。

开源还有另一个好处：就是 “公开展示身材”。优秀人才都看重名誉，开源会让研发团队更有动力把事情做好、做极致。

不是人形机器人、不进汽车产线：原力灵机的那些少数派选择

晚点：原力灵机是 25 年 3 月成立，但你们计划到 2026 年底才释放落地进展。在现在具身的激烈竞争下，不担心这个节奏太慢吗？

唐文斌：我们是真的在落地。意思是说：真的闭环地解决一个场景里的所有问题，而且账还能算明白——不是一个展示性产品、不是一个 PoC（测试）。这两件事的难度完全不在一个量级。

还是回那个问题：今天到底有多少具身机器人真的在被持续使用？

晚点：你怎么定义 “被持续使用”？

唐文斌：每天至少开机 10 小时，连续两个月都开机。而且有一定量。

晚点：多少台算 “有量”？

唐文斌：一百台算一个开始，一千台是更扎实的证明。有多少场景能达到这个状况？我认为几乎没有。

所以今天看落地，不在于 “广度”。而是看能不能找到两三个场景真正把闭环做透？这些场景里有 100 台、1000 台机器人在持续被客户使用，这才是真正的商业落地。

晚点：这一轮具身智能技术的变化是 “通用性”。在一个场景里落 100、1000 台，以前的机器人四大家族已经做到了。

唐文斌：单个场景并不是在做单个、固定的任务，我们要找的是那种有一些泛化性的场景。太专用的话，确实做不过非标自动化。

在少数场景批量落地的关键意义还在于获得实际运行中的失败数据和人干预的数据，这才能形成数据飞轮，就是能用这些数据做更好的具身模型和系统。而数据飞轮是 AI 技术公司的核心壁垒之一。

晚点：在本体形态上，你们选择先不做人形或类人形机器人，为什么？

唐文斌：我们的理念是 “模型解锁场景，场景定义硬件”。

最终进场景时，标准化的形态容易走到两个极端：要么 underkill（不到位），解决不了问题——相机被挡住、末端伸不进去；要么 overkill（用力过猛），被过度设计、成本偏高。

比如人形或轮式双臂机器人的重心很高，不支持快速移动，开到 0.8 米每秒就顶天了，一急刹车就容易倾覆。但一个小 AGV 可以贴地飞行开到 4 米每秒。这就可以把送东西的工作交给 AGV，具身机器人专注精细操作。

晚点：这会不会导致本体形态太多，难以靠规模降本？

唐文斌：所以我们要抽象出共通模块，像乐高积木一样，快速组合成在不同场景能运行的形态组合。我们肯定也不希望变成为每个项目做定制的公司。

晚点：你们的另一个选择是不进汽车产线。而且你们本来有这个优势——千里科技自己就有摩托车和汽车产线。

唐文斌：特斯拉 Optimus 一直在讲这个故事，Figure 也在讲和宝马的合作。但我反而认为汽车厂不是好场景——它高度错误不容忍、高度强调节拍（速度），这两点现在都很难解决。

晚点：你们会优先去什么场景？

唐文斌：这要结合模型能力和场景特点一起考虑。

模型上，今年很重要的方向是从 specialist（专用）走向 generalist（通用）。现在大家基本还在做 specialist 算法，用同一个基模在不同任务上分别微调。而 generalist 是训一个模型，通过提示词把 20 个任务全干了。我们现在 generalist 的成功率只有约 30%，还很低。但今年会有很大提升，能解锁很多场景。

场景上，我们有四个标准：第一，容忍错误，今天具身机器人不到百分之百成功，你要允许机器人犯错，人能兜底；第二，容忍节奏，节拍别太快；第三，适度泛化，不要特别专用；第四，长时间作业，否则没有投资回报。这四个是必要不充分条件。

我们最后提供的是一套系统，让任务能被闭环，账能算过来。

晚点：有什么具体的例子吗？

唐文斌：物流就是一个很好的场景。物流的容错方式是：让机器人先干，失败了调度系统给它送到人工那儿，人接着干。我提供的不是一个单机，而是一套系统。有点像滴滴的网络，有自动驾驶车辆，也有司机。

我们之前做复杂的物流仓储机器人系统时，就积累了这套调度、优化能力，这个调度网络里本来就是既有设备，也有人，而现在，这里面也可以加入新的具身智能机器人。

不想过度承诺，也警惕成为 “小老头” 公司

晚点：长远来说，你认为具身智能行业会是怎样的格局？规模和集中度会怎样？

唐文斌：接下来三到五年，可能会有几十家公司同时存在，有非常多的细分场景和垂直领域可以做。

到第二阶段，模型泛化能力变强，小模型被大模型吃掉，垂直领域的公司会变困难，逐渐出现平台型公司。最终可能个位数的公司就够了。

晚点：全球范围个位数，还是中国幸存个位数？

唐文斌：大部分核心具身公司会是中国公司。中国公司供应全球市场。因为具身智能跟硬件强相关，中国更有优势来做。

晚点：怎么能成为最后剩下来的不到十个公司之一？

唐文斌：一是模型能力领先，这是一切的根基；二是能在场景中真的被长期、大量使用，用数据飞轮反哺模型能力提升。

晚点：逐际动力创始人张巍曾告诉我们，如果先让现阶段机器人去落地地，花很多精力优化场景里的模型，最后会限制上限，因为没有把最多精力放在提升模型性能上。

唐文斌：我认同大模型最后会吃掉小模型。具身智能公司要警惕变成 “小老头” 公司，就是做项目的非标自动化公司，那样长不大。

我们现在落地也是用通用模型去做，不是针对场景定制。只是现阶段模型能力不足，需要找容错的场景，靠工程能力去补。

晚点：在旷视时，你们从 2016 年就在做物流机器人，那段经历对你们现在的借鉴和启发是什么？

唐文斌：过去机器人和机械臂的应用场景主要应用在汽车和 3C 行业，其他场景规模未起。仓库是一个非常好的场景，处理的对象是托盘、箱子和单件商品，能形成标准化，适合作为机器人落地的起点。

但我们想做的不止于此，希望能做出更通用的机器人，只是当时还不具备实现条件。

晚点：优衣库的仓库是你们当年的一个标志性案例，这个过程中学到了什么？

唐文斌：2018 年我们参与了上海优衣库的投标。他们希望打造一个自动化程度非常高的仓库，方案很复杂，发货量也很大，当时几乎把国内所有物流机器人和自动化公司都叫过去，一轮一轮筛选。

第一轮大家先提案，一共要做五轮。我们的方案自动化程度很高，从入库、箱式区、托盘区到发货，用到了上千台机器人。

最后我跟客户讲了两点：第一，这么复杂的项目，决定效率的其实是软件和算法；第二，我们不是最有经验的方案提供商，但在算法和调度上是最强的，他们很认同。我们最后也是靠调度系统的能力拿下这个项目。

我们当时就发现，在物流场景里，真正决定效率的是调度系统——货放在哪儿、优先处理哪个订单、怎么协调更多车一起工作。单机能力和系统能力都很重要。

晚点：服务的过程顺利吗？

唐文斌：大家当时都有很多过度承诺，这是 ToB 里的一个陋习。几轮投标筛选中承诺了很多技术上做不到的事。

结果差点搞砸。仓库建完后，我们只做到了目标技术的 30%，客户也觉得这个仓库没法用。后来客户给了我们半年延期，最终把代码推倒重来，才把项目做完。

这之后，我们去日本见了优衣库的创始人柳井正，他们没想到我们真能搞定这个很复杂、很难的方案，认可这种锲而不舍的精神，我们也因此拿到了优衣库在全球的其他项目。

晚点：具身智能行业现在有什么过度承诺的现象？

唐文斌：很多。今天具身智能行业，除了文娱和科研，我们不知道还有多少机器人在被持续地使用。有一些厂商通过摆拍、展示 demo、PoC 场景拉高预期，说 “这个也能做、那个也能做”，但最后效果往往达不到预期。

晚点：你们现在也要竞争客户，会过度承诺吗？

唐文斌：现在不太需要过度承诺，因为很多客户和我们有了信任基础，了解我们的技术风格，我们说不能做，是认真判断后的结论。我们会告诉客户机器人的边界，设计一套失败兜底机制，把账算清楚，这更务实。

晚点：如果具身智能创业像上一轮 AI 热潮那样进入相对低谷期，你们有什么提前的准备吗？

唐文斌：一，准备好足够多的干粮。二，专注在真正相信的方向上，不能分散开枪。旷视原来做了太多事情，不够专注，商业上 A+B+C 约等于 max(A,B,C)，还是要押注在真正信的那件事上。

晚点：你现在对具身智能有多相信？

唐文斌：其实从当年创立旷视的第一天起，我们心里想的就是机器人。为什么旷视的名字叫 Megvii（给机械 vision、视觉），就是 “机器人的眼睛” 的意思。那时模糊地觉得，让机器人能看见很有价值。

2014 年，旷视搬到第二个办公室时，我们还专门买了一台巨大的机器人模型放在公司门口，这台机器人至今还在那儿。

具身智能是值得投入一辈子时间去做的事情。

题图来源：原力灵机

对话原力灵机唐文斌：中国最早AI创业者做具身，他选择先不做人形

推荐科技快讯

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

人类唯一的出路：变成人工智能（三）

饿了么口碑：今年计划招5000名员工、增80万骑手

盖茨力劝美国用核技术解决气候变化愿掏数十亿腰包

对话原力灵机唐文斌：中国最早AI创业者做具身，他选择先不做人形

推荐科技快讯

移动办公如何高效？谷歌研究了两年，发现了这七个秘密

人类唯一的出路：变成人工智能（三）

饿了么口碑：今年计划招5000名员工、增80万骑手

盖茨力劝美国用核技术解决气候变化 愿掏数十亿腰包

盖茨力劝美国用核技术解决气候变化愿掏数十亿腰包