对话诺因李银川:华为出身的天才科学家想用合成数据造家务机器人

一个极度乐观主义者心目中具身智能的模样。
文丨申远
编辑丨宋玮
见过李银川的人都说他是一个天才。学生时代他直接保送北理工校长的博士,在读期间就参与了大卖的雷达产品研发。留学美国期间,李银川做了一个量化交易的软件,卖给了华尔街。“对学生来说是很大一笔钱。”
在华为诺亚实验室待了五年,李银川 “拿遍了公司主流大奖”,即使以华为的标准看,他也是一个全力以赴的卷王。
但李银川真正想做的是创业,他给自己设定了一个时间节点: 30 岁,方向也很早就清晰,To c 硬件产品。叠加他的 AI 技术背景,这一切自然指向了机器人。
2025 年,30 岁的李银川从华为离职创办了诺因智能。一个主打家用智能机器人的具身智能品牌,选择的技术路线也略显小众,合成数据。
诺因成立半年就完成了 3 轮融资,估值超过 20 亿人民币。许多人冲着他坚实的学术背景而来。
坦率地说,已经十分拥挤的具身智能赛道并不缺少天才,也不缺少技术路线,缺的是落地能力,至少是落地的可能性。
李银川需要以一种和学术完全不同的方式证明自己是对的,但他非但不焦虑,反倒信心爆棚,用他的原话说,被 200 个人质疑拒绝,他也不会感到受挫。
下面呈现的,是一个极度乐观主义者心中具身智能的模样。
诺因版 L1 - L5 家庭机器人能力等级
这是李银川第一次接受媒体访问,为此他专程从深圳飞到北京。深冬的北京和深圳的温差达到 20 多度,诱发了他的鼻炎,这让他慢条斯理的说话言语中带着一些鼻音。李银川是安徽人,尽管之前曾在北京求学和工作过数年,但显然,温暖潮湿更适合他。采访前一天他六点才睡,这似乎也是天才的一个普遍特征:晚睡晚起,作息并不规律。
晚点:网上关于你的个人资料很少,但论文超级多,乍看上去涉及很多主题,你怎么总结你这种复杂的学术背景?它们都和 AI 或具身智能相关吗?
李银川:论文也没有超级多啦,其实我的研究都可以归类为决策推理。从最早的信号处理开始,然后到强化学习和模仿学习,再到流模型、生成式方法,包括生成流网络,它们都是决策推理大方向上的不同分支,本质都是在研究如何学习高维概率分布,在约束下高效采样、组合 / 优化出新的可行解,在具身领域就是把生成与推理能力落到动作策略上。
2017 年 Transformer 出来那会儿我还在研究强化学习,当时它和 NLP 大模型几乎是两条平行线。2020 年做联邦学习和分布式训练研究的时候,我开始尝试训练一些大模型。
晚点:转向训练大模型的过程困难吗?或者说,这对你来说是一种研究主题的转变吗?
李银川:我觉得更像是工具和范式升级,其实从早期做信号处理的时候就开始用机器学习和深度学习了,所以你能看到早期很多做 AI 的人都是信号处理转过去的,它们之间的理论是相通的。
Transformer 的出现改进了传统深度学习架构的缺点,让基于文本和图像训练非常大的模型变得可能,但决策推理领域在 2020 年的时候并没有这样一种架构范式。
晚点:在决策推理领域,事情朝着什么方向发展了?
李银川:当时决策推理有一个重要技术流派是强化学习,但人们逐渐从理论和应用上都发现它有一些局限性,在求解非常大规模问题的时候,它的探索复杂度太高了。
除了强化学习,别的流派还包括模仿学习以及流网络,但逐渐地有个趋势变得越来越明显,大家的研究目标不约而同开始朝着构建一个生成式决策大模型发展,一个好的决策模型应该把策略知识都学进去,就像语言模型能够生成新的内容那样,决策模型生成新的动作。
晚点:听上去就是 VLA 了。
李银川:可以这么理解,但我更愿意叫它 “生成式决策大模型”,它的概念范围比 VLA 更广。
当时构建这种模型有很多思路,其中一种是把流网络和强化学习相结合,也就是生成流网络。它不像传统强化学习那样只追求一个最优动作,而是通过学习完整策略分布,采样出多种可行的方案,探索效率能够提升很多倍。
还有一种是模仿学习结合扩散策略(diffusion policy),这部分技术一定程度上促进了早期具身 VLA 架构的诞生。
晚点:当时这种架构最大的缺点是什么?
李银川:很多早期 VLA 模型实际上还是依赖扩散策略的模仿学习能力,本质上是把人的操作轨迹给背会。数据覆盖足够的时候会表现很好,但数据不足的时候就容易变得不稳定,一旦遇到训练分布之外的组合、长链条任务里的意外分支它就比较吃力,它更擅长 “复现做过的动作”,因此泛化到复杂场景比较吃力,不是一个能涌现能力的架构。
我们一直在做的,就是把更多生成式决策思想引入 VLA 架构,让模型不仅学会模仿,还要学会在约束奖励下建模和采样动作分布,把动作片段做可组合的表征,再通过后训练把多种能力进行对齐,逐步逼近具身决策大模型应有的能力形态,也就是在复杂场景下执行长链条任务的泛化能力。
晚点:我看到了一个你们内部的材料,划分了具身智能 L1 到 L5 能力范畴,这是你写的吗?
李银川:是我自己做的,因为现在行业内还没有一个对具身智能标准的公认的划分方法。不过这个也算不上是原创,主要对标了自动驾驶领域的划分方法。
具体来说:
L1 (辅助操作):以遥控操作为主,能在遥操作机器人时提供基础辅助,这也是当前行业内用动捕、手柄等技术遥操作机器人的主流形态;
L2 (简单能力、随时接管):这个阶段的机器人可以模仿人类完成特定动作,能实现一些看似酷炫的功能,但需要人一直守着;
L3 (长链条执行、待命接管):最具商业价值,此阶段人只是待命接管,而不是随时接管的状态,机器人可以自主、长链条的去完成一些任务;
L4 (系统运行、无需接管):机器人可以完成限定场景内的各种各样的复杂任务,是无需接管的;
L5 (完全智能):是无需任何干预,机器人可完成任意场景下的各类任务,真的和真人一样。
晚点:诺因的技术现在处于哪个阶段?L3 吗?
李银川:按照我们的技术路线,可以到 L3,现在是从 L2 到 L3 跨越的关键阶段。现阶段机器人已经可以在特定场景和任务下,实现闭环执行,人只需要待命接管。
晚点:这意味着模型一定要有泛化能力。
李银川:在我们的定义下肯定是这样。没有泛化能力,根本无法实现长链条任务的自主闭环和执行嘛。
晚点:这条技术路线,长远看会通向 L5 吗?
李银川:我觉得这更像一个伪命题。L5 会不会出现,不仅要看技术能力,还要看它的商业价值,如果没有商业价值了,尽管技术上能实现,它也永远不会真正走向市场。比如 L5 的自动驾驶真的会出现吗?不一定吧。
晚点:为什么不一定?
李银川:越往后遇到的是越极端的长尾场景,投入会越来越大,但带来的用户价值增量未必成比例,当消费者不会为它买单的时候,它就不会到来了,比如停在 L4 阶段,或者后面的进步非常缓慢。
晚点:你是说边际效率递减对么?
李银川:对,当然在具身上这个问题并不是绝对的,我只是说 L5 也有可能不会到来。至少目前来看,没有哪家公司会把研发 L5 级别的具身智能作为目标,这就有点不着边际了。
晚点:在具身领域,大家对什么是端到端莫衷一是,说什么的都有,你怎么看这个问题?
李银川:因为缺乏标准定义。端到端这三个字,你可以指训练端到端,也可以说模型架构端到端,但在模型架构上,除非你只用一个 Transformer 结构解决所有问题,不然你很难说任何 VLA 模型是纯粹的端到端。
晚点:总结起来,诺因机器人上应用的会是一个端到端的具有泛化能力的生成式决策大模型,而不是分层模型,对么?
李银川:非要这么划分的话,是的我们会偏端到端。因为其实现在很难说还有纯粹分层的架构了,打个比方,即使是分层的架构,在工业落地的时候大家还是会做一系列后训练,那么它就还是一个端到端训练的模型。
“你没法证明你的直觉是对的。”
晚点:什么时候下定决心出来创业?
李银川:GPT-4o 发布。
晚点:当时你还在华为。
李银川:对,创业想法我其实很早就有了,但博士毕业后我还是想在 AI 领域积累更多经验,在当时诺亚研究院是国内公认的最好的 AI 研究院之一,我就加入了诺亚,一直工作了 5 年。
晚点:在华为的时候你主要负责什么?
李银川:我加入的是决策推理实验室,规模相当大,这和其他公司不太一样,因为华为有很多业务都和决策推理、强化学习等技术高度相关。
晚点:听说你在华为内部拿遍了员工能得的主流奖项。
李银川:我做事追求全力以赴,在华为绩效一直都挺好,确实也拿了很多奖。 ChatGPT 大火那一年,公司让我成立了新项目组,开始专注做生成模型相关研究,所以也可以算是吃到大模型爆火的一波红利吧。
晚点:你的项目组主要做什么?
李银川:这个项目组叫生成模型理论项目组,方向之一是 AIGA,最后一个 A 就是 action,所以我们重点关注如何基于生成式学习来生成动作,它的应用范围很广,包括自动驾驶、具身智能等多个领域。
其实在 23 年早期我就提出过类似后来 OpenAI o1 推理架构的想法,因为当时我在寻找 AIGA 在大模型训练上的应用方向。
晚点:但这个方向最后没有推进下去。
李银川:有很多原因吧,具体就不展开了。归根结底很多时候你没法证明你的直觉是对的,对吧?
晚点:你认为你有一种准确地技术直觉。
李银川:对,因为我一直在这个方向上做研究,对行业的技术发展趋势有自己的判断和积累。其实最拼的那段时间就是 23 年,当时经常处于一种特别兴奋的状态,很长一段时间每天只能睡 3 个小时,看各种论文,有点像追漫画,论文一更新,我就拿来读,读得多了之后,一篇新论文只需要几分钟我就能抓到重点了。
晚点:说回来,为什么 GPT-4o 让你觉得可以出来创业了?
李银川:因为它解决了一直困扰我的问题,那就是具身的数据来源。很多人觉得合成数据就是生成逼真的画面,但机器人需要的不是好看的图片,而是能学到动作的数据。
GPT-4o 模型已经能够理解和生成具有物理结构的内容,指令遵从性也非常高,只要在具身场景下做进一步提升,从中提取动作相关的信息是可行的,这让我觉得用合成数据做具身这条路可以走通了。
当时 GPT-4o 的吉卜力风格特别出圈,说实话我还挺惊讶的。
晚点:连你也没预料到进步会这么快?
李银川:对,当时确实没有料到。我们当时还聚焦在研究大语言模型上,突然发现多模态能力都已经开始快速涌现了。
晚点:你没有想探究一下它能力提升的原因吗?
李银川:原理我是大概知道的。GPT-4o 能做到这么出色,不是因为某一篇论文提出了一个划时代的技术,而是依靠背后庞大工程团队的技术整合能力和工程落地能力,把各类前沿技术进行了高效融合和落地。
晚点:总结起来逻辑就是多模态模型可以生成高质量合成数据,它们能被用来训练具身模型。
李银川:对,要用模型生成具身数据,而不是人采集具身数据。这是我们基于这代多模态大模型摸索出的全新技术和数据路线,目前行业内还没有形成广泛共识。和大部分具身公司基于自动驾驶的技术体系不一样,而我们是完全围绕多模态大模型和家庭具身场景,打造的专属体系。
晚点:为什么人采集具身数据不行?
李银川:这和我们的创业方向有关,诺因是一家专注 To C 的具身智能公司,机器人会进入家庭。你很难想象让机器人走进 1 万个家庭采集遥控操作的数据吧?仿真数据也是,它需要很精细的物理建模,还要投入大量的人力去标定仿真数据,这在复杂的家庭环境下实现成本太高了。
晚点:成本高不意味着不可行,如果模型最终出现了很好的泛化能力,成本高一点也是可以接受的?
李银川:首先,我们做的是 To C 产品,这些成本最终都会叠加到产品的售价上。其次,模型的泛化能力并不是凭空出现的,一定是数据足够多,质量足够高才可以。
好的数据就像好的模型架构一样,必须简单、可扩展,合成数据恰好有这样的特点,同时成本更低。这会让其它的数据采集路线虽然理论上可行,但最终会失去商业价值。
晚点:训练数据都采用生成方式,不会容易出现过拟合的问题么,出来的数据都太类似。
李银川:为什么你觉得真人采集的数据就不会过拟合呢?其实在实践中你会发现,你很难教会一个人什么叫采集 “非同质化” 数据,比如倒水这个动作,真人采集 1000 条数据,最终 90% 对模型来说可能都是类似的,因为他很难每次都做出非常不一样的动作、产生很大不同的变化。
但合成数据可以做到,只要工程能力足够强、生成质量足够高,就能把数据差异化做得很大。另外这里还有一个对模型能力的理解问题,不是随便变就叫多样性,有些维度上的变化对模型泛化帮助很大,但大部分的变化都是有害的,我们花了不少时间去找到这条边界。
晚点:诺因生成数据的模型是怎么做的?
李银川:现在没有一个拿来就能生成高质量家务操作的模型,所以我们在针对具身任务微调开源模型。
晚点:这个东西听上去没有很难。
李银川:听起来就是正常训练大模型的那些技巧,对我们做过的人来说可能不难。当然我们现在敢出来讲,肯定这里面还是有非常非常多 know-how 的,核心难点不在于训练模型,而在于定义什么是好的合成数据。
模型生成的是像素,但机器人从中学的是动作策略,这两者之间的桥怎么搭,目前没有现成答案。我们的合成数据针对的是我们自研的具身决策大模型架构,它们结合起来门槛就非常高了,我们走了非常多弯路。
晚点:你们不是才成立了半年多时间吗?
李银川:大模型时代每个月都能算是一个技术新周期了。你会不会觉得 GPT-5 已经到来很长一段时间了?其实也才半年多。
晚点:你提到了好几次技术和成本效率之间的关系,你是不是很早就想好了要创业?
李银川:我 20 岁就开始准备创业了,而且明确定的就是 30 岁下场。
晚点:那要是 30 岁等不到风口怎么办?
李银川:其实风口来的更早啊,如果是做大模型的话 23 年就是很好的时机了。当时没做,一来是因为大模型并不是我最擅长的方向,二来我觉得做大模型很难跟大厂竞争。
晚点:大模型很难跟大厂竞争,机器人呢?
李银川:To C 机器人完全可以呀,它属于消费电子赛道,商业模式和大模型完全不一样。消费电子是做出一个好产品卖出去就能赚钱,这个赛道不存在垄断。不管是初创公司还是大厂,消费电子想做好还是要聚焦产品,所以从第一性原理上来讲我们并没有什么劣势。
晚点:你从什么时候起想要做机器人的?
李银川:我从小就对机器人比较感兴趣,本科读的就是电子工程,对硬件和算法都有一定的了解和积累。整个 AI 学科,如果非要我选一个最擅长的领域,那确实就是具身。我以前挺喜欢捣鼓电路板这些东西的,读博时我还参与过一个雷达产品的研发。
不过读博参与项目对我冲击更大的还是周围的同学,当你亲眼看到一帮通过自己努力成功创业的人之后,你会意识到成立一家公司并不是遥不可及的。
晚点:但是据我所知你在美国曾有一次创业经历,和机器人没什么关系。
李银川:一个基于强化学习的量化软件,最后卖给了一家投资公司。
晚点:为什么没有延续这个创业路线?
李银川:纯粹做技术研发,如果要给更多人提供价值,那卖掉是正确的选择。第一次创业我就发现了这一点,做个技术把它卖掉,确实能赚一些钱,但似乎对这个世界没什么改变?我还是想做一个真正能改变世界的伟大公司,这需要足够大的市场规模,也就是 To C 市场。
晚点:大家都在说机器人进工厂,基本做的都是 To B 生意。
李银川:我认可工业场景先落地,这点没有问题。但真的很少有公司能同时把 B 端和 C 端业务都做好,华为是很少数的个例。我还是更愿意做规模更大的市场。
晚点:后面的事就是在等风口了。
李银川:对,我之前一直没有想清楚 To C 到底要怎么做,比如训练数据怎么收集?就像前面说的,雇很多人走进家庭去采集数据我觉得肯定不行。等到 GPT-4o 出来,数据的事情比较清晰之后,创业的决心就比较坚定了。
不像人的家务机器人

诺因机器人原型机,来源:诺因。
晚点:考虑到你的背景,To C 市场你之前的经验并不多,对吧?
李银川:人要追求进步,要学习嘛。
晚点:就你个人来说,你觉得最需要进步的是什么?
李银川:需要去学习很多 To C 产品定义相关的事,不然很多时候会想当然。比如,你觉得机器人价格多少是合理的?如果一个家务机器人卖 10 万块,你愿意买吗?
晚点:当然不买啊。
李银川:所以你看,真的不能想当然,不同人的想法真的差异挺大的。
晚点:你难道觉得 10 万块这个价格合理?
李银川:没有到十万,但最开始我确实觉得大家愿意花更多的钱买一个家务机器人。汽车十几万、几十万的都有人买,那如果一个足够强的家务机器人,能给你做好多个领域的家务,每天都能用到,对标保姆的话,贵一点应该也是有人买的。
晚点:什么让你改变了这个想法?
李银川:这就是产品定义我需要补课的一部分。消费电子产品定价不能简单根据已有功能的强弱定价。
晚点:那应该怎么定价?
李银川:跟成本挂钩。如果售价比成本高出太多,那一定会出现一家公司卖的比你便宜,然后你就失败了,尽管对方功能可能并没有你好,但它足够便宜。
晚点:怎么定义 To C 家庭机器人的功能好?
李银川:至少有一个功能,让用户每天,或者至少每周能用个几次,而不是放在那里吃灰,这就是好。
家庭是机器人最大和最难的场景。我比较擅长算法,肯定要做最难的事才能发挥自己的优势。诺因正在关注的家庭高频场景大部分是清洁相关,比如案面清洁、洗衣服等,此外还有像老人孩子的照顾,宠物照顾清洁这些同样比较高频的需求。
晚点:洗衣服包含大家喜闻乐见、最爱展示的折叠衣物环节对吗?
李银川:我们想的是从拿衣服开始,到把它放到洗衣机里,洗完然后晾晒,一个完整流程。
晚点:上面你提到的这些需求,每一个听上去都很难。
李银川:是的,实际做起来也不容易。
晚点:你答应的蛮干脆的,这些 L3 级别的任务诺因目前完成到什么程度了呢?
李银川:我们认为技术路线是收敛的,也就是说这些事情是可以做到的,只是还需要一些时间把它做好。
晚点:这个技术路线收敛的判断是你做的吗?
李银川:我做的判断,然后大家也会有共识。其实去年注册公司的时候我就做了这个判断了,大概在 7-8 月份,这半年技术上的进展和我们的预期是相符的。
采访时李银川给我们展示了两段视频。一段是机器人在一个横向放置宛如桌子的电视屏幕上叠衣服,电视同时在播放着五光十色的视频片段,而机器人旁边还有包括迪斯科灯球在内的各种复杂光源。机器人依旧可以顺利折叠任意形态的衣服。另一段视频里,机器人在调节洗衣机的旋钮,李银川说,诺因的机器人已经可以做到精准控制洗衣机操作旋钮的角度。任意形态、任意背景、任意光照条件下的泛化,这种能力,根据李银川的说法,完全来自使用足够多的合成数据。
晚点:聊了这么久,还没说你们的产品形态。第一款产品是什么样子的?大概多久会上市?
李银川:第一款是基于轮式底盘,没有上灵巧手,预计明年开始发布,然后用大概半年时间量产交货。Sunday Robotics 之前的视频挺火的,给大家带来了一些想象,我们已经有一些类似但不一样的设计概念了。
晚点:一个老生常谈但又不得不问的问题,为什么是轮式?
李银川:家庭一定是轮式的,双足太容易摔倒了,而且续航、噪音也是问题,轮式可以放更大的电池,也更安静。
晚点:除了产品价格,还有什么产品定义上和你之前想得不一样的地方吗?
李银川:有一个思路上的不同,就是应该用做加法的方式做产品,也就是说当你为了达到某种能力必须加东西的时候再给你的产品加,除此之外,你应该努力还原家庭机器人最极简形态,这也方便我们全栈自研,整合硬件与供应链系统。
晚点:举个例子?
李银川:比如在操作感知上我们是纯视觉方案,没有结构光或激光雷达。不是说它们完全没用,而是价格确实很贵,我们在算法上做了很多额外工作试图弥补没有结构光和激光雷达造成的问题,最后发现这条路是可行的。
当然,这和我们的技术路线也有关系,我们本来用的就是纯视觉的合成数据,从第一性原理来讲视觉信息就是足够的。
晚点:我知道你们有一位联创来自大疆,这种做加法的理论算是大疆的方法论吗?
李银川:这确实是他给我讲的,我想应该算是吧(笑)。第一款机器人不上灵巧手也是这个原因,现阶段夹爪就能把家务做得很好,所以暂时不需要灵巧手。
晚点:大疆方法论还有什么让你印象深刻的地方?
李银川:我是和他们聊才知道,产品的外观设计是一套可以在白板上写公式的方法论,我第一次看的时候特别震撼。哪些设计必须有,哪些是附带的,加上之后会对整个外观的函数造成什么影响,这是可以算出来的。产品设计最终是需要找到一种平衡,而不是拍脑袋觉得某个东西好看或者不好看。
晚点:那有什么功能或者产品设计让你印象比较深刻?
李银川:现在还在比较早期阶段,我可以贡献一个已经被否了的产品设计。我听音乐的时候比较在意音质,所以一开始我想这个机器人是不是可以放个高品质音响在里面,我看电影的时候在旁边放音乐。
晚点:因为不符合加法方法论而被否了,是么?
李银川:在家里看电影用专门的外置音箱可能还是一个小众需求。
晚点:创业之后你有没有发现自己的产品 sense 相比技术直觉差很多吗?
李银川:我在进步(笑)。我确实之前没做过 To C 产品,但从我这半年的进步来看,我觉得我学习能力还是可以的,而且我的产品团队非常强。
晚点:明年机器人发布,会解决刚才我们提到的那些任务,主要围绕清洁相关家务展开,当然也包括洗衣服对么?
李银川:我们在往这个方向努力,目前看应该可以。
晚点:换句话说,明年就是你们预计技术上可以攻克,产品上完全准备好的时间节点。
李银川:对,我们预计是一年多的时间。
晚点:最终,诺因的机器人在家庭中会是一个什么样的存在?
李银川:第一款产品我不希望大家把它当做一个家庭成员看待。如果是家庭成员的话,那意味着存在感很强,也不匹配现阶段具身的能力,现阶段它只是一个做家务的机器人,不是保姆。所以我们希望它存在感尽量低一点,该工作的时候工作,大部分时间休息。它升起来大概一米六左右,降下去一米二三的样子,尺寸也比较适合中国家庭,因为大家的房子普遍还没有那么大。
晚点:你更希望大家把它看做一个工具产品,而不是机器人?
李银川:我希望大家把它当做一个聪明的,能为你做事的产品,主打家务功能,附赠情绪价值。
被 200 个人拒绝的极度乐观主义者
晚点:你们融资速度非常快,成立第一个月就融资了,第二轮估值就翻倍,但即使现在,合成数据都不能说是个主流的方向,你怎么去说服投资人?
李银川:最早的时候大家可能觉得我在吹牛,但我们进展真的非常快,非常迅速,大家一看演示就知道,很多人被我们的速度震惊到,所以我们融资上确实没怎么费力,反而因为估值涨的比较快还被抱怨过。
晚点:这算是凡尔赛吧 … 成立时间这么晚,你怎么跟投资人解释诺因和其他公司不一样的地方?
李银川:我们极度聚焦在技术和产品本身,从最开始十几个人到现在 100 人的规模,我们都很像苹果早期 Mac 开发团队,组织架构围绕着产品在快速迭代,非常扁平。
晚点:你个人觉得有什么短板需要补吗?
李银川:最大的问题可能是时间不够用,除此之外,我觉得只要一直保持学习,所谓短板都是可以补上的。
晚点:感觉你创业之后好像更快乐了?
李银川:因为每天都有正反馈,很多时候都兴奋地睡不着觉。我从小就不太喜欢按部就班死记硬背,所以我偏科很厉害,学生时代最快乐时间段是读博之后,因为有很多自我探索的时间,再有就是现在创业。
晚点:除了快乐,感觉你也不焦虑,尽管具身智能是一个竞争这么激烈的赛道。
李银川:因为我在做正确的事情,这方面我极度乐观。举个例子,如果你去创业的话,聊 100 个人,99 个人都在质疑你,你会受挫吗?
晚点:正常人都会吧。
李银川:我完全不会。我们早期招人的时候,很多人都不认可我的技术路线,会遇到非常果断的拒绝,但这完全不影响我第二天依旧能量满满的继续和人聊。最后,聊多了你就发现,这个行业里真正顶级的,技术非常强的人我们是会聊得来的,会认可我的。
晚点:但还是拒绝了你。
李银川:哈哈哈哈对,各种各样原因拒绝的都有,我早期可能聊了 200 个人都被拒绝了。
晚点:你就没有一个心理调适的过程?这是自信还是你非常确定你就是对的?
李银川:因为知道自己是对的,所以被拒绝或不认可真的不困扰我。这实际上还形成了一个双向筛选,真正有技术判断力、最顶级的人最后反倒是被我们的愿景和技术路线打动加入我们了,因为大家对技术的理解真能聊到一起去,所以诺因现在团队的人才密度和技术水平说实话超出了我最初预期。
晚点:基于你非常自信的这个视角,你怎么看 2026 年具身智能的竞争格局?
李银川:我觉得 2026 年不聚焦落地或者没有落地能力的公司就不太会被关注了。合成数据这个方向会有更多的玩家出现。
我算比较早出来融资讲具身智能 To C 可以做以及怎么落地的人,所以可以说诺因确实在 To C 上有先发优势。
晚点:这个先发优势能维持多久?
李银川:就像之前说的,首先,这里面积累了很多 know-how,就算竞争对手完全知道了技术路线的细节,那也要花半年到一年的时间才能追上来。其次,前面也说过,合成数据并不适配所有技术路线,这是和我们生成式决策的架构高度绑定的,这方面的门槛很高。
晚点:你该不会要给我说,其实你心目中诺因的竞争对手只有自己吧?
李银川:我们真的不跟外界比,因为真的很聚焦产品本身,它是一个世界上还没有的产品,所以你也没法从别人身上学到现成的答案。现在最大的问题是如何让团队里来自不同背景的人充分协调配合,发挥最大创造力,只要你做到最好了,其实也就不用太关心外界了对不对?外界最多也就是和你持平。
晚点:诺因现在规划中的机器人产品是从 L2 到 L3 的过渡,那再往前一步的技术会是什么样的?需要新的范式转变吗?
李银川:我其实已经想好技术的转变会在什么时候发生了,我面试许多候选人的时候也会深入聊这些细节。但是大模型技术进步太快了,现在我们预料两年后该做什么,那它大概率不会发生,或者到时候已经不是最优解了。
晚点:还是可以大概说一下吧,读者也会好奇的。
李银川:这就纯猜了哈,比如我们最终产品卖出很多台后,收集了大量真实数据,届时我们会有一种更涌现的架构,把所有的家务技能重组编排,然后训到基座模型里面。
晚点:它和现在的技术路线区别在于一个是合成数据一个是真实数据?
李银川:在于泛化能力不同,现在的模型已经可以精确操控洗衣机了,但如果你让它炒个菜它还是不行的。最终具身大模型会从生成新动作转向涌现新技能,因为人是可以触类旁通生成新技能的。
晚点:现在的模型依旧围绕在特定场景执行特定任务。
李银川:围绕特定难度的任务。像炒菜这种非常复杂、对安全性要求很高的任务我觉得目前还是泛化不了,现在能够实现一定泛化的任务难度还是可控的。
晚点:因为合成数据的原因,你们对模型架构做了一些调整,但未来总的来说还是以 Transformer 架构为主导。
李银川:是这样的,其实现在大家也都在这样做。
晚点:具身智能领域同样也会遵循 Scaling Law (缩放定律)对么,会突然涌现么?
李银川:我们内部的 Scaling Law 曲线已经绘制半年了,每月都会更新进展,但它和涌现不太一样。这条曲线让我们可以预判,再投入多少数据、在什么任务上能获得多少能力提升,这也是我们敢说技术路线收敛的依据。Scaling Law 是说数据量和模型能力以及准确度之间的关系,涌现是说模型出现了意料之外的泛化,比如模型本来是做清洁任务,突然就会做菜了,这种现在的技术还看不太到。
题图来源:诺因智能
相关推荐
天才李一男的“不归路”
李一男造车抢在华为前
诺奖得主对话中国科学家:国际合作是科技成就的基础
创·享 CGC-XView|对话美国合成生物学企业 Amyris 和 Metagenomi 资深科学家
黄仁勋女儿谈机器人数据瓶颈,仿真与合成数据成关键
对话达摩院科学家:阿里人工智能这五年
博鳌亚洲论坛2021年年会开幕;华为王军:华为不造车,造车不一定赚钱;2021年度票房突破200亿元
对话智元首席科学家罗剑岚:中国的具身智能圈比美国更加“务实”
丰田第四代机器人,原来是个“做家务的男孩”:日本老年护工短缺问题迫在眉睫
华为人形机器人要量产?华为或要当赛道霸主,已悄悄布局10余年
网址: 对话诺因李银川:华为出身的天才科学家想用合成数据造家务机器人 http://www.xishuta.cn/newsview147633.html
推荐科技快讯
- 1问界商标转让释放信号:赛力斯 95792
- 2报告:抖音海外版下载量突破1 25736
- 3人类唯一的出路:变成人工智能 25175
- 4人类唯一的出路: 变成人工智 24611
- 5移动办公如何高效?谷歌研究了 24309
- 6华为 nova14深度评测: 13155
- 7滴滴出行被投诉价格操纵,网约 11888
- 82023年起,银行存取款迎来 10774
- 9五一来了,大数据杀熟又想来, 9794
- 10手机中存在一个监听开关,你关 9519
