首页科技快讯对话小鹏汽车刘先明：押注 “极简模型”，我花了全公司最多的钱

对话小鹏汽车刘先明：押注 “极简模型”，我花了全公司最多的钱

来源：晰数塔互联网快讯时间：2026年04月14日 16:33

“自动驾驶软件可能接近天花板了，但是物理 AI 刚开始。”

文丨李安琪

编辑丨龚方毅

2022 年下半年，通用汽车旗下的 Cruise 在旧金山晚高峰跑了一趟一个半小时的 Robotaxi（无人驾驶出租车），全程零接管。不久后公司请 Sam Altman 做了一场内部炉边谈话，当时在 Cruise 做机器学习和计算机视觉研究的刘先明和同事们聊起这趟行程，很骄傲。而 Sam Altman 一直在说他们正在做的 ChatGPT —— 当时没太多人在意。

几个月后 OpenAI 发布 ChatGPT，一个足够简单的模型架构，加上足够大的参数量、数据和算力，展现出超越预期的智能。刘先明说当时被震撼了，他想也许沿着同样的路径，不用手写成千上万条规则，不用给系统装五颗激光雷达再把沿街会遮挡传感器的树枝修剪一遍，智能驾驶也有机会涌现出智能。

2024 年初，他带着这个判断加入小鹏汽车。在小鹏硅谷办公室第一次见何小鹏时，他想的是 “如果他听不懂我在说什么，我就不来了”。

今年 3 月，基于这套逻辑开发的小鹏汽车第二代 VLA [1]（视觉-语言-动作模型）开始上车。这也是刘先明加入小鹏以来最完整的一次交付。因为太多同行想测，一辆装了新版软件的试驾车，日租金一度被炒到八千元。

交付后，我们在小鹏的上海研发办公室见到了刘先明。他剃个圆寸头、戴黑框眼镜、说话温和，是 i 人但因为工作成了话痨。熟人评价他 “目标感很清晰，能力非常综合，既能讲很深的技术，也能把复杂问题说清楚”。

刘先明在小鹏汽车历任北美 AI 负责人、基座模型负责人、自动驾驶中心负责人，2026 年 2 月出任通用智能中心负责人，统管智驾和座舱这两个原先的一级部门。在他之前，吴新宙为小鹏建立了智驾第一梯队的行业认知，李力耘用工程和规则把 “端到端” 高阶辅助驾驶推向全国量产。刘先明要做的是自研基座模型，拆掉语言翻译，让模型从视频和驾驶数据里直接学开车。

两年间，刘先明成了小鹏花钱最多的人。2025 年，他统管的业务吃掉了 45 亿元年度 AI 研发预算中最大的份额。何小鹏在第二代 VLA 量产推送前的直播里说 “连续十几个月，每月花 3 个亿去赌这个事情，心里也很慌。”

但一个绕不开的问题是，智驾行业目前的整体处境是否值得这种规模的投入。目前没有哪个细分市场的销量冠军是靠智驾赢的，头部智驾供应商还在亏钱，而且技术领先的花期又很短，总有后发者快速追上。

刘先明的回答是，他们赌的不只是智驾，还有物理 AI。而在实现这个愿景前，他跟何小鹏还有一个更具体的赌约：今年 8 月底达不到特斯拉 FSD V14 在硅谷的水平，他将在金门大桥裸跑。

以下是《晚点 Auto 》和小鹏汽车通用智能中心负责人刘先明的对谈与追问，经编辑：

“拆掉 Language，VLA 2.0 才真正开始”

晚点：什么是 VLA 2.0？

刘先明：之前行业里做智驾大模型，包括我们第一代 VLA，基本都是拿开源的语言模型做骨架，加上图像数据就能做 VLM [2]（视觉-语言模型）。但问题是摄像头看到画面后要先经过语言模型处理再输出驾驶动作这个过程，容易有高延迟，一秒钟只能输出两三次指令，做不到实时处理。

做 VLA 2.0 时我们自研基座模型，传感器信息输入系统，输出驾驶动作，中间不再经过语言（Language）翻译。这个基座模型接上动作模块就是 VLA 控车，接上视频生成就是世界模型。

从头训练一个基座模型需要大量的钱、数据和精力，还要冒险，当下汽车行业谁敢在不确定的情况下投这么多？这个决定是最难的。做出结果之后，说服别人并不难。

晚点：这就是你们说的拆掉 Language？

刘先明：拆掉的是推理链路中间的语言翻译：原来模型输出结果要先变成 language tokens [3] ，查表翻译成文字，再生成驾驶动作。普通人开车不需要先在脑子里把看到的东西翻译成一段话，这一步没有必要。

但语言没有从整个系统消失。输入端还需要语言，用户语音控车、意图理解都要用到语言模型。所以不是做了一个完全没有 language 的东西，拆掉的是中间那层翻译。

晚点：在原来的架构上继续喂更多数据，不拆 Language 不行吗？

刘先明：不行。模型中间不能有信息瓶颈，一旦产生，后面再增加数据量也不见得有好的效果。另外自动驾驶对实时性要求非常高，最终要权衡的是模型体量和推理延时。在有限车端算力下，参数量扩大十倍，推理就变慢，控车能力变差；但要想更好控车、更低延时，那模型体量要减小。

我们去年做了一个特别有意思的事，当时团队里不是所有人都信任这个方向，所以一开始用开源模型再加上 Action（动作）数据训了一套自动驾驶 VLA 模型后，有一天我们几个人偷偷把 Language 拆了，模型但还是用原来的名字，我们第一次上了最大数量的 GPU 来训练模型，GPU 变大，数据量变大变多，拆完训完发现效果挺好的。

晚点：那是 VLA 2.0 的雏形？当时花了多久做这件事？

刘先明：去年 5 月份，花了两三个星期。

晚点：拆掉了语言模块之后，训练数据的来源是不是也要跟着变？

刘先明：互联网上的文字数据是最多的，非常容易获得，信息量很大，可以快速把模型做起来。但做物理 AI，做机器人，做自动驾驶，更多数据来自于每天回传的车辆数据，从物理世界真实采集出来的。如果要做物理 AI，一定要把这部分数据弄好，训练方式一定要改过来。

晚点：机器人行业也有反思，减少大语言模型，直接做理解+生成一体化。小鹏二代 VLA 也受这个范式启发吗？

刘先明：这个思考可能是在不同的人群和领域中同时发生的。自动驾驶和机器人都属于物理 AI，面对的问题本质是一样的，都要与真实物理世界交互，处理非结构化的输入，输出连续而非离散的动作（车子的驾驶动作和机器人的行为动作）。拿掉 “语言” 这个思路很符合第一性原理，它简单、直接，是更极致的端到端，也很像人类开车和日常生活中很多不用语言但暗含智能的 “直觉行为”。

晚点：但我们听说这版 VLA 2.0 发布推迟了两个月？

刘先明：本来定在 1 月底开始冻结版本、2 月全量推送。1 月初有一天小鹏给我打电话，他说 “现在这样不行，你们每天都在修下限，模型上限完全没有释放出来，再给你两个月的时间，你会做成什么样？” 我说 “老板，你要再给两个月时间，我马上把结构给换了”。他说 “好”。于是调整到 3 月份推送。

第二天我们换了模型结构重新开始训练。有人说我们交作业总是很迟，因为我们看到更好的可能性。如果 2 月份我们真的发了一版，可能现在天天在修 bug。

晚点：如果觉得可以做得更好，为什么不主动提延迟？

刘先明：一个是当时版本确实可以上线。另一个原因是模型、AI 发展是永远往前进，我们现在理论上每天能更新四个版本。但从公司商业决策来看，要考虑产品型谱、上市节奏、财务状况来决定什么时候产出结果。

晚点：多给 2 个月，模型怎么做到显著进步？

刘先明：我们的核心优势是迭代速度，而不是做一个非常 fancy、跨时代的模型结构。现在每家的 AI 模型结构都极其相似和简单，越复杂的东西越不好用。

我们有一套体系可以加快迭代速度，速度越快才能发现新问题、尝试新结构。对很多团队来说，最大的问题不是不知道下个结构用什么，而是没时间去试。我们在做一件没人知道正确答案的事，只能猜或者只能靠经验判断，没有人百分百准确。我们每天都在不停迭代，把过去的结论推翻重新来。

晚点：马斯克也说过，创新来自于速度的迭代。

刘先明：特别明显，现在模型收敛速度越来越快，不是因为更多工程师加入，而是我们的体系自动化程度越来越高。

晚点：这条路总结下来就是 Data Scaling [5] ？

刘先明：不仅是 Data Scaling。首先 AI 一定是极致简化，不像过去做语音，得先有个模型做语音识别，再做语言处理，最后做语音生成。现在大家都是原生多模态模型，端到端，结构一定要简单。第二，Scaling 不仅体现在数据，还体现在模型，是体系层级的 Scaling。有任何短板，这事都做不成，绝不是一两天、半年就能追得上来。

晚点：现在车端模型的参数有多大？

刘先明：差不多 ****。

晚点：模型越大越好吗？

刘先明：没有绝对说法，至少体量上越大越好，但越大的模型需要越多数据。收集数据对我们来说不是难事，尤其是二代 VLA 推出去后，会有大量影子模式数据回来。真正难的是，如何在车端芯片塞入更大的模型。

晚点：现在数据有多大的量级？

刘先明：整体数据存储量 50 PB 左右。

晚点：总体来说，数据规模越大对于模型性能越有利？

刘先明：高质量、有用的数据规模越大越有利。我们一开始也遇到过车在直行场景开得很好，一掉头就废的情况。原因是 90% 以上的数据都是空旷道路直行。数据单纯多没有意义，得找到有用数据。

晚点：找几百个熟练的专车司机，让他们全国到处开，把他们的数据收集下来，这个方式行得通吗？

刘先明：行不通。200 个、2 万个司机，跟上百万个司机完全不一样。200 个司机能覆盖多少场景？有段时间，我们碰到最奇葩的数据采集案例是近距离绕行，一个司机停在前面，另一个人绕过，再停在前面，再绕过去。

我们也想过请司机，但这样的数据没有意义，因为都不是来自于真实场景。数据收集要像是真实世界采样器，采样得越密集、越随机，量足够大，才可能逼近真实世界场景，模型才具有泛化性，才能解决之前没见过的问题。

晚点：我们体验过好几家智驾，一个共同感受是前 10 分钟效果惊艳，越到后面越容易唯唯诺诺，这是为什么？

刘先明：第一可能是模型的容量本身受限，它会限制使用场景，还没办法泛化到很大的落地场景。另一个原因是数据，数据是个新的问题。怎么去挖掘高质量数据？

Meta 做一个事情叫做 data curation [8] （数据治理），这本身就是目前 AI 里面最难的问题，怎么发现一个数据不在你的训练样本里面，是一个 outlier [9]（异常值），它还不是一个坏数据。

这里也有一个悖论。首先你发现它，一定是因为它不在大规模数据里，第二，它如果在小规模里面，它很有可能是 outlier，是 “脏数据”，可能会被踢掉。怎么解决问题？其实有一套方法，但需要时间，需要不停地扩充数据的边缘。

晚点：你说 VLA 世界模型也有 CoT [6] 思维链，就像 chatbot 的思考过程，换到自动驾驶领域，模型是怎么做思维链推理的？

刘先明：大家觉得 CoT 思维链很聪明，核心是啥？Scaling law [4] 有两个维度，一个是 training time scaling [7] ，训练时扩展，即训练阶段投入更多算力，让模型变强；另一个是 test-time scaling，测试时扩展，就是推理时消耗多少算力，投入更多算力，通常能得到更好的结果。

CoT 的过程是：生成一个 token ，作为输入，再重新生成下个 token ，不停产生中间的结果，这是个计算过程。CoT 还可以做很多采样，有随机性采样的话，就可以做强化学习，探索不同的解决方案，给出最好结果。

视觉 CoT 的本质就是一个 test-time scaling ，给更多计算时间，产生更好的推理结果。车端做推理时，只是在训练过程中，将中间结果可视化出来，我们也想知道它脑子里到底在想什么，于是通过世界模型生成未来一段时间内的道路环境和自车行为，预测模型下一步动作，我们称之为 “脑内小剧场”，剧场生成的画面可以是鸟瞰图，也可以是对应不同位置摄像头的视频画面。我们发现这个玩意儿挺有用的。

“智驾团队花了最多钱，不想用规则交差”

晚点：如果能更早意识到第一代 VLA 中语言的限制，早点拆掉，二代 VLA 是不是更快出来？

刘先明：也不会。模型训练跟交响乐协奏曲一样，多个要素一起发展。如果连足够的行车数据都没有，就想拆掉 Language，其实搞不定；就算有足够数据，有了更好的模型，如果训练集群的稳定性和效率不高，也搞不定。把节奏排好，模型、数据、Infra [10]（基础设施）都没有短板，花多大钱办多大事。

晚点：规则阶段积累的东西还能派上用场吗？

刘先明：其实不多，有些东西甚至应该尽早拿掉。没有人告诉你 VLA 具体怎么做，只有大概思路，去想工程应该怎么匹配，怎么用最少时间、不大改动系统的情况下把它做出来，再逐渐拆分中间模块。

晚点：听起来很顺滑，但你们实际上在二代 VLA 测试阶段遇到了很多问题。

刘先明：对，当时有个决定比较艰难。二代 VLA 模型测试后遇到各种问题，比如撞路沿子或者不居中。这时候要不要借助规则把它修正一下？有段时间整个团队都很挣扎，因为只要上了规则，系统就变味儿了，就拆不掉了。

晚点：为什么会拆不掉？

刘先明：模型还没量产前，应该尽量让它暴露问题。规则能修，但我想从数据角度解决模型问题。那时候测试一周，新问题越来越多，团队也很困惑，问题解得完吗？只要上一点规则后处理，事情就搞定了。但是一旦写了规则，所有问题都会被盖住，丧失发现问题的能力。不把规则拆干净，就像在修一条到不了未来的路。

晚点：小鹏现在是 0 规则、0 超级对齐吗？

刘先明：我们没有规则。端到端时代可以加规则，大家都是这么做的，但模型时代依靠数据规模驱动，如果再加规则，模型的上限最终肯定会被规则限制住。加规则，也许短期可以攒出一个还不错的版本，但可能到 8 月份完成不了任务，我还是要去裸跑的（笑），其他厂商也一定很快追上来。

举个例子，模型走错路，确实可以搭载车道级导航，在还剩 300 米右转时强行变道，但一旦上了，会发现后面导航变成了拐杖，只能解决一时的问题。我们不想重度依赖导航信息，因为我们做的是全球化产品，欧洲等地区没有图商提供高清地图信息的。

这是一个选择，是通过技术手段解决，还是用一个 shortcut（捷径）搞定，代价是后面没法继续。我们希望达到的状态是，限制我们的只有自己的迭代速度。

晚点：这里的技术手段是指强化学习？

刘先明：要解决走错路的问题，最好的办法是强化学习。在汇入汇出这种场景可以使用强化学习，加上适当的 reward（奖励），让模型学会在什么情况下该做什么事情。闯红灯也有几种不同的办法。一种是加规则，用传统的技术栈 2D 模型检测，检测到红灯就一脚摁死刹停，但会带来一个问题，整个技术栈会过分依赖于已有的规则。

晚点：加或者不加规则，到底是如何影响模型工作的？

刘先明：不管是端到端模型还是 VLA 模型，核心是有一些输入，经过加工之后要去输出。比如我们认为输出就是一个车要规划几秒的轨迹，轨迹之间的时间间隔是多少？如果横向最大的范围是 20 米，纵向是 80 米，把这个范围离散化，所有可能的轨迹点组合就构成了一个极大的搜索空间。

传统方法不管是 Monte Carlo [11] （蒙特卡洛方法）还是非凸优化，核心都是砍掉搜索空间，把它砍到可计算的范围之内。在算力和模型不足的情况下，对搜索空间做大幅的缩减。

AI 模型反过来。为什么我们觉得现在 AI 聪明、能做很多事情？因为它的参数量直接决定了它的输出空间。如果有几个 Billion（十亿）参数的模型，比如 OpenAI 220B 的模型，理论上它可以探索 220B 这么大规模的空间，这是足够大的搜索空间了。所以要解决问题很简单，就是让你的搜索空间足够大。

过去我们做了很多平衡，比如对搜索空间不做太多限制，但把时间和空间分开。横向很丝滑，我们一般叫做空间；纵向一般是用速度和加速来控制，我们一般叫做时间。很多传统方法即使到端到端的时代也是这样——先输出一个横向轨迹，至于什么时间点到这个位置，可能是单独用规则去算的。那它就会一脚刹死，因为规则没有这么大的浮动空间。

我们则希望通过一个足够大的模型，能够探索这么大的搜索空间。为了让整个模型不会过拟合到某些特定的模式上，就需要很多训练数据。有了更多的训练数据，就有一个很大的模型，但又不希望模型是个倒金字塔——输入的信息量很少，一直在做插值升维，其实信息量本身没有上升。于是我们就让整个模型尽量变成一个通畅的结构，通畅的结构要求输入的信息量足够大。

这是为什么我们不用激光雷达，因为激光雷达给我们的信息量太小了，而且频率又很低，整个系统会拖慢到 10 赫兹。它还有光栅的闪变，光栅的处理时间一般是 80 到 100 毫秒。

最近小鹏第二代 VLA 从喀什到上海横穿中国，全程 5000 公里，纯视觉方案经历沙尘暴、雨雪等天气和场景，单次最长 0 接管里程 1360 公里，这已经能说明问题。

把所有东西加在一块，整个逻辑就非常简单：找到一个给你提供高密度信息输入的传感器配置，一个足够强大的模型，和一个能够端到端去训练的方式。

晚点：什么样的智驾体验可以称得上好？

刘先明：智驾体验过于主观，没有特别好的评价标准。过去大家一直用接管 MPI、MPCI 来评价，但如果加规则或者限制，是很容易做到零接管的。

我一直说，自动驾驶是白开水，能让坐在后座的用户忘掉驾驶这件事。

我们内部评价时会尽量排除主观因素，用比较客观的 CCES： compliance-合规，comfort-舒适，efficiency-效率，safety-安全。其中，安全最重要，有时候为了安全，不得不牺牲一些效率和舒适性，但我们不想就此放弃效率和舒适，就看怎么平衡。

晚点：这形成共识很难吗？

刘先明：很难，因为行业很卷。想出圈，一定要挑出不同的特质，去让别人注意到自己。

晚点：你会怎么做？

刘先明：没有固定答案。最好的办法是，在技术架构和技术路线上，不能有短期的 trade-off（妥协），一定要做具备可拓展性、向上空间足够大的东西。另外，基础能力要足够强，才可以在不同风格上做 trade-off。作为技术一号位，我能做的就是告诉大家，不要去追求某些短期目标而去欠下一些技术债。

晚点：哪些算 trade-off 呢？

刘先明：比如为了舒适性，加一些 “过路口减速” 规则，或者在某些特定情况给模型加兜底。

晚点：你这些说的都挺好的。但我们还是想知道，去年天天测、天天出新问题的时候，团队还信这条技术路线吗？

刘先明：有一段时间士气比较惨，测试结果很惨，天天我都去看。那时候真不敢回国。

那段时间压力很大，团队确实有不同的声音。但顶过压力后，发现问题的收敛速度非常快。问题充分暴露后，用比较系统的方法去修，AI 修问题不是一个个修，是一坨一坨修的。

有时候加了一个数据解决一个问题，另外一坨不相关的问题也解了。这个事情确定之后，系统就好干了，大家都认同方向了。以前系统会存在很多模块兜底，长得奇形怪状特别乱，没法优化，现在系统可以简化很多。

晚点：是前面说的去年 5 月份那时候吗？

刘先明：差不多，那时候真不敢回国。我本来 5 月回国时应该给大师兄测 demo 的，结果到约定时间都没找他。一直等到我坐上飞美国的飞机，才给他发消息，说下次回来一定让你坐 demo。

晚点：确认一下，你是上了飞机才告诉他的？

刘先明：我想的是，什么时候做出来了什么时候再回国。

晚点：我要是交不出稿，可能也消失。

刘先明：但是你交不出稿你消失的话，会不会有人问你？

晚点：当然会啊。当时何小鹏真没找过你？

刘先明：大师兄对我真的挺宽容，他不问我。有时候他在飞书上跟我发消息，打个招呼，然后不管了。

晚点：做不出来的时候你忐忑吗？

刘先明：大师兄经常开玩笑说我 “花了全公司最多的钱，但是发现分文不挣”。作为管理者，我肯定有压力。一家公司能健康地发展下去，不能只投入，要讲产出的，否则游戏转不下去。

但如果你在做的事关系到公司的未来命运或者整个商业化进程，没有压力是不可能的，这一点上，全公司压力最大的肯定是大师兄。有的时候他也会跟我吐槽，说他自己很痛苦。

在我这一层，他其实一直极力保护我。有时候一个会议我刚进门，他会说 “你走吧，这会不需要你，回去干活。” 今天车圈如此卷，半年做不出来东西，可能很多一号位就被干掉了。我做这个事情这么长时间，资源一直源源不断的投入进来，老板并没有因为短暂的体验不好就放弃，或者换一条路走。这种信任和笃定，不太能在别的地方找到。

大概去年 6 月份，我们进展还是很快的，所以敢回国了。我在回来的航班上看一个版本的实验结果，觉得不错，落地之后赶紧去测试，天天追着大师兄坐 demo，从北京追到上海。大师兄问我为什么不去广州测，我说广州跑不下来，太难了。

晚点：小鹏对你的管理风格是偏向宽容还是严格？

刘先明：既宽容又严厉。对于结果很宽容，不急功近利，不短视。正是有这种对于研究和技术突破的宽容，才有了今天的技术突破。很多 CEO 嘴上喊的都是技术突破和投入，但忍不了半年。这是我最欣赏和佩服大师兄的地方。他对于原则很严厉，对就是对，错就是错。不能浪费资源，不能浑水摸鱼。这也是小鹏能逐渐走得更快更稳的原因。

晚点：你什么时候知道你花了整个公司最多的钱？

刘先明：一直都知道。每年都会跟小鹏和财务去审预算，太可怕了。

晚点：所以是多少？

刘先明：这不能告诉你们。

晚点：公开能查到的 2025 年是 45 亿元 AI 研发投入，是这个数字吗？

刘先明：我去要预算是 2024 年的事情。2025 年已经是公开数字了。

晚点：刚到小鹏时觉得你自己能花多少钱？

刘先明：我刚来的时候，给老板写一个方案，要预算，然后他问我说这些够吗？我说不太够，于是我们重新写了一个版本叫 “格局打开版”，预算直接 x2，大师兄直接批了。

不过，在资源不受限的情况下，很多事情过于理想化；而在人、时间，预算都受限的情况下，你不得不去想，怎么让庞大的组织变得更高效；在哪些事情上做取舍，哪些事情让你有更大赢面。

晚点：能举个例子吗？你刚加入时算力没有今天丰富，当时的某个决策放到今天会是什么？

刘先明：变化特别明显，我刚来时算力还 OK，但大家觉得不够用，每个人都在申请更多的卡，要预算。那时候我去看整个训练集群的训练效率，发现 GPU 利用率只有 8%，很低。我的决策很简单，把它干到 40%，效率提升 5 倍。

当时我们要训更大的模型，为了在规定的时间点完成它，直接把卡的数量 x2，不够就 x3、x4，这样可以缩短单个模型的训练时间，当时更多是技术选择。

现在不一样。一方面要优化整个训练效率，还要考虑数据，数据成本，存储/读取成本。但更重要的是，哪些业务线可以等，哪些事情是可以被砍掉的；怎么把预算分配大盘子里，让长板变得更长。

晚点：8% 也太低了。怎么会这样？

刘先明：那个时候模型规模还比较小，大家没有意识到这个问题，并且没有深入看这个问题，训练速度慢就直接加机器，简单粗暴。但资源达到瓶颈后就必须要看了。

在硅谷，工程师的文化和传统通常是先做工具，先做各种 profiling [12]（性能分析）和 dashboard（数据可视化），这也是硅谷工程师和研究人员效率很高的原因。但这初期很费时间，后期却能做到加速度。

解决问题核心是找对人，来做这种硬核的事情，还要团队能有统一的认知，内部要有节奏，不能揠苗助长，也不能急功近利。最后就是科学的方法论，不是靠喊口号和硬派指标，要从数据出发做出科学的决定。

晚点：去年小鹏卖的车更多了，何小鹏给你买卡的预算有没有变多？

刘先明：我们去要预算，他总是问 “够吗”？

晚点：满分 10 分，你给这版 VLA 2.0 打几分？

刘先明：6 分，离我们所有人的理想还有差距。目前已知的问题，导航（我们不想用任何先验信息，比如高精地图或者规则点来限制模型的泛化能力，我们需要让他在没有这些先验信息的地方也能好用，比如乡村，地库，漫游，海外，所以还需要时间），处理极端情况的能力。所以我不认为世界上目前有任何一个系统已经接近 10 分。

“不止智驾，小鹏还要搏物理 AI 的未来”

晚点：现在的 VLA 是不是还不够你刚说的 “极简”？

刘先明：整体架构上应该差不多了。但是内部很多细节还在不停更新，包括我们也在尝试各种各样的方法在往前做，不管是训练的方法还是模型的架构，都在往前做，但整个范式是基本不会变的。

晚点：还可能要拆掉什么东西吗？

刘先明：没什么可拆的了，再拆就没了。

晚点：再拆就剩骨架了。

刘先明：对。所以说到底，其实这背后没有什么太多的秘密，秘密就是极致的工程化，这也是我刚来的时候跟小鹏说的话，AI 的背后就是极致工程化。

晚点：目前自动驾驶领域，还有技术非共识？

刘先明：还有很多，可能一家公司甚至团队里都有非共识。比如怎么做 VLA 大家就没有共识，再比如自动驾驶出多条轨迹还是单条轨迹也没有共识；是横向空间纵向空间分开做出轨迹，还是横纵联合出轨迹，也没有共识。如果大算力、大数据是强共识，那两年前所有车企都应该去做大算力芯片，但现在很多量产的下一代芯片，算力还是 Orin 量级。

晚点：非共识意味着不确定性，但何小鹏说三年内自动驾驶可以实现，这是一个很大的确定性。这里面有矛盾吗？

刘先明：没有大矛盾，方法论是固定的，大方向是确定的，可能行业还没完全信。我们笃定是因为过去几年 AI 的发展就是这样，比如 OpenAI、Gemini、Claude 出来。2023 年谷歌发第一代大模型时，大家还认为是造假，但想象不到一年后，Gemini 3 能做到现在这样。当路径是对时，趋势会发展得非常快的。核心在于有没有选择一条对的路，不断调整方法，快速探索。

晚点：你在 Cruise 研究 L4 自动驾驶、Robotaxi，一些 L4 自动驾驶公司普遍会认为，沿着 L2 智驾的路线没有办法抵达 L4 级自动驾驶。你怎么评价？

刘先明：沿着 L2 可以走到 L4，AI 大模型和规模法则（Scaling Law）让我们看到并且坚信这个方向。

我们的 VLA 2.0 架构就是为了 L4 而生的，从视觉输入到轨迹输出的极简架构，能够支持模型、数据和算力的高效扩展，scaling 能让我们突破模仿学习的上限，突破 L2；世界模型和强化学习能够帮助模型自我进化，解决各种各样的 corner case。

其实，Cruise 是当时自动驾驶圈里追 Waymo 追得非常狠的公司。2019 年还是纯规则，工程师写一段代码，然后自己坐到副驾，现场调试，开一圈出去没撞就说明没事，如果撞了，就说明代码有问题。

晚点：写完代码立刻测试？

刘先明：对。那时候技术栈非常重规则，最早 Cruise 那帮人很多都参加过 DARPA [13] 的无人驾驶挑战赛，也有人来自 CMU（卡内基梅隆大学）机器人实验室。我第一次见到 Cruise 车的时候惊呆了，那么小的 GM Chevy Bolt（雪佛兰小型电动车）车上装了 5 颗激光雷达。

第二代车有 22 颗摄像头，4 颗 128 线激光雷达，8 颗近场激光雷达。那个时候的代码怎么写的？雷达点云作为输入进来，检测然后执行规则，写优化器，然后计算轨迹。在旧金山街道，我们的车被树枝垂下来遮住激光雷达，被卡住了。Cruise 还动用 “钞” 能力，把整条街的树枝都得修剪了。

Cruise 是全美第一个商业化的自动驾驶企业，虽然后面有不幸的事情。能做到这一点，是因为 2019 年 Cruise 决心换思路，成立了 AI 部门，我是那个时候加入的。当时提出概念 Continuous Learning Machine 的概念，即一种持续学习的机器。当时觉得不太可能实现，但也是从那时候开始，我们大规模学习 Infra，建立非常通用、简单的模型框架。

晚点：你在 Cruise 时已经能看到 AI 大模型的技术框架支撑进化到自动驾驶了吗？

刘先明：那时候没有人敢说一定是对的。2022 年底 Cruise 内部邀请 Sam Altman（OpenAI 创始人）来跟当时的 CEO Kyle Vogt 做炉边谈话，当时我们在旧金山体验了一个多小时 Robotaxi，没有远程接管过，我们跟 Sam 吹牛，看我们多牛。但是 Sam 当时说我们在做 GPT，紧接着 2023 年 ChatGPT 就出来了，非常震撼。

晚点：为什么之后又去了小鹏？

刘先明：当时在商业化面前，要做最终取舍，还要用各种规则把模型限制住。离开 Cruise 还是因为，当你相信一条路，但在这看不到尽头，你可能会选择一个新的地方去实现它。

晚点：你当时跟何小鹏第一次见面就达成了共识？

刘先明：跟大师兄约在硅谷办公室面试。面试之前，我想的事情是，如果他听不懂我在说什么我就不来了。估计大师兄当时想的事情是，如果这个人想的事情还是过去那套，我也不要他了。他希望做一家有创新能力的 AI 企业，所以才大刀阔斧去改革。我觉得我跟他说什么，他是认同并觉得就应该做的。我也是一个比较激进的人，聊完了之后，我觉得给我准备 offer 吧。

晚点：当时有多家智驾公司也在接触你，你选择了小鹏汽车？

刘先明：我要做的事，一定需要大量数据和大量资金支持，肯定选择一个能有数据和硬件支持的地方，只能是主机厂。当然，大师兄自己也有了类似的想法，想找人跟他一起实现。所以刚来小鹏的时候，我们认为这条路是对的，但没人百分百确信。那个时间点上，小鹏想做，我也终于找到一个愿意投钱的老板。

晚点：你最早加入小鹏出任 AI 负责人，还不是技术一号位，当时怎么争取资源、怎么说服团队尝试新路线？

刘先明：小鹏自动驾驶团队一直非常扁平。我来的时候跟力耘电话，他说这个团队是你的，一会儿又打过来说，这个团队也是你的。其实不需要去争取什么。过去几年，小鹏做了很多事情，比如 2022 年开始建 “扶摇” 万卡集群，很多先天条件都已经铺好。它的积累在所有主机厂里是最有先天优势的。

晚点：你什么时候才觉得自己在小鹏站稳了脚跟？

刘先明：我刚来时，很多人跟我说踩了几个死穴。第一是空降，第二是跨国，当时团队一半在国内，一半在美国，第三还让人觉得高高在上，那时候科学家气质比较重，很高冷，不像现在话痨一样。很多人判断我撑不过一年。

晚点：但你走到了今天，还被赋予更多职责。

刘先明：小鹏的团队是很包容的，因为一直有硅谷团队，大家很适应有能力、有新想法的人加入，也适应跨文化协作。

晚点：从哪个节点开始，你觉得团队开始信你？

刘先明：可能就是无图城市 NOA 阶段，包括去激光雷达、搭建 OCC（占据网络）阶段，开始向团队输出一些想法，推动底层框架变化，大家愿意跟着你一起干，最终结果好像还不错，那时候开始有人相信你的技术判断。

晚点：自动驾驶的技术依然在向前演进，除了 VLA，还有别的路线可能吗？有行业人士说技术路径已经进入停滞年代，您认同吗？

刘先明：我不认同，我们才只是物理 AI 很初始的阶段。我们也都看到了过去、今年，AI 是以什么节奏进步的。核心还是你要做自动驾驶软件，还是物理 AI 。自动驾驶算法可能接近天花板了，但是物理 AI 刚开始。

晚点：机器人的研发会对智驾还有哪些启示吗？小鹏会在机器人关节的自研上做到哪种程度？

刘先明：小鹏机器人现阶段会充分复用小鹏智驾乃至整个汽车体系的能力。机器人行业是软件驱动硬件设计，机器人的关键在于融合+创新，要做到这一点，全栈自研就成了必选项。

只有自己研发的硬件，才能完美匹配自己训练的模型，而模型的训练也要根据实际需求进行专项调整。到最后，我们发现，只有全栈自研，才能造出一个足够领先，同时又能实现规模化量产的机器人。

晚点：你前面说小鹏汽车极致扁平，这是场面话吗？

刘先明：扁平化真是小鹏的独特文化，你很少能在饭堂看到一个 CEO 这么平易近人，也跟你一样吃猪脚饭。我在食堂见到他，当时还拄着拐，大师兄见到我说，来坐这吃，我说我走不动，然后大师兄端着饭盘过来了。

晚点：你们现在人也挺多的，特斯拉 FSD 团队没那么人，车企智驾有必要养这么庞大的智驾队伍吗？

刘先明：不一样，特斯拉 Autopilot 团队确实人不多。我们团队其实有很大的变化，很多人转到了中间的 Infra，去做训练、推理、车端部署、数据研发等。很多之前写规则的工程师，虽然不适应做模型，但知道什么数据最重要，所以他是做数据最好的人。

数据不是能从车上回传回来就可以用。每天一辆车平均开车 1.7 个小时，但真实有效数据不超过 90 秒。如果没有对自动驾驶行为非常准确的判断，是找不出来数据的。我们不是要干掉这些人，而是给大家找更合适的位置。我们还有大众的项目、机器人 .... 很多横向项目也会涉及到很多人。尽量帮大家做转型和升级。

晚点：如果按商业化顺序来看，自动驾驶、机器人、通用智能，哪个优先级最高？

刘先明：自动驾驶、机器人、通用智能。

晚点：你是个容易 “挂脸” 的人吗？

刘先明：不是，有人说我很 nice，但是我会因为浪费时间和逻辑不清楚这两件事情直接打断所有人讲话。

晚点：你 MBTI 是什么？

刘先明：INTJ。

晚点：作为小鹏通用智能中心的负责人，你希望团队成员用哪三个关键词来评价自己的领导风格？

刘先明：克制，稳定，果断。

晚点：如果要用一场具体的仗来让整个通用智能中心形成战斗力，你会选什么？

刘先明：就是今年的舱驾联动，因为这是整个组织转型，重构底层架构，以及让大家看到上限的一次战斗。这个故事很熟悉，自动驾驶也是 VLA 2.0 这么一战打成的。

晚点：你跟我们提了很多次 “简单”，这是你的某种信条吗？

刘先明：其实是在读书的时候，我的博导 Thomas Huang（我们叫他 Tom，黄煦涛教授），他一辈子追求的理念就是简单，相信简单的东西才是美的。

2012 年我在美国读书，那会 Alexnet 神经网络刚出来，当时我们整个实验室做图像处理和计算机视觉，Tom 说所有人停下手里所有工作，全转去神经网络。这其实就是模型 Scaling 和数据 Scaling 的早期雏形。但业界很多人不敢去转，在排斥，我们当学生的心里也比较打鼓，但可能当时已经有这样的想法。

毕业以后第一次被直接的触动确实是 Sam Altman 介绍 GPT，所有人都在考虑是不是这就是未来。我们这代人很幸运，2016 年的时候有 Resnet（残差神经网络），2017 年有 Transformer，GPT 最早是 2019 年，2023 年 Chat GPT。你会发现，你不确定的道路，已经有些先驱者帮你探好路，告诉你是对的。

题图来源：小鹏汽车

注释：

[1] VLA：Visual-Language-Action 的缩写，即 “视觉—语言—动作模型”，指将视觉输入、语言理解与动作输出结合在一起的模型。文中所说小鹏 VLA 2.0，核心变化是减少中间语言翻译环节，让模型更直接地从感知走向动作输出

[2] VLM：Vision-Language Model 的缩写，即 “视觉—语言模型”，通常用于处理图像、视频与文本之间的联合理解任务。

[3] Language / language token：文中指模型推理过程中的语言表征。token 是大模型处理信息时使用的基本单位，可理解为文本被切分后的最小计算单元之一。

[4] Scaling Law：规模法则，指模型能力通常会随着参数规模、训练数据量和算力投入的增长而提升。

[5] Data Scaling：通过扩大数据规模、提升数据质量来增强模型能力的方法。

[6] CoT：Chain of Thought 的缩写，常译为 “链式推理” 或 “思维链”，指模型通过生成中间推理步骤来提升结果质量。

[7] training time scaling / test-time scaling：前者指在训练阶段增加算力、数据和训练资源；后者指在推理阶段增加计算量，以换取更好的结果。

[8] data curation：数据筛选、数据治理，指从海量数据中识别、清洗、组织出对训练真正有价值的数据。

[9] outlier：异常值，指明显偏离多数样本分布的数据。它未必是错误数据，但往往更难处理。

[10] Infra：infrastructure 的缩写，即 “基础设施”。在本文语境里，主要指训练集群、数据系统、推理部署等支撑模型研发和运行的底层能力。