首页 科技快讯 理想CTO谢炎:AI时代需要新的计算架构,我想在汽车上试出来

理想CTO谢炎:AI时代需要新的计算架构,我想在汽车上试出来

来源:晰数塔互联网快讯 时间:2026年05月12日 00:21



上行期理所当然的技术决策,到了用商业结果证明合理性的时候。

文丨赵宇

编辑丨龚方毅

“超越最好的智驾芯片,数据流架构是唯一的机会”

晚点:数据流架构很早就被提出,为什么到今天才适合用在车端 AI 芯片上?数据流不是全新概念,国内基本没有其他厂商做,国外有厂商把它应用在数据中心。

谢炎:你说得很对,数据流架构是个非常古老的概念,最早在 1970 年代提出,MIT 的 Jack B. Dennis、Arvind、高光荣教授他们提的,到现在已经几十年,但工业界落地非常少,最重要的原因是计算规模不够大。在计算和数据规模较小时,数据流架构的效率优势很难发挥和体现。

冯·诺依曼架构有个很大的优势——方便人类编程。它把存储和 IO 操作都抽象成指令,加上计算指令,以一种中心化的指令序列 step by step 推动计算任务,特别适合人脑在有限的上下文长度下做思考和编排。代价是损失了一定的计算并行度,降低了效率。但这在 AI 计算之前的时代还能忍受。而且过去也发明了乱序发射、超流水线、多级缓存、分支预测等复杂的 CPU 微架构技术来缓解。

数据流架构的优劣势正好相反,它用数据依赖图映射的硬件结构,天然高并行度,但提升了人类编程的复杂度,而且调试工作和编译器的难度也大幅提升。

所以 AI 出现前,数据流架构不成立——虽然概念很好,但落地很难。但当计算规模扩大到一定程度后,冯·诺依曼架构的瓶颈已经越来越明显。再往后走,数据流架构应该是一种更好的体系架构方式。

晚点:具体讲讲,数据流架构为什么更适合 AI?

谢炎:这得从 CPU 架构说起。CPU 就像厨房,有切菜、配菜、炒菜等工种,中间有个调度员负责发指令。这种集中式管理容易 Debug 和编程,但调度员负载很重,规模扩大后容易形成瓶颈:可能有人空闲但调度员没看到,或者有人本可以更早切菜但因为指令没到而等待。CPU 中有 30%-35% 的晶体管用于任务调度。

GPU 在此基础上改进,不再设置超大调度员,而是把人员分组并为每组配简单调度员,减少晶体管占用。但本质问题没解决:指令没到就得等待,造成浪费;各组资源不能互用;规模扩大还需要分层调度,有点像计划经济,效率很低。系统也不能直接掌握资源匹配情况,中间需要一层又一层规划人员。

还有数据搬运的物流问题。调度和数据都是集中式的,会形成瓶颈。所以 GPU 里有大量内存(Memory)和缓存(Cache),都是为了支撑中心化调度。规模小时没问题且容易 Debug,因为全是中心化的;规模变得超大时,瓶颈也会越来越明显。所以 GPU 需要做多层 Cache 和高 HBM 带宽来弥补效率不足。

晚点:数据流架构怎么解决这些问题?

谢炎:那些不直接产生价值的晶体管相当于额外开销,但芯片本质是要完成计算任务,真正起作用的是那些切菜、配菜、炒菜的人。能不能不要中心化?答案是可以,正因中心化代价很高,所以要走向分布式。

不用指令驱动,可以去掉调度员,让切菜、配菜、炒菜的人直接协作,这样能提升效率,省掉很多晶体管。但难点是让大家在没有调度员的情况下高效工作,这对组织要求很高,所以编译器很重要。在我们的处理器里,虽然还有程序,但不按原来方式执行,Debug 很难。

但好处是,这样的架构天然适合 AI,反过来当 AI 能力很强时,AI 也比人更能管理这些超大资源匹配。冥冥之中自有天意。技术没有好坏,只有匹配不匹配。

因为我们没有中心化调度,所有执行不是调度员告诉你开始,而是每个人在自己工位上,数据到了就开始,执行完就继续放到流水线上。

晚点:你当时怎么想到用数据流架构?

谢炎:数据流架构主要开创者之一高光荣教授是我在特拉华大学读书时的导师。当年我们实验室名称是 “计算机体系结构和并行系统实验室”(CAPSL),重点研究方向之一是使用数据流架构解决大规模并行计算问题。

在当年很多问题的解决过程中,我们看到了数据流架构的独特优势。我那时的感觉是:它比冯·诺依曼架构更接近计算本质。但受限于当时计算机应用的需求范围,这套架构思想主要是在超级计算机和大规模科学计算场景下运用,而一般的 Windows 和 Mac 的通用桌面计算并不能有效发挥其优势。

深度神经网络出现并流行后,特别是当下大模型 Scaling Law 推动模型参数和计算规模快速增长,需要更高效地解决大规模并行计算和数据搬运的问题。这让我们重新看到,围绕 AI 计算的数据流架构的设计优势。

晚点:但应该不是立项之初就确定用数据流架构的吧?

谢炎:团队早期在架构路线上有过深入讨论。当时有种思路是做定制化加速器——把特定算法固化在硬件里,效率很高但不可编程;需要灵活性的部分就额外加 GPU。这种方案的好处是起步快,业界不少公司这么做。

但我认为,这本质上是两套东西的拼接,不是统一架构,而且上限不高——芯片里有一部分跑的时候另一部分就闲置,造成资源浪费。更关键的是,AI 算子在快速演进,如果核心计算单元不可编程,很难适应未来算法变化。所以,我们最终选择可编程的数据流架构,虽然难度更大,但天花板更高,能跟随 AI 发展持续演进。

晚点:之前大家用英伟达一方面是它的芯片好,另一方面是 CUDA 生态难以割舍。有些工程师说不用 CUDA,工作效率会降低很多,这个问题怎么解决?

谢炎:第一,用英伟达芯片成本很高。如果自研产品定义清晰,虽然工具链没有 CUDA 好用,可能需要工程师多花一两周做适配,但车能获得 50% 的成本降低、好几倍的性能优势,哪个更重要?这背后更多是产品性价比和经营的考量。

第二,数据流架构本身是 for AI 的,AI 也是 for 数据流架构的。未来这些适配工作都会由 AI 来做。当 AI 足够强时,CUDA 的生态优势会降低,因为以前人是编程主力,需要 CUDA 等抽象层做更好的分层、抽象和简化,其目的是降低人类程序员的编程难度。

而不久以后,或者当前已经开始,编程主体越来越多是 AI,编译器也可以是 AI,那么 CUDA 这类更多为人类设计的辅助 “拐棍”,重要性会越来越低。AI 甚至可以抛开 “拐棍” 直接快速对硬件编程,获取更高的性能和效率。

对以推理任务为主的产品公司来说,推理效率的重要性在快速上升,而人类编程通用性的重要性在降低。英伟达已经意识到这一点,所以花两百亿美金去买 Groq。这家公司是 Google 前员工做的,它的产品是非常静态的数据流架构,完全不支持 CUDA,没有大家认知的可编程性,但推理效率会远高于英伟达的 GPGPU 架构。

晚点:数据流不是主流架构,要用这种架构时,芯片团队和公司内部有没有争论?

谢炎:有挺多讨论。芯片团队内部一开始有人因为技术理念不同而离开,这没有对错,只是相信和看见的东西不同。当架构思路统一后,大家目标一致,配合很默契,执行起来反而比较顺利。

公司内部前期肯定也有一些疑问,毕竟这是全新领域。大家会想:理想没做过芯片,能做好吗?我猜想,很多芯片之外的同事疑惑的不是架构的选择,但更多是能超越市面上最好的芯片这个目标本身是否理性。

这点上,我们花了大量时间对 Workload 和架构设计做量化分析,增强了信心;同时我们也相信,如果和博尔特比短跑,你无法通过直线跑道 —— 也就是 GPGPU 架构 —— 进行超越。不同的路线或手段,比如数据流架构,是唯一的机会。

晚点:这相当于是走 “中国特色社会主义” 道路?

谢炎:对,我们必须选一条不同的道路。如果只是证明能够替代,那么走前人走过的成熟路线就足够了,风险更低。但这么做,前人很容易成为我们的天花板。另一方面,如果做不到 “明显” 更好,做的价值也就大打折扣。

晚点:你当时是这么和李想介绍的吗?

谢炎:对,一模一样,我们 2022 年的立项文档完全就是这个逻辑。

晚点:他听完后什么反应?

谢炎:不记得了,但肯定没有认为我们在胡说八道(哈哈)。实际上,他没有做选择,因为他知道这件事重要,并且支持我们做芯片。

晚点:李想是业界公认对细节要求很高的 CEO,但芯片应该有很多地方超出他的技术认知。比如技术路线对不对,李想怎么判断?

谢炎:作为 CEO,他会把大的战略和商业逻辑判断好,比如我们每年销售多少车,每辆车消耗多少芯片和成本,自研可以带来多少成本和效率上的价值。同时技术路线的逻辑也可以用非常第一性的方法来判断。

比如,我刚才说的厨房的类比,不需要知道具体技术怎么做。更本质的,这可以类比计划经济和市场经济。计划经济在规模小时更容易构建,直接下指令方式也够高效。当规模非常大时,市场经济的优势会越来越大。

晚点:你们前期讨论他参与得多吗?

谢炎:每个节点他都会看。

晚点:不需要每个节点他都点头?

谢炎:对,因为测试、架构、后端这些都是技术节点。李想还是会抓大放小,关键节点看得很细,中间过程没必要看那么细,否则 CEO 就太累了。

晚点:再比如你要多少人、多少钱、花多长时间。

谢炎:这个还好,他知道我比较克制,不会为了做一件事就先堆十倍人力。我有一个理念,最好的团队规模是你想要规模的 80%,这样效率最高。比如你想要 200 人,那 160 人可能更好,人多反而有害。

晚点:你 2022 年入职理想时,李想有一个评价:谢炎是全球操作系统前 10 号选手。

谢炎:没有,我不敢这么说,我只是做的时间比较长。

晚点:总体上你有丰富的软件研发经验,加上是做编译器出身。业内人士说你在理想做芯片,可以用软件经验去优化硬件?

谢炎:对,芯片能力发挥多少,最终软件起很大作用。无论 2010 年前的英特尔,还是现在的英伟达,软件工程师人数都比硬件工程师多不少。英伟达的组织架构里,软件团队人数是硬件团队的 2 到 3 倍。这说明同样的硬件,软件优化好不好,最终发挥出的能力天差地别。

但更重要的是,计算机的软件和硬件架构,其实是应该一起设计的。软件作为一种构建在硬件之上的 “逻辑实体”,它的底层,也就是软件和硬件的接口设计,会极大影响整个计算机系统的效率。一个优秀的芯片架构设计,同时需要硬件和软件两方面的视角。

过去几十年,人们慢慢忘记了这点重要性,是因为传统架构应付通用计算已经够用,并没有必要在这里做大的创新,也就没有必要用软硬件结合的手段来设计。但今天我们看到了 AI 计算的需求在快速爆发,而传统架构已经接近极限。当我们需要为了更大规模、更高效率的计算重新设计整个计算机的时候,这样的双向视角和能力,是一个优秀团队必须具备的。

芯片能力要转化为智驾体验优势,理想还得趟过很多坑

晚点:芯片上车涉及芯片、基座模型和智驾算法团队三方协作,会不会有需求冲突的时候?

谢炎:需求倒不太会冲突,因为大家的最终目的是希望在智驾上实现领先。最重要的不是芯片做得好,而是智驾能力强。接下来,我也会花较长时间和智驾团队一起看,怎么在模型上真正领先。这是非常重要的一场仗,如果智驾都不能领先,怎么能说明芯片领先?

晚点:你之前跟智驾团队的交流频率如何?

谢炎:主要会议我都参加,技术讨论有些我也参加。

晚点:现在呢?

谢炎:现在因为我有这个职责,所以会更多参与讨论,技术路线上也会分享一些具体想法。各家目前的智驾水平在伯仲之间,没有人太领先,差距非常小。但往后发展有两个关键点:

第一,要大胆投资未来技术。特斯拉的技术路线就迭代过好几次,最怕觉得 “这一代就够了”。技术永远是用新路线解决更难问题,所以要挑战自己,打破原有认知。所以我们会大量投入研发,不仅是量产技术,还会研究其他可能的技术路线。

第二,更高效的算力非常重要。我们会加强模型和芯片的协作。有更强算力后,能做事的空间就大很多,不会像在小规模的跷跷板上,这个高了、那个就低了。当算力大时,可以用通用方法解决很多问题。今天的大语言模型不为任何一个特定行业设计,但由于参数足够大、数据足够多,自然就通用起来。

智驾现在还处于专用期,越往后越需要通用能力解决长尾问题。这些问题不可能靠专用小模型解决,肯定需要大模型,而且需要系统具备人类认知,所以需要很大算力。自动驾驶从今天的 70-80 分提升到 100 分,每提升 10 分需要的算力不是简单乘以 2,可能是乘以 5 或 10。

晚点:所以特斯拉 AI5 芯片大概 2000TOPS 的稀疏算力远远没到尽头?

谢炎:离真正的 L4 也还不太够,当然这只是我个人的判断。

晚点:你们已经在车端用马赫 M100 替代英伟达,但云端还在用英伟达。云端算力不够用而且很贵,这个问题怎么解决?

谢炎:英伟达不会因为我们没用它的车端芯片就不供应云端产品,老黄不是这样的人。马斯克也买英伟达的云端产品,车端同样没在用,所以该合作还是合作。我们可以用所有云厂商和芯片厂商的产品。国产的都在用,只要好用就行,我们不挑。

晚点:车端模型往后肯定会变得更大,理想会通过更低精度推理的方式提升效率吗?

谢炎:当然。

晚点:能做到什么水平?

谢炎:Google 首席科学家 Jeff Dean 的观点我特别认可。他最近两年一直在讲稀疏和低精度,降低精度也是一种广义的稀疏。这跟硬件设计强相关,如何设计更低精度的推理,不能仅是硬件设计,而是从算法、模型设计上保证,即使精度降下来,算法都能保持足够性能。这些技术是我们的重点研究方向。

晚点:有可能做到 FP4 吗?

谢炎:对,4 甚至 2。

晚点:这么低的精度?自动驾驶毕竟要讲究安全。

谢炎:这个东西必须跟软件结合,所以并不是所有地方都用低精度。就像你开车时,视觉焦点之外看个大概就行,其余部分根本不需要高精度。所以在训练和架构的联合设计上有很多讲究:如何用好低精度,如何用好结构化稀疏和其他稀疏方法,比如 KV 缓存的稀疏化,这里面有很多可供软硬件联合设计的地方,不是简单部署一下硬件就好了。水还挺深,也挺有意思。

晚点:预计马赫 M100 从什么时候开始支持机器人?

谢炎:这得看我们机器人业务的节奏,不着急。芯片就在那,业务准备好随时可以用,更重要的是机器人的技术方向。理想做机器人,肯定不会简单复制别人的方法,那样没意义,更重要的是走出一条自己的路,那会决定怎么用我们的芯片。如果机器人业务需要高性能的量产芯片,马赫 M100 比市面其他芯片都好,又有内部支持,效率会很高。

晚点:机器人团队还缺少像自动驾驶跑在车上这样的具体场景,可能机器人团队还得探索一些场景,才能走到量产。

谢炎:对,产品要定义好。我们机器人团队也用基座模型。现在想哥定义的分层是:芯片、模型、机器人和自动驾驶,包括其他业务用的大模型都基于基模团队提供的模型,所以模型训练都在一起。也就是说,机器人用的基座模型本身就适配我们的自研芯片。

晚点:你在四季度业绩会上提到,因为有星环 OS 和马赫 M100 芯片,理想取消了上一代平台的 XCU,并因此节省 1000 元单车成本,具体是怎么回事?

谢炎:很简单,马赫 M100 有比较强的处理器,里面有 24 个 A78,我们用虚拟化和操作系统技术隔离出一部分给 XCU 用,整个 XCU 控制器就节省掉了。

晚点:除了自动驾驶,马赫 M100 还有其他应用场景吗?

谢炎:大家一定要理解,这颗芯片不叫自动驾驶芯片,而是 AI 推理芯片。座舱肯定需要,最终车内需要一个 AI 的计算中心,所有 AI 集中到这里最高效,而且我们也是自研的,有最大的掌控力,这样效能最高、单位算力成本最低。无论自动驾驶还是座舱里需要的 AI,都放到一起效率才最高。如果这边摆一个 AI 小计算,那边摆一个 AI 小计算,而且两边架构还不一样,适配起来都麻烦。

在底盘和以后要推出的机器人上,我们也都会用马赫 M100。你看特斯拉 FSD 芯片在机器人上也用。媒体经常把 ASIC(Application-Specific Integrated Circuit,专用集成电路)和 PU(Processing Unit,处理单元)搞混,ASIC 是完全固化的芯片,为自动驾驶设计的就只能跑自动驾驶算法,其他算法跑不了,而我们做的是 PU。

晚点:从 2021 年特斯拉开始大规模推送 FSD Beta 版起,智驾行业经历过多次算法变动,这对理想设计芯片的思路有冲击吗?你们做了哪些调整?

谢炎:这就是做 ASIC 和 PU 的差别。做 ASIC 如果应用一变,硬件固化了就是灾难。但我们做的是 PU,可编程、有灵活度,只要应用计算大的特征不变,算子的变化都能适配,而且效率都保持得很高。就像 CPU,英特尔和 AMD 的处理器没有为哪个具体应用做固化,但什么应用都能跑,且效果还不错。

不过,如果计算特征发生巨大变化,的确有影响。大语言模型兴起后,计算特征确实和之前的深度神经网络有区别,跑大语言模型特别是 Decode 阶段计算密度很低,对带宽要求极高,所以我们做了相应优化,稍微加了一些东西。

晚点:现在大家评价自动驾驶芯片性能时,一看算力、二看带宽。马赫 M100 的内存带宽是 273GB/s,为什么不做得更高一些?

谢炎:只看参数没意义,最终要看有效算力。例如评价一部手机好不好,内存很重要,但苹果内存最低,体验却最好。所以不能简单拿参数衡量芯片能力。就像拳击比赛,获胜选手是综合实力强,不是比泰森重、比泰森高就能打赢泰森。

晚点:怎样才算综合评价?你之前演讲时更多强调跑 CNN 模型或 Transformer 模型的速度。

谢炎:对,尽量用关键模型评价,甚至最好直接拿自动驾驶说话。用一个大的自动驾驶端到端或 VLA 模型评价,这最客观,而不是看参数。

晚点:Orin-X 推出时 Transformer 还不火,所以有人认为,英伟达设计这款芯片时对 Transformer 考虑较少。理想遇到的情况是怎样的?

谢炎:我们跑 Transformer 模型的效率比英伟达高很多,原因有三点。

第一,Transformer 最重要的注意力计算需要把矩阵转置后再相乘,英伟达 GPU 架构的二级缓存承载不了,就要放到全局内存,然后反复访问高带宽内存做远距离读取,所以直接碰到 “内存墙”。我们的数据流架构是数据驱动而非指令驱动,计算单元间传输不需要经过全局内存,可以直接传输并在过程中转置,效率最多比他们高 10 倍。

第二,我们做注意力计算很高效,因为数据流架构可以把计算过程流水线化,不只依赖全局内存,不容易遇到 “内存墙”。然后是矩阵乘,就是最后大的计算结束再去跟大的矩阵相乘时,需要给每个计算单元都复制一份矩阵,而我们有全局广播总线,可以一次把矩阵同时送给所有计算单元。英伟达 GPU 是指令驱动,每个计算单元都要到全局仓库去找,效率更低。

第三,我们的计算单元里有一些算子可以直接形成数据流。不是每次算完再通知其他模块来算,而是把多个计算步骤串联起来连续处理,效率高很多。

这些效率提升来自体系架构设计,不是固化的。如果把所有高效的东西都固化,那参数也会固化,就失去了架构的灵活性优势。

AI 时代,人的一个重要能力是能够跳出分布概率思考

晚点:你评价自己是工程师,但加入理想后很快成为 CTO。你怎么看车企 CTO 这个职位?理想 CTO 需要做哪些核心工作?

谢炎:在任何公司的高管里,CTO 定义最模糊。理想 CTO 有对外技术对接的职责,对内主要是在 AI 计算这条线上——从模型、操作系统到芯片,再到封装等相关技术——保证公司未来有竞争力,在中国一定领先。

这是我投入精力的重点,因为这是理想成为具身智能公司的核心之一,虽然不是唯一,因为车是复杂产品。这条线又分为交付和保证领先两部分。交付要足够好,会花一点精力,但更重要的是往前看,因为技术永远不进则退,所以一定要花时间关注还在地平线上的新技术。

晚点:你现在关注哪些新技术?

谢炎:第一是模型未来的发展,这个我会花精力看,特别是自动驾驶和具身智能模型。第二是芯片架构,我们正在做的是第一代,之后还会继续迭代。

第三,芯片设计本身挺有意思,像盖房子一样,材料和构建方法有无穷想象空间。摩尔定律让半导体接近极限,要进一步提高性能,业界有很多新方向,包括用光、先进封装,从二维转向三维构建等。如何在三维层面构建,以及如何用这些底层材料和搭建方式更好地设计架构,我也会花精力关注。

还有用 AI 赋能芯片设计和编译器,这也很重要,未来我们必须走在前面,效率一定要足够高。所以我在推动核心计算团队用 AI 提升效率,突破原来想象不到的事情,比如直接用 Claude、Codex 等 AI 工具写算子、用 AI 编译优化整个链条。

晚点:你的工作风格是什么?

谢炎:抓重点。从工程师成长到要构建更大事情时,最重要的是学会分配精力。不能像自己做工程师时每个点都亲自处理,要分清哪些点看浅一点,哪些点看深一点。

晚点:在不同节点,你的工作重心分布在什么事上?

谢炎:架构设计我看得比较多,软件和编译,软硬协同也会看,RTL 设计(Register Transfer Level,用硬件描述语言阐释芯片的逻辑功能)、前端设计、后端设计相对看得较少。关键结果可能会看得多一些。我对自己要求是,保证在人工智能技术路线上,不错过大机会,少踩坑,达到领先并能持续领先。

晚点:在 AI 时代少踩坑,可能吗?

谢炎:所以要加强研究,很多东西得先知道发展方向。所谓 “踩坑”,核心是没有一手信息、人云亦云,只看特斯拉、英伟达今天怎么改,但不知道为什么,说它这么改所以我也这么改,这最危险。

不是他怎么改我们就怎么改,而是即使跟他方法一样,也要搞清楚背后的深层原因,第一性原理是什么,进而倒推有没有其他更好方法。干一模一样的事没什么意义。我们现在做的很多事都和业界不一样,但这不是投机行为,而是真的从底层分析清楚后的决策,不是押宝。

晚点:你说保证理想在 AI 时代持续领先,范围指车企还是全行业?

谢炎:首先是车企,这是基本目标。我们不会跟 OpenAI、Claude 去比 Coding,这没有意义。每家公司有它的使命和领域,我们的使命和优势更多是在三维世界构建具身智能的全栈能力。

晚点:十年后,你预计具身智能会达到多大规模?

谢炎:汽车现在是中国第一大行业,超过房地产,具身最终肯定比这个市场大。人类需求是无限的,不会嫌生产力少,而是需要更多机器人干各种活。

晚点:理想在往具身和 AI 方向转型,汽车业务还有多重要?

谢炎:汽车业务对我们挺重要,相当于练兵场,可以提供大量资金、人才、场景,很多技术从里面孵化成熟、成本降低。汽车业务对理想来说肯定是今天最重要的业务,外面说想哥不想做汽车了,不是的。虽然有远大目标,我们还是立足汽车,今天所有东西还是服务于汽车。

晚点:你加入时理想正处于上升期,到今天遇到挑战,你的角色也愈发重要。怎么看待理想这几年的变化?在不同阶段,你怎么判断各类事情的重要性?

谢炎:我基本上没什么变化,公司在业务上肯定是有上有下,但更重要的是看到一些不变的东西。我来之前就相信汽车是重要的人工智能产品,一定要通过软硬件结合打穿到芯片、操作系统,才能形成长期竞争力。至于中间的起伏,只要我们还没困难到一点儿钱都没有,那就保持这个研发强度,把内功练好,让大家有这个耐心。

我刚才说芯片团队 200 人,这跟公司一万人的研发团队相比是非常小的比例,他们安安静静在一个角落把核心的东西打磨好就行,不要被所谓的销量高低影响。重要的是,坚定相信正在做的始终是这个时代很重要的事,这一点我们一直没变过。

而且我相信 AI 时代会有一套新的计算架构,我一直想在汽车上把它试出来。这件事不管怎样都非常有意义,而且一旦做成,一定能帮助理想建立非常强的壁垒。

晚点:今天团队可能没法再安安静静,像你就要被推到台前了。

谢炎:你做出来就好,拿东西说话,而不是靠对外说。

芯片能上车只是起点,我们还有很多想法,芯片还有性能空间可挖,因此有很多事可干。也很幸运处在这个时代,这个时代最重要的是具身智能产品,而汽车是很好的载体。其他东西都不太重要。

当然作为公司高管,销量我也关心,我们必须让公司不出岔子。除此之外,不需要关心更多噪音。

晚点:一家自动驾驶创业公司挖人的方式是看比赛成绩,谁的分数高就把他挖过来,你呢?

谢炎:我不赞同他的方法。这只能说明某些人打比赛特别熟练,但是更重要的,AI 特别擅长大量数据的平均分布,如果这个人是技能熟练型的,所有认知都在平均分布里,也很容易被 AI 替代。而人最重要的是跳出概率分布的那部分,也就是 AI 从没见过或者 AI 不会去想的一些事情。

马斯克当年做火箭,成本要降到以前的 1%。如果 AI 来解这个问题,它一定不会想到回收火箭,甚至包括用 “筷子” 夹的方法。今天的 AI 做不到,因为它从没见过,很难完全跳出分布概率去想还有别的可能。它更多是在看到的东西里,通过 CoT(Chain of Thought, 思维链)一步步找到相对较优的方法。

晚点:你说智能电动车要通过软硬一体把 AI 能力和智驾做好,才能成为头部公司,但市场上很多人都已经认识到这一点。会不会产业决胜点其实不是这个?

谢炎:你说智能电动车的决胜点不是智能?

晚点:因为刚才在说分布概率。

谢炎:这是两件事。一件是你跳出分布概率,让原来不能做的事变得可做,但有些需求就在那,只是你做不做得到。人类需求没有分布概率的问题,比如你需要一个机器人帮你干活,这是毫无疑问的,可能每个人都这么希望,而且是非常便宜的价格。

晚点:你刚才说到,现在国内厂商在智驾这块的能力都在第一梯队,上下之间区分没那么大。

谢炎:头部几家是这样。

晚点:有没有可能一直保持这样的情况,最后光靠智驾区分不出来哪个车能力强?

谢炎:智驾还是能区分出来的。一个是今天离闭上眼睛、完全放心开还有比较长的距离,但大家已经慢慢相信这件事会发生。还有综合成本问题,也就是用多大的成本达到这个程度,这会有差异。

另外当自动驾驶实现后,你会希望汽车帮你干更多事。没有智驾,我们开启不了这个可能性。

晚点:数据流架构也是跳出分布概率的一种?

谢炎:对。你如果让 AI 设计,它大概率不会选择数据流架构。

晚点:也打不过英伟达?

谢炎:对。

晚点:AI 用多以后,会不会影响我们跳出分布概率?

谢炎:会。

晚点:那怎么办?

谢炎:所以有经验的人现在还是重要的,不能都交给 AI。现在硅谷为什么裁掉一线工程师?因为他没有足够的经验,跳不出分布概率,只能瞎想。瞎想当然也有价值,经验有时候也会限制你跳出分布概率。但在有些领域,没有足够经验,你跳出分布概率的想法可能 90% 是错的,还会耗费大量时间。

晚点:经验是通过亲身实践得来的,如果 AI 工具很早介入,没有探索的过程,不够资深的员工如何变成更好的自己?

谢炎:这的确是一个问题。

晚点:你们现在怎么做?

谢炎:我没有特别好的方法,还是要容忍一些,不要全是 AI。底层工作 AI 能做时,就给新人机会。不过新人不是重复全部底层工作,而是在上层构建认知,在新环境下学习技能。如果回到六七十年代,很多人能写汇编语言,但现在能写 C 语言的都不多,但这并不妨碍大家的生产力更强。

晚点:哪些事情你不允许用 AI 做?

谢炎:没有不允许,大家放开做。今天不用 AI 比用的风险更高,所以大家尽量用,控制风险就好。

晚点:有经验的人会看出来质量好坏。

谢炎:对,有经验的人会提高非常快,没经验的人也有机会快速切入一些领域,所以不限制大家。我的想法是推动大家去试,因为不试就不知道 AI 发展到什么程度,试了之后才会有越来越深的体会,而且可以想象它未来能干更多事。

晚点:乔布斯在世时,苹果搞过封闭战略会百人会(Top 100),目的是确保公司最高层能清楚地知道最厉害的人在想什么,保密程度非常高。理想有什么管理机制,能够让好想法自下而上涌现?

谢炎:这很重要,不要太科层化,比如我会直接跟校招生、一线员工不定期聊,就是聊你今天在想什么。我也会跟大家分享我看到什么、我在想什么。

在资源分配上,我们今年在思考一件事:不要把资源束缚在一个个垂直的井里。如果组织结构一旦形成,人力、计算资源都在一个井里,基层即使有好想法,也不一定能获取相应资源。

第二,好想法落地往往需要不同的能力,而即使是领导可能也只拥有一部分能力,因此要跨团队协同。所以,重要的是打破部门墙。

我们正在尝试另一种方法:有人有好想法之后能直接提出来,然后跳出他的组织架构上会评审,通过后大家就匹配资源,甚至跨部门调集一个虚拟团队来干,快速组成一个 “篝火” 模式。我们最近也在思考,如何形成制度化的 “篝火”,让大家可以快速形成一些 idea,快速试错和响应。

晚点:之前有理想产品高管说,前两年当一部分高管被调去做流程后,年轻员工很难直接跟 CEO 产生有效交流,最终李想成了产品天花板。怎么避免这种情况?

谢炎:这种情况肯定有,因为一线听到炮火的人更了解实际情况。他的想法被否掉后,后来发现是对的,这很难避免。但反过来讲,有可能他只看到问题的一方面,提的不是正确建议。

所以,既要保证他的创新能跑出来,也要保证真正落地的是高质量建议。很多人都会提建议,但 1000 个建议中真正靠谱的可能只有 20 个。如果只要有 idea 就能获得资源,公司也会乱套。

晚点:所以你们还在摸索?

谢炎:这应该没有一个绝对的方法,只有一种情况:你的团队规模足够小,足够紧密,这种方式才会非常奏效。这也是为什么我不希望团队太大,人少沟通反而更容易,人多了之后你要花费大量精力辨别哪些是噪音,哪些真正有价值。不过团队小,人员素质要足够高,大家都得靠谱才行。

晚点:今天你是更集权还是更分权?

谢炎:我比较分权,因为我的工作模式是这样:很多事我如果发现有问题,就直接跳进去跟工程师一起看。我的时间并不完全固定,而是看哪个时间段的哪件事更重要。如果是大家已经定义好的事,最好有一个直接负责人。假设全由我负责,有可能我自己成为瓶颈。

晚点:直接向你汇报的有多少人?

谢炎:比较多,我现在兼任两个一级部门负责人,因为一直没有合适人选。但好处是我们的架构以事为驱动,虽然我兼了两个一级部门负责人,其他都是一级部门负责人向我汇报,只有那两个部门是二级部门负责人向我汇报。

那些人围绕一件事工作,并不需要我每天告诉他们做什么,他们更多是自驱在一件核心事情上,知道自己精力应该往哪放。所以我们的架构更像数据流,不是中心式。

晚点:传闻你推动了理想的 AI 战略?

谢炎:不是。战略肯定是 CEO 想哥推动,我就是实施,包括让技术方向落地。

晚点:这和你加入理想之后的建议、判断有关吗?因为你认为汽车是人工智能、具身智能端侧实现的路径之一。

谢炎:大面上他没受我影响,或者说我们俩判断一致。不是我说他就觉得 AI 重要,只要 CEO 看到大趋势,就都知道 AI 肯定重要。

我无非是推动了跳出分布概率的技术路线选择,更多是为了领先,领先也是为业务服务。所以不存在我说服他,当然如果我们做得好,他会信心更足。

晚点:从阿里离开时,你有一个可以做新公司 CEO 的机会但拒绝了,因为你认为头衔没那么重要,做的事很重要。

谢炎:对。

晚点:基于你今天做的事情和想达到的目标,如果 CTO 这个 Title 不重要,当下对你来说什么最重要?

谢炎:像我刚才说的,主要是在整条 AI 链路上,通过垂直整合,从模型、软件、芯片甚至更底层,为公司构建起坚实竞争力基础。这个基础一旦构建起来,就会产生类似 “飞轮效应” 的效果,模型,软件,操作系统,芯片同时加速进步,这种优势可能会是结构性的。

晚点:确保你能实施这条路线是最重要的?

谢炎:对我来说,重要的不是在什么位置,而是能参与重要的变革和历史进程。在能够成功的基础上,是不是我在主驾位又有什么关系。

李安琪对本文亦有贡献

题图来源:理想汽车

注释(上下滑动查看):

[1] 冯·诺依曼架构:由数学家冯·诺依曼在 1945 年提出的计算机架构,被现代绝大多数计算机采用。其核心特点是指令和数据存在同一存储器中,CPU 按顺序执行指令。

[2] 数据流架构:一种计算架构,1970 年代由 MIT 的 Jack B. Dennis、Arvind、高光荣等人提出。其特点是当操作所需的输入数据准备就绪,操作会自动执行计算。

[3] 内存:计算机用于存储数据和程序的硬件组件,也称为主存储器或随机存取存储器。处理器可以快速读写内存中的数据,是计算机运行程序和处理数据的重要部件。

[4] 缓存:位于处理器和主内存之间的高速存储器,用于临时存储频繁访问的数据和指令,减少处理器等待数据的时间,提高整体性能。

[5] 内存带宽:单位时间内,内存与处理器之间可以传输的数据量,通常以 GB/s 为单位。带宽越高,数据传输速度越快。

[6] 低精度推理:使用较少位数(如 8 位、4 位)表示模型参数和计算,相比传统 32 位浮点数可显著降低计算量和内存占用,同时保持相对较好的模型性能。

[7]DDR:Double Data Rate 的缩写,即双倍数据速率,是一种内存技术标准。DDR 内存在时钟信号的上升沿和下降沿都能传输数据,相比传统内存速度更快。

[8]CNN:Convolutional Neural Network 的缩写,即卷积神经网络,一种深度学习模型,适合处理图像数据,通过卷积层提取特征。

[9]Transformer:一种基于注意力机制的神经网络架构,最初用于自然语言处理,现已广泛应用于计算机视觉等领域,是 ChatGPT 等大模型的基础架构。

[10]PCIe:Peripheral Component Interconnect Express 的缩写,即高速串行计算机扩展总线标准,用于连接主板上的各种硬件组件,如显卡、存储设备等。

[11]NPU:Neural Processing Unit 的缩写,即神经处理单元,专门为人工智能和机器学习计算设计的处理器,相比通用处理器在 AI 任务上更高效。

[12]GPGPU:General-Purpose computing on Graphics Processing Units 的缩写,即通用图形处理器计算,指将原本用于图形渲染的 GPU 用于通用计算任务。

[13]SoC:System on Chip 的缩写,即片上系统,将完整计算机系统的主要组件集成在单个芯片上,包括处理器、内存、输入输出接口等。

[14]ASIC:Application-Specific Integrated Circuit 的缩写,即专用集成电路,为特定应用而设计的定制芯片,相比通用芯片在特定任务上性能更优、功耗更低。

[15]PU:Processing Unit 的缩写,即处理单元的通用称呼,可以指 CPU、GPU、NPU 等各种类型的处理器。

[16]Chiplet:芯粒技术,将原本集成在单个大芯片上的不同功能模块分解为多个小芯片,再通过先进封装技术连接,可以提高良率、降低成本。

[17]Hardware 3.0:特斯拉搭载的第三代自动驾驶硬件,包含两颗自研的 FSD 芯片,专为自动驾驶计算优化设计。

[18]IP:Intellectual Property 的缩写,在芯片设计中指可重用的设计模块,如 CPU 核心、内存控制器等,厂商可以购买 IP 来加速芯片开发。

[19]Debug:调试,指在软件或硬件开发过程中发现、定位和修复错误的过程,是确保系统正常运行的环节。

[20]CUDA:Compute Unified Device Architecture 的缩写,英伟达开发的并行计算平台和编程模型,允许开发者使用 GPU 做通用计算。

相关推荐

理想CTO谢炎:AI时代需要新的计算架构,我想在汽车上试出来
对谈理想CTO谢炎:AI时代需要新的计算架构,我想在汽车上试出来
消息称理想AI研发组织架构调整:陈伟任基座模型负责人,向CTO谢炎汇报
转型 AI 公司后,理想交出首份成绩单
36氪独家 | 阿里AliOS和斑马重组后,首席架构师谢炎离职
理想汽车算力平台VP许迎春离职 职级M10
理想汽车重组研发架构,自动驾驶团队并入软件本体
理想汽车重组研发体系,自动驾驶团队被拆分
AI 如何成为理想一号工程
华为不造车:鸿蒙的首次体验也许是在智能汽车上

网址: 理想CTO谢炎:AI时代需要新的计算架构,我想在汽车上试出来 http://www.xishuta.cn/newsview149520.html

所属分类:人工智能

推荐科技快讯