首页 科技快讯 对谈理想CTO谢炎:AI时代需要新的计算架构,我想在汽车上试出来

对谈理想CTO谢炎:AI时代需要新的计算架构,我想在汽车上试出来

来源:晰数塔互联网快讯 时间:2026年05月12日 00:10



上行期理所当然的技术决策,到了用商业结果证明合理性的时候。

文丨赵宇

编辑丨龚方毅

“现在马赫 M100 的业务目标达成度只有 60%。” 北京车展前夕,距离理想自研芯片量产装车只剩一个月,理想汽车 CTO、系统与计算群组负责人谢炎告诉《晚点 Auto》,“真正的成功,是搭载马赫 M100 的 L9 智驾能力跑到业界第一,然后车又卖得很好。那样我们才能非常有底气地说达到业务目标。”

1982 年,美国计算机科学家 Alan Kay 曾说,“你如果真正认真对待你的软件,就要自己做硬件。” 基于类似逻辑,理想在 2022 年立项自研芯片,并已为此累计投入数十亿元资金。谢炎是理想芯片自研项目的负责人。他 2022 年 7 月经美团创始人王兴介绍加入理想。半年后,他晋升为理想 CTO。

提起这个,谢炎在华为和阿里的前同事说他赶上了好时光——当时理想正值业务上行期,公司上下充满 “想赢” 的干劲。特斯拉证明了自研芯片对提升智驾体验的帮助,而国内新能源车市场正意气风发,资本市场也愿意给冒尖的新势力更多想象空间。

到马赫 M100 准备上车时,理想经历了自 ONE 交付以来的首次年度销量下滑,不仅纯电战略遭遇挫折,增程产品也面临空前竞争。随着新势力们挨个步入成立的第十个年头,中国新能源车的产品同质化和价格内卷相互促成。像自研芯片这等烧钱决策,如果当时看起来有多么理所当然,今天就要花多大的力气来证明它的正确。

通常情况下,没有经验的公司会从小芯片做起,低成本跑通设计、流片和供应链流程。即使是小芯片,失败一次也要损失数百万美元;换成先进制程大芯片,除了每个环节更难,流片成本也指数级增加到千万级美元,失败一次跟马斯克又炸掉一枚火箭差不多了。

谢炎刚加入时,理想芯片团队只有两名员工,不到一个月就剩一个了。留守的那位问他,“公司已经决定做芯片,但要怎么做?” 谢炎反对做小芯片试水。他告诉我们,理想不是为了证明有能力做芯片而做芯片,应该直接解决最核心的问题:确保首颗自研芯片量产时能超越同期最强的英伟达芯片。

他没有沿着更主流的 GPGPU 路线追赶英伟达,而是选择了数据流架构。按照理想的说法,马赫 M100 单颗有效算力达 1280 TOPS,同时由于数据流架构提供的算法优化空间,其有效算力是英伟达 Thor-U 的 3 倍。

数据流架构由 MIT 的几位教授在 1970 年代提出。谢炎在美国特拉华大学读研时接触到它,认为它比冯·诺依曼架构更接近大规模 AI 计算的需要,过去几十年一直没有大规模商用一是因为它的优势需要足够大的计算规模才能显现,二是编程和调试难度也更高。

谢炎相信 AI 改变了一些假设,“我相信 AI 时代会有一套新的计算架构,一直想在汽车上把它试出来”。他告诉我们,GPU 依赖集中式调度和大量数据搬运,规模越大,效率损耗越明显;数据流架构让数据驱动计算,理论上能减少等待和搬运,把更多晶体管用于真正的计算。但这也把压力转移到软件栈、编译器和软硬协同上。

杜克大学电子与计算机工程系教授陈怡然认为,马赫 M100 是一次有前景的工程尝试,但不应简单地认为数据流架构就是未来发展方向——关键在于采用哪种具体的数据流设计,以及它与目标应用和软件系统的协同效果。由于大部分优化工作转移到软件栈,实际效果很大程度上取决于编译器的成熟度,以及软硬件协同设计的质量。此外,自动驾驶算法模型演进很快,这种架构必须在 CNN、Transformer 等计算范式间保持足够的灵活性。

“数据流架构是一个宽泛概念,涵盖从脉动阵列、内核级数据重用方案到更激进的编译器调度架构(如 Groq)等多种设计。” 陈怡然教授对《晚点 Auto》解释,“马赫 M100 采用了介于传统 GPU/TPU 与 Groq 纯静态编译器调度模型之间的技术路线,通过编译器等软件更精确地控制芯片内部的数据流动和计算过程,既保持实用的 NPU/SoC 设计,又让数据搬运、本地缓存、互连通信和同步变得更可控。”

他认为,自动驾驶涉及环境感知、行为预测、路径规划等存在大量复杂计算任务的环节,现在还涉及大型 AI 模型推理。“如果软件系统能有效协调这些数据传输和计算,芯片利用率会显著提高,处理速度更稳定、能耗更低。”

谢炎承认马赫 M100 上车过程也确实有不少 “坑”:硬件设计复杂度降低,软件复杂度提高,对传统编程方式并不友好,第一版智驾模型从更新到完成车端适配用了两个月。尽管现在已经可以大幅缩短到不到一周,但仍有很大优化空间。接下来,他们还需要通过编译器等软件工具来充分释放芯片的硬件性能潜力。

这件事由一个不大的团队推进。理想芯片团队早期长时间只有几十人,现在约 200 人,仍远小于外界想象中的完整芯片团队规模。谢炎说,人多不一定好,人多时很多都是在搞政治斗争。核心部分自己做,后端、SoC 集成等环节可以借助供应商。在理想上万人的研发体系里,这个团队更像一个安静的角落,尽量不被每月销量起伏干扰。

“只要我们还没困难到一点儿钱都没有,那就保持这个研发强度,把内功练好。重要的是,你相信这件事本身不管在什么时代都重要。” 谢炎说。

以下是我们与谢炎的对话,略经编辑。

不认为马赫 M100 已经成功,现在只达成目标的 60%

晚点:回片时间目前有两种说法,一种是 2025 年初,一种是 2025 年 5 月。

谢炎:2025 年初。我们回片后测试了三个月,到 5 月份,保证它没什么问题,所有东西都稳定了才说成功。一般刚回片就宣布成功,是为了吸引资本。你不测三个月,根本不能确定里面有没有问题。

晚点:流片结果和你们的预期完全一致吗?

谢炎:对。这就是前期工作做得多的好处。你做得越多,回来之后跟你的预期越一致。

晚点:很多公司会在流片成功后很快对外宣布。

谢炎:对,一般都是这么干的。我们把芯片从台积电背回来,第 12 个小时就点亮了,但我什么都没说,因为我知道那不代表任何意义。

晚点:当时有担心过流片回来,但模型在上面跑不了吗?

谢炎:当然有,所以我们在流片之前做了极其充分的测试。大多数公司不会做到我们那个水平。我们不仅在模拟器上把操作系统跑起来,而且把很多大模型都完整地跑了,保证这个东西最终出来时尽量不出意外情况。很多人觉得我们的测试做得过于充分。

晚点:李想知道马赫 M100 流片成功后是什么反应?

谢炎:我不记得了。直到今天,我也不认为它已经算是成功,真正的成功是全新一代理想 L9 搭载马赫 M100 芯片后,智驾能够跑到业界第一,然后车又卖得很好,我们才能非常有底气地说达到业务目标。现在只算达到 60%,即使今天的确已经跑起来了。

晚点:智驾业界第一的目标,包括超过特斯拉吗?

谢炎:我们的最终目标当然包括特斯拉,对标全球最高水平。



理想汽车马赫 M100 自研芯片。来源:理想汽车

晚点:你工作经验非常丰富,见过不同芯片流片。在理想和其他公司,个人感受有什么不一样?

谢炎:这颗芯片还是挺了不起的。好多公司可能做了很长时间,但只是做一些比较小的芯片。所以你看我们团队,虽然有些人在业界也工作了十几、二十几年,甚至更长时间,但还是挺兴奋。

这么短的时间做这么大制程的芯片,在中国不多见。中国有上千家芯片公司,但是做到这个水平的比较少,我们又是第一次做,而且我们是新团队、新架构,工艺制程又有挑战。当然台积电比较成熟、靠谱,我也非常感激他们。

晚点:你前面提到做芯片也希望 “车卖得好”,你们需要对汽车产品的商业成功负责吗?

谢炎:我们没法对商业成功负责,只能让芯片具备足够竞争力,也就是性价比一定很高,算力发挥的效能一定超越能买到的芯片。如果做不到这些,自研就没有意义。

晚点:理想是全系车型都要搭载马赫 M100 吗?

谢炎:对,至少我们知道的是全系搭载。当你有成本、性能优势,没理由不全系搭载。

晚点:全系搭载对技术决策有什么影响?

谢炎:这很重要,我们一开始的目标就是全系搭载,如果内部都不愿意用,那就说明芯片不够好。反过来讲,全系搭载也帮我们计算出大概需要在成本、性能上做到什么程度。包括我们在立项时也计算过,搭载多少辆后能摊平全部研发成本,每块芯片大概要比外购便宜多少钱。

晚点:是从去年芯片流片成功之后就决定全系搭载吗?还是说会有一些中间的讨论?

谢炎:决策过程不是你想象的那样,更多是一开始大家约定好要做到什么程度,经过验证足够有竞争力才能搭载。所以要一步步验证,流片回来,能跑起来,初步看到的确如我所说,性能、成本也有优势,逐步就用了。大部分人还是会打一个问号,因为不参与这件事,也可以理解。当逐步让他们从看见到相信,决策就落地了。

晚点:哪个指标真正打动了他们?

谢炎:主要还是性能。如果性能好,成本又不错,比市面上能买到的都好,产品线没理由不用。

晚点:从芯片跑起来,到真正上车,中间最大的挑战是什么?

谢炎:第一颗芯片最后要上车,让模型都能跑起来且性能很好,还需要一些软件工作。数据流架构芯片最终靠 AI 能够越来越快,但第一颗芯片还是有很多坑。比如它在硬件上的设计复杂度降低,但软件复杂度提升,它不是那么适合人类编程,但这也不是不可以做。因为我自己做编译器,我还是会跟团队讨论怎么让编程更简单。

我们第一版模型编出来花了两个月,后面会是一个月、半个月、一周,编译器越成熟迭代越快。按照我们以前学习的编译理论,最优性能永远可以逼近但不可达到,所以可以不断优化。现在我们从模型更新到完成车端适配用不到一周了,最终我们希望达到一天之内完成适配。

晚点:不同车型搭载几颗马赫 M100 芯片的决策,你参与了吗?

谢炎:各有各的分工,一般对于分工之外的工作我会了解,但尽量不影响他们决策,因为还有商业和其他考虑。

晚点:一颗芯片从设计到量产,最难的环节是什么?

谢炎:各种困难都有,但最难的是选择做什么、不做什么。这些选择来自清晰的产品定义,需要有好的应用场景才能明确目标。在理想,我们能比较清晰地看到需求,这最宝贵。一旦需求定义清晰,技术路线就会清晰,剩下就是匹配资源,看投入产出是否划算。后面的工作也有难度,但并不是最难的。

技术上,前、后端设计的挑战确实比较大,好在我们团队的人都比较靠谱,经验也比较丰富,像罗老师(理想算力单元部门负责人罗旻)都是干了很多年的人。而且后端团队也很强,比如我们要把这颗芯片控制在一定面积以内,他们干了很多非常细致的活儿,以至于我们后端供应商的人都觉得太挑战,他们同时给好几家公司做芯片,说明我们的要求比美国那些公司高。

自研芯片是加入理想的前提,不做就无法实现产品差异化

晚点:关于自研芯片,你们最初是怎么考虑的?

谢炎:在我 2022 年加入公司前一年,理想就已经开始考虑做芯片,但没确定要做多大算力、做到什么程度、什么时候交付。这些是我来理想后,经过讨论才定下来。

来之前跟李想沟通,我提到一个重要观点:未来竞争是产品软硬件一体的竞争,就像手机一样。手机产业早年有两种公司,一种是苹果、华为,有自己的操作系统和芯片,另一种没有。两者之间存在巨大差距。我当时和想哥达成一致:如果理想未来以产品为核心竞争力,一定得自研核心软硬件。

晚点:面试时,你和李想就是这么沟通的?

谢炎:我第一句话就问想哥,理想汽车如果要做成头部公司,是不是一定要做成苹果那样?第二句话问,我们会不会做芯片?所以来这里的前提是我已经有一个预设,因为做操作系统很多年,我觉得不结合芯片也做不出什么花来。

晚点:自研芯片投入很大,李想当时是什么态度?

谢炎:想哥从一开始就无条件支持,因为他也相信这是核心竞争力不可或缺的一部分。

晚点:听说理想决定做芯片时,管理层为此批了 10 亿美元预算,有这回事吗?

谢炎:他没有具体批预算,我们立项时有一个预算金额,当时我是按照下限去卡的。我认为做第一颗芯片不要花太多钱。

晚点:我们的意思是,理想芯片自研的整体预算是 10 亿美元。

谢炎:芯片自研是逐步迭代的过程,很难用固定预算来衡量。比如苹果从 A4 开始做,从 A 系列做到 M 系列,从手机、服务器到笔记本都用自研芯片,这些投入没办法用单一预算来衡量多还是少。

我们更多是按项目批预算,有了第一个项目就会滚动到第二代、第三代,后续会越来越强。因为背后的逻辑是 AI 算力永远不够。现在 AI 还没真正进入大家的生活,只有 Chatbot、“小龙虾” 等简单应用,这只是产业早期的早期,非常像 1970 年代末的计算机。那时大家觉得 640K 内存就够了,处理器 1M 赫兹都极其高端,一直到 1980 年代中期才出现。更早就是 8088、8086,就是几百 K,还可能更低一些。

但随着应用爆发,算力需求远远超出预期。不仅是算力大幅提升,而且数量肯定要更多。因为一开始只是极客用,就像乔布斯开始卖给硅谷那些人,后来变成每家每户、各行各业都要用。我们认为这只是开始,AI 发展没有回头路,需求只会越来越强,用量只会越来越多。

晚点:那到底是多少?

谢炎:不能说。

晚点:这么重的投入,李想为什么会支持?

谢炎:他比较相信垂直整合实现差异化这个逻辑。

对于任何产品,真正的差异化就是掌握核心技术链条,比别人更快迭代创新。在这个逻辑下,该做什么、不该做什么就很清晰。能帮我们在性能和成本方面实现差异化的,就精准投入;不能的就不做大投入,即使它今天很重要。

每个时代都有核心产品,它不仅自身重要,还能孵化技术并溢出到其他领域。八九十年代是 PC,最近二十年是手机。智能手机技术成熟后,Pad、电视、车载触摸屏都出来了。如果没有安卓、高通、苹果,汽车公司要花多少年才能低成本做出流畅的车内交互体验?

智能电动车就是这样的产品,可以围绕它把端侧人工智能做得非常成熟,因为它是当前个人能拥有的最大算力终端设备。一辆车有 7 到 11 颗高分辨率摄像头,可以孵化机器人和三维世界行动智能体的基础技术,让这些技术变得高性能、低成本、小型化。当技术孵化充分时,其他应用就变得容易。如果今天直接做机器人,真的太累了,因为好多东西根本没成熟,更别说再早几年。

晚点:2022 年前后,市场上有两种典型论调:一是英伟达做了 30 年芯片,其中自动驾驶芯片从 Parker 到 Orin 多次迭代,后来者怎么超越?二是余凯说,主机厂年销量不到一百万辆就会亏钱。基于这些观点,大家觉得车企自研智驾芯片难度很大,或者第一代芯片就是交学费的。

谢炎:这个逻辑大体没问题,但需要拆开分析问题细节才会看到真相。

比如说量不够,如果是手机芯片的确要很大的量,因为手机芯片很小。但是不要静态去看汽车的 AI,我们在 2022 年就看到汽车的 AI 计算量将来会变得很大。

不要低估计算量需求,技术还在发展,永远需要更多计算量。汽车作为全自动化行动的机器人,需要的计算规模很大,对应的芯片面积也很大。以芯片面积算,汽车比手机高很多。现在一颗 Thor-U 要 800 到 1000 美金。当然,具体价格也与采购规模有关系。

此外,高端车可能需要搭载两颗。所以哪怕不看软硬件协同价值、产品竞争力价值,只看自研芯片节省的采购成本,我认为可以降一半甚至更多。而且这是持续动态发展的,像汽车这种高智能化产品,芯片的成本占比很高。今天高端车要搭载 1600 到 2000 美元的智驾芯片,未来可能到 2500 甚至 3000 美元,成本降一半的规模相当可观,所以不需要搭载一百万辆就足够覆盖芯片研发成本。只要能满足一年销量,就能覆盖好几年芯片研发团队的费用。

另外自己研究、设计之后的效率比较高。如果今年卖的车都部署自研芯片,我们一年省下来的钱就超过三年研发费用,更别说这颗芯片可能要用两年,甚至三年。

晚点:特斯拉 2019 年就量产了自研芯片 Hardware 3.0,后来国内厂商陆续跟进。你当时会觉得这是必然趋势吗?

谢炎:拿手机做类比挺好。头部公司体量足够大,比如手机和汽车,一定会掌握产品里面最核心的部件来保证竞争力。乔布斯说过,不可能我做一个产品,最核心的技术自己没有控制力。这很危险,因为那意味着别人可以很容易地复制你的产品,而你也无法有效掌握产品技术迭代的节奏。如果最核心部分大家都一样,都是高通或 Google,就很难做出真正的差异化。

反过来讲,如果企业有志于成为最头部公司,最核心的部件肯定要掌握。当然也不是什么都要做,比如做汽车没必要做轮胎、钢板,供应商提供就好。但车里的 AI 算力肯定是不断发展的,所以我们要做马赫 M100。

晚点:所以一辆智能电动车最核心的部件就是这颗 AI 芯片?

谢炎:是核心部件之一,因为车本身还有一些可以差异化的部件。决定一个部件是否自研,主要看两个条件:一是它很重要,能决定用户体验差别;二是它能够差异化,因为技术还在高速发展,没有进入平台期。

AI 恰好两者都具备。当我们把汽车看成机器人,AI 一定是决定性因素,这辆车聪明不聪明肯定能看出来。第二,AI 还在高速发展,所以一定要投入,因为你可以靠自己的掌控力快速和别人拉开差距,而如果靠供应商就只能听天由命。

我一位同事以前在苹果。苹果自研芯片起初用的是 Arm 的 IP 核,想改进某些部分提高效率,但 Arm 说不能改,因为它要满足所有客户的需求。Arm 已经是很强的 IP 供应商,但它要成为所有客户的最大公约数,不会为最强的公司定制产品。即使它愿意定制,时间成本也会很高且效率低。所以苹果后来只买 Arm 的指令集授权,IP 全是自己设计。现在苹果核比世界上任何 Arm 核效率都高,因为可以完全适配自己的操作系统和应用需求,提供别人无法提供的性能。

晚点:有点像 Alan Kay(美国计算机科学家) 讲到的,“你如果真正认真对待你的软件,就要自己做硬件。”

谢炎:对,这句话很经典。我最早在英特尔做编译器、操作系统等底层软件,它们和处理器等硬件是直接配合的。如果你仔细看底层软件和处理器架构的设计,它们是围绕一套统一的架构思想联合设计起来的。当然,经过几十年发展,软件和硬件之间的界限已并非与大多数人理解的那样泾渭分明。

现在计算机系统的底层逻辑在 1950 年代出现,70 年之后,第一次遇到了真正意义上的巨变——从以符号逻辑为基础,转向以概率论和深度神经网络为基础。那么,整个计算机架构,包括硬件、软件和操作系统,都有必要围绕新的基础进行大范围重构,来有效支撑需求的爆发式增长。2022 年我来公司时就和技术团队说,这是所有计算机系统从业者 70 年一遇的机会。

要掌握自研芯片核心的 For AI 部分,不做小芯片试水

晚点:你加入理想时,自研芯片团队是什么状况?

谢炎:当时芯片团队只有两个员工,不到一个月就走了一个。剩下那个员工问我 “公司已经决定做芯片,但要怎么做?” 当时蔚小理都在做,而且其他两家比我们早,团队的想法是先做颗小芯片试水。

我第一反应是没必要,因为我们不是为了证明有能力做芯片而做芯片。我们应该直接从这个时代,汽车芯片上最重要的问题入手,那就是 AI 推理计算。不要畏惧没人、没经验。这些都不关键,唯一关键的就是战略目标的正确性。

我们最终确定:自研的目标是在量产时超越同期最强大的英伟达芯片。这个决定很重要。真正有意义的就是围绕这个时代的主题,做一颗足够强的 AI 芯片。

晚点:你们启动自研时设定的性能目标是什么?现在达到了吗?

谢炎:单纯证明能做芯片不是我们的目标,毕竟很多公司都可以把英伟达架构或 Google 第一代 TPU 进行某种克隆,有脉动阵列,加处理器,再加 GPU 就能做出来。但这不是我们的选择。我们不是因为要追求原创,而是要确保这颗芯片能帮助理想在 AI 时代技术领先。

我们当时定义的目标是:一半成本、两倍性能,也就是四倍效能。实际算力会更高,因为 GPU 当时基本是 20%-30% 的执行效率,这由它的架构天生决定,可能最多优化到 40%,再往上就很难。我们目标是达到 50%-60% 的执行效率。今天看来基本做到了,马赫 M100 的实际算力是英伟达的 3 倍,成本还比它低。

今天看马赫 M100 芯片,我们很自豪,这是中国第一款完全原创设计的 AI 芯片,采用了非主流但更适合 AI 的数据流架构。

晚点:四倍效能对标英伟达,当时指的是 Thor 还是 Orin,包括中间还有过 Atlan?

谢炎:我们当时瞄准的目标是 Orin-X,但今天看来,马赫 M100 的实际算力是 Thor-U 的 3 倍。



马赫 M100 的架构示意图。来源:理想汽车论文 “M100:An Orchestrated Dataflow Architecture Powering General AI Computing”。

晚点:马赫 M100 芯片当中哪个地方不能被 Trade off(取舍),哪些地方可以?

谢炎:核心中的核心是 for AI 的那部分,要完全掌握在自己手上。有公司去买 NPU 核,那还不如不自研,直接买芯片就好——AI 部分都不掌握,等于做芯片不掌握任何东西。所以 AI 的 NPU 核一定要自己设计,而且得完全知道为什么这样设计,上面的编译器、软件、模型都要能垂直整合。相对来说,CPU 核因为不在 AI 推理计算中占据主导,发展速度也比较平缓,可以不作为前期重点投入的方向。

晚点:这也是你们在 2022 年定下来的?

谢炎:对,非常清晰,从来没有动摇过。很多人说,为什么理想自己不搞一个 CPU,因为没必要。

晚点:当初定义芯片时哪些判断今天看起来挺准的,哪些又导致你们得在软件上做更好?

谢炎:软件上肯定需要做一些工作,比如某块本地内存到底需要多大容量才能发挥最大效能,这需要软件和模型一起适配。我们大部分判断是对的,如果说当年还可以做得更好,也许还可以更激进一点。2022 年时我们已经超出所有自动驾驶团队的判断,大家都说 Orin-X 已经比较充足了,而我们的设计目标是大家需求上限的 2 倍。即使这样,今年来看还是偏保守。

晚点:“激进” 指哪些参数?

谢炎:就是我们需要更大效能、更大算力。我非常相信未来需要更大算力,只是以什么成本获得。如果成本能基本保持不变,肯定是算力越多越好。

更别提我们除了智驾外,还要把 L9 Livis 打造成智能机器人。现在我们好多能力都要算力,而且要的还不少。一辆车有 11 颗 “眼睛”,除了自动驾驶,它还要能够理解你,帮你干活,甚至未来我们可能会在车内装个机械臂帮你拎东西。

类似的需求都需要足够强大的本地算力,因为云端算力会受无线连接的影响。你并不希望你的物理智能体时灵时不灵,也不希望它工作时的响应速度时快时慢。

从这个角度讲,算力将是一辆汽车的核心。汽车再往下发展,开得更快没必要,除非它能飞起来。续航也差不多了,那就需要它更像一个机器人,既当司机又能帮你干活。像想哥说的,帮你接孩子、接朋友。你说帮我洗个车,它自己就去了,还能跟人交流。

晚点:定义芯片时,智驾团队更了解当前算法和量产节奏,芯片和操作系统团队则要提前看三四年后的需求。不同团队对技术演进的判断不完全一样,你们怎么平衡这些意见?

谢炎:我们参考了智驾团队的输入,但底层技术研发周期长,所以我们还是要强迫自己看得再远一点,不然三四年后出来的产品可能落伍或者匹配不上新的算法需求。这里是不同团队看待问题的不同角度。

晚点:当时无论端到端还是 VLA,今天大家谈论比较多的智驾术语还没成为主流。

谢炎:不需要这些术语成为主流,要相信系统需要更多参数来学会人类驾驶习惯。这是肯定的。

晚点:如果能重新来一次,你们会在算力上做到什么水平?包括内存带宽、PCIe(芯片互连)等。

谢炎:互联的能力可以做得更高一点。当时觉得单芯片的设计算力已经很高,所以没有设计 PCIe 支持。但今天看来还是不够。不过我们也通过操作系统的互联技术手段,达到了互联带宽需求。这也是一个掌握技术全栈后带来的价值。

晚点:你们确定采用数据流架构时,芯片团队有多大规模?

谢炎:不多,我们初期有很长时间是二三十人。

晚点:业界有种说法,“一个完整建制的芯片团队应该在 600 人左右。” 你们现在大概多少人?后续还要增加吗?

谢炎:我们目前大约 200 人。有时候我觉得人多不一定是好事,人少一点更团结、效率更高。这又不是打群架,人多就好。人数和单位效率在一定规模以上是成反比的。而且我们有模型团队、操作系统团队,大家协同起来效率非常高,不是所有东西都要芯片团队自己干。

晚点:芯片团队的成员主要来自哪些地方?

谢炎:各个公司都有,也有很多校招。我们没有针对性地找哪个公司的人,只要能力够强,我们就招过来。大家形成战斗力就行,没必要挖整建制的人,那对其他公司也不好。

晚点:要高薪挖他们吗?

谢炎:理想的薪酬不低,但这值得,好的人还是值得好的薪酬。更重要的是,我们这里干的事情应该算业界很先进的。在中国很先进,可能在整个世界也不算差。

晚点:你们的薪酬高于行业平均水平?

谢炎:对。

晚点:定义这颗芯片时,各种参数优先级怎么确定?

谢炎:参数不是先定的。定义芯片最重要的是先理解要解决的问题,比如我们要在自动驾驶或 AI 任务上超越业界最领先的厂商。然后是量化的分析任务的计算特征,包括数据吞吐、计算密度等。因为芯片最终是为跑任务服务的,如果没有深刻理解任务,芯片做出来再去适配会适得其反。

所以,我们一开始花了半年分析计算特征,第二步是理解如何设计数据流架构,最后才是定义所谓的参数,比如总线带宽、多少个 Tile、多少 TOPS、计算单元互联带宽、I/O 接口带宽、CPU 数量、CPU 和 NPU 之间的交换带宽等。

我们不像大部分公司那样,把已经做好的芯片参数拿过来,然后这儿加一点、那儿减一点。一是因为上面说的原因,二是我们用全新架构,不可能拿英伟达的参数来改。

晚点:分析计算特征用了半年,大家一起 Co-Design 也是发生在这半年吗?

谢炎:时间会更长,Co-Design 分几个阶段。

首先,定义芯片时要大家一起定义,这非常重要。设计过程中可能有新认知,也需要大家一起讨论。因为实现功能时你会发现,比如要达到某个带宽,如果绕线密度太高就需要妥协,少绕一点;反过来讲,算法团队要看能否通过软件方法弥补。这需要软件、算法、编译、硬件团队大量协同设计。

其次,芯片回来后硬件已经无法修改,所以模型设计要对硬件特性扬长避短。软件如模型形状、参数形状可以匹配硬件特性:硬件在哪些形状上效率最高,我们就匹配哪些形状。

所以前期是硬件瞄着模型做,芯片回来后是模型、编译一起想办法瞄着硬件做。芯片供应商很难这么紧密协作。如果拆成几家公司去做,可以做到优秀,但做不到杰出和卓越。

晚点:哪些人会参与讨论?

谢炎:很多人参与讨论,这也是我们跟其他公司很不一样的地方。在其他厂商,做芯片的做芯片,做模型的做模型,做软件的做软件、做编译的做编译,互相之间不通。我们在开始设计时就把这些团队都拉到一起,因为最终是要为 Workload 服务,让这颗芯片在跑 AI 计算任务时更快。

所以比较关键的有做模型的人、算法的人,有做编译器、软件的人,以及硬件架构师。甚至还有后端的人,他们要去看在某个工艺上能不能达到我们要求的计算吞吐、数据搬运延时、带宽等指标。做产品定义时大家能坐到一起设计,这是我们当时作为一家规模不大公司的好处。

李安琪对本文亦有贡献

题图来源:理想汽车

注释:

[1] 冯·诺依曼架构:由数学家冯·诺依曼在 1945 年提出的计算机架构,被现代绝大多数计算机采用。其核心特点是指令和数据存在同一存储器中,CPU 按顺序执行指令。

[2] 数据流架构:一种计算架构,1970 年代由 MIT 的 Jack B. Dennis、Arvind、高光荣等人提出。其特点是当操作所需的输入数据准备就绪,操作会自动执行计算。

[3] 内存:计算机用于存储数据和程序的硬件组件,也称为主存储器或随机存取存储器。处理器可以快速读写内存中的数据,是计算机运行程序和处理数据的重要部件。

[4] 缓存:位于处理器和主内存之间的高速存储器,用于临时存储频繁访问的数据和指令,减少处理器等待数据的时间,提高整体性能。

[5] 内存带宽:单位时间内,内存与处理器之间可以传输的数据量,通常以 GB/s 为单位。带宽越高,数据传输速度越快。

[6] 低精度推理:使用较少位数(如 8 位、4 位)表示模型参数和计算,相比传统 32 位浮点数可显著降低计算量和内存占用,同时保持相对较好的模型性能。

[7]DDR:Double Data Rate 的缩写,即双倍数据速率,是一种内存技术标准。DDR 内存在时钟信号的上升沿和下降沿都能传输数据,相比传统内存速度更快。

[8]CNN:Convolutional Neural Network 的缩写,即卷积神经网络,一种深度学习模型,适合处理图像数据,通过卷积层提取特征。

[9]Transformer:一种基于注意力机制的神经网络架构,最初用于自然语言处理,现已广泛应用于计算机视觉等领域,是 ChatGPT 等大模型的基础架构。

[10]PCIe:Peripheral Component Interconnect Express 的缩写,即高速串行计算机扩展总线标准,用于连接主板上的各种硬件组件,如显卡、存储设备等。

[11]NPU:Neural Processing Unit 的缩写,即神经处理单元,专门为人工智能和机器学习计算设计的处理器,相比通用处理器在 AI 任务上更高效。

[12]GPGPU:General-Purpose computing on Graphics Processing Units 的缩写,即通用图形处理器计算,指将原本用于图形渲染的 GPU 用于通用计算任务。

[13]SoC:System on Chip 的缩写,即片上系统,将完整计算机系统的主要组件集成在单个芯片上,包括处理器、内存、输入输出接口等。

[14]ASIC:Application-Specific Integrated Circuit 的缩写,即专用集成电路,为特定应用而设计的定制芯片,相比通用芯片在特定任务上性能更优、功耗更低。

[15]PU:Processing Unit 的缩写,即处理单元的通用称呼,可以指 CPU、GPU、NPU 等各种类型的处理器。

[16]Chiplet:芯粒技术,将原本集成在单个大芯片上的不同功能模块分解为多个小芯片,再通过先进封装技术连接,可以提高良率、降低成本。

[17]Hardware 3.0:特斯拉搭载的第三代自动驾驶硬件,包含两颗自研的 FSD 芯片,专为自动驾驶计算优化设计。

[18]IP:Intellectual Property 的缩写,在芯片设计中指可重用的设计模块,如 CPU 核心、内存控制器等,厂商可以购买 IP 来加速芯片开发。

[19]Debug:调试,指在软件或硬件开发过程中发现、定位和修复错误的过程,是确保系统正常运行的环节。

[20]CUDA:Compute Unified Device Architecture 的缩写,英伟达开发的并行计算平台和编程模型,允许开发者使用 GPU 做通用计算。

相关推荐

消息称理想AI研发组织架构调整:陈伟任基座模型负责人,向CTO谢炎汇报
转型 AI 公司后,理想交出首份成绩单
36氪独家 | 阿里AliOS和斑马重组后,首席架构师谢炎离职
理想汽车算力平台VP许迎春离职 职级M10
理想汽车重组研发架构,自动驾驶团队并入软件本体
对谈清华教授汪玉:为什么数据流架构适用智驾芯片?
理想汽车重组研发体系,自动驾驶团队被拆分
AI 如何成为理想一号工程
华为不造车:鸿蒙的首次体验也许是在智能汽车上
理想本轮战略与组织调整接近尾声,将迎战新产品周期

网址: 对谈理想CTO谢炎:AI时代需要新的计算架构,我想在汽车上试出来 http://www.xishuta.cn/newsview149519.html

所属分类:人工智能

推荐科技快讯