Agent运行提速10倍!斯坦福教授押注异构推理,破解AI推理瓶颈
过去两年,我们已经习惯了与大模型对谈,但 AI 的进化并未止步于此。现在,行业正集体转向一个更具野心的目标——AI Agent。不同于只会见招拆招的聊天机器人,AI Agent 更像是一个拥有自主行动能力的“数字员工”:它会自主上网搜集情报、多维分析海量数据、甚至跨平台调用各种专业工具完成复杂的业务闭环。
但问题来了,在一次完整的执行流中,Agent 会产生海量的计算步骤,且各环节对硬件的需求存在本质差异:逻辑推理阶段依赖极速计算,知识检索阶段渴求高带宽存储,而工具调用则对网络 I/O 的响应时延有着近乎苛刻的要求。
这种复杂的、多阶段的任务特性,导致了当前算力架构中一个极其尴尬的悖论:由于缺乏精细化的调度能力,开发者往往只能将所有任务都扔到同一种硬件(通常是高端 GPU)上跑,而硬件性能与任务需求其实并不匹配。
据统计,目前全球数据中心硬件的平均利用率仅维持在 15%-30% 之间。这意味着,在 AI 浪潮狂热扩张的背后,每年有价值数百亿美元的算力资源正处于隐性的闲置与浪费之中。
为了打破这种桎梏,一个被视为下一代 AI 基础设施核心的理念——“异构推理”应运而生。异构推理就是让 AI 在推理时,不再只盯着一种芯片使劲,而是根据任务的不同需求,把工作拆开,分给最适合的多种硬件去协同完成。
权威 IT 研究与顾问咨询公司 Gartner 预测,到 2028 年,40% 的领先企业会采用混合计算架构,把 CPU、GPU、ASIC、甚至不同代际的芯片混在一起用。同时,2026 年全球 AI 基础设施支出预计将达到约 1.36 万亿美元,推理部分占比正快速超过训练,成为 AI 计算的主战场。
近日,总部位于美国旧金山的 AI 基础设施初创公司 Gimlet Labs 宣布完成 8,000 万美元 A 轮融资。此轮由知名风投 Menlo Ventures 领投,至此,该公司累计融资达到 9,200 万美元。
天使投资人包括红杉资本的合伙人比尔·科夫兰(Bill Coughran)、斯坦福大学教授及网络专家尼克·麦基翁(Nick McKeown)、VMware 前首席执行官拉古·拉古拉姆(Raghu Raghuram)以及英特尔首席执行官陈立武(Lip-Bu Tan)。值得注意的是,英特尔前首席技术与人工智能官 Sachin Katti(萨钦·卡蒂)参与其中,担任 Gimlet 的顾问,他曾与创始人兼首席执行官 Zain Asgar(扎因·阿斯加)在斯坦福共同授课并合作相关研究。
Gimlet 针对上述问题推出了一个无服务器的 AI 推理云平台 Gimlet Cloud。它就像是一个聪明的“云端指挥部”,会自动将复杂的 AI Agent 工作拆解成很多环节,然后根据每个环节的需求,精准地分配给最合适的硬件。比如计算重的用高端 GPU,内存重的找加速器,联网重的用带快网的机器。甚至能把英伟达、AMD、英特尔、ARM 等不同厂商、不同代际的芯片混在一起协同工作。
根据 Gimlet 官方披露的数据,这种异构调度方式能让同样的 AI Agent 在不增加电费和硬件投入的情况下,运行速度提升 3 到 10 倍,显著降低每 token 成本,同时解锁原本闲置的老旧算力。
为了让模型在各种新旧、不同品牌的芯片上都能丝滑运行,Gimlet 还开发了一款工具 kforge,它能用 AI 自己帮模型写出最优的底层代码,让不同硬件自动跑得更顺,省掉程序员大量手动调试的功夫。
正如阿斯加所言,“我们的目标基本上是设法将当今 AI 工作负载的效率提升 10 倍。”
阿斯加是斯坦福大学的兼职教授,曾在英伟达担任 GPU 架构师、在谷歌担任软件工程师。他与其他三位联合创始人曾共同创办了知名可观测性平台 Pixie Labs,后被 New Relic 收购。而就在被收购的两个月前,该公司刚刚完成了由 Benchmark 领投的 900 万美元 A 轮融资。

图 | 创始团队(来源:
Gimlet )
在宣布融资的同时,Gimlet 还透露,公司目前营收已达八位数,自结束隐身模式以来客户群增长了两倍,其客户群在过去四个月内增长了一倍以上,目前包括一家顶尖的前沿模型实验室和一家超大规模云服务商,但并未透露两家公司的名称。
此外,该公司还与包括 AMD、ARM、Cerebras、d-Matrix、英特尔和英伟达在内的领先人工智能芯片公司开展合作。
参考链接:
1.https://gimletlabs.ai/blog/announcing-series-a
2.https://www.gartner.com/en/newsroom/press-releases/2025-10-20-gartner-identifies-the-top-strategic-technology-trends-for-2026
运营/排版:何晨龙
发布于:北京
相关推荐
Agent运行提速10倍!斯坦福教授押注异构推理,破解AI推理瓶颈
英伟达的“神秘芯片”背后--推理时代开启“四大算力新趋势”
微软发布第二代AI推理芯片Maia 200
打破瓶颈,让RAG学会思考:中科大、智源等发布推理检索框架BGE-Reasoner
阶跃发布会划重点:全新基模推理效率可达DeepSeek 300%、芯片大佬站台、神秘资方签约
第四范式陈雨强:推理周期来临,中国AI企业迎来新机遇
每Token成本显著降低 华为发布UCM技术破解AI推理难题
史上最快AI芯片Sohu,推理性能超B200十倍
Akamai部署数千Nvidia Blackwell GPU打造分布式AI推理基础设施
模型推理推动算力需求百倍增长,国产厂商如何进行AI基建?
网址: Agent运行提速10倍!斯坦福教授押注异构推理,破解AI推理瓶颈 http://www.xishuta.cn/newsview148134.html
推荐科技快讯
- 1问界商标转让释放信号:赛力斯 95792
- 2报告:抖音海外版下载量突破1 25736
- 3人类唯一的出路:变成人工智能 25175
- 4人类唯一的出路: 变成人工智 24611
- 5移动办公如何高效?谷歌研究了 24309
- 6华为 nova14深度评测: 13155
- 7滴滴出行被投诉价格操纵,网约 11888
- 82023年起,银行存取款迎来 10774
- 9五一来了,大数据杀熟又想来, 9794
- 10手机中存在一个监听开关,你关 9519
