对话模思智能程沁源:当AI从数字世界进入物理世界,交互技术将被重新定义
当AI不再局限于屏幕与代码,一步步走进真实的物理世界,传统人机交互模式必然将迎来新的变革。多模态是AI连接物理世界的核心入口,而语音更是人机交互的关键载体。本期播客对话模思智能CTO程沁源,他结合技术研发、产品落地与创业实战,剖析当前语音模型的技术壁垒、数据难题与商业化挑战。
程沁源是一位从复旦博士成长为CTO的技术从业者。他在博士的后半程和自己的导师、复旦大学邱锡鹏教授共同创办了模思智能这家公司,沿袭了此前在实验室研发的语言模型MOSS的技术路径,进一步探索下一代人机交互的全新形态。
以下为对话节选,完整对话可点击音频收听播客
对话模思智能CTO程沁源:当AI从数字世界进入物理世界,交互技术将被重新定义。
从博士到语音模型公司的CTO
澎湃科技:其实你博士还没毕业就开始创业了?
程沁源:对,博士的后两年都在创业。因为大模型出现后,博士生或研究生的做事风格也发生了变化。大模型之前,大家可能还在做一些单点式的论文;大模型出来后,更多优秀的博士生会想做一个影响力较大的项目。这种项目通常体现在开源社区的声量较好,或者效果上接近商业模型。这些与创业非常相关——一般需要有创业级别的资源和组织,才能做出有影响力的事。
澎湃科技:MOSS是一个语言模型,但出来创业之后,你们其实把重心先放在了语音模型,为什么会有这样一个转变?
程沁源:其实我们也还在做语言模型相关的事。在实验室那边,语言模型目前更多的重心放在了后训练。
我们创业决定做多模态,是因为我们觉得它是语言模型之后必然的事。当你有一个比较强的 agent,它在网上或者数字环境里能做得比较好时,之后一定会走到真实世界。比如它可能在具身机器人上,或者它还是在电脑里,但它去跟真实世界有更多交互。这样的话,多模态是一个绕不开的东西,或者说是一个必须的接口。我们觉得它是一个必须发生的事。
其次,我们的技术路线其实也能复用我们之前做大模型的很多经验。比如我们的语音还是主要以离散化的方式为主。
澎湃科技:语音模型有哪些是无法复制语言模型的?
程沁源:比如现在大家都知道大模型是用词元去表示它的内容的。语音跟文本不同的是,文本转成词元是相对比较简单的,但语音有一些没有被抽象得很好的信息,比如人的情感,或者语音里面的一些表现力之类,这就考验我们怎么去编码这些文本里面没有见过的,或者文本里面不太存在的这些信息。我会把这类问题叫科学问题,因为它没有一些特别工程化的解法,可能需要你去做实验、提猜想、验证,最后得到一个比较不错的结果,再去规模化地放大它。
语音模型当下和未来的应用场景。(02:56)
从过去到未来,语音模型的变化是什么
澎湃科技:我们通常会认为语音不是一个新鲜事,我们日常也会接触到很多机器人客服,似乎已经很普遍了。你们选择做语音,肯定是发现还有未被解决的问题。那么,这些问题主要是什么?
程沁源:语音确实是一个历史相当悠久的领域,比如一些早期的模型或公司,我们可能将其定义为1.0或2.0时代,它们主要追求把字读对,只需要把字理解对即可。但在此基础上,还需要对语境有所感知。例如,同一句话在不同的上下文中,读法可能不同,它会参考前后的韵律,以及情感。同样一句话,不同的读法可能表达出不同的情感。这种能力是之前的公司所没有的。
为什么没有呢?其实正是因为之前的方案无法进行大模型的训练,或者无法采用在语言模型上比较有效的方式,比如大参数、大数据,甚至包括强化学习这种后训练方式,导致它们无法从海量数据中提取出这种能力。
当语音有了新的能力时,这种新能力也会解锁一些新的场景和需求。参考图像或视频生成,之前大家觉得很多工作无法通过图像生成模型或视频生成模型一次性完成,但现在可以一次性生成非常漂亮的海报或PPT插图。语音也是一样,当你能生成比较复杂的高质量语音内容时,除了之前的应用场景,还会出现一些新需求,比如大家一直想做的短剧配音等。
澎湃科技:你说过去的模型只能把把字读对,但缺少对情绪或停顿的把握,这些问题是可以通过大参数、大数据的训练解决的吗?
程沁源:是的。但是如何把海量数据或大参数量用起来,其实也需要解决一些问题。比如,第一代或第二代模型的架构,天生就无法进行大规模训练。这可能是因为它们本身结构不具备可学习性,以及这种结构是否适合当前先进的GPU等基建。
其实,整个语音领域的训练量也在发生变化。可能从最早的十几个小时,到几百个小时,再到几千个小时,现在大家通常使用百万级别的量级,未来可能还会更多,也会有更精准的数据。之所以能一路把训练量推上去,是因为训练架构也发生了很多变化,使得它可以训练这么多数据,并取得更好的结果。
我觉得可能最终要做得比较拟人化或者韵律比较好的一个解法是scaling,但scaling需要有合适的方式,可能我们现在采用的是最合适的方式。
模思智能的语音模型解法
澎湃科技:你们的方式具体是什么样?
程沁源:我们用离散化的词元来处理。
一般的语音生成模型,它可能不一定要用离散的方式去做。一些比较传统的方式,会直接通过频谱或者让模型去生成波形。但问题在于,这些频谱或波形,对大模型来说,并不特别好学。无论是表示上的结构,还是训练的一些基建,都不是特别好兼容。因此,要想在语音领域也像文本模型那样,通过大参数量、大数据来实现规模化,从而获得更多能力,需要做一些改动或研究的。
我们有一套比较好的技术,可以将语音近乎无损地转化为类似文本词元的形式,这样可以借助大模型的能力,生成更符合人类听感、更拟人的音频。
把音频转化为词元的过程一般需要考虑好几个因素。首先是压缩率,就是你需要一个比较短的词元,不能说一个5秒的音频对应很多 token。其次你需要考虑词元的可学习性,它最好是像文本一样高度抽象化的语音,但同时要保留语音的一些原始特征,比如情感、韵律以及不同的音色。我们是在这几个权衡上做得最好的。
澎湃科技:在你看来,导致音频模型不强的核心原因是什么?数据、算力、算法?
程沁源:我觉得其实数据是最主要的。很多数据还是不太好规模化地收集,包括标注,即便是和视频相比。因为现在视频的需求比较短,大家做视频生成,可能现在最长是15秒,它可能不像音频要应付一个特别长的内容,音频再短也要几分钟了。你要在几分钟的片段里保持一致性,很难。可能你需要将多段拼接起来,但多段拼接有稳定性的问题。
数据标注也很重要,如果只给一个音频,然后你去标一些情绪的力度,现在也没有特别好的理解模型能做这个事。
还有一个重要的事就是评测,没法评测就意味着我们没有抓手,导致优化的方向不确定。在语音合成领域的评测,自动化的评测一直都有点缺失。
到底怎么算韵律好,或者怎么算表现力?其实人一听是能听出来的,但如果你要把它做成一个自动化的评估指标,是比较难的。
澎湃科技:你们觉得你们的模型在哪些方面是有优势的?
程沁源:我们觉得最强的一个就是韵律和音色的相似度。模型可以根据文本大概的语境进行合适的停顿、选择重音或轻音之类的,比如这个文本如果看起来是一个新闻稿,它会以一个新闻的读法去读;如果这个是纪录片文本,或者有一些像广播剧台本,它也会按照适当的风格读。
第二个我们做得最好的是音色的相似度。可能我给模型录一句话,大概十几秒,它就可以学会我的音色,这个一般称之为零样本或少样本的音色克隆。
要做到这些,首先给模型训练的东西必须是无损的,其次我们的架构可以让它更好地以参考音频里的音色、韵律等所有听起来更像一个人的声音,去指导后面的生成。
澎湃科技:你们现在还有哪些没有解决、还在努力解决的问题?
程沁源:一个是模型能力本身的迭代。在我们的想法里,比如以语音生成这个场景为例,它的能力可能是一个金字塔的结构。最底层的,可能就是现在已有的应用,比如一些通话Agent,或者做一些我们常见的网页朗读工具之类。它可能要求就是你能把字比较好地读出来。然后一直往上会有一些更难的需求,最顶层可能就是做一个真正生产级的,比如影视剧的配音,它有一些音效,然后有足够表现力的情感的语音,有不同的说话人,它是一个比较复杂的有交互的语音场景。
还有第二个大类的问题,就是我们在做一些商业化的过程中,会遇到一些个案需要在基模的基础上再做一些调整,譬如方言。
澎湃科技:方言很难,是因为数据不够多还是怎么样?
程沁源:我觉得本质是数据不够多。网上能够洗出来的方言其实很少的。所以这块我觉得可能还需要跟一些方言保护机构去协作起来,把数据量做上来。
其次就是标注。很多方言是没有比较恰当的文本表示的。比如我是西安人,我知道很多陕西话是不好打成文字的,所以你要做一个文本到语音的映射其实比较难。
总体上是互联网上比较多的,就相对好学一点;互联网上不是很多的话,一般是看那个地区的人对标注这件事的意愿程度。譬如江浙沪经济比较发达,愿意做标注的人就相对少一点。
澎湃科技:产品化的过程中还有哪些挑战?
程沁源:我觉得学术研究和创业有点不一样的地方:模型效果好还不够,一定要让更多的人知道你模型效果好。这可能会考验我们在开源社区的运营,以及与开发者生态的协同。
模型提供服务,在学术圈,大家容忍度都很高,但是到了商业化场景,如果不稳定,用户可能就不会再用了。这也考验我们的后端或者现在一般叫“模型即服务”平台的基建能力。我们也在招聘有经验的人去做这件事。
再补充一点,就是有时用户需要的可能是一个比较复杂的能力,而模型提供的是原子能力。比如说,我这个模型可以很好地做音色克隆、韵律还原,并且可以跨语言克隆——比如原句是英语,我把它翻译成中文后,可以做到几乎一样的音色和差不多的韵律,但这个功能很单点,用户也不知道这能干什么。但如果你直接做一个功能,让用户能上传一段完整的访谈视频,用户可以直接使用模型把它转换成一个英文版本,这样的功能才是用户真正需要的。
所以我们往往需要组合我们的原子能力,去组合一些对用户来说更简单、能交付复杂内容的功能。
这里一个很好的例子就是AI编程。我们最早用AI去辅助代码,其实就是复制一个问题,或者我们先写好一个比较粗略的框架,然后粘贴到ChatGPT的聊天框里面,问它这个函数该怎么写,这个库怎么用。这还是有门槛的,用户大部分还是研究者或者工程师。一般人可能都不会下载代码编辑器,是不会做的。但随着AI编程越来越方便,就会有更多人来使用。
澎湃科技:就国内的模型公司而言,你们希望和哪些公司站在一列,希望别人认为你们是一个怎样的公司?
程沁源:我们内部跟大家说,我们就是多模态版的DeepSeek。就全模态这个方向来看,做得最好的是Google。相比文本,国内的多模态能力跟国外差的可能还更多一点。所以说我们其实想成为像Google那样的公司,全模态协同起来进步。
澎湃科技:模思目前已经发布了哪些产品?
程沁源:我们目前发的模型里面,基本上是都开源的,有一些闭源的模型,主要集中在音频的理解和生成上。
视频理解方面,我们想做流式的长视频的实时交互。传统视频模型的回复是基于轮次的,流式的话,会根据视觉的变化去及时给反馈。它输出文本的时候,也不断地在接收视频流,一旦视频发生变化,他可以立刻调整输出的内容,是一个非常灵敏的交互方式。这个功能是现有的模型是做的不太好的。
理解模型方面,我们发布了一个底座叫 MOSS VL,它做一些基础的视频理解任务或图像理解任务。
AI的快速迭代对AI从业人员的影响
澎湃科技:你觉得现在AI行业卷吗?
程沁源:客观来说是挺卷的,现在我觉得干别的事就是有点浪费时间。理论上它需要你投入比较多的时间和精力,因为目前很多大模型的训练是一个持续性很强的事。你要考虑比较多的东西,新的技术、新的场景、新的应用。所以可能不是卷,而是它就需要这么多时间。我们现在大概是早上10点到晚上10点差不多。有些算法侧的人可能会更投入。所以它是一个需要热情的事。
澎湃科技:和以前在复旦的实验室工作相比,创业对你来说心态上有什么比较大的变化?
程沁源:我觉得最大的变化是我现在可能合作的人比较多,对我来说最难的事是我学会了跟比我更优秀的人合作。在学校里面,我难免会觉得我一定要争一争,会比谁的成果或者谁的项目能怎么样。但是对于团队来说,其实你要适应比你强很多的人跟你在一起工作,甚至你需要把这个可能比你强的人组织得比较好,才是对整个项目最好的。
澎湃科技:在带团队上面会有一些自己的方法吗?
程沁源:其实也是在摸索,大体上我们会尊重比较多的意见,然后通过实验数据来说话。我最近在确保的一件事是,每个人能拿到他在做的事情的反馈,这样他能知道怎么去迭代他的那个环节。比如说这个人做数据的,然后们模型可能还没开始训练,那他怎么知道这数据好不好?这个其实是要想想,帮他找出一个解决方案,让他能够及时得到反馈。
澎湃科技:那AI的快速发展,对于你们做AI的人来说有什么影响吗?
程沁源:我直观的感受就是,能力强的人变得更强了,精力好的人也会变得更强,因为他们可能AI用得比较好,并且也能够判断AI到底有没有问题。这个差别还真是挺明显的。比如说有的人可以让Codex去工作三四天,然后交付一个任务,有的人就不行。总体上我觉得,每个人学新东西的门槛会更低了。
我其实也在探索什么人AI用得比较好。总体上我觉得,可能还是有责任心、本身比较靠谱的人AI用得比较好。因为他交付的结果比较靠谱,而本身不是这种性格的人,他的AI问题会比较大。
澎湃科技:你们在招人的时候比较偏向于招什么样的人?
程沁源:我们主要是招年轻人。我们有很多本科实习生、硕士实习生。
首先,我们比较看重的1个特质是:靠谱。我们定义的靠谱,是指他能对自己做的事负责,包括在中间阶段能不断给出明确的信息,让别人感知到他当前的状态。很多人习惯把一个事拖到最后,可能前中期不好意思说,导致最后这个事总体没干成。我们提倡:如果一个事卡住15分钟,就要及时寻求帮助,不要让这个事默默地被卡住,不行就及时调整。
还有一个要求是得比较AI native,就是AI工具用得比较好,但这个相对比较容易达到,我们可以通过我们组织的去培养。
另外,我们希望招一些追求自身影响力的人。我们不是特别优绩主义或者强调背景,我们更看重他有没有独立干过一些事,比如细致地看过一些比较前沿的工程框架。这一类同学其实还是比较少的。
澎湃科技:会有专业限制吗?
程沁源:本科生的专业其实不太会有限制。我们会非常严肃地去看他对AI这个事的投入程度。如果他真的是把它当成一个事业的话,我们愿意给他机会去成长。
我们做评测管线的一些同学,来自复旦的语言学专业或者翻译专业。音视频评测需要影视专业甚至导演专业。还有一些文科转码的同学就更厉害了,他就直接写代码,完全不做他本专业相关的事。
澎湃科技:对于年轻学生有什么建议?
程沁源:我觉得本科生都很强了,他们现在基本上都是人手一个 Code Agent 了。所以我觉得,我其实没想出什么特别好的建议,就感觉确实变化太大了。如果现在让我回到大一,我也不知道该怎么规划。因为很多像我们之前头疼的大作业、编程之类的,现在AI都能做。所以可能需要一些新的方式去规划成长路线,但这个我也没经历过,所以我觉得可能用好AI是比较关键的。另外就是把评价体系尽早地修正到更下游的任务点上,比如对AI行业的人来说,可以尽早参与一些研究或有影响力的开源项目。
澎湃科技:对未来5-10年有什么想法吗?
程沁源:我对自己不太有想法,对模型比较有想法,我们就是要把全模态互相协同这件事做好,然后一个个地把多模态领域啃下来,最终让它走入真实世界。
发布于:上海
相关推荐
对话模思智能程沁源:当AI从数字世界进入物理世界,交互技术将被重新定义
DeepMind CEO定义世界模型标准:不仅理解物理世界,还能创造它
京东方跨界对话显示技术升级为智能交互中枢
当AI进入物理世界,为何车企和机器人公司选择继续拥抱阿里云
人工智能改变物理世界
“空间智能将像云计算一样,成为人类与物理世界交互的标配”
从世界数字大脑形成看元宇宙未来趋势
多模人车交互,智能汽车的AI感知进化
世界太小,不够世界模型们用了
OriginOS6,系统即世界
网址: 对话模思智能程沁源:当AI从数字世界进入物理世界,交互技术将被重新定义 https://www.xishuta.cn/newsview150386.html
推荐科技快讯
- 1问界商标转让释放信号:赛力斯 95792
- 2报告:抖音海外版下载量突破1 25736
- 3人类唯一的出路:变成人工智能 25175
- 4人类唯一的出路: 变成人工智 24611
- 5移动办公如何高效?谷歌研究了 24309
- 6华为 nova14深度评测: 13155
- 7滴滴出行被投诉价格操纵,网约 11888
- 82023年起,银行存取款迎来 10774
- 9五一来了,大数据杀熟又想来, 9794
- 10手机中存在一个监听开关,你关 9519
