C视频·唐探经济圈丨AI实时语音功能“断崖式”提升?到底啥是“端到端”

来源:sina.com.cn 发布时间:Jan 22, 2025, 3:30:00 AM 原地址:https://t.cj.sina.com.cn/articles/view/1887538377/v70818cc9020016qvm

四川在线记者 唐泽文 文/视频

1月20日,豆包APP更新实时语音通话功能。

该功能基于最新实时语音大模型,使得其中文场景的对话能力在语音真实感和“喜怒哀乐”的情绪表现上,有点“断崖式”提升的味道。记者实测了一下,真有点“人机难辨”的效果。

这是怎么做到的?

记者仔细翻阅了这次升级的具体技术解释。豆包的制作方火山引擎给出的答案是:将传统对话任务系统的“级联模式”,改为了“端到端”模式。

回看去年一整年的全球人工智能发展,“端到端”都是一个热词。特斯拉、华为等都在向这个方向靠拢。

到底什么是“端到端”?我直接把这个问题丢给了豆包。

它给出的答案是:端到端大模型直接把输入变成输出。它省了中间步骤,处理快,效果好,但也更复杂,需要大量数据训练。

说得更易懂一些,以语音模型为例,传统的处理方式是:语音处理,需要先经过语音转文字,再把文字输入给大模型,大模型处理完毕返回文字,再由转化系统把文字转为语音返回给用户。

这种传统“级联模式”的好处是技术门槛和成本都更低。但弊端也明显,几个模块联动处理,延迟高,能力弱。

而“端到端”则是大模型能直接听懂语音输入,并直接进行语音输出。这意味着它不仅能听懂你说的文字,还能听懂你的语气、语调,甚至还能以此判断出你话语的弦外之音、言外之意。用火山引擎自己的话来说,这让AI语音对话“有神”了。

特斯拉和华为为什么也向“端到端”靠拢?

自动驾驶是多模块协作方式,其包括路况采集、自动化分析、做出决策,执行决策等过程。自动驾驶系统需要大量时间做出响应。

改为“端到端”,就可直接采集路况数据、做出决策,省略中间各类处理流程,大幅提升系统的灵敏度和安全性。要知道,自动驾驶的响应要求是毫秒级,快速响应是评判其能力的最核心要素之一。

目前看,“端到端”在国内已成为大模型发展的一个主攻方向。除上述企业外,腾讯、小米、科大讯飞、商汤科技等,都在更强AI算力支持下,开发自己领域的“端到端”大模型。

今后,说话“有神”且反应更灵敏的大模型应用,在我们身边将变得越来越常见。