四川在线记者 唐泽文 文/视频
1月20日,豆包APP更新实时语音通话功能。
该功能基于最新实时语音大模型,使得其中文场景的对话能力在语音真实感和“喜怒哀乐”的情绪表现上,有点“断崖式”提升的味道。记者实测了一下,真有点“人机难辨”的效果。
这是怎么做到的?
记者仔细翻阅了这次升级的具体技术解释。豆包的制作方火山引擎给出的答案是:将传统对话任务系统的“级联模式”,改为了“端到端”模式。
回看去年一整年的全球人工智能发展,“端到端”都是一个热词。特斯拉、华为等都在向这个方向靠拢。
到底什么是“端到端”?我直接把这个问题丢给了豆包。
它给出的答案是:端到端大模型直接把输入变成输出。它省了中间步骤,处理快,效果好,但也更复杂,需要大量数据训练。
说得更易懂一些,以语音模型为例,传统的处理方式是:语音处理,需要先经过语音转文字,再把文字输入给大模型,大模型处理完毕返回文字,再由转化系统把文字转为语音返回给用户。
这种传统“级联模式”的好处是技术门槛和成本都更低。但弊端也明显,几个模块联动处理,延迟高,能力弱。
而“端到端”则是大模型能直接听懂语音输入,并直接进行语音输出。这意味着它不仅能听懂你说的文字,还能听懂你的语气、语调,甚至还能以此判断出你话语的弦外之音、言外之意。用火山引擎自己的话来说,这让AI语音对话“有神”了。
特斯拉和华为为什么也向“端到端”靠拢?
自动驾驶是多模块协作方式,其包括路况采集、自动化分析、做出决策,执行决策等过程。自动驾驶系统需要大量时间做出响应。
改为“端到端”,就可直接采集路况数据、做出决策,省略中间各类处理流程,大幅提升系统的灵敏度和安全性。要知道,自动驾驶的响应要求是毫秒级,快速响应是评判其能力的最核心要素之一。
目前看,“端到端”在国内已成为大模型发展的一个主攻方向。除上述企业外,腾讯、小米、科大讯飞、商汤科技等,都在更强AI算力支持下,开发自己领域的“端到端”大模型。
今后,说话“有神”且反应更灵敏的大模型应用,在我们身边将变得越来越常见。