C视频·唐探经济圈丨AI实时语音功能“断崖式”提升？到底啥是“端到端” | 新浪语音

四川在线记者唐泽文文/视频

1月20日，豆包APP更新实时语音通话功能。

该功能基于最新实时语音大模型，使得其中文场景的对话能力在语音真实感和“喜怒哀乐”的情绪表现上，有点“断崖式”提升的味道。记者实测了一下，真有点“人机难辨”的效果。

这是怎么做到的？

记者仔细翻阅了这次升级的具体技术解释。豆包的制作方火山引擎给出的答案是：将传统对话任务系统的“级联模式”，改为了“端到端”模式。

回看去年一整年的全球人工智能发展，“端到端”都是一个热词。特斯拉、华为等都在向这个方向靠拢。

到底什么是“端到端”？我直接把这个问题丢给了豆包。

它给出的答案是：端到端大模型直接把输入变成输出。它省了中间步骤，处理快，效果好，但也更复杂，需要大量数据训练。

说得更易懂一些，以语音模型为例，传统的处理方式是：语音处理，需要先经过语音转文字，再把文字输入给大模型，大模型处理完毕返回文字，再由转化系统把文字转为语音返回给用户。

这种传统“级联模式”的好处是技术门槛和成本都更低。但弊端也明显，几个模块联动处理，延迟高，能力弱。

而“端到端”则是大模型能直接听懂语音输入，并直接进行语音输出。这意味着它不仅能听懂你说的文字，还能听懂你的语气、语调，甚至还能以此判断出你话语的弦外之音、言外之意。用火山引擎自己的话来说，这让AI语音对话“有神”了。

特斯拉和华为为什么也向“端到端”靠拢？

自动驾驶是多模块协作方式，其包括路况采集、自动化分析、做出决策，执行决策等过程。自动驾驶系统需要大量时间做出响应。

改为“端到端”，就可直接采集路况数据、做出决策，省略中间各类处理流程，大幅提升系统的灵敏度和安全性。要知道，自动驾驶的响应要求是毫秒级，快速响应是评判其能力的最核心要素之一。

目前看，“端到端”在国内已成为大模型发展的一个主攻方向。除上述企业外，腾讯、小米、科大讯飞、商汤科技等，都在更强AI算力支持下，开发自己领域的“端到端”大模型。

今后，说话“有神”且反应更灵敏的大模型应用，在我们身边将变得越来越常见。

【智能硬件】TTS语音播报控制器：联动控制+音频定时，4通道独立播报

4路TTS语音播报控制器是一种能够将文本信息转换为语音并进行播报的电子设备，具备4路相关控制功能。通常集成有RS485通讯接口，遵循Modbus通信协议，支持设备地址0 - 254更改，支持固定波特率通信，方便与其他设备进行连接和数据传输...

北斗连天地，AI传心声：中国电信首创北斗语音消息

中国电信基于北斗短报文通道，融合AI能力，以自主专利技术实现了北斗语音消息能力。北斗语音消息：技术突破与创新语音消息并非传统短信或语音通话，而是依托我国自主建设的北斗卫星系统，通过自研AI语音编解码算法，将语音内容高效压缩为极少量数据...