格灵申请基于语音的人像视频生成专利，能够精准生成音画同步的数字人视频 | 新浪语音

金融界2025年1月28日消息，国家知识产权局信息显示，深圳市格灵人工智能与机器人研究院有限公司申请一项名为“基于语音的人像视频生成方法和装置、设备及存储介质”的专利，公开号CN 119359867 A，申请日期为2024年9月。

专利摘要显示，本申请实施例提供了一种基于语音的人像视频生成方法和装置、设备及存储介质，属于人工智能技术领域。该方法包括：获取目标人像的样本人像图像和样本语音数据；对样本人像图像进行人像特征提取，得到样本人像特征信息；将样本语音数据和样本人像特征信息进行对齐处理，得到语音人像对齐信息；根据语音人像对齐信息和样本人像图像对预设人像视频帧生成模型进行参数优化，得到目标人像视频帧生成模型；获取目标语音数据，并通过目标人像视频帧生成模型、目标语音数据和样本人像特征信息进行人像视频帧生成，得到目标人脸视频帧；将目标语音数据和目标人脸视频帧进行音像拼接，得到目标人像语音视频。本申请实施例能够精准生成音画同步的数字人视频。

天眼查资料显示，深圳市格灵人工智能与机器人研究院有限公司，成立于2018年，位于深圳市，是一家以从事软件和信息技术服务业为主的企业。企业注册资本10000万人民币，实缴资本3500万人民币。通过天眼查大数据分析，深圳市格灵人工智能与机器人研究院有限公司共对外投资了1家企业，参与招投标项目3次，专利信息27条，此外企业还拥有行政许可5个。

【智能硬件】TTS语音播报控制器：联动控制+音频定时，4通道独立播报

4路TTS语音播报控制器是一种能够将文本信息转换为语音并进行播报的电子设备，具备4路相关控制功能。通常集成有RS485通讯接口，遵循Modbus通信协议，支持设备地址0 - 254更改，支持固定波特率通信，方便与其他设备进行连接和数据传输...

北斗连天地，AI传心声：中国电信首创北斗语音消息

中国电信基于北斗短报文通道，融合AI能力，以自主专利技术实现了北斗语音消息能力。北斗语音消息：技术突破与创新语音消息并非传统短信或语音通话，而是依托我国自主建设的北斗卫星系统，通过自研AI语音编解码算法，将语音内容高效压缩为极少量数据...