格灵申请基于语音的人像视频生成专利,能够精准生成音画同步的数字人视频

来源:sina.com.cn 发布时间:Jan 28, 2025, 4:32:00 AM 原地址:https://t.cj.sina.com.cn/articles/view/1829577443/6d0d22e30200255kk

金融界2025年1月28日消息,国家知识产权局信息显示,深圳市格灵人工智能与机器人研究院有限公司申请一项名为“基于语音的人像视频生成方法和装置、设备及存储介质”的专利,公开号CN 119359867 A,申请日期为2024年9月。

专利摘要显示,本申请实施例提供了一种基于语音的人像视频生成方法和装置、设备及存储介质,属于人工智能技术领域。该方法包括:获取目标人像的样本人像图像和样本语音数据;对样本人像图像进行人像特征提取,得到样本人像特征信息;将样本语音数据和样本人像特征信息进行对齐处理,得到语音人像对齐信息;根据语音人像对齐信息和样本人像图像对预设人像视频帧生成模型进行参数优化,得到目标人像视频帧生成模型;获取目标语音数据,并通过目标人像视频帧生成模型、目标语音数据和样本人像特征信息进行人像视频帧生成,得到目标人脸视频帧;将目标语音数据和目标人脸视频帧进行音像拼接,得到目标人像语音视频。本申请实施例能够精准生成音画同步的数字人视频。

天眼查资料显示,深圳市格灵人工智能与机器人研究院有限公司,成立于2018年,位于深圳市,是一家以从事软件和信息技术服务业为主的企业。企业注册资本10000万人民币,实缴资本3500万人民币。通过天眼查大数据分析,深圳市格灵人工智能与机器人研究院有限公司共对外投资了1家企业,参与招投标项目3次,专利信息27条,此外企业还拥有行政许可5个。