_科创中国

音频人物特征生成与鉴别关键技术

成果类型：: 发明专利,软件著作权,著作权

发布时间: 2022-11-12 18:39:39

科技成果产业化落地方案

方案提交机构：成果发布人| 倪晶 | 2022-11-12 18:39:39

成果简介技术亮点应用前景团队概括产生的效益转化方式

成果主要来源于863项目、国家杰出青年科学基金、面上项目、国家重点研发计划等国家计划。音频人物特征生成与鉴别关键技术在安全、通信、教育、金融、社交、娱乐等领域发挥着至关重要的作用，具有广阔的应用前景。本项目的主要发明点三方面。一是提出了声音个性化特征可控生成技术，突破了个性化特征表达与控制能力有限的技术瓶颈，实现了小数据条件下个性化声音生成。所提技术在国际和国内权威比赛多风格个性化生成任务中3次获得第一。二是开拓了多视角细微痕迹声音鉴别体系，克服了生成声音逼真度高和痕迹弱的困难，显著提升了对细微生成痕迹的鉴别能力，在国际公开测试集上的实验结果表明本项目所提方法对高逼真度生成语音的鉴别具有显著优势，我们所提方法在国际权威比赛ASVspoof 2021深度伪造数据上的性能显著优于第一名，并且超越国际比赛ADD 2022所有检测赛道的最佳成绩，相关技术在公安、网信办、国安等国家重大工程中实现了对仿冒声音的精准鉴别并取得了重要成效。

1．创建了高逼真度音频人物特征生成框架。发明了内容无关声音模拟方法，提出了基于音色与内容解耦的声音模拟技术，制定了 W3C SSML 国际标准，实现了低质量小数据场景下的高逼真度声音模拟。2．构建了高性能生成音频鉴别技术体系。发明了融合韵律信息、发音特性与言语差异的音频鉴别方法，提出了基于模型指纹的算法/工具溯源技术，实现了对高逼真度音频的高精度鉴别与溯源分析。3．建立了强鲁棒音频生成与鉴别对抗博弈机制。发明了环境对抗的鲁棒声音鉴别方法，提出了基于连续学习的音频鉴别技术，研制了面向复杂环境的高鲁棒性音频生成与鉴别系统，有效解决了难以精准检测未知类型音频的难题。

本项目提出了声音个性化特征可控生成技术，突破了个性化特征表达与控制能力有限的技术瓶颈，实现了小数据条件下个性化声音生成。所提技术在国际和国内权威比赛多风格个性化生成任务中 3 次获得第一。

开拓了多视角细微痕迹声音鉴别体系，克服了生成声音逼真度高和痕迹弱的困难，显著提升了对细微生成痕迹的鉴别能力，在国际公开测试集上的实验结果表明本项目所提方法对高逼真度生成语音的鉴别具有显著优势，我们所提方法在国际权威比赛 ASVspoof 2021 深度伪造数据上的性能显著优于第一名，并且超越国际比赛ADD 2022 所有检测赛道的最佳成绩，相关技术在公安、网信办、国安等国家重大工程中实现了对仿冒声音的精准鉴别并取得了重要成效。

开创了面向复杂场景的声音生成与鉴别对抗升级机制，创新性地实现了复杂场景下声音生成与鉴别的相互促进与迭代升级机制，从而不仅提高了生成声音的逼真度，而且提升了声音鉴别的鲁棒性与泛化性。

1陶建华研究员中国科学院自动化研究所为该项目的负责人，是该项目的重要关键技术(即声音个性化模拟、多视角细微痕迹声音鉴别和面向复杂场景的声音生成与鉴别体系)的第一完成人，是相关研发工作的组织者之一，对第 1、2、3技术创新点均做出了重要贡献。2易江燕月副研究员中国科学院自动化研究所3 温正棋男 1985 年 10 月副研究员博士中科极限元（杭州）智能科技股份有限公司主要负责声音个性化模拟的技术研究，音频人物特征生成与鉴别系统开发与产业化应用的主要领导者与贡献者，主要对创新点 1 做出了重要贡献。 4 张震男 1984 年 11 月高级工程师博士国家计算机网络与信息安全管理中心主要负责细微痕迹声音鉴别的技术研究，是音频人物特征生成与鉴别 5 孙涛男 1984 年 2 月主任研发架构师硕士北京百度网讯科技有限公司 6 傅睿男助理博士中国科学院。7梁山副研究员中国科学院自动化研究所

音频人物特征生成与鉴别关键技术作为一组“攻与防”对抗的技术，应用于在智能车载、小度、百度云平台和百度安全平台、中车、中国移动在线等产品中，产生直接经济效益约 3 亿元人民币，同时应用部署于公安的网络安全保护与反电信网络诈骗以及网信办等工作中，为 30 多万名群众避免了约 8 亿元的经济损失，保障社会和国家安全做出了巨大贡献。

成果主要来源于 863 项目、国家杰出青年科学基金、面上项目、国家重点研发计划等国家计划。音频人物特征生成与鉴别关键技术在安全、通信、教育、金融、社交、娱乐等领域发挥着至关重要的作用，具有广阔的应用前景。

科创中国

友情链接

海外专利信息资源系统

省级中心站