音频人物特征生成与鉴别关键技术

发布时间: 2022-11-12

来源: 科技服务团

基本信息

合作方式：技术转让

成果类型：发明专利,软件著作权,著作权

行业领域：

新一代信息技术产业,人工智能

成果介绍

成果主要来源于863项目、国家杰出青年科学基金、面上项目、国家重点研发计划等国家计划。音频人物特征生成与鉴别关键技术在安全、通信、教育、金融、社交、娱乐等领域发挥着至关重要的作用，具有广阔的应用前景。本项目的主要发明点三方面。一是提出了声音个性化特征可控生成技术，突破了个性化特征表达与控制能力有限的技术瓶颈，实现了小数据条件下个性化声音生成。所提技术在国际和国内权威比赛多风格个性化生成任务中3次获得第一。二是开拓了多视角细微痕迹声音鉴别体系，克服了生成声音逼真度高和痕迹弱的困难，显著提升了对细微生成痕迹的鉴别能力，在国际公开测试集上的实验结果表明本项目所提方法对高逼真度生成语音的鉴别具有显著优势，我们所提方法在国际权威比赛ASVspoof 2021深度伪造数据上的性能显著优于第一名，并且超越国际比赛ADD 2022所有检测赛道的最佳成绩，相关技术在公安、网信办、国安等国家重大工程中实现了对仿冒声音的精准鉴别并取得了重要成效。

成果亮点

1．创建了高逼真度音频人物特征生成框架。发明了内容无关声音模拟方法，提出了基于音色与内容解耦的声音模拟技术，制定了 W3C SSML 国际标准，实现了低质量小数据场景下的高逼真度声音模拟。 2．构建了高性能生成音频鉴别技术体系。发明了融合韵律信息、发音特性与言语差异的音频鉴别方法，提出了基于模型指纹的算法/工具溯源技术，实现了对高逼真度音频的高精度鉴别与溯源分析。 3．建立了强鲁棒音频生成与鉴别对抗博弈机制。发明了环境对抗的鲁棒声音鉴别方法，提出了基于连续学习的音频鉴别技术，研制了面向复杂环境的高鲁棒性音频生成与鉴别系统，有效解决了难以精准检测未知类型音频的难题。

团队介绍

1陶建华研究员中国科学院自动化研究所为该项目的负责人，是该项目的重要关键技术(即声音个性化模拟、多视角细微痕迹声音鉴别和面向复杂场景的声音生成与鉴别体系)的第一完成人，是相关研发工作的组织者之一，对第 1、2、3技术创新点均做出了重要贡献。 2易江燕月副研究员中国科学院自动化研究所3 温正棋男 1985 年 10 月副研究员博士中科极限元（杭州）智能科技股份有限公司主要负责声音个性化模拟的技术研究，音频人物特征生成与鉴别系统开发与产业化应用的主要领导者与贡献者，主要对创新点 1 做出了重要贡献。 4 张震男 1984 年 11 月高级工程师博士国家计算机网络与信息安全管理中心主要负责细微痕迹声音鉴别的技术研究，是音频人物特征生成与鉴别 5 孙涛男 1984 年 2 月主任研发架构师硕士北京百度网讯科技有限公司 6 傅睿男助理博士中国科学院。7梁山副研究员中国科学院自动化研究所

成果资料

产业化落地方案

点击查看

成果综合评价报告

评价单位：“科创中国”人工智能专业科技服务团 (中国人工智能学会) 评价时间：2022-11-13

王恩东等10位专家组

浪潮

院士

综合评价

鉴定委员会认为，该项目研究难度大，成果创新性和实用性强，拥有自主知识产权，形成了国际和国内标准，引领了音频生成与鉴别的发展，总体技术达到国际先进水平，在高逼真度声音模拟与高性能音频鉴别方面达到国际领先水平。经济社会效益显著，推广应用前景广阔。

科创中国

友情链接

海外专利信息资源系统

省级中心站