成果主要来源于863项目、国家杰出青年科学基金、面上项目、国家重点研发计划等国家计划。音频人物特征生成与鉴别关键技术在安全、通信、教育、金融、社交、娱乐等领域发挥着至关重要的作用,具有广阔的应用前景。本项目的主要发明点三方面。一是提出了声音个性化特征可控生成技术,突破了个性化特征表达与控制能力有限的技术瓶颈,实现了小数据条件下个性化声音生成。所提技术在国际和国内权威比赛多风格个性化生成任务中3次获得第一。二是开拓了多视角细微痕迹声音鉴别体系,克服了生成声音逼真度高和痕迹弱的困难,显著提升了对细微生成痕迹的鉴别能力,在国际公开测试集上的实验结果表明本项目所提方法对高逼真度生成语音的鉴别具有显著优势,我们所提方法在国际权威比赛ASVspoof 2021深度伪造数据上的性能显著优于第一名,并且超越国际比赛ADD 2022所有检测赛道的最佳成绩,相关技术在公安、网信办、国安等国家重大工程中实现了对仿冒声音的精准鉴别并取得了重要成效。
1.创建了高逼真度音频人物特征生成框架。发明了内容无关声音模拟方法,提出了基于音色与内容解耦的声音模拟技术,制定了 W3C SSML 国际标准,实现了低质量小数据场景下的高逼真度声音模拟。
2.构建了高性能生成音频鉴别技术体系。发明了融合韵律信息、发音特性与言语差异的音频鉴别方法,提出了基于模型指纹的算法/工具溯源技术,实现了对高逼真度音频的高精度鉴别与溯源分析。
3.建立了强鲁棒音频生成与鉴别对抗博弈机制。发明了环境对抗的鲁棒声音鉴别方法,提出了基于连续学习的音频鉴别技术,研制了面向复杂环境的高鲁棒性音频生成与鉴别系统,有效解决了难以精准检测未知类型音频的难题。
1陶建华研究员中国科学院自动化研究所为该项目的负责人,是该项目的重要关键技术(即声音个性化模拟、多视角细微痕迹声音鉴别和面向复杂场景的声音生成与鉴别体系)的第一完成人,是相关研发工作的组织者之一,对第 1、2、3技术创新点均做出了重要贡献。
2易江燕月副研究员中国科学院自动化研究所3 温正棋 男 1985 年 10 月 副研究员 博士 中科极 限元(杭 州)智能 科技股 份有限 公司 主要负责声音个性化模 拟的技术研究,音频人物 特征生成与鉴别系统开 发与产业化应用的主要 领导者与贡献者,主要对 创新点 1 做出了重要贡 献。 4 张震 男 1984 年 11 月 高级工程师 博士 国家计 算机网 络与信 息安全 管理中心 主要负责细微痕迹声音 鉴别的技术研究,是音频 人物特征生成与鉴别 5 孙涛 男 1984 年 2 月 主任研发架构师 硕士 北京百 度网讯 科技有 限公司 6 傅睿 男助理 博士 中国科 学院。7梁山副研究员中国科学院自动化研究所
评价单位:“科创中国”人工智能专业科技服务团 (中国人工智能学会)
评价时间:2022-11-13
综合评价
鉴定委员会认为,该项目研究难度大,成果创新性和实用性强,拥有自主知识产权,形成了国际和国内标准,引领了音频生成与鉴别的发展,总体技术达到国际先进水平,在高逼真度声音模拟与高性能音频鉴别方面达到国际领先水平。经济社会效益显著,推广应用前景广阔。
查看更多>