远场声学信息人机交互关键技术

单位: 北京声智科技有限公司

技术领域: 电子信息

远场声学信息人机交互关键技术解决了声学信息人机交互产业落地的重大需求,攻克了多项 远场语音交互的声学感知和语义理解关键技术难题,带来了系统泛化能力和识别精度。通过基于 无监督学习的声学模型预训练技术。针对单通道和多通道回声抵消的不同应用场景,提出了一系 列低复杂度稳健的时域、子带和频域的自适应滤波算法。所提算法解决了以往的算法高度依赖双 端对讲检测、收敛速度慢等难题。基于麦克风阵列噪声消除和独立成分分析盲源分离等方法,建 立了单通道带噪语音的特征修复技术,去除了语音交互受到的人声及背景噪声干扰,大幅提升了 系统的识别性能。提出了抗混响、抗干扰噪声的声源定位方法。相比于传统方法,所提出算法可 以有效解决复杂环境,特别是高混响场合下的声源定位问题。 远场交互技术、Azero 开发框架、IDA 机器人和 SDA 数智人等特色技术和产品累计服务了 1000 多个客户和 2 亿多个用户,并服务了建党 100 周年、中国服贸会、中国科博会、联合国 COP15 大 会、冬奥测试赛和中关村论坛等重大活动,承担了北京大数据 AI 能力建设、北京公安局反欺诈和 声纹平台、北京和云南等 6 省(市)健康防疫平台、北京环球影城智慧文旅园区、冬奥会和冬残 奥会保障及防疫平台等北京市和国家重点项目。