研究领域
语音识别,自然语言处理,声纹识别
研究概况
语音识别方面:
1.提出了一种改进的特征提取方法FBE-MFCC(基于频带能量的美化倒谱),在利用人类的听觉特性进行分析时考虑了频带能量,提高了所提取特性的可区分性以及噪音鲁棒性。
2.提出了汉语扩展声韵集概念、声学精细建模方法、上下文相关加权方法等,在声学层面给出了语音识别中随意发音及口音问题的解决方案。
3.提出了用以描述词汇内在关系的WST(词搜索树)结构,从结构上解决了连续语音识别中的词解码问题,从而在语言层面给出了汉语语音识别中口音问题的解决方案。
4.提出了汉语音节映射的概念以及声学校正器模型,用很少的方言背景数据库,就可以直接从普通话识别器中得到含方言背景的普通话识别器,为低资源语言的声学模型训练提供了方便。