成果介绍
本发明涉及一种基于无监督学习的领域词发现方法,属于计算机文本信息处理技术领域,输入通用语料和领域语料便可提取出来领域词,步骤为先把通用语料和领域语料切分,获得通用候选词库和领域候选词库,两种领域词库的处理方式相同;获取了通用候选词库和领域候选词库,对领域文本进行无监督学习,将两个词库中的词频转换为对应的概率,对两个词库的未分割句子任意切分,计算每一种切分方式的标准化概率得分,统计得分靠前的句子切分组合中的词语,收集领域词汇,把领域候选词库中的通用词转移到通用候选词库中,并保存获得领域词汇。无需人工标注语料,提高了含有标点符号的实体名称识别率。
成果亮点
1.一种基于无监督学习的领域词发现方法,其特征在于,输入通用语料文本和领域语料文本便可得到领域词,包括步骤如下:1、把通用语料文本和领域语料文本切分,获得通用候选词库和领域候选词库,两种词库的处理方式相同,此时的领域候选词库中包含一部分通用候选词;2、获取了通用候选词库和领域候选词库,对领域文本进行无监督学习,将两个词库中的词频转换为对应的概率,对领域文本中未分割句子任意切分,计算每一种切分方式的标准化概率得分,统计得分靠前的句子切分组合中的词语,收集领域词汇,把领域候选词库中的通用词转移到通用候选词库中,并保存获得领域词汇。
团队介绍
学校秉持“强精优特”学科建设理念,坚持扬工强理重交叉,形成了优势特色学科、基础学科、新兴交叉学科、支撑学科组成的较为完善的学科体系。学校拥有9个国家重点学科一级学科、6个国家重点学科二级学科。在教育部第三轮学科评估中,学校有10个一级学科排名位居全国前五位,其中力学学科排名全国第一。在全国第四轮学科评估中,哈工大共有17个学科位列A类,学科优秀率(A类学科占授权学科的比例)位列全国第六位,A类学科数量位列全国第八位,工科A类数量位列全国第二位。
成果资料