成果介绍
①课题来源与背景 文本的相似度量是一个在语言学、心理学和信息理论等领域内被广泛研究的一个重要话题。传统的文本相似度量方法大都将文本看作一组词的集合体,分析每个词在文本中出现的次数以及在整个文本集合中出现的次数,进而利用这些词频信息将文本建模为一个向量,并利用向量间的余弦相似度、Jaccard 相似度等方法计算文本之间的相似度。基于语义的文本相似度量方法则通过同义词、冗余和蕴涵等语义关系来考察文本之间的相似性。文本相似度量方法在许多领域有着广泛的应用:在信息检索领域,文本相似度量方法被认为是改进检索效果最好的方法之一;在图像检索领域, 利用图像周围的文本可以获得更好的检索精度;此外,文本相似度量方法还广泛地应用于文本分类、文本摘要的自动生成、文本的重复检测等领域.基于词频向量的相似度方法忽略了文本中词项的含义,也忽略了文本中的语法、组织结构等信息。此外 ,对于大多数文本数据库而言,词项的数目和文本数目通常都很大,而采用词频向量模型,必须将文本表示为词项数目与文本数目大致相当的矩阵,矩阵中的行列向量都有着非常高的维度并且是极度稀疏的,最终导致了非常低效的计算。基于词项语义来考察文本相似度量的方法在文本表示模型上多数沿用了词频向量模型,,没有针对文本表示的高维模型进行降维处理,也缺乏衡量文档之间相似程度的定义,导致基于词项语义信息的文本相似度量方法局限于一些特定的应用领域。 ②研究目的与意义(1) 明确文本语义特征的表达模型之间的理论基础以及关系,提取能够表达文本语义特征量的高效模型,完善文本语义特征提取的模型及其分析验证理论; (2) 阐明文本语义特征的隐藏度量空间及其性质,建立适合能够迅速计算文本语义相似性度量的下一代语义互联网体系结构的自适应模型与性能评价指标; (3) 探索语义互联网规模文本相似性度量应用的关键技术,给出其优化方法。③主要论点与论据 传统的文本相似度量方法大多采用 TFIDF(词频逆文档频率)模型把文本建模为词频向量,利用余弦相似度量等方法计算文本之间的相似度。这些方法忽略了文本中词项的语义信息。改进的基于文本语义相似度量方法在传统词频向量中扩充了语义相似的词项,进一步增加了文本表示向量的维度,但不能很好地反映两篇文本之间的相似程度。本项目在TFIDF模型基础上分析文本中重要词汇的语义信息,提出了一种新的文本相似度量方法。 该方法利用 TFIDF 模型寻找文本中具有较高 TFIDF 值的重要词项。 借助外部词典分析词项之间的语义相似度,结合项目提出的词项相似度加权树以及文本语义相似度定义,可以计算两篇文本之间的相似度。④创见与创新1.项目提出了一种新颖的结合文本词项语义的文本相似度量算法;2.项目在计算文本相似度时设计了一个词项相似度加权树的数据结构,该数据结构用于保存词项之间相似度超过某个阈值μ的有序词项队列及其相似信息;3.项目在文本语义相似性聚类应用上对比其他方法有较好的语义聚类效果。⑤历年获奖情况 截至2017年3月31日,本项目的核心论文所提出的文本语义相似性度量思想,已经被国内相关计算机学术论文引用超过200次,当中包括中国科技大学、复旦大学、华中科技大学等国内一流学校的硕士、博士论文,对该领域其他研究者具有指导意义。鉴于本项目的核心思想受到国内计算机研究人员的广泛引用,2016年10月21日,中国计算机学会2016年度颁奖大会上,本项目的核心论文获得了《计算机学报》20112015年度优秀论文奖项。该奖项从《计算机学报》2011至2015年共五年的时间跨度内,发表的1158篇优秀的专业计算机学术论文当中,遴选了三篇优秀论文,当中两篇研究型论文,一篇综述型论文。本项目核心论文在两篇获奖研究型论文中排名第一。本奖项是目前国内计算机学术界最高级别的科研论文奖项,旨在鼓励优秀的计算机学术论文在国内期刊发表。⑥成果简介1.项目着重针对文本语义特征进行了深入研究,通过分析文本中重要的词汇进行维度规约,进而设计了一种用于保存文本语义信息的平衡树结构,建立了文本之间语义相似度量模型。通过相关实验表明该语义相似度量模型具有较好的实验性能,能够在多个文本处理领域有广泛的应用前景。 2.项目应用上述语义相似模型实现了对文档进行语义信息的检索。通过分析现有的相似度量函数的核心特征,选择合适的语义相似度量方法,提出了一种新的词项语义相似度检索函数,该函数能够对检索文档按照语义相似度进行排序。实验结果表明,所提出的方法能够有效地提升文献检索的准确度。3.本项目的核心论文于2016年10月获得了中国计算机学会颁发的《计算机学报》20112015年度优秀论文奖项, 该奖项从《计算机学报》2011至2015年共五年的时间跨度内,发表的1158篇优秀的专业计算机学术论文当中,遴选了三篇优秀论文,当中两篇研究型论文,一篇综述型论文。 综上所述,该项目具有较好的学术影响力以及明显的工程实用性和技术指导价值,总体成果处于国内领先水平。
成果亮点
团队介绍
成果资料