基于语言实义单元数估计的短文本间文本距离的计算方法
成果类型:: 发明专利
发布时间: 2022-11-28 13:46:26
本成果适用于网络上各种短文本进行文本间距离计算的应用场景。 短信、微博、论坛评论和新闻评论等应用所产生的文本,这些文本长度一般在100个汉字以内,我们称之为短文本。针对用户不断增长的需求,出现了很多针对短文本的信息过滤系统,包括舆情监测系统、个性化信息推荐系统、产品质量调查系统等。不论是何种系统,都必须解决一个基本的问题,即文本聚类。其基本过程是计算短文本之间的相似度,将相似度高(文本距离小)的文本聚集到一个主题中。其中文本相似度计算是文本聚类中一个最关键的技术问题。由于文本距离与文本相似度在文本计算中属于同一个概念,数值上二者是相反的关系,本发明在以后论述中不作区别,统称为文本距离。传统的短文本文本距离计算方法多从句法结构的角度去衡量句子间的差别,如基于语义依存、基于编辑距离的计算方法。
本成果针对网络上的短文本,提出一种短文本间文本距离的计算方法与系统。本发明在传统文本距离计算的基础上,引入一种有效地文本实义单元数(Distinct WordsLength)估算方式,利用实义单元数对文本距离进行惩罚,克服了传统短文本距离计算方法中不对句长处理或利用原始句长进行惩罚所产生的误差。
网络上的短文本多以在线评论的方式产生,通常开始于某个公共事件或热点话题,尽管表达内容有很强的主观性,却反映出公众对事件的态度。其主要来源有:微博、论坛评论、新闻评论。随着微博以及论坛的兴起,在线评论成为公众表达观点最主要的方式。在线评论具有快速传播及影响广泛的特点,其不仅代表了评论者自身的观点,也会影响其他参与者的观点,所以对其进行分析研究是网络舆情分析的重要方面。政府通过对舆论进行监控,合理引导舆论,维护社会稳定;企业通过对产品评论进行分析,掌握产品的最新反馈。因此在线评论的分析研究,对于国家、社会以及企业都具有重要意义,本成果利用实义单元数对文本距离进行惩罚,克服了传统短文本距离计算方法中不对句长处理或利用原始句长进行惩罚所产生的误差,能更加准确的提取短文本中蕴含的信息。
北京工业大学是一所以工为主,工、理、经、管、文、法、艺术、教育相结合的多科性市属重点大学。8个学科跻身2020年QS世界大学排行榜前500,位列QS2020年世界大学排名中国内地第32,工程学、材料科学、化学、环境科学与生态学、计算机科学、生物学与生物化学6个学科进入ESI前1%。该成果的第一发明人杨震博士,多年从事数据挖掘、内容安全、可信计算等方向的研究工作。主持和参加多项国家级、省部级科研项目,在国内外学术期刊和学术会议上发表论文数十篇,获省部级科技进步奖一等奖、二等奖多项。
传统的短文本文本距离计算方法多从句法结构的角度去衡量句子间的差别,如基于语义依存、基于编辑距离的计算方法。由于传统的文本距离计算方法受文本长度影响较大,因此对于不同文本长度的文本的计算结果存在较大误差。本成果] 利用实义单元对文本距离进行惩罚,通过Heap’s法则和Zipf’’s法则的对价关系,引入了一种对文本中实义单元数进行估计的方法。利用文本中实义单元的数目对初始语义距离进行惩罚,克服了传统方法中利用原始句长处理的误差。可广泛应用于多种短文本距离估算、聚类场景。
技术许可:一次总付20万元,许可期限届满日至:2024年12月31日。