您所在的位置: 成果库 基于语言实义单元数估计的短文本间文本距离的计算方法

基于语言实义单元数估计的短文本间文本距离的计算方法

发布时间: 2022-11-28

来源: 科技服务团

基本信息

合作方式: 技术许可
成果类型: 发明专利
行业领域:
电子信息技术
成果介绍
本成果适用于网络上各种短文本进行文本间距离计算的应用场景。 短信、微博、论坛评论和新闻评论等应用所产生的文本,这些文本长度一般在100个汉字以内,我们称之为短文本。针对用户不断增长的需求,出现了很多针对短文本的信息过滤系统,包括舆情监测系统、个性化信息推荐系统、产品质量调查系统等。不论是何种系统,都必须解决一个基本的问题,即文本聚类。其基本过程是计算短文本之间的相似度,将相似度高(文本距离小)的文本聚集到一个主题中。其中文本相似度计算是文本聚类中一个最关键的技术问题。由于文本距离与文本相似度在文本计算中属于同一个概念,数值上二者是相反的关系,本发明在以后论述中不作区别,统称为文本距离。传统的短文本文本距离计算方法多从句法结构的角度去衡量句子间的差别,如基于语义依存、基于编辑距离的计算方法。
成果亮点
本成果针对网络上的短文本,提出一种短文本间文本距离的计算方法与系统。本发明在传统文本距离计算的基础上,引入一种有效地文本实义单元数(Distinct WordsLength)估算方式,利用实义单元数对文本距离进行惩罚,克服了传统短文本距离计算方法中不对句长处理或利用原始句长进行惩罚所产生的误差。
团队介绍
北京工业大学是一所以工为主,工、理、经、管、文、法、艺术、教育相结合的多科性市属重点大学。8个学科跻身2020年QS世界大学排行榜前500,位列QS2020年世界大学排名中国内地第32,工程学、材料科学、化学、环境科学与生态学、计算机科学、生物学与生物化学6个学科进入ESI前1%。 该成果的第一发明人杨震博士,多年从事数据挖掘、内容安全、可信计算等方向的研究工作。主持和参加多项国家级、省部级科研项目,在国内外学术期刊和学术会议上发表论文数十篇,获省部级科技进步奖一等奖、二等奖多项。
成果资料
产业化落地方案
点击查看