一种短文本间语义距离的计算机辅助计算方法
成果类型:: 发明专利
发布时间: 2022-11-28 12:04:34
本成果应用于短信、微博、论坛评论和新闻评论等应用所产生的文本进行分析研究,对于政府及企业都具有重要意义,分析研究在线评论成为分析网络舆情的重要方面,引起政府、学术界和产业界的高度重视。本成果属于文字信息处理领域,其特征在于把两个短文本间的语义距离定义为句法结构距离和单元语义距离之和进行计算,克服了现有技术的局限性
本成果的目的在于针对网络上的短文本,提出一种短文本语义距离计算方法与系统。本发明综合考虑短文本间在句法结构和单元语义两方面上的差别程度,提出了一种综合的语义距离计算方法,克服了传统方法在短文本距离计算或基于单元语义的计算方法、基于编辑距离的计算方法等。基于单元语义的计算方法仅考虑文本的词语而忽略其组织结构,或基于编辑距离的方法只考虑结构,而忽略词语的意义,并且对于不同长度的文本计算存在较大误差的局限性。
在线评论通常开始于某个公共事件或热点话题,在表达内容方面有很强的主观性,能够反映出公众对事件的态度。在线评论具有传播快速、影响广泛、观点聚集等特点,对其进行分析研究对于政府及企业都具有重要意义:政府通过对舆论进行监控,可以合理引导舆论,维护社会稳定;企业通过对产品评论进行数据分析,可以掌握产品的最新评论,促进产品更新。因此,分析研究在线评论成为分析网络舆情的重要方面,引起政府、学术界和产业界的高度重视。本成果针对网络上的短文本,提出一种短文本语义距离计算方法与系统,综合考虑短文本间在句法结构和单元语义两方面上的差别程度,提出了一种综合的语义距离计算方法,克服了传统方法在短文本距离计算上的局限性。
北京工业大学是一所以工为主,工、理、经、管、文、法、艺术、教育相结合的多科性市属重点大学。8个学科跻身2020年QS世界大学排行榜前500,位列QS2020年世界大学排名中国内地第32,工程学、材料科学、化学、环境科学与生态学、计算机科学、生物学与生物化学6个学科进入ESI前1%。该成果的第一发明人杨震博士长期从事机器学习、数据挖掘、社会计算、可信计算等领域的研究,先后主持北京工业大学校青基金项目 、北京市自然科学基金面上项目、国家自然科学基金青年基金项目。2021年11月,拟入选2021年度青海省“昆仑英才·高端创新创业人才”计划名单。
短信、微博、论坛评论和新闻评论等应用所产生的文本,这些文本长度一般比较短,我们称之为短文本。针对用户不断增长的需求,出现了很多针对短文本的信息过滤系统,包括舆情监测系统、个性化信息推荐系统、产品质量调查系统等。不论是何种系统,都必须解决一个基本的问题,即文本聚类。其基本过程是计算短文本之间的相似度,将相似度高(距离小)的文本聚集到一个主题中。发明人通过综合考虑短文本间在单元语义和句法结构两方面上的差别程度,克服了传统方法在短文本距离计算上的局限性,效果相比于传统方法有明显改进。
技术许可,一次总付20万元,许可期限届满日至:2024年12月31日。