您所在的位置: 成果库 基于WordNet以及潜在语义分析的文本分类方法

基于WordNet以及潜在语义分析的文本分类方法

成果类型:: 发明专利

发布时间: 2022-11-28 09:55:11

科技成果产业化落地方案
方案提交机构:成果发布人| 周俊 | 2022-11-28 09:55:11

本成果涉及一种基于WordNet及潜在语义分析的文本分类方法。本成果可在信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到应用。现有技术多词同义和一词多义问题的存在导致许多类别不能完全划分出来;现有研究更多的集中于在特征提取阶段对特征词之间做相似度的计算来降低多词同义问题对分类效果的影响。而在特征提取阶段,普遍采用一种方法处理,更多的研究集中在对分类器的优化上。本发明是鉴于以上所述,基于WordNet及潜在语义分析的文本分类方法。

本成果的文本分类方法包括:文本预处理,通过WordNet对文本中单词消歧义;取同义词及上下位词,通过WordNet选取单词的同义词和上下位次,以参数H限制选取的层数范围;以相似度为权重,调整单词的同义词和上下位词的词频,得到考虑语义的词频矩阵;训练、测试SVM分类器并以遗传算法(GA)调整特征矩阵,得到分类效果最佳的特征矩阵。本发明相对于现有的文本分类方法,考虑了单词在文本中的语义,通过相似度调整并得到词频矩阵,在特征选择阶段,不同于一般方法,我们采用了潜在语义分析(LSA)和遗传算法(GA)两种方法共同选择出分类效果最佳的特征矩阵。

语义分析是人工智能的一个分支,是自然语言处理技术的几个核心任务,涉及语言学、计算语言学、机器学习,以及认知语言等多个学科,语义分析任务有助于促进其他自然语言处理任务的快速发展。该成果基于潜在语义分析(LSA)和遗传算法(GA)两种方法共同选择出分类效果最佳的特征矩阵,相比现有技术有了较大的提升。本成果可在信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到应用。

北京工业大学是一所以工为主,工、理、经、管、文、法、艺术、教育相结合的多科性市属重点大学。8个学科跻身2020年QS世界大学排行榜前500,位列QS2020年世界大学排名中国内地第32,工程学、材料科学、化学、环境科学与生态学、计算机科学、生物学与生物化学6个学科进入ESI前1%。该成果的第一发明人赵旭副教授主持国家自然科学基金、教育部高等学校博士学科点新教师类专项基金、北京市自然科学基金、北京市教育委员会科技计划、北京市博士后基金。参加国家自然科学基金面上项目、科技部国际合作项目、横向课题项目等。国内外学术期刊上发表或接收论文10余篇,其中SCI一区论文2篇。作为第一发明人授权国家发明专利7项。该成果的第二发明人李建强博士多年工业界研发经历, 所涉及的研究项目涵盖企业信息系统,数据中心优化,数据挖掘,隐私保护,大数据分析和云计算等领域, 发表SCI/EI学术论文40多篇,并著有《企业集成与集成平台技术》一书,在数据分析领域申请专利37个, 获得中国专利授权3项,日本专利授权15项,美国专利授权3项。

本成果考虑文本中单词的同义词及上下位词,同义词及上下位词根据相似度增加各自词频,从而减少多词同义对分类的影响。不同于一般方法中对一个特征矩阵以单一方法做特征提取,我们通过对WordNet调用参数的调整获得多个特征矩阵,使用遗传算法(GA)辅助潜在语义分析(LSA)共同完成特征提取,得到更好的特征矩阵,从而提高了分类效果。

技术许可,一次总付50000元,许可期限届满日至:2035年8月14日。