您所在的位置: 成果库 基于WordNet以及潜在语义分析的文本分类方法

基于WordNet以及潜在语义分析的文本分类方法

发布时间: 2022-11-28

来源: 科技服务团

基本信息

合作方式: 技术许可
成果类型: 发明专利
行业领域:
电子信息技术
成果介绍
本成果涉及一种基于WordNet及潜在语义分析的文本分类方法。本成果可在信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到应用。现有技术多词同义和一词多义问题的存在导致许多类别不能完全划分出来;现有研究更多的集中于在特征提取阶段对特征词之间做相似度的计算来降低多词同义问题对分类效果的影响。而在特征提取阶段,普遍采用一种方法处理,更多的研究集中在对分类器的优化上。本发明是鉴于以上所述,基于WordNet及潜在语义分析的文本分类方法。
成果亮点
本成果的文本分类方法包括:文本预处理,通过WordNet对文本中单词消歧义;取同义词及上下位词,通过WordNet选取单词的同义词和上下位次,以参数H限制选取的层数范围;以相似度为权重,调整单词的同义词和上下位词的词频,得到考虑语义的词频矩阵;训练、测试SVM分类器并以遗传算法(GA)调整特征矩阵,得到分类效果最佳的特征矩阵。本发明相对于现有的文本分类方法,考虑了单词在文本中的语义,通过相似度调整并得到词频矩阵,在特征选择阶段,不同于一般方法,我们采用了潜在语义分析(LSA)和遗传算法(GA)两种方法共同选择出分类效果最佳的特征矩阵。
团队介绍
北京工业大学是一所以工为主,工、理、经、管、文、法、艺术、教育相结合的多科性市属重点大学。8个学科跻身2020年QS世界大学排行榜前500,位列QS2020年世界大学排名中国内地第32,工程学、材料科学、化学、环境科学与生态学、计算机科学、生物学与生物化学6个学科进入ESI前1%。 该成果的第一发明人赵旭副教授主持国家自然科学基金、教育部高等学校博士学科点新教师类专项基金、北京市自然科学基金、北京市教育委员会科技计划、北京市博士后基金。参加国家自然科学基金面上项目、科技部国际合作项目、横向课题项目等。国内外学术期刊上发表或接收论文10余篇,其中SCI一区论文2篇。作为第一发明人授权国家发明专利7项。 该成果的第二发明人李建强博士多年工业界研发经历, 所涉及的研究项目涵盖企业信息系统,数据中心优化,数据挖掘,隐私保护,大数据分析和云计算等领域, 发表SCI/EI学术论文40多篇,并著有《企业集成与集成平台技术》一书,在数据分析领域申请专利37个, 获得中国专利授权3项,日本专利授权15项,美国专利授权3项。
成果资料
产业化落地方案
点击查看