大规模文本分类的方法

发布时间: 2022-11-28

来源: 科技服务团

基本信息

合作方式：技术许可

成果类型：发明专利

行业领域：

电子信息技术

成果介绍

本成果涉及一种大规模文本分类的方法，相对于现有的文本分类方法，可以使现有的文本分类方法处理大规模文本数据，不但能兼顾文本分类精度，同时使用分布式计算的方法提高对大规模文本数据处理的效率。本成果可在信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到应用。本成果的大规模文本分类的方法通过构建具有最大差异性的多个分类器及实现多个分类器的高效集成决策来实现。具体而言，该大规模文本分类的方法包括：将文本数据转换为向量数据，分割大规模文本数据集为子集；以分布式计算的方法使用子集训练子分类器；选择分类器；对待测样本进行分类，实现多分类器共同决策。该成果将集成学习框架应用于大规模文本分类上，可以使现有的分类方法适用于大规模文本分类，提高分类效率。

成果亮点

该成果基于现有的分类方法更多侧重于分类精度的提高，对大规模文本分类不能很好地解决；将学习框架应用于分类算法之中，应用多分类器共同工作和共同决策的方法分担大规模数据的工作量的办法存在扩展性的问题难以满足大规模文本分类要求；将集成学习引入文本分类，在扩展度上仍然有局限性，和现有的算法类似，其目的是提高决策结果的精度，并不能使现有方法在处理数据的规模上得到强。该成果鉴于上述问题提出了一种大规模文本分类的方法。

团队介绍

北京工业大学是一所以工为主，工、理、经、管、文、法、艺术、教育相结合的多科性市属重点大学。8个学科跻身2020年QS世界大学排行榜前500，位列QS2020年世界大学排名中国内地第32，工程学、材料科学、化学、环境科学与生态学、计算机科学、生物学与生物化学6个学科进入ESI前1％。该成果的第一发明人赵旭副教授主持国家自然科学基金、教育部高等学校博士学科点新教师类专项基金、北京市自然科学基金、北京市教育委员会科技计划、北京市博士后基金。参加国家自然科学基金面上项目、科技部国际合作项、横向课题项目等。国内外学术期刊上发表或接收论文10余篇，其中SCI一区论文2篇。作为第一发明人授权国家发明专利7项。该成果的第二发明人李建强博士多年工业界研发经历, 所涉及的研究项目涵盖企业信息系统，数据中心优化，数据挖掘，隐私保护，大数据分析和云计算等领域, 发表SCI/EI学术论文40多篇，并著有《企业集成与集成平台技术》一书,在数据分析领域申请专利37个, 获得中国专利授权3项，日本专利授权15项，美国专利授权3项。

成果资料

产业化落地方案

点击查看

科创中国

友情链接

海外专利信息资源系统 企业技术创新力在线自测系统

省级中心站

科创中国

友情链接

海外专利信息资源系统 企业技术创新力在线自测系统

省级中心站

海外专利信息资源系统企业技术创新力在线自测系统