您所在的位置: 成果库 大规模文本分类的方法

大规模文本分类的方法

成果类型:: 发明专利

发布时间: 2022-11-28 09:25:19

科技成果产业化落地方案
方案提交机构:成果发布人| 周俊 | 2022-11-28 09:25:19

本成果涉及一种大规模文本分类的方法,相对于现有的文本分类方法,可以使现有的文本分类方法处理大规模文本数据,不但能兼顾文本分类精度,同时使用分布式计算的方法提高对大规模文本数据处理的效率。本成果可在信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到应用。本成果的大规模文本分类的方法通过构建具有最大差异性的多个分类器及实现多个分类器的高效集成决策来实现。具体而言,该大规模文本分类的方法包括:将文本数据转换为向量数据,分割大规模文本数据集为子集;以分布式计算的方法使用子集训练子分类器;选择分类器;对待测样本进行分类,实现多分类器共同决策。该成果将集成学习框架应用于大规模文本分类上,可以使现有的分类方法适用于大规模文本分类,提高分类效率。

该成果基于现有的分类方法更多侧重于分类精度的提高,对大规模文本分类不能很好地解决;将学习框架应用于分类算法之中,应用多分类器共同工作和共同决策的方法分担大规模数据的工作量的办法存在扩展性的问题难以满足大规模文本分类要求;将集成学习引入文本分类,在扩展度上仍然有局限性,和现有的算法类似,其目的是提高决策结果的精度,并不能使现有方法在处理数据的规模上得到强。该成果鉴于上述问题提出了一种大规模文本分类的方法。

大数据时代网络上的文本数据日益增长。采用文本分类技术对海量数据进行科学地组织和管理显得尤为重要。该成果提出了一种文本处理方法,用以实现扩展性强的文本数据大规模计算。该成果可应用于大规模文本数据的语义提取聚类、海量新闻文本中的信息提取、数字化图书馆的书籍分类标注等大规模的文本信息处理场景。

北京工业大学是一所以工为主,工、理、经、管、文、法、艺术、教育相结合的多科性市属重点大学。8个学科跻身2020年QS世界大学排行榜前500,位列QS2020年世界大学排名中国内地第32,工程学、材料科学、化学、环境科学与生态学、计算机科学、生物学与生物化学6个学科进入ESI前1%。该成果的第一发明人赵旭副教授主持国家自然科学基金、教育部高等学校博士学科点新教师类专项基金、北京市自然科学基金、北京市教育委员会科技计划、北京市博士后基金。参加国家自然科学基金面上项目、科技部国际合作项、横向课题项目等。国内外学术期刊上发表或接收论文10余篇,其中SCI一区论文2篇。作为第一发明人授权国家发明专利7项。该成果的第二发明人李建强博士多年工业界研发经历, 所涉及的研究项目涵盖企业信息系统,数据中心优化,数据挖掘,隐私保护,大数据分析和云计算等领域, 发表SCI/EI学术论文40多篇,并著有《企业集成与集成平台技术》一书,在数据分析领域申请专利37个, 获得中国专利授权3项,日本专利授权15项,美国专利授权3项。

目前国内已经开始对中文文本分类进行研究,并在信息检索、Web文档自动分类、数字图书馆、自动文摘、分类新闻组、文本过滤、单词语义辨析以及文档的组织和管理等多个领域得到了应用。该成果是鉴于现有文本分类方法或不能支持大规模文本场景或扩展性存在局限的问题下,对现有技术的全新探索,能够以较快的运算速度,解决大规模文本分类,为文本分类技术拓展了更多的可能性。

技术许可,一次总付50000元,许可期限届满日至:2035年1月18日。