_科创中国

一种混合特征融合的中文化工文献分词方法

成果类型：: 发明专利

发布时间: 2023-10-19 10:44:38

科技成果产业化落地方案

方案提交机构：成果发布人| 涂媛 | 2023-10-19 10:44:38

成果简介技术亮点应用前景团队概括产生的效益转化方式

本发明公开了一种混合特征融合的中文化工文献分词方法，首先构建化工科学文献语料库来训练中文分词任务；接着，利用BiLSTM和CNN提取并融合文档特征，结合边界特征构建条件随机场训练端到端中文分词模型；然后，开放模型接口，对用户输入文本进行分词；最后，通过ECharts渲染分词结果实现化工关键词可视化，系统接受用户反馈并进行处理。本发明将自然语言处理和深度学习方法应用于化工领域，通过特征融合提高对包含中英文专业词汇的化工中文文档分词效果，解决大量新词和中英文混合专业词汇给分词结果造成化工领域术语识别率低的问题。

发明目的：针对上述问题，本发明提供一种混合特征融合的中文化工文献分词方法，通过CNN和BiLSTM模型抽取文本特征，将融合后的特征输入到CRF层以获得更好的分词，从而解决化工领域术语识别无法分割等问题。

本发明中的中文化工文献分词方法对自然语言处理和信息检索有重要的作用和意义。借助大数据技术，从文本文档中提取结构化信息和发现知识并反馈给研究者，研究者们可以更科学地分析、总结实验结果，从而更好地指导化工生产实践。然而中文化工文档的数据处理往往面临更困难的局面，一方面，中文是用连续的字符序列编写的，单词之间不似英文有明显的空格界限。另一方面，化工领域文档中包含化学式以及中英文混合词汇，以致计算机难以识别有中文意义的专业单词。因此，将自然语言处理和深度学习等方法应用于化工领域具有很好的研究价值。

中文分词(CWS，Chinese Word Segment)，是进行中文自然语言处理的基础。到目前为止，已有的自动分词研究成果仍不能完全满足应用的需要，在一些专业关键领域问题上仍然值得继续探讨，如分词的规范性、切分歧义、未登录词识别、分词与理解的先后等。

特征提取，针对传统机器学习的序列标注模型存在着特征向量稀疏而且维度庞大，导致内存和计算资源的浪费的缺点，利用深度学习(DNNs)自动学习和提取深度特征的优势可作为CWS的有效工具。中文里，CNN可以使用在句子里分词后的字层面，获取更多特征，BiLSTM相比于CNN的好处是能保留到远端的上下文信息，也符合文本的建模。BiLSTM可以学习上下文特征，但不利于编码，而CNN可以学习字符级拼写特征，但很难提取文本的序列化特征。

现有的中文分词任务已取得了很好的效果。然而，化工领域中文分词方法还存在以下问题：1、化工领域术语识别问题，提高新词识别率；2、大量新词和中英文混合专业词汇给分词结果带来了困难等问题。基于以上技术中存在的问题，本文提出一种基于混合特征融合的中文化工文献中文分词方法。

此技术是淮阴工学院李翔研发，淮阴工学院，位于江苏省淮安市，宗旨和业务范围是“培养高等学历人才，促进社会发展。工学类、理学类、经济学类、管理学类、文学类、法学类、艺术学类和农学类学科本科学历教育工程硕士研究生学历教育相关科学研究技术开发继续教育专业培训学术交流与咨询服务会议展览服务”。

与现有技术相比，此技术产生的有益效果：与现有技术相比，本发明的有益效果：1、本发明方法基于网络爬虫挖掘化工文献，使用关键词自动匹配和第三方工具补充标记，使用CNN和BiLSTM模型自动抽取特征并融合，使用CRF进行序列标注以更好地分割化工专业术语，从而中英文混杂使化工专业术语无法提取的问题，更好的应用于化工科学文献检索；2、现有中文文本分词方法对化工领域术语识别率低，本发明通过挖掘化工文献，自动及半自动化标注构建化工文献分词语料库，通过本发明提出模型算法训练得到分词模型M，并开放接口，构建化工领域中文分词系统，该应用可更好的应用于化工关键词提取和化工科学文献检索。

科创中国

友情链接

海外专利信息资源系统

省级中心站