您所在的位置: 成果库 一种基于WSD层级记忆网络的文档建模分类方法

一种基于WSD层级记忆网络的文档建模分类方法

成果类型:: 发明专利

发布时间: 2023-10-19 11:08:24

科技成果产业化落地方案
方案提交机构:成果发布人| 涂媛 | 2023-10-19 11:08:24

本发明公开了一种基于WSD层级记忆网络的文档建模分类方法。首先,通过Bert算法基于词向量得到相似句子文本的句嵌入矩阵,以获得词语之间语义信息;然后,将句子映射到句嵌入矩阵空间得到句子的向量化表示;最后,将分完句文档的序列数据输入到BiLSTM模型中,同时获取每个句子的注意力权重,得到文档的向量化表示,保留了文档内部语义联系。本发明方法可有效获取一种准确度最高的文档建模,充分考虑到词句级联的层次关系,增加文档建模内部的语义联系,对于类间数据相似性较高的文档分类更加准确。

发明目的:针对上述问题,本发明提供一种基于WSD层级记忆网络的文档建模分类方法,可优化分类准确度和速度,缩减从业者的工作时长,提高相关产品的运行效率。

本发明中的文档建模分类算法对传统的有监督文档分类有重要的作用和意义。以往在面对文本标签的分类问题的时候,研究者们会选择将向量空间模型融入到文本分类中,该类方法要求将文本映射到向量空间中进行有监督的训练后,从而利用训练好的分类器对未分类文本进行分类,但是在此过程中需要对大量的特征进行人工设计,且忽略了文本内部的语义联系。因此,为发掘历史文档之间的语义关系,对文档进行从词到句,句到文档建模以提高标签分类的准确度,结合神经网络算法为相关系统提供准确高效的文档建模分类方案。

此技术是淮阴工学院李翔研发,淮阴工学院,位于江苏省淮安市,宗旨和业务范围是“培养高等学历人才,促进社会发展。工学类、理学类、经济学类、管理学类、文学类、法学类、艺术学类和农学类学科本科学历教育工程硕士研究生学历教育相关科学研究技术开发继续教育专业培训学术交流与咨询服务会议展览服务”。

与现有技术相比,此技术具有以下有益效果:

本发明方法基于已有的综合文本标签集,利用Bert语言模型和BiLSTM结合Attention机制,实现基于文档词句级联层次记忆网络的建模并有效分类,具体描述如下:本发明利用Bert语言模型获取词语之间语义信息实现句子的向量化表示;然后BiLSTM模型结合Attention机制学习训练获取句子上下文的语义信息得到文档表示,通过softmax分类输出,对文本进行有监督训练,实现较高准确度的类间高相似度的文档建模和分类,可优化分类准确度和速度,缩减从业者的工作时长,提高相关产品的运行效率。

技术转让,许可,合作所需资金需双方协商,此项技术想尽快落地保定,希望具备此项技术研发的技术方,能够尽快承接此项目。