您所在的位置: 成果库 一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置

一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置

成果类型:: 发明专利

发布时间: 2023-10-19 10:47:34

科技成果产业化落地方案
方案提交机构:成果发布人| 涂媛 | 2023-10-19 10:47:34

本发明涉及企业画像和自然语言处理技术领域,公开了一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法装置,将企业情境信息向量化后与企业文本向量拼接,得到融合企业情境信息的企业文本;构建主干网络进行模型训练,构建小规模TextCNN枝干网络内嵌到前11层Transformer的主干网络上,将融合后的企业文本传入Bert模型发现其隐藏特征,再传入BiLSTM网络和最大池化层进一步发现其上下文特征和局部特征;使用主干网络指导枝干网络进行知识蒸馏和标签抽取。本发明使用企业情境嵌入可以有效提高标签抽取的准确率,同时拥有知识蒸馏的深度学习模型可以提高标签抽取效率,使其在实际场景中更好的应用。

发明目的:针对现有技术中存在的问题,本发明提供及一种基于情境嵌入和知识蒸馏的企业画像标签抽取方法及装置,使用企业情境嵌入可以有效提高标签抽取的准确率,同时拥有知识蒸馏的深度学习模型可以提高标签抽取效率,使其在实际场景中更好的应用。

 近年来,随着知识图谱和大数据的快速发展,画像技术受到学术界和工业界的广泛关注。目前比较流行的企业画像在电子商务、风险评估、市场监管等方面有着广泛的应用。其中包含企业画像的网站不仅具备传统门户网站的信息服务功能,还能提供许多与标签相关的服务如热点分析和企业推荐等。企业画像作为画像技术的一种新型应用,不仅包含了企业的名称、位置和关键词等多模实体标签,还拥有众多的兴趣与偏好主题标签,比如企业的研发方向和经营范围等。这些标签混合在一起形成了非常复杂的结构特征,尤其以企业为中心的各类关系网络已成为传统企业画像扩展的重要特征。通过画像技术对不同维度的信息进行处理和整合,能够为企业和政府提供更便利的服务。

但现有的企业画像标签抽取还存在以下问题:1、深层次的预训练语言模型虽然能够提高标签抽取的准确率,但模型的高计算成本使其无法在有限的资源下轻易实现,深层次的预训练语言模型很难在实际场景中得到应用;2、传统标签抽取方法往往只针对同一类型数据进行抽取,却忽略了不同类型的企业情境信息在标签抽取中的作用,无法有效发现企业情境特征,导致标签概括能力差。

此技术是淮阴工学院李翔研发,淮阴工学院,位于江苏省淮安市,宗旨和业务范围是“培养高等学历人才,促进社会发展。工学类、理学类、经济学类、管理学类、文学类、法学类、艺术学类和农学类学科本科学历教育工程硕士研究生学历教育相关科学研究技术开发继续教育专业培训学术交流与咨询服务会议展览服务”。

与现有技术相比,此技术产生的有益效果:

1、本发明首先将企业情境信息向量化后与企业文本进行向量拼接,得到融合企业情境信息的企业文本,构建复杂度较高的主干网络进行模型训练,并构建小规模TextCNN枝干网络内嵌到前11层Transformer的主干网络上,将融合后的企业文本传入拥有12层Transformer的Bert模型发现其隐藏特征,使用主干网络指导枝干网络进行知识蒸馏和标签抽取,再传入BiLSTM网络和最大池化层进一步发现其上下文特征和局部特征。本发明普遍适用于标签建模和标签抽取问题,使用企业情境嵌入可以有效提高标签抽取的准确率,同时拥有知识蒸馏的深度学习模型可以提高标签抽取效率,使其在实际场景中更好的应用。其能够精确刻画企业特点,弥补传统企业画像的不足;同时优化标签建模的速率,缩减从业者的工作时长,提高企业画像系统的运行效率。

2、本发明中的情境嵌入和知识蒸馏对企业画像标签抽取有着重要的作用和意义。因此,为更好应对实际场景下的标签抽取,企业情境嵌入和知识蒸馏为我们提供了新的思路,本发明使用情境嵌入和知识蒸馏在提高计算效率的同时,进一步提高了抽取准确率。

技术转让,许可,合作所需资金需双方协商,此项技术想尽快落地保定,希望具备此项技术研发的技术方,能够尽快承接此项目。