_科创中国

基于深度学习与知识图谱的智能电子档案管理系统

成果类型：: 新技术

发布时间: 2022-09-30 18:20:34

科技成果产业化落地方案

方案提交机构：“科创中国”陕西智能制造区域科技服务团| 赵燕琦 | 2022-11-18 15:29:43

成果简介技术亮点应用前景团队概括产生的效益转化方式

电子档案管理系统是企事业单位的档案现代化管理的重要技术手段。当前电子档案影像资料的分类、关键信息提取、摘要等工作仍然需要人工完成。随着信息资源数字化、网络化的进程进一步加快，海量档案资料自动分类、自动摘要、自动关键字提取等智能化要求越来越迫切。本项目研究基于知识图谱与深度学习的电子档案智能管理技术，通过对（高速）扫描仪或相机获取的档案影像进行OCR 识别，运用自然语言处理技术实现档案影像自动分类、自动摘要和自动关键信息提取，从而大大减轻档案管理人员的劳动强度，提高档案资料影像化采集的质量和效率。

1、基于预训练词向量和允许字符集的OCR 识别结果检错与纠错技术由于种种原因，OCR 识别结果往往存在识别错误。这些错误的文本如果不预先进行纠错，将会影响分类器的训练的效果和文本分类的精度。本项目利用CBOW 原理，通过将待检词序列中的异常词代入预训练CBOW 模型，获得异常词位置的最大概率候选词，用该候选词替换异常词，从而实现文本纠错。在此基础上，根据OCR 识别结果，结合额外的有用信息，尽可能的对识别结果进行纠错，进一步提高识别准确率减少人工校对的工作量。2、基于深度学习的文本自动分类技术对档案图像中的文本进行识别，对识别结果文本集合中的文本进行特征提取，形成文本特征向量集合，以文本特征向量集合为输入，— 68 —对应的类别为输出，训练基于深度神经网络文本分类器，对档案进行自动分类。3、基于知识图谱的电子档案多级分类技术根据特定领域内的文本分类信息构建知识图谱本体，基于本体构建多级类别模型，利用分类器提取OCR 软件识别结果的类别，从而实现OCR 识别结果的自动多级分类。

本项目研究基于知识图谱与深度学习的电子档案智能管理技术，通过对（高速）扫描仪或相机获取的档案影像进行OCR 识别，运用自然语言处理技术实现档案影像自动分类、自动摘要和自动关键信息提取，从而大大减轻档案管理人员的劳动强度，提高档案资料影像化采集的质量和效率。

本项目依托西安电子科技大学机电工程学院工业互联网与云计算研究中心、西电-途游AI 联合实验室的软硬件环境和研发力量，采用供需结合、产教融合、校企合作的形式开展研发工作。团队目前有教授3 名，副教授5 名，博士6 名、硕士2 名，硕士研究生 23 名，主要成员包括：李向宁，男，计算机软件与理论专业博士，项目负责人，负责整体技术方案设计、软件开发和成果推广。赵克，男，机械制造及自动化专业博士，技术顾问，主要负责深度学习、自然语言理解方案设计和指导。李龙海，男，计算机应用专业博士，技术骨干，主要负责OCR 识别系统的研发。程培涛，男，机械制造及自动化专业博士，技术骨干，主要负责智能检错纠错算法的研发。李燕，女，英语教育专业本科，市场主管，主要负责产品推广。张函婧，女，新闻传媒专业本科，政企主管，主要负责政府产业政策对接，校企合作。

基于知识图谱的电子档案多级分类技术根据特定领域内的文本分类信息构建知识图谱本体，基于本体构建多级类别模型，利用分类器提取OCR 软件识别结果的类别，从而实现OCR 识别结果的自动多级分类。

当前电子档案影像资料的分类、关键信息提取、摘要等工作仍然需要人工完成。