您所在的位置: 成果库 基于深度学习与知识图谱的智能电子档案管理系统

基于深度学习与知识图谱的智能电子档案管理系统

发布时间: 2022-09-30

来源: 科技服务团

基本信息

合作方式: 合作开发
成果类型: 新技术
行业领域:
新一代信息技术产业,人工智能
成果介绍
电子档案管理系统是企事业单位的档案现代化管理的重要技术 手段。当前电子档案影像资料的分类、关键信息提取、摘要等工作仍 然需要人工完成。随着信息资源数字化、网络化的进程进一步加快, 海量档案资料自动分类、自动摘要、自动关键字提取等智能化要求越 来越迫切。 本项目研究基于知识图谱与深度学习的电子档案智能管理技术, 通过对(高速)扫描仪或相机获取的档案影像进行OCR 识别,运用 自然语言处理技术实现档案影像自动分类、自动摘要和自动关键信息 提取,从而大大减轻档案管理人员的劳动强度,提高档案资料影像化 采集的质量和效率。
成果亮点
1、基于预训练词向量和允许字符集的OCR 识别结果检错与纠错 技术 由于种种原因,OCR 识别结果往往存在识别错误。这些错误的 文本如果不预先进行纠错,将会影响分类器的训练的效果和文本分类 的精度。本项目利用CBOW 原理,通过将待检词序列中的异常词代 入预训练CBOW 模型,获得异常词位置的最大概率候选词,用该候 选词替换异常词,从而实现文本纠错。在此基础上,根据OCR 识别 结果,结合额外的有用信息,尽可能的对识别结果进行纠错,进一步 提高识别准确率减少人工校对的工作量。 2、基于深度学习的文本自动分类技术 对档案图像中的文本进行识别,对识别结果文本集合中的文本进 行特征提取,形成文本特征向量集合,以文本特征向量集合为输入, — 68 — 对应的类别为输出,训练基于深度神经网络文本分类器,对档案进行 自动分类。 3、基于知识图谱的电子档案多级分类技术 根据特定领域内的文本分类信息构建知识图谱本体,基于本体构 建多级类别模型,利用分类器提取OCR 软件识别结果的类别,从而 实现OCR 识别结果的自动多级分类。
团队介绍
本项目依托西安电子科技大学机电工程学院工业互联 网与云计算研究中心、西电-途游AI 联合实验室的软硬件环境和研发 力量,采用供需结合、产教融合、校企合作的形式开展研发工作。团 队目前有教授3 名,副教授5 名,博士6 名、硕士2 名,硕士研究生 23 名,主要成员包括: 李向宁,男,计算机软件与理论专业博士,项目负责人,负责整 体技术方案设计、软件开发和成果推广。 赵克,男,机械制造及自动化专业博士,技术顾问,主要负责深 度学习、自然语言理解方案设计和指导。 李龙海,男,计算机应用专业博士,技术骨干,主要负责OCR 识别系统的研发。 程培涛,男,机械制造及自动化专业博士,技术骨干,主要负责 智能检错纠错算法的研发。 李燕,女,英语教育专业本科,市场主管,主要负责产品推广。 张函婧,女,新闻传媒专业本科,政企主管,主要负责政府产业 政策对接,校企合作。
成果资料
产业化落地方案
点击查看
成果综合评价报告

评价单位:- (-) 评价时间:2023-10-29

李卫斌

西安电子科技大学

教授

综合评价

该技术创新性很强,且技术成熟,投资回报比较可靠。总体而言,该项技术思路方向很好,未来市场空间较大,有利于当前政策要求,转化成熟度高,值得支持推广。建议强化相应产品开发,加大产业链开发力度。
查看更多>
更多