电子档案管理系统是企事业单位的档案现代化管理的重要技术
手段。当前电子档案影像资料的分类、关键信息提取、摘要等工作仍
然需要人工完成。随着信息资源数字化、网络化的进程进一步加快,
海量档案资料自动分类、自动摘要、自动关键字提取等智能化要求越
来越迫切。
本项目研究基于知识图谱与深度学习的电子档案智能管理技术,
通过对(高速)扫描仪或相机获取的档案影像进行OCR 识别,运用
自然语言处理技术实现档案影像自动分类、自动摘要和自动关键信息
提取,从而大大减轻档案管理人员的劳动强度,提高档案资料影像化
采集的质量和效率。
1、基于预训练词向量和允许字符集的OCR 识别结果检错与纠错
技术
由于种种原因,OCR 识别结果往往存在识别错误。这些错误的
文本如果不预先进行纠错,将会影响分类器的训练的效果和文本分类
的精度。本项目利用CBOW 原理,通过将待检词序列中的异常词代
入预训练CBOW 模型,获得异常词位置的最大概率候选词,用该候
选词替换异常词,从而实现文本纠错。在此基础上,根据OCR 识别
结果,结合额外的有用信息,尽可能的对识别结果进行纠错,进一步
提高识别准确率减少人工校对的工作量。
2、基于深度学习的文本自动分类技术
对档案图像中的文本进行识别,对识别结果文本集合中的文本进
行特征提取,形成文本特征向量集合,以文本特征向量集合为输入,
— 68 —
对应的类别为输出,训练基于深度神经网络文本分类器,对档案进行
自动分类。
3、基于知识图谱的电子档案多级分类技术
根据特定领域内的文本分类信息构建知识图谱本体,基于本体构
建多级类别模型,利用分类器提取OCR 软件识别结果的类别,从而
实现OCR 识别结果的自动多级分类。
本项目依托西安电子科技大学机电工程学院工业互联
网与云计算研究中心、西电-途游AI 联合实验室的软硬件环境和研发
力量,采用供需结合、产教融合、校企合作的形式开展研发工作。团
队目前有教授3 名,副教授5 名,博士6 名、硕士2 名,硕士研究生
23 名,主要成员包括:
李向宁,男,计算机软件与理论专业博士,项目负责人,负责整
体技术方案设计、软件开发和成果推广。
赵克,男,机械制造及自动化专业博士,技术顾问,主要负责深
度学习、自然语言理解方案设计和指导。
李龙海,男,计算机应用专业博士,技术骨干,主要负责OCR
识别系统的研发。
程培涛,男,机械制造及自动化专业博士,技术骨干,主要负责
智能检错纠错算法的研发。
李燕,女,英语教育专业本科,市场主管,主要负责产品推广。
张函婧,女,新闻传媒专业本科,政企主管,主要负责政府产业
政策对接,校企合作。
评价单位:- (-)
评价时间:2023-10-29
综合评价
该技术创新性很强,且技术成熟,投资回报比较可靠。总体而言,该项技术思路方向很好,未来市场空间较大,有利于当前政策要求,转化成熟度高,值得支持推广。建议强化相应产品开发,加大产业链开发力度。
查看更多>