基于深度学习与知识图谱的智能电子档案管理系统
成果类型:: 新技术
发布时间: 2022-09-30 18:20:34
电子档案管理系统是企事业单位的档案现代化管理的重要技术手段。当前电子档案影像资料的分类、关键信息提取、摘要等工作仍然需要人工完成。随着信息资源数字化、网络化的进程进一步加快,海量档案资料自动分类、自动摘要、自动关键字提取等智能化要求越来越迫切。本项目研究基于知识图谱与深度学习的电子档案智能管理技术,通过对(高速)扫描仪或相机获取的档案影像进行OCR 识别,运用自然语言处理技术实现档案影像自动分类、自动摘要和自动关键信息提取,从而大大减轻档案管理人员的劳动强度,提高档案资料影像化采集的质量和效率。
1、基于预训练词向量和允许字符集的OCR 识别结果检错与纠错技术由于种种原因,OCR 识别结果往往存在识别错误。这些错误的文本如果不预先进行纠错,将会影响分类器的训练的效果和文本分类的精度。本项目利用CBOW 原理,通过将待检词序列中的异常词代入预训练CBOW 模型,获得异常词位置的最大概率候选词,用该候选词替换异常词,从而实现文本纠错。在此基础上,根据OCR 识别结果,结合额外的有用信息,尽可能的对识别结果进行纠错,进一步提高识别准确率减少人工校对的工作量。2、基于深度学习的文本自动分类技术对档案图像中的文本进行识别,对识别结果文本集合中的文本进行特征提取,形成文本特征向量集合,以文本特征向量集合为输入,— 68 —对应的类别为输出,训练基于深度神经网络文本分类器,对档案进行自动分类。3、基于知识图谱的电子档案多级分类技术根据特定领域内的文本分类信息构建知识图谱本体,基于本体构建多级类别模型,利用分类器提取OCR 软件识别结果的类别,从而实现OCR 识别结果的自动多级分类。
本项目研究基于知识图谱与深度学习的电子档案智能管理技术,通过对(高速)扫描仪或相机获取的档案影像进行OCR 识别,运用自然语言处理技术实现档案影像自动分类、自动摘要和自动关键信息提取,从而大大减轻档案管理人员的劳动强度,提高档案资料影像化采集的质量和效率。
基于知识图谱的电子档案多级分类技术根据特定领域内的文本分类信息构建知识图谱本体,基于本体构建多级类别模型,利用分类器提取OCR 软件识别结果的类别,从而实现OCR 识别结果的自动多级分类。
当前电子档案影像资料的分类、关键信息提取、摘要等工作仍然需要人工完成。