图文识别关键技术及产业化应用
成果类型:: 发明专利,软件著作权,著作权
发布时间: 2022-11-12 18:07:12
该项目围绕图文识别关键技术,针对版面复杂和内容多样引起的识别解析难、语种众多和资源稀缺引起的统一建模难、场景多样和算力受限引起的跨平台部署难三大挑战,取得了多语种复杂场景图文识别关键技术突破,实现了规模化应用。
1提出了基于树状解码器的多层次版面解析方法,通过跨层次版面分析以及多模态信息利用,显著提高了复场景下的版面解析效果。在 2018 年 ICPR 举办的自然场景OCR 领域国际比赛 MTWI 中取得检测、识别和端端三项任务国际第一。2.提出了基于端到端句法分析的复杂场景多样式图文识别框架和区分性编码的场景自适应技术,显著提高了多样式图文识别效果。在 2019 年 ICDAR-CROHME 和 2020 年ICFHR-OffRaSHME 两次手写数学公式国际比赛中取得第一。3.提出了基于字符结构统一编码的跨语种联合建模和基于可形变卷积的多语种图文生成方法,形成了多语种弱监督统一建模框架,显著提高了低资源情况下多语种图文识别效果。在 14 个语种上文字识别率超过谷歌公开接口效果,达到了国际领先水平。4.提出了算力高适配的神经网络结构搜索和跨平台训练推理一体化技术,研发了跨平台高适配图文理解系统。实现了业界首个基于 NPU 的高效端侧图文识别系统、RTOS芯片级图文识别系统;实现了多语种复杂场景图文理解系统在不同平台下的快速部署和自动适配,推动在多域的规模化应用
图文识别关键技术具有重大国家战略意义:能够进行复杂符号的电子化,提高人机交互效率,支撑我国人工智能持续走在全球前列;同时是海量纸质媒介信息抽取唯一入口,能够夯实我国数字经济高质量发展的基础;也是国际网络舆情嗅探以及与“一带一路”多元文化交流融通的关键技术。
刘聪 高级工程师 科大讯飞股份有限公司全面负责项目整体规划和成果推广应用2 殷兵 高级工程师 科大讯飞股份有限公司负责项目成果推广应用的整体规划及具体实施路径的制定3 吕岳 教授 华东师范大学 负责关键技术的整体规划及具体实施路径的制定4 胡金水 工程师 科大讯飞股份有限公司对本项目创新点二作出创造性的贡献,提出基于端到端句法解析的多样式文本识别方法5 张建树 工程师 科大讯飞股份有限公司对本项目创新点一作出创造性的贡献,提出基于树状解码器的多粒度版面结构理解方法6 吴嘉嘉 工程师 科大讯飞股份有限公司对本项目创新点三作出创造性的贡献,提出编码统一的多语种联合模方法7 殷保才 工程师 科大讯飞股份有限公司8 杜俊-副教授 中国科学技术大学9 汪增福 研究员 中国科学院合肥物质科学研究院10 王海坤工程师 安徽聆思智能科技有限公司11 刘庆升高级工程师 安徽淘云科技股份有限公司12 潘青华工程师 科大讯飞股份有限公司13 于振华工程师 科大讯飞股份有限公司14 竺博 高级工程师 科大讯飞股份有限公司15 谢名亮工程师 科大讯飞股份有限公司
项目已获授权发明专利 43 项,在 CVPR、ICCV、ICML 等高水平期刊或会议发表论文 40 篇。成果应用于翻译机、扫描笔、办公本、学习机等产品,实现直接经济效益 23.58 亿元;服务全国超过 400 家法院;相关服务上线开放平台,日均调用量达到 5000 万次,繁荣了人工智能产业生态。
本项目依托国家高技术研究发展计划、国家重点研发计划等重大项目,开展产学研联合攻关,取得了一系列国际领先的创新成果:
(1)层次化版面分析与理解新方案。
(2)高精度结构化统一识别新框架。
(3)跨平台迭代进化新系统。