该项目围绕图文识别关键技术,针对版面复杂和内容多样引起的识别解析难、语种众多和资源稀缺引起的统一建模难、场景多样和算力受限引起的跨平台部署难三大挑战,取得了多语种复杂场景图文识别关键技术突破,实现了规模化应用。
1提出了基于树状解码器的多层次版面解析方法,通过跨层次版面分析以及多模态信息利用,显著提高了复场景下的版面解析效果。在 2018 年 ICPR 举办的自然场景OCR 领域国际比赛 MTWI 中取得检测、识别和端端三项任务国际第一。2.提出了基于端到端句法分析的复杂场景多样式图文识别框架和区分性编码的场景自适应技术,显著提高了多样式图文识别效果。在 2019 年 ICDAR-CROHME 和 2020 年ICFHR-OffRaSHME 两次手写数学公式国际比赛中取得第一。3.提出了基于字符结构统一编码的跨语种联合建模和基于可形变卷积的多语种图文生成方法,形成了多语种弱监督统一建模框架,显著提高了低资源情况下多语种图文识别效果。在 14 个语种上文字识别率超过谷歌公开接口效果,达到了国际领先水平。4.提出了算力高适配的神经网络结构搜索和跨平台训练推理一体化技术,研发了跨平台高适配图文理解系统。实现了业界首个基于 NPU 的高效端侧图文识别系统、RTOS芯片级图文识别系统;实现了多语种复杂场景图文理解系统在不同平台下的快速部署和自动适配,推动在多域的规模化应用
刘聪 高级工程师 科大讯飞股份有限公司全面负责项目整体规划和成果推广应用
2 殷兵 高级工程师 科大讯飞股份有限公司负责项目成果推广应用的整体规划及具体实施路径的制定
3 吕岳 教授 华东师范大学 负责关键技术的整体规划及具体实施路径的制定
4 胡金水 工程师 科大讯飞股份
有限公司对本项目创新点二作出创造性的贡献,提出基于端到端句法解析的多样式文本识别方法
5 张建树 工程师 科大讯飞股份有限公司对本项目创新点一作出创造性的贡献,提出基于树状解码器的多粒度版面结构理解方法
6 吴嘉嘉 工程师 科大讯飞股份有限公司对本项目创新点三作出创造性的贡献,提出编码统一的多语种联合模方法
7 殷保才 工程师 科大讯飞股份有限公司8 杜俊-副教授 中国科学技术大学
9 汪增福 研究员 中国科学院合肥物质科学研究院
10 王海坤工程师 安徽聆思智能科技有限公司11 刘庆升高级工程师 安徽淘云科技股份有限公司
12 潘青华工程师 科大讯飞股份有限公司13 于振华工程师 科大讯飞股份有限公司14 竺博 高级工程师 科大讯飞股份有限公司15 谢名亮工程师 科大讯飞股份有限公司
评价单位:“科创中国”人工智能专业科技服务团 (中国人工智能学会)
评价时间:2022-11-13
综合评价
鉴定委员会认为,该项目成果在技术和应用上具有显著的创新性,研制难度大,整体技术达到国际先进水平,其中基于端到端句法分析的多样式文本识别方法、多语种图文识别技术、跨平台高适配图文理解系统等关键技术上处于国际领先水平。该成果在智能硬件、教育、司法等重大行业开展了规模化应用,取得了重大经济和社会效益。
查看更多>