本发明适用于文字识别技术领域,提供了一种识别场景文字的方法及装置,包括:获取文本图像中的候选文本成分,对获取到的候选文本成分进行预处理,提取成分区域关联特征;获取该文本图像中的全局特征;将该成分区域关联特征以及该全局特征输入至预先建立的深信度网络模型;根据预先建立的深信度网络模型中的字符识别器,识别出该成分区域关联特征所属的字符;对识别出的字符进行配对,组成文本行或者词条。本发明避免了逐行扫描大量滑动窗口所带来的巨大运算量的情况,并避免了滑动窗口扫描仅局限于水平方向上的文本检测的情况,从而减少了运算量,在多个方向上进行检测,并且利用深信度网络有效地降低误检测率,提高了文字识别的效率和准确率。
获取所述候选文本成分外框的长度和宽度的比率,作为第一个全局特征;获取所述文本图像中笔画宽度和所述候选文本成分外框的长度和宽度的比率,作为第二个全局特征;获取所述候选文本成分中笔画像素的面积和所述候选文本成分外框的面积的比率,作为第三个全局特征;将所述成分区域关联特征以及所述全局特征输入至预先建立的深信度网络模型;根据预先建立的深信度网络模型中的字符识别器,识别出所述成分区域关联特征所属的字符;对识别出的字符进行配对,组成文本行或者词条。
场景文字为存在于日常生活的各种场景图像中的文字。通常,在文字和其他物体 并存的场景图像中,用户往往首先更关注场景图像中的文本,因此将场景图像中出现的文 字抽取出来,对场景图像的文字进行识别,会对用户提供很有意义的帮助。通常,将场景图像中出现的文字抽取出来,对场景图像的文字进行识别的文本检 测系统,可以分成两大类。第一类是基于滑动窗口模型的文本检测系统,这种模型的基本原理是利用不同大 小和形状的滑动窗口来遍历扫描场景图片的不同区域。
中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。
通过根据预先建立的深信度网络模型中的字符识别器,识别 出所述成分区域关联特征所属的字符,对识别出的字符进行配对,组成文本行或者词条避 免了逐行扫描大量滑动窗口所带来的巨大运算量的情况,并避免了滑动窗口扫描仅局限于 水平方向上的文本检测的情况,从而减少了运算量,在多个方向上进行检测,提高了文字识 别的效率和准确率。
技术合作
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何 熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应 涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。