您所在的位置: 成果库 特征判别增强的高效图像语义分割方法

特征判别增强的高效图像语义分割方法

成果类型:: 发明专利

发布时间: 2023-08-15 17:40:04

科技成果产业化落地方案
方案提交机构:“科创中国”机器视觉与智能产业科技服务团| 孙婧雅 | 2023-09-23 11:50:54

华中科技大学开展了特征判别增强的高效图像语义分割方法。图像语义分割对图像中每个像素进行分类,是图像深度理解的基础,方法应用于自动驾驶、无人智能系统等领域。现有图像语义分割方法还面临两个问题:1)准确的语义分割即需要高层语义特征和低层细节特征,也需要同类特征和异类特征,但是他们两两之间都存在一定程度的冲突,但是现有方法忽略了这种耦合,导致特征判别性有限;2)语义分割很大程度上依赖于上下文信息,但是现有方法通常倾向于采用所有的上下文信息,一方面部分上下文信息对语义分割没有帮助甚至导致特征区分能力下降,另一方面还增加了运算量。如何解决耦合特征之间的冲突和选择有效的上下文信息对语义理解至关重要,因此特征判别增强的高效图像理解框架是图像语义理解的关键科学问题。实现指标:1)在单张NVIDIA GeForce GTX 1080 Ti的GPU卡上,速度达到了156FPS,提升了算法适应性,成为了不同领域的基准算法。2)提出了一种高效的上下文建模策略,大幅减少自注意力机制的冗余计算,提升分割性能与效率。实验表明,性能提高的同时,该方法GLOPS和推理速度约分别为自注意力机制的1/17和1/6。

针对高层-低层、同类-异类特征耦合问题,研究特征解耦的语义理解框架,实现了准确高效的语义分割。

(1)提出了双通路的场景图像的实时像素级语义分割方法,为高精度的实时语义分割提供了基准算法

基于深度学习的图像语义分割方法已经取得了不错的效果,但是受限于网络的规模,其速度远不能达到实时的要求。同时,语义分割需要定位精度和语义两个方面的信息,网络越深提取语义越准确,但定位精度越差。因此,在目前的深度网络模型中定位精度和语义对于网络的需求是有冲突的。

针对上述难点,深入研究了不同网络深度对于定位精度和分类两个方面的影响,提出一种双通路的场景图像语义分割方法。通过网络结构设计为双通路,将定位和分类两个任务解耦,分别解决定位精度和分类的问题,利用一个较浅且通道数多的通路来获取高精度的定位信息,并利用一个较深且通道数少的通路来获取准确的语义信息,有效解决了两者之间的矛盾,并大幅提高运算速度,实现了实时语义分割。

(2)提出了基于自主特征选择的图像分割方法,提升算法性能的同时大幅减少了计算量

目前主流的图像语义分割方法依赖于大范围的上下文关系建模,有利于推理分割场景要素,当前场景分割方法往往利用自注意力机制建模远距离关系。但是自注意力机制中存在大量冗余计算,导致复杂度较高,限制了它的应用;同时,大量冗余信息也降低了特征的判别性。

针对上述难点,通过学习的方式选择少量“重要”上下文信息,提出基于自主特征选择的图像分割方法。采用基于相似性关系引导特征选择的思路,提出了代表图分割算法,通过学习特征相似性关系,引导特征选择过程,使其选择有代表性的特征,进而有效建模远距离关系,提高特征判别性。

在“特征判别增强的高效图像理解框架”方面取得了一些理论成果,论文发表于计算机视觉顶级期刊IJCV、顶级会议CVPR、ECCV等。成果取得了广泛的关注。提出的BiSeNet入选ECCV2018最具影响力20篇论文,入选ESI热点论文、ESI高被引论文,谷歌学术引用1200余次。BiSeNet已经被集成到百度paddlepaddle、商汤mmseg等知名深度学习平台,广泛应用于人脸属性编辑、3D人脸合成、非接触心率估计等领域。发布的图像语义理解工具torchseg在Github点赞1400余次。

本项目研制的特征判别增强的高效图像语义分割方法是图像深度理解的基础,可应用于自动驾驶、无人智能系统等领域。

高常鑫,华中科技大学人工智能与自动化学院教授,博士生导师。主要研究方向为目标场景图像解析与理解。近年来,主持湖北省杰出青年基金1项、国家自然科学基金面上项目2项、装备预研项目2项;以第一/通讯作者发表高水平期刊会议论文20余篇,ESI热点论文1篇,ESI高被引论文1篇,入选计算机视觉顶级会议ECCV2018最具影响力论文top20;授权发明专利12项,3项成功转让;获CVPR举办的行为分析权威技术挑战赛冠军6项。研究成果作为核心技术应用于公共安全视频监控,取得了显著的经济和社会效益,2019年获湖北省科技进步一等奖(排2)。桑农,华中科技大学人工智能与自动化学院教授,博士生导师。2001年获得华中科技大学工学博士学位。作为项目负责人先后承担了国家自然科学基金重点项目、联合基金重点项目与面上项目、863计划项目、高分辨率对地观测系统重大专项项目等国家与省部级课题30余项的研究,获得省部级一等奖6项,二等奖5项,三等奖2项。在国际学术期刊、会议发表论文50余篇。2005年入选教育部“新世纪优秀人才支持计划”。

在“特征判别增强的高效图像理解框架”方面取得了一些理论成果,论文发表于计算机视觉顶级期刊IJCV、顶级会议CVPR、ECCV等。成果取得了广泛的关注。提出的BiSeNet入选ECCV2018最具影响力20篇论文,入选ESI热点论文、ESI高被引论文,谷歌学术引用1200余次。BiSeNet已经被集成到百度paddlepaddle、商汤mmseg等知名深度学习平台,广泛应用于人脸属性编辑、3D人脸合成、非接触心率估计等领域。发布的图像语义理解工具torchseg在Github点赞1400余次。

可考虑技术合作,技术咨询的转化方式。