您所在的位置: 成果库 基于空洞卷积和多尺度多分支的图像语义分割方法及系统

基于空洞卷积和多尺度多分支的图像语义分割方法及系统

成果类型:: 发明专利

发布时间: 2023-10-17 10:24:59

科技成果产业化落地方案
方案提交机构:成果发布人| 涂媛 | 2023-10-17 10:24:59

本发明公开了基于空洞卷积和多尺度多分支的图像语义分割方法及系统,包括:通过摄像头获取待处理图像;对待处理图像进行预处理;对预处理图像分别进行并行两个分支的特征提取,其中第一个分支提取出第一特征;第二个分支提取出第二特征;对第一特征和第二特征均进行不同尺度的全局上下文特征提取,分别得到四个尺度的全局上下文特征;对八个尺度的全局上下文特征进行融合,得到融合特征;对融合特征进行上采样操作;将上采样后的融合特征输入到训练后的分类器中,输出图像语义分割结果。

而对于实时性和准确性要求更高的实时语义分割领域,一些网络结构由于骨架网络层数太多,参数量太大,而导致运行速度大打折扣,使得实时性要求无法满足。这一问题的解决主要是通过改变骨架网络结构解决的,比如ENet主体是基于ResNet,并且该网络结构中,所有卷积层channel数最高只有128,相对于ResNet50里面的2048降低了非常多,使得计算速度有了一定的提升。SQ的网络结构基于传统的先特征提取,然后再进行上采样,跟FCN差不太多,然后一起融合生成预测的方式。但是在实时语义分割的应用场景中,由于场景信息持续动态变化,其仍面临着尺度变化频繁的问题,并且现有方法通过引入空洞卷积改变卷积核的大小仍存在许多问题,比如空洞卷积扩张率太小会限制神经元的感受野,使其无法有效提取全局特征,太大又会导致学习到远距离的不相关特征并丢失近距离的细节信息。另一方面,利用更好的骨架网络能够取得更好的特征提取也就是Encoder的效果,但是相对而言计算所需要的代价就越高。浅层网络运算速度快但是特征提取效果很差,这两者难以进行一个权衡呢;所以,现有语义分割方法还不能有效解决空洞卷积扩张率和协调网络深度和运算速度的问

本部分的陈述仅仅是提到了与本申请相关的背景技术,并不必然构成现有技术。

语义分割指的是对一张图像在像素级别上对其进行分割,具体来说是对图像的每一个像素,预测其所属类别的计算机视觉问题,实时语义分割则对实时性和准确性提出了更为严格的要求。由于近些年计算机算力的不断提升和更多更优秀的深度神经网络模型的提出,实时语义分割在自动驾驶、遥感成像等需要精细化信息的领域上有着非常广阔的应用前景,能够为计算机针对场景进行理解提供重要帮助。

在深度学习方法流行之前,TextonForest和基于随机森林分类器等语义分割方法是用得比较多的方法。不过在深度卷积网络流行之后,深度学习方法比传统方法提升了很多。目前常用的深度学习语义分割方法大多是基于全卷积神经网络进行的。全卷积神经网络舍弃了普通卷积神经网络结构中的全连接层,取而代之的是一定深度的反卷积层,又称解码器。整个分割过程大体是先通过解码器对输入图像进行多次下采样,提取不同的特征信息,得到不同分辨率的特征图,然后经过解码器针对特征图上采样,将其还原至与输入图像同等尺寸,并对各部分特征像素进行分类。然而这种方式存在一个问题,就是低层的特征图包含丰富的空间信息并且分辨率高,但特征信息匮乏,而高层的特征图特征信息丰富但分辨率低且空间信息较少。FCN(Fully Convolutioin Network)创新性地引入了跳跃连接,一定程度上解决了这一问题,大体思想是将高层低分辨率的特征图通过扩大相应的倍数,来与低层高分辨率的特征图进行融合,得到了分辨率高特征信息丰富的特征图,提高了语义分割的精度。UNet则是在其基础上改进的一个更为优雅的网络结构,它是对称的U型结构,他将每一层的特征图都与通过解码器上采样得到的特征图进行跳跃连接,获得了更为丰富的融合特征,使语义分割的精度大大提高,因此,UNet在医学图像的分割上得到了广泛的应用。

此技术是山东师范大学吕蕾研发,山东师范大学,位于山东省济南市,宗旨和业务范围是“面向社会培养高等学历师资人才,进行成人教育,促进教育事业发展”。

与现有技术相比,本申请的有益效果是:

本发明提出了一个基于自适应形变空洞卷积和多尺度多分支的实时语义分割方法,使用双分支网络结构进行特征提取,浅层网络负责提取空间信息,深层网络负责提取场景上下文信息及高层次特征信息。同时引入自适应形变空洞卷积模块,可以有效解决空洞卷积扩张率的问题。

本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

技术转让,许可,合作所需资金需双方协商,此项技术想尽快落地保定,希望具备此项技术研发的技术方,能够尽快承接此项目。