基于时空解耦注意力机制的视频目标分割方法
成果类型:: 发明专利
发布时间: 2023-09-26 16:24:16
现有STM算法是针对自然视频提出的,采用“全局注意力”匹配机制,需要对当前帧所有点和记忆帧进行全局相似性匹配计算,以提取当前帧任一点的全局语义信息,辅助当前帧的分割。然而与自然图像视频不同的是,在超声视频中,病变区域通常在跨记忆帧的局部邻域内,使用全局注意力可能会引入相似的误导性信息。而且“全局注意力”匹配机制密集型的计算模式不可避免的带来了巨大的计算成本,当记忆帧数多时,难以达到实时的需求。同时,原始STM在运行过程中的内存消耗是随着视频帧数的增长而不断增加的,具有内存溢出风险。
在一种实施方式中,融合特征所对应的融合特征图,是通过将空间维度的优化后特征图和时间维度的优化后特征图,在沿着通道维度拼接之后,输入到一个卷积层进行特征融合得到。
在一种实施方式中,视频目标分割模型包括记忆模块,用于存储视频数据;所述记忆模块设置要存储的视频帧数最大值Max;当记忆视频段中的视频帧数达到最大值Max时,采用卷积操作将当前待检测视频段和记忆视频段中的视频帧进行融合,使得记忆模块中的视频帧数始终保持在一个安全的规模。
在一种实施方式中,解码器将时间特征图和空间特征图的通道维度进行拼接;解码器由M1个细化模块构成,每个细化模块由M2个残差卷积块串联构成,M1、M2为设定值;在每个细化模块,解码器将前一细化模块的输出和当前输出所对应的编码器的特征图进行跳跃连接,并通过插值将输出特征图大小调整为当前帧的尺寸,从而获得当前帧的预测遮罩。
技术合作
本发明所提出的方法具有下述有益效果:
(1)适用于超声视频的病灶分割,与医学图像分割方法不同,本发明充分利用了视频的时间维度信息以提升分割结果。
(2)方法中的时间-空间解耦注意力模块,是由时间注意力模块和空间注意力模块并行组成,相比于卷积神经网络,该模块在特征学习时具有无限的可视野,相比于STM的注意力机制,大大降低了计算复杂度。
(3)方法中采用记忆模块历史视频段融合机制,相比于之前的STM中使用的历史视频帧融合机制,在保证历史帧信息不会被随意丢弃的条件下,可用较小的设备内存运行本发明提出的算法模型,进一步提升了实际应用性。
(4)而整个方法中最耗时的时间和空间解耦的注意力模块是通过并行分段化的方式分别计算再进行组合的,并行的分段化的方式可以有效提升计算速率,加速推理速度。
尽管以上结合附图对本发明的实施方案进行了描述,但本发明并不局限于上述的具体实施方案和应用领域,上述的具体实施方案仅仅是示意性的、指导性的,而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下,还可以做出很多种的形式,这些均属于本发明保护之列。