_科创中国

基于时空解耦注意力机制的视频目标分割方法

成果类型：: 发明专利

发布时间: 2023-09-26 16:24:16

科技成果产业化落地方案

方案提交机构：“科创中国”天津中科院先进科技成果技术转移转化专业科技服务团| 宋学姮 | 2023-10-10 10:01:07

成果简介技术亮点应用前景团队概括产生的效益转化方式

本发明涉及一种基于时空解耦注意力机制的视频目标分割方法，该方法将当前待检测视频段、当前帧的前一帧、包含前一帧在内的之前的记忆视频段输入训练好的视频目标分割模型，获得当前待检测视频段的预测遮罩，完成当前待检测视频段中的目标分割；所述视频目标分割模型对输入的当前待检测视频段、当前帧的前一帧、包含前一帧在内的之前的记忆视频段，采用时空解耦注意力机制，进行时间和空间两个维度的并行相似度计算，同时获取目标的时间特征和空间特征，继而得到融合特征，基于融合特征获得当前待检测视频段的预测遮罩，实现目标分割。所述方法能够对输入的分段化超声视频段，自动获取病灶的遮罩，能够提升超声视频病灶自动检测速度和精度。

权利要求 1.一种基于时空解耦注意力机制的视频目标分割方法，其特征在于，所述方法如下：将当前待检测视频段、当前帧的前一帧、包含前一帧在内的之前的记忆视频段输入训练好的视频目标分割模型，获得当前待检测视频段的预测遮罩，完成当前待检测视频段中的目标分割；所述视频目标分割模型对输入的当前待检测视频段、当前帧的前一帧、包含前一帧在内的之前的记忆视频段，采用时空解耦注意力机制，进行时间和空间两个维度的并行相似度计算，同时获取目标的时间特征和空间特征，继而得到融合特征，基于融合特征获得当前待检测视频段的预测遮罩，实现目标分割。 2.根据权利要求1所述的方法，其特征在于：视频目标分割模型包括编码器、VQVAE模块、时间注意力模块、空间注意力模块、解码器；其中：编码器，用于获取当前待检测视频段的键特征图(key)和值特征图(value)、当前帧的前一帧的键特征图和值特征图、包含前一帧在内的之前的记忆视频段键特征图和值特征图；

现有STM算法是针对自然视频提出的，采用“全局注意力”匹配机制，需要对当前帧所有点和记忆帧进行全局相似性匹配计算，以提取当前帧任一点的全局语义信息，辅助当前帧的分割。然而与自然图像视频不同的是，在超声视频中，病变区域通常在跨记忆帧的局部邻域内，使用全局注意力可能会引入相似的误导性信息。而且“全局注意力”匹配机制密集型的计算模式不可避免的带来了巨大的计算成本，当记忆帧数多时，难以达到实时的需求。同时，原始STM在运行过程中的内存消耗是随着视频帧数的增长而不断增加的，具有内存溢出风险。

中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力，推动我国自主知识产权新工业的建立，成为国际一流的工业研究院。深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态系统，由九个研究平台，国科大深圳先进技术学院，多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究，促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。

在一种实施方式中，融合特征所对应的融合特征图，是通过将空间维度的优化后特征图和时间维度的优化后特征图，在沿着通道维度拼接之后，输入到一个卷积层进行特征融合得到。

在一种实施方式中，视频目标分割模型包括记忆模块，用于存储视频数据；所述记忆模块设置要存储的视频帧数最大值Max；当记忆视频段中的视频帧数达到最大值Max时，采用卷积操作将当前待检测视频段和记忆视频段中的视频帧进行融合，使得记忆模块中的视频帧数始终保持在一个安全的规模。

在一种实施方式中，解码器将时间特征图和空间特征图的通道维度进行拼接；解码器由M1个细化模块构成，每个细化模块由M2个残差卷积块串联构成，M1、M2为设定值；在每个细化模块，解码器将前一细化模块的输出和当前输出所对应的编码器的特征图进行跳跃连接，并通过插值将输出特征图大小调整为当前帧的尺寸，从而获得当前帧的预测遮罩。

技术合作

本发明所提出的方法具有下述有益效果：

(1)适用于超声视频的病灶分割，与医学图像分割方法不同，本发明充分利用了视频的时间维度信息以提升分割结果。

(2)方法中的时间-空间解耦注意力模块，是由时间注意力模块和空间注意力模块并行组成，相比于卷积神经网络，该模块在特征学习时具有无限的可视野，相比于STM的注意力机制，大大降低了计算复杂度。

(3)方法中采用记忆模块历史视频段融合机制，相比于之前的STM中使用的历史视频帧融合机制，在保证历史帧信息不会被随意丢弃的条件下，可用较小的设备内存运行本发明提出的算法模型，进一步提升了实际应用性。

(4)而整个方法中最耗时的时间和空间解耦的注意力模块是通过并行分段化的方式分别计算再进行组合的，并行的分段化的方式可以有效提升计算速率，加速推理速度。

尽管以上结合附图对本发明的实施方案进行了描述，但本发明并不局限于上述的具体实施方案和应用领域，上述的具体实施方案仅仅是示意性的、指导性的，而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下，还可以做出很多种的形式，这些均属于本发明保护之列。