成果介绍
本申请公开了一种混合结构的视频识别方法、装置、设备及其存储介质,该方法包括:读取视频文件;解码视频文件,选取预设数量的视频帧图片,同时将视频帧图片缩放到预设大小;通过预设层数的卷积网络完成对视频帧图片中低维度信息的提取,消除时间冗余度;将去除冗余度的低维特征输入到transformer网络中,对全局特征进行关联和融合;将抽取的特征送入到全连接层,完成类别分数的输出。本申请提供的上述方案,既能利用卷积消除视频的局部冗余,同时能够利用transformer网络实现对全局特征进行捕获。本发明提出的混合结构模型计算量小,推理速度快,模型参数小。
成果亮点
一种混合结构的视频识别方法,其特征在于,该方法包括:
读取视频文件;
解码视频文件,选取预设数量的视频帧图片,同时将视频帧图片缩放到预设大小;
通过预设层数的卷积网络完成对视频帧图片中低维度信息的提取,消除时间冗余度;
将去除冗余度的低维特征输入到transformer网络中,对全局特征进行关联和融合;
将抽取的特征送入到全连接层,完成类别分数的输出。
团队介绍
中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生AC态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。
成果资料