成果介绍
随着人工智能的发展,深度学习相关技术在人工智能领域应用越来越多,主要应用在图像处理、自然语言处理领域。注意力模型最初被应用在自然语言处理领域,并且Transformer模型属于注意力机制中最常用的一种模型。随着技术的发展,科研人员已经将Transformer模型引入到图像领域,搭建了Vision-Transformer(VIT)模型,并且在多个图像分类任务上达到了很好的效果。在图像分类任务中,三维物体分类任务得到了越来越多的关注,我们可以先通过在多个角度拍摄三维物体以此来获得物体的多个视图,再利用这些视图对其进行分类。在本文中我们首次将VIT模型应用到多视图分类任务中,通过将每个图片的位置信息显示的加入到模型中提升了模型的精度,我们首先改进了更适合该任务的图像特征编码模块和位置特征编码模块,并且给出了Multi-View Vision Transformer(MLVIT)模型的整体框架,最后在数据集上通过实验发现该方法优于传统的卷积网络。
成果亮点
在传统VIT模型中作者使用0到9表示分割后的小图像位置编号,并且每个位置设置一个可训练的随机变量,通过梯度下降法获得位置向量,这种方式增加了训练难度,因此作业选择先在大数据集上进行训练,再将预训练好的模型引入到小数据集上,但是作业发现向量的位置向量有相似的输出。但是在多视图分类任务中,我们可以直接根据相机位置得到该视图拍摄下图像的位置信息,并且将位置信息显示的与图像信息进行融合。
团队介绍
山东信息职业技术学院坐落于山东省潍坊市,是山东省人民政府批准设立、教育部备案的公办省属普通高等学校。
学院是教育部批准的“国家示范性软件职业技术学院”首批建设单位,部队士官人才培养定点院校,山东省“3+2”对口贯通分段培养本科招生试点院校,山东省示范性高职单独招生试点院校;是国家首批“电子信息产业高技能人才培养基地”“全国信息产业系统先进集体”“山东省职业教育先进集体”“山东省德育工作优秀高校”“省级服务外包人才培训基地”“省级劳务外派培训基地”。
成果资料