图像视频的多尺度表征与语义映射
成果类型:: 发明专利,软件著作权,著作权
发布时间: 2022-11-12 19:52:14
针对复杂图像视频内容,借鉴认知科学、语言学领域相关理论方法,团队以小尺度到大尺度的视觉内容表征,数据-语义场同型映射,结构化、层次化渐进语义映射学习为研究主线,提出了视觉内容多尺度表征与多层级语义映射学习框架,在视觉感知与认知之间建立了坚实宽广的桥梁。基于研究成果,参与制定了 IEEE 1857.6 视频内容描述国际标准;获得了多媒体顶级国际会议的技术挑战赛冠军;成果应用于网络内容监测、学前教育、内容服务等应用场景。
该项目面向国际前沿,在国家基金、科技部 973 等项目的支持下,历经十四年,针对复杂图像视频内容,研究了小尺度到大尺度的视觉内容表征,数据-语义场同型映射,结构化、层次化渐进语义映射学习等问题,取得了如下创新成果。1. 针对传统视觉表征方法存在维数灾难和病态难题,提出了视觉内容的多尺度通用描述性表征框架和自适应层级特征融合方法,构建了视觉表征的空间可扩展和特征级融合模式。2. 针对海量网络图像视频缺乏高质量语义标注及部分标签低质冲突等难题,建立了图像视频的数据-语义场同型化映射学习模型,实现了在弱标注及噪声环境下海量内容的结构语义一致性理解。
图像视频的理解是实现视觉感知进阶到认知的关键,也是多学科关注的国际前沿科学问题。本项目成果具有良好、广阔的推广应用前景。项目紧扣大数据、人工智能等重要领域,面向国家重大、战略需求,着眼于网络内容监测、学前教育、内容服务等国家重大战略需求,与阿里、NEC、任子行、前海黑顿、智启科技等国内外相关领域的重要单位和公司加强合作,将进一步应用于互联网+、在线教育、物联网等重要领域,在图像视频的多尺度表征与语义映射方面取得更重要的突破和更广泛的应用。项目的社会与经济效益突出,随着可搭载深度神经网络的智能终端普及与深化,项目的未来发展应用空间更为广阔
黄庆明 男 1965-12-23 教授 博士中国科学院大学本项目科学问题的提出者和总体研究思路的设计者。提出了图像视频的多尺度表征框架,建立了高维数据场的全局语义结构映射机制,实现了图像视频语义结构的渐进学习,完成了图像视频多尺度表征和渐进语义学习技术在内容服务等场景中的应用。2 王树徽 男 1983-7-9 副研究员 博士中国科学院计算技术研究所主要负责图像视频语义映射理论与方法研究,从散度场角度提出了数据场多层拓扑信息扩散建模方法,提出了层次化语义结构和视觉特征的渐进学习框架,是科学发现 2 和科学发现 3 的重要完成人,初步验证了图像视频语义映射技术在学前教育等领域的应用前景。3 许倩倩 女 1983-11-2 副研究员 博士中国科学院计算技术研究所主要负责图像视频数据-语义同型映射学习理论方法研究,利用旋度场对语义不一致性进行建模,为将群体智能引入图像视频理解领域提供了关键解决思路,是科学发18现 2 的重要完成人。
团队共发表学术论文400余篇,GoogleScholar总引用12000余次,授权发明专利20项。与该项目相关的IEEE汇刊和CCFA类国际会议论文110余篇,其中8篇代表作GoogleScholar 他引1080次 WebofScience他引651次。施引刊物包括 PNAS/TPAMI/IJCV/TIP/TIFS/NeurIPS/CVPR 等本领域顶级期刊和会议,学术成果得到全球领先研究机构、数十名美国工程院院士、ACM/IEEE Fellow、IEEE 汇刊主编级科研同行的正面引用和高度评价。
针对复杂图像视频内容,借鉴认知科学、语言学领域相关理论方法,才队以小尺度到大尺度的视觉内容表征,数据-语义场同型映射,结构化、层次化渐进语义映射学习为研究主线,提出了视觉内容多尺度表征与多层级语义映射学习框架,在视觉感知与认知之间建立了坚实宽广的桥梁。基于研究成果,参与制定IEEE1857.6视频内容描述国际标准;获得了多媒体顶级国际会议的技术挑战赛冠军;成果应用于网络内容监测、学前教育、内容服务等应用场景。