_科创中国

不完备多视图聚类方法、系统、设备以及存储介质

成果类型：: 发明专利

发布时间: 2023-09-11 16:37:46

科技成果产业化落地方案

方案提交机构：天津市滨海新区| 宋学姮 | 2023-09-28 16:14:24

成果简介技术亮点应用前景团队概括产生的效益转化方式

本发明涉及一种不完备多视图聚类方法、系统、设备以及存储介质，其中，所述一种不完备多视图聚类方法包括：a.将原始多视图数据矩阵在所提出的基于逐层范数补偿和超图正则的深度不完备非负矩阵分解框架下分解；b.对分解后的多视图数据矩阵进行聚类。本发明还涉及一种不完备多视图聚类系统。本发明能够更有效地对数据进行拟合，得到更有效的不完备多视图数据融合特征，并获得更好的聚类结果。

权利要求 1.一种不完备多视图聚类方法，其特征在于，该方法包括如下步骤： a.将原始多视图数据矩阵在所提出的基于逐层范数补偿和超图正则的深度不完备非负矩阵分解框架下分解； b.对分解后的多视图数据矩阵进行聚类。 2.如权利要求1所述的不完备多视图聚类方法，其特征在于，所述的方法还包括步骤： c.采用聚类精度AC和归一化互信息NMI度量聚类结果。 3.如权利要求2所述的不完备多视图聚类方法，其特征在于，所述的步骤a包括：步骤S101，原始多视图数据矩阵中第m个视图的数据矩阵为其中：dm为第m个视图样本的维数，nm为第m个视图样本个数；

随着信息技术的飞速发展，多视图学习问题在多媒体检索、高光谱图像分类、多组学数据分析、医疗数据分析等领域得到了广泛的研究。多视图学习的关键是充分利用多个视图之间的互补信息，方便后续的数据处理任务。在过去的几十年里，不完备多视图聚类已经取得了显著的进展，其是基于完备多视图假设，即每个视图均不存在样本的缺失。然而，在实际应用中并非总是如此，收集的多视图数据集可能是不完整的，例如某些视图缺少一些样本。这就导致了不完备多视图聚类(incomplete multiview clustering，IMC)问题。

中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力，推动我国自主知识产权新工业的建立，成为国际一流的工业研究院。深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态系统，由九个研究平台，国科大深圳先进技术学院，多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究，促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。

本发明提供一种不完备多视图聚类系统，该系统包括分解模块及聚类模块，其中：所述分解模块用于将原始多视图数据矩阵在所提出的基于逐层范数补偿和超图正则的深度不完备非负矩阵分解框架下分解；所述聚类模块用于对分解后的多视图数据矩阵进行聚类。

优选地，该系统还包括：

评判模块：用于采用聚类精度AC和归一化互信息NMI度量聚类结果。

本申请实施例采取的又一技术方案为：一种设备，其特征在于，所述设备包括处理器、与所述处理器耦接的存储器，其中，

所述存储器存储有用于实现所述的不完备多视图聚类方法的程序指令；

所述处理器用于执行所述存储器存储的所述程序指令以对不完备多视图进行聚类。

本申请实施例采取的又一技术方案为：一种存储介质，其特征在于，存储有处理器可运行的程序指令，所述程序指令用于执行所述不完备多视图聚类方法。

本申请基于逐层范数补偿和超图正则的深度不完备非负矩阵分解(LWNdimNMF)算法，逐层地约束基矩阵列向量为单位向量，即

(m表示第m个视图，l表示第l层)，并将对应范数补偿到系数矩阵对应行向量(“补偿”操作即将基矩阵列向量的范数与该层系数矩阵的行向量相乘)；超图正则项作用于各层的系数矩阵，可以利用数据隐含的高阶分布结构信息；采用中心对齐约束项实现多个不完备视图表征间的对齐与融合。提出的深度非负矩阵分解模型保证了模型对初始化的鲁棒性，即使在随机初始化的情况下仍然保证模型性能的稳定，而超图正则更有效地利用了数据的几何分布信息。最后，用k-means算法对模型输出的融合表征聚类得到聚类结果，采用聚类精度AC和归一化互信息NMI度量聚类效果。

总而言之，本申请保障了模型对初始化方法的鲁棒性，与同类深度非负矩阵分解方法相比，可以更有效地对数据进行拟合，得到更有效的不完备多视图数据融合特征，并获得更好的聚类结果。

技术合作

本申请基于逐层范数补偿和超图正则的深度不完备非负矩阵分解(LWNdimNMF)，逐层范数补偿策略将每层基矩阵的列向量约束为单位向量，从而有效地约束各层因子矩阵的值分布，提高模型的数值稳定性，使模型对初始化具有鲁棒性。此外，随着模型结构的加深，该策略可以有效地降低目标函数值，使模型很好地拟合数据。并在每个视图中构造一个超图来编码数据点之间的高阶关系，进一步利用数据的高阶几何结构信息。最后，通过对齐各视图表征与中心对齐矩阵来融合不完备的多个视图。

虽然本发明参照当前的较佳实施方式进行了描述，但本领域的技术人员应能理解，上述较佳实施方式仅用来说明本发明，并非用来限定本发明的保护范围，任何在本发明的精神和原则范围之内，所做的任何修饰、等效替换、改进等，均应包含在本发明的权利保护范围之内。