您所在的位置: 成果库 一种基于非负矩阵分解的半监督聚类方法及系统

一种基于非负矩阵分解的半监督聚类方法及系统

成果类型:: 发明专利

发布时间: 2023-09-27 14:07:11

科技成果产业化落地方案
方案提交机构:成果发布人| 代会会 | 2023-09-27 14:07:11

本发明公开了一种基于非负矩阵分解的半监督聚类方法,包括:对原始数据矩阵作非负矩阵分解投影,得到既有邻域保持又有相似性保持的原始数据的低维近似矩阵;利用算法接收参数K对原始数据的低维近似矩阵进行聚类,得到聚类结果;利用精确度和互信息两种评价标准对所述聚类结果进行评价。本发明基于非负矩阵分解,不仅考虑了原始数据的邻域保持,同时还考虑了相似性在原始空间和低维流形子空间的一致性,使得聚类性能在先验信息较多的时候大大提高,在先验信息很少的时候依然能保持较好的聚类性能。本发明还公开了一种基于非负矩阵分解的半监督聚类系统。

本发明提供了一种基于非负矩阵分解的半监督聚类方法,该方法基于非负矩阵分解,不仅考虑了原始数据的邻域保持,同时还考虑了相似性在原始空间和低维流形子空间的一致性,使得聚类性能在先验信息较多的时候大大提高,在先验信息很少的时候依然能保持较好的聚类性能。

本发明提供了一种基于非负矩阵分解的半监督聚类方法,包括:

对原始数据矩阵作非负矩阵分解投影,得到既有邻域保持又有相似性保持的原始数据的低维近似矩阵;

利用算法接收参数K对所述原始数据的低维近似矩阵进行聚类,得到聚类结果;

利用精确度和互信息两种评价标准对所述聚类结果进行评价。

本发明涉及聚类分析技术领域,尤其涉及一种基于非负矩阵分解的半监督聚类方法及系统。

背景技术

近年来非负矩阵分解技术在模式识别和人工智能中起着非常重要的作用。已有研究表明,在心里和生理上都有人脑的基于部分表示的证据。非负矩阵表示在学习类似于人脸,图像和文档等部分表示上有先天的优势。同时,在许多诸如信息检索,计算机视觉和模式识别问题中,数据的特点是维数高,使得直接从样例中学习不可行。研究者们期望对高维数据矩阵分解,得到高维矩阵分解后的低维表示。

非负矩阵分解(nonnegative matrix factorization,NMF)是对非负矩阵>分解,找到两个因子矩阵>和>使得UV的乘积尽可能的和原来的矩阵近似。其中,U可以看作是包含新基的矩阵,V可以看作是原来数据在新基下的表示,由于k<<m,并且k<<n,所以V可以看作是原来矩阵X的低维表示。流形学习自从2000年在《Science》被首次提出以来,已成为信息科学领域的研究热点。基于图正则化的非负矩阵分解(Graph Regularized Nonnegative Matrix Factorization,GNMF)方法,把拉普拉斯图作为一个正则项加入到NMF框架中,有效的利用了原始数据的几何结构,取得了较好的聚类性能。

在数据的聚类应用中,有些数据是有标记的。上述算法都是无监督学习方法,不能有效的利用已有的带标记数据指导聚类,所以在聚类性能上会大打折扣。基于NMF的半监督聚类方法如约束非负矩阵分解(Constrained Nonnegative Matrix Factorization,CNMF),其主要思想是同类的数据映射到投影空间应该有相同的表示。这个方法强制投影空间的表示和原空间的数据有相同类别标记,该方法存在的不足是当已知的标记数据很少时,方法退化为NMF,不能有效的利用原始数据的内部结构,故而聚类性能得不到提升。除此之外,CNMF方法使用不是约束对,而是硬性的标记,这种信息一般很难获得。

发明内容

本发明提供了一种基于非负矩阵分解的半监督聚类方法,该方法基于非负矩阵分解,不仅考虑了原始数据的邻域保持,同时还考虑了相似性在原始空间和低维流形子空间的一致性,使得聚类性能在先验信息较多的时候大大提高,在先验信息很少的时候依然能保持较好的聚类性能。

发明人:路梅 赵向军 李凡长 张莉苏州大学坐落于素有“人间天堂”之称的历史文化名城苏州,是国家“211工程”“2011计划”首批入列高校,是教育部与江苏省人民政府共建“双一流”建设高校、国家国防科技工业局和江苏省人民政府共建高校,是江苏省属重点综合性大学。苏州大学前身是Soochow University(东吴大学,1900年创办),开现代高等教育之先河,融中西文化之菁华,是中国最早以现代大学学科体系举办的大学。在中国高等教育史上,东吴大学是最早开展研究生教育并授予硕士学位、最先开展法学(英美法)专业教育,也是第一家创办学报的大学。1952年中国大陆院系调整,由东吴大学之文理学院、苏南文化教育学院、江南大学之数理系合并组建苏南师范学院,同年更名为江苏师范学院。1982年,学校更复名苏州大学(Soochow University)。

本发明提供的一种基于非负矩阵分解的半监督聚类方法,首先通过对原始数据矩阵作非负矩阵分解投影,得到原始数据的低维近似矩阵,然后利用算法接收参数K对低维近似矩阵进行聚类,得到聚类结果,最后利用精确度和互信息两种评价标准对所述聚类结果进行评价,本发明基于非负矩阵分解,不仅考虑了原始数据的邻域保持,同时还考虑了相似性在原始空间和低维流形子空间的一致性,使得聚类性能在先验信息较多的时候大大提高,在先验信息很少的时候依然能保持较好的聚类性能。

当前专利在中国不属于公知技术,未经权利人许可不得实施,希望将科技成果转让给研发实力雄厚的企业,由受让人对科技成果实施转化。交易的是科技成果中的知识产权,可以包括专利权、专利申请权、技术秘密等。科技成果转让后,转让方获得转让费,不再是科技成果的所有人;受让方向转让方支付转让费,并成为科技成果的新的所有人。