本成果是一种基于数据场的自动聚类方法,通过将每个空间数据看作一个具有质量的数据点,空间数据之间彼此相互影响形成一个数据场,数据场的势值则表现为所有数据点在该处的影响力的总和。数据场势值的一阶偏导数值为零的点即为数据叠加作用最为密集的区域,即数据的簇中心。本成果通过搜索数据场势值的一阶导数来发现数据的簇中心,进而根据这些簇中心向两侧搜索并确定簇的边缘,最终将完整的簇标记出来。与现有聚类方法相比,本成果具有处理速度快、不受噪声影响、对任意形状的聚类有效的特点,可以被应用于图像处理、社区发现、异常检测、市场研究等领域,从而提高处理结果的精确度。
本成果的技术方案与已有的聚类方法相比,本成果利用划分网格的方式将运算复杂度降低为O(k),其中k为网格划分参数,极大地提高了方案实施的运算速度;借用二值图像区域标记法的思想,将数据场转换为二值矩阵,并运用洪泛法进行聚类搜索,很好的避免了聚类方法中普遍存在的球形偏见的问题,从而能够有效的发现任意形状的聚类;通过一阶偏导来确定簇的中心和边缘,可以有效地避免对噪声的处理,从而使方法具有很好的健壮性。
王树良,武汉大学教授、博士生导师、工学博士、双博士后。国家教育部“新世纪优秀人才”“中国软件行业杰出青年”、国家测绘科技进步一等奖、湖北省自然科学杰出青年基金、湖北省“五四”青年金质奖章。
评价单位:“科创中国”时空信息卫星导航产业科技服务团 (中国测绘学会)
评价时间:2023-11-02
综合评价
二十一世纪是信息化时代,大量数据的产生和收集导致信息爆炸,给正确运用这些信息带来了困难,该成果比现有方法具有处理速度快,并且对噪声不敏感的特点。
总体而言,该成果作为一个独立的工具来获得数据的分布情况,可见此方法在当非常有必要而且成为数据挖掘领域中非常重要的一环,值得支持推广。
查看更多>