本发明适用于信息安全技术领域,提供了一种入侵检测方法及装置,所述方法包括:对原始数据集进行预处理;对预处理后的数据点进行距离度量;基于预定算法以及距离度量,获得簇的个数;基于距离度量,计算预处理后的数据点的密度指标;基于距离度量和密度指标,计算数据点的距离指标;计算数据点的密度指标与距离指标的乘积r并排序;选择前k个数据点作为各个簇的中心点;将剩余的数据点分配到离其距离最近且密度指标比其高的中心点所属的簇中;将分配后的簇按照其包含的数据点的个数进行排序,将簇中数据点的个数最多的簇判定为正常簇,其余的簇判定为异常簇。通过本发明,可有效解决现有技术存在的运算开销大,初始值的设定影响聚类结果的问题。
一种入侵检测方法,其特征在于,所述方法包括:对原始数据集进行预处理,所述原始数据集包含多个数据记录,每个数据记录包含连续型数据点和/或非数值型数据点;对预处理后的数据集中每一个数据点进行距离度量;基于预定算法以及所述距离度量,获得簇的个数;基于所述距离度量,计算预处理后的数据集中每一个数据点的密度指标;基于所述距离度量和数据点的密度指标,计算数据点的距离指标;计算每一个数据点的密度指标与距离指标的乘积r,并按r的大小进行排序;基于所述排序,选择前k个数据点作为各个簇的中心点,所述k为所述簇的个数,k为大于零的整数;将剩余的数据点分配到离其距离最近且密度指标比其高的中心点所属的簇中;将分配后的簇按照其包含的数据点的个数进行排序,将簇中数据点的个数最多的簇判定为正常簇,其余的簇判定为异常簇。
现有应用到入侵检测中的聚类算法大致分为两种:一种是基于划分的的聚类算 法,一种是基于密度的的聚类算法。基于划分的聚类算法,如K-means,由于簇的个数K与初始聚类中心点是事先人为 选定的,一旦选择不好,可能无法获得有效的聚类结果;其次,基于划分的聚类算法不能处 理非球形簇、不同尺寸和不同密度的簇。基于密度的聚类算法,如经典的DBSCAN(Density-Based Spatial Clustering of Applications with Noise),对于高维度且数据量较大的入侵数据,运算开销会比较大,而 且预先定义的密度阈值会对后面的聚类结果有明显的影响。
中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。
本发明实施例与现有技术相比存在的有益效果是:本发明实施例基于预定算法 (例如Canopy算法)以及距离度量(例如加权的欧几里德距离度量),获得簇的个数,并通过 计算获得预处理后的数据集中每一个数据点的密度指标和距离指标,将所述密度指标和距 离指标的乘积作为综合指标,根据所述综合指标获得簇的中心点,解决了现有技术人为设 定初始值(如簇的中心点、簇的个数等)影响聚类结果的问题。而且,对于高维度且数据量较 大的入侵数据,相比于现有的聚类方法,无需迭代最优目标函数,明显减少了计算开销。另 外,由于是基于密度的聚类算法,对于非球形簇,也有很好的聚类效果,并能自动检测出异 常簇,具有较强的易用性和实用性。
技术合作
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实 施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各 实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改 或者替换,并不使相应技术方案的本质脱离本发明实施例各实施例技术方案的精神和范 围。