一种基于二次筛选的高效率异常时序数据提取方法
成果类型:: 发明专利
发布时间: 2022-11-28 10:12:05
本成果一种在海量时序数据中实现高精度快速提取异常的方法,应用于ECG(electrocardiogram,心电图)数据中进行异常检测,以实现心脏病的检测。本成果提供一种高效率异常时序数据提取方法。时序数据异常在数据挖掘领域有很大用处,包括提高分类聚类质量,数据清理,异常检测。ECG(心电图)是一种被认为非常重要的时序数据,每一次心脏跳动可以用ECG时序数据的一个周期表示,该周期也即一个子序列。通过对ECG数据进行异常查找,可以帮助医生从大量ECG数据中快速找到异常,从而进行疾病分析。
本成果要解决的技术问题是,提供一种能够在超大规模时序数据中实现对异常时序精确查找的方法,能够在大量ECG数据中快速检测出异常子序列。舍弃原有的Euclidean距离函数,而采用DTW,减少因ECG时序数据相移带来的误差,大大提高了查找精度。由于DTW本身的时间复杂度高,导致这种直接替换不可行;于是进一步改进,把原算法中第一个最为复杂的大循环直接拿出来作为第一步,使用二次筛选模块代替。第一次筛选借助Euclidean距离进行粗筛选,然后第二次采用DTW距离进行精确筛选,得到第一个阈值best_so_far_dist,以便接下来在后面循环中仍进行early abandoning。
要想在大量的ECG时序数据中寻找异常,目前有多种算法,但大多数算法需要两个以上的参数,计算复杂。目前算法中改进的暴力算法虽然相较于原始暴力算法来说,可以省去绝大多数冗余计算,能够在更大规模时序数据中寻找到异常,但此二者都是基于Euclidean距离,鲁棒性较差,不能实现精确查找。而通常心电图数据都会有一定相移,这就导致通过Euclidean距离计算两个ECG子序列之间的距离会存在偏差。DTW距离相对Euclidean距离来说,具有很好地鲁棒性,抗噪能力强,尤其是当两个相似的时序数据有相移偏差时,所计算得到的距离值会比较小,更接近真实情况。但是,由于DTW本身的时间复杂度高,在大量时序数据中通过内循环求出最近邻距离nearest_neighbor_dist太费时间,导致这种直接将Euclidean距离替换成DTW距离来衡量两个子序列之间的差异不可行,难以取得满意效果。本成果解决了因DTW的冗余度过高导致简单替换距离函数不可行的问题,实现了在ECG时序数据中快速、精确查找到异常,检测出心脏病。
北京工业大学是一所以工为主,工、理、经、管、文、法、艺术、教育相结合的多科性市属重点大学。8个学科跻身2020年QS世界大学排行榜前500,位列QS2020年世界大学排名中国内地第32,工程学、材料科学、化学、环境科学与生态学、计算机科学、生物学与生物化学6个学科进入ESI前1%。该成果的第二发明人李建强博士多年工业界研发经历, 所涉及的研究项目涵盖企业信息系统,数据中心优化,数据挖掘,隐私保护,大数据分析和云计算等领域, 发表SCI/EI学术论文40多篇,并著有《企业集成与集成平台技术》一书,在数据分析领域申请专利37个, 获得中国专利授权3项,日本专利授权15项,美国专利授权3项。
心血管疾病作为一类大病种将造就千亿美元级别市场。而心脏疾病器械是医疗器械的第二大领域,仅次于IVD,市场规模占医疗器械市场的11%,由于研发和学术营销壁垒均较高,形成了寡头竞争、强者恒强的格局。对于数以千万计的全球心脏病患者,尤其是心脏病高危患者来说,如何通过有效的干预手段,降低心脏病发病率与死亡率,已经成为一个日益迫切的重大公共卫生问题。本成果实现了在ECG时序数据中快速、精确查找到异常,检测出心脏病,有较好的应用场景。
技术许可,一次总付50000元,许可期限届满日至:2036年7月19日。