成果介绍
本成果一种在海量时序数据中实现高精度快速提取异常的方法,应用于ECG(electrocardiogram,心电图)数据中进行异常检测,以实现心脏病的检测。本成果提供一种高效率异常时序数据提取方法。时序数据异常在数据挖掘领域有很大用处,包括提高分类聚类质量,数据清理,异常检测。ECG(心电图)是一种被认为非常重要的时序数据,每一次心脏跳动可以用ECG时序数据的一个周期表示,该周期也即一个子序列。通过对ECG数据进行异常查找,可以帮助医生从大量ECG数据中快速找到异常,从而进行疾病分析。
成果亮点
本成果要解决的技术问题是,提供一种能够在超大规模时序数据中实现对异常时序精确查找的方法,能够在大量ECG数据中快速检测出异常子序列。舍弃原有的Euclidean距离函数,而采用DTW,减少因ECG时序数据相移带来的误差,大大提高了查找精度。由于DTW本身的时间复杂度高,导致这种直接替换不可行;于是进一步改进,把原算法中第一个最为复杂的大循环直接拿出来作为第一步,使用二次筛选模块代替。第一次筛选借助Euclidean距离进行粗筛选,然后第二次采用DTW距离进行精确筛选,得到第一个阈值best_so_far_dist,以便接下来在后面循环中仍进行early abandoning。
团队介绍
北京工业大学是一所以工为主,工、理、经、管、文、法、艺术、教育相结合的多科性市属重点大学。8个学科跻身2020年QS世界大学排行榜前500,位列QS2020年世界大学排名中国内地第32,工程学、材料科学、化学、环境科学与生态学、计算机科学、生物学与生物化学6个学科进入ESI前1%。
该成果的第二发明人李建强博士多年工业界研发经历, 所涉及的研究项目涵盖企业信息系统,数据中心优化,数据挖掘,隐私保护,大数据分析和云计算等领域, 发表SCI/EI学术论文40多篇,并著有《企业集成与集成平台技术》一书,在数据分析领域申请专利37个, 获得中国专利授权3项,日本专利授权15项,美国专利授权3项。
成果资料
产业化落地方案