基于样条插值与数据并行的数据处理方法
成果类型:: 新技术
发布时间: 2022-11-04 13:21:11
本发明提供一种基于样条插值与数据并行的数据处理方法,包括:将原始监测数据集按顺序分割为Q个数据子集,对于每个数据子集,采用唯一对应的线程进行处理,处理方法为:对于被处理的数据子集,生成三次样条函数;在其样条曲线上,等间距采集数据点,形成新的数据子集;再用原数据子集标志数据点替换新的数据子集对应位置的数据点,形成处理后数据子集。将各线程处理后的数据子集拼接成最终数据集。本发明提供的基于样条插值与数据并行的数据处理方法具有以下优点:不论输入的原始监测数据的维数大于期望数据维数,还是小于预期数据维数,均可以高效快速的将原始监测数据的维数调整到期望数据维数,并且还能最大程度的保留原始数据所蕴含的信息。
微机监测系统是保证列车安全运行、监测各信号设备运行状态的重要设备,微机监测系统通过对采集到的信号设备监测数据进行分析,可及时发现信号设备运行中的安全隐患,也可以分析各信号设备运行过程中产生故障的原因,从而指导现场维修,提高信号部门维修水平和故障处理效率。[然而,受信号设备自身健康状况的变化、环境因素的干扰以及其他未知因素的影响,由微机监测系统采集到的信号设备监测数据的维数有可能有较大的变化,例如,对于道岔启动电流,在某个连续时间段,可能采集到700个位于不同时间点的道岔启动电流数据,即:该连续时间段所对应的道岔启动电流数据的维数是700;而在另一连续时间段,可能采集到2000个位于不同时间点的道岔启动电流数据,S卩:该连续时间段所对应的道岔启动电流数据的维数是2000;经实践证明,在不同的连续时间段,道岔启动电流的数据维数可能在700-3000的范围内变化。
然而,微机监测系统对采集到的信号设备监测数据进行分析时,普遍采用智能算法模型,例如神经网络、深度学习,或其他人工智能算法。上述智能算法模型基本都要求输入数据的维数固定不变。否则,会给模型的建立、算法的实现带来很大的困难。
因此,对于微机监测系统采集到的维数不固定的原始监测数据,如何在尽量保留原始监测数据所包含的信息的前提下,使其数据维数调整到固定维数,从而能够输入到智能算法模型中,具有重要现实意义,现有技术中尚未出现有效的解决方案。
在机器学习领域,遇到原始数据维数与机器学习模型所需数据维数不一致的情况很是普遍;而本专利能够很是容易的解决这个问题。因此,本专利的应用前景很是广阔。
河北省科学院成立于1978年,是河北省政府直属的综合性自然科学研究与技术开发机构,全院占地13.8万m2,建筑面积8.3万m2,总资产1.76亿元,固定资产1.29亿元。院机关设有8个处室,下辖地理科学研究所、应用数学研究所、生物研究所、能源研究所、自动化研究所、激光研究所、微生物研究所和机电一体化中试基地(机电研究所)等8个研究开发单位。全院共有职工700余人,专业技术人员530余人,高级职称人员170余人,博士31人,硕士98人,博士生导师14人,硕士生导师18人,享受国务院特殊津贴专家2人,享受河北省政府特殊津贴专家10人,河北省“百人计划”(省政府特聘专家)2人,入选河北省“三三三人才工程”第二层次人选15人、第三层次人选41人。 近年来,省科学院先后承担了“863”、“973”等国家、省部级重点项目和基金课题430余项,取得各类科研成果 1480余项,获省部级以上奖励697项,授权发明专利100项、软件著作权85项。
针对现有技术存在的缺陷,本发明提供一种基于样条插值与数据并行的数据处理方法,可有效解决上述问题。
本发明采用的技术方案如下:
本发明提供一种基于样条插值与数据并行的数据处理方法,包括以下步骤:
步骤I,设定目标维数,其值为Μ;设定并行线程数,其值为Q;将Q个并行线程依次记为线程1、线程2、...、线程Q;
步骤2,接收待处理的原始监测数据集;
步骤3,将所述原始监测数据集按顺序分割为Q个数据子集,将Q个数据子集按顺序依次记为数据子集P1、数据子集内、…、数据子集Pq ;
步骤4,将数据子集P1分配给线程I;将数据子集P2分配给线程2;依此类推,将数据子集Pq分配给线程Q;
另外,分别设定线程1、线程2、...、线程Q需取样的取样点数,将取样点数依次记为U1、U2、...、Uq,使Ul+U2^-----1-Uq=M;
步骤5,并行运行线程1、线程2、…、线程Q;
其中,对于任意的线程i,其采用以下方式对数据子集?,进行处理,其中,ie(l、
2、."、Q):
步骤5.1,假设数据子集P1共包括b个数据,按顺序排列依次为数据X1、数据X2、…、数据Xb;以数据X1、数据X2、...、数据Xb为节点,生成数据X1、数据X2、...、数据Xb的三次样条函数fi(X);
步骤5.2,在三次样条函数6&)所对应的样条曲线上,等间距采集仏个数据点,形成新的数据子集;
步骤5.3,分析数据子集P1,定位到数据子集^中的标志数据点及其第I位置信息;
然后,在新的数据子集?,,中,定位到与第I位置信息最为接近的第I,位置信息;最后,将新的数据子集P1’中第I’位置信息所对应的数据替换为数据子集?工第1位置的标志数据,从而形成数据子集Pi”;
步骤6,因此,线程1、线程2、…、线程Q分别对数据子集?:、数据子集内、…、数据子集Pq进行处理后,形成数据子集P:”、数据子集P2”、...、数据子集Pq” ;
将数据子集Pl”、数据子集P2”、...、数据子集?(^”按次序依次拼接成最终数据集;该最终数据集即为维数为目标维数M且最大程度的保留原始数据所蕴含的信息的数据集。
为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
[0031]结合图1,本发明提供一种基于样条插值与数据并行的数据处理方法,包括以下步骤:
[0032]步骤I,设定目标维数,其值为Μ;设定并行线程数,其值为Q;将Q个并行线程依次记为线程1、线程2、...、线程Q;
[0033]步骤2,接收待处理的原始监测数据集;
[0034]步骤3,将所述原始监测数据集按顺序分割为Q个数据子集,将Q个数据子集按顺序依次记为数据子集P1、数据子集P2、…、数据子集Pq ;
[0035]步骤4,将数据子集P1分配给线程I;将数据子集P2分配给线程2;依此类推,将数据子集PQ分配给线程Q;