您所在的位置: 成果库 基于缺失率与异常度度量的不完备数据集建模及处理方法

基于缺失率与异常度度量的不完备数据集建模及处理方法

发布时间: 2022-12-07

来源: 科技服务团

基本信息

合作方式: 技术服务
成果类型: 新技术
行业领域:
新一代信息技术产业
成果介绍
基于缺失率与异常度度量的不完备数据集建模及处理方法,属于多余物检测技术领域。本发明为了解决现有的多余物检测方法忽略了对异常值的探索的问题和针对缺失值的填补方法很少将应用对象扩展到数据集层面的问题。本发明对数据集中容易忽视的异常值问题进行了充分考虑,并引入数据结构领域的二分法来缩小区间长度和找寻数据分布规律,构建静态或固定结构数据集的不完备数据处理模型,在模型建立阶段先对不完备数据处理模型异常值处理部分的规则进行了探索,后对不完备数据处理模型缺失值处理部分的规则进行了探索,最终针对多余物定位数据集,参照不完备数据处理模型的处理过程建立不完备数据处理模型,并基于模型对多余物定位数据进行处理
成果亮点
将直接丢弃法的相对适用条件到边界条件视为一个区间,称之为总区间,则区间的上限为边界条件对应缺失值的具体数值,下限为相对适用条件对应缺失值的具体数值;利用式(2)寻找当前上限与下限之间的中点,即当前缺失率区间的中值;对完备数据集做比例为当前中值的缺失化处理;分别使用多种具体的数值填充法进行处理,比较分类学习器在分别使用多种具体的数值填充法处理后的数据集上取得的预测精度,得出最高预测精度对应的数值填充法;调整得到新的缺失率区间,区间的上限调整为当前的中值对应的具体数值,区间的下限保持相对适用条件不变;继续利用式(2)寻找当前上限和下限之间的中点,并同样对完备数据集做比例为当前中值的缺失化处理;再次分别使用多种具体的数值填充法进行处理,比较分类学习器在分别使用多种具体的数值填充法处理后的数据集上取得的预测精度,得出最高预测精度对应的数值填充法;将本次的比较结果与上一次的比较结果进行对比
团队介绍
黑龙江大学(Heilongjiang University),位于黑龙江省哈尔滨市,是黑龙江省人民政府和中华人民共和国教育部、国家国防科技工业局共建的省属综合性大学,黑龙江省“双一流”建设国内一流大学A类高校,入选国家卓越法律人才教育培养计划、中西部高校基础能力建设工程、特色重点学科项目、国家建设高水平大学公派研究生项目、中国政府奖学金来华留学生接收院校、全国深化创新创业教育改革示范高校、教育部来华留学示范基地,是世界翻译教育联盟、中俄新闻教育高校联盟、中俄综合性大学联盟、上海合作组织大学、“一带一路”智库合作联盟成员单位
成果资料
产业化落地方案
点击查看
成果综合评价报告

评价单位:“科创中国”黑龙江科技服务团 (黑龙江省科学技术协会) 评价时间:2022-12-08

袁国辉

哈尔滨工业大学

教授

综合评价

基于缺失率与异常度度量的不完备数据集建模及处理方法,属于多余物检测技术领域。本发明为了解决现有的多余物检测方法忽略了对异常值的探索的问题和针对缺失值的填补方法很少将应用对象扩展到数据集层面的问题。本发明对数据集中容易忽视的异常值问题进行了充分考虑,并引入数据结构领域的二分法来缩小区间长度和找寻数据分布规律,构建静态或固定结构数据集的不完备数据处理模型,在模型建立阶段先对不完备数据处理模型异常值处理部分的规则进行了探索,后对不完备数据处理模型缺失值处理部分的规则进行了探索,最终针对多余物定位数据集,参照不完备数据处理模型的处理过程建立不完备数据处理模型,并基于模型对多余物定位数据进行处理。
查看更多>
更多