您所在的位置: 成果库 构建决策树分类器的方法及装置

构建决策树分类器的方法及装置

成果类型:: 发明专利

发布时间: 2023-07-01 11:28:37

科技成果产业化落地方案
方案提交机构:天津市滨海新区| 宋学姮 | 2023-07-21 16:05:06
本发明涉及一种构建决策树分类器的方法,包括:获取样本数据;构建包含多个子决策树的随机森林分类器;获取所述多个子决策树的节点的分裂属性的出现频率,根据所述出现频率将所述多个子决策树合并成主决策树,且所述主决策树的叶节点对应类标集和叶属性类标签,所述叶属性标签为所述类标集中出现频率最高的类标签;根据所述叶属性类标签合并所述主决策树的叶节点;根据所述主决策树生成决策树分类器。此外,还包括一种构建决策树分类器的装置。上述构建决策树分类器的方法及装置可以提高分类速度。
一种基于决策树分类器的数据分类的方法,包括:获取样本数据;构建包含多个子决策树的随机森林分类器;获取所述多个子决策树的根节点的分裂属性,获取所述根节点的分裂属性的出现频率,根据所述出现频率最大的分裂属性生成主决策树的目标分支节点,且所述主决策树的叶节点对应类标集和叶属性类标签,所述叶属性类标签为所述类标集中出现频率最高的类标签;判断所述目标分支节点的分裂属性是否为数值属性,若是,则获取所述多个子决策树的根节点中分裂属性为数值属性的节点的分裂值,并根据所述分裂值生成所述目标分支节点的子分支节点,移除所述多个子决策树的根节点中分裂属性为数值属性的节点;否则,获取所述多个子决策树的根节点中分裂属性为类别属性的节点的类别取值,并根据所述类别取值生成所述目标分支节点的子分支节点,移除所述多个子决策树的根节点中分裂属性为类别属性的节点;遍历所述主决策树,将所述叶属性类标签相同的所述叶节点缩减为同一个叶节点

现有的数据挖掘技术中,需要通过样本数据预先构建分类器,然后通过分类器对抓取的数据进行分类分析。例如,在搜索引擎中的分类器可根据用户输入的关键字实时地获取到该关键字对应的类标签。

现有技术的分类器包括决策树分类器。决策树是一个树状的预测模型,用来根据输入样本的属性值预测其对应的目标变量。树中每个节点代表某个输入变量,而每个分叉路径则代表该变量某个可能的取值范围。每个叶结点则表示给定从根节点到该叶节点所代表的样本对应的目标变量。

现有技术的决策树分类器通常为随机森林分类器。随机森林分类器由多个子决策树分类器构成。对于一个待分类的数据,随机森林分类器通过综合所有子决策树分类器的输出,以投票选举(voting)的方式决定数据的最终类别。

然而,传统技术中的基于决策树模型的随机森林分类器由于需要遍历所有的子决策树,因此分类速度较慢。

中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。

在其中一个实施例中,所述合并决策树模块还用于遍历所述多个子决策树,递归查找遍历到的子决策树的分支节点,获取其分裂属性与所述目标分支节点的分裂属性匹配的分支节点,获取所述查找到子决策树的分支节点下的子分支树。

上述构建决策树分类器的方法及装置,通过将现有技术中的随机森林分类器中的多个子决策树合并成单一的主决策树,并根据类标签的出现频率对主决策树的叶子节点进行了合并,使得在通过主决策树分类时,只需要依靠单一的决策树以及较少的条件判断即可完成分类,从而提高了分类速度。

技术合作

在本实施例中,在获取查找到子决策树的分支节点下的子分支树的步骤之后还包括:遍历该子分支树,判断节点是否只有单一分支,若是,则移除该节点,且将其单一分支上的子节点与其父节点连接。例如,若目标分支节点的分裂属性为A≤10,则若递归遍历到的子决策树的分支节点对应的分裂属性为B、C等其他分裂属性或者分裂属性为A,但A≤n或mm,m和n为小于或等于10的任意数值,p为大于m的任意数值,那么该分支节点的分裂 属性与目标分支节点的分裂属性相匹配。若分支节点对应的分裂属性为A,但数值属性取值为A>10,那么,该分支节点的分裂属性与目标分支节点的分裂属性不匹配。也就是说,可通过判断分支节点对应的分裂属性的属性值是否部分属于目标分支节点的分裂属性的属性值的取值区间来判断是否匹配。

上述构建决策树分类器的方法及装置,通过将现有技术中的随机森林分类器中的多个子决策树合并成单一的主决策树,并根据类标签的出现频率对主决策树的叶子节点进行了合并,使得在通过主决策树分类时,只需要依靠单一的决策树以及较少的条件判断即可完成分类,从而提高了分类速度。