构建决策树分类器的方法及装置
成果类型:: 发明专利
发布时间: 2023-07-01 11:28:37
现有的数据挖掘技术中,需要通过样本数据预先构建分类器,然后通过分类器对抓取的数据进行分类分析。例如,在搜索引擎中的分类器可根据用户输入的关键字实时地获取到该关键字对应的类标签。
现有技术的分类器包括决策树分类器。决策树是一个树状的预测模型,用来根据输入样本的属性值预测其对应的目标变量。树中每个节点代表某个输入变量,而每个分叉路径则代表该变量某个可能的取值范围。每个叶结点则表示给定从根节点到该叶节点所代表的样本对应的目标变量。
现有技术的决策树分类器通常为随机森林分类器。随机森林分类器由多个子决策树分类器构成。对于一个待分类的数据,随机森林分类器通过综合所有子决策树分类器的输出,以投票选举(voting)的方式决定数据的最终类别。
然而,传统技术中的基于决策树模型的随机森林分类器由于需要遍历所有的子决策树,因此分类速度较慢。
在其中一个实施例中,所述合并决策树模块还用于遍历所述多个子决策树,递归查找遍历到的子决策树的分支节点,获取其分裂属性与所述目标分支节点的分裂属性匹配的分支节点,获取所述查找到子决策树的分支节点下的子分支树。
上述构建决策树分类器的方法及装置,通过将现有技术中的随机森林分类器中的多个子决策树合并成单一的主决策树,并根据类标签的出现频率对主决策树的叶子节点进行了合并,使得在通过主决策树分类时,只需要依靠单一的决策树以及较少的条件判断即可完成分类,从而提高了分类速度。
技术合作
在本实施例中,在获取查找到子决策树的分支节点下的子分支树的步骤之后还包括:遍历该子分支树,判断节点是否只有单一分支,若是,则移除该节点,且将其单一分支上的子节点与其父节点连接。例如,若目标分支节点的分裂属性为A≤10,则若递归遍历到的子决策树的分支节点对应的分裂属性为B、C等其他分裂属性或者分裂属性为A,但A≤n或mm,m和n为小于或等于10的任意数值,p为大于m的任意数值,那么该分支节点的分裂 属性与目标分支节点的分裂属性相匹配。若分支节点对应的分裂属性为A,但数值属性取值为A>10,那么,该分支节点的分裂属性与目标分支节点的分裂属性不匹配。也就是说,可通过判断分支节点对应的分裂属性的属性值是否部分属于目标分支节点的分裂属性的属性值的取值区间来判断是否匹配。
上述构建决策树分类器的方法及装置,通过将现有技术中的随机森林分类器中的多个子决策树合并成单一的主决策树,并根据类标签的出现频率对主决策树的叶子节点进行了合并,使得在通过主决策树分类时,只需要依靠单一的决策树以及较少的条件判断即可完成分类,从而提高了分类速度。