成果介绍
本发明公开了一种属性子空间加权的随机森林数据处理方法,所述方法包括:S1、对需要进行训练的数据样本集通过有放回抽样的方式抽取跟需要建立的决策树数目一致的N个样本子集;S2、对每个样本子集构建无剪枝的决策树模型,在构建决策树模型的节点时,采用信息增益法先对所有参与节点构建的属性进行加权,从中选出权重最高的M个属性参与节点构建;S3、将构建的N个决策树模型合并成一个大的随机森林模型。本发明将信息增益用于属性子空间加权,使得有用信息能够被抽取,从而提高分类的精度。
成果亮点
自动开启跟CPU核数一样多的线程,每个线程从进程列表中获取一个建树信息后并开始进行根据该信息进行建树,每建完一颗树,就将建好的决策树模型放到随机森林中;每个线程同时并行地完成建树的过程,直到所有的建树信息分发完成,最后由随机森林合并所有的决策树得到最后的随机森林模型;或者所述步骤S2中的决策树模型采用多机并行分布式方式进行构建,主节点负责总体建模的调度,从节点负责具体的建树过程,具体包括:主节点中的进程保存所有建树的信息,并将建树信息分成多个进程列表;根据需要启动其他机器上的从节点进行建树,每个从节点从主节点中获取一个进程列表,然后在自己的机器上独立构建决策树并生成子随机森林;每个从节点将各自构建的子随机森林放回到主节点中,由主节点将所有的子随机森林合并得到最终的随机森林模型。
团队介绍
中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。
成果资料
产业化落地方案