您所在的位置: 成果库 一种分布式极限学习机优化集成框架方法系统及方法

一种分布式极限学习机优化集成框架方法系统及方法

成果类型:: 发明专利

发布时间: 2023-06-30 11:07:51

科技成果产业化落地方案
方案提交机构:天津市滨海新区| 宋学姮 | 2023-07-13 16:57:31
本发明属于数据处理技术领域,尤其涉及一种分布式极限学习机优化集成框架的系统,包括数据分布存储模块、Stack‑Autoencoder特征提取模块、分布式计算模块和结果输出模块;数据分布存储模块将数据进行分布式存储,并对ELM隐层进行分析和确定;Stack‑Autoencoder特征提取模块对数据进行特征学习,获得压缩化的输入数据,并对输入数据进行归一化处理和特征提取;分布式计算模块根据输入数据进行映射和归约处理得到总体最优权值。本发明对大数据的模式分类更为精确,解决因单层ELM的节点过多造成的过拟合问题使高维矩阵的运算分块并行进行,计算效率得到提高;不用提前将数据读入内存,节省了内存资源。
一种分布式极限学习机优化集成框架系统,其特征在于,包括数据分布存储模块、Stack-Autoencoder特征提取模块、分布式计算模块和结果输出模块:所述数据分布存储模块用于读入训练数据,并根据数据的类型和规模确定隐层数和隐层节点数;同时根据隐层数将数据分割为多个训练子集,并将分割的数据分布到不同的训练子集中进行存储;所述Stack-Autoencoder特征提取模块用于对分布在各个训练子集的训练数据进行特征学习,获得各个训练子集压缩化的输入数据,并对输入数据进行归一化处理和特征提取;所述分布式计算模块用于根据对各个训练子集压缩化输入数据提取的特征和隐层节点数进行映射和归约处理得到总体最优权值;所述结果输出模块用于输出最优权值分析结果;所述数据分布存储模块包括数据采集单元、分布式存储单元和隐层分析单元;其中:所述数据采集单元用于读入训练数据;所述隐层分析单元用于并根据数据的类型和规模,确定ELM隐层数和隐层节点数;所述分布式存储单元用于根据隐层数将数据分割为多个训练子集,同时将分割的数据分布到不同的训练子集中进行存储。

极限学习机(extreme learning machine) ELM是一种简单易用、有效的单隐层前 馈神经网络SLFNs学习算法。传统的神经网络学习算法(如BP算法)需要人为设置大量的网 络训练参数,并且很容易产生局部最优解。极限学习机只需要设置网络的隐层节点个数,在 算法执行过程中不需要调整网络的输入权值以及隐元的偏置,并且产生唯一的最优解,因 此具有学习速度快且泛化性能好的优点。

[0003] 极限学习机不同于传统前馈神经网络的训练学习,输入权重与隐层节点偏置无需 基于梯度下降法迭代确定,而是根据训练数据与隐层节点的规模随机确定权值,以最小化 代价函数为目标,即最小化目标输出与实际输出的误差,通过求矩阵Moore-Penrose广义逆 等算法获得最优输出权值。

中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。

本发明分布式极限学习机优化集成框架方法系统及方法,提供了一种将传统单隐 层ELM算法推广到多层,实现复杂函数逼近,表征输入数据分布式表示,同时应用MapReduce 分布式计算框架 ,既保证了 较高的精度, 又能使 ELM 算法的高效计算能力与良 好的扩 展性得到体现的算法。该分布式极限学习机优化集成框架方法系统及方法对大数据的模式 分类更为精确,学习得到的特征对样本有更本质的刻画,解决因单层ELM的节点过多造成的 过拟合问题使高维矩阵的运算分块并行进行,计算效率得到提高;对于大规模输入数据与 中间结果分布式存储在HDFS和HBase,不用提前将数据读入内存,节省了内存资源。

技术合作

本发明针对单隐层ELM网络在进行大数据计算的局限性,结合多层神经网络的设 计原理与基于Hadoop平台的Map-Reduce的计算框架,提出了多隐层ELM算法在分布式平台 的实现,以此解决大数据计算造成的时间局限与过拟合问题造成的模式分类精度局限。通 过Hadoop平台对数量级高的样本进行分布式计算。算法分为两方面:(i).从传统的单隐层 ELM算法扩展到多层,结合深度学习理论,对高维的训练数据进行学习,从而获得压缩化,特 征更加明显的样本。(ii).利用Map-Reduce框架对多层ELM进行分布式处理,对训练样本进 行划分,设计map与reduce过程对各个子集进行计算与合并,重点计算各个隐层输出矩阵H 与确定最优权值的矩阵运算HTH。

[0086] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精 神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。