您所在的位置: 成果库 机器学习方法及系统

机器学习方法及系统

成果类型:: 发明专利

发布时间: 2023-08-31 11:18:17

科技成果产业化落地方案
方案提交机构:天津市滨海新区| 宋学姮 | 2023-09-05 13:39:12
本发明涉及一种机器学习方法,包括如下步骤:对来自不同数据源的数据进行预处理;对上述预处理后的数据进行特征提取以得到特征量;将上述特征提取的特征量转换为二进制文件格式进行存储;根据用户输入或选择的算法和参数,通过统一的接口将上述存储的二进制文件交给Hadoop系统或者GraphLab系统进行计算处理。本发明还涉及一种机器学习系统。本发明不仅能够处理易切分的普通数据集,还能够处理数据依赖性强的图数据,具有更多的选择和灵活性,而且提供更加简洁统一的接口,能够有效降低开发人员的学习难度。
1.一种机器学习方法,其特征在于,该方法包括如下步骤:对来自不同数据源的数据进行预处理;其中,所述数据包括:文本数据、视频数据及图数据;所述预处理包括:数据清洗、数据集成、数据规约,所述数据规约指:将来自不同数据源的数据的格式进行统一:将每个文本数据转化为一行进行表达;将每条视频数据转换为一个文件进行存储;将图数据转化为通用的EdgeList格式,也即每行包含两个顶点、一条边以及该边的权值;对上述预处理后的数据进行特征提取以得到特征量:对于所述文本数据、所述视频数据每行为一条记录,对于所述图数据则每行为一条边,以行为单位进行特征提取,最终将文本数据、视频数据、图数据都转化为数字形式表述;将上述特征提取的特征量转换为二进制文件格式进行存储;根据用户输入或选择的算法和参数,通过统一的接口将上述存储的二进制文件交给Hadoop系统或者GraphLab系统进行计算处理;该方法还包括:信息提示以及用户交互:所述信息提示指向用户展示当前系统的运行状态、运行进度,并提示用户进行相关的变量设置;所述用户交互包括:标准输入和配置文件输入两种方式。

如今,机器学习技术和算法逐渐应用到生产生活的方方面面,而建立一个高质量的机器学习模型是一个迭代的、复杂的、耗时的过程:除了要求机器学习从业者设计和尝试不同的算法,还要针对算法不断进行超参数的调整与适配。这对于工程师的知识水平与实践经验有非常高的要求。

随着硬件计算能力的提升,深度学习(Deep Learning,DL)技术迎来了又一次复兴。由于权重共享、稀疏连接等特性,卷积神经网络结构(Convolutional NeuralNetworks,CNNs)在许多图像处理任务中都取得了不俗的成绩。如何在提升网络性能的同时减弱对人力的依赖仍旧是一个较为棘手的问题。

中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。

本发明提供一种基于kubernetes的自动机器学习方法,通过将超参数搜索与在不同机器上的多试验并行训练结合起来,提供了一整套完善的自动机器学习方案,实现了自动机器学习系统从实验超参数的生成、实验生成、实验节点分配以及实验结果收集的完整实验搜索方法,提高了自动机器学习系统的效率,利用搜索训练得到的最优超参数,使得自动机器学习系统学习处理实际任务的能力得到了提升,比如可以更好更快的进行图像分类。


技术合作

本发明实施例提出一种基于kubernetes的自动机器学习方法。本发明在基于例如云原生分布式平台下,利用kubeflow提供的机器学习工具集,将自动机器学习参数生成算法和实验生成调度方法相结合,通过实验超参数的生成、实验生成、实验节点分配以及实验结果收集这一完整的实验搜索方法,实现了一整套完善的自动机器学习方案,这种方法,能够用于卷积神经网络超参数搜索,可以实现最优实验超参数自动生成和选择,大大节省了手工调参的时间,提高了调参效率,降低了现有机器学习环境下算法工程师繁重的调参负担,进而降低了企业的AT进入门槛。

本发明另一方面提供一种基于kubernetes的自动机器学习系统。

以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。