您所在的位置: 成果库 一种SparkSQL在线优化方法和装置

一种SparkSQL在线优化方法和装置

发布时间: 2023-11-08

来源: 试点城市(园区)

基本信息

合作方式: 技术服务
成果类型: 发明专利
行业领域:
物理
成果介绍
本发明公开了一种Spark SQL在线优化方法和装置。该方法利用贝叶斯优化在Spark SQL上执行待优化配置参数的迭代搜索,包括:通过与贝叶斯迭代搜索过程进行交互收集参数样本,获得样本数据集,其中每个样本数据包括迭代过程使用的配置参数和各个query的执行时间;针对所述样本数据集,根据参数重要程度进行参数降维,并将降维后的样本数据集输入到贝叶斯优化过程中,用于高斯过程的建模,以确定应用程序的执行时间与参数样本之间的关联关系。本发明实现了低成本、深层次且高性能的调参优化,能够实现从底层的Spark引擎到上层的Spark SQL的整体在线优化。
成果亮点
1.一种Spark SQL在线优化方法,该方法利用贝叶斯优化在Spark SQL上执行待优化配置参数的迭代搜索,包括以下步骤: 步骤S1:通过与贝叶斯迭代搜索过程进行交互收集参数样本,获得样本数据集,其中每个样本数据包括迭代过程使用的配置参数和各个query的执行时间; 步骤S2:针对所述样本数据集,根据参数重要程度进行参数降维,并将降维后的样本数据集输入到贝叶斯优化过程中,用于高斯过程的建模,以确定应用程序的执行时间与参数样本之间的关联关系。 2.根据权利要求1所述的方法,其特征在于,步骤S2包括:基于所述样本数据集,通过斯皮尔曼相关性分析,进行第一次参数降维,进而通过核主成分分析进行第二次参数降维,获得降维后的样本数据集。 3.根据权利要求1所述的方法,其特征在于,在步骤S2中,在贝叶斯优化的迭代过程中,将应用程序的性能建模为配置参数和输入数据量大小的函数分布。
团队介绍
中国科学院深圳先进技术研究院提升了粤港地区及我国先进制造业和现代服务业的自主创新能力,推动我国自主知识产权新工业的建立,成为国际一流的工业研究院。 深圳先进院目前已初步构建了以科研为主的集科研、教育、产业、资本为一体的微型协同创新生AC态系统,由九个研究平台,国科大深圳先进技术学院,多个特色产业育成基地、多支产业发展基金、多个具有独立法人资质的新型专业科研机构等组成。开展先进技术研究,促进科技发展。信息、电子、通讯技术研究新材料、新能源技术研究高性能计算、自动化、精密机械研究生物医学与医疗仪器研究相关学历教育、博士后培养与学术交流。
成果资料