您所在的位置: 成果库 大规模全栈式机器学习流水线的关键技术及应用

大规模全栈式机器学习流水线的关键技术及应用

发布时间: 2023-03-17

基本信息

合作方式: 合作开发
成果类型: 发明专利
行业领域:
新一代信息技术产业,人工智能
成果介绍
人工智能(AI)技术正在对人类社会产生重大深远影响。党中央、国务院高度重视人工智能“新基建 ”,出台一系列政策进行重点支持。伴随各行各业数“智”化转型推进,业界逐渐认识到:AI赋能千行 百业的真正挑战不是构建机器学习模型,而是构建机器学习模型开发流水线并在生产环境中高效应用。当 前面临的主要困难有:AI数据管理效率低、成本高、可信性难以保证;AI数据处理标准不统一、标注成 本高;AI模型开发门槛高、自动化程度低;AI模型过于臃肿、跨平台部署困难。为了克服这些问题,中 兴通讯与北京大学进行联合研究,在海量数据可信管理、数据处理及标注、模型分布式自动化训练、模型 部署优化等方面取得了重大技术突破。 项目发表论文27篇,申请发明专利29项,授权17项,获软件著作权1项。牵头制定多项国内外标准,主导 两个AI开源社区。研制的大规模全栈式机器学习流水线平台,广泛应用于电信、金融、政务、智能制造 等领域,取得显著的经济和社会效益,近三年新增销售额***亿元,利润***亿元。
成果亮点
本项目主要技术创新有:大容量高可信数据管理技术。提出多级智能存储技术,实现高性价比 AI 存储;提出海量 AI 数据隐私保护技术框架,实现可用性与安全性的平衡;提出分布式存储可靠性保障技术,实现可信可靠AI 数据存储。低成本标准化数据处理技术。提出标准化数据处理框架,充分发挥AI 数据价值;提出自监督主动标注技术,降低数据标注代价;提出图神经网络主动学习技术,减少数据依赖、提升训练效率。分布式自学习模型训练优化技术。提出多尺度模型架构自动搜索技术,实现 AI 模型设计自动化;提出自动算法优选和超参调优技术,大幅提升 AI 流水线效率;提出分布式训练优化技术,有效克服分布式通信瓶颈。广兼容高效率 AI 模型优化编译部署技术。提出跨平台自动部署技术框架,降低部署成本;提出基于微内核的模型高效编译技术,消除算子编译性能瓶颈;提出模型蒸馏技术,克服线上部署模型精度下降的问题。
团队介绍
“大规模全栈式机器学习流水线的关键技术及应用“成果由中兴通讯股份有 限公司、北京大学合作完成。本项目的第1 、3 、4 、6~15 完成人屠要峰、韩炳涛、高洪、王永成、周祥生、刘涛、牛家浩、徐进、潘佳懿、董修岗、张洋铭、李忠良、王晓龙在中兴通讯股份有限公司工作,长期共同从事人工智能技术与产品的研发工作与应用推广。本项目的第2 、5 完成人崔斌、杨全在北京大学计算机学院工作,长期从事人工智能的学术研究工作。
成果资料
产业化落地方案
点击查看