成果介绍
云部署监控平台主要目标是推进云原生场景下服务构建、部署、
发布的全生命周期流程管理和系统跨层次、统一接入的多层关联性监
控与异常告警、故障分析。平台功能主要面向系统运维人员、开发测
试人员,实现以下目标:
1.对 kubernetes 容器集群中的物理机或虚拟机节点、基础服务、
部署的容器以及容器中运行的应用进行多维度、层次化监控,包括资
源监控、状态监控、业务监控等方面,帮助系统稳定可靠的运行,持
续为用户提供高效的服务。
2.为开发人员提供调用链查询、服务拓扑、故障定位等功能,提
升系统故障处理效率,提供服务的性能分析,协助开发人员发现系统
瓶颈,优化系统性能。
3.提供基于预定规则的实时告警,在指标出现异常时通过邮件等
形式通知运维人员,帮助快速预警故障,尽可能减少对系统的影响。
4.为服务管理提供标准化流程,对服务的全生命周期的自动化构
建、远程配置中心、持续部署、应用发布、故障重启、健康检查、自
动伸缩等进行管理、配置,提供可视化界面进行操作,降低容器集群
管理的操作难度,提高运维效率,降低运维成本。
5
成果亮点
(1)多环境、多租户系统模型。实现 Controller-Agent 系统模型,
对在部署形式、底层架构、应用场景上存在差异的多个云平台和容器
集群,实现统一管理、 统一监控与告警,以及应用部署的统一管理;
通过系统模型中权限控制层的实现,为多项目团队提供多租户模型,
解决云资源共享情况下,团队访问控制和数据隔离的问题;(2)多层次统一监控及告警。通过集成主流的 Zabbix、Prometheus
等监控告警 工具链和自研服务,设计和实现了统一监控告警功能,
覆盖了基础硬件设施、物理机 及虚拟机、容器集群、中间件、应用
等贯穿了 IaaS、PaaS、SaaS 的多个层次,包含了 资源占用、运行
状态指标、业务指标等多个维度,并提供了监控数据可视化、告警收
敛、监控与告警组件高可用的支持;
(3)远程配置中心。设计和实现了应用配置中心,设计了配置树形
存储结构和 配置发布标准流程,实现了配置参数的热发布和灰度发
布,为开发人员在多中心、多 集群、多环境下应用配置参数的管理
提供了方便,为应用运行时配置参数的发布
团队介绍
主要研究容器化、容器编排调度、云监控等云原生技
术和实际工程化应用。其中涉及 Docker、Kubernetes、微服务等关键
技术。研究内容包括基于 WebRTC 的音视频通信技术、应用程序容
器化和集群化,服务器以及业务指标的实时监控等。团队已研发出基
于云计算环境的监控与运维平台,实现了在多环境下进行全面监控及
深度运维。
成果资料
产业化落地方案