监控与运维系统
成果类型:: 发明专利
发布时间: 2022-11-15 15:58:40
云部署监控平台主要目标是推进云原生场景下服务构建、部署、发布的全生命周期流程管理和系统跨层次、统一接入的多层关联性监控与异常告警、故障分析。平台功能主要面向系统运维人员、开发测试人员,实现以下目标:1.对 kubernetes 容器集群中的物理机或虚拟机节点、基础服务、部署的容器以及容器中运行的应用进行多维度、层次化监控,包括资源监控、状态监控、业务监控等方面,帮助系统稳定可靠的运行,持续为用户提供高效的服务。2.为开发人员提供调用链查询、服务拓扑、故障定位等功能,提升系统故障处理效率,提供服务的性能分析,协助开发人员发现系统瓶颈,优化系统性能。3.提供基于预定规则的实时告警,在指标出现异常时通过邮件等形式通知运维人员,帮助快速预警故障,尽可能减少对系统的影响。4.为服务管理提供标准化流程,对服务的全生命周期的自动化构建、远程配置中心、持续部署、应用发布、故障重启、健康检查、自动伸缩等进行管理、配置,提供可视化界面进行操作,降低容器集群管理的操作难度,提高运维效率,降低运维成本。5.对使用者进行访问控制、权限管理,保证系统安全。
(1)多环境、多租户系统模型。实现 Controller-Agent 系统模型,对在部署形式、底层架构、应用场景上存在差异的多个云平台和容器集群,实现统一管理、 统一监控与告警,以及应用部署的统一管理;通过系统模型中权限控制层的实现,为多项目团队提供多租户模型,解决云资源共享情况下,团队访问控制和数据隔离的问题;(2)多层次统一监控及告警。通过集成主流的 Zabbix、Prometheus等监控告警 工具链和自研服务,设计和实现了统一监控告警功能,覆盖了基础硬件设施、物理机 及虚拟机、容器集群、中间件、应用等贯穿了 IaaS、PaaS、SaaS 的多个层次,包含了 资源占用、运行状态指标、业务指标等多个维度,并提供了监控数据可视化、告警收敛、监控与告警组件高可用的支持;(3)远程配置中心。设计和实现了应用配置中心,设计了配置树形存储结构和 配置发布标准流程,实现了配置参数的热发布和灰度发布,为开发人员在多中心、多 集群、多环境下应用配置参数的管理提供了方便,为应用运行时配置参数的发布和更 新提供了支持,降低了多环境下应用部署的复杂性。
传统的监控系统,往往只针对服务器、基础服务、应用程序、业
务中的某个单一层次进行监控,监控体系是割裂的,不能多层次的展
示系统整体运行情况。本系统通过云原生场景下服务自动注册、自动
发现等机制,使用分布式系统监控工具进行集群内部主机、基础服务、
容器实例、应用程序等多个维度的资源使用监控和业务层面监控,监
控模块对集群所有资源进行实时监控,提供节点信息、运行状态、部
署情况、应用详情、动态负载等全方位的监控指标,在对监控数据计
算、分析、统计之后,统一格式化存储,实现了多层次关联的统一监
控、告警,为运维人员提供统一的监控视图,为故障原因的发现、弹
性伸缩模块、系统性能分析等功能提供基本的监控数据。
主要研究容器化、容器编排调度、云监控等云原生技术和实际工程化应用。其中涉及 Docker、Kubernetes、微服务等关键技术。研究内容包括基于 WebRTC 的音视频通信技术、应用程序容器化和集群化,服务器以及业务指标的实时监控等。团队已研发出基于云计算环境的监控与运维平台,实现了在多环境下进行全面监控及深度运维。
覆盖了基础硬件设施、物理机 及虚拟机、容器集群、中间件、应用等贯穿了 IaaS、PaaS、SaaS 的多个层次,包含了 资源占用、运行状态指标、业务指标等多个维度,并提供了监控数据可视化、告警收敛、监控与告警组件高可用的支持;(3)远程配置中心。设计和实现了应用配置中心,设计了配置树形存储结构和 配置发布标准流程,实现了配置参数的热发布和灰度发布,为开发人员在多中心、多 集群、多环境下应用配置参数的管理提供了方便,为应用运行时配置参数的发布和更 新提供了支持,降低了多环境下应用部署的复杂性。
.提供基于预定规则的实时告警,在指标出现异常时通过邮件等形式通知运维人员,帮助快速预警故障,尽可能减少对系统的影响。4.为服务管理提供标准化流程,对服务的全生命周期的自动化构建、远程配置中心、持续部署、应用发布、故障重启、健康检查、自动伸缩等进行管理、配置,提供可视化界面进行操作,降低容器集群管理的操作难度,提高运维效率,降低运维成本。5.对使用者进行访问控制、权限管理,保证系统安全。