在传统的数据中心服务模式下,数据中心需要通过运维人员对服务器、交换机、防火墙等设备的日常巡检,来保障数据中心的正常运行。随着国内外云计算产品逐步成熟,云平台在政府、企业、高校等行业中的深度应用,基于云计算产品的数据中心建设越来越多,用户对云平台的安全稳定的要求也越来越高。为了保障云平台的安全稳定运行,掌握云平台服务状态,一般情况下除了对物理资源进行巡检外,还需要需要按计划对云平台组件、云服务状态、资源统计、平台警报、操作日志、产品版本等进行巡检。在品高云平台运维管理规范中巡检也是首当其冲的重要运维工作内容。

在对云平台进行巡检之前,首先,需要定义巡检人员的角色职责,品高云平台巡检员为一级运维组织 [1],主要职责包括:为云平台户日常巡检及其应急运维提供支持,巡检内容包括物理资源、计算资源、存储资源、网络资源、高级云服务、云监控、日志审计等,接收和处理云平台使用人员提出的问题,对使用人员进行操作培训,配合二级运维开展相关工作。

  • [1] 品高云推荐三级运维组织管理架构,一级运维组织为系统巡检员、二级运维组织为系统管理员,三级运维组织为系统支持方(厂商)。

其次,我们要确定云平台的巡检周期,品高云平台提供的巡检周期建议可分为每日、每周、每月、每季度、每半年,不同的周期内巡检的内容也不一样。

每日巡检

每日巡检内容为物理主机资源(状态、cpu,内存,磁盘);云平台组件(Clc、Cc、Nc、BingoFs、SDN、MySQL)可用性情况、物理存储资源(BingoFS、本地文件系统、本地逻辑卷、Ceph)可用情况、服务可用性巡检,并形成主机、云组件、云服务和存储设备四类每日巡检报表。一份巡检报表针对同一云平台的多个集群。如果是多个云平台,则可依次增加巡检报表。

主机巡检

主机是云平台稳定运行的物理依赖,直接影响着云平台的性能变化与存活状态,主机每日巡检内容为主机状态、CPU、磁盘与内存利用率。主机每日巡检报表如下:

在品高云平台内,对物理主机的 CPU、内存、磁盘使用情况及其关联的实例进行检查,具体操作如下:登录到 BCC,在【平台管理→物理资源管理→物理主机】中,可查看每一物理主机的基本信息,如图:

点击详情,可通过监控页面查看物理主机的 CPU、内存、磁盘使用情况。

云组件巡检

云组件包括云控制器(CLC)、集群控制器(CC)、节点控制器(NC)、云数据库(MySQL)、BingoFS、Ceph、SDN 控制器。云平台组件的健康状态直接影响着云平台的可用性。每日巡检项目为云组件的可用值与可用率。云组件每日巡检报表如下:

在品高云平台内可通过页面之间巡检云组件,以云控制器为例,巡检具体操作如下:登录到 BCC,在【平台管理→虚拟资源管理→计算管理】中,点击云控制器、集群控制器和节点控制器,可查看云平台控制组件是否处于正常运行状态,如图:

云服务巡检

每日巡检的云服务包括基础云、负载均衡、云编排服务、云监控、弹性伸缩、关系数据库、简单通知服务、对象存储服务、自助服务平台(SIP)等等。巡检项目为云服务的可用率。云服务每日巡检报表如下:

登录到 BCC,在【监控与报表→全局监控→服务状态监控】中,可查看云平台提供的服务可用性状态。点击服务状态可查看每一服务的可用性评分。如图:

存储设备巡检

存储设备的每日巡检内容包括 BingoFS、本地文件系统、本地逻辑卷、Ceph,巡检项目为存储设备的可用率。存储设备每日巡检报表如下:

登录到 BCC,在【平台管理→物理资源管理→存储设备】中,可查看每一物理存储设备的资源使用情况,如图:

平台警报巡检

平台警报类型分为实例、存储卷、负载均衡、弹性组、主机、区域、服务,巡检项目为警报类型的数量。云平台每日警报巡检报表如下:

登录到 BCC,在【平台管理→监控于报表→监控项】中,可查看云平台的警报情况,如图:

每周巡检

每周巡检内容除每日巡检内容外,增加日志审计计量、物理资源统计情况;并对本周七日内的巡检记录统计分析,形成周报。

每周巡检内容包括日志审计、资源统计、组件和服务可用性。

日志审计分为警告、错误、信息三个级别,日志检查时间及其频率可自行设定。

资源统计包括计算、存储、网络和节点资源统计。计算资源统计包括 cpu、内存和磁盘使用率及其关联的实例数量;存储资源统计 BingoFS、本地文件系统、本地逻辑卷、Ceph 的使用率;网络资源统计 IP 和云网络的使用率;节点资源包括云节点和存储节点的数量。每周资源统计一次,时间为每周最后一个工作日。

物理主机、警报、云组件和云服务巡检数据为每周内七日可用率相加后的平均值。

云平台每周巡检报表如下:

每月巡检

每月巡检工作内容为云平台本月使用情况和上个月的使用比较,巡检项目的本月值为日志审计、警报、云组件和云服务、存储设备、物理主机当月每周的平均值。资源统计的使用率为当月最后一个工作日的数值。并基于云平台每周巡检内容并形成每月巡检报表。

每季度巡检

每季度巡检工作内容为云平台本季度使用情况和上个季度的使用比较,每季度巡检内容包括日志审计、资源统计(季度最后一天)、物理主机、存储设备、警报、云组件和云服务,巡检项目的本季度值为每月的平均值,基于使用情况和统计数据准备季度巡检报告;并依据巡检报告检查云平台是否做必要的扩容和升级计划。

每半年巡检

每半年巡检内容为除了每个季度的巡检项目外,还需要检查云平台版本与许可,升级云平台;升级后进行清理。

云平台巡检数据除了通过平台页面直接查看外,还可以利用 zabbix、SSH 等第三方工具获取监控数据。

巡检工作完成后,巡检员需要对巡检内容进行统计分析。当在巡检过程中发现问题,若巡检员可自主解决问题,则记录问题与解决方案,事后撰写运维报告,提出问题优化方案;如果在巡检过程中发现问题后,巡检员不能解决问题,则提交管理员与系统支持方处理,问题解决后由巡检员记录问题与解决方案,事后撰写运维报告,提出问题优化方案。

品高云除了提供人工巡检服务之外,在 V8.0 版本中还推出了平台智能体检服务,可自动输出巡检报告,具体内容可参见文章:[深度分析 8.0 系列]04 平台智能体检服务,访问地址 http://blog.bingocloud.cn/archives/4360。