1. 智能化已成为释放 IT 运维人员能力的重要技术手段

在云计算数据中心场景下,资源与信息更加集中。这种“集中”不是集中到一台机器,而是集中到由 100 台、1000 台或更多机器组成的集群上。云计算技术能为用户提供极高的计算能力及海量存储空间,与此同时,也带来了运维方式的巨大变化。随着服务规模的不断扩展,人工进行系统管理已经成为不可能完成的任务,自动化运维将是不可回避的选择。同时,企业数字化转型所需要的 IT 敏捷性和速度也超越了以往传统的 IT 运维实践。

IT 运维的重要工作内容之一就是定期巡检。无论是室内的数据中心机房,还是新型的云数据中心,定期的巡检管理是必不可少的。传统的巡检系统,多数巡检为半夜进行非常辛苦,运维人员直接通过手工记录检查结果,该种方式需要工作量很大、效率低、检查结果不易保留及查询等,另一方面由于是人工操作,就会有惰性和不规范情况出现,容易造成管理人员走马观花。随着云计算技术在各行各业的工程落地实践,传统的巡检方式已经很难满足用户对大规模基础资源的运维要求,需要通过一种全新的自动化技术来摆脱传统的纸张记录方式,让运维人员巡检更加科学,是当前企业急需解决的难题。

目前,应用于云平台的智能化巡检服务在行业内较为少见,一些产品大多通过第三方的巡检工具,巡检内容也仅局限于虚拟机层面,更不能直接输出云平台巡检结果的分析整理以及下一步的运维管理建议,还只是停留在对可观存在的数据信息的收集整理阶段。对于 IT 运维人员而言,还无法做到协助对主观意识层面的知识归纳与创新的帮助,如果,智能化的云平台巡检服务能够实现全面的内容巡检以及对巡检结果的分析整理,并可输出标准化的巡检报告,那将会释放运维人员的机械化工作压力,更多的时间投入到知识沉淀和创新性得工作中去。

图 1 云平台运维工作体系

2. 品高云平台智能体检服务

品高云平台智能体检服务,解决了运维人员手动巡检云平台的诸多问题,自动巡检完毕后即可导出巡检报告,运维人员可详细查看巡检总结、存在问题以及优化意见,极大简化运维人员巡检流程,进一步提高了运维巡检的工作效率,释放运维人员的机械化工作压力。

图 2  平台智能体检服务示意图

品高云平台智能体检服务的巡检内容包括了云服务器性能情况、云存储容量以及可用性、云控制器可用性、数据库使用情况、云服务可用性、整体资源使用情况、资源使用 TOP 监控、资源可用性。

品高云平台智能体检服务除了对云平台的整体运行情况进行检查外,输出的标准化巡检报告中还为运维人员提供了云平台的优化建议与问题改进建议。

3. 特色能力

  • 针对常见问题给出整改建议,后续可以按需扩容整改建议库 ;
  • 自动生成 word 版本巡检报告,目录中直接标记问题所在,可通过点击跳转具体问题章节;
  • 针对云的物理资源(服务器、存储、SDN 网络)、云控制器与数据库、虚拟资源、各种云服务等统一进行健康检查;

4. 应用场景

  • 定期巡检云平台整体情况,包括计算/存储/网络/高级服务/数据库/平台状态等。
  • 统计分析云平台资源使用情况,为升级扩容提供参考。

5. 功能实践— 自动巡检品高云平台

本次功能实践是通过智能体检服务对品高云平台进行自动巡检,输出标准化的巡检报告,并针对某一巡检项与云平台内的实际情况进行对比,以确认智能化巡检服务的准确性。

详细操作步骤如下:

(1)打开平台智能巡检服务,填写品高云巡检平台信息,包括用户名称,平台版本,巡检人,平台账号,密码,平台地址,存储地址等。

图 3  填写巡检平台信息

(2)点击生成报表开始巡检云平台。

图 4  巡检过程截图

(3)巡检完成后即可导出完整的云平台巡检报告。

图 5 标准化巡检报告封面

自动输出的巡检报告包括了服务器状态、云平台数据库运行状态、云存储服务状态、云平台使用状态、自助服务门户状态、实例状态等内容,同时,还针对巡检结果与存在问题进行了数据分析,为云平台运维人员提供了一定的管理建议。

(4)针对实例状态中的内存监控情况,查看巡检报告中的巡检内容是否与云平台中的实例监控一致。

首先,打开云平台巡检报告,在实例状态监控章节查看实例内存监控情况,发现云平台共有以下 1 台虚拟机内存占用过高,实例 IP 为 i-4B71D908。

图 6 巡检报告中实例内存巡检结果截图

进入云平台(地址 10.202.83.1:8663),通过【监控与报表】→【监控 TOP】可以查看到云平台中实例内容占用率最高的实例也为 i-4B71D908,与巡检报告输出的数据一致,这说明平台智能体检服务的巡检结果非常准确。

图 7 云平台监控监控 top 截图

目前,平台智能体检服务已经在品高云 8.0 版本中正式发布,对于品高云平台智能体检服务的更多操作介绍,还可以通过视频详细了解。