bg_image
方案总览

在当今数字化驱动的企业运营环境中,IT 运维数据蕴含着极高的潜在价值,对企业的智能化、自动化以及一体化发展起着至关重要的支撑作用。随着企业对 IT 运维效率和精准度的要求不断提升,智能化的运维决策、自动化的流程执行以及一体化的管理模式,都对 IT 运维数据有着巨大的依赖。例如,智能算法只有通过对高质量的海量运维数据进行分析,才能有效归纳得到精准的故障预测和根因分析设备故障模型,实现资源自动化的调配。因此,运维数据已然成为这些先进运维模式得以落地的关键基石。

然而, 运维数据的现状却不容乐观。在企业实际IT环境中,往往存在着众多的运维工具,数据在不同的工具中呈现相互割裂的状态。各工具的数据标准不统一,即使同一类数据在不同工具里也可能以不同格式存在,这使得数据解读、流通、消费变得异常复杂;不同工具的数据质量参差不齐,大多存在准确性、完整性等方面的缺陷;数据集成交互方面,缺少统一的规范,很难实现跨工具的数据关联分析,这些都极大地限制了对运维数据价值的充分挖掘。

IT 运维数据的质量治理是一个复杂的系统性工程。其中既涉及到运维数据从生产、流通、加工、消费各个环节的事前规范、事中校验、事后稽核,也涉及到针对发现的数据质量问题制定和贯彻长效的治理策略。IT 运维数据治理平台的出现,正是为了支持和推动这个系统性工程的落地。该平台旨在利用各类数据分析、自动化、智能化技术,实现对数据从生产侧到消费侧全生命周期链条的管控和血缘管理。从源端开始规范数据的录入标准,确保进入运维数据体系的数据从一开始就是符合质量要求的;在数据流转、加工过程中,通过血缘管理清晰追踪数据的每一次移动和转化,以及时识别可能出现的数据质量问题的位置和原因;同时,利用自动化的检测机制,实时监测数据质量指标,一旦发现异常可以快速定位并发起相应的治理措施;平台全程保障数据的准确性、一致性、完整性、及时性,让 IT 运维数据充分释放其潜在价值,真正成为推动企业数字化转型的引擎。

01、数据基准类型管理

以指标类数据为例,基准数据类型管理中维护了所有基准指标项清单,包括:
– 基准指标类型
– 基准指标项维度
– 基准指标项详细定义等

02、数据实际类型管理

实际数据类型管理是指贴源数据层待加工实际数据类型的管理。以指标类数据为例,实际指标项中维护了贴源层实际指标项清单,以及贴源层指标项与基准指标项之间的映射关系。实际数据类型通常可使用自动化手段从贴源层数据中抽取、解析、映射自动生成。

03、数据实例模型管理

数据实例即实际存储的数据项记录,是数据治理的最终对象,这些数据实例在贴源层初步汇总后,将逐步进入加工阶段和消费阶段。因此,需要预先为各类数据项的不同阶段定义数据模型标准规范,以便于参考这些数据模型标准规范进行后续的数据加工、校验和检测以指标类数据实例为例,指标类实例模型通常涉及的字段包括:
– 指标实例唯一标识
– 指标实例显示名称
– 指标实例所属应用
– 指标实例所属节点
– 指标采集时间戳
– 指标值
– 指标数据源

04、主数据管理

运维主数据是各类运维数据共享的基础数据,在运维领域中的主数据通常来自CMDB,常见数据类型包括:
– 应用系统
– 服务组件
– 基础架构节点,如主机、网络
– 组织、人员等

05、质量校验策略

系统集中管理不同类型的数据实例的质量校验策略。这些质量校验策略将被数据质量异常检测程序引用,用于发现异常数据项。
以指标类数据质量校验为例,通常包含以下质量校验策略:
– 指标实例存在性校验
– 指标实例字段非空校验
– 指标实例所属应用/节点有效性校验
– 指标实例数值有效性校验
– 指标实例时间戳(Timestamp)有效性校验

06、异常数据检测和告警

数据实例经过质量检测程序的分析后,自动识别违反质量校验策略的异常数据,并生成异常数据实例的告警信息异常数据告警信息包括:
– 告警标识
– 告警分类
– 告警标题
– 告警消息
– 告警级别
– 告警处理状态
– 告警发现时间等

异常数据告警信息生成后,可按预定策略自动指派给相应数据治理人员展开异常数据的后续处置流程。