当前位置:首页 > 新闻中心 >新闻详情

智能运维的“能”与“不能”

发布时间:2020-06-05 12:00:00

随着企业IT系统的规模扩大、复杂度不断提高、监控数据日益增长,各类故障层出不穷,保证系统高效可靠运转的难度激增,运维行业亟需新技术带来能效的变革。
——必示科技CEO  刘大鹏

2016年,全球著名的IT咨询机构Gartner提出AIOps的概念,即智能运维,通过将大数据和人工智能或机器学习功能相结合的软件系统,增强和部分取代广泛的IT运维流程和任务,包括可用性和性能监视、事件相关性和分析、IT服务管理和自动化,以进一步解决自动化运维无法解决的问题。

本篇我们主要讨论的内容是,AIOps在当前运维体系中能够做什么,以及有哪些亟待解决的痛点问题。

一般来讲,大型IT数据中心的运维体系一般会分为一二三线。一线由呼叫中心统一受理事件、分派工单并跟踪处理完成情况,完成闭环流程;二线一般由运维团队中各系统运维技术人员和业务骨干组成,接收一线分派的事件工单,按运维流程对事件进行相应处理;三线运维一般由资深顾问和技术专家组成,负责解决升级事件及建立标准化运维流程。

在多年推动AIOps产业落地实践的过程中,我们常常会遇到一些具有代表性的经典问题,如:在现有的运维体系中,AIOps技术如何快速落地,并见到“效果”?

要解答这个问题,首先需要知道AIOps能做什么。AIOps,即AI+Ops(Operations),我们先来看“AI”。

提到“AI”,人们往往会陷入一个误区,认为它是万能的,能力范围非常广泛。之所以会有这样的想法,是因为在日常生活中,我们在越来越多的场景中都能感受到AI的强大,比如智能助理可以为我们订机票。

在这个场景当中,我们只需要告诉智能助理:“看看明天的机票”。这时智能助理会问你:“目的地是哪里?”接下来你只需要根据引导来逐一回答它的问题,再完成付款操作即可。这是一个很“智能”的场景,机器人实现了跟我们的对话,了解了我们的需求,并且帮我们达到了目的。这个场景其实就是命中了智能助理的设计“圈套”。拆分一下,我们看看这个场景中,发生了哪些事:


 
 

想象一下,如果没有人事先定义好这个场景(图中的表格),这个场景就会变成:
 
  • 【我们】发出“看看明天的机票”这个指令;
  • 【智能助理】“我不懂你在说什么。”
  •  智能助理,卒……

有个貌似“难以接受”的事实是,目前为止的人工智能,其所有的场景都是需要进行预定义的,AI在开放场景下是无法实现其真正价值的。正如中国科学院张钹院士曾提出的:人工智能做的好的事情,需要满足下面5个条件:
 
  • 有充足的领域知识
  • 完全信息
  • 有明确定义的(well-defined)
  • 可预测性、按确定性的规律演化
  • 单领域

以上条件有任意一项或多项不满足,计算机做起“AI”来就很困难。
因此,只有当我们了解了人工智能的能力边界,才能清楚如何把人工智能运用到运维工作中来,进而“AIOps能做什么”、“AIOps如何落地”、“如何快速见到效果”等问题也将会逐一地迎刃而解。

通过这几年在企业做智能运维落地的经验累积和总结,我们发现:不能把数据全部丢给AI,期待它自动分析出我们想要的结果;智能运维的流程和场景,是需要我们结合专家经验进行严格预定义的。

数据中心的IT健康状况与人体的健康状况运营有很多相似点,与数据中心的“业务黄金指标”类似的,人体也有一些“健康度关键指标”。比如,当我们生病的时候,往往能通过一些“健康度关键指标”察觉,如呼吸道指标异常(咳嗽)、体温指标异常等,就像一线人员接到告警。这时,我们首先会通过一些经验性判断,过滤一些误报,如呼吸道“指标”异常(咳嗽),并不一定判断为必然生病(故障);接下来,我们按照标准化流程去医院,请医生(二线管理员)进行进一步诊断和处理。

传统运维方式是如何发现系统故障的呢?传统监控一般会对所有的指标(交易类、性能类)根据一定规则,进行固定阈值监控。这时,只要指标超过阈值并符合提前配置好的告警规则,就会发送告警给一线人员。运维人员在配置时,面对各种指标,很难找到最合理的告警规则和阈值,只能在“高误报”和“高漏报”之间不断折中取舍。随着IT系统越来越复杂,一线人员逐渐被海量告警淹没,如何从中分离出有效的告警,成为传统监控的一大痛点问题。

发现故障以后,在止损的同时,还需要找到故障原因。一般来说,没有任何一个故障是可以只看一种数据,就可以得出根因结论的。运维人员需要收集尽量全面的信息,从而根据经验判断潜在的根因,这个过程往往会耗费大量人力。
我们把这两个步骤拆分出来,从故障发现、故障定位两方面,接上述人体健康运维的例子往下看:
我们把身体看作一个复杂的业务系统,人体的指标也可以分为两类:体温、是否咳嗽等(业务黄金指标),以及血液状况、骨骼状况等(基础监控指标)。与业务系统的IT架构对应,如下图所示:

 

我们可以通过业务指标异常检测产品,对关键业务指标进行非常灵敏的实时异常检测。同时为了减少开销,我们也总结出了一些业务黄金指标,如交易量、响应时间、成功率、响应率、错误量、未响应量等,这些指标往往能直接反映系统的健康状态,而多数情况下基础监控指标会存在大量误报(CPU、内存使用率等)。我们只需要对这些黄金指标进行实时异常检测即可,当检测到故障后,再进行对应的故障定位操作。就像人体一样,我们一定是先知道自己不舒服(应用故障发现、黄金指标),才会去医院做全面检查(应用故障定位),肯定不会通过实时全身检查(抽血、CT),来发现自己身体是否健康。

必示AIOps解决方案
必示AIOps解决方案,主要从两个角度出发:应用故障预警和应用故障定位。每个产品模块都是非常具体的场景,例如上面的业务指标异常检测,即对黄金业务指标进行实时异常检测,判断是否有异常产生,从数据到功能都是非常具体的。

多个细分的场景结合起来,实现故障发现和故障定位能力,场景越多,智能运维就越“智能”。






 

TOP

400-666-1132