2023 CCF国际AIOps挑战赛·赛题与赛制解读

发布时间：2023-07-10 16:04:12

本文根据本届挑战赛技术委员会主席、南开大学副教授张圣林在2023 CCF国际AIOps挑战赛宣讲会暨AIOps研讨会上题为《2023 CCF国际AIOps挑战赛·赛题与赛制》的分享整理而成，全文分为挑战赛背景介绍、题目简介、流程说明和评分规则等部分，最后简要介绍了参考文献与往届资讯，供选手参考。

本届挑战赛背景介绍

近年来软件系统领域发生了两个显著趋势。第一个趋势是随着云计算的发展，软件系统架构由单体架构逐渐转变为面向服务的架构。从单体的软件用一套可执行的文件来实现整个的业务逻辑，持续开发困难并难以扩展。目前大部分的行业（包括互联网和金融机构）的软件系统逐渐向微服务架构或面向服务的架构过渡，使它能够支撑细粒度、松耦合并通过API连接的服务，以达到持续开发和灵活扩展的目的。

第二个趋势是传统人工运维逐渐向智能运维转变。这也是为了应对复杂的软件和网络的架构。传统运维主要靠人工为主，耗时耗力且高度依赖专家经验，应对复杂的系统时往往束手无策。随着智能运维的兴起并深入各行各业，结合专家知识、运维数据和智能算法，降低故障修复时间并提升无故障时间成为业内共识。最终我们期望依靠智能运维，可以实现无人值守的状态。

在此过程中，运维领域面向微服务架构的智能化运维转型中面临两个挑战：

第一个挑战是:微服务架构的系统复杂性较高，调用关系复杂，故障出现后根因定位和故障溯源难。同时，软件服务的动态性导致迭代速度快，需要动态创建和销毁容器，软件频繁变更后，过去的运维经验往往不再适用新的软件环境，给运维工作带来挑战。

另一个挑战是:如何关联和融合多模态数据，并挖掘关键信息用于故障发现和诊断。在微服务架构下，往往具有多种损益来源和多种类型的数据，包括指标数据、日志数据以及调用链数据等多模态的运维数据。指标能够反映业务状态和机器性能的时间序列数据。日志是一种程序打印或执行代码输出的非结构化文本。调用链则是在系统完成一次业务调用的过程中，把服务之间的调用信息连接成的一个树状链条。多模态运维数据可以反映系统状态的全方位信息，通过智能运维算法可以得到相对于传统运维更精准的结果。

针对以上挑战，结合微服务架构系统和调用关系复杂性，以及多模态的运维数据，本次的挑战赛以开放式赛题的竞赛形式，向业内普遍的两个挑战发起冲击。

本届挑战赛题目简介

回顾下历届挑战赛赛题：

相比往届比赛，本届AIOps挑战赛在赛题方面做出了较大的创新。

本届挑战赛采用开放式赛题，基于建行云龙舟运维平台的稳定性工具和多维监控系统，模拟大型的生活服务APP的生产环境，提供端到端的全链路的日志、指标和调用链数据。选手可以自主命题、自行设计方案及实现，最后评审专家会根据选手的选题、方案和效果来评分。

选手可基于一种或多种模态数据（如日志、指标、调用链数据等）选择异常检测、故障分类、故障根因定位、故障影响分析，以及其他类型，当然这只是一个示例，参赛选手自主命题的时候不用拘泥于上述案例。

系统架构

系统架构包含了三个集群和一些中间件，它分了几个层次。首先，我们将模拟访问建行云的一个生活服务类APP的过程，通过负载均衡器加载到入访WEB集群里。应用层具有三个集群，包含两个基础集群和一个订单集群，负责处理用户访问的服务。数据层包含中间件和数据库，来处理应用层三个集群对数据的请求。之后通过负载均衡器将用户的结果返回。模拟环境的拓扑结构如下：

故障场景

以某一个交换机的故障为例：某网络接入交换机的端口，出现了丢包严重的问题，导致交易处理时间变长，且交易处理失败次数变多。注入故障时，首先会设置交换机某个端口丢包率较高（如80%），同时制造高频、访问数据库交易流量。整个故障传播的链条是：交换机端口丢包严重，通过分析交换机性能指标如丢包率，导致关联的 AP交易时间变长，我们可通过分析关联AP的指标平均处理时间，能够感知到 AP出了问题。之后，所关联AP系统的成功率下降。通过这样的方式，从交换机端口的故障传播到导致 IP交易会出现问题，选手可通过分析数据推导出交换机的端口故障的根因。