当前位置:首页 > 新闻中心 >新闻详情

必示科技|以产品创新助推AIOps生态发展

发布时间:2022-08-22 14:25:49

8月13日在京举办的“2022 CCF国际AIOps挑战赛决赛暨AIOps研讨会”上,必示科技的三位产品负责人共同发表了题为《AIOps产品生态实践》的演讲(文末有完整演讲视频)。
 
 
 
必示科技产品矩阵  
 
本场分享主要围绕运维工具中的三大平台及智能运维数据平台展开。
必示科技联合创始人&CTO程世文率先登台介绍智能运维数据平台DataSeer和智能事件管理平台AlertSeer。
 
 
智能运维数据平台:DataSeer
 
 
必示科技在打造智能运维数据平台的过程中收集了许多客户反馈的诉求,这些诉求主要分为:一致的数据标准和规范、安全可信的数据源、数据质量管控、高效的数据共享四大层面。针对上述诉求,必示构建了包括数据集成、数据标准和开发、数据质量、数据资产、数据服务和安全、主数据在内,基于数据治理体系的智能运维数据平台。该平台最终体现三大价值:提升数据准备效率、上下游数据快速传递、整体提升数据质量。
 
 
在数据平台功能架构中,海量异构运维数据经过数据平台的集成、计算、存储、管控,进一步支撑满足交付、分析、可视化和各类应用场景的需求,有力支撑上层必示独有的智能风险感知平台、智能事件管理平台与智能排障分析平台。
 
数据平台已成为端到端的智能事件和风险感知、事件管理、故障分析及止损推荐全运维场景的坚实基座。
 
另外,数据平台的数据集成融合能力支持海量异构多样化的数据集成,具备复杂数据ETL的处理能力和优异的性能表现。数据集成可视化界面支持灵活编排,支持10种输入算子、10种输出算子与35种中间变换算子。
 
 
同时,数据质量是必示科技非常重视的一环。必示从业务规则、数据一致性、完整性等层面出发,建立整个数据平台的数据质量标准与考核指标,定期生成质量监控报告,从而形成完整闭环以监督数据质量管控过程,不断迭代提升平台数据质量。
 
平台还有数据资产、数据服务、数据血缘、大屏可视化等功能点,以及丰富的应用场景。总结数据平台包含的四大产品亮点:
 
 
 
智能事件管理平台:AlertSeer
 
在故障应急处理过程中一般存在三大痛点:
 
  • 痛点1:现场信息收集困难,组织各方排查时人员协调困难,更难以根据故障状况有序地组织排查;
  • 痛点2:故障时刻出现大量告警,难以从中识别关键告警信息;
  • 痛点3:出现告警的应用服务众多,难以快速定位故障应用快速止损。
 
针对上述痛点,必示科技打造了新一代智能事件管理平台AlertSeer。
 
 
事件管理平台下方的底层是各类数据源,包括日志、BPM、AP、NPM等各类监控和CMDB配置数据,中间是数据平台,事件管理平台自身位于上层。除了传统的告警基础能力外,事件管理平台还包括指标异常检测、提前验收告警、从源头减少告警等事件处置能力,以及摘要分析汇总、风险组件定位、可疑应用定位等事件分析能力。平台上层是事件的大屏展示、列表展示、统一报表、分析报告等可视化内容呈现。
 
必示事件管理平台的优势
 
  • 智能事件压缩。通过无监督,基于动态阈值的异常检测方法能够适应多样化特征的指标,快速、准确、全面发现问题,从源头减少无效告警。
  • 支持插件化扩展能力,包括告警输入输出、丰富、过滤、压缩等全部支持插件化,用户还可自行开发插件。
  • 重新定义告警处置紧急程度,分析告警特征,使用算法过滤周期性、频发告警,关注罕见、近期增多告警并及时通知运维人员。
  • 通过算法快速识别可疑故障组件。
  • 提供多维度多视角智能告警分析报告:
摘要分析汇总
通过对告警数据中的重要维度聚合,能够清晰展示风暴告警的脉络,帮助管理员总览系统影响范围、锁定告警中的共性问题,为故障排查提供关键线索。
 
风险组件定位
从组件视角对故障进行分析,并结合告警组件本身的属性特点,对组件进行风险推荐和排序,帮助事件经理有序组织各领域/各部门专家进行故障排查。
 
可疑应用定位
从应用视角对故障进行摘要分析,呈现单个应用作为故障根源应用的可疑度,并根据可疑度的高低进行排序。
 
事件管理平台可称为事件管理的军师,进一步提升排障效率。平台亮点总结如下:
 
 
 
 
智能风险感知平台:RiskSeer
 
随后,必示科技风险感知平台产品负责人、高级算法专家温希道登台介绍必示智能风险感知平台——RiskSeer。
 
 
当前运维工作内容往往以被动式为主,例如被动式处理故障、被动式解决问题、被动式交付应用、被动式节省成本。这种运维工作导致计划性不足,难以持续不断地自我优化,主动提高效率、质量,降低成本。智能风险感知平台的目标是帮助数据中心运维人员从被动运维转变为主动。依托建设银行运营数据中心前沿的智能运维工具体系化建设理念以及在交易、变更、监控、配置、基础资源、批量和容量等领域丰富的运行风险实践经验,必示总结智能风险感知平台的产品思路:
 
  • 引导运维工作从事后响应变为事前规避,提前消除风险;
  • 从定性分析升级为定量观测,跨域集成和利用各类数据评估系统运行健康状态和风险指数,提供系统可观测性;
  • 回归智能运维建设落地初衷,利用人机协同决策能力实现规模化和常态化的提高运维生产力;
  • 结合数据平台、AI算法平台进行筑基沉淀,实现风险感知平台风险场景的可扩展、可编排。
 
基于上述思路,必示智能风险感知平台主要围绕四大功能设计:
 
 
  • 构建风险闭环管理,从事后响应升级为事前规避,通过平台提供全流程风险感知和管理服务。构建从风险发现、通知反馈到跟踪整改等各个阶段的风险闭环管理流程,结果可量化,有效提升风险动态管理能力。必示认为运维风险感知或预测类产品的终极价值指标是风险整改数量,从实际落地角度,需要切实将风险的生命周期管理融入运维工作流程管理中。
  • 提供人机协同风险决策引擎,提供标准化算法组件,结合运维专家经验帮助运维人员快速构建、编排、验证和推广风险策略,大幅降低业务人员参与智能运维建设的门槛。并通过集成、跨域、升维和智能四个层次进一步提升风险感知能力,帮助用户快速建立贴近于行业的风险基线管理机制,提高有效风险发现数量。
  • 多视角风险态势感知能力,通过健康度、风险数、频发风险数、罕见风险数提供基于全局视角的整体风险客观评估,也可基于用户角色提供不同视角的运行态势感知报表。通过构建多视角风险看板,提高日均平台登录人数,让主动运维成为运维人员日常工作的一部分。
  • 产品功能开箱即用,灵活编排可扩展。客户可根据部署架构、业务特征、风险感知的重点需求等因素,根据业务目标灵活配置风险感知能力,个性化定制风险感知服务及服务内容,提升整体运维风险感知能力。
必示智能风险感知平台预计发布时间是2022年第四季度。
 
 
智能排障分析平台:TicketSeer
 
本场演讲的最后,必示科技排障产品负责人、高级算法专家聂晓辉登台介绍必示智能排障分析平台——TicketSeer。
 
运维排障过程存在诸多挑战:
 
  • 由于系统规模增大、故障之间互相影响,排障范围广、难度高,导致排障效率低下;
  • 排障过程涉及部门多、工具和数据多,多方协同人工排障速度较慢;
  • 专家往往依据经验进行排障决策,但经验难以沉淀固化。
 
下图是人工排障过程中常见的流程:
 
 
受此启发,必示智能排障分析平台使用运维知识图谱、算法等技术将专家经验固化,形成排障图谱,针对不同故障场景形成不同的诊断逻辑,使专家经验标准化,自动化加速排障过程:
 
 
平台业务架构以故障场景为中心,通过融合多种运维数据、分析算法或工具,对故障场景自动发现、分析和处置推荐。
 
 
必示智能排障分析平台的亮点:
 
  • 积累超过20种智能运维算法,涉及指标检测、日志检测、调用链检测、告警摘要分析等。比如,调用链分析算法能够迅速定位告警根源应用系统,展示异常调用拓扑,提供排障入口;业务多维分析算法能够迅速从众多维度找出导致告警的维度组合,缩小排障分析范围;机器指标异常检测算法能够迅速对关联的服务器、虚拟机、中间件等底层性能指标进行分析,缩小排障范围。
  • 组织专家经验,沉淀专家知识,形成排障场景知识库。首先将专家经验抽象为故障图谱,编排数据算法;然后在实际问题发生时基于图谱技术关联展示故障现场全局运维信息;最终结合算法和自动化技术给出可疑原因推荐,形成自动化排障过程。
 
实际提高故障分析能力并非易事,需要底层数据、相关分析工具、运维经验完备,同时需要大量数据治理工作。为提升系统智能化水平,又需要组织数据提升运维系统可观测性、组织专家经验实现自动化、组织工具提升自动分析能力并扩展故障分析范围。
 
必示科技建设智能运维工具的过程也并非一蹴而就,涉及多个阶段,总体建设思路总结如下:
 
 
  • 第一阶段由行业领先的动态基线能力提升关键业务监控能力,并驱动数据汇总和治理;
  • 第二阶段接入不同告警源对告警进行统一管理,并基于智能告警分析能力对告警进行精细化管理;
  • 第三阶段利用运维知识图谱技术对配置、告警、指标、日志等数据进行汇总,形成初步的跨领域排障分析能力;
  • 第四阶段利用排障流程引擎编排故障处理过程,实现关键故障场景的自动诊断和推荐分析;
  • 第五阶段由被动运维转向主动运营,利用知识图谱技术整合多来源数据,基于人机协同决策引擎初步构建风险感知能力,而对于风险规避性需求更强烈的行业则可以直接从第二阶段或第三阶段即可开始风险感知能力建设;
  • 第六阶段针对关键风险感知业务场景,强化风险感知能力,比如变更、容量、基础资源等风险分析;
  • 第七阶段构建仿真平台,通过流量生成等技术模拟故障情况,构建稳态基线;
  • 第八阶段利用混沌工程做全面的风险、故障攻防演练,完善风险感知、智能监控、和排障分析等工具,提升智能化水平,最终构建出高度智能的运维系统。
 
以上就是本场演讲的主要内容。


 

TOP

010-82362970