当前位置:首页 > 客户案例 > 案例详情

必示AIOps帮助客户有效降低批处理任务告警数量

发布时间:2020-07-01 10:32:09


【背景】
很多企业会在业务闲时(例如夜间)运行大量跑批任务,集中处理当天的交易数据,以银行为例,夜间跑批任务通常处理结账事务,执行数据整合、细分批量交易、生成报表、数据备份等操作。而高并发量的跑批任务执行过程往往容易受到数据量、IT资源配置、数据库性能等因素的影响,导致跑批任务执行时间过长、无法按时结束,进而影响相关系统无法正常开门。另外如果跑批任务在执行过程中一条数据出错,也会导致整个跑批任务失败而提前结束,即跑批时长过短。

传统的跑批任务监控方式通常依据过往经验对跑批任务的运行时长设置固定阈值,当跑批任务执行超时的时候产生告警。而实际工作中跑批任务执行过程容易受到各种因素影响,导致其运行时长产生波动,固定阈值则无法灵活适应这种波动特征,影响跑批任务监控的准确性。

【数据接入】
全行数千个跑批任务运行时长数据

【效果】
某大型股份制商业银行每天有数千个跑批任务,采用固定阈值方式进行监控,随着业务规模的不断扩张、IT系统架构复杂度不断增加,跑批任务处理的数据量呈现高速增大的态势,一旦出现问题而监控体系不能及时感知,其结果将给运维人员带来巨大故障处理压力。基于提前发现、准确发现的建设思路,该行引入必示批处理异常检测产品,导入跑批任务运行时长的历史数据进行训练,建立跑批时长异常检测模型,计算每个跑批任务运行时长的合理范围区间,对后续执行的跑批任务进行运行时长检测,并对不断累积的跑批任务运行时长数据纳入模型训练范围,持续优化模型检测效果。

在必示批处理异常检测产品上线后,经过一年的投产使用后统计,相比传统基于经验配置固定阈值的方式,基于批处理异常检测模型的监控方式可以减少超过30%的告警量,告警更加及时、准确。

【价值】
必示批处理异常检测产品基于大数据量的跑批任务运行时长历史数据进行建模分析,其不断更新优化的异常检测阈值相比固定阈值,更能体现过往真实跑批任务的运行时长波动规律,达到更加及时、准确地发现跑批任务执行异常事件的目的,为客户争取更多故障处理时间,保障业务系统正常稳定运营。

 



相关产品链接

跑批时长异常检测

更多案例效果,请致电:400-666-1132
或发邮件至 contact@bizseer.com 索取

TOP

400-666-1132