热门的AI技术,不仅能用来增值服务、产品或内部作业流程,越来越多企业开始用于运维IT基础建设,尤其在欧美,近两年兴起了一股AIOps(Artifial Intelligence for IT Operations)趋势。IDC甚至预测,2022年时,全球IT工作负载的75%以上,都将转变成由AI或大数据分析驱动的自动化运维行业,而且不只IT运维,还会进一步扩大延伸到OT运维层面,如边缘端IoT设备、工厂运维管理都能靠AI来打理。

最早在2016年提出AIOps一词的Gartner,原本是指运维越来越依靠算法(Algorithmic IT operations的缩写),不只是AI、机器学习,甚至连传统大数据分析等,可以辅助IT日常运维工作的算法都属之。
AIOps日趋重要的原因,除了IT运维过程所生成的数据越来越多,只靠人已经无法判读,日益复杂的IT环境也成为运维的一大挑战。比如说,在数字转型浪潮下,企业可能以虚拟化主机、超融合架构来扩展IT建设,或是将企业服务上云,根据iThome 2019年的台湾企业云计算大调查显示,超过4成企业采用混合云架构,形成本地端与云计算混合管理的环境,AIOps企业BigPanda自家调查数据,近半数企业常用的IT监控工具多达到十多种,而且,未来两年还会越用越多,越来越复杂难管。
就像美国KeyBank的实际例子,KeyBank过去15年来累计了上千条人为定义的规则来判断异常事件,更应用了超过20种的监控工具来运维不同系统,长久下来,几乎没有人能够清楚厘清所有规则间的相互关系,导致IT运维成本越来越高。后来,他们决定导入AIOps相关技术,改用算法取代旧的异常检测方法,大量降低了误判的警报通知,甚至将所有监控数据集成到单一平台后,能通过AI剖析庞大数据,来找出根本原因(root cause),更有效率地解决问题,也不需要一组人力来管理20款监控工具。
不少原有提供IT运维平台或产品的企业,或擅长大数据、AI技术的企业也纷纷跳进来投入AIOps产品的研发。诸如BMC、CA Technologies、Unisys、IBM、Micro Focus、Moogsoft、BigPanda等厂商,都陆续推出了相关的AIOps产品,像IBM全球上千家企业顾客,用AI技术自动分类的故障工单,超过了1,200万件。
AIOps从三面向增值IT运维行业
Gartner认为,AI可以在IT运维的三个领域上发挥作用,分别是观察(Observe)、参与(Engage)与行动(Act),企业需要通过监控工具(Monitoring)、信息科技服务管理(ITSM),以及自动化技术(Automation)来实现。
首先,在观察部分,传统IT运维中,人会根据过去的经验来定义异常事件的规则,但随着IT基础架构不断扩展、运维环境变得复杂,琐碎的规则不仅会触发大量误报事件,更可能忽略严重的威胁,而且,IT人员往往在异常事件发生后,才被动地处理问题,如何化被动为主动、甚至进一步降低问题发生几率,就是AIOps要辅助监控工具要做到的事。
比如事件关联分析,就是通过算法与NLP等技术来分析历史数据,将看似无关的事件分类,进而找出事件的关联。假设系统发现连不上http端口、CPU使用率过高以及网页浏览量低于500次,这三种看似无关的情况常常同时发生,就能通过异常事件关联算法将这些事件群聚,进一步分析根因(Root Cause Analysis,RCA),甚至做到提前预警,如巴西教育部就是利用事件关联分析来缩短三分之一的RCA时间,增加IT运维效率。
通过AI来观察、监控的做法,可以从简单的可视化与数据分析,逐渐到复杂的异常检测、RCA,甚至更进一步提供异常预测、异常防范与避免。IDC在2019年调查亚太地区企业,8成受访企业已经做到了可视化与数据分析,也有5成已导入了异常检测、RCA等监控做法,甚至,有3成可以进行最难做到的异常防范与避免。
第二类参与面向,则是指与人、组织息息相关的AIOps。企业传统IT大多会提供一个Service Desk渠道,可能是专人电话、通报Email或故障表单网页,给内部员工提出IT需求。在AIOps的做法上,可以改用数字助理来取代人力或网页表单,通过NLP、OCR等技术自动分类或识别通报事件的内容,或自动爬梳历史记录,提供参考处理方法给负责故障排除的维修人员,甚至串联自动化功能来协助用户执行简单作业,如重置用户密码、安装或更新软件等,来更快速恢复IT功能。
最后一类是AIOps的行动类应用,这也是目前常见企业导入的一类,通过自动化来取代IT人员重复性的运维工作,包括处理、修补、健检、联防、部署、申请、调度等,来降低大量人工作业的成本,并释放人力到高度手动、耗时且容易出错的任务中。比如说,全美人寿保险通过与Service desk串联的自动事件修复功能,在7个月中节省了作业人员9,000多个小时的工作时间。
近两年日本企业狂热,也开始吹进台湾的机器人流程自动化RPA(Robotic Process Automation)也正是AIOps的入门形态,不只是自动化程序控制,更进一步利用算法、AI来优化自动化的过程,找出更好的作业方式。
Gartner在2019年时观察,RPA是企业软件中增长速度最快的应用,更是企业用来加快OT作业流程的关键工具,这也将是企业应用AIOps的未来方向。
整体来看,根据Gartner在2019年11月的市调,目前在监控工具中导入AI的应用正在迅速增长,如事件关联分析、异常检测、根因分析等,但实际在Service Desk中结合数字助理功能,来增值信息科技服务管理的企业还是少数;同样进程缓慢的,还有DevOps多部门协作开发流程的应用,Gartner估计,要到2023年,才将有40%的DevOps团队拥抱AIOps。
相较于全球企业应用AIOps的状况,台湾采用的脚步更慢,IDC建议,要采用AIOps的企业,除了准备好品质佳的大数据运维数据,也要拟定阶段性的导入计划,IT运维团队也要持续学习新技术来适应新的运维方法,更要考虑不同AIOps平台支持的数据类型与来源是否足够多样,能否满足企业自身的需求等。