以人工智能来学习IT人员在处理运维工作的智能运维(Artificial Intelligence for IT Operations,AIOps),过去2年在国外掀起了一股新风潮,近日也开始吹向台湾。以线上游戏软件开发起家的国内游戏软件系统开发商中佑集团,从去年开始试导入AIOps,并先用在自动化处理安全问题,甚至还进一步利用AIOps搭配流量清洗机制,成功对抗DDoS流量攻击。中佑集团安全研发处协理林岳锋日前在2019年台湾安全大会上,也首度披露了该公司导入AIOps技术自动化运维的最新应用成果。
AIOps是什么?其实就是一套AI运维自动化平台,可以用来学习IT人员在处理日常运维的逻辑思维及作业行为。 AIOps之所以重要,甚至在美国、欧洲及日本相继有不少大型企业导入,在于它利用大数据、机器学习(ML),及其他AI算法,创建起一套IT运维逻辑规则,来学习IT人员在运维上的操作及判断行为,用以取代传统需要耗时又容易出错的IT 运维任务和流程,以提升运维效率,让IT人员更专注在其他重要的工作上,包括系统可用性和性能监控、事件关联和分析,以及IT服务管理和自动化等。
为何开始采用AIOps?林岳锋表示,中佑集团主要业务是开发全球性的游戏系统,随着业务逐年增长,IT架构变得庞大且复杂,他以游戏服务域名为例,光是IT部门每日要管理的游戏域名多达上万个,难以全部都靠人工来处理,因此,去年初时,他决定导入AIOps技术,将AI运用在自动化处理IT系统运维工作=,并通过持续集成、持续交付的方式,来优化IT基础架构运维与流程。并先用于协助改善安全问题上。
游戏产业长期以来一向是黑客锁定攻击的目标,中佑集团自己也不例外,为了防止各种网络威胁攻击,该公司过去几年陆续使用诸多安全产品或设备,强化对于企业内外部的安全防护,如IPS入侵预防系统等,但是由于各种安全威胁层出不穷,也造成中佑安全管理上的一大挑战。
林岳锋以IPS系统来说明,光是每天条列出所侦测到的大量事件,就超过了1千万条Log记录,管理人员必须逐一判断这些事件,哪些是可疑的访问链接,或又有哪些是可放行的误判事件,长久下来,逐渐成了IT与安全人员的沉重负担。所以,林岳锋决定先将AIOps用于安全问题处理自动化。
他解释,过去要判断一个问题事件是否属于安全事件时,得要靠老练的IT运维人员或安全人员,搭配统计或制作图表的可视化呈现方式做判断,才能找出有问题的异常流量或事件,相当耗时。
为了用AIOps来自动判断异常事件,中佑利用超过2TB的每日运维数据作为训练数据,来创建预测推论模型。这些数据包括了系统Log、链接情况,或网络流量等,让AI学习判断如何找出问题链接,或可疑网络使用行为。
训练出模型后,就可以派上用场,后续再将判断结果通知管理者加以排除,或采取其他缓解攻击措施。林岳锋表示,使用AIOps自动判别安全事件的好处, 一来可以有效减轻安全人力的负担,二来也能减少人为疏忽的情况。
有了第一个成果后,林岳锋后来再将AIOps用在缓解DDoS流量攻击上。他解释,过去遭遇到DDoS攻击时,会先由人判断确定攻击流量及类型后,再导到流量清洗中心(Clean Pipe),让攻击当下的流量经过清洗中心过滤后,再导回企业内部,以确保服务正常不中断,但是,现在这个判断与导入清洗作业流程,则改交由AI自动化处理完成。他表示,目前已经可以通过AIOps方式,来过滤掉将近9成恶意DDoS攻击流量,不过仍有1成的漏网之鱼,需再通过人工方式将DDoS攻击排除。
另外,在IT运维监控上也有用到AIOps,林岳锋表示,以往要判断系统有无异常,监控方式多是事前设置固定阈值,一旦系统运行出现异常超过阈值临界线,系统再警示径行通报管理人员处理。但是基于AIOps的智能监控,则是能更进一步做到预测性监控,可以根据分析不同时点的数据找出可疑的蛛丝马迹,在还没发生异常事件前,就早一步加以排除。或是也能根据时间轴的不同,以及网站及App上线人数分布情况,来动态调整阈值大小,排除可能会误判的正常事件,来减少警示误报的情况。