AWS Systems Manager加入事件管理器助IT快速解决突发事件

AWS在其系统管理服务Systems Manager中,加入意外事件管理功能Incident Manager,协助用户准备应对事件回应资源,并在应用程序和基础设施意外事件发生时,可快速有效应对,而在解决事件之后,也能详细地分析事件发生原因,且加以改善。

从1995年Amazon.com上线以来,Amazon团队负责了该服务的意外事件回应,而在总结多年应对各种规模的应用程序以及基础设施意外事件的经验,Amazon主要事件管理团队设计出了Incident Manager,协助AWS用户准备并快速回应突发事件。

用户可以使用Incident Manager为意外事件做准备,创建事件回应资源集,而这些回应资源在警示响起时,早已准备好随时可供使用,事件回应资源集有三个部分,第一是联系人,包括参与解决事件的成员,以及联系方式,第二是事件升级(Escalation)计划,当主要待命的回应者没有即时对事件做出回应,则调用其他联系人,第三则是回应计划,规划参与回应的人员,应该要执行的工作,以及协作的渠道。

IT系统总有发生意外的时候,值班工程师便需要能快速恢复服务,因此分秒必争,而准备好的资源可以让工程师,不需要慌张的找寻操作文件,以及协作成员的联系方式,AWS提到,严重的问题通常需要升级,尽管可以从团队成员获得帮助,但要进行协作迅速解决问题,需要有效的沟通,在事件解决之后,工程师也需要从事件记录中,找到问题根源,以改善平台和事件回应程序。

而Incident Manager的设计目的,是要协助企业创建事件准备以及回应实践。用户通过创建回应计划,以标准化地方式准备事件,一旦事件发生时,就能立即做出反应并且快速解决,而回应事件可以由用户选择使用Amazon CloudWatch警示,或是Amazon EventBridge事件通知自动触发,必要的时候,用户也可以手动激活回应计划。

当回应计划启动时,用户可以快速找到联系人信息,而新的仪表板会自动出现在事件管理器控制台中,提供事件所涉及事务的信息,包括事件概述,让回应者可以迅速准确了解情况,还有与事件相关的CloudWatch指标和警示图,可供回应者掌握最新状况。

事件时间轴会列出事件管理器中所有事件,还有回应者手动添加的自定义事件,回应者也可查看回应计划中的手册与当前执行状态,事件管理器提供默认模板,提供分类、诊断、缓解和恢复步骤,一旁还有联系人信息以及联系频道连接。

当事件解决之后,用户可以使用内置模板,或是自定义的模板,来创建事件分析,以快速找出事件发生的根本原因,并规划未来遭遇相同情况时,更快解决问题的方法。AWS提到,通过查看和编辑事件时间表,用户可以放大特定事件及其处理方式,Incident Manager会自动在分析中添加问题,用户可以通过回答这些问题,找出潜在改进的方法,并且在事件回应程序中加入这些方法。

最后事件管理器会提供建议操作项目,用户可以选择接受或是关闭,当用户接受某个项目,该项目便会被加入清单中,用户必须完成清单所有项目,才能够关闭分析。目前Incident Manager已经在美东、美西、欧洲激活,而亚太则在东京、新加坡和雪梨提供。