Datadog发布新功能Watchdog,可自动侦测企业IT环境异常事件

数据监控厂商Datadog的更新步调很积极,今年积极推出云计算容器监控服务,大力支持AWS、Azure的Kubernetes服务,还有Prometheus等容器应用。而在近日该厂商又宣布,Datadog监控平台要推出新功能Watchdog,用户不需要设置警报触发条件,系统就会自动监测平台是否出现性能异常的事件。

原先Datadog平台就已经有异常事件侦测、离群值侦测、系统预报,以及集成式警报等功能,不过Datadog认为,万一用户的系统延迟性突然飙高,或者错误率开始大增,而系统管理员也未预先设置这些警报条件时,“此时Watchdog就可以派上用场了”,这次推出的新功能,号称开发者不需要手动设置,使用Datadog在正式环境反复测试过的机器学习算法,Watchdog可以自动侦测系统服务的延迟性是否骤升、系统错误率上升,甚至公有云厂商的网络是否出现异常。

在实际功能面上,Watchdog会全面侦测IT环境出现的异常事件,并且将这些事件记录成不同的Story。而在每一个Story文件中,Watchdog列出该事件事发的时间轴,以及折线图、长条图等可视化图表,再搭配简短总结,描述该事件所发生的区域、造成影响,以及总共维持多久时间等信息。

而用户想要更进一步了解问题,Story文件也可以提供更多细节数据,列出发生异常的服务、位在哪个可用区域等消息。同时,系统也会使用过去搜集的历史数据进行统计运算,预测正常情况下平台应有的表现,并且画出趋势图表,让用户以这些预测数据为基准点,判别异常事件的严重程度。

而IT环境发生异常的原因,有时盘根错节,必须个别讨论,有时也可能肇因于单一因素,进而让影响扩散至其他区域。而Datadog表示,Watchdog比对各个异常事件后,可以将类似行为表现的事件整理出来,“这些问题可能都是源于同一原因”,系统管理员就可以观察,是否整体环境,或者只有特定应用程序遭受影响。

除了监控内部环境可能的影响因素,Watchdog也可以监控外部环境因素,像是外部公有云环境网络部分区域发生异常时,用户可以尽早将工作负载搬迁至网络环境正常运行的区域,或者利用其他云服务商做备援。

Watchdog会将异常事件记录成不同的Story。在每一个Story文件中,也会列出该事件事发的时间轴,以及折线图、长条图等可视化图表,再搭配简短总结,描述该事件所发生的区域、造成影响,以及总共维持多久时间等信息。图片来源:Datadog

而用户想要更进一步了解问题,Story文件也可以提供更多细节数据,列出出现异常的服务、位在哪个可用区域等消息。图片来源:Datadog

系统会使用过去搜集的历史数据进行统计运算,预测正常情况下平台应有的表现,并且画出趋势图表,让用户以这些预测数据为基准点,判别异常事件的严重程度。图片来源:Datadog

Watchdog比对各个异常事件后,可以将类似行为表现的事件整理出来。系统管理员就可以观察,是否整体环境,或者只有特定应用程序遭受影响。图片来源:Datadog

除了监控内部环境可能的影响因素,Watchdog也可以监控外部环境因素。 Watchdog会列出公有云网络的健康状况,让用户判定,是否要将工作负载搬迁至网络环境正常运行的区域,或者利用其他云服务商做备援,避免降低服务品质。图片来源:Datadog