Datadog发布新功能Watchdog，可自动侦测企业IT环境异常事件

数据监控厂商Datadog的更新步调很积极，今年积极推出云计算容器监控服务，大力支持AWS、Azure的Kubernetes服务，还有Prometheus等容器应用。而在近日该厂商又宣布，Datadog监控平台要推出新功能Watchdog，用户不需要设置警报触发条件，系统就会自动监测平台是否出现性能异常的事件。

原先Datadog平台就已经有异常事件侦测、离群值侦测、系统预报，以及集成式警报等功能，不过Datadog认为，万一用户的系统延迟性突然飙高，或者错误率开始大增，而系统管理员也未预先设置这些警报条件时，“此时Watchdog就可以派上用场了”，这次推出的新功能，号称开发者不需要手动设置，使用Datadog在正式环境反复测试过的机器学习算法，Watchdog可以自动侦测系统服务的延迟性是否骤升、系统错误率上升，甚至公有云厂商的网络是否出现异常。

在实际功能面上，Watchdog会全面侦测IT环境出现的异常事件，并且将这些事件记录成不同的Story。而在每一个Story文件中，Watchdog列出该事件事发的时间轴，以及折线图、长条图等可视化图表，再搭配简短总结，描述该事件所发生的区域、造成影响，以及总共维持多久时间等信息。

而用户想要更进一步了解问题，Story文件也可以提供更多细节数据，列出发生异常的服务、位在哪个可用区域等消息。同时，系统也会使用过去搜集的历史数据进行统计运算，预测正常情况下平台应有的表现，并且画出趋势图表，让用户以这些预测数据为基准点，判别异常事件的严重程度。

而IT环境发生异常的原因，有时盘根错节，必须个别讨论，有时也可能肇因于单一因素，进而让影响扩散至其他区域。而Datadog表示，Watchdog比对各个异常事件后，可以将类似行为表现的事件整理出来，“这些问题可能都是源于同一原因”，系统管理员就可以观察，是否整体环境，或者只有特定应用程序遭受影响。

除了监控内部环境可能的影响因素，Watchdog也可以监控外部环境因素，像是外部公有云环境网络部分区域发生异常时，用户可以尽早将工作负载搬迁至网络环境正常运行的区域，或者利用其他云服务商做备援。

Watchdog会将异常事件记录成不同的Story。在每一个Story文件中，也会列出该事件事发的时间轴，以及折线图、长条图等可视化图表，再搭配简短总结，描述该事件所发生的区域、造成影响，以及总共维持多久时间等信息。图片来源：Datadog

而用户想要更进一步了解问题，Story文件也可以提供更多细节数据，列出出现异常的服务、位在哪个可用区域等消息。图片来源：Datadog

系统会使用过去搜集的历史数据进行统计运算，预测正常情况下平台应有的表现，并且画出趋势图表，让用户以这些预测数据为基准点，判别异常事件的严重程度。图片来源：Datadog

Watchdog比对各个异常事件后，可以将类似行为表现的事件整理出来。系统管理员就可以观察，是否整体环境，或者只有特定应用程序遭受影响。图片来源：Datadog

除了监控内部环境可能的影响因素，Watchdog也可以监控外部环境因素。 Watchdog会列出公有云网络的健康状况，让用户判定，是否要将工作负载搬迁至网络环境正常运行的区域，或者利用其他云服务商做备援，避免降低服务品质。图片来源：Datadog