提供内容传送网络、DDoS缓解服务与DNS服务的Cloudflare在世界协调时间(UTC)7月2日下午1点42分(约晚上9点42分)发生大宕机,一度传出是遭到黑客攻击,不过Cloudflare很快便出面澄清,这是定期进行的软件更新中出现一个配置错误所造成的意外。
当天的意外造成许多采用Cloudflare的网站或服务出现502错误的状况,虽然只持续了短短的27分钟,但Cloudflare的流量最高曾下滑82%,全球都传出灾情。
根据Cloudflare的说明,该站会定期更新网络应用程序防火墙(Web Application Firewall,WAF)的规则,这些规则是用来改善在面临网络攻击时封锁JavaScript的能力,它们通常会先于仿真模式中测试,确认无误后再部署至生产环境,且WAF规则是一次部署至全球,而非渐进式的。
然而,其中一个规则所含的正规表达式,造成Cloudflare全球服务器的CPU使用率冲上100%,使得那些由Cloudflare代理的域名出现502错误(网关不正确),也让Cloudflare面临了前所未见的CPU衰竭事件。
Cloudflare大约花了20分钟厘清问题的症结,决定先行砍掉全球服务器上的WAF规则集,才在UTC时间下午2点09分时(约10点09分)让流量恢复正常。
Cloudflare坦承此次意外的发生,源自于测试程序不够周延,计划同时变更测试及部署程序,以避免以后再发生类似的事件。