一、发现问题
一个风和日丽的下午,服务于亿级用户电商平台的监控系统Sherlock.IO上,突然出现了黄色告警。发出告警的是一个包裹配送相关的应用,几分钟之内这个应用前端的负载均衡服务器(Load Balancer)上连接数量陡增,这引起了SRE团队稍微的不安和浓厚的兴趣。
二、初步分析
针对这种情况,第一反应是:难道又是一波外部攻击?经过初步排查,情况貌似没有那么糟糕。
首先,通过内部的追踪工具可以看出,这些新增加的连接很有可能来自于内部。
其次,该应用十几台机器平均分布在三个数据中心,其中两个数据中心的应用还是一片岁月静好,只有一个数据中心的应用看上去有些异常。
整个电商平台的监控系统非常完备,从硬件到操作系统,再到应用内部各种指标数据一应俱全,且均是实时监控数据。查看该应用每个数据中心的处理请求数,能明显看到出问题的这个数据中心有更多的业务请求,并且是某个时间点突然增加。