2022.3.24 TapTap 访问异常说明 & 致歉公告

修改于2022/03/251514 浏览官方公告
亲爱的 Tapper
我们对今天下午 13:30分-14:05分,整站长达35分钟无法正常使用深感抱歉。事故发生后, TapTap 技术团队对故障进行了紧急排查,于14:05 分恢复了正常服务。
事后,我们对事故原因进行了详细排查,并复盘了此次事故的详细原因。
1. 事故原因
为兼容一个老版本客户端的问题,我们做了一次紧急修复。在修复代码中引入了一行对缓存的调用,导致缓存基础设施带宽负载过高,从而引起访问网页加载过慢。
由于此次紧急修复跳过了 Code Review 环节,导致了线上排查时间过长。
2. 事故详情
- 13:23分 发布了有代码问题的紧急修复版本。
- 13:30分 开始收到大量报警,检查报错接口主要集中在游戏相关接口。相关程序员开始进行排查,并进行第一次回退代码。
- 13:36分 执行代码回退完毕后,发现仍然存在大量响应过慢,页面打不开的情况。
- 13:42分 发现缓存基础设施带宽异常上升,开始检查代码对缓存资源的访问情况。
- 13:55分 确认代码中可能存在过量的缓存请求。
- 14:05分 完成第二次代码回退,服务恢复。
3. 整改措施
-对于线上的紧急修复流程进行调整
-优化代码提交流程,增强在正式环境提交代码的审核力度,扩大代码提交压力测试范围,来确保线上服务的稳定,以减少类似情况的发生。
TapTap 会总结、吸取每一次事故中的教训,优化整体流程,提升技术力量,为各位 Tapper 提供更加稳定的服务。
再一次对受事故的影响的 Tapper 致以深深的歉意。
60
2
39