4月14日,腾讯云发布4月8日故障复盘及情况证实:4月8日15点23分,腾讯云团队收到告警信息,云API功绩处于罕见现象;立时在腾讯云工单、售后功绩群以及微博等渠谈启动大批出现腾讯云好意思满台登录不上的客户反馈。
经过故障定位发现,客户登录不上好意思满台恰是由云API罕见所导致。故障发生后,依赖云API提供产物才能的部分公有云功绩,也因为云API的罕见出现了无法使用的情况,比如云函数、笔墨识别、微功绩平台、音频实践安全、考证码等。这次故障一共抓续了近87分钟,时分共有1957个客户报障。
问题复盘
扫数处理经过如下:
1. 15:23,监测到故障,立即奉行功绩的规复,同期进行原因的排查;
2. 15:47,发现通过回滚版块没能全皆规复功绩,进一步定位问题;
3. 15:57,定位出故障根因是建树数据出现造作,首要斟酌数据开发决策;
4. 16:02,对全地域进行数据开发使命,API功绩逐地域规复中;
5. 16:05,不雅测到除上国际的地域API功绩均已规复,进一步定位上海地域的规复问题;
6. 16:25,定位到上海的技巧组件存在API轮回依赖问题,决定通过流量退换至其他地域来规复;
7. 16:45,不雅测到上海地域规复了,此时API和依赖API的PaaS功绩透澈规复,但好意思满台流量剧增,杠杆炒股按九倍容量进行了扩容;
8. 16:50,肯求量安祥规复到闲居水平,业务平稳运行,好意思满台功绩一起规复;
9. 17:45,抓续不雅察一小时,未发现问题,按预案处理经过完了。
故障的原因是云API功绩新版块上前兼容性洽商不够和建树数据灰度机制不及的问题。
本次API升级经过中,由于新版块的接口条约发生了变化,在后台发布新版块之后关于旧版块前端传来的数据处理逻辑罕见,导致生成了一条造作的建树数据,由于灰度机制不及导致罕见数据快速扩散到了全网地域,形周到体API使用罕见。
发生故障后,按照圭臬回滚决策将功绩后台和建树数据同期回滚到旧版块,并重启API后台功绩,但此时因为承载API功绩的容器平台也依赖API功绩才能提供退换才能,即发生了轮回依赖,导致功绩无法自动拉起。通过运维手工启动样子才使API功绩重启,完成扫数故障规复。
腾讯云霄示,空洞盘货这次故障,最根底的原因是在版块变更经过中,莫得灵验奉行沙箱考证和预案演练,裸露了在变更处理上的不及,接下来将快速进行改良和完善——包括进步系统韧性、强化变更处理与保护手脚、增强故障反馈与不异才能,以减少故障的影响鸿沟和影响时长。