腾讯云复盘4月8日故障:云API异常持续近87分钟
腾讯云在2024年4月8日经历了一次服务故障,这次故障主要是由于云API出现异常所导致的。这次故障从发现到最终解决,持续了近87分钟的时间。
在故障发生期间,腾讯云官网控制台的相关服务出现异常,导致客户无法登录控制台。由于云API是提供产品能力的关键部分,其异常也导致了部分公有云服务,如云函数、文字识别、微服务平台、音频内容安全、验证码等,也出现了无法使用的情况。
故障的原因主要是云API服务新版本向前兼容性考虑不够和配置数据灰度机制不足的问题。在API升级过程中,由于新版本的接口协议发生了变化,导致旧版本前端传来的数据处理逻辑异常,生成了一条错误的配置数据。由于灰度机制不足,这条错误的配置数据快速扩散到了全网地域,造成了整体API使用异常。
在故障发生后,腾讯云工程师立即进行了紧急修复工作。他们首先尝试按照标准回滚方案将服务后台和配置数据同时回滚到旧版本,并重启API后台服务。然而,由于承载API服务的容器平台也依赖API服务才能提供调度能力,出现了循环依赖的问题,导致服务无法自动拉起。最终,通过运维手工启动方式,API服务得以重启,整个故障得以恢复。
这次故障对腾讯云的服务造成了一定的影响,共有1957个客户报障。在故障期间,腾讯云的售后团队积极协助部分客户做了业务容灾预案的实施,将受影响服务做调度以快速恢复客户的业务服务。
从这次故障中,腾讯云也吸取了教训,对于云服务的稳定性和可靠性有了更深入的认识。他们表示,将进一步加强技术研发和运维能力,确保类似的问题不再发生。同时,他们也提醒用户在使用云服务时,应做好业务容灾预案,以应对可能出现的服务异常情况。