【故障公告】阿里云 RDS 实例 CPU 100% 故障引起全站没法正常访问

很是抱歉,今天凌晨 3:20~8:30 左右,咱们使用的阿里云 RDS 实例 SQL Server 2016 标准版忽然出现 CPU 100% 故障,形成全站没法正常访问,由此给您带来巨大的麻烦,请您谅解。数据库

问题很奇怪,故障期间是数据库服务器负载极低的时间段。从阿里云 RDS 控制台 CloudDBA 看,故障期间下面的一个 SQL 语句大量执行,而且极其消耗 CPU 。服务器

开始咱们觉得是这个 SQL 语句引起的故障,但排查下来这个 SQL 语句自己并无性能问题,并且已经使用了至少6个月。性能

最终恢复正常是经过 RDS 的2次主备切换,当发现故障后,咱们当即进行主备切换,但切换后 CPU 依然 100% ,而后咱们排查 SQL 语句的问题,排查未果,而后又进行一次主备切换,才恢复正常。fetch

过后分析后发现应该是第一次主备切换没有成功完成,阿里云 RDS 控制台查看不到主备切换日志,但2次切换,只有第2次收到邮件通知,由此能够推断。阿里云

您的云数据库RDS实例:xxx(名称:enable or disable task fetching while rds2slb transgfer.)任务触发切换完毕,请检查程序链接是否正常,建议设置自动重连机制以免切换影响。日志

问题的缘由有待进一个分析,再次抱歉由此给您带来的麻烦。blog