【故障公告】数据库服务器 CPU 近 100% 引起的故障

很是抱歉,今天上午 10:48 ~ 11:33 期间,咱们所使用的数据库服务(阿里云 RDS 实例 SQL Server 2016 标准版)又出现了 CPU 近 100% 问题,由此给您带来麻烦,请您谅解。html

此次刚开始出现 CPU 近 100% 问题时,没有形成大的影响,后来有段时间 CPU 降了下来,因为是访问高峰,咱们没有敢当即进行主备切换,但 11:20 以后出现的 CPU 近 100% 问题对网站的正常访问影响越大越大,11:33 左右咱们进行了主备切换后恢复了正常。数据库

此次数据库 CPU 近 100% 期间,从阿里云 RDS CloudDBA 控制台看执行最多的是 3 条 SQL 语句,前2条是 EF Core 3.0 生成的包含 "IS NOT NULL" 的 SQL 语句,第3条是一个存储过程。网站

因为 .NET Core 3.1 正式版12月初即将发布,因此在上次故障以后咱们没有当即将 EF Core 升级至 3.1 Preview 版,如今来看,不能等了,咱们会尽快升级,消除 EF Core 生成的多余 "IS NOT NULL" 。阿里云

另外,阿里云数据库专家会帮我进一步分析数据库,看是否会发现更多线索。spa

【更新】3d

通过阿里云数据库专家的分析,此次 CPU 近 100% 问题依然是 EF Core 生成的 null checks SQL 语句引发的,此次的罪魁祸首是下面的 SQLcode

...
WHERE [b].[BlogID] = @__blogId_0
    AND @__blogId_0 IS NOT NULL
    AND [b].[IsExist] = CAST(? AS bit)
    AND ([b].[PostType] | @__type_1 = @__type_1
        AND ([b].[PostType] | @__type_1 IS NOT NULL
            AND @__type_1 IS NOT NULL)
        OR [b].[PostType] | @__type_1 IS NULL
        AND @__type_1 IS NULL)
    AND ([b].[PostConfig] & @__config_2 = @__config_2
        AND ([b].[PostConfig] & @__config_2 IS NOT NULL
            AND @__config_2 IS NOT NULL)
        OR [b].[PostConfig] & @__config_2 IS NULL
        AND @__config_2 IS NULL)
    AND [b0].[DiggCount] > ?
ORDER BY COALESCE([b0].[DiggCount], ?) DESC