【故障公告】阿里云抢占式实例服务器被自动释放引起的故障

很是抱歉,因为一台使用阿里云抢占式实例的缓存服务器被自动释放,形成今天 10:20-11:30 左右网站没法正常访问,由此给您带来很大的麻烦,恳请您的谅解。数据库

这台阿里云抢占式实例服务器的出价方式是“使用自动出价”,以前咱们使用这种出价方式的阿里云抢占式实例历来没有被自动释放过。缓存

而购买页面的提示“使用自动出价-以按量付费实例规格价格为上限”,让咱们误觉得自动出价的抢占式实例不会被释放,最多只会以按量付费实例的价格收费。服务器

昨天下午 14:50 左右,收到了阿里云的通知短信与邮件:网站

【阿里云】尊敬的用户,您好!您的抢占式实例: i-bp1938t1plpkzggc5jd1(couchbase)  因库存变化,  即将进入释放状态阿里云

您好!您的抢占式实例: i-bp1938t1plpkzggc5jd1已标记进入即将进入释放状态,5分钟后会自动释放。

建议您使用关机脚原本保存您的应用数据。谢谢!

阿里云计算有限公司云计算

收到通知时以为很奇怪,自动出价的服务器怎么会被释放?难道是阿里云的误通知?blog

为了以防万一,当时准备换服务器,但过了5分钟后发现那台服务器还在,没被释放,因而就真觉得是阿里云的误通知。资源

。。。部署

今天出故障时发现数据库服务器压力很是大,在排查过程当中忽然想到昨天阿里云释放服务器的通知,赶忙查看,汗,那台服务器没了。监控

原来阿里云在后来的某个时间将那台服务器“偷偷”释放了(释放时没有发任何通知),并且这样的释放不会触发阿里云云监控的报警,再加上咱们缺乏对缓存服务器的专门监控,结果在服务器被释放后咱们没有及时发现,形成今天在访问高峰时数据库服务器压力过大,从而引起故障。

咱们会吸收此次教训,改进服务器的部署。

后来,向阿里云提交工单后才知道"当市场价格高于您的出价或者资源供需关系变化时,实例会被自动释放"也适用于“使用自动出价”的方式,自动出价不会出现“市场价格高于您的出价”的状况,但会出现“资源供需关系变化”的状况(好比阿里云库存服务器不够用),这时阿里云就会在已购买的竞价服务器中“抢占”一些据为己有。

经过此次教训也终于明白了为何阿里云把当初的“竞价实例”更名为“抢占式实例”。