阿里巴巴荣获年度最佳BCM创新实践奖

2017年9月,阿里巴巴在国际灾难恢复协会(DRI International)亚洲年度大会上斩获大奖,来自阿里基础设施事业群的全球运行指挥中心(GOC)团队得到“年度最佳BCM创新实践奖”(BCM:Business Continuity Management业务连续性管理)。国际灾难恢复协会(DRI International)亚洲大会是 DRII 在亚洲地区部分国家巡回举办的业务连续性管理年度盛会,宗旨是为亚洲地区的业务连续性管理专业人士提供一个 BCM交流技术、分享经验的平台。学习

全面保障业务连续运行优化

阿里经济体业务体量巨大,生态复杂,如何在业务高速增加的同时保证业务稳定连续的运行,对整个阿里都是一巨大挑战。通过多年的积累,阿里沉淀出一整套从故障预防、检测、定位、快速恢复到复盘演练的完整解决方案,并不断优化提高。正是这套解决方案,实现了防止能预见的问题,快速恢复不能预防的问题,再也不重复已发生的问题,保证阿里的客户可以拥有流畅的服务体验。ui


image
图为阿里巴基础设施事业群全球运行指挥中心(GOC)负责人沈乘黄分享《阿里经济体业务连续性解决方案》

业界领先,斩获殊荣阿里云

集团的技术人集体为阿里业务连续性付出了巨大而卓有成效的努力,你们在业务连续性建设的探索中遇到的问题以及解决办法,对每种技术深刻研究过程当中积累的经验,基于对技术深刻理解的基础之上进行调优和定制的实践成为了最宝贵的财富。来自阿里经济体这一整套业界领先的业务连续性解决方案,保证了业务可用性长期稳定在99.99%。这一成果得到了DRII的一致承认,并最终斩获“年度最佳BCM创新实践奖”。blog


image


阿里稳定运行背后的保障团队生命周期

来自基础设施事业群的全球运行指挥中心(Global Operations Center,GOC)是默默保障阿里经济体业务稳定运行的表明,肩负着生产系统全局性应急决策与指挥的职责。该组织经过为电商、金融、阿里云等各项业务提供及时准确的告警、生产环境故障的全生命周期管理、重大故障时的快速切换以及线上问题的升级支持,在缩短系统灾难时长和提高消费者体验等方面作出了显著的贡献。开发

一直以来,GOC从预防、快速恢复到复盘检验等环节全面推动阿里经济体内业务连续性建设。get

首先,GOC持续推进系统的容灾和快速恢复的建设,确保各个机房都有同城或者异地容灾的方案,并经过平常演练来检验集群的容灾能力。同时,经由与各个业务部门的密切合做,GOC把各核心系统在极端状况下快速逃生的开关接入统一的平台,真正实现了快速恢复。其次,在业务流量发生波动时,经过自建的嵌入深度学习模型的智能基线系统,GOC能第一时间发现故障并判断处理方式。若是该故障须要人工介入,则会迅速通知相关开发人员上线处理,并实时跟踪进展。在故障处理完毕后,GOC会与业务团队一块儿进行深度复盘,制定明确的改进措施,并经过模拟故障来检验系统是否已经具有了对相似的问题的免疫能力。经过这一完整的业务连续性体系,阿里的生产系统真正地实现了在灾难发生时五分钟发现、十分钟恢复。深度学习

通过长期的技术积累,今天的GOC已经拥有了从故障管理平台(OPM)、应急响应平台(OER)、容灾演练平台(ODE)、变动管理平台(OCM)到运行分析平台(ODA)的完整的业务连续性系统,打造出了一整套业界领先的业务连续性建设解决方案。他们秉持着技术驱动的信念,以自动化和智能化为抓手,为了“无人值守的生产系统”的目标而锐意创新!it

随着中国近年经济的高速发展,中国企业在亚洲乃至全世界的影响力也在迅速扩大。今年又恰逢一带一路峰会的召开,中国企业在迎来宝贵发展良机的同时,也将面临新的挑战。业务连续性管理做为企业发展保驾护航的重要手段势必获得更高的重视和更普遍的应用。今年 DRI 不失时机地选择再次在北京召开业务连续性管理亚洲盛会,旨在为中国各行各业的业务连续性管理专业人士提供一个借鉴国际成功经验、交流中国实践的机会,研究适合中国国情的有效的业务连续性管理方法,开拓业务连续性管理及灾难恢复应用市场的平台。

阅读原文http://click.aliyun.com/m/31982/