刚过完春节,某SaaS服务公司的研发中心运维部一位核心运维员工通过个人VPN登入公司内网跳板机,对线上生产环境进行了破坏,直接导致网站无法使用,生产环境及数据遭受严重破坏。相关应用系统经过长达三天的时间才恢复正常,而在此期间的运营损失高达数亿。万幸的是,老用户的数据都得到了恢复。
为什么该公司能够恢复所有历史数据,但是应用系统却花了好几天时间才恢复正常呢?因为该公司部署了容灾备份系统,但是还没有得到软件高可用性的最高等级。
国际标准SHARE78将容灾系统定义成七个层次,这七个层次对应的容灾方案在功能、适用范围等方面都有所不同。
要适应软件系统高等级的容灾要求,需要建立相应等级的容灾备份系统。容灾备份系统是指在相隔较远的异地,建立两套或多套功能相同的IT系统,互相之间可以进行健康状态监视和功能切换,当一处系统因意外(如火灾、地震等)停止工作时,整个应用系统可以切换到另一处,使得该系统功能可以继续正常工作。
容灾技术是系统的高可用性技术的一个组成部分,容灾系统更加强调处理外界环境对系统的影响,特别是灾难性事件对整个IT节点的影响,提供节点级别的系统恢复功能。
容灾系统建立原则
容灾系统的建立,一定要以用户的需求为出发点,首先要根据应用的类型确定需求的优先顺序原则,这样才能确定相关的方案。以下的因素应是容灾系统建设重点考虑的相关原则:
1)容灾系统应具有开放性,不依赖特定硬件系统。应支持包括TCP/IP网络在内的广泛的传输介质。
2)考虑到容灾能力和对应用系统性能的影响,容灾方案不仅要支持近距的、同步的数据容灾,还必须能支持远程的、异步的数据容灾。对于异地数据容灾,数据复制不仅仅要求在异地有一份数据拷贝,同时必须保证异地数据的完整性、可用性。
3)容灾系统本身应具备各种容错考虑。能支持灵活多样的容灾结构。
4)完善的容灾系统应该考虑实用的灾难恢复手段,建立多层次的广域网络故障切换机制。
容灾备份系统类别
从其对系统的保护程度来分,可以将容灾系统分为:数据容灾和应用容灾。
1.数据容灾
数据容灾就是指建立一个异地的数据系统,该系统是本地关键应用数据的一个实时复制。包括两步:本地备份和异地备份。
2.应用容灾
应用容灾是在数据容灾的基础上,在异地建立一套完整的与本地生产系统相当的备份应用系统(可以是互为备份),通过同步或异步复制技术,这样可以保证关键应用在允许的时间范围内恢复运行。在灾难情况下,远程系统迅速接管业务运行,尽可能减少灾难带来的损失,让用户基本感受不到灾难的发生。
容灾备份建设步骤
容灾备份的建设可分三步走:完善本地系统冗余建设及同城数据灾备、建设同城双活平台、建设异地数据容灾平台。
1)完善本地系统冗余建设
完善运行在单独存储上或裸机部署的业务系统,避免因主机故障造成数据面临的风险。建议完善本地存储系统的冗余建设,同时搭建X86架构的虚拟化平台,并将业务系统迁移。
2)建设同城应用容灾平台
建设同城双活平台。同城部署的好处在于裸光纤可达,将生产中心和应用级容灾中心IP网络和SAN网络同时打通,可以便捷的实现数据的同步和业务的实时切换,根据业务的重要性分别部署不同等级的容灾级别,核心业务实现双活,非关键业务做低等级的应用级切换部署,确保容灾中心也投入生产,提升投资效益。
3)建设异地数据容灾平台
高级别的数据容灾对距离和带宽要求很高,对信息化建设是一个严峻的考验,数据、网络的延迟因实时同步会降低生产中心的使用效率。通过在异地云计算中心搭建数据容灾平台,完成数据远程容灾。此处应用的部署模式实现的容灾,能达到国级标准的等级气标准。
总结
很多用户在考虑容灾时,往往考虑得非常完美,而没有兼顾到企业的资金预算。容灾等级越高,对数据与应用的保护越全面,但是对用户的资金实力要求越高。一般情况下,用户需要将业务分为关键业务和一般业务,针对不同类别的业务采取不同的容灾策略,平衡好系统容灾和资金压力,既要防止程序员删库跑路、自然灾害等突发事件对企业运营的影响,也要保证容灾资金得到有效的利用,这样才能支撑企业的长远发展。