容灾技术白皮书(V1.02) 联系客服

发布时间 : 星期日 文章容灾技术白皮书(V1.02)更新完毕开始阅读e47d7adc6f1aff00bed51e73

容灾技术白皮书

第2章 容灾概述

2.1 概述

首先来看一组案例:

1993年,世贸中心大楼发生爆炸。爆炸前,约有350家企业在该楼中工作,一年后,回到世贸大楼的公司变成了150家,有200家企业由于无法恢复重要的信息系统而倒闭、消失。

1995年1月,日本神户地区大地震,摧毁了1700余部电脑系统,造成1千多亿美元的损失。

1999年6月,美国一家著名的商业交易网站的主机宕机,由于24小时内未能恢复访问,两个星期后,该公司的股票市值下跌了36%。 ??

据IDC的统计数字表明,美国在2000年以前的10年间发生过灾难的公司中,有55%当时倒闭,剩下的45%中,因为数据丢失,有29%也在两年之内倒闭,生存下来的仅占16%。Gartner Group的数据也表明,在经历大型灾难而导致系统停运的公司中有2/5再也没有恢复运营,剩下的公司中也有1/3在两年内破产。 或许以上案例颇有危言耸听之嫌,毕竟山崩地裂大火熊熊的场面不常出现。但造成损失的不止是这些恐怖性的灾害,失手按错键、错点鼠标、或者失手打翻一杯水泼到笔记本电脑上,都可能给带来巨大的麻烦。因此,对容灾来说,“亡羊补牢,犹未晚也”的观点显然已经过时,“防患于未然”才能做到未雨绸缪。

2.2 容灾的实质

2.2.1 灾难

国务院信息化工作办公室发布的《重要信息系统灾难恢复指南》中,这样定义了容灾——“由于人为或自然的原因,造成信息系统运行严重故障或瘫痪,使信息系统支持的业务功能停顿或服务水平不可接受、达到特性的时间的突发性事件,通产导致信息系统需要切换到备用场地运行”。

因此,任何必须恢复的数据访问中断都是灾难。进一步分析各种可能导致灾难的发生的原因,灾难可以分为以下几种:

第11页, 共69页

?

容灾技术白皮书

自然灾难:包括火灾、台风、水灾、地震等突发自然灾害造成的业务系统的灾难,而不同地区的自然灾害的发生有一定的统计概率,而且自然灾害的影响范围是有一定区域的。

?

社会灾难:包括企业运行所依赖的服务的中断(电力中断、租用网络中断等)、恐怖分子制造的爆炸、战争引起定点破坏等灾难,国内外社会不安定因素的存在,必须引起足够的忧患意识。美国“911”事件就是一个很好的例子,一些没有采取任何容灾措施的企业由于核心业务数据的破坏而最终破产,而一些采用了容灾措施的企业得以生存,有的建立了备用业务系统的企业的业务能够很快恢复。

? ?

IT系统灾难:包括IT设备硬件、软件故障等。

人为灾难:包括IT系统管理人员的误操作、来自网络的恶意攻击、计算机病毒发作造成的数据灾难。近几年,人为灾难更为突出,特别是计算机病毒造成的数据损失触目惊心。采用后发制人策略的防计算机病毒系统难以保证数据的安全,有必要建立数据的备份机制。

2.2.2 容灾的实质

显然,影响信息系统安全的因素是多方面的,需要采用不同的技术手段来解决。所谓容灾,就是为了防范由于自然灾害、社会动乱、IT系统故障和人为破坏造成的企事业单位信息系统数据损失的一项系统工程。

通常,把正常情况下支持日常业务运作的信息系统称为生产系统,而其地理位置则称为生产中心。当生产中心因灾难性事件(如火灾、地震等)遭到破坏时,为了迅速恢复生产系统的数据、环境,以及应用系统的运行,保证系统的可用性,这就需要异地容灾系统(其地理位置称为灾备中心)。 建立异地灾备中心的优势在于:

? ? ? ?

强大的一级灾难抗御能力。

有效防止物理设备损伤产生的灾难后果。 提供99.9999%的安全机制。

实时数据复制提供强大的数据交换能力。

显然,建立灾备中心可以应对绝大部分的灾难(包括火灾、自然灾害、人为破坏等意外事件)。除了从容面对上述突发式灾难的威胁,一个完备的容灾系统还应该能够处理各种渐变式灾难,能够从病毒损害、黑客入侵、或者系统软件自身的错误等导致的数据丢失的状况下,快速重建生产中心。

第12页, 共69页

容灾技术白皮书

根据《重要信息系统灾难恢复指南》里的定义,灾难恢复就是“将信息系统从灾难造成的故障或瘫痪状态恢复到可正常运行状态,并将其支持的业务功能从灾难造成的不正常状态恢复到可接受状态,而设计的活动和流程”。因此,容灾的实质就是结合企业数据安全、业务连续、投资回报等需求定制适合于企业自身的容灾系统,制定合理的灾难恢复计划,在突发式灾难或者渐变式灾难时快速恢复生产系统。

2.3 容灾和备份

说到容灾,自然会想到备份。企业关键数据丢失会中断企业正常商务运行,造成巨大经济损失,容灾和备份都是保护数据的有效手段。同时,数据容灾与数据备份相互联系,主要体现在以下几个方面:

2.3.1 备份是容灾的基础

备份是容灾的基础,是指为防止系统出现操作失误或系统故障导致数据丢失,而将全部或部分数据集合从应用主机的硬盘或阵列复制到其它的存储介质的过程。 传统的数据备份主要是采用内置或外置的磁带机进行冷备份。但是这种方式只能防止操作失误等人为故障,而且其恢复时间也很长。并且备份磁带在机房中统一管理,一旦整个机房出现了灾难,如火灾、盗窃和地震等灾难时,这些备份磁带也随之销毁,所存储的磁带备份也起不到任何容灾功能。

随着技术的不断发展,数据的海量增加,不少的企业开始采用网络备份。网络备份一般通过专业的数据存储管理软件结合相应的硬件和存储设备来实现。 目前比较常见的备份方式有:

? ?

定期磁带备份数据。

远程磁带库、光盘库备份。即将数据传送到远程备份中心制作完整的备份磁带或光盘。

?

远程关键数据+磁带备份。采用磁带备份数据,生产机实时向备份机发送关键数据。

?

远程数据库备份。就是在与主数据库所在生产机相分离的备份机上建立主数据库的一个拷贝。

数据备份必须要考虑到数据恢复的问题,包括采用双机热备、磁盘镜像或容错、备份磁带异地存放、关键部件冗余等多种灾难预防措施。这些措施能够在系统发生故障后进行系统恢复。但是这些措施一般只能处理计算机单点故障,对区域性、毁灭性灾难则束手无策,也不具备灾难恢复能力。

第13页, 共69页

容灾技术白皮书

2.3.2 容灾不是简单备份

真正的数据容灾就是要避免传统冷备份的先天不足,它能在灾难发生时,全面、及时地恢复整个系统。容灾按其容灾能力的高低可分为多个层次,例如国际标准SHARE78 定义的容灾系统有七个层次:从最简单的仅在本地进行磁带备份,到将备份的磁带存储在异地,再到建立应用系统实时切换的异地备份系统,恢复时间也可以从几天到小时级到分钟级、秒级或零数据丢失等。

无论是采用哪种容灾方案,数据备份还是最基础的,没有备份的数据,任何容灾方案都没有现实意义。但光有备份是不够的,容灾也必不可少。容灾对于IT而言,就是提供一个能防止各种灾难的计算机信息系统。从技术上看,衡量容灾系统有两个主要指标:RPO(Recovery Point Object)和RTO(Recovery Time Object),其中RPO代表了当灾难发生时允许丢失的数据量;而RTO则代表了系统恢复的时间。

2.3.3 容灾不仅是技术

由于容灾所承担的是用户最关键的核心业务,其重要性勿庸置疑,因此也决定了容灾是一个工程,而不仅仅是技术。

?

在建立容灾系统之前,首先要进行全面的需求分析,其中包括业务系统风险分析、容灾系统对业务系统的影响分析和成本分析。风险分析是检查那些可能造成数据损失或者系统瘫痪的外在和内在因素。既然是容灾,必须充分考虑业务系统所在地的自然环境,针对可能发生的灾难,准备相应的容灾对策。容灾系统肯定对业务系统的性能有一定影响,因此,对于那些高负荷运行的业务系统必须认真计算。建立容灾系统,除了需要购买必要的设备外,还要考虑系统维护管理成本和使用通信线路的费用。

?

设计容灾方案:既然建立容灾系统是为了数据或者业务的快速恢复,容灾系统的设计指标就与业务系统的数据可恢复性密切相关。因此根据容灾的具体指标,确认灾难恢复级别。同时,还需要考虑灾备中心的地点,并选择适合于企业自身的容灾技术。通常情况下,容灾系统投资较大,使用概率较低,因此,需要对总体投入成本(TCO)和投资回报率(ROI)进行认真的分析和计算。

?

容灾方案实施:容灾流程中最容易体现结果的就是实施阶段,包括采购设备、建立灾备中、部署通信链路、设备安装和调试、容灾配置和测试等。

?

容灾系统工程还必须制定详细的容灾实施计划以及灾难发生后的应急程序,并进行具体的测试和演练。

第14页, 共69页