版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、 容災(zāi)項(xiàng)目方案設(shè)計(jì) 容災(zāi)項(xiàng)目方案設(shè)計(jì)考慮因素 目 錄第 1 章容災(zāi)技術(shù)規(guī)范41.1容災(zāi)的總體規(guī)劃41.1.1技術(shù)指標(biāo)RPO、RTO41.1.2國際標(biāo)準(zhǔn)SHARE 7851.1.2.1Tier 061.1.2.2Tier 171.1.2.3Tier 271.1.2.4Tier 381.1.2.5Tier 481.1.2.6Tier 581.1.2.7Tier 691.1.3界定災(zāi)備系統(tǒng)的適用范圍91.1.4界定災(zāi)備建設(shè)的目標(biāo)91.1.5界定災(zāi)備系統(tǒng)的總體架構(gòu)10第 2 章主流容災(zāi)技術(shù)說明122.1數(shù)據(jù)備份122.2實(shí)時(shí)數(shù)據(jù)保護(hù)122.2.1數(shù)據(jù)鏡像(Mirroring)132.2.2數(shù)
2、據(jù)復(fù)制(Replication)132.2.2.1軟件復(fù)制132.2.2.2硬件復(fù)制152.2.2.3數(shù)據(jù)庫復(fù)制182.2.2.4Datacore SDS192.3應(yīng)用系統(tǒng)恢復(fù)192.4網(wǎng)絡(luò)系統(tǒng)恢復(fù)192.5容災(zāi)切換過程202.6消防演習(xí)20第 3 章主流容災(zāi)技術(shù)分析與對比213.1數(shù)據(jù)備份213.2實(shí)時(shí)數(shù)據(jù)保護(hù)223.2.1數(shù)據(jù)鏡像(Mirroring)223.2.1.1硬件鏡像223.2.1.2軟件鏡像223.2.1.3軟件智能存儲(chǔ)鏡像233.2.1.4鏡像技術(shù)在容災(zāi)中的利用233.2.2數(shù)據(jù)復(fù)制(Replication)233.2.2.1軟件復(fù)制(卷復(fù)制)243.2.2.2硬件復(fù)制243
3、.2.2.3基于軟件控制器的復(fù)制253.2.2.4數(shù)據(jù)庫復(fù)制253.3應(yīng)用系統(tǒng)恢復(fù)273.4網(wǎng)絡(luò)系統(tǒng)恢復(fù)29第 4 章容災(zāi)系統(tǒng)設(shè)計(jì)步驟294.1第一步,深化數(shù)據(jù)備份系統(tǒng)304.2第二步,存儲(chǔ)、應(yīng)用整合314.2.1存儲(chǔ)整合314.2.2應(yīng)用整合314.3第三步,實(shí)現(xiàn)遠(yuǎn)程實(shí)時(shí)數(shù)據(jù)卷保護(hù)314.4第四步,建立遠(yuǎn)程切換消防演習(xí)機(jī)制324.5第五步,建立遠(yuǎn)程切換機(jī)制32第 5 章數(shù)據(jù)容災(zāi)的性能分析325.1同步數(shù)據(jù)容災(zāi)的性能分析325.1.1帶寬335.1.2距離335.1.3中間鏈路設(shè)備和協(xié)議轉(zhuǎn)換的時(shí)延345.2異步數(shù)據(jù)容災(zāi)的性能分析36第 1 章 容災(zāi)技術(shù)規(guī)范作為風(fēng)險(xiǎn)防范系統(tǒng),災(zāi)備系統(tǒng)建設(shè)本身在總
4、體規(guī)劃、方案選擇和投產(chǎn)實(shí)施后的管理運(yùn)行,以及真正面對災(zāi)難時(shí)的切換操作等方面也存在著潛在的風(fēng)險(xiǎn)。 計(jì)算機(jī)信息系統(tǒng)實(shí)現(xiàn)數(shù)據(jù)大集、應(yīng)用大集中后,系統(tǒng)的運(yùn)行安全成為風(fēng)險(xiǎn)控制的焦點(diǎn)。目前,已經(jīng)有多系統(tǒng)開始或準(zhǔn)備進(jìn)行災(zāi)備系統(tǒng)的建設(shè),災(zāi)備系統(tǒng)建設(shè)的目標(biāo)是減災(zāi)容災(zāi),使計(jì)算機(jī)信息系統(tǒng)和數(shù)據(jù)能夠最大限度地防范和化解各種意外和災(zāi)害所帶來的風(fēng)險(xiǎn)。然而,與大多數(shù)工程一樣,災(zāi)備系統(tǒng)建設(shè)本身在總體規(guī)劃、方案選擇和投產(chǎn)實(shí)施后的管理運(yùn)行,以及真正面對災(zāi)難時(shí)的切換操作等方面也存在著潛在的風(fēng)險(xiǎn)。 可以說,風(fēng)險(xiǎn)防范系統(tǒng)本身也存在風(fēng)險(xiǎn)點(diǎn),需要小心應(yīng)對。 災(zāi)備系統(tǒng)建設(shè)中所涉及的潛在風(fēng)險(xiǎn)大致可分為技術(shù)風(fēng)險(xiǎn)、管理風(fēng)險(xiǎn)和投資風(fēng)險(xiǎn),其中尤以技術(shù)
5、選擇風(fēng)險(xiǎn)最大,技術(shù)方案選擇優(yōu)越,可以規(guī)避一定的管理風(fēng)險(xiǎn)和投資風(fēng)險(xiǎn)。而這三者也存在內(nèi)在的相互關(guān)聯(lián),不同災(zāi)備級別對應(yīng)的建設(shè)投資規(guī)模、所采用的技術(shù)以及實(shí)施和管理的復(fù)雜度也不同,應(yīng)考慮保護(hù)計(jì)算機(jī)系統(tǒng)的原有投資并提高災(zāi)備系統(tǒng)建設(shè)投資的利用率。 1.1 容災(zāi)的總體規(guī)劃真正的容災(zāi)是數(shù)據(jù)被不間斷的一致性訪問!在災(zāi)難備份的世界里,是有等級觀念的,級別不同,災(zāi)備系統(tǒng)所采用的技術(shù)和達(dá)到的功能是不同的,在系統(tǒng)建設(shè)資金投入方面的差距也很巨大。所以,對用戶來說,明確災(zāi)備系統(tǒng)建設(shè)的總體規(guī)劃十分必要。1.1.1 技術(shù)指標(biāo)RPO、RTO衡量容災(zāi)技術(shù)的兩個(gè)技術(shù)指標(biāo)RPO、RTORPO(Recovery Point Objecti
6、ve): 以數(shù)據(jù)為出發(fā)點(diǎn),主要指的是業(yè)務(wù)系統(tǒng)所能容忍的數(shù)據(jù)丟失量。及在發(fā)生災(zāi)難,容災(zāi)系統(tǒng)接替原生產(chǎn)系統(tǒng)運(yùn)行時(shí),容災(zāi)系統(tǒng)與原生產(chǎn)中心不一致的數(shù)據(jù)量。RPO是反映恢復(fù)數(shù)據(jù)完整性的指標(biāo),在同步數(shù)據(jù)復(fù)制方式下,RPO等于數(shù)據(jù)傳輸時(shí)延的時(shí)間;在異步數(shù)據(jù)復(fù)制方式下,RPO基本為異步傳輸數(shù)據(jù)排隊(duì)的時(shí)間。在實(shí)際應(yīng)用中,考慮到數(shù)據(jù)傳輸因素,業(yè)務(wù)數(shù)據(jù)庫與容災(zāi)備份數(shù)據(jù)庫的一致性(SCN)是不相同的,RPO表示業(yè)務(wù)數(shù)據(jù)與容災(zāi)備份數(shù)據(jù)的SCN的時(shí)間差。發(fā)生災(zāi)難后,啟動(dòng)容災(zāi)系統(tǒng)完成數(shù)據(jù)恢復(fù),RPO就是新恢復(fù)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)損失量。RTO(Recovery Time Objective):以應(yīng)用為出發(fā)點(diǎn),即應(yīng)用的恢復(fù)時(shí)間目標(biāo)
7、,主要指的是所能容忍的應(yīng)用停止服務(wù)的最長時(shí)間,也就是從災(zāi)難發(fā)生到業(yè)務(wù)系統(tǒng)恢復(fù)服務(wù)功能所需要的最短時(shí)間周期。是反映業(yè)務(wù)恢復(fù)及時(shí)性的指標(biāo),表示業(yè)務(wù)從中斷到恢復(fù)正常所需的時(shí)間。RTO值越小,代表容災(zāi)系統(tǒng)的數(shù)據(jù)恢復(fù)能力越強(qiáng)。各種容災(zāi)解決方案的RTO有較大差別,基于光通道技術(shù)的同步數(shù)據(jù)復(fù)制,配合異地備用的業(yè)務(wù)系統(tǒng)和跨業(yè)務(wù)中心與備份中心的高可用管理,這種容災(zāi)解決方案具有最小的RTO。容災(zāi)系統(tǒng)為獲得最小的RTO,需要投入大量資金。不同容災(zāi)方案的RTO和RPO是不相同的。1.1.2 國際標(biāo)準(zhǔn)SHARE 78要建設(shè)容災(zāi)系統(tǒng),就必須提出相應(yīng)的設(shè)計(jì)指標(biāo),以此作為衡量和選擇容災(zāi)解決方案的參數(shù)。目前,國際上通
8、用的容災(zāi)系統(tǒng)的評審標(biāo)準(zhǔn)為SHARE 78,主要包括以下內(nèi)容。備份/恢復(fù)的范圍災(zāi)難恢復(fù)計(jì)劃的狀態(tài)業(yè)務(wù)中心與容災(zāi)中心之間的距離業(yè)務(wù)中心與容災(zāi)中心之間如何連接數(shù)據(jù)是怎樣在兩個(gè)中心之間傳送的允許有多少數(shù)據(jù)丟失保證更新的數(shù)據(jù)在容災(zāi)中心被更新容災(zāi)中心可以開始容災(zāi)進(jìn)程的能力SHARE 78是建立容災(zāi)系統(tǒng)的一種評審標(biāo)準(zhǔn)。建立容災(zāi)系統(tǒng)的最終目的,是為了在災(zāi)難發(fā)生后能夠以最快速度恢復(fù)數(shù)據(jù)服務(wù),主要體現(xiàn)在RTO Objective)和RPO上。SHARE 78, M028報(bào)告中定義的災(zāi)備的七個(gè)級別和與其對應(yīng)的數(shù)據(jù)丟失量與恢復(fù)時(shí)間情況詳見下表: 災(zāi)難備份等級與業(yè)務(wù)恢復(fù)情況對照表等級描述R
9、PORTO企業(yè)百分比0級無災(zāi)備計(jì)劃-<0.3%1級車輛運(yùn)送方式2448小時(shí)>48小時(shí)<0.1%2級車輛運(yùn)送熱備份2448小時(shí)24小時(shí)90%3級電子傳送<24小時(shí)<24小時(shí)6%4級活動(dòng)狀態(tài)備份中心秒級<24小時(shí)<0.5%5級兩中心、兩階段確認(rèn)秒級<2小時(shí)<0.1%6級零數(shù)據(jù)丟失零丟失<2小時(shí)3%1.1.2.1 Tier 0 Tier 0 - 無異地?cái)?shù)據(jù)備份(No off-site Data)Tier 0 被定義為沒有信息存儲(chǔ)的需求,沒有建立備份硬件平臺的需求,也沒有發(fā)展應(yīng)急計(jì)劃的需求,數(shù)據(jù)僅在本地進(jìn)行備份恢復(fù), 沒有數(shù)據(jù)送往異地。這種方
10、式是最為低成本的災(zāi)難備份解決方案,但事實(shí)上這種災(zāi)難備份并沒有真正災(zāi)難備份的能力,因?yàn)樗臄?shù)據(jù)并沒有被送往遠(yuǎn)離本地的地方,而數(shù)據(jù)的恢復(fù)也僅是利用本地的記錄。 1.1.2.2 Tier 1Tier 1- PTAM車輛轉(zhuǎn)送方式( Pickup Truck Access Method)作為 Tier 1 的災(zāi)難備份方案需要設(shè)計(jì)一個(gè)應(yīng)急方案,能夠備份所需要的信息并將它存儲(chǔ)在異地,然后根據(jù)災(zāi)難備份的具體需求,有選擇地建立備份平臺, 但事先并不提供數(shù)據(jù)處理的硬件平臺。 PTAM是一種用于許多中心備份的標(biāo)準(zhǔn)方式,數(shù)據(jù)在完成寫操作之后,將會(huì)被送到遠(yuǎn)離本地的地方,同時(shí)具備有數(shù)據(jù)恢復(fù)的程序。在災(zāi)難發(fā)生后,一整套系統(tǒng)
11、和應(yīng)用安裝動(dòng)作需要在一臺未啟動(dòng)的計(jì)算機(jī)上重新完成。系統(tǒng)和數(shù)據(jù)將被恢復(fù)并重新與網(wǎng)絡(luò)相連。這種災(zāi)難備份方案相對來說成本較低(僅僅需要傳輸工具的消耗以及存儲(chǔ)設(shè)備的消耗)。 但同時(shí)有難于管理的問題,即很難知道什么樣的數(shù)據(jù)在什么樣的地方。一旦系統(tǒng)可以工作,標(biāo)準(zhǔn)的做法是首先恢復(fù)關(guān)鍵應(yīng)用,其余的應(yīng)用根據(jù)需要恢復(fù)。這樣的情況下,恢復(fù)是可能的,但需要一定的時(shí)間,同時(shí)依賴于什么時(shí)候硬件平臺能夠被提供準(zhǔn)備好。1.1.2.3 Tier 2Tier 2 - PTAM卡車轉(zhuǎn)送方式+熱備份中心 (PTAM+Hot Site)Tier 2相當(dāng)于是Tier 1再加上具有熱備份能力中心的災(zāi)難備份。熱備份中心擁有足夠的硬件和網(wǎng)絡(luò)設(shè)
12、備去支持關(guān)鍵應(yīng)用的安裝需求。對于十分關(guān)鍵的應(yīng)用,在災(zāi)難發(fā)生的同時(shí),必須在異地有正運(yùn)行著的硬件平臺提供支持。這種災(zāi)難備份的方式依賴于用PTAM的方法去將日常數(shù)據(jù)放在異地存儲(chǔ),當(dāng)災(zāi)難發(fā)生的時(shí)候,數(shù)據(jù)再被移動(dòng)到一個(gè)熱備份的中心。雖然移動(dòng)數(shù)據(jù)到一個(gè)熱備份中心增加了成本,但卻明顯降低了災(zāi)難備份的時(shí)間。1.1.2.4 Tier 3Tier 3 - 電子傳送(Electronic Vaulting)Tier 3 是在Tier 2的基礎(chǔ)上用電子鏈路取代了車輛進(jìn)行數(shù)據(jù)傳送的災(zāi)難備份。接收方的硬件平臺必須與生產(chǎn)中心物理地相分離,在災(zāi)難發(fā)生后,存儲(chǔ)的數(shù)據(jù)用于災(zāi)難備份。由于熱備份中心要保持持續(xù)運(yùn)行,因此增加了成本。但
13、確實(shí)是消除了運(yùn)送工具的需要,提高了災(zāi)難備份的速度。1.1.2.5 Tier 4Tier 4 - 活動(dòng)狀態(tài)的備份中心 (Active Secondary Site)Tier 4 這種災(zāi)難備份要求兩個(gè)中心同時(shí)處于活動(dòng)狀態(tài)并管理彼此的備份數(shù)據(jù),允許備份行動(dòng)在任何一個(gè)方向發(fā)生。接收方硬件平臺必須保證與另一方平臺物理地相分離,在這種情況下,工作負(fù)載可以在兩個(gè)中心之間被分擔(dān),兩個(gè)中心之間之間彼此備份。在兩個(gè)中心之間,彼此的在線關(guān)鍵數(shù)據(jù)的拷貝不停地相互傳送著。在災(zāi)難發(fā)生時(shí),需要的關(guān)鍵數(shù)據(jù)通過網(wǎng)絡(luò)可迅速恢復(fù),通過網(wǎng)絡(luò)的切換,關(guān)鍵應(yīng)用的恢復(fù)時(shí)間也可降低到了小時(shí)級。1.1.2.6 Tier 5Tier 5 - 兩
14、中心兩階段確認(rèn) (Two-Site Two-Phase Commit)Tier 5 是在Tier 4的基礎(chǔ)上在鏡像狀態(tài)上管理著被選擇的數(shù)據(jù) (根據(jù)單一commit范圍,在本地和遠(yuǎn)程數(shù)據(jù)庫中同時(shí)更新著數(shù)據(jù)),也就是說,在更新請求被認(rèn)為是滿意之前,Tier 5需要生產(chǎn)中心與備份中心的數(shù)據(jù)都被更新。我們可以想象這樣一種情景,數(shù)據(jù)在兩個(gè)中心之間相互映像,由遠(yuǎn)程two-phase commit來同步,因?yàn)殛P(guān)鍵應(yīng)用使用了雙重在線存儲(chǔ),所以在災(zāi)難發(fā)生時(shí),僅僅傳送中的數(shù)據(jù)被丟失,恢復(fù)的時(shí)間被降低到了小時(shí)級。1.1.2.7 Tier 6Tier 6 - 零數(shù)據(jù)丟失 (Zero Data Loss)Tier 6
15、可以實(shí)現(xiàn)零數(shù)據(jù)丟失率,同時(shí)保證數(shù)據(jù)立即自動(dòng)地被傳輸?shù)絺浞葜行?。Tier 6被認(rèn)為是災(zāi)難備份的最高的級別,在本地和遠(yuǎn)程的所有數(shù)據(jù)被更新的同時(shí),利用了雙重在線存儲(chǔ)和完全的網(wǎng)絡(luò)切換能力。Tier 6是災(zāi)難備份中最昂貴的方式,也是速度最快的恢復(fù)方式,恢復(fù)的時(shí)間被降低到了分鐘級。對于Tier 6 的災(zāi)難備份解決方案,可以應(yīng)用兩種遠(yuǎn)程拷貝技術(shù)來實(shí)現(xiàn),即PPRC同步遠(yuǎn)程拷貝和XRC異步遠(yuǎn)程拷貝。 因此,企業(yè)需要根據(jù)其計(jì)算機(jī)處理系統(tǒng)中數(shù)據(jù)的重要性,以及需要恢復(fù)的速度和程度,來進(jìn)行災(zāi)備系統(tǒng)建設(shè)的整體考慮和不同災(zāi)難對業(yè)務(wù)沖擊的分析,并最終確定災(zāi)備系統(tǒng)建設(shè)的總體規(guī)劃。災(zāi)備系統(tǒng)建設(shè)的總體規(guī)劃應(yīng)包括以下幾個(gè)方面: 1.
16、1.3 界定災(zāi)備系統(tǒng)的適用范圍分析不同的應(yīng)用系統(tǒng),確定災(zāi)備系統(tǒng)是一個(gè)覆蓋整個(gè)計(jì)算機(jī)系統(tǒng)的工程,根據(jù)業(yè)務(wù)的重要性,對不同的系統(tǒng)采用不同級別的容災(zāi)方案,如針對關(guān)鍵的業(yè)務(wù)應(yīng)用子系統(tǒng),實(shí)施高級別的容災(zāi)工程;對低級別的業(yè)務(wù)系統(tǒng),實(shí)施低級別的容災(zāi)工程??傊⒁粋€(gè)綜合性的整體災(zāi)備建設(shè)工程。 1.1.4 界定災(zāi)備建設(shè)的目標(biāo) 生產(chǎn)系統(tǒng)在單位時(shí)間內(nèi)的數(shù)據(jù)處理能力或IO流量確定的情況下,RPO實(shí)際上成為一個(gè)反映災(zāi)備恢復(fù)過程中的數(shù)據(jù)丟失量的指標(biāo)。而RTO則是指從災(zāi)難發(fā)生到備份系統(tǒng)可以接管原有生產(chǎn)系統(tǒng)所需要花費(fèi)的時(shí)間,這不僅要考慮數(shù)據(jù)的恢復(fù)時(shí)間,還應(yīng)該考慮恢復(fù)后數(shù)據(jù)的完整性、一致性的修復(fù)和確認(rèn)、備份中心計(jì)算機(jī)處理系
17、統(tǒng)的啟動(dòng)和備份中心的網(wǎng)絡(luò)切換等全部時(shí)間??傮w規(guī)劃中應(yīng)為災(zāi)備系統(tǒng)設(shè)定明確的RPO和RTO指標(biāo)。 但是設(shè)計(jì)容災(zāi)系統(tǒng)不能只看RTO和RPO,對于不同的業(yè)務(wù)系統(tǒng)和用戶特殊的要求,其它一些指標(biāo)有可能成為選擇容災(zāi)解決方案的主要因素。例如,某些地區(qū)為了防范一些特定自然災(zāi)害的風(fēng)險(xiǎn),要求容災(zāi)備份中心與業(yè)務(wù)中心保持足夠的距離,在這種情況下,容災(zāi)備份中心與業(yè)務(wù)中心的距離要求就是容災(zāi)系統(tǒng)的重要指標(biāo)。通信網(wǎng)絡(luò)是容災(zāi)系統(tǒng)的組成部分,通信線路的質(zhì)量也是容災(zāi)系統(tǒng)的性能指標(biāo)之一,其中包括網(wǎng)絡(luò)的數(shù)據(jù)傳輸帶寬、網(wǎng)絡(luò)傳輸通道的冗余和網(wǎng)絡(luò)服務(wù)商的服務(wù)水平(網(wǎng)絡(luò)年中斷率)。如果容災(zāi)系統(tǒng)使用的通信網(wǎng)絡(luò)是確定的,為了比較不同容災(zāi)解決方案,可
18、以用單位存儲(chǔ)容量的數(shù)據(jù)庫在同一通信網(wǎng)絡(luò)上的數(shù)據(jù)完全恢復(fù)時(shí)間作為一項(xiàng)設(shè)計(jì)指標(biāo)。大部分業(yè)務(wù)系統(tǒng)都是數(shù)據(jù)庫應(yīng)用結(jié)構(gòu),但業(yè)務(wù)系統(tǒng)容災(zāi)并不等于是數(shù)據(jù)庫容災(zāi),還包括訪問數(shù)據(jù)庫的應(yīng)用程序和相關(guān)配置信息。實(shí)現(xiàn)數(shù)據(jù)庫容災(zāi)是容災(zāi)的基礎(chǔ),在保障數(shù)據(jù)庫數(shù)據(jù)一致的前提下,還要實(shí)現(xiàn)應(yīng)用程序和配置信息的一致性;實(shí)現(xiàn)應(yīng)用系統(tǒng)的高可用性、應(yīng)用程序在容災(zāi)中心與生產(chǎn)中心接管和切回的過程,因此,還要考慮應(yīng)用的模式是C/S、B/S,兩層、三層、多層次的應(yīng)用結(jié)構(gòu)等等。1.1.5 界定災(zāi)備系統(tǒng)的總體架構(gòu) 根據(jù)實(shí)際需求、現(xiàn)有技術(shù)、所在地域、計(jì)劃防范的災(zāi)難種類和預(yù)算投入的資金量等實(shí)際情況,確定災(zāi)備系統(tǒng)預(yù)期達(dá)到的級別,并以此來確定災(zāi)備系統(tǒng)與生產(chǎn)
19、運(yùn)行系統(tǒng)在地理位置上的距離(同城還是異地或兩者兼?zhèn)浔竟?jié)點(diǎn)),備份數(shù)據(jù)存儲(chǔ)所在的介質(zhì)(磁盤還是磁帶或兩者兼?zhèn)洌?,備份?shù)據(jù)在生產(chǎn)中心與備份中心傳輸?shù)姆绞剑ㄟ@就涉及到了具體的計(jì)算機(jī)存儲(chǔ)與網(wǎng)絡(luò)技術(shù)),以及備份中心計(jì)算機(jī)系統(tǒng)的處理能力和網(wǎng)絡(luò)接管所需的具體架構(gòu)(是否與生產(chǎn)中心采用完全同等數(shù)量、容量和性能的計(jì)算機(jī)、存儲(chǔ)設(shè)備和網(wǎng)絡(luò)體系結(jié)構(gòu))。 第 2 章 主流容災(zāi)技術(shù)說明根據(jù)SHARE 78評審標(biāo)準(zhǔn),容災(zāi)技術(shù)必需涵蓋了如下內(nèi)容:2.1 數(shù)據(jù)備份 數(shù)據(jù)備份是系統(tǒng)、數(shù)據(jù)容災(zāi)的基礎(chǔ),也是低端容災(zāi)的實(shí)現(xiàn),是高端容災(zāi)(實(shí)時(shí)數(shù)據(jù)保護(hù))的有力保障。目前備份技術(shù)主要有快照備份、離線備份、異地存儲(chǔ)備份。備份系統(tǒng)通過備份策略,
20、對計(jì)算機(jī)信息系統(tǒng)的操作系統(tǒng)、文件系統(tǒng)、應(yīng)用程序、數(shù)據(jù)庫系統(tǒng)等數(shù)據(jù)集,實(shí)現(xiàn)某一時(shí)間點(diǎn)的完整拷貝,拷貝的數(shù)據(jù)處在非在線狀態(tài),不能被立刻訪問,必須通過相應(yīng)操作,如恢復(fù)等方式使用備份數(shù)據(jù)。這也解決了高端容災(zāi)(實(shí)時(shí)數(shù)據(jù)保護(hù))不能解決的問題:人為誤操作、惡意性操作等,這類操作,計(jì)算機(jī)系統(tǒng)是不能區(qū)分的,一旦執(zhí)行,將造成數(shù)據(jù)中心、災(zāi)備中心同時(shí)修改;對于數(shù)據(jù)庫系統(tǒng),在日志方式下,可以通過回滾方式修改,對于文件系統(tǒng)、操作系統(tǒng)等其他配置信息是不能回滾的,將造成毀滅性的結(jié)果。因此在建設(shè)高端容災(zāi)系統(tǒng)的前提,一定要做好本地系統(tǒng)的備份,這是容災(zāi)技術(shù)的起點(diǎn)。目前成熟的備份軟件有Symantec NetBackup、EMC L
21、egato,IBM TSM,HP Protect Server等等。2.2 實(shí)時(shí)數(shù)據(jù)保護(hù) 實(shí)時(shí)數(shù)據(jù)保護(hù),就是在多塊磁盤上、多個(gè)陣列、多臺服務(wù)器、多個(gè)數(shù)據(jù)中心實(shí)時(shí)的保存同一份數(shù)據(jù)的多份存儲(chǔ),目的是為了避免物理故障,數(shù)據(jù)不會(huì)因?yàn)橐粔K磁盤、一個(gè)陣列、一臺服務(wù)器、一個(gè)數(shù)據(jù)中心的故障,而不能訪問。注意,實(shí)時(shí)數(shù)據(jù)保護(hù)需要以數(shù)據(jù)備份作為前提,它不能防范人為誤操作和惡性操作。這里我們要強(qiáng)調(diào)容災(zāi)的目的是讓數(shù)據(jù)在災(zāi)難發(fā)生時(shí),還能被訪問,通過實(shí)時(shí)數(shù)據(jù)保護(hù),保證數(shù)據(jù)的完整性;因此實(shí)時(shí)數(shù)據(jù)保護(hù)是容災(zāi)手段,而不是目的。目前實(shí)時(shí)數(shù)據(jù)保護(hù)的技術(shù)主要有兩種:數(shù)據(jù)鏡像和數(shù)據(jù)復(fù)制。2.2.1 數(shù)據(jù)鏡像(Mirroring)數(shù)據(jù)鏡像
22、(Mirroring)是冗余的一種類型,一個(gè)磁盤上的數(shù)據(jù)在另一個(gè)磁盤上存在一個(gè)完全相同的副本即為鏡像。分軟件鏡像與硬件鏡像,它們的的區(qū)別就在于實(shí)現(xiàn)鏡像所需的CPU周期所處的位置。最終,都是根據(jù)程序的指令,為硬件(磁盤,以及磁盤上存儲(chǔ)的數(shù)據(jù))制作一個(gè)鏡像副本。鏡像可以保證兩份數(shù)據(jù)完全一樣。鏡像軟件有Symantec Volume Manager;各硬件廠商都有基于自己陣列的硬件鏡像方式。2.2.2 數(shù)據(jù)復(fù)制(Replication)數(shù)據(jù)復(fù)制(Replication)是將一個(gè)原數(shù)據(jù)的及其改動(dòng),通過后續(xù)機(jī)制拷貝到另外一處,可以是另一個(gè)磁盤、另一個(gè)陣列、另一個(gè)服務(wù)器、另一個(gè)數(shù)據(jù)中心。由于實(shí)現(xiàn)的機(jī)制不同
23、,又分為同步復(fù)制和異步復(fù)制兩種方式。同步復(fù)制,能夠確保兩份數(shù)據(jù)完全一致,但對系統(tǒng)的影響較大,一般不會(huì)采用;異步復(fù)制,通過后續(xù)機(jī)制,確保將本地改動(dòng)的數(shù)據(jù)復(fù)制的異地,對系統(tǒng)的影響較小,但數(shù)據(jù)同步有延遲,是目前實(shí)現(xiàn)遠(yuǎn)程數(shù)據(jù)同步的主要方法。根據(jù)實(shí)現(xiàn)機(jī)制,數(shù)據(jù)復(fù)制分為軟件方式和硬件方式;硬件方式往往又被稱為遠(yuǎn)程鏡像。軟件復(fù)制有Symantec Volume Replicator;Datacore 等;其中Symantec是基于卷的復(fù)制,Datacore是基于block的復(fù)制,類似于硬件的復(fù)制,純硬件復(fù)制有HDS TrueCopy、EMC SRDF等。其中軟件復(fù)制是可以跨硬件平臺,可以實(shí)現(xiàn)多廠商集成,一般
24、硬件復(fù)制則是相同品牌之間的磁盤子系統(tǒng)的操作。具有一定的限制性。2.2.2.1 軟件復(fù)制Symantec Volume Replicator(簡稱VVR)負(fù)責(zé)遠(yuǎn)程數(shù)據(jù)復(fù)制。VVR復(fù)制基于Volume進(jìn)行。復(fù)制的數(shù)據(jù)可以是數(shù)據(jù)庫中的數(shù)據(jù)(文件方式或裸設(shè)備方式),數(shù)據(jù)庫日志,復(fù)制的數(shù)據(jù)也可以是各種文件,如應(yīng)用和數(shù)據(jù)庫配置文件,應(yīng)用程序,庫文件,等等。復(fù)制的示意圖見圖四。VVR與VxVM完全集成在一起。用VxVM管理界面和命令統(tǒng)一配置管理;由于VVR僅僅將Volume上每次I/O的實(shí)際數(shù)據(jù)實(shí)時(shí)復(fù)制到遠(yuǎn)程節(jié)點(diǎn),所以在網(wǎng)絡(luò)線路上傳輸?shù)臄?shù)據(jù)量很少,對帶寬的需求也很小,因此也與應(yīng)用無關(guān),只要是在定義的復(fù)制卷上
25、的任何操作,都會(huì)被復(fù)制到異地。Datacore則是基于軟件的塊設(shè)備復(fù)制,處于卷的更底層,屬于塊設(shè)備的遠(yuǎn)程復(fù)制,與基于卷的復(fù)制不同的是,他具有應(yīng)用操作系統(tǒng)的獨(dú)立性,數(shù)據(jù)的遠(yuǎn)程復(fù)制與操作系統(tǒng)無關(guān),并且不需要遠(yuǎn)端主機(jī)應(yīng)用系統(tǒng)的運(yùn)行,支持異步和同步的方式,并且與硬件存儲(chǔ)子系統(tǒng)不同的是,Datacore可以實(shí)現(xiàn)異構(gòu)存儲(chǔ)子系統(tǒng)的集中管理,打破了單一廠商選擇的限制,對于磁盤子系統(tǒng)的選擇更加靈活。其復(fù)制示意圖如下:通過整合原有存儲(chǔ)子系統(tǒng)以及新購的存儲(chǔ)子系統(tǒng),將數(shù)據(jù)的改動(dòng)記錄在Datacore的SDS設(shè)備當(dāng)中,采用存儲(chǔ)轉(zhuǎn)發(fā)的傳輸機(jī)制,利用cache的技術(shù)和buffer的技術(shù),記錄數(shù)據(jù)的改變,然后通過傳輸機(jī)制將所
26、有應(yīng)用的數(shù)據(jù)傳輸?shù)綄Χ耍撥浖С忠粚Χ嗟倪h(yuǎn)程復(fù)制。類似于硬件復(fù)制,但是可以不受品牌限制。2.2.2.2 硬件復(fù)制以EMC的SRDF為例,如下圖:1系統(tǒng)定期檢測磁盤物理數(shù)據(jù)塊的改變狀況。如果發(fā)現(xiàn)有數(shù)據(jù)塊改動(dòng),將會(huì)被系統(tǒng)記錄,并一次性將改動(dòng)過的數(shù)據(jù)塊考到復(fù)制緩存,這一動(dòng)作被稱為Switch??截惖骄彺嬷械臄?shù)據(jù)塊,在下一個(gè)Switch來臨之前,被復(fù)制到異地相應(yīng)的陣列緩存中。在下一個(gè)Switch時(shí),本地?cái)?shù)據(jù)塊被復(fù)制到本地存中,而異地緩存中上一次被改動(dòng)過的數(shù)據(jù)塊才被復(fù)制到容災(zāi)系統(tǒng)中。根據(jù)實(shí)應(yīng)用范圍,數(shù)據(jù)復(fù)制分為應(yīng)用復(fù)制、數(shù)據(jù)庫復(fù)制、卷復(fù)制、控制器復(fù)制。應(yīng)用復(fù)制,是指通過應(yīng)用系統(tǒng)直接向原生產(chǎn)中心和容災(zāi)中
27、心同時(shí)發(fā)交易,生產(chǎn)中心和容災(zāi)中心都處理成功,該筆交易才算成功;只要有一邊應(yīng)用處理失敗,該筆交易就算失敗。由于交易的延遲性較大、健壯性較差,應(yīng)用復(fù)制一般不會(huì)考慮。應(yīng)用數(shù)據(jù)庫操作系統(tǒng)控制器物理磁盤數(shù)據(jù)塊SITE A應(yīng)用數(shù)據(jù)庫操作系統(tǒng)控制器物理磁盤SITE BIO LogSQL/Log交易2.2.2.3 數(shù)據(jù)庫復(fù)制數(shù)據(jù)庫復(fù)制,如Oracle 的Data Guard、Quest SharePlex、DSG RealSync等,通過分析數(shù)據(jù)庫Redo Log和Archive Log 實(shí)現(xiàn)日志的復(fù)制,將分析結(jié)果直接或轉(zhuǎn)化為SQL語句傳到容災(zāi)中心,在容災(zāi)中通過心Aply數(shù)據(jù)庫日志或?qū)⑷罩巨D(zhuǎn)化的SQL語句重做
28、,來保證數(shù)據(jù)庫數(shù)據(jù)的一致性。數(shù)據(jù)庫復(fù)制實(shí)際上是應(yīng)用復(fù)制的數(shù)據(jù)庫實(shí)現(xiàn),復(fù)制方式通過異步完成。卷復(fù)制如上Symantec Volume Replicator??刂破鲝?fù)制,如上EMC的復(fù)制過程。2.2.2.4 Datacore SDS實(shí)際上還有一種新的復(fù)制方式,稱為基于SAN網(wǎng)絡(luò)的卷復(fù)制,如Datacore的SDS。它是通過特殊的運(yùn)行于操作系統(tǒng)上的SDS SAN 控制器,實(shí)際是將低端的無智能存儲(chǔ)變?yōu)楦叨说闹悄艽鎯?chǔ),使得他們得以建立基于智能SAN 控制器的卷,通過這種與主機(jī)應(yīng)用無關(guān),但與SDS控制器直接相關(guān)的卷實(shí)現(xiàn)復(fù)制。此種技術(shù)較新,目前具有多家廠商均向此方向發(fā)展,其中Datacore是較早的研發(fā)廠商
29、,當(dāng)中還有IBM的SVC和HDS的USP系列也是采用此種技術(shù)。2.3 應(yīng)用系統(tǒng)恢復(fù)正如前所述,數(shù)據(jù)復(fù)制是容災(zāi)的手段,不是目的,容災(zāi)的目的是數(shù)據(jù)的訪問。因此應(yīng)用的恢復(fù)和以下的網(wǎng)絡(luò)的恢復(fù)也是容災(zāi)的關(guān)鍵。應(yīng)用系統(tǒng)恢復(fù),這和系統(tǒng)的應(yīng)用模式直接相關(guān)。需要考慮應(yīng)用系統(tǒng)的應(yīng)用架構(gòu)。是Client/Server架構(gòu),還是Broswer/Server架構(gòu);是2層架構(gòu)、還是3層架構(gòu)、還是多層架構(gòu)。兩層架構(gòu),表示容災(zāi)中心的應(yīng)用只要啟動(dòng)數(shù)據(jù)庫就可以服務(wù)了。如果是三層架構(gòu),就意味著應(yīng)用系統(tǒng)除數(shù)據(jù)庫以外,還有網(wǎng)絡(luò)服務(wù)程序,如中間件Tuxedo、CICS、WebLogic、WebSphere、9iAS、SAP等等。在容災(zāi)應(yīng)
30、用切換時(shí),能夠手工或自動(dòng)化的將這些服務(wù)一一啟動(dòng)。2.4 網(wǎng)絡(luò)系統(tǒng)恢復(fù) 在災(zāi)難發(fā)生后,應(yīng)用切換到災(zāi)備中心了,本地的應(yīng)用前端需要重新訪問容災(zāi)節(jié)點(diǎn)的服務(wù),帶來另外一個(gè)問題,網(wǎng)絡(luò)如何切換?是建立新的網(wǎng)絡(luò),還是使用動(dòng)態(tài)路由,還是有其它辦法?實(shí)際上最簡單的辦法,就是通過外部DNS服務(wù)器,改變服務(wù)器名和IP的映射關(guān)系,將原服務(wù)器名映射到新的IP地址上,就可以利用容災(zāi)網(wǎng)絡(luò),實(shí)現(xiàn)前端對容災(zāi)中心服務(wù)器數(shù)據(jù)的訪問。2.5 容災(zāi)切換過程 就是在災(zāi)難發(fā)生后,數(shù)據(jù)庫切換、應(yīng)用重新啟動(dòng)、網(wǎng)絡(luò)實(shí)現(xiàn)切換等等,容災(zāi)中心接管原生產(chǎn)中心的整個(gè)過程;同時(shí)還包含了在原數(shù)據(jù)中心修復(fù)后,數(shù)據(jù)庫、應(yīng)用、網(wǎng)絡(luò)需要重新切會(huì)來的整個(gè)過程。這些過程,
31、可以通過手工切換、也可以通過自動(dòng)化過程完成。2.6 消防演習(xí)大部分的容災(zāi)方案,在項(xiàng)目實(shí)施后,很難有機(jī)會(huì)來實(shí)現(xiàn)預(yù)演,因?yàn)閷τ诖蟛糠址桨竵碚f,這種預(yù)演活動(dòng),需要耗費(fèi)大量的人力財(cái)力。但是消防預(yù)演是必不可少的,它是實(shí)時(shí)測試目前的容災(zāi)方案的漏洞,保證容災(zāi)方案在災(zāi)難發(fā)生時(shí),能夠真正生效。第 3 章 主流容災(zāi)技術(shù)分析與對比沒有一種技術(shù)可以解決所有得IT問題,因此,也沒有一個(gè)解決方案是完美無缺得,依據(jù)現(xiàn)狀、技術(shù)要求、和未來的拓展,我們在此討論的是最合適容災(zāi)技術(shù)的解決方案。3.1 數(shù)據(jù)備份 SHARE 78評審標(biāo)準(zhǔn)中,Tier 0、Tier 1、Tier2級別容災(zāi)要解決的問題。如前面所闡述的,數(shù)據(jù)備份是容災(zāi)系統(tǒng)
32、的起點(diǎn),是最低端的容災(zāi)方案。不是說有了高端的實(shí)時(shí)容災(zāi)方案,就可以不要備份系統(tǒng)了,因?yàn)閷?shí)時(shí)容災(zāi)不能解決惡性操作、誤操作等故障,而備份系統(tǒng)可以解決。在此我們要討論的是,如何利用現(xiàn)有的備份系統(tǒng),是容災(zāi)方案更加完備。備份軟件必須具備跨平臺能力, 對目前所有的操作系統(tǒng)AIX、Solaris、HPUnix、Windows、數(shù)據(jù)庫Oracle、SQL Server、DB2、SybaseASE等,備份軟件除了要可以很好的備份相關(guān)的文件系統(tǒng)數(shù)據(jù)、數(shù)據(jù)庫系統(tǒng)數(shù)據(jù)外,同時(shí)必須要滿足系統(tǒng)的裸機(jī)快速恢復(fù)功能,減少系統(tǒng)重建時(shí)間,可以對AIX、Solaris、HPUnix、Windows、Linux操作系統(tǒng)實(shí)現(xiàn)備份,備份這
33、些操作系統(tǒng)的相關(guān)補(bǔ)丁、外設(shè)驅(qū)動(dòng)程序、相關(guān)的文件系統(tǒng)配置信息、相關(guān)的卷配置信息、內(nèi)核參數(shù)等。在災(zāi)難修復(fù)時(shí),可以通過恢復(fù)的方式快速恢復(fù)相關(guān)操作系統(tǒng)。實(shí)際經(jīng)驗(yàn),操作系統(tǒng)安裝、打補(bǔ)丁,安裝相關(guān)驅(qū)動(dòng)程序、恢復(fù)內(nèi)核參數(shù)、恢復(fù)文件系統(tǒng)配置、恢復(fù)卷管理系統(tǒng)配置等整個(gè)過程,可以縮短在1小時(shí)內(nèi)完成,并且降低了人為錯(cuò)誤操作過程。這樣大大提高了原生產(chǎn)中心容災(zāi)恢復(fù)的能力。目前市場上的備份產(chǎn)品,Veritas是市場占有率最高,功能相對較全的產(chǎn)品,其他備份產(chǎn)品,或沒有類似與BMR的模塊;或是不能支持AIX、Solaris、HPUnix、Windows、Linux全部操作系統(tǒng),這些用戶可以根據(jù)實(shí)際情況來選擇。備份軟件還必須對
34、遠(yuǎn)程磁帶具有管理功能,可以實(shí)現(xiàn)對備份數(shù)據(jù)的自動(dòng)拷貝,并實(shí)現(xiàn)異地存放和管理。Share 78 中 Tier 1 、Tier 2級別容災(zāi)。3.2 實(shí)時(shí)數(shù)據(jù)保護(hù) SHARE 78評審標(biāo)準(zhǔn)中,Tier 3級別容災(zāi)。3.2.1 數(shù)據(jù)鏡像(Mirroring)數(shù)據(jù)鏡像分軟件鏡像與硬件鏡像。3.2.1.1 硬件鏡像通過硬件級別的Raid-1實(shí)現(xiàn),其實(shí)現(xiàn)過程簡單,但要求嚴(yán)格。只能基于同一廠商、同一陣列、同樣容量大小的兩塊磁盤來實(shí)現(xiàn)。基本上硬件的磁盤子系統(tǒng)供應(yīng)商都提供能夠?qū)崿F(xiàn)此種功能的設(shè)備,但一般價(jià)格較高,投入大,并且只能限定在同一廠商品牌。3.2.1.2 軟件鏡像軟件鏡像可以實(shí)現(xiàn)邏輯卷級鏡像,對存儲(chǔ)空間要求較
35、低,只要有空間且至少兩塊磁盤就行。不要求同一廠商、同一陣列、同樣容量大小的兩塊磁盤,軟件鏡像能夠?qū)崿F(xiàn)跨廠商、跨陣列的鏡像,在磁盤空間不均時(shí),能夠?qū)崿F(xiàn)1塊磁盤對多塊磁盤、N塊磁盤對M塊磁盤的鏡像。軟件鏡像的產(chǎn)品有Symantec的Storage foundation,這種軟件通常安裝在主機(jī)上,通過主機(jī)的線程對鏡像進(jìn)行控制。3.2.1.3 軟件智能存儲(chǔ)鏡像 目前新興的虛擬存儲(chǔ)技術(shù),使得讓原來非智能的存儲(chǔ)可以實(shí)現(xiàn)智能化,改變了原來只有高端存儲(chǔ)才具有的智能功能的局面,這種智能的控制器軟件可以實(shí)現(xiàn)存儲(chǔ)間的鏡像和存儲(chǔ)內(nèi)部的硬盤鏡像,同時(shí),此種軟件的可以實(shí)現(xiàn)跨廠商的磁盤子系統(tǒng)設(shè)備的鏡像。3.2.1.4 鏡像
36、技術(shù)在容災(zāi)中的利用在通過SAN的支持,DWDM的拓展,光纖網(wǎng)絡(luò)可以擴(kuò)展到100公里或更遠(yuǎn),鏡像可以在較遠(yuǎn)的兩個(gè)數(shù)據(jù)中心的磁盤上建立。但由于鏡像系統(tǒng)是以同步方式實(shí)現(xiàn)的,受到距離、光纖協(xié)議、和相關(guān)協(xié)議轉(zhuǎn)換的影響,同步方式會(huì)影響本地服務(wù)器的性能,所以,一般建議在<20公里的同城容災(zāi)中使用,在遠(yuǎn)程容災(zāi)中可作為一種加強(qiáng)方案與遠(yuǎn)程容災(zāi)方案整合,將在我們的詳細(xì)方案中描述。常說的基于硬件的遠(yuǎn)程磁盤鏡像,實(shí)際上是遠(yuǎn)程磁盤復(fù)制,不是真正意義上的鏡像。我們將在后續(xù)文章描述?;赟AN的鏡像,在容災(zāi)實(shí)現(xiàn)中,使用范圍較小,如上說述,適用于同城容災(zāi),但支持所有的類型數(shù)據(jù)同步,包括文件數(shù)據(jù)、數(shù)據(jù)庫數(shù)據(jù)、裸設(shè)備、應(yīng)用配
37、置文件、應(yīng)用程序、庫函數(shù)等,因而支持各類應(yīng)用系統(tǒng)容災(zāi),包括數(shù)據(jù)庫、中間件、客戶自己開發(fā)的應(yīng)用,適用于2層架構(gòu)、3層或多層應(yīng)用架構(gòu)。3.2.2 數(shù)據(jù)復(fù)制(Replication)數(shù)據(jù)復(fù)制是運(yùn)程容災(zāi)實(shí)現(xiàn)的基礎(chǔ)。3.2.2.1 軟件復(fù)制(卷復(fù)制)卷復(fù)制軟件負(fù)責(zé)遠(yuǎn)程數(shù)據(jù)復(fù)制。復(fù)制基于卷進(jìn)行,將數(shù)據(jù)特別是需要進(jìn)行遠(yuǎn)程復(fù)制的相關(guān)文件系統(tǒng)、數(shù)據(jù)庫、裸設(shè)備、應(yīng)用程序等,存放在復(fù)制卷組中,系統(tǒng)便能自動(dòng)同步本地和異地相應(yīng)的復(fù)制卷組。卷復(fù)制軟件與卷管理軟件完全集成在一起。由于卷復(fù)制軟件僅僅將卷上每次I/O的操作復(fù)制到遠(yuǎn)程節(jié)點(diǎn),復(fù)制的信息是卷的日志,所以在網(wǎng)絡(luò)線路上傳輸?shù)臄?shù)據(jù)量很少,對帶寬的需求也較小。; 基于卷的日
38、志(SRL:先進(jìn)先出)保正了再極端情況下,如容災(zāi)網(wǎng)絡(luò)中斷、數(shù)據(jù)復(fù)制不能正常進(jìn)行,容災(zāi)中心數(shù)據(jù)于生產(chǎn)中心數(shù)據(jù)有延遲,在一切故障排除后,能夠嚴(yán)格保證所以I/O的寫順序,這類似于數(shù)據(jù)庫數(shù)據(jù)塊和數(shù)據(jù)庫日志的關(guān)系,通過帶時(shí)間戳的數(shù)據(jù)塊和順序日志,保證數(shù)據(jù)的一致性。 基于軟件的遠(yuǎn)程復(fù)制,在容災(zāi)實(shí)現(xiàn)中,使用范圍最廣,支持所有的類型數(shù)據(jù)同步,包括文件數(shù)據(jù)、數(shù)據(jù)庫數(shù)據(jù)、裸設(shè)備、應(yīng)用配置文件、應(yīng)用程序、庫函數(shù)等,支持各類應(yīng)用系統(tǒng)容災(zāi),包括數(shù)據(jù)庫、中間件、客戶自己開發(fā)的應(yīng)用,適用于2層架構(gòu)、3層或多層應(yīng)用架構(gòu)。3.2.2.2 硬件復(fù)制通過基于硬件的遠(yuǎn)程磁盤鏡像實(shí)現(xiàn),其實(shí)現(xiàn)要求嚴(yán)格。只能基于同一廠商、同型號陣列、同樣
39、容量大小的兩個(gè)陣列來實(shí)現(xiàn)。廠商一般建議使用間歇性復(fù)制。遠(yuǎn)程磁盤鏡像(復(fù)制),在容災(zāi)實(shí)現(xiàn)中,支持所有的類型數(shù)據(jù)同步,包括文件數(shù)據(jù)、數(shù)據(jù)庫數(shù)據(jù)、裸設(shè)備、應(yīng)用配置文件、應(yīng)用程序、庫函數(shù)等,支持各類應(yīng)用系統(tǒng)容災(zāi),包括數(shù)據(jù)庫、中間件、客戶自己開發(fā)的應(yīng)用,適用于2層架構(gòu)、3層或多層應(yīng)用架構(gòu)。與應(yīng)用無關(guān),但與磁盤陣列直接相關(guān)。只能基于同一廠商、同樣容量大小的兩個(gè)陣列來實(shí)現(xiàn)。受光纖線路影響、復(fù)制數(shù)據(jù)量大,在使用間歇性復(fù)制時(shí),數(shù)據(jù)延遲大,磁盤容量要求4倍于源數(shù)據(jù),并且在極端情況下,不能保證數(shù)據(jù)一致性。硬件復(fù)制的過程,在上文已經(jīng)描述。下面我們將描述極端情況。磁盤復(fù)制在生產(chǎn)中心和容災(zāi)中心復(fù)制的是改動(dòng)過的物理數(shù)據(jù)塊,
40、而物理數(shù)據(jù)塊的寫是無序的。為了保證數(shù)據(jù)的一致性,通過帶時(shí)間戳的數(shù)據(jù)塊,改善了一定的數(shù)據(jù)塊的無序性,但仍然不能解決。我們看到,數(shù)據(jù)庫是通過帶時(shí)間戳的數(shù)據(jù)塊和聯(lián)機(jī)日志一起來解決,如果一個(gè)數(shù)據(jù)文件中的數(shù)據(jù)塊的時(shí)間戳不一致,數(shù)據(jù)庫需要日志來修正,日志中記錄的是一些有序的數(shù)據(jù)庫操作,通過Recover的動(dòng)作,將不一致的數(shù)據(jù)文件,前滾或后滾到某一特定時(shí)間點(diǎn)。帶時(shí)間戳的數(shù)據(jù)文件和有序的日志,二者缺一不可,否則不能保證數(shù)據(jù)的一致性。在磁盤復(fù)制中,唯獨(dú)少了至關(guān)重要的磁盤寫日志(不可能有)。更有甚,如果這種磁盤塊的無序?qū)?,發(fā)生在數(shù)據(jù)庫的聯(lián)機(jī)日志上,那將對數(shù)據(jù)庫數(shù)據(jù)的一致性造成破壞。3.2.2.3 基于軟件控制器的
41、復(fù)制基于軟件控制器的復(fù)制,打破了基于硬件的復(fù)制的單廠商設(shè)備的限制,并且具有更大的靈活性,通過建立虛擬磁盤卷的鏡像關(guān)系,真正可以建立數(shù)據(jù)的鏡像,其與軟件復(fù)制的不同之處又在于其對應(yīng)用的無關(guān)性,這點(diǎn)又與基于硬件的復(fù)制相同。在前面我們提到基于塊設(shè)備復(fù)制的應(yīng)用無關(guān)性,但是也具有對數(shù)據(jù)庫的數(shù)據(jù)一致性的問題,所幸的是這種基于軟件控制器的復(fù)制可以具有比基于純硬件復(fù)制更多的定制功能,可以對數(shù)據(jù)庫的數(shù)據(jù)一致性提供支持,其實(shí)現(xiàn)的方式是在數(shù)據(jù)庫的運(yùn)行主機(jī)上安裝agent或者是編寫腳本的方式實(shí)現(xiàn),并且腳本與軟件控制器想結(jié)合,從而保證數(shù)據(jù)庫的數(shù)據(jù)復(fù)制一致性,防止在極端情況下的數(shù)據(jù)損失。我們可以認(rèn)為基于軟件控制器的數(shù)據(jù)復(fù)制
42、是一種介于卷復(fù)制和硬件控制器復(fù)制之間的數(shù)據(jù)復(fù)制方式。并且解決了單一硬件廠商平臺的限制,是未來的主流發(fā)展方向。3.2.2.4 數(shù)據(jù)庫復(fù)制數(shù)據(jù)庫復(fù)制,如Oracle 的Data Guard、Quest SharePlex、DSG RealSync等,通過分析數(shù)據(jù)庫Redo Log和Archive Log 實(shí)現(xiàn)日志的復(fù)制,將分析結(jié)果直接或轉(zhuǎn)化為SQL語句傳到容災(zāi)中心,在容災(zāi)中通過心Aply數(shù)據(jù)庫日志或?qū)⑷罩巨D(zhuǎn)化的SQL語句重做,來保證容災(zāi)中心數(shù)據(jù)與生產(chǎn)中心數(shù)據(jù)一致。數(shù)據(jù)庫復(fù)制也存在一定的限制,在簡單的環(huán)境中,實(shí)現(xiàn)兩個(gè)較小的數(shù)據(jù)庫數(shù)據(jù)同步,可以說是一個(gè)簡化的解決方案。對于容災(zāi)環(huán)境,其部分限制如下。數(shù)據(jù)
43、庫復(fù)制,是專門針對相應(yīng)數(shù)據(jù)庫的,只能實(shí)現(xiàn)單一的數(shù)據(jù)庫復(fù)制?,F(xiàn)有的數(shù)據(jù)庫就有Oracle ,SQL Server,DB2,Sybase ASE。在容災(zāi)系統(tǒng)中,如果使用數(shù)據(jù)庫復(fù)制方式,管理員將要維護(hù)Oracle 一套、SQL Server一套、DB2一套、等相互各不相同的數(shù)據(jù)庫復(fù)制技術(shù),管理和維護(hù)工作根本不能保證其能夠正常運(yùn)行。下面我們就以O(shè)racle為例,雖然有眾多廠商、技術(shù)方案支持的數(shù)據(jù)庫復(fù)制,仍然有不可逾越的技術(shù)障礙。Oracle 數(shù)據(jù)庫的容災(zāi)復(fù)制被稱為Standby Database, 其產(chǎn)生于Oracle 7.3,在Oracle 9i后,改稱為Data Guard。Standby Dat
44、abase 又分為Physical Standby,和Logical Standby。Physical Standby方式是將生產(chǎn)中心產(chǎn)生的數(shù)據(jù)庫redo log和archive log,不停復(fù)制到容災(zāi)中心,不停的apply log,來實(shí)現(xiàn)容災(zāi)中心的數(shù)據(jù)庫與生產(chǎn)中心一致。Logical Standby,是通過解析redo log和archive log,產(chǎn)生相關(guān)的SQL 語句,把這些語句傳到容災(zāi)中心重做。Quest SharePlex 和DSG 的Realsync類似與Data Guard 的Logical Stand by,復(fù)制SQL語句。1容災(zāi)的目的是使數(shù)據(jù)能夠被正常訪問,業(yè)務(wù)能夠正常運(yùn)行
45、。數(shù)據(jù)庫復(fù)制技術(shù),不是一個(gè)完整的容災(zāi)解決方案,只能有限的復(fù)制數(shù)據(jù)庫數(shù)據(jù),不能復(fù)制其他的應(yīng)用程序,配置文件,就是Oracle自己的tnsnames.ora, listner.ora,initSID.ora, *.ctl也不能復(fù)制,一旦這些文件改動(dòng)過,將需要管員人為操作或者需要其他軟件的管理,保證容災(zāi)中心與生產(chǎn)中心同步應(yīng)用、程序、配置文件同步。2由于Data Guard 是通過日志來實(shí)現(xiàn)的,這要求數(shù)據(jù)庫必須運(yùn)行在歸檔日志模式下。但我們知道,并不是所有的數(shù)據(jù)庫操作都寫日志:oracle 的DML(Data Manipulation Language)或DDL(Data Dictionary Lang
46、uage)語句是不能被復(fù)制的,如create index、table,alter table等等;觸發(fā)器、存儲(chǔ)過程操作不能被復(fù)制;系統(tǒng)升級、patchs更新不能被復(fù)制。3與備份軟件的沖突。如前所述,對于核心應(yīng)用系統(tǒng),數(shù)據(jù)備份必不可少。對于數(shù)據(jù)庫的備份,也要求數(shù)據(jù)庫在歸檔模式下運(yùn)行。備份系統(tǒng)在備份作用發(fā)起時(shí),需要備份數(shù)據(jù)文件、control file、歸檔日志、甚至需要數(shù)據(jù)庫實(shí)現(xiàn)強(qiáng)制歸檔,來備份歸檔日志,備份作業(yè)成功后,由備份系統(tǒng)自動(dòng)刪除備份過的歸檔日志,應(yīng)為當(dāng)數(shù)據(jù)庫運(yùn)行在歸檔日志模式下時(shí),歸檔日志往往因數(shù)據(jù)庫繁忙而快速大量產(chǎn)生,需要備份軟件自動(dòng)清除維護(hù),否則當(dāng)歸檔日志空間占滿后,聯(lián)機(jī)日志不能歸
47、檔時(shí),生產(chǎn)數(shù)據(jù)庫不在運(yùn)作,則所有應(yīng)用業(yè)務(wù)不能操作,釀成生產(chǎn)事故。為了不影響生產(chǎn)環(huán)境,問題一,在備份作業(yè)發(fā)起,強(qiáng)制歸檔;備份完成后,刪除歸檔日志后,數(shù)據(jù)庫復(fù)制軟件,該如何操作,將嚴(yán)重造成生產(chǎn)中心和容災(zāi)中心數(shù)據(jù)不一致。如果備份作用不刪除歸檔日志,系統(tǒng)管理員將不定時(shí)的來維護(hù)歸檔目錄,他必須知道本地歸檔目錄中,哪一個(gè)歸檔日志已經(jīng)被備份,通過檢查容災(zāi)中心數(shù)據(jù)庫中哪一個(gè)歸檔日志已經(jīng)被apply,這將是一個(gè)惡夢一樣的維護(hù)工作。4極限情況下的危害。當(dāng)生產(chǎn)中心和容災(zāi)中心的復(fù)制鏈路一定時(shí)期內(nèi)不能恢復(fù)時(shí),同樣需要在生產(chǎn)主機(jī)中保留所有的歸檔日志,這又需要管理員大量的維護(hù)工作。3.3 應(yīng)用系統(tǒng)恢復(fù)對于核心的應(yīng)用環(huán)境,在
48、實(shí)現(xiàn)容災(zāi)前,一般都要求在本地實(shí)現(xiàn)高可用性,通過集群軟件,保證應(yīng)用、數(shù)據(jù)訪問在服務(wù)器級故障,如網(wǎng)卡、IP、操作系統(tǒng)、磁盤、其他相關(guān)應(yīng)用的故障時(shí),能夠自動(dòng)切換到另外一臺可用的服務(wù)器上,能夠被用戶繼續(xù)訪問。容災(zāi)應(yīng)用切換,就是把這種高可用性的應(yīng)用,拓展到廣域網(wǎng)上。也就是說通過HA軟件實(shí)現(xiàn)生產(chǎn)中心的高可用、實(shí)現(xiàn)容災(zāi)中心應(yīng)用的自動(dòng)啟動(dòng)、實(shí)現(xiàn)生產(chǎn)中心在災(zāi)難修復(fù)后應(yīng)用的回切過程。目前主流的高可用方案主要有Symantec VCS、IBM HACMP、HP MC/Service Guard、Sun Cluster、Windows CCS 等。各廠商軟件的名字上,我們就可以看到他們的不足。只能支持自己的平臺。也就
49、是意味著如果使用他們的解決方案,得分別熟悉AIX、HPUnix、Solaris、Windows,得在分別熟悉IBM HACMP、HP MC/Service Guard、Sun Cluster、Windows CCS軟件,并且這些軟件大部分只提供命令行管理、調(diào)試方式,這在管理上又是一大難題。Symantec VCS 則是目前市場上主流的跨平臺集群軟件之一,擁有70的高端應(yīng)用市場。通過統(tǒng)一得圖形化JAVA GUI或Web GUI,提供對AIX、HPUnix、Solaris、Windows、Linux 所有操作系統(tǒng)平臺、所有數(shù)據(jù)庫Oracle、Oracle RAC、SQL Server、Sybase
50、、DB2、所有中間件:Weblogic、WebSphere、9iAs、Tuxedo,甚至是用戶自己寫得應(yīng)用程序,實(shí)現(xiàn)得集中統(tǒng)一的集群管理和監(jiān)控。并且能夠定義這些服務(wù)啟動(dòng)、切換得先后順序,以確保數(shù)據(jù)能夠快速正常訪問。例如在WebLogic Server啟動(dòng)之前,必須先啟動(dòng)Oracle,因?yàn)樵赪ebLogic Server 啟動(dòng)是會(huì)建立數(shù)據(jù)庫得連接池,如果數(shù)據(jù)庫未啟動(dòng),WebLogic Server 啟動(dòng)將失敗。在災(zāi)難發(fā)生時(shí),VCS將根據(jù)這些服務(wù)組之間得關(guān)系,先后依次啟動(dòng)各個(gè)服務(wù)組。大大提供容災(zāi)中心服務(wù)得接管速度。 3.4 網(wǎng)絡(luò)系統(tǒng)恢復(fù) 在災(zāi)難發(fā)生后,本地應(yīng)用訪問路徑如何由指向原生產(chǎn)中心改為指向容
51、災(zāi)中心。在災(zāi)難修復(fù)后,又需要指向原生產(chǎn)中心。我們提到,最簡單得方法就是更改外部DNS服務(wù)器得IP映射關(guān)系。在災(zāi)難發(fā)生前,IP映射為生產(chǎn)中心服務(wù)器;在災(zāi)難發(fā)生后,IP由映射為容災(zāi)中心得服務(wù)器;在災(zāi)難修復(fù)后,IP又映射為生產(chǎn)中心得服務(wù)器。當(dāng)然,在一些中間件軟件中,支持多服務(wù)器、多IP得配置,那也是可以考慮的。第 4 章 容災(zāi)系統(tǒng)設(shè)計(jì)步驟如上圖,對于容災(zāi)系統(tǒng)的建立,我們建議通過分步實(shí)施,逐漸建立一套完善的系統(tǒng)容災(zāi)解決方案。第一步,深化數(shù)據(jù)備份系統(tǒng);第二步,存儲(chǔ)、應(yīng)用整合;第三步,實(shí)現(xiàn)遠(yuǎn)程實(shí)時(shí)數(shù)據(jù)保護(hù);第四步,建立遠(yuǎn)程切換消防演習(xí)機(jī)制;第五步,建立遠(yuǎn)程切換機(jī)制。4.1 第一步,深化數(shù)據(jù)備份系統(tǒng) 通過相
52、應(yīng)的備份軟件,對目前所有的計(jì)算機(jī)系統(tǒng),做好完善的數(shù)據(jù)備份,特別是做好操作系統(tǒng)備份、文件系統(tǒng)備份、數(shù)據(jù)庫系統(tǒng)文件備份、數(shù)據(jù)庫數(shù)據(jù)文件備份、相關(guān)的核心應(yīng)用程序備份;建立好完善的備份/恢復(fù)機(jī)制和遠(yuǎn)程磁帶保管機(jī)制。這也是下一步實(shí)現(xiàn)遠(yuǎn)程數(shù)據(jù)復(fù)制容災(zāi)的基礎(chǔ),容災(zāi)中心與生產(chǎn)中心的數(shù)據(jù)初始化同步,都是通過磁帶備份恢復(fù)方式,實(shí)現(xiàn)一個(gè)同步起點(diǎn)。4.2 第二步,存儲(chǔ)、應(yīng)用整合4.2.1 存儲(chǔ)整合通過相關(guān)的產(chǎn)品選擇,將各服務(wù)器的數(shù)據(jù)、或應(yīng)用,通過基于一定的管理及后續(xù),實(shí)現(xiàn)數(shù)據(jù)的快照、鏡像等技術(shù),遷移到外置基于SAN的陣列庫中,通過唯一的管理接口,實(shí)現(xiàn)統(tǒng)一管理,屏蔽不同廠商陣列的差異。4.2.2 應(yīng)用整合通過相應(yīng)的應(yīng)用
53、集群管理軟件,管理所有的應(yīng)用系統(tǒng)狀態(tài)。對現(xiàn)有的數(shù)據(jù)庫系統(tǒng)Oracle、SQL Server、DB2、Sybase、中間件等應(yīng)用,實(shí)現(xiàn)雙機(jī)、多機(jī)或是單機(jī)集群管理。操作系統(tǒng)平臺相同的,可以整合在一起,實(shí)現(xiàn)多機(jī)集群,不同的數(shù)據(jù)庫實(shí)例,只是作為一個(gè)“數(shù)據(jù)庫服務(wù)組”,運(yùn)行在多機(jī)或雙機(jī)中的某一臺服務(wù)器上,為中間件、其他應(yīng)用建立“應(yīng)用服務(wù)組”,也納入到集群軟件的管理;并且動(dòng)過集權(quán)軟件建立“應(yīng)用服務(wù)組”與“數(shù)據(jù)庫服務(wù)組”或其他“應(yīng)用服務(wù)組”的依賴關(guān)系,實(shí)現(xiàn)對應(yīng)用啟動(dòng)、關(guān)閉的有序管理。如果是Oracle RAC的應(yīng)用,則需要集權(quán)軟件支持,因此在選擇集權(quán)管理軟件時(shí)要納入考慮因素,通過RAC的支持使得數(shù)據(jù)庫的 RA
54、C應(yīng)用也在集群軟件的管理之下。4.3 第三步,實(shí)現(xiàn)遠(yuǎn)程實(shí)時(shí)數(shù)據(jù)卷保護(hù)通過第二步的存儲(chǔ)和應(yīng)用整合,使得所有需要容災(zāi)的核心系統(tǒng),全部納入到一個(gè)統(tǒng)一的管理平臺之下,我們將規(guī)劃好應(yīng)用數(shù)據(jù)的存放方式、數(shù)據(jù)文件的存放地點(diǎn)、日志的存放地點(diǎn),然后統(tǒng)一為這些數(shù)據(jù)指定一定的存儲(chǔ)策略,實(shí)現(xiàn)遠(yuǎn)程數(shù)據(jù)復(fù)制。4.4 第四步,建立遠(yuǎn)程切換消防演習(xí)機(jī)制在數(shù)據(jù)庫復(fù)制初始化完成,相關(guān)應(yīng)用復(fù)制完成,就可以實(shí)現(xiàn)相關(guān)應(yīng)用的消防演習(xí)了。這是保證容災(zāi)系統(tǒng)正常唯一的、最有效的手段,整個(gè)過程生產(chǎn)中心應(yīng)用在線。對數(shù)據(jù)庫實(shí)現(xiàn)快照;啟動(dòng)數(shù)據(jù)庫;啟動(dòng)相關(guān)的應(yīng)用;通過壓力程序或測試程序驗(yàn)證應(yīng)用。4.5 第五步,建立遠(yuǎn)程切換機(jī)制確定外部DNS服務(wù)器對本地服務(wù)器與容災(zāi)中心服務(wù)器IP地址的對應(yīng)關(guān)系,確定GCO對DNS 更新的內(nèi)容。第 5 章 數(shù)據(jù)容災(zāi)的性能分析5.1 同步數(shù)據(jù)容災(zāi)的性能分析利用同步傳輸方式建立異地?cái)?shù)據(jù)容災(zāi),可以保證在本地系統(tǒng)出現(xiàn)災(zāi)難時(shí),異地存在一份與本地?cái)?shù)據(jù)完全一致的數(shù)據(jù)備份。但利用同步傳輸方式建立這樣一個(gè)系統(tǒng),必須考慮“性能”這個(gè)因素。采用同步數(shù)據(jù)傳輸方式時(shí),從前面的描述來看,本地系統(tǒng)必須等到數(shù)據(jù)成功的寫到異地系統(tǒng),才能進(jìn)行下一個(gè)I/O操作。一個(gè)I/O通過遠(yuǎn)程鏈路寫到異地系統(tǒng),涉及到3個(gè)技術(shù)參數(shù):帶寬、距離和中間設(shè)備及協(xié)議轉(zhuǎn)換的時(shí)延。5.1.1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030年中國電泳漆超濾系統(tǒng)數(shù)據(jù)監(jiān)測研究報(bào)告
- 2025至2030年中國浴缸墊數(shù)據(jù)監(jiān)測研究報(bào)告
- 2025至2030年中國雙吊點(diǎn)電動(dòng)葫蘆數(shù)據(jù)監(jiān)測研究報(bào)告
- 2025年中國竹骨太極扇市場調(diào)查研究報(bào)告
- 2025至2031年中國鏡架鍍層修補(bǔ)液行業(yè)投資前景及策略咨詢研究報(bào)告
- 結(jié)合ABM和演化博弈的建筑廢棄物回收處置系統(tǒng)仿真研究
- 二零二五年度殘障人士就業(yè)促進(jìn)與職業(yè)培訓(xùn)合同3篇
- 2025年汽車零部件進(jìn)出口貿(mào)易合同8篇
- 2025年度個(gè)人銷售傭金合同(含培訓(xùn)與晉升機(jī)會(huì))4篇
- 2025年度園林苗木種植與生態(tài)旅游開發(fā)合同4篇
- 2025貴州貴陽市屬事業(yè)單位招聘筆試和高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2024年住院醫(yī)師規(guī)范化培訓(xùn)師資培訓(xùn)理論考試試題
- 期末綜合測試卷(試題)-2024-2025學(xué)年五年級上冊數(shù)學(xué)人教版
- 招標(biāo)采購基礎(chǔ)知識培訓(xùn)
- 2024年廣東省公務(wù)員錄用考試《行測》試題及答案解析
- 五年級口算題卡每天100題帶答案
- 結(jié)構(gòu)力學(xué)本構(gòu)模型:斷裂力學(xué)模型:斷裂力學(xué)實(shí)驗(yàn)技術(shù)教程
- 2024年貴州省中考理科綜合試卷(含答案)
- 無人機(jī)技術(shù)與遙感
- PDCA提高臥床患者踝泵運(yùn)動(dòng)的執(zhí)行率
- 黑色素的合成與美白產(chǎn)品的研究進(jìn)展
評論
0/150
提交評論