版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、xxx工商局?jǐn)?shù)據(jù)大集中容災(zāi)系統(tǒng)建設(shè)方案安徽中科大國禎信息科技有限責(zé)任公司2009年4月目 錄1概述32信息系統(tǒng)可用性風(fēng)險和技術(shù)分析42.1計劃內(nèi)停機(jī)維護(hù)對it系統(tǒng)的影響分析和技術(shù)解決方案42.2意外事件對it系統(tǒng)的影響分析和技術(shù)解決方案52.3各種技術(shù)解決方案對企業(yè)信息高可用性的保護(hù)覆蓋范圍63省工商應(yīng)用級容災(zāi)系統(tǒng)建設(shè)方案93.1方案綜述93.2容災(zāi)方案的功能特點說103.3容災(zāi)系統(tǒng)的工作原理113.4容災(zāi)工作過程詳解173.5應(yīng)用級容災(zāi)系統(tǒng)費用估算214省工商數(shù)據(jù)級容災(zāi)系統(tǒng)建設(shè)方案224.1方案綜述224.2symantec遠(yuǎn)程鏡像數(shù)據(jù)容災(zāi)原理224.3symantec遠(yuǎn)程鏡像數(shù)據(jù)容災(zāi)系統(tǒng)故
2、障和災(zāi)難的響應(yīng)244.3.1當(dāng)生產(chǎn)中心數(shù)據(jù)系統(tǒng)故障254.3.2災(zāi)備中心數(shù)據(jù)系統(tǒng)故障以及生產(chǎn)中心和災(zāi)備中心san鏈路故障264.3.3故障修復(fù)后的恢復(fù)(遠(yuǎn)程鏡像快速恢復(fù))264.4系統(tǒng)容災(zāi)方案結(jié)構(gòu)和實現(xiàn)274.5應(yīng)用級容災(zāi)系統(tǒng)費用估算275容災(zāi)系統(tǒng)外包285.1我公司的容災(zāi)外包服務(wù)方式285.1.1初級數(shù)據(jù)保護(hù)服務(wù)實現(xiàn)方式305.1.2中級數(shù)據(jù)保護(hù)服務(wù)實現(xiàn)方式315.1.3高級數(shù)據(jù)保護(hù)服務(wù)實現(xiàn)方式325.2我公司的數(shù)據(jù)災(zāi)備專業(yè)服務(wù)模式355.2.1運維及管理的組織機(jī)構(gòu)365.2.2運維及管理的規(guī)范395.2.3應(yīng)急服務(wù)流程405.2.4災(zāi)難演練流程設(shè)計475.2.5日常運行維護(hù)管理策略525.
3、3服務(wù)外包費用估算571 概述隨著省工商業(yè)務(wù)量快速增長,業(yè)務(wù)系統(tǒng)越來越依賴他們的信息技術(shù)服務(wù),信息服務(wù)的可用性對于政府服務(wù)公眾越來越重要。同時,隨著政府信息化的不斷完善,信息服務(wù)管理人員(信息中心)開始意識到,僅有一個可用的it系統(tǒng)遠(yuǎn)遠(yuǎn)無法滿足業(yè)務(wù)的需要,政府機(jī)構(gòu)的信息服務(wù)應(yīng)當(dāng)基于一個高可用的架構(gòu),以確保信息系統(tǒng)具備在相當(dāng)長的一段時間內(nèi)持續(xù)執(zhí)行其功能的能力。尤其是省工商關(guān)鍵業(yè)務(wù)系統(tǒng)停頓時間決對不能超過1分鐘,目標(biāo)是永不宕機(jī),而省工商的業(yè)務(wù)系統(tǒng)作為關(guān)鍵應(yīng)用,業(yè)務(wù)停頓時間不能超過半個小時,目標(biāo)是5分鐘的時間。無論何時何地我們對于it系統(tǒng)的追求都是在降低成本的前提下,it系統(tǒng)宕機(jī)時間越短越好。而目前
4、傳統(tǒng)的架構(gòu)是難以滿足這樣的要求的,從經(jīng)驗判斷:在建設(shè)了政務(wù)信息系統(tǒng)后,管理人員開始發(fā)現(xiàn),盡管在系統(tǒng)建設(shè)的時候,已經(jīng)充分地考慮的服務(wù)器以及存儲設(shè)備的硬件冗余,但信息系統(tǒng)還是經(jīng)常由于種種原因而不得不停止正常的服務(wù)。事實上,it系統(tǒng)的可用性是一種“鏈”,即使最簡單的一個信息服務(wù)系統(tǒng),也是由諸多軟、硬模塊共同組合而成,在“鏈”中的任意一個環(huán)節(jié)的不可用對于用戶而言,其結(jié)果都是一樣的無法使用信息服務(wù)在it建設(shè)階段,用戶通常會將系統(tǒng)可用性的注意力集中在network和server層面上,以構(gòu)建一個穩(wěn)健的硬件架構(gòu);但當(dāng)系統(tǒng)投入使用后,用戶逐漸意識到application/database/os/storage
5、的可用性往往顯得更為重要,企業(yè)信息系統(tǒng)幾乎90%以上的停機(jī)事件是由于系統(tǒng)/存儲/應(yīng)用程序等方面原因造成的。it系統(tǒng)的停機(jī)事件可以基本分為2大類:1計劃內(nèi)停機(jī)維護(hù)2意外事件造成的停機(jī)故障2 信息系統(tǒng)可用性風(fēng)險和技術(shù)分析2.1 計劃內(nèi)停機(jī)維護(hù)對it系統(tǒng)的影響分析和技術(shù)解決方案在it系統(tǒng)運行的過程中,企業(yè)需要周期性地停止it系統(tǒng)的服務(wù),對系統(tǒng)的軟硬件以及存儲進(jìn)行一定的調(diào)整,技術(shù)上我們稱這種停機(jī)事件為計劃內(nèi)停機(jī)維護(hù),它通常包含以下一些內(nèi)容:n 系統(tǒng)的一般性檢查維護(hù),包括:網(wǎng)絡(luò)設(shè)備檢測、主機(jī)硬件設(shè)備自檢、磁盤數(shù)據(jù)校驗、os一般性告警事件檢查,或更換工作不正常的部件,添加部件以改善性能等n 硬件firmw
6、are和主機(jī)系統(tǒng)os的升級,打補(bǔ)丁等需要重啟硬件設(shè)備的操作,或相關(guān)可能對系統(tǒng)造成潛在嚴(yán)重影響,但又必須完成的例行工作(比如某些安全補(bǔ)丁或固件升級會造成系統(tǒng)的崩潰或運行不正常)n 應(yīng)用系統(tǒng)或數(shù)據(jù)庫的軟件升級,通常需要停止相應(yīng)的信息服務(wù)n 存儲系統(tǒng)的調(diào)整,比如添加/替換磁盤,調(diào)整存儲空間,調(diào)整存儲網(wǎng)絡(luò)但隨著企業(yè)業(yè)務(wù)可用性的要求不斷增長,允許系統(tǒng)管理者進(jìn)行停機(jī)維護(hù)的時間越來越短,甚至要求在進(jìn)行上述正常周期性維護(hù)的時候,不能停止信息服務(wù),面對這樣的需求,通常會采用一些高可用技術(shù)方案來滿足:n 采用冗余的,支持熱插拔的硬件設(shè)備,當(dāng)需要進(jìn)行固件升級的時候,將硬件插拔到其他系統(tǒng)進(jìn)行。n 構(gòu)建共享存儲的clu
7、ster群集環(huán)境,包括購買群集軟件,添加冗余的主機(jī)設(shè)備,當(dāng)需要進(jìn)行系統(tǒng)維護(hù)時,將信息服務(wù)系統(tǒng)切換到熱備的主機(jī)上,繼續(xù)提供服務(wù),待系統(tǒng)維護(hù)完成后,再切換回原系統(tǒng)。n 購買專業(yè)的存儲管理軟件,升級磁盤陣列系統(tǒng),構(gòu)建彈性的企業(yè)存儲平臺2.2 意外事件對it系統(tǒng)的影響分析和技術(shù)解決方案信息系統(tǒng)的意外事件其實包含著許多因素:n 人為的錯誤,比如誤操作或誤刪除數(shù)據(jù)造成信息服務(wù)的不可用n os、應(yīng)用程序、硬件設(shè)備的失效或任何一個環(huán)節(jié)發(fā)生改變后所造成的不兼容問題都會導(dǎo)致信息服務(wù)不可用n 由于軟件設(shè)計過程的原因,造成運行一段時間后服務(wù)提供能力出現(xiàn)下降,也會導(dǎo)致信息服務(wù)不可用n 由于軟件設(shè)計原因,導(dǎo)致當(dāng)出現(xiàn)某種特
8、定事件時,數(shù)據(jù)發(fā)生邏輯上的不一致,將直接導(dǎo)致該應(yīng)用的不可用n 戰(zhàn)爭、自然災(zāi)害、公共設(shè)施等非可抗力原因也會造成信息系統(tǒng)長時間甚至永久的不可用針對上面的意外事件因素,企業(yè)信息管理者需要在2個技術(shù)層面來保障系統(tǒng)可用性:1在存儲上保證應(yīng)用數(shù)據(jù)的可用性,包括:n 通過存儲快照技術(shù)來防范應(yīng)用邏輯錯誤以及人為失誤帶來的數(shù)據(jù)不可用風(fēng)險n 通過存儲鏡像技術(shù)來防范磁盤或磁盤陣列失效帶來的存儲系統(tǒng)不可用風(fēng)險n 通過存儲多路徑技術(shù),防范由于網(wǎng)卡板卡端口故障帶來的存儲系統(tǒng)不可用風(fēng)險n 通過數(shù)據(jù)復(fù)制技術(shù),防范災(zāi)難帶來的數(shù)據(jù)損毀風(fēng)險2在應(yīng)用上保證程序運行的不間斷性,包括:n 采用并行計算技術(shù)提高應(yīng)用程序的可用性級別n 采用
9、ha群集軟件,讓備份系統(tǒng)可以迅速接管不可用的應(yīng)用系統(tǒng)2.3 各種技術(shù)解決方案對企業(yè)信息高可用性的保護(hù)覆蓋范圍綜合上面的分析,我們可以發(fā)現(xiàn),合適的部件冗余,群集技術(shù)和存儲鏡像、快照、復(fù)制技術(shù)是構(gòu)建一個高可用企業(yè)it平臺的必要技術(shù)手段,雖然沒有任何一種單一技術(shù)可以解決企業(yè)信息系統(tǒng)的全部高可用需求,但通過靈活組合這些高可用技術(shù)并形成高可用的解決方案,可以滿足企業(yè)用戶的高可用需求,各種高可用技術(shù)的分析如下表:高可用技術(shù)保護(hù)覆蓋范圍無法防范的停機(jī)因素硬件冗余主機(jī)服務(wù)器失效操作系統(tǒng)失效san 網(wǎng)絡(luò)失效應(yīng)用程序錯誤機(jī)房故障/失效邏輯數(shù)據(jù)不一致raid磁盤故障多磁盤同時故障,陣列故障主機(jī)服務(wù)器失效操作系統(tǒng)失效
10、機(jī)房故障/失效邏輯數(shù)據(jù)不一致存儲快照邏輯數(shù)據(jù)不一致多磁盤同時故障,陣列故障主機(jī)服務(wù)器失效操作系統(tǒng)失效機(jī)房故障/失效群集技術(shù)應(yīng)用程序錯誤 主機(jī)服務(wù)器失效操作系統(tǒng)失效邏輯數(shù)據(jù)不一致存儲失效數(shù)據(jù)復(fù)制/廣域群集機(jī)房故障自然災(zāi)害邏輯數(shù)據(jù)不一致但是,信息系統(tǒng)管理員的挑戰(zhàn)不僅限于發(fā)現(xiàn)這些能提高企業(yè)it可用性的技術(shù),而在于有效利用這些技術(shù),來提高最終信息服務(wù)的可用性,比如:主機(jī)操作系統(tǒng)或應(yīng)用系統(tǒng)需要支持所配置的冗余部件,否則就無法達(dá)到高可用目的;存儲管理軟件需要支持多路徑技術(shù),否則就無法抵御存儲網(wǎng)絡(luò)的意外風(fēng)險,盡管已經(jīng)部署了冗余的網(wǎng)絡(luò)結(jié)構(gòu);群集系統(tǒng)需要支持快照及存儲冗余技術(shù),否則就無法實現(xiàn)應(yīng)用程序的高可用性。
11、這說明只有整合這些高可用的技術(shù),簡化在部署這些高可用組件的過程中,所帶來的額外的復(fù)雜性問題,才能夠在信息服務(wù)的整體高度層面上實現(xiàn)高可用架構(gòu)的規(guī)劃。傳統(tǒng)的it架構(gòu)采用單一服務(wù)器作為應(yīng)用系統(tǒng)的承載平臺,而這樣的架構(gòu)面臨著巨大的挑戰(zhàn),多數(shù)大型企業(yè)已經(jīng)放棄這一架構(gòu),轉(zhuǎn)而采用更為高性能、高安全性、高擴(kuò)展的應(yīng)用及安全承載方案建立集中的數(shù)據(jù)中心以及后臺存儲系統(tǒng),面向應(yīng)用的提供統(tǒng)一的數(shù)字資源共享服務(wù)。在系統(tǒng)建設(shè)中面臨如何實現(xiàn)海量、高性能、安全開放的數(shù)據(jù)存儲、如何保障系統(tǒng)擴(kuò)展性、關(guān)鍵數(shù)據(jù)安全等問題。各應(yīng)用的關(guān)鍵性較強(qiáng),是整體的核心應(yīng)用。應(yīng)用系統(tǒng)的數(shù)據(jù)量將不斷增長,在線訪問人數(shù)也將不斷增加,對于存儲系統(tǒng)的建設(shè),提
12、出了較高要求。因此,核心存儲系統(tǒng)應(yīng)具有高端的處理性、海量存儲、性能與容量在線擴(kuò)容等能力,以支撐業(yè)務(wù)發(fā)展的需求。長期以來,對企業(yè)而言,建立一套可行的容災(zāi)系統(tǒng)相當(dāng)困難,主要是高昂的成本和技術(shù)實現(xiàn)的復(fù)雜度。鑒于此,從可行性而言,必須具有良好的性能價格比。 建立異地容災(zāi)系統(tǒng),即指建立遠(yuǎn)程的數(shù)據(jù)中心,通過配置遠(yuǎn)程容災(zāi)系統(tǒng)將本地數(shù)據(jù)實時進(jìn)行遠(yuǎn)程復(fù)制,同時實現(xiàn)本地系統(tǒng)故障時應(yīng)用系統(tǒng)的遠(yuǎn)程啟動,確保系統(tǒng)的不中斷運行。 建立異地容災(zāi)中心的優(yōu)勢在于: 強(qiáng)大的一級災(zāi)難抗御能力。 有效防止物理設(shè)備損傷產(chǎn)生的災(zāi)難后果。 提供99.9999%的安全機(jī)制。 實時數(shù)據(jù)復(fù)制提供強(qiáng)大的數(shù)據(jù)交換能力。隨著數(shù)據(jù)安全技術(shù)的發(fā)展,clu
13、ster(ha)的技術(shù)越來越成熟,cluster 的部署越來越普及,cluster 技術(shù)確實解決了用戶系統(tǒng)的高可用性問題,為業(yè)務(wù)的良性發(fā)展提供了穩(wěn)定的基石。隨著業(yè)務(wù)的發(fā)展,商業(yè)環(huán)境對服務(wù)供應(yīng)商提出的要求也越來越苛刻,這必將使應(yīng)用系統(tǒng)及其數(shù)據(jù)對高可用性的要求走上一個新的臺階。 一個本地cluster 系統(tǒng)理論上可以提供99.99%以上的系統(tǒng)高可用性,但一旦發(fā)生火災(zāi)、自然災(zāi)害、人為破壞等意外事件,服務(wù)商將如何應(yīng)對呢?如果沒有必要的準(zhǔn)備和應(yīng)對手段,這樣的一次意外對服務(wù)上來說將是災(zāi)難性的。對于it 部門來講,要提高自己的抗災(zāi)能力,其必要的技術(shù)就是建立起一個容災(zāi)系統(tǒng)。 容災(zāi)系統(tǒng)的歸類在另一個方面要由其最
14、終達(dá)到的效果來決定。從其對系統(tǒng)的保護(hù)程度來分,我們可以將容災(zāi)系統(tǒng)分為:數(shù)據(jù)容災(zāi)和應(yīng)用容災(zāi)。 所謂數(shù)據(jù)容災(zāi),就是指建立一個異地的數(shù)據(jù)系統(tǒng),該系統(tǒng)是本地關(guān)鍵應(yīng)用數(shù)據(jù)的一個實時復(fù)制。在本地數(shù)據(jù)及整個應(yīng)用系統(tǒng)出現(xiàn)災(zāi)難時,系統(tǒng)至少在異地保存有一份可用的關(guān)鍵業(yè)務(wù)的數(shù)據(jù)。該數(shù)據(jù)可以是與本地生產(chǎn)數(shù)據(jù)的完全實時復(fù)制,也可以比本地數(shù)據(jù)略微落后,但一定是可用的。 所謂應(yīng)用容災(zāi),是在數(shù)據(jù)容災(zāi)的基礎(chǔ)上,在異地建立一套完整的與本地生產(chǎn)系統(tǒng)相當(dāng)?shù)膫浞輵?yīng)用系統(tǒng)(可以是互為備份)。建立這樣一個系統(tǒng)相對比較復(fù)雜,不僅需要一份可用的數(shù)據(jù)復(fù)制,還要有包括網(wǎng)絡(luò)、主機(jī)、應(yīng)用、甚至ip 等資源,以及各資源之間的良好協(xié)調(diào)。應(yīng)用容災(zāi)應(yīng)該說是真
15、正意義上的容災(zāi)系統(tǒng)。3 省工商應(yīng)用級容災(zāi)系統(tǒng)建設(shè)方案3.1 方案綜述1. 目前省工商已建立了生產(chǎn)節(jié)點的高可用系統(tǒng),生產(chǎn)節(jié)點的2臺數(shù)據(jù)庫服務(wù)器主機(jī)構(gòu)成一個高可用集群,2臺應(yīng)用服務(wù)器構(gòu)成1個高可用集群,通過san連接到高可用磁盤陣列,在提業(yè)務(wù)高可用性同時為應(yīng)用容災(zāi)做好準(zhǔn)備。2. 建立容災(zāi)節(jié)點的高可用系統(tǒng)。新購兩臺服務(wù)器主機(jī)(和生產(chǎn)中心的服務(wù)器為同一品牌)和新購一臺存儲設(shè)備;并建立生產(chǎn)節(jié)點和容災(zāi)節(jié)點之間的以太網(wǎng)鏈路及fc san鏈路。3. 在所有相關(guān)主機(jī)(包括生產(chǎn)節(jié)點的4臺服務(wù)器和容災(zāi)節(jié)點的2臺服務(wù)器)上安裝veritas基礎(chǔ)套件(storage foundation hadr),以完成數(shù)據(jù)容災(zāi)和應(yīng)
16、用容災(zāi)全部功能。4. 將生產(chǎn)節(jié)點主機(jī)的數(shù)據(jù)(邏輯卷),通過適當(dāng)?shù)姆绞剑ㄍ?異步)復(fù)制到容災(zāi)節(jié)點的容災(zāi)主機(jī)上,從而實現(xiàn)數(shù)據(jù)容災(zāi)。5. 生產(chǎn)節(jié)點和容災(zāi)節(jié)點均為高可用集群環(huán)境,通過全局集群管理模塊gco管理生產(chǎn)節(jié)點和容災(zāi)節(jié)點集群的切換;當(dāng)生產(chǎn)節(jié)點發(fā)生災(zāi)難時,整個業(yè)務(wù)集群環(huán)境可以切換到容災(zāi)節(jié)點,從而實現(xiàn)應(yīng)用容災(zāi)。3.2 容災(zāi)方案的功能特點說為便于描述,按照系統(tǒng)可能出現(xiàn)的各種故障和潛在風(fēng)險,說明本方案對各種情況下的數(shù)據(jù)保護(hù)措施:1 生產(chǎn)中心的物理故障:生產(chǎn)中心為無單點故障的系統(tǒng),所以能夠從容應(yīng)對各種可能性的物理故障。服務(wù)器故障:1臺數(shù)據(jù)服務(wù)器故障,1臺應(yīng)用服務(wù)器故障,網(wǎng)絡(luò)通信故障,均能快速切換到本地的
17、備用服務(wù)器上,保持系統(tǒng)正常運行。光纖交換機(jī)故障:這里采用兩臺光纖交換機(jī)作雙連接,徹底消除san環(huán)境下的存儲連接的單點故障。磁盤陣列故障:解決磁盤陣列單點故障的方式有兩種,方式一、采用雙陣列,通過veritas的軟件實現(xiàn)跨陣列的數(shù)據(jù)鏡像,(兩臺陣列還可跨越到不同的大樓中,最遠(yuǎn)可達(dá)100公里)任何一臺陣列失效,系統(tǒng)照樣運行;方式二、采用高可用的無單點故障的陣列,該陣列具備雙電源,雙控制卡,雙通路等,磁盤仍然劃成鏡像的數(shù)據(jù)卷,仍然能夠?qū)崿F(xiàn)無單點故障,和方式一實現(xiàn)的效果相同,但缺點是鏡像的數(shù)據(jù)盤只能在一個機(jī)柜中,不能放到較遠(yuǎn)的地方。(本方案由于生產(chǎn)中心在一個大樓里,故采用方式二)2 生產(chǎn)中心災(zāi)難生產(chǎn)中
18、心發(fā)生毀滅性的災(zāi)難時,由于數(shù)據(jù)是采用vvr實時復(fù)制到容災(zāi)中心,容災(zāi)中心保留了生產(chǎn)中心的最新的實時數(shù)據(jù)拷貝;同時容災(zāi)中心建立了與生產(chǎn)中心相同的高可用集群環(huán)境,通過gco的控制可立刻啟動容災(zāi)中心的高可用系統(tǒng),接管生產(chǎn)中心的全部應(yīng)用。3.3 容災(zāi)系統(tǒng)的工作原理本章將就該方案的每個細(xì)節(jié)進(jìn)行討論,包括方案的詳細(xì)講解,軟件的實際配置方法等。通過閱讀和理解本章,您將了解veritas容災(zāi)解決方案的實現(xiàn)方法,并清楚地知道veritas容災(zāi)解決方案是切實可行的,并且有相關(guān)的實施案例和實施經(jīng)驗。我們假設(shè)原來就已經(jīng)按照雙機(jī)系統(tǒng)設(shè)計,那么本方案僅需要增加不同地點間的廣域連接,不需要增加其它硬件。軟件方面要用verit
19、as高可用軟件替換原有的ha/cluster軟件,新增volume manager、veritas volume replicator和global cluster manager,該模塊均包含在dr套件中。在介紹功能前,需要強(qiáng)調(diào)的的是:veritas提供的是完整的容災(zāi)解決方案。各個軟件的功能完全集成在一起,建立一個容遠(yuǎn)程數(shù)據(jù)復(fù)制、本地容災(zāi)、遠(yuǎn)程應(yīng)用切換于一體的方案。1 veritas volume manager(簡稱vxvm) 將在物理磁盤上建立多個或一個邏輯卷(volume)。以裸設(shè)備的方式使用卷,或在卷上建立文件系統(tǒng)。將數(shù)據(jù)(特別是需要進(jìn)行遠(yuǎn)程復(fù)制的相關(guān)文件系統(tǒng)、數(shù)據(jù)庫)存放在卷上。由
20、于數(shù)據(jù)復(fù)制是基于卷的,所以,volume 是進(jìn)行復(fù)制的基礎(chǔ)。2 veritas volume replicator(簡稱vvr)負(fù)責(zé)遠(yuǎn)程數(shù)據(jù)復(fù)制。vvr復(fù)制基于volume進(jìn)行。復(fù)制的數(shù)據(jù)可以是數(shù)據(jù)庫中的數(shù)據(jù)(文件方式或裸設(shè)備方式)和文件。復(fù)制的示意圖見圖。1) vvr與vxvm完全集成在一起。用vxvm管理界面和命令統(tǒng)一配置管理;由于vvr僅僅將volume上每次i/o的實際數(shù)據(jù)實時復(fù)制到遠(yuǎn)程節(jié)點,所以在網(wǎng)絡(luò)線路上傳輸?shù)臄?shù)據(jù)量很少,對帶寬的需求也很小。;2) 將各個業(yè)務(wù)系統(tǒng)中需要進(jìn)行遠(yuǎn)程復(fù)制的多個或一個卷定義為一個replicated volume group(簡稱rvg);3) 在site
21、 a定義一條rlink,指向site b;在site b也定義一條指向site a的rlink。rlink是單向的;需要進(jìn)行復(fù)制的兩個系統(tǒng)各定義一個指向?qū)Ψ降膔link;每個rvg定義一個rlink。例如有site a和site b兩套系統(tǒng)同時用site c的系統(tǒng)作為備份。在site a定義一個rvga,包含需要進(jìn)行數(shù)據(jù)復(fù)制的卷;在site b定義一個rvgb,包含需要進(jìn)行數(shù)據(jù)復(fù)制的卷;在site c定義兩個rvg,名為rvga和rvgb,分別作為site a rvga和site b rvgb的備份。然后,在site a定義rlink to_c1,指向site c;在site b定義rlink
22、 to_c2,指向site c;在site c定義兩個rlink,一個to_a,指向site a,另一個to_b,指向site b。 4)storage replicator log(簡稱srl)是vvr中的重要部件。將數(shù)據(jù)復(fù)制各方的某個卷定義為一個srl。需要復(fù)制的數(shù)據(jù)首先要寫入srl,然后傳到異地。vvr通過srl保證數(shù)據(jù)復(fù)制嚴(yán)格按照寫順序進(jìn)行,這在異步工作方式下非常重要。當(dāng)網(wǎng)絡(luò)中斷或異地系統(tǒng)出現(xiàn)故障時,本地數(shù)據(jù)將記錄在srl中,等系統(tǒng)恢復(fù)正常時再將srl中的數(shù)據(jù)按照先進(jìn)先出的順序傳送到異地。當(dāng)srl滿后,vvr將通過data chang map(簡稱dcm)記錄變化過的數(shù)據(jù)塊的塊號。 v
23、vr數(shù)據(jù)流程見: 5)data change map(簡稱dcm)與主節(jié)點的rvg相關(guān),它其中的內(nèi)容是位圖信息,記錄某一時間點后修改過的數(shù)據(jù)塊位置。dcm在正常情況下不使用,在srl滿后記錄變化的數(shù)據(jù)塊的塊號,當(dāng)恢復(fù)正常復(fù)制后,等srl中的數(shù)據(jù)傳送完后,將dcm中記錄的塊傳送到異地。災(zāi)難恢復(fù)后的反向復(fù)制也用到dcm。6)數(shù)據(jù)復(fù)制的工作模式缺省為同步/異步自適應(yīng),即在網(wǎng)絡(luò)延時情況較好、數(shù)據(jù)能夠及時復(fù)制時,工作在同步方式,完全保證兩邊數(shù)據(jù)的一致性;當(dāng)網(wǎng)絡(luò)延時情況較差、數(shù)據(jù)不能及時復(fù)制時,工作在異步方式下,保證主節(jié)點的i/o性能。數(shù)據(jù)復(fù)制根據(jù)實際情況,自行在兩種工作模式之間切換。 如果數(shù)據(jù)復(fù)制的線路
24、帶寬有限,出于保證本地服務(wù)器讀寫性能的考慮,可以將復(fù)制工作模式定義為異步。由于vvr的數(shù)據(jù)復(fù)制嚴(yán)格按照i/o的修改順序進(jìn)行,所以,無論在同步還是異步工作方式下,都能保證數(shù)據(jù)的完整性。對于數(shù)據(jù)庫系統(tǒng),該復(fù)制機(jī)制能夠保證災(zāi)備節(jié)點的數(shù)據(jù)庫在災(zāi)難發(fā)生時正常啟動并提供服務(wù)。7)后備節(jié)點的完全同步,即所謂的”建立基線”。在主節(jié)點往后備節(jié)點正常復(fù)制數(shù)據(jù)前,必須逐塊逐塊地將主節(jié)點中需要復(fù)制的數(shù)據(jù)拷貝到后備節(jié)點,也就是說,將雙方的rvg進(jìn)行同步。 后備節(jié)點的完全同步分為兩種情況,一是復(fù)制時主節(jié)點應(yīng)用不進(jìn)行數(shù)據(jù)更改,二是復(fù)制時主節(jié)點應(yīng)用進(jìn)行數(shù)據(jù)更改。兩種情況下,都可以采用自動同步方式或采用備份和檢查點(check
25、 point)結(jié)合的方法。 自動同步是指通過網(wǎng)絡(luò)將數(shù)據(jù)從主節(jié)點(primary)復(fù)制到備份節(jié)點(secondary)。方法很簡單,只要進(jìn)行一步操作即可完成。自動同步對帶寬要求較高,否則,將無法完成完全同步。自動同步要求rvg中的每個卷都有dcm。 對于網(wǎng)絡(luò)帶寬較小,或者需要完全同步的數(shù)據(jù)量太大時,使用備份與檢查點結(jié)合的方法。在備份開始前,在主節(jié)點設(shè)置檢查點,該檢查點記錄在srl中,然后將數(shù)據(jù)備份到活動硬盤、光盤、磁帶或其它介質(zhì)上。備份完成后,將檢查點取消。將備份的數(shù)據(jù)恢復(fù)到后備節(jié)點上。然后將rlink連接掛上,主節(jié)點srl中記錄的的數(shù)據(jù)傳送到后備節(jié)點,完成后,兩邊數(shù)據(jù)一致,進(jìn)入正常數(shù)據(jù)復(fù)制狀態(tài)
26、。用該方法進(jìn)行數(shù)據(jù)完全同步,要求srl卷大些,等完成后,再將srl卷通過volume manager在線縮小。8) 當(dāng)某些嚴(yán)重意外情況發(fā)生后,后備節(jié)點會變成新的主節(jié)點,稱為角色轉(zhuǎn)換。在災(zāi)難期間,不進(jìn)行數(shù)據(jù)復(fù)制,新的主節(jié)點用dcm記錄變化數(shù)據(jù)位置。9) 當(dāng)原來的主節(jié)點在災(zāi)難后恢復(fù)正常,需要進(jìn)行數(shù)據(jù)反向同步和角色轉(zhuǎn)換。反向同步有兩種情況,一種是在災(zāi)難發(fā)生時刻,原主節(jié)點與災(zāi)備節(jié)點的數(shù)據(jù)是同步的(即無未復(fù)制的數(shù)據(jù));第二種是在災(zāi)難發(fā)生時刻,原主節(jié)點與災(zāi)備節(jié)點的數(shù)據(jù)不是完全同步的(即主節(jié)點有數(shù)據(jù)尚未復(fù)制到災(zāi)備節(jié)點)。第二種情況在反向同步開始時第一步首先要進(jìn)行重置,指將原主節(jié)點srl和dcm中數(shù)據(jù)(這些數(shù)
27、據(jù)在災(zāi)難發(fā)生時尚未來得及傳送)的位置信息修改當(dāng)前主節(jié)點(即原后備節(jié)點)的dcm。然后,將dcm中指向的數(shù)據(jù)全部傳送到原主節(jié)點。而第一種情況的話,直接進(jìn)行第二步工作。傳送完成后,將當(dāng)前主節(jié)點的數(shù)據(jù)庫和應(yīng)用停止,將雙方角色復(fù)原,并在原主節(jié)點提供正常服務(wù)。 10)脫機(jī)處理。通過使用vvr的in-band control(ibc)消息、snapshot、以及volume manager(vxvm)的fastresync(簡稱fr,即快速同步)功能,可以實現(xiàn)數(shù)據(jù)的脫機(jī)處理。 脫機(jī)處理主要指對后備節(jié)點種的數(shù)據(jù)進(jìn)行處理,例如進(jìn)行備份、打印報表、數(shù)據(jù)倉庫處理等。脫機(jī)處理由打破后備節(jié)點的鏡像卷、對鏡像數(shù)據(jù)進(jìn)行處
28、理、重鏡像等幾個過程組成。 11)雙收條(雙重確認(rèn))機(jī)制。指后備節(jié)點對復(fù)制數(shù)據(jù)的接收確認(rèn)有兩個階段。第一個確認(rèn)當(dāng)后備節(jié)點收到數(shù)據(jù)后發(fā)出;第二個確認(rèn)當(dāng)后備節(jié)點數(shù)據(jù)成功寫入硬盤后發(fā)出。當(dāng)主節(jié)點收到第二個確認(rèn)后,將srl中的相應(yīng)數(shù)據(jù)清空。3 veritas cluster server(簡稱vcs)是用于本地容災(zāi)的集群軟件,支持多達(dá)32個節(jié)點的應(yīng)用級切換,保證本地業(yè)務(wù)系統(tǒng)的軟硬件高可用性。vcs以其出色的可靠性和易管理性聞名。vcs的功能特點請見附錄。在本方案中,vcs主要負(fù)責(zé)以下功能:2) vcs負(fù)責(zé)監(jiān)控和管理硬件系統(tǒng)和操作系統(tǒng),當(dāng)出現(xiàn)故障時進(jìn)行切換。3) 通過數(shù)據(jù)庫代理(agent)監(jiān)控和管理數(shù)
29、據(jù)庫系統(tǒng),當(dāng)出現(xiàn)故障時進(jìn)行切換。4) 通過api或腳本編寫針對性客戶化應(yīng)用代理,監(jiān)控和管理應(yīng)用系統(tǒng),當(dāng)出現(xiàn)故障時進(jìn)行切換。5) 通過replicator 代理監(jiān)控和管理數(shù)據(jù)復(fù)制過程,當(dāng)主服務(wù)器數(shù)據(jù)復(fù)制發(fā)生故障時,自動將數(shù)據(jù)復(fù)制工作切換到后備服務(wù)器,保證數(shù)據(jù)復(fù)制過程的連續(xù)性。這點對于容災(zāi)系統(tǒng)非常重要。該代理充分說明veritas提供的是完整的容災(zāi)解決方案。6) 主節(jié)點和備份節(jié)點的vcs集群系統(tǒng)都在global cluster manager的統(tǒng)一監(jiān)控和管理下,從而實現(xiàn)集群系統(tǒng)間的遠(yuǎn)程應(yīng)用切換。gcm在vcs中以兩個服務(wù)組(指gcm master和gcm slave)的形式存在。4 global
30、cluster server(簡稱gcm)可以稱為clusters cluster(集群的集群)。它負(fù)責(zé)對多個不同地點的多達(dá)32個集群系統(tǒng)進(jìn)行監(jiān)控和管理,在發(fā)生嚴(yán)重災(zāi)難時,進(jìn)行site的切換(即應(yīng)用的遠(yuǎn)程切換)。gcm console為web界面,通過瀏覽器管理各個cluster系統(tǒng),并在管理界面中主動控制或響應(yīng)遠(yuǎn)程切換。3.4 容災(zāi)工作過程詳解為方便論述,本節(jié)模擬地點a和b,兩地各有一套建立在vcs雙節(jié)點集群上的業(yè)務(wù)系統(tǒng),以b地點的系統(tǒng)作為a地點的備份。切換示意圖見。1 正常情況下:1) 業(yè)務(wù)系統(tǒng)運行在地點a,包括數(shù)據(jù)庫實例、有關(guān)的文件、數(shù)據(jù)庫數(shù)據(jù)、應(yīng)用軟件。a節(jié)點對外提供服務(wù)。2) a節(jié)點
31、所有的有關(guān)的數(shù)據(jù)通過vvr實時復(fù)制到b節(jié)點。3) 兩地的vcs對的各自節(jié)點內(nèi)的兩臺服務(wù)器的主機(jī)情況、數(shù)據(jù)庫服務(wù)、應(yīng)用軟件進(jìn)行實時監(jiān)控和管理,其中,vcs還對vvr數(shù)據(jù)復(fù)制服務(wù)進(jìn)行監(jiān)控。4) gcm 監(jiān)控兩地cluster系統(tǒng)的運行。2 當(dāng)a地點的主服務(wù)器發(fā)生硬件或軟件故障,導(dǎo)致主服務(wù)器無法提供正常服務(wù):1) vcs進(jìn)行本地切換,將主服務(wù)器的數(shù)據(jù)庫服務(wù)、應(yīng)用軟件、vvr數(shù)據(jù)復(fù)制服務(wù)切換到本地后備節(jié)點。2) 整個系統(tǒng)運行在本地后備節(jié)點,包括vvr數(shù)據(jù)復(fù)制服務(wù),由后備服務(wù)器提供對外服務(wù)和數(shù)據(jù)復(fù)制服務(wù)。3) gcm將監(jiān)控到該切換事件的發(fā)生。4) 如果僅僅是主服務(wù)器數(shù)據(jù)復(fù)制服務(wù)發(fā)生故障,可以不進(jìn)行切換,
32、只需將復(fù)制服務(wù)修復(fù)并正常運行。3 如果a地點的主服務(wù)器恢復(fù)正常,整個系統(tǒng)將重新運行在正常情況下。4 如果在情況二的狀態(tài)下,a地點的后備服務(wù)器也發(fā)生硬件或軟件故障,整個a地點無法正常提供服務(wù):1) gcm 將監(jiān)控到該嚴(yán)重災(zāi)難的發(fā)生,將對接收到的site a down事件進(jìn)行處理:發(fā)出嚴(yán)重告警,并在管理界面上彈出服務(wù)災(zāi)難性切換(及服務(wù)切換到遠(yuǎn)程地點)等待確認(rèn)畫面。2) 在有關(guān)人員確認(rèn)后,在gcm切換等待確認(rèn)畫面上按確認(rèn)按鈕,將進(jìn)行地點間的容災(zāi)切換。3) a地點的業(yè)務(wù)將在b地點正常提供服務(wù)。4) 數(shù)據(jù)復(fù)制暫停。5) site b的vvr將從secondary變成new primary,使用dcm記錄
33、所有變化的數(shù)據(jù)塊。5 如果a、b地點間網(wǎng)絡(luò)發(fā)生故障:1) vvr心跳檢測將發(fā)現(xiàn)該故障,a地點vvr將根據(jù)事先的配置進(jìn)行處理。我們的建議是vvr將網(wǎng)絡(luò)故障期間所有數(shù)據(jù)的更改記錄在srl。2) 如果在一段較長時間內(nèi),網(wǎng)絡(luò)故障無法恢復(fù)。當(dāng)vvr的srl卷接近滿時,vvr將使用dcm,記錄變化的數(shù)據(jù)塊位圖。3) 在網(wǎng)絡(luò)故障發(fā)生后,gcm將探測到,并對network down 事件進(jìn)行處理:向有關(guān)管理員發(fā)出告警。6 如果a、b地點間網(wǎng)絡(luò)在短時間內(nèi)恢復(fù)正常。1) vvr將把a(bǔ)的srl中積累的數(shù)據(jù)傳送到b。2) vvr處于正常工作狀態(tài)。3) gcm處于正常工作狀態(tài)。7 如果a、b地點間網(wǎng)絡(luò)在很長時間內(nèi)仍無法
34、恢復(fù)正常:1) vvr停止遠(yuǎn)程數(shù)據(jù)復(fù)制。2) gcm無法對兩地間的cluster運行進(jìn)行監(jiān)控。8 災(zāi)難復(fù)原。當(dāng)a地點的系統(tǒng)恢復(fù)正常后,需要進(jìn)行整個系統(tǒng)的回遷。數(shù)據(jù)反向復(fù)制時只復(fù)制災(zāi)難期間變化的數(shù)據(jù)而不是所有的數(shù)據(jù),這是本方案優(yōu)勢之一。1) 在災(zāi)難期間,b地點是vvr的new primary,b的dcm記錄所有變化的數(shù)據(jù)塊。2) a系統(tǒng)正常后,vvr重新建立與b節(jié)點的rlink連接,并自動變成pseudo secondary(偽后備節(jié)點)。3) gcm 發(fā)現(xiàn)a、b地點cluster恢復(fù)正常,對它們進(jìn)行正常管理。以下過程將在腳本中自動完成。4) 進(jìn)行反向同步的第一步是將a節(jié)點的pseudo sec
35、ondary狀態(tài)轉(zhuǎn)成secondary狀態(tài)。5) 第二步將進(jìn)行a的srl和dcm的重置(replay),修改b的dcm。因為在a節(jié)點發(fā)生災(zāi)難時,有可能a的srl中有沒來得及進(jìn)行傳送得數(shù)據(jù),甚至dcm中標(biāo)記的數(shù)據(jù)塊沒來得及進(jìn)行傳送。也就是說,a中有一些本地已經(jīng)修改,而b還未修改的數(shù)據(jù)。所以,要保持a、b數(shù)據(jù)的一致性,一定要首先對這些數(shù)據(jù)進(jìn)行處理。處理方法成為重置(replay)。重置將把a(bǔ)節(jié)點srl中數(shù)據(jù)或dcm中標(biāo)記的數(shù)據(jù)位圖信息傳送到b節(jié)點。b節(jié)點將進(jìn)行判斷,根據(jù)數(shù)據(jù)塊是否有新的修改,對dcm進(jìn)行置位。6) 重置完成后,將進(jìn)行數(shù)據(jù)的反向同步,將災(zāi)難期間b節(jié)點變化的數(shù)據(jù)(和需要a節(jié)點重置的數(shù)據(jù)
36、)傳送到a。7) 以上的過程中,b的數(shù)據(jù)庫和應(yīng)用都處于正常運行狀態(tài)。8) 當(dāng)反向同步完成后,數(shù)據(jù)庫和應(yīng)用將停止運行。9) gcm控制進(jìn)行整個系統(tǒng)的反向切換。10) a節(jié)點重新成為vvr的primary,進(jìn)行正常復(fù)制。11) a節(jié)點整個業(yè)務(wù)系統(tǒng)恢復(fù)正常運行。3.5 應(yīng)用級容災(zāi)系統(tǒng)費用估算序號項目描述數(shù)量單價(萬元)合計(萬元)1機(jī)房建設(shè)20平米,機(jī)房裝飾裝修、供配電系統(tǒng)、防雷系統(tǒng)、地線系統(tǒng)、消防火災(zāi)自動報警及滅火系統(tǒng)、綜合布線系統(tǒng)、空調(diào)新風(fēng)及機(jī)房防災(zāi)害處理措施1套40402網(wǎng)絡(luò)設(shè)備一臺三層交換機(jī),一臺路由器1套30303小型機(jī)和中心同一檔次2臺25504光纖交換機(jī)和中心同一檔次2臺10205存儲
37、和中心同一檔次1臺60606集群容災(zāi)軟件實現(xiàn)服務(wù)器應(yīng)用切合和數(shù)據(jù)復(fù)制(vrts storage foundation enterprise ha/dr 5.0 aix)1套65657總計人民幣貳佰陸拾伍元整265備注:以上費用不含光纖線纜架設(shè)或租賃的費用4 省工商數(shù)據(jù)級容災(zāi)系統(tǒng)建設(shè)方案4.1 方案綜述1. 目前省工商已建立了生產(chǎn)節(jié)點的高可用系統(tǒng),生產(chǎn)節(jié)點的2臺數(shù)據(jù)庫服務(wù)器主機(jī)構(gòu)成一個高可用集群,2臺應(yīng)用服務(wù)器構(gòu)成1個高可用集群,通過san連接到高可用磁盤陣列,在提業(yè)務(wù)高可用性同時為應(yīng)用容災(zāi)做好準(zhǔn)備。2. 建立容災(zāi)節(jié)點的高可用系統(tǒng)。新購兩臺光纖交換機(jī)和新購一臺存儲設(shè)備;并建立生產(chǎn)節(jié)點和容災(zāi)節(jié)點之
38、間的fc san鏈路。3. 在生產(chǎn)節(jié)點的4臺服務(wù)器上安裝veritas基礎(chǔ)套件(storage foundation),以完成數(shù)據(jù)容災(zāi)功能。4. 將生產(chǎn)節(jié)點主機(jī)的數(shù)據(jù)(邏輯卷),通過適當(dāng)?shù)姆绞剑ㄍ?異步)復(fù)制到容災(zāi)節(jié)點的容災(zāi)主機(jī)上,從而實現(xiàn)數(shù)據(jù)容災(zāi)。4.2 symantec遠(yuǎn)程鏡像數(shù)據(jù)容災(zāi)原理symantec建議利用veritas storage foundation系列軟件的鏡像技術(shù),來構(gòu)建容災(zāi)方案。利用veritas storage foundation的鏡像技術(shù)構(gòu)建容災(zāi)系統(tǒng)是非常簡單的,它只有一個條件,就是將生產(chǎn)中心和災(zāi)備中心之間的san存儲區(qū)域網(wǎng)絡(luò)通過光纖連接起來,建立城域san存儲
39、網(wǎng)絡(luò)。然后,我們就可以通過storage foundation提供的非常成熟的跨陣列磁盤鏡像技術(shù)來實現(xiàn)同城容災(zāi)了,容災(zāi)方案的結(jié)構(gòu)如下圖所示:從鏡像原理上講,在城域san存儲網(wǎng)絡(luò)上的兩套磁盤系統(tǒng)之間的鏡像,和在一個機(jī)房內(nèi)的san上的兩個磁盤系統(tǒng)之間的鏡像并沒有任何區(qū)別。利用裸光纖將生產(chǎn)中心和災(zāi)備中心的san網(wǎng)絡(luò)連接起來,構(gòu)成城域san網(wǎng)絡(luò)以后,利用 veritas storage foundation的先進(jìn)的邏輯卷管理功能,我們就可以非常方便的實現(xiàn)生產(chǎn)中心磁盤系統(tǒng)和災(zāi)備中心磁盤系統(tǒng)之間的鏡像了。如下圖所示。我們可以看到,利用veritas storage foundation,我們可以創(chuàng)建任意一
40、個邏輯卷(volume)供業(yè)務(wù)主機(jī)使用,實際上是由兩個完全對等的,容量相同的磁盤片構(gòu)成的,兩個磁盤片上的數(shù)據(jù)完全一樣,業(yè)務(wù)主機(jī)對該volume的任意修改,都將同時被寫到位于生產(chǎn)中心和災(zāi)備中心的兩個磁盤系統(tǒng)上。采用這種方式,生產(chǎn)中心的磁盤陣列與同城容災(zāi)中心的磁盤陣列對于兩地的主機(jī)而言是完全同等的。利用城域san存儲網(wǎng)絡(luò)和veritas storage foundation鏡像功能,我們可以非常輕松的實現(xiàn)數(shù)據(jù)系統(tǒng)的異地容災(zāi)。并且消除了復(fù)制技術(shù)(無論是同步還是異步)的切換的動作,從而保證零停機(jī)時間,零數(shù)據(jù)損失的實現(xiàn)。4.3 symantec遠(yuǎn)程鏡像數(shù)據(jù)容災(zāi)系統(tǒng)故障和災(zāi)難的響應(yīng)一個完整的災(zāi)備系統(tǒng),除了
41、在數(shù)據(jù)災(zāi)難發(fā)生時,能夠完成災(zāi)備的使命,需要考慮災(zāi)備系統(tǒng)本身的可維護(hù)性和可操作性,以及對系統(tǒng)盡可能快的恢復(fù)。下面,我們來看一下,數(shù)據(jù)系統(tǒng)故障和災(zāi)難情況下,symantec 的遠(yuǎn)程鏡像容災(zāi)系統(tǒng)是怎樣響應(yīng)的。4.3.1 當(dāng)生產(chǎn)中心數(shù)據(jù)系統(tǒng)故障生產(chǎn)中心數(shù)據(jù)系統(tǒng)故障意味著災(zāi)難,磁盤故障,鏈路故障,或者數(shù)據(jù)系統(tǒng)的計劃內(nèi)停機(jī)時間,也就一切導(dǎo)致主機(jī)無法訪問生產(chǎn)中心數(shù)據(jù)系統(tǒng)的情況。我們來看一下我們推薦的容災(zāi)方案是如何響應(yīng)的,見下圖:當(dāng)生產(chǎn)中心的磁盤系統(tǒng)發(fā)生故障(災(zāi)難)時,由于同城容災(zāi)中心的磁盤是它的鏡像,所以操作系統(tǒng)會自動隔離生產(chǎn)中心的磁盤,轉(zhuǎn)而對容災(zāi)中心的數(shù)據(jù)進(jìn)行訪問。從上圖我們看到,業(yè)務(wù)系統(tǒng)可以通過城域sa
42、n網(wǎng)絡(luò)直接訪問災(zāi)備中心的磁盤系統(tǒng)的數(shù)據(jù),而不需要有任何針對業(yè)務(wù)系統(tǒng)的動作。也就是說,生產(chǎn)中心磁盤系統(tǒng)的災(zāi)難,對業(yè)務(wù)系統(tǒng)是透明的,應(yīng)用和數(shù)據(jù)庫不會因為生產(chǎn)中心磁盤系統(tǒng)的故障而停止;更重要的是,因為應(yīng)用和數(shù)據(jù)庫不會因為災(zāi)難而異常中止,從而避免了發(fā)生數(shù)據(jù)庫損壞(數(shù)據(jù)一致性風(fēng)險)的可能。值得注意的是:整個過程對應(yīng)用完全透明,不需要也不會中斷業(yè)務(wù)系統(tǒng)的正常運行。這是基于磁盤系統(tǒng)間復(fù)制技術(shù)構(gòu)建的容災(zāi)系統(tǒng)無法實現(xiàn)的。4.3.2 災(zāi)備中心數(shù)據(jù)系統(tǒng)故障以及生產(chǎn)中心和災(zāi)備中心san鏈路故障災(zāi)備中心數(shù)據(jù)系統(tǒng)故障,以及生產(chǎn)中心到災(zāi)備中心的鏈路故障,我們都可以把其看成是容災(zāi)部分的故障,其原理和后果與生產(chǎn)中的數(shù)據(jù)系統(tǒng)故障
43、相同。都是導(dǎo)致了鏡像的破壞。而后,系統(tǒng)將自動的只與狀態(tài)健康的磁盤陣列繼續(xù)工作。整個過程對應(yīng)用完全透明。4.3.3 故障修復(fù)后的恢復(fù)(遠(yuǎn)程鏡像快速恢復(fù))磁盤系統(tǒng)故障修復(fù)之后,我們需要盡可能快的將遠(yuǎn)程鏡像系統(tǒng)恢復(fù)起來,以確保容災(zāi)的功能繼續(xù)得以實現(xiàn),同時,在整個鏡像恢復(fù)的過程中,勢必會對應(yīng)用造成影響。因為磁盤數(shù)據(jù)的同步,一定會造成i/o的極度繁忙而導(dǎo)致應(yīng)用性能下降,如果鏡像恢復(fù)無法快速完成,其后果跟系統(tǒng)應(yīng)用停機(jī)也非常接近了。因此,如何快速有效的實現(xiàn)鏡像的重新同步,同樣是一個容災(zāi)方案是否成功的關(guān)鍵因素。傳統(tǒng)的鏡像技術(shù)(如os的鏡像技術(shù)),在鏡像鏈路被中斷以后,中斷的鏡像會被認(rèn)為完全作廢,在鏈路恢復(fù)以后
44、,我們不得不將數(shù)據(jù)完整地從生產(chǎn)中心拷貝一份到容災(zāi)中心。這種方式,對于用戶的的應(yīng)用是無法接受的。鏈路方面的故障如果經(jīng)常發(fā)生,我們就需要不斷的重復(fù)將生產(chǎn)中心的數(shù)據(jù)全部同步到災(zāi)備中心的磁盤系統(tǒng)上,實際上,這種方案不具有可實施性和可維護(hù)性,是不現(xiàn)實的。這也是什么主機(jī)廠商雖然也有類似鏡像功能,但不會用于容災(zāi)的的根本原因。為了解決這個問題,veritas storage foundation提供了dco+fmr技術(shù),其中dco(data change object)是一種針對鏡像的log技術(shù),該技術(shù)允許storage foundation在鏡像鏈路中斷后記錄邏輯卷的數(shù)據(jù)變化情況,以便在鏡像鏈路恢復(fù)后,由f
45、mr實現(xiàn)數(shù)據(jù)的增量恢復(fù)。所謂fmr,其全稱是fast mirror resync,意思就是“鏡像的快速再同步”,fmr是和dco技術(shù)對應(yīng)的鏡像快速恢復(fù)技術(shù),利用veritas storage foundation 的dco和fmr技術(shù),我們現(xiàn)在可以不用再擔(dān)心容災(zāi)系統(tǒng)本身的可維護(hù)性了。利用dco和fmr,我們的應(yīng)對步驟如下:1 一切故障,導(dǎo)致鏡像被破壞。2 生產(chǎn)中心的storage foundation利用 dco日志記錄因業(yè)務(wù)數(shù)據(jù)的變化而變化的數(shù)據(jù)塊。3 一旦故障被修復(fù),storage foundation的fmr功能模塊,會根據(jù) dco日志記錄的情況,將鏈路中斷后更新的業(yè)務(wù)數(shù)據(jù)(變化量)同步
46、到災(zāi)難端實現(xiàn)增量更新。4 鏡像快速同步的過程中,用戶的應(yīng)用始終可以正常工作。整個過程的發(fā)起,只需要執(zhí)行一條命令即刻完成。整個過程的速度,由于只是同步增量,時間遠(yuǎn)遠(yuǎn)小于整個數(shù)據(jù)系統(tǒng)的完全同步。從而大大減小對用戶應(yīng)用的影響,這也是傳統(tǒng)鏡像技術(shù)如os鏡像所以不具備的。4.4 系統(tǒng)容災(zāi)方案結(jié)構(gòu)和實現(xiàn)根據(jù)上面的闡述,我們提出了在san環(huán)境下,基于veritas storage foundation遠(yuǎn)程鏡像的數(shù)據(jù)容災(zāi)方案:1 生產(chǎn)中心與容災(zāi)中心通過裸光纖將兩邊的san 環(huán)境聯(lián)接起來。2 容災(zāi)中心增加一臺磁盤陣列。利用storage foundation 的鏡像技術(shù),建立基于磁盤系統(tǒng)間鏡像的容災(zāi)系統(tǒng)。3 每
47、個使用需要容災(zāi)的數(shù)據(jù)的主機(jī),都需要部署一套storage foundation 系列軟件。4 如果距離較遠(yuǎn),無法直接部署光纖聯(lián)接,可以租用運營商光纖將生產(chǎn)中心和災(zāi)備中心的san網(wǎng)絡(luò)連接起來。常用的技術(shù)有dwdm技術(shù)。5 根據(jù)實際容災(zāi)需求,如果希望實現(xiàn)應(yīng)用級容災(zāi),需要在災(zāi)備中心布置和生產(chǎn)中心處理能力相當(dāng)?shù)挠糜跒?zāi)備的服務(wù)器系統(tǒng)。4.5 應(yīng)用級容災(zāi)系統(tǒng)費用估算序號項目描述數(shù)量單價(萬元)合計(萬元)1機(jī)房建設(shè)20平米,機(jī)房裝飾裝修、供配電系統(tǒng)、防雷系統(tǒng)、地線系統(tǒng)、消防火災(zāi)自動報警及滅火系統(tǒng)、綜合布線系統(tǒng)、空調(diào)新風(fēng)及機(jī)房防災(zāi)害處理措施1套40402光纖交換機(jī)和中心同一檔次2臺10203存儲和中心同一檔
48、次1臺60604容災(zāi)軟件實現(xiàn)數(shù)據(jù)復(fù)制(vrts storage foundation enterprise 5.0 aix)1套35355總計人民幣壹佰伍拾伍元整155備注:以上費用不含光纖線纜架設(shè)或租賃的費用5 容災(zāi)系統(tǒng)外包5.1 我公司的容災(zāi)外包服務(wù)方式為了滿足災(zāi)備業(yè)務(wù)發(fā)展需要和未來的擴(kuò)容要求,將用戶接入采用模塊化設(shè)計,將用戶的數(shù)據(jù)保護(hù)需求分為三個等級,每個等級采用相應(yīng)災(zāi)備等級的接入方式,主要包括備份軟件接入模塊、主機(jī)保護(hù)軟件或集中存儲接入模塊、虛擬化連續(xù)數(shù)據(jù)保護(hù)接入模塊。將客戶接入等級服務(wù)分為初級、中級、高級,分別對應(yīng)于國標(biāo)gb/t 20988-2007信息系統(tǒng)災(zāi)難恢復(fù)規(guī)范規(guī)定的災(zāi)難恢復(fù)
49、能力等級16級。備份軟件接入模塊利用客戶已有的備份軟件或新購備份軟件,為客戶提供基于備份策略的備份方式,備份數(shù)據(jù)保存到統(tǒng)一的虛擬磁帶庫中,然后定期向磁帶庫歸檔;方案適用范圍:1、rpo、rto要求不高,2、災(zāi)備投資相對較少;3、用戶接受備份方式,并認(rèn)可備份方式的等級;集中存儲接入模塊是面向具有中高級數(shù)據(jù)保護(hù)需求的用戶的備份方式,通過將用戶的數(shù)據(jù)集中存儲到高性能的ip san存儲中,利用存儲的遠(yuǎn)程復(fù)制功能將業(yè)務(wù)數(shù)據(jù)復(fù)制到災(zāi)備中心,對整個系統(tǒng)數(shù)據(jù)提供基于時間點的數(shù)據(jù)保護(hù),保障在非常短的時間內(nèi)恢復(fù)數(shù)據(jù)和系統(tǒng);方案適用范圍:1、無集中存儲(san),服務(wù)器采用本地硬盤或者das陣列,需要對本地硬盤進(jìn)行
50、實時保護(hù)。2、投資較少,不做本地備份。虛擬化接入模塊面向各種不同的異構(gòu)系統(tǒng)平臺,將數(shù)據(jù)從異構(gòu)平臺中抽取出來,自適應(yīng)復(fù)制到本地或遠(yuǎn)程災(zāi)備中心,并提供基于時間周期或數(shù)據(jù)增量的數(shù)據(jù)快照保護(hù),保障客戶最小的rto和rpo要求,為客戶提供最高等級的數(shù)據(jù)保護(hù)。方案適用的范圍:1、已采用集中存儲,要求近線存儲可快速的恢復(fù)業(yè)務(wù);2、對數(shù)據(jù)保護(hù)要求較高,不能容忍或者只能容忍極小部分的數(shù)據(jù)丟失;3、對業(yè)務(wù)的實時性要求較高,并希望及時業(yè)務(wù)恢復(fù)。下面將詳細(xì)的對這三種接入方式進(jìn)行闡述:5.1.1 初級數(shù)據(jù)保護(hù)服務(wù)實現(xiàn)方式對于現(xiàn)有信息存儲容量不大,對數(shù)據(jù)信息容災(zāi)要求不高的用戶,可以采用初級數(shù)據(jù)保護(hù)接入方案備份軟件+虛擬磁
51、帶庫+物理磁帶庫的方式進(jìn)行實施,即利用已有或購置的新的備份軟件將數(shù)據(jù)備份到虛擬磁帶庫,進(jìn)而備份到災(zāi)備中心物理磁帶庫方案。虛擬磁帶庫作為主存儲系統(tǒng)與物理磁帶庫之間的高速緩沖,備份軟件不需要增加投資。通過備份軟件把服務(wù)器上的數(shù)據(jù)快速備份到虛擬磁帶庫上,虛擬磁帶庫與物理磁帶庫通過scsi接口或者fc接口進(jìn)行數(shù)據(jù)的導(dǎo)入和導(dǎo)出。數(shù)據(jù)從虛擬磁帶上導(dǎo)到物理磁帶庫以上,定期把物理磁帶庫里的磁帶通過運輸工具搬遷到統(tǒng)一災(zāi)備中心進(jìn)行保存。同時虛擬磁帶庫通過ip網(wǎng)絡(luò)將備份數(shù)據(jù)復(fù)制到容災(zāi)中心的遠(yuǎn)程虛擬磁帶庫上。需要注意的是備份軟件的配置信息要進(jìn)行保存。遠(yuǎn)程備份方案圖1、組網(wǎng)說明通過在災(zāi)備中心部署虛擬磁帶庫,可以直接將用
52、戶的數(shù)據(jù)通過裸光纖備份到災(zāi)備中心,提高備份速度,同時也能將客戶原有的磁帶庫搬運到容災(zāi)中心利用起來,實現(xiàn)遠(yuǎn)程數(shù)據(jù)災(zāi)備?;謴?fù)時可以直接在災(zāi)備中心利用磁帶庫恢復(fù)。2、數(shù)據(jù)備份過程通過備份軟件把集中存儲上的數(shù)據(jù)通過滿足帶寬需求的鏈路快速備份到災(zāi)備中心的虛擬磁帶庫上,虛擬磁帶庫與物理磁帶庫通過scsi接口或者fc接口進(jìn)行數(shù)據(jù)的導(dǎo)入和導(dǎo)出。將客戶的物理磁帶庫搬運到容災(zāi)中心,數(shù)據(jù)從虛擬磁帶上導(dǎo)到物理磁帶庫以上,寫好數(shù)據(jù)的磁帶放到單獨保密柜中保存。另外,需要對備份軟件的相關(guān)配置信息進(jìn)行保存,以免當(dāng)生產(chǎn)中心發(fā)生災(zāi)難時,備份軟件的相關(guān)配置信息也一起丟失。3、數(shù)據(jù)恢復(fù)過程待添加的隱藏文字內(nèi)容2當(dāng)生產(chǎn)中心主存儲發(fā)生故
53、障時,在主存儲恢復(fù)以后,通過備份軟件將遠(yuǎn)程虛擬磁帶庫的數(shù)據(jù)恢復(fù)到主存儲中,物理磁帶庫中磁帶用于恢復(fù)歸檔數(shù)據(jù)。5.1.2 中級數(shù)據(jù)保護(hù)服務(wù)實現(xiàn)方式對于業(yè)務(wù)處理連續(xù)性要求較高,本地?zé)o集中存儲的用戶,數(shù)據(jù)的災(zāi)難備份采用中級數(shù)據(jù)保護(hù)接入方案:集中存儲備份的方式,將數(shù)據(jù)直接集中保存在由本地存儲設(shè)備提供的統(tǒng)一存儲資源上。本地存儲設(shè)備到災(zāi)備中心的備份通過基于ip網(wǎng)絡(luò)的遠(yuǎn)程復(fù)制實現(xiàn)。集中存儲備份圖說明:本地新增存儲設(shè)備作為一個統(tǒng)一的存儲,為多臺主機(jī)提供ip san的集中存儲接入。本地的主機(jī)通過安裝普通網(wǎng)卡及免費的軟件iscsi驅(qū)動程序,或者直接使用硬件iscsi hba卡來連接ix系列存儲設(shè)備。本地存儲設(shè)備與
54、災(zāi)備中心之間通過網(wǎng)絡(luò)建立遠(yuǎn)程復(fù)制連接。兩地數(shù)據(jù)間初始化同步的實現(xiàn)方式有兩種,第一種是在本地使用另一臺存儲設(shè)備,完成所有需要備份主機(jī)的數(shù)據(jù)初始化同步后,再將存儲設(shè)備搬到災(zāi)備中心與本地建立起復(fù)制連接。第二種方法則通過網(wǎng)絡(luò)直接進(jìn)行數(shù)據(jù)同步,不需要進(jìn)行磁盤陣列異地運輸,本期工程擬用裸光纖進(jìn)行連接,因此可以直接利用網(wǎng)絡(luò)進(jìn)行同步。復(fù)制策略可分為變化量觸發(fā)和周期觸發(fā)。在災(zāi)難發(fā)生時,本地和災(zāi)備中心之間上一次數(shù)據(jù)復(fù)制后的新增業(yè)務(wù)數(shù)據(jù)將丟失,無法恢復(fù)。因此策略選擇的適中能使用戶本地和災(zāi)備中心的數(shù)據(jù)盡可能保持一致。5.1.3 高級數(shù)據(jù)保護(hù)服務(wù)實現(xiàn)方式1、方案一對于數(shù)據(jù)量存儲較大,且對應(yīng)用及其數(shù)據(jù)在業(yè)務(wù)連續(xù)性和數(shù)據(jù)重
55、要性上要求都非常高的用戶,采用高級數(shù)據(jù)接入的技術(shù)實現(xiàn)方案即可靠性最高的虛擬化方案進(jìn)行災(zāi)備實施。利用虛擬化引擎對現(xiàn)有存儲虛擬化為統(tǒng)一存儲池,然后通過同步鏡像將現(xiàn)有存儲卷與加密存儲卷同步,利用cdp持續(xù)性數(shù)據(jù)保護(hù)到災(zāi)備中心,虛擬化設(shè)備可以直接將災(zāi)備中心提升為生產(chǎn)存儲。2、方案二卷管理軟件可以在主機(jī)的磁盤和分區(qū)之上建立一個邏輯層,為文件系統(tǒng)屏蔽下層磁盤分區(qū)布局,提供給主機(jī)一個抽象的盤卷,能夠提高磁盤分區(qū)管理的靈活性。有許多廠家可以提供卷管理軟件,比如微軟的卷管理器,veritas的veritas volume manager,hp/ibm的lvm等,這些軟件都具備raid、磁盤鏡象和群集等功能。在卷
56、管理軟件方式備份方案中,通過卷管理軟件將主機(jī)上的數(shù)據(jù)同步鏡像到本地存儲設(shè)備上,然后利用存儲設(shè)備的復(fù)制功能實現(xiàn)基于ip網(wǎng)絡(luò)的遠(yuǎn)程復(fù)制,將數(shù)據(jù)連續(xù)備份到災(zāi)備中心。組網(wǎng)說明:本地備份節(jié)點部署一臺或多臺存儲設(shè)備,并在每臺需要進(jìn)行數(shù)據(jù)備份的主機(jī)上安裝卷管理軟件。主機(jī)的數(shù)據(jù)依然保存在原有磁盤上,原有存儲方式并不作修改。存儲設(shè)備通過ip san的接入方式為主機(jī)提供與原有磁盤相同容量的邏輯磁盤,主機(jī)上的卷管理軟件將這兩個磁盤配置為鏡像關(guān)系,并完成初始同步。新增數(shù)據(jù)量在寫入原有磁盤的同時會同步寫入存儲設(shè)備,因此兩個磁盤上的數(shù)據(jù)內(nèi)容能夠保持完全一致。 本地的存儲設(shè)備與災(zāi)備中心建立遠(yuǎn)程復(fù)制連接,復(fù)制過程以及需要考慮的兩地數(shù)據(jù)卷初始化和帶寬問題,與集中存儲備份模式中考慮的一致。軟硬件配置需求:1、本地配置一臺或多臺存儲產(chǎn)品,并配置遠(yuǎn)程復(fù)制功能;2、每臺需要數(shù)據(jù)復(fù)制的主機(jī)上安裝卷管理軟件;3、本地與災(zāi)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024屆云南省曲靖市陸良縣第八中學(xué)下學(xué)期高三期末監(jiān)測試卷數(shù)學(xué)試題
- 三位數(shù)乘兩位數(shù)課件
- 2024年呼和浩特客運從業(yè)資格證實操考試流程
- 2024年南寧A1客運從業(yè)資格證
- 2024年呼和浩特客運基礎(chǔ)知識及規(guī)章常識
- 打疫苗我不怕課件
- 2024年雞西客運上崗證模擬考試題庫
- 2025屆黑龍江省哈爾濱第三中學(xué)高二上數(shù)學(xué)期末學(xué)業(yè)水平測試模擬試題含解析
- 2024年黑龍江客運證考試模擬題答案
- 2025屆上海市復(fù)旦附中高二數(shù)學(xué)第一學(xué)期期末達(dá)標(biāo)檢測試題含解析
- 全國一等獎人音版六年級音樂上冊《七色光之歌》課件
- 河南省商丘市2023-2024學(xué)年八年級上學(xué)期11月期中考試英語試題
- 人工蘆葦清理施工方案
- 汽車修理店維修管理制度
- 2024年北京市中考數(shù)學(xué)試卷(含答案解析)
- 全國職業(yè)院校技能大賽高職組(商務(wù)數(shù)據(jù)分析賽項)備賽試題庫(含答案)
- 2024年秋新北師大版一年級上冊數(shù)學(xué)教學(xué)課件 4.3 課間
- 木板企業(yè)板材加工廠安全生產(chǎn)雙重預(yù)防機(jī)制方案(2022-2023新標(biāo)準(zhǔn)實施模板)
- 2024-2030年中國免燒磚行業(yè)發(fā)展分析及投資前景預(yù)測研究報告
- 人教精通版(2024)三年級上冊英語Unit2 School Things教學(xué)設(shè)計
- 2024-2030年中國分布式溫度傳感(DTS)行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略分析報告
評論
0/150
提交評論