銀行雙活容災(zāi)建設(shè)方案技術(shù)手冊(cè)_第1頁(yè)
銀行雙活容災(zāi)建設(shè)方案技術(shù)手冊(cè)_第2頁(yè)
銀行雙活容災(zāi)建設(shè)方案技術(shù)手冊(cè)_第3頁(yè)
銀行雙活容災(zāi)建設(shè)方案技術(shù)手冊(cè)_第4頁(yè)
銀行雙活容災(zāi)建設(shè)方案技術(shù)手冊(cè)_第5頁(yè)
已閱讀5頁(yè),還剩66頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 銀行雙活容災(zāi)建設(shè)方案技術(shù)手冊(cè) 本手冊(cè)以銀行同城雙數(shù)據(jù)中心建設(shè)過(guò)程為背景,詳細(xì)從系統(tǒng)架構(gòu)集成、資源云化、存儲(chǔ)整合以及數(shù)據(jù)容災(zāi)等多個(gè)關(guān)鍵方面闡述其規(guī)劃思路以及建設(shè)過(guò)程,旨在為同業(yè)在此類(lèi)項(xiàng)目規(guī)劃和建設(shè)過(guò)程中提供一些啟示和幫助。本手冊(cè)適合銀行從事IT建設(shè)的架構(gòu)師、工程師以及主導(dǎo)核心系統(tǒng)基礎(chǔ)架構(gòu)及應(yīng)用系統(tǒng)建設(shè)或者改造項(xiàng)目的項(xiàng)目經(jīng)理等人群,可以幫助大家對(duì)項(xiàng)目或者技術(shù)選型及定位有一些相對(duì)比較清晰的認(rèn)識(shí),從而指導(dǎo)其相關(guān)的技術(shù)工作。目 錄1. 文檔介紹1.1 目標(biāo)人群1.2 寫(xiě)作目標(biāo)2.分析篇2.1 雙活數(shù)據(jù)中心的驅(qū)動(dòng)力2.2 定義符合自己的雙活模式2.2.1 明確雙活目標(biāo)2.2.2 明確業(yè)務(wù)連續(xù)性要求2.2

2、.3 明確整體容災(zāi)架構(gòu)2.2.4 明確企業(yè)自身科技實(shí)力2.3 實(shí)現(xiàn)雙活需要考慮的關(guān)鍵因素2.3.1 數(shù)據(jù)復(fù)制技術(shù) 數(shù)據(jù)復(fù)制在容災(zāi)中的必要性 評(píng)價(jià)數(shù)據(jù)復(fù)制技術(shù)的維度分析2.3.2 數(shù)據(jù)邏輯錯(cuò)誤同步2.3.3 集群仲裁一致性2.3.4 雙中心之間的通訊2.3.5 應(yīng)用集群跨中心會(huì)話同步3.規(guī)劃篇3.1 應(yīng)用層數(shù)據(jù)復(fù)制架構(gòu)選型規(guī)劃3.1.1 應(yīng)用事務(wù)日志回放技術(shù)3.1.2 基于系統(tǒng)級(jí)邏輯卷鏡像技術(shù)3.2 存儲(chǔ)層數(shù)據(jù)復(fù)制架構(gòu)選型規(guī)劃3.2.1 基于存儲(chǔ)網(wǎng)關(guān)雙寫(xiě)復(fù)制技術(shù)3.2.2 基于存儲(chǔ)底層塊兒復(fù)制技術(shù)3.3 整體架構(gòu)各功能層分解規(guī)劃設(shè)計(jì)3.3.1 雙數(shù)據(jù)中心基礎(chǔ)架構(gòu)設(shè)計(jì)3.3.2 基礎(chǔ)架構(gòu)的橫向視圖

3、分解3.3.3 基礎(chǔ)架構(gòu)的縱向視圖分解3.4 核心系統(tǒng)雙活基礎(chǔ)架構(gòu)規(guī)劃設(shè)計(jì)4.實(shí)施篇4.1 某銀行雙活設(shè)計(jì)案例4.1.1 XX 平臺(tái)雙活數(shù)據(jù)中心建設(shè)需求4.1.2 XX 平臺(tái)數(shù)據(jù)中心設(shè)計(jì)4.1.3 應(yīng)用服務(wù)控制與負(fù)載均衡設(shè)計(jì)4.1.4 數(shù)據(jù)中心安全設(shè)計(jì)4.1.5 數(shù)據(jù)中心運(yùn)維保障體系建設(shè)4.1.6 采購(gòu)需求4.2 某金融企業(yè)雙活設(shè)計(jì)案例4.2.1 項(xiàng)目介紹4.2.2 存儲(chǔ)設(shè)計(jì)實(shí)施4.2.3 SAN 網(wǎng)絡(luò)規(guī)劃4.2.4 數(shù)據(jù)的遷移1. 文檔介紹1.1 目標(biāo)人群本文章適合銀行從事 IT 建設(shè)的架構(gòu)師、工程師以及主導(dǎo)核心系統(tǒng)基礎(chǔ)架構(gòu)及應(yīng)用系統(tǒng)建設(shè)或者改造項(xiàng)目的項(xiàng)目經(jīng)理等人群, 可以幫助大家對(duì)項(xiàng)目或者

4、技術(shù)選型及定位有一些相對(duì)比較清晰的認(rèn)識(shí),從而指導(dǎo)其相關(guān)的技術(shù)工作。1.2 寫(xiě)作目標(biāo)隨著全球 IT 產(chǎn)業(yè)的飛速發(fā)展, 金融行業(yè)的 IT 建設(shè)逐步成為主導(dǎo)金融企業(yè)業(yè)務(wù)發(fā)展的核心驅(qū)動(dòng)力,基于金融行業(yè) IT 系統(tǒng)建設(shè)的各種行業(yè)標(biāo)準(zhǔn)以及監(jiān)管標(biāo)準(zhǔn)也相應(yīng)提高。那么 IT 系統(tǒng)架構(gòu)的擴(kuò)展性、靈活性以及容災(zāi)能力就成為衡量企業(yè) IT 建設(shè)很重要的標(biāo)準(zhǔn)。本文基于銀行同城雙數(shù)據(jù)中心建設(shè)過(guò)程為背景,詳細(xì)從系統(tǒng)架構(gòu)集成、資源云化、存儲(chǔ)整合以及數(shù)據(jù)容災(zāi)等多個(gè)關(guān)鍵方面闡述其規(guī)劃思路以及建設(shè)過(guò)程, 旨在為同業(yè)在此類(lèi)項(xiàng)目規(guī)劃和建設(shè)過(guò)程中提供一些啟示和幫助。2.分析篇2.1 雙活數(shù)據(jù)中心的驅(qū)動(dòng)力近年來(lái),隨著互聯(lián)網(wǎng)金融的快速發(fā)展,金

5、融企業(yè)數(shù)據(jù)中心建設(shè)面臨著新的挑戰(zhàn)。那就是對(duì)RTO和RPO的極限追求。從而也就誕生了近年來(lái)的熱點(diǎn)話題雙活數(shù)據(jù)中心建設(shè)。那么我們?yōu)槭裁匆ㄔO(shè)雙活數(shù)據(jù)中心,它能給我們帶來(lái)什么樣的價(jià)值?什么樣的數(shù)據(jù)中心架構(gòu)叫做雙活數(shù)據(jù)中心?如何認(rèn)識(shí)適合自己業(yè)務(wù)模式的雙活模式?建設(shè)階段我們應(yīng)該以什么樣的原則來(lái)指導(dǎo)我們的建設(shè)工作?具體的建設(shè)思路以及具體的建設(shè)方案應(yīng)該如何把握?基于這些問(wèn)題,本文將進(jìn)行深入研究并展開(kāi)探討。從科技工作層面來(lái)講,其實(shí)雙活數(shù)據(jù)中心并不是一個(gè)行業(yè)標(biāo)準(zhǔn)或者規(guī)范。行業(yè)的標(biāo)準(zhǔn)是對(duì)RTO和RPO約束,銀監(jiān)局和中國(guó)人民銀行對(duì)商業(yè)銀行業(yè)最嚴(yán)格的要求標(biāo)準(zhǔn)是5級(jí)容災(zāi)標(biāo)準(zhǔn),RPO=15分鐘,RTO=30分鐘。而根據(jù)國(guó)

6、際標(biāo)準(zhǔn)share78,六級(jí)容災(zāi)標(biāo)準(zhǔn)是RPO=0,RTO=分鐘級(jí);七級(jí)容災(zāi)標(biāo)準(zhǔn)是RPO=0,RTO近似為0。雙活的概念也就由此而來(lái),為了達(dá)到國(guó)際最高標(biāo)準(zhǔn)。那么決策是否建設(shè)雙活數(shù)據(jù)中心的依據(jù)也就在于此,首先確定自己企業(yè)合適的目標(biāo),是不是要必須追求7級(jí)標(biāo)準(zhǔn)?是不是所有業(yè)務(wù)都必須追求這個(gè)目標(biāo)?如果不是,那么首先要對(duì)企業(yè)業(yè)務(wù)進(jìn)行細(xì)分并詳細(xì)規(guī)劃每一個(gè)業(yè)務(wù)的容災(zāi)目標(biāo)。這將決定要不要建設(shè)雙活數(shù)據(jù)中心以及建設(shè)什么樣的雙活數(shù)據(jù)中心。2.2 定義符合自己的雙活模式2.2.1 明確雙活目標(biāo)其實(shí)對(duì)于雙活數(shù)據(jù)中心的定義,從來(lái)就沒(méi)有一個(gè)標(biāo)準(zhǔn)的定義或者是行業(yè)標(biāo)準(zhǔn)。所有的描述或者所謂的定義暫時(shí)都來(lái)自廠商的描述。按照目前技術(shù)發(fā)展

7、的現(xiàn)狀以及行業(yè)建設(shè)狀況調(diào)查分析,本文認(rèn)為雙活的基礎(chǔ)架構(gòu)基本如下圖所描述:雙活數(shù)據(jù)中心架構(gòu)基礎(chǔ)輪廓雙活模式主要分三種,主要區(qū)別在于途中(A、B、C、D、E、F幾個(gè)位置的技術(shù)架構(gòu)差異),接下來(lái)詳細(xì)探討。1. 數(shù)據(jù)中心級(jí)別的廣義雙活雙活認(rèn)定的標(biāo)準(zhǔn)以數(shù)據(jù)中心工作模式為基準(zhǔn),只要兩個(gè)數(shù)據(jù)中心正常時(shí)都工作,災(zāi)難時(shí)能自動(dòng)切換,那么認(rèn)為是雙活數(shù)據(jù)中心模式。如下圖中的位置參數(shù)表示如下:A = 業(yè)務(wù)定義(讀寫(xiě))B = 業(yè)務(wù)定義(讀寫(xiě))A BE = 數(shù)據(jù)庫(kù)HA模式F = 存儲(chǔ)復(fù)制數(shù)據(jù)中心級(jí)別雙活架構(gòu)注1:數(shù)據(jù)復(fù)制可以選擇存儲(chǔ)的同步復(fù)制也可以選擇數(shù)據(jù)庫(kù)層面的同步復(fù)制。故障切換模型設(shè)計(jì)這種雙活架構(gòu)屬于廣義上的雙活模式,

8、兩個(gè)數(shù)據(jù)心之間除了存儲(chǔ)端的復(fù)制,基本沒(méi)有其他聯(lián)系。其實(shí)這種模式的雙活是傳統(tǒng)主備模式容災(zāi)組合架構(gòu)的簡(jiǎn)單升級(jí)版。唯一區(qū)別的是傳統(tǒng)容災(zāi)模式下的存儲(chǔ)復(fù)制是基于異步單向模式的,而雙活架構(gòu)下的復(fù)制是基于同步雙向模式的。具體架構(gòu)描述如下圖:數(shù)據(jù)中心級(jí)雙活架構(gòu)這種模式下需要的基本關(guān)鍵技術(shù)必備的功能如下所述:域名解析設(shè)備需要實(shí)現(xiàn)動(dòng)態(tài)及全局智能解析,當(dāng)本地應(yīng)用無(wú)法訪問(wèn)時(shí),DNS能跟負(fù)載均衡設(shè)備實(shí)現(xiàn)聯(lián)動(dòng)的健康檢查而偵測(cè)到這一故障。并且按照解析的動(dòng)態(tài)規(guī)則實(shí)現(xiàn)解析變化。負(fù)載均衡設(shè)備需要實(shí)現(xiàn)本地集群化,保證本地負(fù)載均衡功能的高可用性。應(yīng)用最好以虛擬化方式實(shí)現(xiàn),這樣可以平衡資源的嚴(yán)重浪費(fèi)與高可用的冗余部署之間的矛盾。數(shù)據(jù)庫(kù)

9、在兩個(gè)數(shù)據(jù)中心也需要雙份部署,同一個(gè)業(yè)務(wù)部署在兩個(gè)數(shù)據(jù)中心的數(shù)據(jù)庫(kù)節(jié)點(diǎn)之間沒(méi)有任何聯(lián)系,因?yàn)榫W(wǎng)絡(luò)二層沒(méi)有打通,無(wú)法實(shí)現(xiàn)HA。一般來(lái)講需要手動(dòng)切換。當(dāng)然如果不用存儲(chǔ)復(fù)制技術(shù)而是用的ORACLE的ADG技術(shù)或者是DB2的DR技術(shù),那么可以實(shí)現(xiàn)半自動(dòng)化或全自動(dòng)。如果采用的存儲(chǔ)層面的復(fù)制技術(shù),那么必須是同步復(fù)制,必須是雙向復(fù)制。2. 業(yè)務(wù)級(jí)別雙活雙活認(rèn)定的標(biāo)準(zhǔn)以業(yè)務(wù)是否可以在雙中心內(nèi)同時(shí)進(jìn)行為判定標(biāo)準(zhǔn)。只要同類(lèi)業(yè)務(wù)能分布在兩個(gè)數(shù)據(jù)中心執(zhí)行,就認(rèn)為是雙活數(shù)據(jù)中心模式。如下圖中的位置參數(shù)表示如下:A = 業(yè)務(wù)定義B = 業(yè)務(wù)定義A = BD = 跨數(shù)據(jù)中心應(yīng)用集群(區(qū)分優(yōu)先級(jí))E = HAF = HA業(yè)務(wù)

10、級(jí)別雙活架構(gòu)故障切換模型設(shè)計(jì)這種雙活架構(gòu)雖然實(shí)現(xiàn)了同類(lèi)業(yè)務(wù)在前端的負(fù)載分擔(dān),但是在數(shù)據(jù)庫(kù)層面還是屬于單點(diǎn)模式。這種模式比前一種模式最大的技術(shù)變更就是要求網(wǎng)絡(luò)上的二層打通。具體實(shí)現(xiàn)架構(gòu)如下所示:業(yè)務(wù)級(jí)雙活架構(gòu)以上架構(gòu),各個(gè)層面應(yīng)該具備的功能描述如下:雙中心DNS設(shè)備為主備模式,域名全局解析,DNS設(shè)備跟負(fù)載均衡設(shè)備能實(shí)現(xiàn)聯(lián)動(dòng)健康檢查。網(wǎng)絡(luò)層面必須實(shí)現(xiàn)二層聯(lián)通以保證數(shù)據(jù)庫(kù)層面的跨數(shù)據(jù)中心HA以及應(yīng)用服務(wù)器的應(yīng)用大集群。負(fù)載均衡層,如果是兩個(gè)小集群方式,那么不能將其放入大二層,只保證其三層可達(dá)就可以了,否則客戶端無(wú)法實(shí)現(xiàn)請(qǐng)求路由切換;如果是大集群方式,那么可以放入大二層網(wǎng)絡(luò),但是要設(shè)計(jì)好會(huì)話同步問(wèn)題

11、;數(shù)據(jù)庫(kù)在兩個(gè)數(shù)據(jù)中心實(shí)現(xiàn)跨數(shù)據(jù)中心HA部署,主要是以操作系統(tǒng)的HA,將數(shù)據(jù)庫(kù)服務(wù)作為HA的服務(wù)方式來(lái)實(shí)現(xiàn),例如IBM的HyperSwap。存儲(chǔ)層面需要實(shí)現(xiàn)HA以及同步復(fù)制,例如IBM的SVC集群解決方案,NETAPP的MCC解決方案。3. 應(yīng)用級(jí)別的雙活應(yīng)用級(jí)別的雙活,本文將其定義為同一個(gè)應(yīng)用系統(tǒng)的IO可以從兩個(gè)數(shù)據(jù)中心分別訪問(wèn)數(shù)據(jù)庫(kù)節(jié)點(diǎn),當(dāng)然這個(gè)訪問(wèn)又會(huì)分為讀操作和寫(xiě)操作。那么相應(yīng)的這種模式下的雙活又分為兩種:一種是讀寫(xiě)分離的模式;另外一種是混合模式,也就是業(yè)內(nèi)相對(duì)較為徹底的雙活架構(gòu)。如下圖中的位置參數(shù)表示如下:A = 業(yè)務(wù)定義B = 業(yè)務(wù)定義A = BE = 數(shù)據(jù)庫(kù)AA集群模式F = H

12、A/AA業(yè)務(wù)級(jí)別雙活架構(gòu)故障切換模型設(shè)計(jì)這種雙活架構(gòu)雖然實(shí)現(xiàn)了應(yīng)用IO級(jí)別的雙活,是目前金融行業(yè)較為徹底的雙活。具體架構(gòu)如下:應(yīng)用級(jí)雙活架構(gòu)各個(gè)層面應(yīng)該具備的功能與前述架構(gòu)區(qū)別最大的幾個(gè)關(guān)鍵點(diǎn)描述如下:數(shù)據(jù)庫(kù)在兩個(gè)數(shù)據(jù)中心實(shí)現(xiàn)跨數(shù)據(jù)中心集群模式。存儲(chǔ)層可以選擇HA方式也可以選擇EMC提供的VPLEX虛擬化集群方式。2.2.2 明確業(yè)務(wù)連續(xù)性要求一、銀行業(yè)務(wù)連續(xù)性管理的現(xiàn)狀與問(wèn)題近年來(lái)我國(guó)銀行業(yè)業(yè)務(wù)發(fā)展迅猛,大型銀行的資本總額、開(kāi)戶數(shù)量、業(yè)務(wù)處理量已位居世界前列,經(jīng)營(yíng)范圍遍及全國(guó)并在海外快速擴(kuò)張,一旦業(yè)務(wù)停頓,可能影響全行乃至整個(gè)金融體系的正常運(yùn)轉(zhuǎn),并影響社會(huì)穩(wěn)定。因此,數(shù)據(jù)大集中后,銀行業(yè)積極

13、推進(jìn)災(zāi)難恢復(fù)、應(yīng)急管理和IT服務(wù)持續(xù)性管理有關(guān)工作。初步構(gòu)建了信息系統(tǒng)應(yīng)急管理體系。確立了應(yīng)急管理組織架構(gòu),區(qū)分信息系統(tǒng)突發(fā)事件等級(jí),形成統(tǒng)一的應(yīng)急響應(yīng)流程和通知報(bào)告程序。并注重與地方政府、新聞媒體的溝通協(xié)調(diào),加強(qiáng)機(jī)構(gòu)內(nèi)部各職能部門(mén)的協(xié)調(diào)配合,增強(qiáng)了突發(fā)事件的應(yīng)對(duì)處置能力。積極開(kāi)展災(zāi)難備份系統(tǒng)建設(shè)工作。按照“統(tǒng)籌規(guī)劃、資源共享、平戰(zhàn)結(jié)合”的原則,大型和股份制銀行積極推進(jìn)“兩地三中心”的建設(shè),建立了同城和異地災(zāi)備中心,應(yīng)對(duì)建筑類(lèi)故障和區(qū)域性(例如地震、洪災(zāi)、戰(zhàn)爭(zhēng)等)災(zāi)難。大多數(shù)商業(yè)銀行基本建立了核心業(yè)務(wù)的災(zāi)難恢復(fù)系統(tǒng),保障核心業(yè)務(wù)數(shù)據(jù)安全和災(zāi)難發(fā)生時(shí)核心業(yè)務(wù)的恢復(fù)。提升危機(jī)處理能力。積極開(kāi)展應(yīng)急

14、演練和災(zāi)難恢復(fù)演練,加強(qiáng)銀行內(nèi)部各部門(mén),及銀行與通訊、電力等外部機(jī)構(gòu)的聯(lián)防協(xié)作。實(shí)施了包括核心系統(tǒng)在內(nèi)的重要業(yè)務(wù)系統(tǒng)切換演練,提高銀行應(yīng)對(duì)信息系統(tǒng)突發(fā)事件的能力和信心。二、我國(guó)銀行業(yè)在業(yè)務(wù)連續(xù)性管理方面的不足對(duì)業(yè)務(wù)連續(xù)性管理的重要性和價(jià)值認(rèn)識(shí)不足,尚未形成有效的BCM管理體系。部分銀行對(duì)業(yè)務(wù)持續(xù)性管理缺乏必要的理解,認(rèn)為“投入大、收益小”,對(duì)金融服務(wù)持續(xù)性與公眾生活、經(jīng)濟(jì)社會(huì)正常運(yùn)轉(zhuǎn)的緊密關(guān)系缺乏足夠的認(rèn)識(shí),銀行改善BCM管理的動(dòng)力大多來(lái)自國(guó)家或監(jiān)管政策壓力,主觀意愿不足,將業(yè)務(wù)持續(xù)性管理等同于信息系統(tǒng)的災(zāi)難恢復(fù)、日常故障處置的模糊意識(shí)大量存在,參與的多為IT部門(mén)、部分人員,業(yè)務(wù)連續(xù)性計(jì)劃僅作

15、為事件處理的應(yīng)急預(yù)案,未建立起B(yǎng)CM的管理組織體系。應(yīng)急預(yù)案體系不夠完整,業(yè)務(wù)應(yīng)急機(jī)制匱乏,外部應(yīng)急協(xié)調(diào)不足。大多數(shù)銀行沒(méi)有業(yè)務(wù)層面應(yīng)急管理機(jī)制的開(kāi)發(fā)和演練,場(chǎng)地應(yīng)急、人員應(yīng)急等BCM重要環(huán)節(jié)缺乏實(shí)質(zhì)性的建設(shè)。信息系統(tǒng)應(yīng)急預(yù)案流于形式,不少銀行對(duì)業(yè)務(wù)連續(xù)性的認(rèn)識(shí)不足,認(rèn)為業(yè)務(wù)連續(xù)性就是信息系統(tǒng)應(yīng)急恢復(fù),就是科技部門(mén)的責(zé)任,沒(méi)有在全行層面建立整體管理體系,缺乏科技與業(yè)務(wù)、公關(guān)等部門(mén)的聯(lián)動(dòng),缺少業(yè)務(wù)應(yīng)急手段和客戶安撫、媒體公關(guān)等處理措施。業(yè)務(wù)部門(mén)配合不足、業(yè)務(wù)人員參與力度不大、業(yè)務(wù)覆蓋面不全,一旦出現(xiàn)意外,應(yīng)急預(yù)案可能無(wú)法發(fā)揮作用,與外部機(jī)構(gòu)(如政府機(jī)構(gòu)、公共事業(yè)機(jī)構(gòu)、銀行同業(yè)、外部合作金融服務(wù)機(jī)

16、構(gòu)等)的協(xié)作聯(lián)動(dòng)不足。多數(shù)銀行業(yè)務(wù)連續(xù)性演練僅停留在信息科技層面,缺乏涵蓋業(yè)務(wù)、技術(shù)和后勤保障等多方面的全行性演練,導(dǎo)致應(yīng)急和災(zāi)備能力有效性無(wú)法得到驗(yàn)證。業(yè)務(wù)的災(zāi)難恢復(fù)目標(biāo)不明確、信息系統(tǒng)災(zāi)備覆蓋面不夠、災(zāi)備資源的有效性保障不足。缺乏風(fēng)險(xiǎn)評(píng)估和業(yè)務(wù)影響分析,缺乏對(duì)業(yè)務(wù)中斷損失與災(zāi)備建設(shè)投入的成本效益測(cè)算,導(dǎo)致災(zāi)備系統(tǒng)、科技應(yīng)急體系建設(shè)盲目投入、缺乏規(guī)劃,災(zāi)備系統(tǒng)覆蓋不足等問(wèn)題。雖然銀行大多已建立了災(zāi)備中心,但是業(yè)務(wù)分類(lèi)分級(jí)及差異化的業(yè)務(wù)恢復(fù)目標(biāo)還不十分明確,部分銀行災(zāi)備中心只停留在核心賬務(wù)數(shù)據(jù)保護(hù)的層面,一旦發(fā)生災(zāi)難,很難實(shí)現(xiàn)重要交易渠道的恢復(fù)、重要客戶及交易數(shù)據(jù)的恢復(fù)。災(zāi)備切換演練未能真正貼

17、近實(shí)戰(zhàn),災(zāi)備人員配置、系統(tǒng)演練有效性驗(yàn)證等方面存在不足。三、加強(qiáng)銀行業(yè)務(wù)連續(xù)性管理的意義信息科技連續(xù)運(yùn)作的根本目標(biāo)是保障業(yè)務(wù)的持續(xù)性,商業(yè)銀行更應(yīng)從業(yè)務(wù)角度出發(fā),以業(yè)務(wù)持續(xù)為目標(biāo),形成應(yīng)對(duì)突發(fā)事件、災(zāi)害災(zāi)難的各部門(mén)協(xié)同管理體系,加強(qiáng)頂層設(shè)計(jì)。隨著經(jīng)濟(jì)、金融全球化和信息技術(shù)發(fā)展加速,信息科技的廣泛應(yīng)用使得金融機(jī)構(gòu)之間的關(guān)聯(lián)度大大提升,各個(gè)國(guó)家金融機(jī)構(gòu)間的外部依賴度也不斷加強(qiáng),單家機(jī)構(gòu)的故障可能使關(guān)聯(lián)金融機(jī)構(gòu)遭受損失,并且風(fēng)險(xiǎn)擴(kuò)散的速度更快、范圍更大,外部性大大增強(qiáng),因此推動(dòng)和加強(qiáng)銀行業(yè)的業(yè)務(wù)連續(xù)性體系建設(shè),從全行層面進(jìn)行規(guī)劃,進(jìn)一步加強(qiáng)整體業(yè)務(wù)連續(xù)性規(guī)范和深層次機(jī)制建設(shè),實(shí)現(xiàn)對(duì)各種事故和災(zāi)難的有

18、效應(yīng)對(duì),維護(hù)正常的經(jīng)濟(jì)金融運(yùn)行秩序非常迫切。從長(zhǎng)遠(yuǎn)來(lái)看,BCM的價(jià)值并非僅僅是企業(yè)應(yīng)對(duì)災(zāi)難、提高生存能力的工具,在許多發(fā)達(dá)國(guó)家金融行業(yè),BCM已成為改善經(jīng)營(yíng)管理、承擔(dān)社會(huì)責(zé)任的基本準(zhǔn)則,是銀行提高風(fēng)險(xiǎn)預(yù)測(cè)和快速應(yīng)對(duì)能力,適應(yīng)需求變化和威脅,保持競(jìng)爭(zhēng)優(yōu)勢(shì)的重要基礎(chǔ)??梢哉f(shuō),業(yè)務(wù)連續(xù)性管理直接關(guān)系到中國(guó)銀行業(yè)的國(guó)際競(jìng)爭(zhēng)力,對(duì)整個(gè)行業(yè)長(zhǎng)期、可持續(xù)健康發(fā)展具有深遠(yuǎn)的意義。為此,銀監(jiān)會(huì)在充分借鑒新加坡金管局SINGAPORE STANDARD SS 507、英國(guó)BSI PAS 56及一些國(guó)際先進(jìn)銀行的業(yè)務(wù)連續(xù)性管理經(jīng)驗(yàn)基礎(chǔ)上,結(jié)合我國(guó)國(guó)情和商業(yè)銀行實(shí)際情況,編寫(xiě)并正式發(fā)布了商業(yè)銀行業(yè)務(wù)連續(xù)性監(jiān)管指引(下

19、稱指引)。2.2.3 明確整體容災(zāi)架構(gòu)本節(jié)將重點(diǎn)通過(guò)架構(gòu)對(duì)比、功能對(duì)比、實(shí)現(xiàn)復(fù)雜度對(duì)比等方面來(lái)分析三種雙活架構(gòu)的優(yōu)劣勢(shì),以幫助明確企業(yè)自己的整體容災(zāi)架構(gòu)。雙活架構(gòu)對(duì)比2.2.4 明確企業(yè)自身科技實(shí)力為什么要明確銀行自身的科技實(shí)力,因?yàn)榭萍紝?shí)力直接決定企業(yè)對(duì)雙活容災(zāi)體系的建設(shè)水平和掌控能力。在數(shù)據(jù)中心容災(zāi)架構(gòu)建設(shè)之間必須明確以下幾個(gè)問(wèn)題,以對(duì)容災(zāi)建設(shè)起到正確的決策作用:(1)運(yùn)維管理能力(2)應(yīng)急處理能力(3)對(duì)運(yùn)營(yíng)商的掌控能力(4)科技項(xiàng)目質(zhì)量保障能力如果運(yùn)維管理能力和應(yīng)急處理的能力不足的話,那么容災(zāi)架構(gòu)越簡(jiǎn)單越好,復(fù)雜了反而是一種巨大的風(fēng)險(xiǎn);如果對(duì)運(yùn)營(yíng)商的掌控能力不足的話,那么雙數(shù)據(jù)中心之間

20、的復(fù)制技術(shù)選型和具體的數(shù)據(jù)傳輸量和數(shù)據(jù)傳輸類(lèi)型的設(shè)計(jì)就是整個(gè)容災(zāi)架構(gòu)的最關(guān)鍵的地方了,一定需要將鏈路的風(fēng)險(xiǎn)考慮到第一位;如果科技項(xiàng)目質(zhì)量保障能力不足的話,那么在整個(gè)建設(shè)過(guò)程當(dāng)中就很難把握其中的關(guān)鍵架構(gòu)實(shí)施的質(zhì)量,從而也就無(wú)法保障整體架構(gòu)的完整性。2.3 實(shí)現(xiàn)雙活需要考慮的關(guān)鍵因素2.3.1 數(shù)據(jù)復(fù)制技術(shù) 數(shù)據(jù)復(fù)制在容災(zāi)中的必要性1. RPO保障如果沒(méi)有數(shù)據(jù)復(fù)制技術(shù),那么容災(zāi)也就無(wú)從談起。當(dāng)面臨站點(diǎn)及故障時(shí),由于沒(méi)有數(shù)據(jù)復(fù)制技術(shù)的支撐,我們的數(shù)據(jù)無(wú)法在其他站點(diǎn)再現(xiàn),這將意味著RPO將無(wú)法保障。對(duì)于一個(gè)金融企業(yè)來(lái)講,最終要的就是客戶的數(shù)據(jù),它是企業(yè)的生命。從這個(gè)意義上來(lái)講,金融企業(yè)不能沒(méi)有容災(zāi)體系

21、,容災(zāi)體系的前提條件是能夠?qū)崿F(xiàn)數(shù)據(jù)復(fù)制。那么數(shù)據(jù)復(fù)制的效率如何,復(fù)制的效果如何,復(fù)制技術(shù)的先進(jìn)與否也就決定了金融企業(yè)生命線的穩(wěn)固與否。2. RTO保障所謂RTO就是在容災(zāi)系統(tǒng)在面臨站點(diǎn)級(jí)故障時(shí),多長(zhǎng)時(shí)間能夠恢復(fù)業(yè)務(wù)。假設(shè)站點(diǎn)故障恢復(fù)的時(shí)間不可容忍或者根本沒(méi)有可能,那么業(yè)務(wù)必須能夠切到另外一個(gè)數(shù)據(jù)中心,從數(shù)據(jù)、應(yīng)用以及網(wǎng)絡(luò)層都需要具備這個(gè)切換能力。但是最終的目的就是要保障業(yè)務(wù)能正?;謴?fù),而業(yè)務(wù)恢復(fù)的前提條件就是數(shù)據(jù),沒(méi)有數(shù)據(jù)的應(yīng)用切換和網(wǎng)絡(luò)切換沒(méi)有任何意義。也就是說(shuō)數(shù)據(jù)恢復(fù)是應(yīng)用切換以及網(wǎng)絡(luò)切換的前提條件,從這個(gè)意義上講,數(shù)據(jù)復(fù)制效率和效果直接決定了一些列切換,也就是它使得RTO成為可能。 評(píng)價(jià)

22、數(shù)據(jù)復(fù)制技術(shù)的維度分析對(duì)于數(shù)據(jù)復(fù)制來(lái)講,我們可以從多個(gè)層面、多種技術(shù)去實(shí)現(xiàn)。各有各的特點(diǎn),那么究竟哪一種數(shù)據(jù)復(fù)制技術(shù)更適合我們?活著說(shuō)哪一種復(fù)制技術(shù)更科學(xué)合理?這需要一系列從不同緯度進(jìn)行的科學(xué)評(píng)估。本文認(rèn)為應(yīng)該從以下幾個(gè)方面來(lái)展開(kāi)分析,并結(jié)合我們自己的需求來(lái)選擇合理的數(shù)據(jù)復(fù)制方案。一、投資成本分析建設(shè)任何一個(gè)項(xiàng)目,投資成本的分析都是必不可少的分析維度。對(duì)數(shù)據(jù)復(fù)制技術(shù)的投資成本分析來(lái)講,我們需要從它的首次建設(shè)成本、持續(xù)維護(hù)成本以及容災(zāi)管理成本等多方面去考慮。二、技術(shù)成熟度及健壯性分析對(duì)于數(shù)據(jù)復(fù)制技術(shù)的成熟度和健壯性分析來(lái)講,一方面我們要從技術(shù)本身的原理上來(lái)分析,另外我們還需要從技術(shù)的發(fā)展以及應(yīng)用

23、范圍以及應(yīng)用的持久穩(wěn)定性等方面來(lái)考慮。三、風(fēng)險(xiǎn)評(píng)估分析數(shù)據(jù)復(fù)制技術(shù)本身來(lái)講是要幫助我們解決站點(diǎn)級(jí)故障帶給我們的IT風(fēng)險(xiǎn),但是對(duì)于技術(shù)應(yīng)用本身來(lái)講,它也會(huì)存在一些技術(shù)風(fēng)險(xiǎn)。比如說(shuō)特殊場(chǎng)合下的一些技術(shù)風(fēng)險(xiǎn)、容災(zāi)管理過(guò)程中的一些風(fēng)險(xiǎn)、極端場(chǎng)合下的一些技術(shù)風(fēng)險(xiǎn)等等。四、功能拓展性分析對(duì)于數(shù)據(jù)復(fù)制技術(shù)本身來(lái)講,其主要功能就是完成數(shù)據(jù)的復(fù)制。但是在完成數(shù)據(jù)復(fù)制的同時(shí),由于其架構(gòu)的特點(diǎn)以及技術(shù)特點(diǎn)等因素有可能對(duì)于我們的應(yīng)用產(chǎn)生積極的拓展性作用,也有可能限制了我們的應(yīng)用架構(gòu)模式,還有可能對(duì)我們的基礎(chǔ)架構(gòu)擴(kuò)展性以及靈活性造成一定的限制。2.3.2 數(shù)據(jù)邏輯錯(cuò)誤同步存儲(chǔ)層面的復(fù)制技術(shù)基本以存儲(chǔ)塊兒為單位進(jìn)行的數(shù)據(jù)

24、復(fù)制,對(duì)于塊兒內(nèi)數(shù)據(jù)的應(yīng)用層面的邏輯錯(cuò)誤是沒(méi)有完整校驗(yàn)的,它只保證存儲(chǔ)塊兒的可用性,這個(gè)可用性僅僅保障存儲(chǔ)層面的卷可用,并不能完全保證應(yīng)用層面的數(shù)據(jù)可用性。假設(shè)數(shù)據(jù)塊發(fā)生了邏輯錯(cuò)誤,那么存儲(chǔ)是無(wú)法檢測(cè)到的,它會(huì)繼續(xù)將壞的數(shù)據(jù)塊兒同步到災(zāi)備端,如果因此數(shù)據(jù)庫(kù)發(fā)生宕機(jī),那么災(zāi)備端的數(shù)據(jù)庫(kù)也同樣無(wú)法正常啟動(dòng)。對(duì)于這個(gè)問(wèn)題發(fā)生的概率是非常低的,但是畢竟存在這個(gè)風(fēng)險(xiǎn),解決這個(gè)問(wèn)題的方法就是對(duì)于重要數(shù)據(jù)增加數(shù)據(jù)庫(kù)層面的數(shù)據(jù)復(fù)制方案,比如ORACLE的ADG,比如DB2的HADR。當(dāng)然這個(gè)可能會(huì)帶來(lái)一些功能上的重復(fù),因?yàn)闊o(wú)論是存儲(chǔ)復(fù)制還是數(shù)據(jù)庫(kù)復(fù)制,其實(shí)都是數(shù)據(jù)保障的手段。但是存儲(chǔ)的復(fù)制解決的問(wèn)題不僅僅是數(shù)

25、據(jù)庫(kù)層的數(shù)據(jù)保護(hù),所以在基礎(chǔ)架構(gòu)中的角色,他還是不能丟棄的。2.3.3 集群仲裁一致性所謂的仲裁一致性問(wèn)題,是指雙中心之間的VPlex存儲(chǔ)集群和數(shù)據(jù)庫(kù)RAC集群的仲裁結(jié)果是否能保證一致性。VPlex集群是靠仲裁站點(diǎn)分別于兩個(gè)站點(diǎn)之間的網(wǎng)絡(luò)連通性來(lái)判定站點(diǎn)故障。而數(shù)據(jù)庫(kù)集群是通過(guò)以太網(wǎng)心跳和OCR仲裁盤(pán)來(lái)做數(shù)據(jù)庫(kù)仲裁。而數(shù)據(jù)庫(kù)的OCR仲裁盤(pán)是存儲(chǔ)集群提供的分布式共享卷。二者仲裁時(shí)的一致性如何保障是非常重要的一個(gè)問(wèn)題。假設(shè)在發(fā)生站點(diǎn)級(jí)別故障時(shí),數(shù)據(jù)庫(kù)集群首先根據(jù)網(wǎng)絡(luò)故障觸發(fā)仲裁,判定站點(diǎn)A的節(jié)點(diǎn)存活。而存儲(chǔ)隨后再發(fā)生存儲(chǔ)集群的仲裁,這個(gè)時(shí)候如果根據(jù)Witness判定的結(jié)果恰恰仲裁委站點(diǎn)B的節(jié)點(diǎn)存活

26、。那么數(shù)據(jù)庫(kù)集群整體就會(huì)宕掉,這對(duì)于業(yè)務(wù)來(lái)講就是一個(gè)災(zāi)難。在這個(gè)問(wèn)題上,風(fēng)險(xiǎn)發(fā)生的引發(fā)點(diǎn)有兩個(gè):數(shù)據(jù)庫(kù)和集群的仲裁觸發(fā)以及仲裁過(guò)程的時(shí)間順序發(fā)生紊亂;資源被1:1割裂之后的默認(rèn)仲裁策略不一致。也就是說(shuō),只要控制這兩個(gè)引發(fā)點(diǎn),那么這個(gè)問(wèn)題從理論上也就避免了。對(duì)于第一個(gè)引發(fā)點(diǎn)來(lái)講,實(shí)際上存儲(chǔ)集群的默認(rèn)仲裁觸發(fā)時(shí)間會(huì)是15秒左右,而數(shù)據(jù)庫(kù)仲裁觸發(fā)的控制參數(shù)由misscount這個(gè)參數(shù)來(lái)決定,所以只要我們將misscount這個(gè)參數(shù)調(diào)整到45秒之后,也就是說(shuō)理論上絕對(duì)保障存儲(chǔ)集群仲裁在前,而數(shù)據(jù)庫(kù)仲裁在后,那么第一個(gè)引發(fā)點(diǎn)就沒(méi)有了。對(duì)于第二個(gè)引發(fā)點(diǎn)來(lái)講,假設(shè)兩站點(diǎn)節(jié)點(diǎn)資源對(duì)等,仲裁選票同樣對(duì)等的情況下

27、,存儲(chǔ)集群會(huì)有一個(gè)默認(rèn)的Winner策略,同樣在這種情況下數(shù)據(jù)庫(kù)集群也有一個(gè)默認(rèn)仲裁策略:選擇實(shí)例號(hào)小的集群存活。只要我們保證這兩個(gè)策略結(jié)果的一致性,那么第二個(gè)引發(fā)點(diǎn)也就不存在了。2.3.4 雙中心之間的通訊雙中心間的通訊不可控問(wèn)題主要表現(xiàn)為兩個(gè)方面:鏈路穩(wěn)定狀況不可控;IO延時(shí)指標(biāo)不可控。因?yàn)殡p中心之間的鏈路是通過(guò)租用運(yùn)營(yíng)商的裸光纖鏈路實(shí)現(xiàn)的,那么這其中會(huì)經(jīng)歷很多的中繼設(shè)備及節(jié)點(diǎn)。無(wú)論從管理上還是從技術(shù)把控上都是金融企業(yè)自身不可控制的因素。假設(shè)雙中心間鏈路延時(shí)指標(biāo)不穩(wěn)定,也就是說(shuō)數(shù)據(jù)庫(kù)節(jié)點(diǎn)之間私網(wǎng)傳輸?shù)难訒r(shí)會(huì)經(jīng)常出現(xiàn)長(zhǎng)延時(shí)情況,這勢(shì)必導(dǎo)致這種延時(shí)會(huì)加倍放大到數(shù)據(jù)庫(kù)節(jié)點(diǎn)之間的讀寫(xiě)熱點(diǎn)競(jìng)爭(zhēng)上。由

28、于數(shù)據(jù)庫(kù)集群之間的數(shù)據(jù)傳輸量非常大(緩存、鎖、心跳等),在讀寫(xiě)熱點(diǎn)相對(duì)突出的業(yè)務(wù)上,輕則導(dǎo)致數(shù)據(jù)庫(kù)讀寫(xiě)性能災(zāi)難,重則導(dǎo)致數(shù)據(jù)庫(kù)節(jié)點(diǎn)直接處于僵死狀態(tài)。另外,鏈路的不穩(wěn)定會(huì)導(dǎo)致存儲(chǔ)鏈路頻繁切換,甚至?xí)?dǎo)致集群仲裁頻繁發(fā)生,這對(duì)于業(yè)務(wù)連續(xù)性更是一個(gè)災(zāi)難。對(duì)于這個(gè)問(wèn)題來(lái)講,就目前金融行業(yè)的傳統(tǒng)數(shù)據(jù)架構(gòu)來(lái)講,并沒(méi)有一個(gè)十足的解決方案。我們只能通過(guò)以下措施來(lái)減少這種問(wèn)題帶給我們的風(fēng)險(xiǎn)。1)業(yè)務(wù)層面需要進(jìn)行拆分重組:按照IO特點(diǎn)進(jìn)行合理拆分,將讀寫(xiě)業(yè)務(wù)盡量分布于不同節(jié)點(diǎn)上,減少節(jié)點(diǎn)間的鎖競(jìng)爭(zhēng)。按照業(yè)務(wù)將數(shù)據(jù)庫(kù)表進(jìn)行分區(qū),避免在數(shù)據(jù)庫(kù)寫(xiě)上的數(shù)據(jù)熱點(diǎn)塊兒。例如,對(duì)于銀行核心系統(tǒng)來(lái)講,尤其是要將批量業(yè)務(wù)和聯(lián)機(jī)業(yè)務(wù)

29、區(qū)分對(duì)待,批量業(yè)務(wù)的熱點(diǎn)以及數(shù)據(jù)量非常之巨大,所以一定要將批量業(yè)務(wù)的數(shù)據(jù)庫(kù)讀寫(xiě)放在單邊實(shí)現(xiàn)。對(duì)于聯(lián)機(jī)業(yè)務(wù)來(lái)講可以根據(jù)熱點(diǎn)狀況以及鏈路質(zhì)量評(píng)測(cè)結(jié)果可以嘗試實(shí)現(xiàn)雙中心同時(shí)讀寫(xiě),但是本文建議對(duì)于這種重量級(jí)的業(yè)務(wù)還是要從業(yè)務(wù)層盡量實(shí)現(xiàn)應(yīng)用上的讀寫(xiě)分離,或者在應(yīng)用層雙中心部署而在數(shù)據(jù)庫(kù)層將數(shù)據(jù)引到單邊來(lái)做。2)雙中心間通訊的整體控制,具體包括對(duì)通訊帶寬的優(yōu)先級(jí)管理、對(duì)通訊的實(shí)時(shí)監(jiān)控和控制、對(duì)跨中心數(shù)據(jù)傳輸?shù)膰?yán)格策略把控。例如:優(yōu)先保障存儲(chǔ)和數(shù)據(jù)庫(kù)通訊的優(yōu)先級(jí)和帶寬,嚴(yán)格的規(guī)則算法和優(yōu)先級(jí)限定VMOTION、DRS等行為的跨中心隨意性,從LTM負(fù)載分發(fā)上盡可能保障正常情況下縱向IO的單中心效率策略,故障情

30、況下保障跨中心訪問(wèn)的科學(xué)性。DWDM上設(shè)置雙中心間通訊帶寬的邏輯隔離以及實(shí)時(shí)可控。2.3.5 應(yīng)用集群跨中心會(huì)話同步網(wǎng)絡(luò)二層打通的情況下,GTM和LTM的跨數(shù)據(jù)中心集群就成為可能,但是同時(shí)也帶來(lái)一個(gè)問(wèn)題,那就是會(huì)話的跨中心同步問(wèn)題。畢竟跨地域的集群節(jié)點(diǎn)之間會(huì)話同步會(huì)受到距離延時(shí)等多方面影響,而這個(gè)會(huì)話同步又是應(yīng)用負(fù)載集群中很重要的一個(gè)穩(wěn)定性因素。如果LTM或者GTM的節(jié)點(diǎn)之間的會(huì)話不同步,那么最終會(huì)導(dǎo)致應(yīng)用負(fù)載在故障情況下無(wú)法正常切換。對(duì)于這個(gè)問(wèn)題來(lái)講,本案例采用的是中心內(nèi)雙節(jié)點(diǎn)小集群,然后利用GTM解析的全局性來(lái)完成應(yīng)用負(fù)載功能的全局性。假設(shè)單中心內(nèi)LTM集群發(fā)生故障時(shí),我們完全可以利用GT

31、M和LTM的聯(lián)動(dòng)性來(lái)感知到這一故障,而從GTM解析層面將數(shù)據(jù)流引入另外一個(gè)數(shù)據(jù)中心的LTM集群。功能上,這種模式同樣實(shí)現(xiàn)應(yīng)用負(fù)載的全局性,同時(shí)又避免了雙中心LTM節(jié)點(diǎn)會(huì)話不一致的問(wèn)題。3. 規(guī)劃篇3.1 應(yīng)用層數(shù)據(jù)復(fù)制架構(gòu)選型規(guī)劃3.1.1 應(yīng)用事務(wù)日志回放技術(shù)下圖是Oracle數(shù)據(jù)庫(kù)層面的數(shù)據(jù)復(fù)制技術(shù)(ADG)的架構(gòu)原理圖。對(duì)于該架構(gòu)原理圖,本文從其實(shí)現(xiàn)的基本條件、數(shù)據(jù)復(fù)制原理、數(shù)據(jù)復(fù)制的模式以及數(shù)據(jù)復(fù)制的關(guān)鍵因素等幾個(gè)方面來(lái)進(jìn)行深度剖析。Oracle Active Data Guard 前提條件容災(zāi)站點(diǎn)之間需要有三層以太網(wǎng)連通,軟件層面需要數(shù)據(jù)庫(kù)的集群軟件模塊(Oracle Active

32、Data Gurard)或者是db2 purscale hadr。服務(wù)器層面需要至少兩套服務(wù)器系統(tǒng)分別部署于兩個(gè)數(shù)據(jù)中心。存儲(chǔ)層面需要兩套存儲(chǔ)空間分別部署于兩個(gè)站點(diǎn)作為主庫(kù)存儲(chǔ)和備庫(kù)存儲(chǔ),他們互相之間獨(dú)立。 復(fù)制原理對(duì)于主站點(diǎn)的數(shù)據(jù)庫(kù)來(lái)講,客戶端的數(shù)據(jù)更新請(qǐng)求首先要由日志寫(xiě)入進(jìn)程寫(xiě)到重做日志當(dāng)中,然后由數(shù)據(jù)寫(xiě)進(jìn)程再周期性地寫(xiě)入數(shù)據(jù)文件當(dāng)中。重做日志當(dāng)中以SCN為數(shù)據(jù)庫(kù)獨(dú)有的時(shí)間搓序列來(lái)記錄所有數(shù)據(jù)庫(kù)更新的先后順序,從而保障數(shù)據(jù)庫(kù)恢復(fù)能夠按照正確的順序執(zhí)行保障數(shù)據(jù)一致性和完整性。那么對(duì)于配置了Active Data Guard的數(shù)據(jù)庫(kù)讀寫(xiě)的完成在以上所述過(guò)程中,日志寫(xiě)進(jìn)程在本地日志文件寫(xiě)入過(guò)程的

33、同時(shí),日志傳輸進(jìn)程會(huì)將緩存里面的重做日志通過(guò)ADG傳輸給災(zāi)備站點(diǎn)的備庫(kù)實(shí)例,備庫(kù)實(shí)例的日志接收進(jìn)程根據(jù)接受到的重做日志在備庫(kù)上重新執(zhí)行數(shù)據(jù)庫(kù)的更新操作,從而保證主庫(kù)和備庫(kù)的事務(wù)性更新行為一致性,最終保證數(shù)據(jù)的一致。當(dāng)然也有一個(gè)前提條件,那就是在ADG作用之前,必須保證備庫(kù)的數(shù)據(jù)保持與主庫(kù)的某一固定時(shí)間點(diǎn)的完整副本,這需要靠傳統(tǒng)數(shù)據(jù)備份技術(shù)來(lái)實(shí)現(xiàn)備庫(kù)的初始數(shù)據(jù)復(fù)制。因?yàn)槭聞?wù)復(fù)制的本質(zhì)是行為復(fù)制,那么行為作用的初始數(shù)據(jù)副本必須保持一致,才能保證最終兩副本的一致性。對(duì)于事務(wù)日志的復(fù)制技術(shù),本文根據(jù)主庫(kù)IO周期特點(diǎn)可以分為絕對(duì)同步模式、近似同步模式和異步模式三種。絕對(duì)同步模式是指主庫(kù)的一個(gè)完整更新事務(wù)

34、的結(jié)束既要包括主庫(kù)的重做日志落盤(pán)也要包括備庫(kù)的重做日志落盤(pán),也就是說(shuō)備庫(kù)重做日志落盤(pán)之后返回給主庫(kù),主庫(kù)才能執(zhí)行下一個(gè)事務(wù)。近似同步模式是指在傳輸正常情況下保持與絕對(duì)同步模式一樣的模式,在網(wǎng)絡(luò)傳輸超時(shí)的情況下,就會(huì)剝離備庫(kù)重做日志的過(guò)程,只要保證主庫(kù)重做日志落盤(pán)就可以了。異步模式是指主庫(kù)只保證本地重做日志落盤(pán),并不會(huì)等待備庫(kù)重做日志落盤(pán)的返回信號(hào)。在后兩種模式下,當(dāng)主備庫(kù)傳輸管理剝離之后,主庫(kù)會(huì)主動(dòng)通過(guò)以下兩種方式探測(cè)并嘗試重新和備庫(kù)建立聯(lián)系,第一是歸檔日志進(jìn)程會(huì)周期性ping備庫(kù),成功情況下,它會(huì)根據(jù)獲得的備庫(kù)控制文件的記錄的最后歸檔點(diǎn)和自己的歸檔日志決定向備庫(kù)推送哪些歸檔日志。第二是日志發(fā)

35、送進(jìn)程會(huì)在重做日志準(zhǔn)備發(fā)生歸檔的時(shí)刻點(diǎn)主動(dòng)去ping備庫(kù)日志接受進(jìn)程并把剩余的重做條目發(fā)送給備庫(kù)接受進(jìn)程。 關(guān)鍵因素基于事務(wù)日志回放技術(shù)的數(shù)據(jù)復(fù)制架構(gòu),從技術(shù)規(guī)劃上以及運(yùn)維管理層面上有幾個(gè)關(guān)鍵因素需要把握才能將這種數(shù)據(jù)復(fù)制技術(shù)運(yùn)用自如,才能幫我們真正實(shí)現(xiàn)高標(biāo)準(zhǔn)的容災(zāi)體系建設(shè)。重做日志管理策略設(shè)計(jì)我們知道對(duì)于數(shù)據(jù)庫(kù)來(lái)講,我們是靠其在線重做日志和離線重做日志來(lái)進(jìn)行數(shù)據(jù)恢復(fù)的。對(duì)于離線重做日志也就是歸檔日志,我們是需要周期性備份并刪除的,否則離線重做日志就會(huì)無(wú)限占用數(shù)據(jù)庫(kù)有限的存儲(chǔ)資源。那么對(duì)于事務(wù)日志型數(shù)據(jù)復(fù)制架構(gòu)來(lái)講,無(wú)論是主庫(kù)還是備庫(kù),都需要有合理的日志管理策略來(lái)配合才能正常運(yùn)行。策略的規(guī)劃和

36、設(shè)計(jì)需要把握以下幾個(gè)原則:1)完成應(yīng)用的日志要及時(shí)轉(zhuǎn)儲(chǔ),包括主庫(kù)傳輸完畢的歸檔和備庫(kù)應(yīng)用完畢的歸檔日志。2)沒(méi)有完成應(yīng)用的日志必須能夠保留,主庫(kù)沒(méi)有傳輸?shù)絺鋷?kù)的歸檔日志如果被提前轉(zhuǎn)儲(chǔ)會(huì)造成備庫(kù)數(shù)據(jù)丟失,備庫(kù)沒(méi)有被應(yīng)用的日志如果轉(zhuǎn)儲(chǔ),備庫(kù)同樣會(huì)丟失數(shù)據(jù)。3)存儲(chǔ)資源的科學(xué)規(guī)劃,如果主備庫(kù)暫時(shí)中斷,又因?yàn)樵瓌t2導(dǎo)致歸檔日志堆積,那么勢(shì)必造成存儲(chǔ)資源的需求超過(guò)正常時(shí)刻的存儲(chǔ)需求量,如果存儲(chǔ)資源不夠,又會(huì)造成數(shù)據(jù)庫(kù)發(fā)生宕機(jī)事故。以上各個(gè)原則的科學(xué)設(shè)計(jì)既需要依賴于數(shù)據(jù)庫(kù)參數(shù)的合理設(shè)置,又需要依賴于備份工具的轉(zhuǎn)儲(chǔ)策略合理配合,同時(shí)更需要根據(jù)不同的業(yè)務(wù)系統(tǒng)以及負(fù)載特點(diǎn),通過(guò)歷史數(shù)據(jù)評(píng)估以及仿真測(cè)試數(shù)據(jù)來(lái)設(shè)計(jì)

37、合理的數(shù)值并進(jìn)行動(dòng)態(tài)評(píng)估和優(yōu)化。架構(gòu)擴(kuò)展性及靈活性在今天的互聯(lián)網(wǎng)線上時(shí)代,系統(tǒng)架構(gòu)的擴(kuò)展性和靈活性顯得尤為重要。對(duì)于容災(zāi)架構(gòu)來(lái)講,它的擴(kuò)展性和靈活性同樣非常重要。對(duì)于業(yè)務(wù)型的數(shù)據(jù)復(fù)制架構(gòu)來(lái)講,它有兩種基本架構(gòu):級(jí)聯(lián)架構(gòu)和串聯(lián)架構(gòu)。級(jí)聯(lián)架構(gòu)是指一點(diǎn)為主多點(diǎn)為備,串聯(lián)架構(gòu)是指主備模式依次類(lèi)推。級(jí)聯(lián)架構(gòu)更有利于主庫(kù)的多點(diǎn)保障,串聯(lián)架構(gòu)更有利于主庫(kù)的性能保障。具體采用什么樣的架構(gòu)組合,是要根據(jù)主庫(kù)數(shù)據(jù)的具體業(yè)務(wù)需求進(jìn)行合理評(píng)估和設(shè)計(jì)。容災(zāi)切換管理主備庫(kù)的切換,包括兩種類(lèi)型的切換:Fail Over & Switch Over。Fail Over是指故障情況下的強(qiáng)制切換,Switch Over是指計(jì)劃性

38、的切換。無(wú)論是哪種切換首先是要保障備庫(kù)數(shù)據(jù)和主庫(kù)數(shù)據(jù)一致或者可容忍范圍內(nèi)的近似一致。其次當(dāng)數(shù)據(jù)發(fā)生切換時(shí),實(shí)際上主庫(kù)的服務(wù)IP地址就會(huì)轉(zhuǎn)化成備庫(kù)的服務(wù)地址,無(wú)論是通過(guò)域名轉(zhuǎn)換還是通過(guò)應(yīng)用重連的方式都需要保障上層的服務(wù)地址能夠無(wú)縫切換。最后切換之后,原來(lái)的主庫(kù)如果沒(méi)有時(shí)間戳恢復(fù)功能的話,那么原主庫(kù)里面的數(shù)據(jù)就會(huì)變成無(wú)效數(shù)據(jù),需要重新初始化數(shù)據(jù)副本。但是如果保持時(shí)間戳恢復(fù)功能的化,就會(huì)巨大的存儲(chǔ)空間消耗。3.1.2 基于系統(tǒng)級(jí)邏輯卷鏡像技術(shù)下面三張圖都是基于系統(tǒng)級(jí)邏輯卷鏡像技術(shù)實(shí)現(xiàn)的數(shù)據(jù)雙重復(fù)制。圖2-1是基于ORACLE自動(dòng)存儲(chǔ)卷管理技術(shù)實(shí)現(xiàn)的ASM磁盤(pán)卷鏡像復(fù)制技術(shù);圖2-2是基于UNIX存儲(chǔ)

39、卷管理(LVM)實(shí)現(xiàn)的邏輯卷鏡像技術(shù);圖2-3是基于IBM GPFS分布式文件系統(tǒng)底層邏輯磁盤(pán)鏡像實(shí)現(xiàn)的數(shù)據(jù)復(fù)制。三種技術(shù)雖然依賴的具體技術(shù)不同,但是其底層原理都是基于系統(tǒng)層面的雙寫(xiě)實(shí)現(xiàn)的數(shù)據(jù)復(fù)制。圖2-1 ORACLE ASM復(fù)制鏡像架構(gòu)圖2-2 LVM鏡像復(fù)制架構(gòu)圖2-3分布式文件系統(tǒng)GPFS鏡像復(fù)制架構(gòu) 前提條件容災(zāi)站點(diǎn)之間需要SAN環(huán)境聯(lián)通。軟件層面,架構(gòu)一需要具備ORACLE集群軟件當(dāng)中的自動(dòng)存儲(chǔ)卷管理模塊,架構(gòu)二需要借助UNIX操作系統(tǒng)層的邏輯卷管理器,架構(gòu)三需要借助GPFS或者類(lèi)似的分布式文件系統(tǒng)軟件。存儲(chǔ)層面需要兩套存儲(chǔ)空間分別部署于兩個(gè)站點(diǎn)作為主庫(kù)存儲(chǔ)和備庫(kù)存儲(chǔ),他們互相之間

40、獨(dú)立。 復(fù)制原理對(duì)于ASM和LVM模式來(lái)講,都是將底層來(lái)自不同站點(diǎn)的兩個(gè)物理存儲(chǔ)卷作為鏡像對(duì)組合成一個(gè)可用的邏輯存儲(chǔ)卷提供給上層應(yīng)用來(lái)存放數(shù)據(jù),本地物理卷和遠(yuǎn)程物理卷分別是由存儲(chǔ)經(jīng)過(guò)本地SAN環(huán)境以及跨數(shù)據(jù)中心SAN環(huán)境提供給服務(wù)器操作系統(tǒng)層。LVM是對(duì)操作系統(tǒng)的PP寫(xiě)入進(jìn)行實(shí)時(shí)雙向復(fù)制,而ASM是對(duì)Oracle數(shù)據(jù)文件AU寫(xiě)入進(jìn)行實(shí)時(shí)雙向復(fù)制。本地寫(xiě)完并且遠(yuǎn)端寫(xiě)完才能算是一個(gè)完整的寫(xiě)入,假設(shè)遠(yuǎn)端存儲(chǔ)卷寫(xiě)入超時(shí)就會(huì)被標(biāo)為故障或者是離線狀態(tài),當(dāng)遠(yuǎn)端存儲(chǔ)寫(xiě)入恢復(fù)之后,對(duì)于LVM來(lái)講需要重新進(jìn)行手動(dòng)同步實(shí)現(xiàn)鏡像副本完全一致。而對(duì)于ASM來(lái)講,會(huì)有一個(gè)短時(shí)間內(nèi)的日志記錄會(huì)幫助恢復(fù)離線鏡像恢復(fù)數(shù)據(jù),但是

41、如果超過(guò)這個(gè)時(shí)間,同樣需要一個(gè)全新的同步來(lái)保證數(shù)據(jù)的一致性。二者的區(qū)別在于LVM的邏輯卷與物理卷的映射關(guān)系在創(chuàng)建邏輯卷的時(shí)候就已經(jīng)定義好了,所以對(duì)于壞塊兒?jiǎn)栴},LVM無(wú)法完成塊兒指針的動(dòng)態(tài)轉(zhuǎn)移。而ASM是在數(shù)據(jù)寫(xiě)入時(shí)才會(huì)分配具體的AU,完全可以做到通過(guò)指針轉(zhuǎn)移的方式避免壞塊兒導(dǎo)致的數(shù)據(jù)寫(xiě)入失敗問(wèn)題。對(duì)于GPFS模式來(lái)講,它是通過(guò)將底層來(lái)自不同站點(diǎn)的兩個(gè)物理存儲(chǔ)卷歸屬到不同的Failure Group當(dāng)中,然后由這些物理存儲(chǔ)卷經(jīng)過(guò)文件系統(tǒng)格式化形成分布式文件系統(tǒng),提供給上層應(yīng)用以文件的形式寫(xiě)入數(shù)據(jù)。文件本身會(huì)被GPFS文件系統(tǒng)打散形成若干文件碎片,這些碎片在落盤(pán)時(shí)分別落入不同F(xiàn)ailure Gr

42、oup當(dāng)中的物理磁盤(pán),從而保證底層數(shù)據(jù)的雙副本。這種模式與前兩種模式的最大區(qū)別在于它的數(shù)據(jù)落盤(pán)是根據(jù)NSD磁盤(pán)定義的服務(wù)實(shí)例順序來(lái)決定的,正常情況下我們需要定義本站點(diǎn)的服務(wù)節(jié)點(diǎn)為磁盤(pán)的主服務(wù)節(jié)點(diǎn),這樣的話兩個(gè)鏡像寫(xiě)入的時(shí)候是靠GPFS位于不同中心的兩個(gè)服務(wù)實(shí)例節(jié)點(diǎn)分別寫(xiě)入,兩個(gè)服務(wù)實(shí)例之間也需要私有協(xié)議的交互,相當(dāng)于數(shù)據(jù)的雙寫(xiě)多了一個(gè)環(huán)節(jié)。 關(guān)鍵因素基于系統(tǒng)級(jí)邏輯卷鏡像技術(shù)實(shí)現(xiàn)的數(shù)據(jù)復(fù)制,相對(duì)于其他類(lèi)型的數(shù)據(jù)復(fù)制技術(shù)來(lái)講風(fēng)險(xiǎn)性較高,主要表現(xiàn)為以下幾個(gè)方面:性能方面的問(wèn)題對(duì)于LVM和GPFS方式來(lái)講,對(duì)于數(shù)據(jù)庫(kù)的結(jié)構(gòu)化數(shù)據(jù)復(fù)制性能會(huì)有較大損耗。因?yàn)閿?shù)據(jù)庫(kù)的讀寫(xiě)需要經(jīng)過(guò)數(shù)據(jù)庫(kù)本身的存儲(chǔ)映射以及操作

43、系統(tǒng)層的存儲(chǔ)映射之后才能真正寫(xiě)入存儲(chǔ)緩存??v向的路勁很長(zhǎng),性能損耗會(huì)比較大。而ASM本身是將數(shù)據(jù)庫(kù)的映射和系統(tǒng)級(jí)的映射做到了一起,相對(duì)性能損耗會(huì)低很多。所以如果利用這類(lèi)型數(shù)據(jù)復(fù)制技術(shù)的話,數(shù)據(jù)庫(kù)層的存儲(chǔ)塊兒參數(shù)和操作系統(tǒng)層的存儲(chǔ)塊兒參數(shù)設(shè)置要經(jīng)過(guò)一系列優(yōu)化。容錯(cuò)性問(wèn)題如果我們用做本地存儲(chǔ)高可用實(shí)現(xiàn)這種方式的鏡像,那么容錯(cuò)性就不會(huì)有問(wèn)題。因?yàn)閮蓚€(gè)鏡像副本的鏈路指標(biāo)可以認(rèn)為是同質(zhì)的,鏡像之前的IO讀寫(xiě)不會(huì)有差異。但是如果用在容災(zāi)場(chǎng)合下,由于兩個(gè)鏡像副本的鏈路指標(biāo)完全不同,那么就要求系統(tǒng)層能對(duì)正常場(chǎng)合下、故障場(chǎng)合下以及故障恢復(fù)后場(chǎng)合下的讀寫(xiě)差異有很好的容錯(cuò)性。比如說(shuō)故障場(chǎng)合下的IO超時(shí)反饋速度、故障

44、恢復(fù)之后的數(shù)據(jù)再同步問(wèn)題。再有就是關(guān)于應(yīng)用數(shù)據(jù)的容錯(cuò)性,對(duì)于純粹操作系統(tǒng)層面的復(fù)制,完全無(wú)法避免應(yīng)用邏輯錯(cuò)誤。負(fù)擔(dān)過(guò)載問(wèn)題其實(shí)這種技術(shù)在設(shè)計(jì)之初并沒(méi)有過(guò)多考慮過(guò)其在容災(zāi)中的數(shù)據(jù)復(fù)制問(wèn)題,設(shè)計(jì)初衷還是系統(tǒng)層的存儲(chǔ)卷的虛擬化管理。所以其靈活性以及擴(kuò)展性優(yōu)于其在容災(zāi)數(shù)據(jù)復(fù)制中的作用。如果非要把這類(lèi)技術(shù)應(yīng)用到容災(zāi)場(chǎng)合的數(shù)據(jù)復(fù)制當(dāng)中,那么操作系統(tǒng)層一方面要完成應(yīng)用功能載體作用,另外一方面要完成本地存儲(chǔ)卷虛擬化作用,還要一個(gè)重量級(jí)的容災(zāi)數(shù)據(jù)復(fù)制作用。這種負(fù)擔(dān)會(huì)直接影響到其承載的數(shù)據(jù)庫(kù)應(yīng)用。3.2 存儲(chǔ)層數(shù)據(jù)復(fù)制架構(gòu)選型規(guī)劃3.2.1 基于存儲(chǔ)網(wǎng)關(guān)雙寫(xiě)復(fù)制技術(shù)所謂存儲(chǔ)網(wǎng)關(guān)雙寫(xiě)復(fù)制技術(shù),就是在物理存儲(chǔ)層之上增

45、加一層網(wǎng)關(guān)技術(shù)用以實(shí)現(xiàn)存儲(chǔ)底層的虛擬化以及高可用鏡像,并且由存儲(chǔ)網(wǎng)關(guān)來(lái)控制鏡像寫(xiě)入的策略和模式。IBM、EMC、NETAPP等公司都有相應(yīng)技術(shù)的產(chǎn)品方案?;趯?xiě)入原理及策略的不同,又各有區(qū)別。圖3-1、圖3-2、圖3-3分別是IBM SVC Split Cluster、EMC Vplex Stretch Cluster、Netapp Metro Cluster。下面我們就其圖示、從原理上分別進(jìn)行分析和論述。圖3-1 IBM SVC Split Cluster圖3-2 EMC Vplex Stretch Cluster圖3-3 NetaApp Metro Cluster 前提條件容災(zāi)站點(diǎn)之間需要

46、SAN環(huán)境聯(lián)通,TCP/IP實(shí)現(xiàn)三層可達(dá)。兩個(gè)站點(diǎn)分別要部署各自的存儲(chǔ)集群節(jié)點(diǎn),共同組成存儲(chǔ)網(wǎng)關(guān)集群。假設(shè)要實(shí)現(xiàn)雙中心的自動(dòng)化仲裁及切換,那么第三個(gè)仲裁站點(diǎn)以及站點(diǎn)中承載仲裁軟件的計(jì)算及存儲(chǔ)載體也是必須的。 復(fù)制原理對(duì)于Vplex Stretch Cluster來(lái)講,首先兩個(gè)存儲(chǔ)網(wǎng)關(guān)節(jié)點(diǎn)是一對(duì)類(lèi)似ORACLE RAC模式的AA模式集群節(jié)點(diǎn)。如圖3.3.2-2所示,兩個(gè)節(jié)點(diǎn)都可以接受來(lái)自上層應(yīng)用的讀寫(xiě)請(qǐng)求。假設(shè)來(lái)A和B分別是來(lái)自底層存儲(chǔ)的兩個(gè)物理卷,那么經(jīng)過(guò)Vplex集群化之后,這兩個(gè)物理卷被虛擬化集成為一個(gè)分布式共享卷C,對(duì)于C來(lái)講,兩邊的應(yīng)用節(jié)點(diǎn)都可以看得到,都可以讀寫(xiě),它的底層又是有A和B

47、兩個(gè)物理鏡像組成。兩個(gè)站點(diǎn)在寫(xiě)請(qǐng)求到來(lái)時(shí),首先要完成本地A或B的寫(xiě)入,然后需要把寫(xiě)入請(qǐng)求傳送給另外一個(gè)VPLEX節(jié)點(diǎn)來(lái)完成鏡像盤(pán)B或A的寫(xiě)入。很顯然,兩邊同時(shí)寫(xiě)入就有可能帶來(lái)同一個(gè)數(shù)據(jù)塊兒的訪問(wèn)競(jìng)爭(zhēng),這個(gè)時(shí)候Vplex節(jié)點(diǎn)靠他們共同維護(hù)的分布式一致性緩存目錄來(lái)對(duì)競(jìng)爭(zhēng)數(shù)據(jù)塊兒進(jìn)行加鎖以及釋放等協(xié)同操作,最終完成對(duì)數(shù)據(jù)塊兒的最后更新。當(dāng)發(fā)生鏈路故障而導(dǎo)致一邊節(jié)點(diǎn)無(wú)法寫(xiě)入時(shí),那么節(jié)點(diǎn)會(huì)保存相應(yīng)存儲(chǔ)日志用以故障恢復(fù)之后的數(shù)據(jù)同步。我們可以理解該同步模式類(lèi)似于Oracle的最大可用模式,正常情況下保證鏡像數(shù)據(jù)寫(xiě)入的同步完成,當(dāng)故障時(shí)刻會(huì)有timeout時(shí)間閾值來(lái)決定是否暫時(shí)切斷其中一個(gè)鏡像的讀寫(xiě)。對(duì)于I

48、BM SVC和NETAPP MCC架構(gòu)來(lái)講,它們同樣在存儲(chǔ)網(wǎng)關(guān)節(jié)點(diǎn)上實(shí)現(xiàn)對(duì)底層兩個(gè)物理卷的鏡像綁定,但是這個(gè)卷并不是一個(gè)分布式共享卷的模式,僅僅是一個(gè)實(shí)現(xiàn)了鏡像綁定的虛擬卷,對(duì)于卷的讀寫(xiě)只能以其中一側(cè)節(jié)點(diǎn)為主,另外一側(cè)節(jié)點(diǎn)為備。節(jié)點(diǎn)發(fā)生故障場(chǎng)合下實(shí)現(xiàn)節(jié)點(diǎn)主備切換,它比傳統(tǒng)HA模式的切換先進(jìn)在哪里呢?它的備節(jié)點(diǎn)是要從主節(jié)點(diǎn)上同步緩存的,所以一旦切換發(fā)生,時(shí)間僅僅耗費(fèi)在虛擬卷的Ownership轉(zhuǎn)換上,緩存不需要重新讀入,從切換的時(shí)間上來(lái)講要比傳統(tǒng)HA快很多,從而保障了容災(zāi)的RTO。那么MCC和SVC的區(qū)別在于什么地方呢?對(duì)于SVC的Split Cluster的兩個(gè)節(jié)點(diǎn)來(lái)講,它們是兩個(gè)控制器節(jié)點(diǎn)組

49、成的一個(gè)IO組,這個(gè)IO組意味著故障切換只能發(fā)生在這兩個(gè)控制器節(jié)點(diǎn)之間,而且對(duì)于一個(gè)物理卷來(lái)講只能歸屬于一個(gè)IO組,當(dāng)這個(gè)IO組不可用時(shí),那么這個(gè)卷也就無(wú)法讀寫(xiě)了。對(duì)于MCC來(lái)講,承載虛擬卷讀寫(xiě)的載體是SVM虛擬機(jī),這個(gè)虛擬機(jī)是一個(gè)資源的組合體,可以動(dòng)態(tài)組合網(wǎng)絡(luò)、存儲(chǔ)以及存儲(chǔ)操作系統(tǒng)等資源,所以它能在組成集群的四個(gè)控制器節(jié)點(diǎn)上進(jìn)行動(dòng)態(tài)切換,理論上可以切換到任何一個(gè)控制器節(jié)點(diǎn)上,只不過(guò)其切換本身有一個(gè)故障優(yōu)先級(jí)控制其切換的順序。如圖,SVM可以首先切換到A2節(jié)點(diǎn)上,當(dāng)A2節(jié)點(diǎn)也發(fā)生故障時(shí),可以切換到B1節(jié)點(diǎn)上,當(dāng)B1節(jié)點(diǎn)也發(fā)生故障時(shí)可以切換到B2節(jié)點(diǎn)上。 關(guān)鍵因素基于存儲(chǔ)網(wǎng)關(guān)雙寫(xiě)技術(shù)實(shí)現(xiàn)的容災(zāi)數(shù)

50、據(jù)復(fù)制,可以將數(shù)據(jù)容災(zāi)管理功能從應(yīng)用及系統(tǒng)層剝離,從而對(duì)上層影響相對(duì)很小,而且容災(zāi)針對(duì)性設(shè)計(jì)保障其功能實(shí)現(xiàn)上會(huì)更優(yōu)。但是其實(shí)施的復(fù)雜度相對(duì)較高,而且對(duì)于以上不同架構(gòu)來(lái)講,其所承擔(dān)的風(fēng)險(xiǎn)也是不一樣的,所以在這類(lèi)技術(shù)的應(yīng)用上,我們需要特別關(guān)注以下幾個(gè)方面:一、架構(gòu)復(fù)雜性無(wú)論是以上哪種存儲(chǔ)網(wǎng)關(guān)復(fù)制技術(shù),那么從硬件條件上來(lái)講,存儲(chǔ)這一層需要通過(guò)硬件節(jié)點(diǎn)組成一層統(tǒng)一存儲(chǔ)集群。要想實(shí)現(xiàn)自動(dòng)切換的話,那需要仲裁站點(diǎn)的參與。也就是說(shuō)從存儲(chǔ)這一層來(lái)講,其實(shí)兩個(gè)站點(diǎn)就是一個(gè)系統(tǒng)的整體了,底層的復(fù)雜性就很高了。如果數(shù)據(jù)庫(kù)層、網(wǎng)絡(luò)層以及應(yīng)用層的架構(gòu)再稍微復(fù)雜一些的話,那么整個(gè)容災(zāi)架構(gòu)的復(fù)雜度就會(huì)直線上升。二、架構(gòu)擴(kuò)展

51、性問(wèn)題在這種容災(zāi)架構(gòu)下,其實(shí)存儲(chǔ)層不僅僅是作了一層虛擬化和集群化,更重要的是作了一層存儲(chǔ)的集中化,存儲(chǔ)網(wǎng)關(guān)成為存儲(chǔ)的統(tǒng)一出口。那么存儲(chǔ)網(wǎng)關(guān)集群的橫向拉伸能力制約了整個(gè)存儲(chǔ)系統(tǒng)的可擴(kuò)展能力。當(dāng)我們的業(yè)務(wù)出現(xiàn)快速膨脹的場(chǎng)合下,存儲(chǔ)網(wǎng)關(guān)集群的最大擴(kuò)展能力以及其本身的縱向性能擴(kuò)展性就會(huì)是一個(gè)關(guān)鍵性問(wèn)題,我們必須考慮。3.2.2 基于存儲(chǔ)底層塊兒復(fù)制技術(shù)基于物理存儲(chǔ)層之間的軟件復(fù)制技術(shù)是相對(duì)比較傳統(tǒng)的存儲(chǔ)復(fù)制技術(shù),應(yīng)用的時(shí)間也比較長(zhǎng)。幾乎每一個(gè)存儲(chǔ)廠商都會(huì)有針對(duì)性的解決方案。下圖是基于存儲(chǔ)軟件復(fù)制技術(shù)的基本原理圖。存儲(chǔ)層軟件復(fù)制 前提條件對(duì)于物理存儲(chǔ)底層的塊兒復(fù)制技術(shù)來(lái)講,對(duì)于環(huán)境要求主要是存儲(chǔ)層的要求

52、。容災(zāi)站點(diǎn)之間需要SAN環(huán)境聯(lián)通,兩邊的存儲(chǔ)一般要求型號(hào)一致并且配置有專門(mén)的存儲(chǔ)復(fù)制軟件以及相關(guān)許可。 復(fù)制原理其實(shí)對(duì)于存儲(chǔ)存儲(chǔ)底層的塊兒復(fù)制技術(shù)來(lái)講,它跟上層的應(yīng)用層關(guān)系不大,主要是依靠存儲(chǔ)層兩個(gè)節(jié)點(diǎn)來(lái)完成源到目標(biāo)的復(fù)制。當(dāng)上層應(yīng)用將數(shù)據(jù)寫(xiě)入存儲(chǔ)的時(shí)候,那么由存儲(chǔ)將這一IO請(qǐng)求再以塊兒的方式傳輸?shù)搅硗庖粋€(gè)存儲(chǔ)上,從而保證存儲(chǔ)設(shè)備在塊兒級(jí)別上的一致性副本。對(duì)于同步復(fù)制來(lái)講,需要應(yīng)用端的IO請(qǐng)求等到存儲(chǔ)層的復(fù)制完畢之后才會(huì)正常返回,對(duì)于異步復(fù)制來(lái)講,應(yīng)用IO請(qǐng)求跟底層復(fù)制沒(méi)有任何關(guān)系,不需要等待復(fù)制結(jié)果。對(duì)于這種復(fù)制技術(shù)來(lái)講,兩個(gè)數(shù)據(jù)副本僅僅是數(shù)據(jù)內(nèi)容相同,在上層沒(méi)有任何邏輯捆綁或者是虛擬化,所

53、以上層應(yīng)用也是完全隔離的兩套應(yīng)用,一旦存儲(chǔ)發(fā)生故障,無(wú)論上層應(yīng)用節(jié)點(diǎn)及網(wǎng)絡(luò)節(jié)點(diǎn)是否可用都需要發(fā)生站點(diǎn)級(jí)切換實(shí)現(xiàn)業(yè)務(wù)連續(xù)性,存儲(chǔ)本身不能隔離開(kāi)應(yīng)用發(fā)生切換。 關(guān)鍵因素對(duì)于物理存儲(chǔ)層面的塊兒復(fù)制技術(shù),它剝離了對(duì)上層應(yīng)用的依賴,直接靠存儲(chǔ)來(lái)完成數(shù)據(jù)復(fù)制。好的地方在于它的架構(gòu)相對(duì)簡(jiǎn)單、相關(guān)影響面較小,不好的地方在于它的功能狹窄,功能僅僅在于數(shù)據(jù)的拷貝,對(duì)于上層應(yīng)用的支撐面兒很窄。所以對(duì)于這種復(fù)制技術(shù)的把握需要注意以下幾個(gè)點(diǎn):1. 容災(zāi)的切換管理對(duì)于容災(zāi)的切換管理,我們需要決定好幾個(gè)問(wèn)題:切換的決策問(wèn)題。如果故障集中在存儲(chǔ)層面,而其他層面不受任何影響的場(chǎng)合下,那么是不是一定要執(zhí)行容災(zāi)切換?這需要一個(gè)完善

54、的決策體系來(lái)支撐各種場(chǎng)合下的故障應(yīng)對(duì)。切換的流程以及技術(shù)管理體系建設(shè)。由于這種數(shù)據(jù)復(fù)制技術(shù)對(duì)上層依賴的耦合性非常低,那么單純的存儲(chǔ)切換無(wú)法實(shí)現(xiàn),這就需要從上到下的一系列技術(shù)措施和管理流程來(lái)應(yīng)對(duì)容災(zāi)切換?;厍械牧鞒碳凹夹g(shù)管理體系建設(shè)。同樣當(dāng)故障恢復(fù)之后,我們需要回切的時(shí)候,這個(gè)過(guò)程雖然是個(gè)計(jì)劃內(nèi)的事件,但是可能相對(duì)比容災(zāi)切換更要復(fù)雜、更需要關(guān)注。2. 技術(shù)兼容性基于存儲(chǔ)底層的塊兒復(fù)制技術(shù),其中最重要的軟件依賴就是存儲(chǔ)復(fù)制軟件,但是這個(gè)存儲(chǔ)復(fù)制軟件一般都是基于特定的存儲(chǔ)設(shè)備實(shí)現(xiàn)的,具有廠家或者設(shè)備壁壘。當(dāng)我們的存儲(chǔ)呈現(xiàn)五花八樣的時(shí)候,那么這個(gè)核心的復(fù)制軟件可能也會(huì)呈現(xiàn)五花八門(mén)。對(duì)于存儲(chǔ)的升級(jí)換代或

55、者更換品牌等事件更是有諸多限制。所以我們?cè)趹?yīng)用此類(lèi)技術(shù)的時(shí)候要充分考慮到這一點(diǎn)。3.3 整體架構(gòu)各功能層分解規(guī)劃設(shè)計(jì)3.3.1 雙數(shù)據(jù)中心基礎(chǔ)架構(gòu)設(shè)計(jì)下圖是基于雙數(shù)據(jù)中心以及第三仲裁站點(diǎn)三個(gè)跨地域物理站點(diǎn)設(shè)計(jì)的整體IT基礎(chǔ)架構(gòu)案例(案例僅做分析參考,并非標(biāo)準(zhǔn))。兩個(gè)業(yè)務(wù)站點(diǎn)之間相距30公里,90%的銀行業(yè)務(wù)需要通過(guò)營(yíng)業(yè)網(wǎng)點(diǎn)或者是行內(nèi)外其他渠道分別引入AB兩個(gè)數(shù)據(jù)中心,其容災(zāi)目標(biāo)是業(yè)內(nèi)六級(jí)容災(zāi)目標(biāo),詳細(xì)組成如圖中所描述:雙數(shù)據(jù)中心整體架構(gòu)設(shè)計(jì)3.3.2 基礎(chǔ)架構(gòu)的橫向視圖分解從上圖來(lái)看,基礎(chǔ)架構(gòu)的橫向視圖很簡(jiǎn)單,就是兩個(gè)同等角色的業(yè)務(wù)站點(diǎn),以及第三個(gè)非業(yè)務(wù)仲裁站點(diǎn)組成。AB兩個(gè)站點(diǎn)之間距離為30

56、公里,他們之間通過(guò)運(yùn)營(yíng)商的裸光纖相連,當(dāng)然這里會(huì)有一些中繼設(shè)備以及一些波分設(shè)備,幫我們實(shí)現(xiàn)光傳輸?shù)姆糯蠹訌?qiáng)、邏輯隔離等重要功能。無(wú)負(fù)載情況下雙中心之間的RTT是在1ms左右。雙中心之間通過(guò)OTV設(shè)備對(duì)通訊協(xié)議的轉(zhuǎn)換實(shí)現(xiàn)以太協(xié)議轉(zhuǎn)換,并結(jié)合核心以太交換機(jī)實(shí)現(xiàn)雙中心的網(wǎng)絡(luò)二層、三層的聯(lián)通。雙中心和仲裁站點(diǎn)之間僅僅靠以太三層聯(lián)通來(lái)實(shí)現(xiàn)站點(diǎn)級(jí)故障場(chǎng)合下的仲裁??偠灾瑱M向上雙中心實(shí)現(xiàn)了以太二層以及光纖協(xié)議跨地域聯(lián)通,從而為其他資源共享、數(shù)據(jù)容災(zāi)以及存儲(chǔ)整合的實(shí)現(xiàn)提供了前提條件。3.3.3 基礎(chǔ)架構(gòu)的縱向視圖分解以太網(wǎng)絡(luò)層圖中最上層既為基礎(chǔ)架構(gòu)的網(wǎng)絡(luò)層,這一層當(dāng)中主要設(shè)備為思科的N7K核心交換機(jī)和OT

57、V設(shè)備,N7K交換機(jī)實(shí)現(xiàn)虛擬網(wǎng)絡(luò)交換層,雙中心之間通過(guò)OTV設(shè)備的聯(lián)通實(shí)現(xiàn)光纖傳輸協(xié)議的以太轉(zhuǎn)換最終實(shí)現(xiàn)網(wǎng)層的聯(lián)通(L2&L3)??梢詫?shí)現(xiàn)這一功能的技術(shù)有很多,例如Vxlan技術(shù),我們需要根據(jù)自己的具體需求來(lái)選擇合適的實(shí)現(xiàn)技術(shù)。應(yīng)用負(fù)載層網(wǎng)絡(luò)層的下一層即為應(yīng)用負(fù)載層,這一層既有GTM實(shí)現(xiàn)DNS解析之后向LTM分發(fā)的請(qǐng)求負(fù)載也包括LTM實(shí)現(xiàn)應(yīng)用解析之后向真正應(yīng)用節(jié)點(diǎn)分發(fā)的請(qǐng)求負(fù)載。雖然這一層我們可以實(shí)現(xiàn)跨數(shù)據(jù)中心的LTM或者GTM大集群,但是基于負(fù)載均衡設(shè)備會(huì)話同步問(wèn)題的考慮,我們并沒(méi)有實(shí)現(xiàn)跨數(shù)據(jù)中心大集群。取而代之的是數(shù)據(jù)中心內(nèi)部的雙節(jié)點(diǎn)小集群,然后通過(guò)GTM跨數(shù)據(jù)中心負(fù)載引流來(lái)實(shí)現(xiàn)負(fù)載業(yè)務(wù)的

58、跨數(shù)據(jù)中心模式。從功能上來(lái)講,這兩種模式都能實(shí)現(xiàn)跨數(shù)據(jù)中心負(fù)載均衡。后續(xù)篇幅會(huì)詳細(xì)說(shuō)明其中緣由。虛擬應(yīng)用節(jié)點(diǎn)層應(yīng)用負(fù)載層之下就是真正的應(yīng)用節(jié)點(diǎn)層。這一層主要是各個(gè)應(yīng)用系統(tǒng)的應(yīng)用節(jié)點(diǎn),他們的載體是我們的私有云平臺(tái)。本質(zhì)上來(lái)講,每一個(gè)應(yīng)用節(jié)點(diǎn)都是一個(gè)虛擬化之后的服務(wù)器節(jié)點(diǎn),包括X86架構(gòu)的虛擬化節(jié)點(diǎn)也包括PowerVM虛擬化之后的節(jié)點(diǎn)。就單個(gè)應(yīng)用系統(tǒng)來(lái)講,這一層我們可以靈活擴(kuò)展其橫向?qū)挾葘?shí)現(xiàn)與業(yè)務(wù)負(fù)載的相匹配。數(shù)據(jù)實(shí)例節(jié)點(diǎn)層所謂數(shù)據(jù)實(shí)例節(jié)點(diǎn)層主要功能是實(shí)現(xiàn)數(shù)據(jù)讀寫(xiě)以及數(shù)據(jù)容災(zāi)。這一層主要包括兩個(gè)主要部分,一部分是跨數(shù)據(jù)中心的RAC集群節(jié)點(diǎn),另外一部分是跨數(shù)據(jù)中心的ADG容災(zāi)節(jié)點(diǎn)。RAC集群主要實(shí)現(xiàn)

59、數(shù)據(jù)讀寫(xiě)的跨數(shù)據(jù)中心均衡負(fù)載,當(dāng)然這個(gè)均衡是否絕對(duì)均衡取決于業(yè)務(wù)在數(shù)據(jù)讀寫(xiě)上的熱點(diǎn)爭(zhēng)用的強(qiáng)烈程度,后續(xù)章節(jié)會(huì)詳細(xì)介紹。ADG主要是為了實(shí)現(xiàn)數(shù)據(jù)庫(kù)層面的容災(zāi),為了彌補(bǔ)存儲(chǔ)容災(zāi)以及存儲(chǔ)架構(gòu)本身的缺陷來(lái)設(shè)計(jì)的。存儲(chǔ)網(wǎng)絡(luò)層所謂存儲(chǔ)網(wǎng)絡(luò)層,也就是SAN環(huán)境,它承載著存儲(chǔ)與主機(jī)以及存儲(chǔ)內(nèi)部光纖協(xié)議交換的功能。就單個(gè)數(shù)據(jù)中心而言,它實(shí)現(xiàn)了存儲(chǔ)網(wǎng)絡(luò)的前后隔離,也就是說(shuō)存儲(chǔ)層與計(jì)算層之間屬于前端網(wǎng)絡(luò),而存儲(chǔ)整合層內(nèi)部的SAN屬于后端網(wǎng)絡(luò)。他們通過(guò)不同的核心光纖交換機(jī)實(shí)現(xiàn)物理隔離,從而避免故障泛濫的風(fēng)險(xiǎn)。雙數(shù)據(jù)中心之間通過(guò)存儲(chǔ)后端網(wǎng)絡(luò)實(shí)現(xiàn)聯(lián)通,也就是說(shuō)數(shù)據(jù)中心之間靠后端存儲(chǔ)網(wǎng)絡(luò)連接為一個(gè)大的存儲(chǔ)網(wǎng)絡(luò),而數(shù)據(jù)中心內(nèi)

60、部實(shí)現(xiàn)存儲(chǔ)網(wǎng)絡(luò)的前后端隔離。存儲(chǔ)層圖最下面的部分就是整個(gè)基礎(chǔ)架構(gòu)的存儲(chǔ)層,這一層的主要部分實(shí)際上是整合之后的存儲(chǔ)層,它是經(jīng)過(guò)了存儲(chǔ)網(wǎng)關(guān)(VPlex)虛擬化以及集群化之后展現(xiàn)出來(lái)的存儲(chǔ)層。兩個(gè)數(shù)據(jù)中心各有一個(gè)Vplex存儲(chǔ)網(wǎng)關(guān),結(jié)合仲裁站點(diǎn)的Withness就組成了一個(gè)跨數(shù)據(jù)中心的存儲(chǔ)集群,它將底層的分布在兩個(gè)數(shù)據(jù)中心的三個(gè)物理存儲(chǔ)設(shè)備整合成為一個(gè)經(jīng)過(guò)本地Local以及跨中心Metro虛擬化之后的虛擬存儲(chǔ)卷展示給上層的計(jì)算節(jié)點(diǎn),當(dāng)然在存儲(chǔ)層內(nèi)也存在一些直接映射給計(jì)算節(jié)點(diǎn)的存儲(chǔ)卷。3.4 核心系統(tǒng)雙活基礎(chǔ)架構(gòu)規(guī)劃設(shè)計(jì)下圖是基于某一中小銀行的核心系統(tǒng)做的保守型雙活容災(zāi)架構(gòu),在這里僅做參考案例來(lái)幫我們

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論