已閱讀5頁,還剩142頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
上海移動(dòng)容災(zāi)系統(tǒng)方案設(shè)計(jì)報(bào)告ibm 公司上海分公司version 5.079 ibm專有信息聲明本設(shè)計(jì)報(bào)告屬商業(yè)機(jī)密文件,書中的所有信息均為ibm機(jī)密信息,僅供上海移動(dòng)容災(zāi)項(xiàng)目使用。務(wù)請(qǐng)妥善保管并且僅在與項(xiàng)目有關(guān)人員范圍內(nèi)使用,未經(jīng)ibm 公司明確做出的書面許可,不得為任何目的、以任何形式或手段(包括電子、機(jī) 械、復(fù)印、錄音或其他形式)對(duì)本文檔的任何部分進(jìn)行復(fù)制、存儲(chǔ)、引入檢索系 統(tǒng)或者傳播。盡管ibm已經(jīng)盡力保證本文檔內(nèi)容的完整性和有效性,但仍可能存在某些方 面不夠準(zhǔn)確的地方或印刷錯(cuò)誤。若需求有所變化,ibm將對(duì)有關(guān)內(nèi)容進(jìn)行相對(duì)應(yīng) 的調(diào)整,并在本報(bào)告的未來版本中體現(xiàn)。ibm是國際商業(yè)機(jī)器公司的注冊(cè)商標(biāo)。本文檔提及的其他公司、產(chǎn)品和服務(wù) 的名稱,可能是其他公司的商標(biāo)或服務(wù)的標(biāo)志。copyright ibm china company limitedall rights reserved關(guān)于本文檔文檔信息文檔名稱上海移動(dòng)容災(zāi)系統(tǒng)方案設(shè)計(jì)報(bào)告作者ibm全球服務(wù)部說明本文檔是上海移動(dòng)容災(zāi)系統(tǒng)方案設(shè)計(jì)報(bào)告,由ibm公司上海分公司和上海移動(dòng)容災(zāi)系統(tǒng)項(xiàng)目組共同編寫。文件名稱上海移動(dòng)容災(zāi)系統(tǒng)方案設(shè)計(jì)報(bào)告 v5.0.doc怱訂歷史 (revision history)revsectiontypedateauthorremarks1.0allnew2004-09-13ibmshmccteam創(chuàng) 建 方 案 第 一 版本。2.0allrevised2004-09-22ibmshmccteam根據(jù)客戶反饋怱改而成3.0-3.1allrevised2004-09-27ibmshmccteam根據(jù)客戶反饋怱改而成,增加存儲(chǔ)管 樅 和 災(zāi) 難 恢 復(fù) 計(jì) 劃,網(wǎng)絡(luò)設(shè)計(jì)考慮多種方案4.0allrevised2004-10-08ibmshmccteam整樅版本5.0allrevised2004-10-25ibmshmccteam加入摘要,加強(qiáng)存儲(chǔ)管樅內(nèi)容。內(nèi)容范圍本文檔是上海移動(dòng)容災(zāi)系統(tǒng)方案設(shè)計(jì)報(bào)告,屬于機(jī)密文件。 適用的對(duì)象本文檔適用于參與上海移動(dòng)容災(zāi)項(xiàng)目組的決策者、評(píng)估者。目錄1摘要72容災(zāi)系統(tǒng)建設(shè)意義83容災(zāi)技術(shù)方案選型123.1容災(zāi)系統(tǒng)架構(gòu)方案設(shè)計(jì)范圍123.2容災(zāi)技術(shù)方案設(shè)計(jì)方法123.3容災(zāi)系統(tǒng)建設(shè)目標(biāo)123.4容災(zāi) 7 層技術(shù)模型介紹133.5容災(zāi)技術(shù)方案選型考慮164容災(zāi)系統(tǒng)方案設(shè)計(jì)234.1上海移動(dòng)系統(tǒng)現(xiàn)狀234.2容災(zāi)架構(gòu)整體設(shè)計(jì)244.3容災(zāi)系統(tǒng)詳細(xì)設(shè)計(jì)314.3.1本地?cái)?shù)據(jù)庫容災(zāi)313.3.2容災(zāi)系統(tǒng)主機(jī)設(shè)計(jì)324.3.2容災(zāi)系統(tǒng)存儲(chǔ)設(shè)計(jì)463.3.4容災(zāi)系統(tǒng)網(wǎng)絡(luò)設(shè)計(jì)534.4容災(zāi)系統(tǒng)備份方案設(shè)計(jì)714.4.1數(shù)據(jù)備份概述714.4.2備份系統(tǒng)現(xiàn)狀分析734.4.3容災(zāi)備份系統(tǒng)邏輯設(shè)計(jì)754.4.4容災(zāi)備份系統(tǒng)配置設(shè)計(jì)824.4.5容災(zāi)備份系統(tǒng)專業(yè)服務(wù)844.5容災(zāi)系統(tǒng)管理方案設(shè)計(jì)864.5.1存儲(chǔ)資源管理864.5.2存儲(chǔ)網(wǎng)絡(luò)管理915容災(zāi)系統(tǒng)實(shí)施計(jì)劃945.1災(zāi)難恢復(fù)計(jì)劃945.2上海移動(dòng)容災(zāi)項(xiàng)目實(shí)施計(jì)劃956附錄966.1機(jī)房工程技術(shù)說明966.2上海移動(dòng)業(yè)務(wù)支撐系統(tǒng)平臺(tái)現(xiàn)狀概況一覽表。1056.3ibm 項(xiàng)目管理服務(wù)1076.4支持多廠商的網(wǎng)絡(luò)存儲(chǔ)通用管理軟件 sanavigator 版本1146.5容災(zāi)系統(tǒng)管理方案設(shè)計(jì)1216.5.1系統(tǒng)管理現(xiàn)狀1216.5.2系統(tǒng)管理需求1226.5.3系統(tǒng)管理架構(gòu)建議1236.5.4事件管理1266.5.5網(wǎng)絡(luò)管理1286.5.6數(shù)據(jù)庫管理1296.5.7主機(jī)系統(tǒng)監(jiān)控1316.5.8sla 管理1336.5.9boss 應(yīng)用管理1346.5.10流程管理1341 摘要一、項(xiàng)目背景隨著電信市場的開放以及中國加入 wto 進(jìn)程的進(jìn)行,中國移動(dòng)通信面臨著前 所未有的發(fā)展機(jī)遇和挑戰(zhàn)。作為一個(gè)電信運(yùn)營商,其 it 系統(tǒng)的應(yīng)用直接關(guān)乎管 理、服務(wù)、成本、效率等各個(gè)重要環(huán)節(jié),并最終全面影響運(yùn)營商的競爭力。電信 行業(yè)是一個(gè)講究系統(tǒng)高可用性的行業(yè),它要求關(guān)鍵應(yīng)用服務(wù)器必須 247 的不間 斷運(yùn)行,以滿足超大量用戶的實(shí)時(shí)訪問,任何潛在的單點(diǎn)故障都有可能導(dǎo)致整個(gè) 系統(tǒng)的癱瘓。為了保證信息系統(tǒng)的穩(wěn)定和數(shù)據(jù)的安全,提高業(yè)務(wù)運(yùn)營系統(tǒng)的服務(wù) 質(zhì)量,確保在日益激烈的市場競爭中確立主導(dǎo)地位,上海移動(dòng)決定在現(xiàn)有業(yè)務(wù)運(yùn) 營支撐系統(tǒng)的基礎(chǔ)上,結(jié)合自身的特點(diǎn)和實(shí)踐經(jīng)驗(yàn)進(jìn)行上海移動(dòng)業(yè)務(wù)運(yùn)營支撐容 災(zāi)系統(tǒng)工程的建設(shè)。本次上海移動(dòng)業(yè)務(wù)運(yùn)營支撐容災(zāi)系統(tǒng)工程的目標(biāo),是按照移動(dòng)集團(tuán)公司 boss 系統(tǒng)容災(zāi)備份技術(shù)規(guī)范和業(yè)務(wù)規(guī)范,主要考慮中國移動(dòng)業(yè)務(wù)支撐網(wǎng)中的 boss 系統(tǒng),兼顧經(jīng)營分析系統(tǒng)。對(duì)于 boss 系統(tǒng),將主要考慮其中的營帳子系統(tǒng), 計(jì)費(fèi)子系統(tǒng),充值子系統(tǒng),1860 子系統(tǒng),綜合結(jié)算中的網(wǎng)間結(jié)算子系統(tǒng)。整個(gè)容災(zāi)系統(tǒng)建設(shè)將遵循統(tǒng)一規(guī)劃,分步實(shí)施的原則。二、本設(shè)計(jì)報(bào)告內(nèi)容結(jié)構(gòu)本容災(zāi)設(shè)計(jì)報(bào)告主要分為四大部分:容災(zāi)系統(tǒng)建設(shè)意義、容災(zāi)技術(shù)方案選型、 容災(zāi)系統(tǒng)方案設(shè)計(jì)以及容災(zāi)系統(tǒng)實(shí)施計(jì)劃。容災(zāi)系統(tǒng)建設(shè)意義部分主要從行業(yè)競爭需要、業(yè)務(wù)穩(wěn)定需要和企業(yè)管理需要 三方面闡述了容災(zāi)系統(tǒng)的建設(shè)意義。容災(zāi)技術(shù)方案選型部分主要根據(jù)上海移動(dòng) boss 系統(tǒng)的現(xiàn)狀和將來的發(fā)展并 滿足對(duì)應(yīng)用和在用系統(tǒng)影響最小以及生產(chǎn)系統(tǒng)變動(dòng)的需要推薦使用存儲(chǔ)層+數(shù)據(jù) 庫層的復(fù)合容災(zāi)方案。容災(zāi)系統(tǒng)方案設(shè)計(jì)部分主要針對(duì)上海移動(dòng) boss 系統(tǒng)的各個(gè)子系統(tǒng)提出了各 自的容災(zāi)架構(gòu)設(shè)計(jì),根據(jù)各子系統(tǒng)的實(shí)時(shí)性恢復(fù)要求提出對(duì)于營帳數(shù)據(jù)庫,充值 數(shù)據(jù)庫和 1860 數(shù)據(jù)庫實(shí)施兩層容災(zāi)設(shè)計(jì);對(duì)于計(jì)費(fèi),經(jīng)營分析,網(wǎng)間結(jié)算,批 價(jià)等提出存儲(chǔ)層的容災(zāi)設(shè)計(jì)。另外還從容災(zāi)系統(tǒng)的主機(jī)、存儲(chǔ)、網(wǎng)絡(luò)、備份方案 以及存儲(chǔ)資源和存儲(chǔ)網(wǎng)絡(luò)管理方案方面作了詳細(xì)的設(shè)計(jì)。容災(zāi)系統(tǒng)實(shí)施計(jì)劃部分介紹了如何系統(tǒng)的實(shí)施災(zāi)難恢復(fù)計(jì)劃以保證災(zāi)難發(fā) 生時(shí)業(yè)務(wù)操作地連續(xù)性。2 容災(zāi)系統(tǒng)建設(shè)意義中國有句古話叫做“天有不測風(fēng)云,人有旦夕禍?!保浞终f明災(zāi)難的不可測性。911 事件是對(duì)這句話的最好注腳,在里面辦公的 286 家公司的 5 萬多名員 工是根本不會(huì)想到好端端的坐在辦公室里居然會(huì)有飛機(jī)撞過來。在這種近乎毀滅 性的局部災(zāi)難面前,是否有異地容災(zāi)系統(tǒng)就變成了關(guān)乎企業(yè)生存的現(xiàn)實(shí)問題。最 近國內(nèi)也發(fā)生了類似災(zāi)難,大連某個(gè)銀行的生產(chǎn)中心突然著火,因?yàn)闆]有災(zāi)備系 統(tǒng),造成全部業(yè)務(wù)停止兩天,這還是不幸中的萬幸,因?yàn)榻^大多數(shù)機(jī)器設(shè)備經(jīng)過 修復(fù)還可以使用,尤其是存儲(chǔ)設(shè)備,否則,后果真是不堪設(shè)想。很多企業(yè)是從 911 事件后開始真正認(rèn)真考慮容災(zāi)的,以往容災(zāi)系統(tǒng)的建設(shè)往 往被視為錦上添花的項(xiàng)目而不是一個(gè)業(yè)務(wù)可持續(xù)性運(yùn)行的必須項(xiàng)目。我們可以吸 取的教訓(xùn)是一定要建立核心數(shù)據(jù)和業(yè)務(wù)的容災(zāi)系統(tǒng),并且平時(shí)要加強(qiáng)管理和演 習(xí),加強(qiáng)人員的培訓(xùn),核心管理人員和技術(shù)的分散,以提高計(jì)算機(jī)系統(tǒng)因?yàn)樘鞛?zāi) 或人為因素等意外事故導(dǎo)致系統(tǒng)毀壞無法運(yùn)行時(shí)的抵御能力,至少將局部地區(qū)核 心業(yè)務(wù)支持在系統(tǒng)故障時(shí)的損失減至最小。無論是國內(nèi)還是國外的用戶,無論是政府還是企業(yè),現(xiàn)在都在思考這樣一個(gè) 問題,那就是,假設(shè)我們的企業(yè)發(fā)生了類似的情況,我們是否有足夠的備份措施, 企業(yè)的數(shù)據(jù)是否有足夠的保障?在美國、日本等一些發(fā)達(dá)國家,對(duì)于關(guān)乎國計(jì)民 生的行業(yè),有專門的法律要求該企業(yè)必須有災(zāi)難保護(hù)方案,(如美國是 bcc 177) 并且每年都會(huì)進(jìn)行審計(jì)和稽核。國內(nèi)因?yàn)槟壳斑€沒有類似的法律約束,很多企業(yè) 對(duì)于應(yīng)用比較重視,但是對(duì)于整體系統(tǒng)的可用性考慮得不多,甚至是一些金融企 業(yè),當(dāng)有類似數(shù)據(jù)庫出錯(cuò)等故障發(fā)生時(shí),還依然只能通過倒磁帶的方式恢復(fù)數(shù)據(jù)。 這種情況下,丟失數(shù)據(jù)就是不可避免的了,并且由于恢復(fù)時(shí)間的漫長,對(duì)廣大客 戶承諾的服務(wù)水平又如何能夠達(dá)到?現(xiàn)在,隨著中國加入 wto,一些國內(nèi)先進(jìn)的 有前瞻性的企業(yè)也在這方面給予了足夠的重視,如上海移動(dòng)等單位。隨著上海移動(dòng)業(yè)務(wù)的飛速發(fā)展,業(yè)務(wù)對(duì) it 系統(tǒng)的依賴性也隨之增加,越來 越多的業(yè)務(wù)集中到生產(chǎn)主機(jī)上,對(duì)主機(jī)和存儲(chǔ)設(shè)備都造成了較大的壓力。當(dāng)一個(gè) 單位越來越依賴于數(shù)據(jù)處理去進(jìn)行它的業(yè)務(wù)行為時(shí),數(shù)據(jù)處理的高可靠性和高可 用性就尤為關(guān)鍵,大部分單位的業(yè)務(wù)處理需要數(shù)據(jù)處理的高可用性。用戶發(fā)現(xiàn)如 果沒有了數(shù)據(jù)處理,業(yè)務(wù)的開展變得極端困難,也許手工操作還可以使用,但那 只能用于短期的應(yīng)付,一個(gè)計(jì)算機(jī)系統(tǒng)的長期停止運(yùn)轉(zhuǎn)將直接導(dǎo)致明顯的業(yè)務(wù)后 果,也許還會(huì)被追究管理責(zé)任。更為重要的是,一旦數(shù)據(jù)由于某種原因永久性丟 失,不但會(huì)給企業(yè)的運(yùn)作帶來極大的困難,企業(yè)的商業(yè)信譽(yù)必將受到致命的打擊, 在競爭中處于劣勢,造成不可估量的后果?;谶@種考慮,中國移動(dòng)總部提出了在各省建設(shè) boss 系統(tǒng)容災(zāi)備份的要求, 這個(gè)報(bào)告書就是為上海移動(dòng)的容災(zāi)系統(tǒng)進(jìn)行方案設(shè)計(jì)。本方案中將重點(diǎn)討論 boss 系統(tǒng)的詳細(xì)容災(zāi)方案,兼顧其他業(yè)務(wù)系統(tǒng),同時(shí)根據(jù)上海移動(dòng)的實(shí)際情況分步實(shí)現(xiàn)。當(dāng)然,我們考慮容災(zāi)系統(tǒng)建設(shè)時(shí),也應(yīng)該實(shí)事求是,從實(shí)際出發(fā)。能夠防御 所有災(zāi)難的方案是不存在的,也是不現(xiàn)實(shí)的。我們認(rèn)為,計(jì)算機(jī)系統(tǒng)的災(zāi)難定義 是可以由用戶自己來定義的,各個(gè)行業(yè)可以有不同的要求。設(shè)計(jì)容災(zāi)系統(tǒng)時(shí),應(yīng) 該基于一個(gè)合理的前提假設(shè),譬如,在主機(jī)房發(fā)生故障時(shí),備份機(jī)房可以保證數(shù) 據(jù)的完整性,并且可以在最短時(shí)間內(nèi)完成應(yīng)用、網(wǎng)絡(luò)和數(shù)據(jù)的接管。本方案中的 容災(zāi)系統(tǒng)正是基于這種前提來設(shè)計(jì),我們暫不考慮那種同時(shí)損壞主備機(jī)房的可能 性。讓我們?cè)賮砜纯慈轂?zāi)系統(tǒng)建設(shè)的意義,這個(gè)在移動(dòng)總部的容災(zāi)系統(tǒng)建設(shè)規(guī)范 中也有多次強(qiáng)調(diào):行業(yè)競爭的需要美國明尼蘇達(dá)大學(xué)研究機(jī)構(gòu)的統(tǒng)計(jì)結(jié)果表明,對(duì)于銀行,金融,證券,電信等行業(yè)的企業(yè)而言,如果業(yè)務(wù)停頓時(shí)間長達(dá)兩天或更長,那么 25% 的企業(yè)將立 刻因信譽(yù)和業(yè)務(wù)問題而倒閉,40% 的企業(yè)將因?yàn)槭懿粩嗟暮罄m(xù)因素的影響導(dǎo)致綜 合競爭力的下降而在今后兩至五年內(nèi)被淘汰,五年以后僅有 7% 的企業(yè)能夠繼續(xù) 在此行業(yè)內(nèi)生存。目前,在國內(nèi),通訊行業(yè)內(nèi)的競爭本來就很激烈,加之 wto 之后,國外實(shí)力 雄厚的企業(yè)對(duì)國內(nèi)市場的窺視,將不可避免地造成企業(yè)爭奪客戶群的白熱化的局 面,因此企業(yè)總體服務(wù)的水平將是影響競爭結(jié)果的重要因素。試想,一個(gè)時(shí)不時(shí) 就會(huì)抱歉地對(duì)客戶說:“對(duì)不起,由于我們的主機(jī)系統(tǒng)有問題,您要求的業(yè)務(wù)暫 時(shí)無法辦理”的企業(yè)將無法贏得挑剔的客戶的芳心。即使在發(fā)生眾所周知的 災(zāi)害,如果系統(tǒng)也是長時(shí)間的無法恢復(fù),也會(huì)帶來極嚴(yán)重的后果。所以,it 系 統(tǒng)的完善程度是激烈競爭的一個(gè)最重要的前提,在此基礎(chǔ)上,企業(yè)才能開發(fā)豐富 多樣的業(yè)務(wù)品種,提供高質(zhì)量的服務(wù)水平,在競爭中取得優(yōu)勢。不久前發(fā)生在南 京的“愛立信跳槽事件”已經(jīng)表明了中國加入 wto 后行業(yè)競爭的殘酷性和現(xiàn)實(shí)性。 根據(jù)業(yè)務(wù)的不同,對(duì)各種程度的中心系統(tǒng)可靠性要求也不同,如從最高等級(jí) 的xx服務(wù),到在指定時(shí)間內(nèi)恢復(fù)。為了滿足這些要求,更好地為客 戶服務(wù),上海移動(dòng)應(yīng)當(dāng)未雨綢繆,盡早制定和建立完備的災(zāi)難恢復(fù)計(jì)劃系統(tǒng),以增強(qiáng)系統(tǒng)的抗災(zāi)能力,最大限度地減小損失。業(yè)務(wù)穩(wěn)定的需要時(shí)至今日,企業(yè)業(yè)務(wù)運(yùn)營對(duì)信息系統(tǒng)的運(yùn)作的依賴性越大,就對(duì)信息系統(tǒng)運(yùn)作的穩(wěn)定性和可靠性的要求越高。 而信息系統(tǒng)可用的定義已不再局限于主機(jī)設(shè)備的可用,而是從主機(jī),存儲(chǔ),用戶終端,網(wǎng)絡(luò)設(shè)備整體的物理可用,到系統(tǒng),數(shù)據(jù)庫,應(yīng)用軟件,用戶數(shù)據(jù)的 邏輯可用。然而,由于各種因素的影響,小至一般性的硬件故障,大到區(qū)域性的自然災(zāi) 害,從物理的設(shè)備不可用,到邏輯的人為失誤和破壞,都可能造成整個(gè)信息系統(tǒng) 的全面癱瘓,從而導(dǎo)致業(yè)務(wù)運(yùn)營的停頓。因此,同一機(jī)房中的雙主機(jī)恢復(fù)系統(tǒng)有 很多企業(yè)已經(jīng)覺得不能滿足需求,特別是因?yàn)閼?yīng)用的要求而作了區(qū)域集中或全國大集中的企業(yè),在享受數(shù)據(jù)集中帶來的諸多好處時(shí),同時(shí)也承擔(dān)著數(shù)據(jù)丟失或者it 系統(tǒng)不可用帶來的巨大風(fēng)險(xiǎn)。從以下這份國外的研究報(bào)告中我們可以知道這 些擔(dān)憂不是杞人憂天。這是 1996 年 source contingencyplanning research inc。 對(duì)于各種因素包括自然災(zāi)害:水災(zāi)、風(fēng)災(zāi)、地震、大雪、野火 結(jié)構(gòu)破壞:電力中斷、火災(zāi)、爆炸 操作問題:硬件問題、病毒入侵、操作失誤、人為破壞。讓我們暫時(shí)拋開滿腦子的災(zāi)難,來考慮一下即使是機(jī)器沒有發(fā)生故障是否也是 7小時(shí)可用呢?我們認(rèn)為,現(xiàn)實(shí)環(huán)境中,這種情況也是不現(xiàn)實(shí)的,我們 經(jīng)常會(huì)進(jìn)行一些正常的日常維護(hù)活動(dòng)。假設(shè)我們認(rèn)為,所有災(zāi)難都是屬于非計(jì)劃 中的系統(tǒng)不可用,那么還有很大一部分系統(tǒng)不可用時(shí)間是屬于計(jì)劃中的,從下圖 中我們可以看到非計(jì)劃宕機(jī)只是占了 it 系統(tǒng)不可用的 10%,而計(jì)劃中的宕機(jī)占了 90%。 如果我們有了容災(zāi)系統(tǒng),起碼我們可以將很多計(jì)劃中的停機(jī)事件避免,如數(shù)據(jù)備份,完全可以在容災(zāi)中心進(jìn)行,同時(shí),我們可以利用容災(zāi)中心做許多諸如新 的應(yīng)用程序測試,壓力測試等等,若是結(jié)合第二份數(shù)據(jù)鏡像功能,我們完全可以 輕松自如的在容災(zāi)中心進(jìn)行數(shù)據(jù)查詢,數(shù)據(jù)挖掘等業(yè)務(wù)。當(dāng)然,這些業(yè)務(wù)在只有 一份遠(yuǎn)程鏡像時(shí)也可以實(shí)現(xiàn),只是需要較為仔細(xì)和復(fù)雜的操作,并且有可能暫時(shí) 中斷鏡像等,相比之下沒有前者操作方便簡單,對(duì)生產(chǎn)系統(tǒng)的沖突更小。definition of outagesmost customer outages are caused bydata base backup andchange controlplannedoutages90.0%unplannedoutages10.0%dbbackup52.0%operations25.0%software30.0%other9.0%application8.0%hardware8.0%software13.0%network10.0%hardware15.0%other3.0%application27.0% l a n n e d n p la n n e d 圖:造成系統(tǒng)不可用的因素企業(yè)管理的需要美國 911 恐怖襲擊事件之后,華爾街上幾乎所有的金融機(jī)構(gòu)都未受到致命的影響,這都要?dú)w功于企業(yè)制定的業(yè)務(wù)持續(xù)性計(jì)劃。企業(yè)管理標(biāo)準(zhǔn)要求,每個(gè)企業(yè) 應(yīng)該具備一套保證企業(yè)在發(fā)生緊急事故時(shí)能夠從容應(yīng)對(duì)的管理計(jì)劃,這就是業(yè)務(wù) 持續(xù)性計(jì)劃。這套計(jì)劃將使得客戶能夠在災(zāi)難時(shí)啟動(dòng)相關(guān)的備份設(shè)備,協(xié)調(diào)人員 流動(dòng),應(yīng)對(duì)媒體訪問,確保業(yè)務(wù)的正常運(yùn)營。作為業(yè)務(wù)持續(xù)性計(jì)劃的一部分,信息系統(tǒng)的災(zāi)難恢復(fù)計(jì)劃的制定是非常重要 和關(guān)鍵的,它將直接決定企業(yè)業(yè)務(wù)應(yīng)用的恢復(fù)時(shí)間,制定信息系統(tǒng)的容災(zāi)計(jì)劃也 是對(duì)現(xiàn)有投資的保護(hù)。信息系統(tǒng)設(shè)備,軟件的購買和應(yīng)用是為了能更好的處理業(yè) 務(wù),由此獲得的客戶滿意和競爭實(shí)力不應(yīng)該因?yàn)橐淮螄?yán)重的故障而喪失殆盡。信 息系統(tǒng)的容災(zāi)計(jì)劃將使企業(yè)在緊急狀況下仍能夠正常營業(yè),從而顯示出更強(qiáng)于其 它企業(yè)的競爭力。3 容災(zāi)技術(shù)方案選型3.1 容災(zāi)系統(tǒng)架構(gòu)方案設(shè)計(jì)范圍根據(jù)上海移動(dòng)的要求,本次容災(zāi)系統(tǒng)架構(gòu)方案設(shè)計(jì)將主要考慮中國移動(dòng)業(yè)務(wù) 支撐網(wǎng)中的 boss 系統(tǒng),兼顧經(jīng)營分析系統(tǒng)。對(duì)于 boss 系統(tǒng),將主要考慮其中的 營帳子系統(tǒng),計(jì)費(fèi)子系統(tǒng),充值子系統(tǒng),1860 子系統(tǒng),綜合結(jié)算中的網(wǎng)間結(jié)算子 系統(tǒng)。整個(gè)容災(zāi)系統(tǒng)建設(shè)將遵循統(tǒng)一規(guī)劃,分步實(shí)施的原則,而不是一蹴而就的。3.2容災(zāi)技術(shù)方案設(shè)計(jì)方法移動(dòng)總部的容災(zāi)系統(tǒng)業(yè)務(wù)規(guī)范建議容災(zāi)系統(tǒng)按照以下的方法論進(jìn)行,本設(shè)計(jì) 是具體的方案設(shè)計(jì)部分。人 員調(diào) 控需 求 分 析需 求 分 析方 案 設(shè) 計(jì)核核核核 心心心心 業(yè)業(yè)業(yè)業(yè) 務(wù)務(wù)務(wù)務(wù) 及及及及 其其其其關(guān)關(guān)關(guān)關(guān) 聯(lián)聯(lián)聯(lián)聯(lián) 業(yè)業(yè)業(yè)業(yè) 務(wù)務(wù)務(wù)務(wù)習(xí) 、 測 試 、 維 護(hù)方 案 實(shí) 施需 求 分 析方 案 設(shè) 計(jì)核核核核 心心心心 業(yè)業(yè)業(yè)業(yè) 務(wù)務(wù)務(wù)務(wù) 及及及及 其其其其關(guān)關(guān)關(guān)關(guān) 聯(lián)聯(lián)聯(lián)聯(lián) 業(yè)業(yè)業(yè)業(yè) 務(wù)務(wù)務(wù)務(wù)習(xí) 、 測 試 、 維 護(hù)方 案 實(shí) 施核 心 業(yè) 務(wù) 及 其 關(guān) 聯(lián) 業(yè) 務(wù)方 案 設(shè) 計(jì)en te rp ri演 習(xí) 、 測 試 、 維 護(hù)驅(qū) 動(dòng)方 案 實(shí) 施計(jì) 劃流 程技 術(shù)映 射3.3容災(zāi)系統(tǒng)建設(shè)目標(biāo)業(yè)界在建設(shè)容災(zāi)系統(tǒng)時(shí),主要考慮以下的目標(biāo)參數(shù):恢復(fù)時(shí)間目標(biāo)(rto) 在系統(tǒng)不可用的情況下,你可以忍受多長時(shí)間?這 個(gè)參數(shù)定義了系統(tǒng)能夠容忍的最長停機(jī)時(shí)間;恢復(fù)點(diǎn)目標(biāo)(rpo)當(dāng)系統(tǒng)被恢復(fù)時(shí),你可以忍受多少數(shù)據(jù)需要重新建立?這個(gè)參數(shù)定義了系統(tǒng)能夠容忍的最多數(shù)據(jù)丟失;網(wǎng)絡(luò)恢復(fù)目標(biāo)(nro) 需要多長時(shí)間才可以切換網(wǎng)絡(luò)?這個(gè)參數(shù)定義了系 統(tǒng)能夠容忍的最長網(wǎng)絡(luò)停機(jī)時(shí)間。一個(gè)應(yīng)用的完全恢復(fù)應(yīng)該包括主機(jī),數(shù)據(jù)庫,應(yīng)用程序,網(wǎng)絡(luò)連接,應(yīng)用服 務(wù)器和應(yīng)用界面的完全可用。所以具體到一個(gè)特定的應(yīng)用,具體的技術(shù)指標(biāo)會(huì)不 一樣。在移動(dòng)總部的規(guī)范中將 boss 的容災(zāi)恢復(fù)指標(biāo)定義為 2 級(jí)。根據(jù)上海移動(dòng) 的具體實(shí)際,我們認(rèn)為,將聯(lián)機(jī)交易處理類的應(yīng)用如營帳,1860,充值等業(yè)務(wù)的 恢復(fù)目標(biāo)定義為 2 小時(shí)以內(nèi),非聯(lián)機(jī)交易如計(jì)費(fèi)的恢復(fù)時(shí)間定在 4 小時(shí)以內(nèi)是比 較現(xiàn)實(shí)的。(這個(gè)時(shí)間沒有包括決策是時(shí)間,但是包括網(wǎng)絡(luò)切換時(shí)間)。3.4容災(zāi) 7層技術(shù)模型介紹首先讓我們看看業(yè)界公認(rèn)的容災(zāi)技術(shù)方案等級(jí),災(zāi)難備援技術(shù)方案的七個(gè)級(jí) 別:7 tiers for disaster recovery solution,是指根據(jù)國際標(biāo)準(zhǔn) share 78 的定義,災(zāi)難備援技術(shù)方案可以根據(jù)以下主要方面所達(dá)到的程度而分為七級(jí):1、 備份/恢復(fù)的范圍2、 災(zāi)難恢復(fù)計(jì)劃的狀態(tài)3、 應(yīng)用站點(diǎn)與備援站點(diǎn)之間的距離4、 應(yīng)用站點(diǎn)與備援站點(diǎn)之間是如何相互連接的5、 數(shù)據(jù)是怎樣在兩個(gè)站點(diǎn)之間傳送的6、 允許有多少數(shù)據(jù)被丟失7、 怎樣保證更新的數(shù)據(jù)在備援站點(diǎn)被更新8、 備援站點(diǎn)可以開始備援工作的能力即從低到高有七種不同層次的災(zāi)難恢復(fù)解決方案。 如下圖所示,該七個(gè)級(jí)別的災(zāi)難備援的技術(shù)方案分別是:tier 1 - ptam“卡車”運(yùn)送訪問方式 (pickup truck access method)tier 2 - ptam 卡車運(yùn)送訪問方式+熱備份站點(diǎn) (ptam + hotsite)tier 3 - 電子鏈接方式 (electronic vaulting)tier 4 - 數(shù)據(jù)庫鏡像和日志方式 (batch/online database shadowing& journaling)tier 5 - 兩點(diǎn)兩階段提交 (two-site two-phase commit)tier 6 - 無數(shù)據(jù)丟失 (zero data loss)tier 7 - 無數(shù)據(jù)丟失和應(yīng)用自動(dòng)切管 (zero data loss + app automatic takeover)以上七個(gè)級(jí)別的災(zāi)難備援的技術(shù)方案的特點(diǎn)和區(qū)別,可以參照如下描述:七層模型的可恢復(fù)性比較有無室內(nèi)備份? y/nnyyyyyyy容災(zāi)層次01234567保存的信息 (數(shù)據(jù),指令,文檔)ny/nyyyyyydetermination of requirementsnyyyyyyy專用的容災(zāi)硬件和機(jī)房ny/nyyyyyy災(zāi)難恢復(fù)計(jì)劃nnyyyyyy選擇性的異地?cái)?shù)據(jù)保存nnyyyyyy支持危機(jī)時(shí)候的足夠的硬件和網(wǎng)絡(luò)設(shè)備nnyyyyyy至少部分信息的電子方式的備份nnnyyyyyactive management of recovery data by aprocessor at the recovery sitennnnyyyy雙向恢復(fù)nnnnyyyy物理分離nnnnyyyy所選數(shù)據(jù)的鏡像nnnnnyyy異地部分或全部的硬件備份nnnnnyyy主備中心數(shù)據(jù)即時(shí)異地傳輸nnnnnnyy根據(jù)策略自動(dòng)切換到災(zāi)備中心nnnnnnny典型恢復(fù)時(shí)間uptonever 1week 1day1 day 1day 12hours 6hoursfewmins.tier 1 - ptam“卡車”運(yùn)送訪問方式 (pickup truck access method)tier 1 的災(zāi)難恢復(fù)方案必須設(shè)計(jì)一個(gè)嚴(yán)格的數(shù)據(jù)備份方案,能夠備份所需 要的信息并將它遞送存放在異地,然后根據(jù)恢復(fù)的具體需求,有選擇地建立 備份平臺(tái),但不提供數(shù)據(jù)處理的硬件。ptam 是一種被用于許多中心的備份的標(biāo)準(zhǔn)的方式,數(shù)據(jù)在完成寫操作的一 些時(shí)候,將會(huì)被送到遠(yuǎn)離本地的地方,同時(shí)準(zhǔn)備有數(shù)據(jù)恢復(fù)的程序。在災(zāi)難發(fā)生后,一整套安裝需要在一臺(tái)未開啟的計(jì)算機(jī)上重新完成。系統(tǒng)和數(shù)據(jù)可以被恢復(fù)并重新與網(wǎng)絡(luò)相連。這種災(zāi)難恢復(fù)方案相對(duì)來說成本較低(僅僅需 要傳輸工具的消耗以及存儲(chǔ)設(shè)備的消耗)。但同時(shí)有這樣的問題,那就是難 于管理,即很難知道什么樣的數(shù)據(jù)在什么樣的地方。tier 2 - ptam 卡車運(yùn)送訪問方式+熱備份站點(diǎn) (ptam + hotsite)tier 2 相當(dāng)于 tier 1 再加上熱備份中心能力的進(jìn)一步的災(zāi)難恢復(fù)。熱備份 中心擁有足夠的硬件和網(wǎng)絡(luò)設(shè)備去支持關(guān)鍵應(yīng)用的安裝需求,這樣的應(yīng)用是 十分的關(guān)鍵的,它必須在災(zāi)難發(fā)生的同時(shí),在異地有與生產(chǎn)環(huán)境相類似的硬 件提供支持。這種災(zāi)難恢復(fù)的方式依賴于 ptam 方法去將日常數(shù)據(jù)放入倉庫, 當(dāng)災(zāi)難發(fā)生的時(shí)候,數(shù)據(jù)再被移動(dòng)到一個(gè)熱備份的中心。雖然移動(dòng)數(shù)據(jù)到一 個(gè)熱備份中心增加了成本,但卻明顯降低了災(zāi)難恢復(fù)時(shí)間。tier 3 - 電子鏈接方式 (electronic vaulting)tier 3 是在 tier 2 的基礎(chǔ)上用電子鏈路取代了卡車進(jìn)行數(shù)據(jù)的傳送的進(jìn)一 步的災(zāi)難恢復(fù)。接收方的硬件必須與主中心物理地相分離,在災(zāi)難發(fā)生后, 存儲(chǔ)的數(shù)據(jù)用于災(zāi)難恢復(fù),由于熱備份中心要保持持續(xù)運(yùn)行,增加了成本。 但消除了傳輸工具的需要,提高了災(zāi)難恢復(fù)速度。tier 4 - 數(shù)據(jù)庫鏡像和日志方式 (batch/online database shadowing & journaling)tier 4 是在 tier3 的基礎(chǔ)上,以數(shù)據(jù)庫遠(yuǎn)程備份為基礎(chǔ)。災(zāi)難恢復(fù)具有兩 個(gè)中心同時(shí)處于活動(dòng)狀態(tài)并管理彼此的備份數(shù)據(jù),允許備份行動(dòng)在任何一個(gè) 方向發(fā)生。接收方硬件必須保證與另一方平臺(tái)物理地分離,在這種情況下, 工作負(fù)載可能在兩個(gè)中心之間分享,中心 1 成為中心 2 的備份,反之亦然。 在兩個(gè)中心之間,彼此的在線關(guān)鍵數(shù)據(jù)的拷貝不停地相互傳送著。在災(zāi)難發(fā) 生時(shí),需要的關(guān)鍵數(shù)據(jù)通過網(wǎng)絡(luò)可迅速恢復(fù),通過網(wǎng)絡(luò)的切換,關(guān)鍵應(yīng)用的 恢復(fù)也可降低到小時(shí)級(jí)。tier 5 - 兩點(diǎn)兩階段提交 (two-site two-phase commit)tier 5 在 tier 4 的基礎(chǔ)上管理著被選擇的數(shù)據(jù)(根據(jù)單一 commit 的范圍在 本地和遠(yuǎn)程數(shù)據(jù)庫中同時(shí)更新數(shù)據(jù)),也就是說,在更新請(qǐng)求被認(rèn)為是滿意 之前,tier 5 需要生產(chǎn)中心與備份中心的數(shù)據(jù)都被更新。我們可以想象這 樣一種情景,數(shù)據(jù)在兩個(gè)中心之間相互映像,由遠(yuǎn)程 two-phase commit 來 同步。tier5 為關(guān)鍵應(yīng)用使用了雙重在線存儲(chǔ),在災(zāi)難發(fā)生時(shí),僅僅傳送中 的數(shù)據(jù)被丟失,恢復(fù)時(shí)間被降低到分鐘級(jí)。tier 6 - 無數(shù)據(jù)丟失 (zero data loss)tier 6 可以實(shí)現(xiàn)零數(shù)據(jù)丟失率,同時(shí)保證數(shù)據(jù)立即自動(dòng)地被傳輸?shù)交謴?fù)中 心。tier6 被認(rèn)為是災(zāi)難恢復(fù)的相當(dāng)高的級(jí)別,通過使用文件系統(tǒng)或存儲(chǔ)硬 件底層的數(shù)據(jù)同步/異步鏡像功能,保證數(shù)據(jù)的實(shí)時(shí)一致性和完整性。tier 7 - 無數(shù)據(jù)丟失和應(yīng)用自動(dòng)切管 (zero data loss + app automatictakeover)tier 7 在 tier 6 的基礎(chǔ)上,在本地和遠(yuǎn)程的所有數(shù)據(jù)被更新的同時(shí),利用 了雙重在線活動(dòng)的主機(jī),備份數(shù)據(jù)和完全的網(wǎng)絡(luò)切換能力,實(shí)現(xiàn)應(yīng)用程序的 實(shí)時(shí)監(jiān)控和接管。tier7 是災(zāi)難恢復(fù)中最昂貴的方式,但也是需人工干預(yù)最 少,速度最快的恢復(fù)方式。3.5容災(zāi)技術(shù)方案選型考慮首先讓我們確定一下此次容災(zāi)建設(shè)的一些背景條件:1. 移動(dòng)總部發(fā)布了 boss 1.5 規(guī)范,上海移動(dòng)正在加緊進(jìn)行 boss 應(yīng)用的改 造。這個(gè)說明在容災(zāi)系統(tǒng)實(shí)施的同時(shí),業(yè)務(wù)環(huán)境也在發(fā)生變化。所以對(duì) 于具體選用何種技術(shù)就有很高的要求,譬如說通過應(yīng)用程序?qū)觼韺?shí)現(xiàn)容 災(zāi)就不現(xiàn)實(shí)了,因?yàn)橐坏I(yè)務(wù)改動(dòng)就需要改動(dòng)容災(zāi)方案,基本上是不可 能的事情。2. 局方同時(shí)可能會(huì)啟動(dòng) boss 網(wǎng)管項(xiàng)目,整個(gè)業(yè)務(wù)支撐平臺(tái)的系統(tǒng)管理都 會(huì)在網(wǎng)管項(xiàng)目中考慮,所以在這個(gè)方案設(shè)計(jì)報(bào)告中就不對(duì)系統(tǒng)管理這一 塊內(nèi)容加以詳細(xì)闡述。3. 本方案設(shè)計(jì)書將闡述 boss 網(wǎng)管沒有具體規(guī)定的存儲(chǔ)和存儲(chǔ)網(wǎng)的管理。在我們的設(shè)計(jì)報(bào)告中,我們首先對(duì)整個(gè)容災(zāi)系統(tǒng)的架構(gòu)進(jìn)行設(shè)計(jì),然后對(duì)其 中的各個(gè)要素分別加以闡述。容災(zāi)系統(tǒng)建設(shè)中很重要的是如何將生產(chǎn)數(shù)據(jù)傳輸或復(fù)制到容災(zāi)中心,我們需 要考慮的是在系統(tǒng)的那一個(gè)層次上的復(fù)制數(shù)據(jù)和采用何種機(jī)制。 技術(shù)的發(fā)展讓 我們有了更多更好的選擇而不必受一些具體產(chǎn)品的約束。下圖是目前業(yè)界最常用 的成熟的技術(shù)。我們認(rèn)為,首先需要一種技術(shù)方案,它的建設(shè)實(shí)施對(duì)應(yīng)用和在用系統(tǒng)影響最小,同時(shí)又能滿足生產(chǎn)系統(tǒng)變動(dòng)的需要。而對(duì)于某些特定應(yīng)用,如果僅僅采用其 中的一種方案是可能不能完全滿足恢復(fù)需要,如一些聯(lián)機(jī)的實(shí)時(shí)交易的應(yīng)用,一 種方式顯得太單薄,所以對(duì)這些應(yīng)用,我們建議用復(fù)合式的容災(zāi)技術(shù)方案。究竟 以那種技術(shù)為主,那種為輔,應(yīng)該考慮實(shí)際情況。下圖是最近移動(dòng)欽州機(jī)房發(fā)生影響生產(chǎn)的故障統(tǒng)計(jì):2004年1月到8月影響生產(chǎn)的故障統(tǒng)計(jì)26%39%6%26%3%數(shù)據(jù)庫故障應(yīng)用故障網(wǎng)絡(luò)故障主機(jī)故障例行維護(hù)從中可以看出,發(fā)生頻率最高,對(duì)生產(chǎn)造成最大影響的是數(shù)據(jù)庫故障,其次是至少每月一次的例行維護(hù)和較高的網(wǎng)絡(luò)故障,而應(yīng)用故障和主機(jī)故障相對(duì)影響 較小。其中的數(shù)據(jù)庫故障大多時(shí)候都可以通過重啟數(shù)據(jù)庫來解決,這些本身可能 由于 oracle 8 版本軟件的缺陷造成,數(shù)據(jù)庫重啟時(shí)往往涉及到 recovery 過程, 如果有些意外發(fā)生時(shí),recovery 的過程會(huì)很長,可能幾個(gè)小時(shí)才能完成,這時(shí) 重啟數(shù)據(jù)庫就遠(yuǎn)遠(yuǎn)不能滿足業(yè)務(wù)需求。針對(duì)這種情況,我們認(rèn)為,保持?jǐn)?shù)據(jù)庫的 高可用性是最重要的,其次是網(wǎng)絡(luò),在上海移動(dòng),ip 網(wǎng)絡(luò)目前的故障較多,而 光網(wǎng)路相對(duì)來說比較穩(wěn)定,這也為采用存儲(chǔ)層的使用 dwdm 技術(shù)的方案提供的基 礎(chǔ)保證。就數(shù)據(jù)本身而言,字節(jié)程度的一致性的重要性比不上交易程度的一致性 來得重要,所以,我們應(yīng)該強(qiáng)調(diào)當(dāng)生產(chǎn)數(shù)據(jù)庫發(fā)生故障時(shí),可以最快速度恢復(fù)?;谝陨峡紤]我們給出下表的推薦,5 為最高,1 為最低。容災(zāi)技術(shù)技術(shù)成熟 度數(shù)據(jù)丟失情況硬件要求實(shí)施難易程度對(duì)在用系統(tǒng)影響推薦程度(15)存儲(chǔ)服務(wù)器層( tier 6)成熟不丟或少量同一品牌存儲(chǔ)較易較少4san 層(tier 6)成熟不丟或少量fc 連接較易較少3操作系統(tǒng)層(tier 6 or 7)成熟不丟或少量同一品牌主機(jī)較易較大3數(shù)據(jù)庫層(tire4 or 5)成熟部分丟失較易較大3.5由表中可以看出,對(duì)于建議采用復(fù)合方式的應(yīng)用來說,我們推薦使用數(shù)據(jù)庫層和存儲(chǔ)層結(jié)合的復(fù)合方案。存儲(chǔ)層可以在存儲(chǔ)產(chǎn)品層,也可以在 san 交換機(jī)層。手動(dòng)/自動(dòng)啟動(dòng)容災(zāi) 我們知道,自動(dòng)容災(zāi)技術(shù)可以自動(dòng)識(shí)別災(zāi)難的發(fā)生并且自動(dòng)啟動(dòng)恢復(fù)程序,將應(yīng)用在容災(zāi)中心自動(dòng)重啟??墒墙Y(jié)合國內(nèi)實(shí)情,自動(dòng)容災(zāi)方式并不是很適合上 海移動(dòng),因?yàn)槭欠駟?dòng)容災(zāi)系統(tǒng)不僅僅是一個(gè)技術(shù)問題,其中有一個(gè)決策過程, 還有一個(gè)切換的程度的問題。采用手動(dòng)切換,可以將主動(dòng)權(quán)握在手里。傳統(tǒng)磁盤遠(yuǎn)程鏡像的基本概念 傳統(tǒng)基于磁盤的鏡像方式是由存儲(chǔ)設(shè)備控制通過數(shù)據(jù)通道,以邏輯卷為基本單位,將本地磁盤陣列上的數(shù)據(jù)鏡像到遠(yuǎn)端的同構(gòu)磁盤陣列上比如 ibm的 pprc 和 emc 的 srdf?;诖疟P的鏡像功能傳統(tǒng)上提供 2 種工作方式,同步(左圖)和異步方式(右圖):在同步方式下,磁盤鏡像功能只有在本地和遠(yuǎn)程磁盤都完成寫操作后才會(huì)向 主機(jī)發(fā)回“io 完成”消息,以確保源卷和目的卷的數(shù)據(jù)徹底一致。好處是:可以保證數(shù)據(jù)不會(huì)丟失可以保證數(shù)據(jù)的一致性 缺點(diǎn)是:對(duì)網(wǎng)絡(luò)和距離要求很高:需要高帶寬和距離一般不能超越城域?qū)ιa(chǎn)系統(tǒng)的性能影響也比較大在異步工作方式下,磁盤鏡像功能能夠在遠(yuǎn)端更新未完成的情況下,只要本地更新成功就可以向主機(jī)返回“寫成功”信號(hào)。好處是:對(duì)網(wǎng)絡(luò)和距離的要求非常低對(duì)性能的影響非常小壞處是:數(shù)據(jù)一般情況下會(huì)丟失普通異步方式無法保證 io 的次序,所以在進(jìn)行異步操作時(shí),遠(yuǎn)程鏡 像卷始終處于異步造成的“不一致”狀態(tài),直到所有數(shù)據(jù)“全部傳遞 完畢”。如果應(yīng)用是 7*24 小時(shí)不間斷的,就無法達(dá)到數(shù)據(jù)“全部傳 遞完畢”狀態(tài)。所以,異步備份一般只用于數(shù)據(jù)移植,或者和磁盤本 地鏡像結(jié)合,用于傳遞相對(duì)靜止的數(shù)據(jù)保證數(shù)據(jù)一致性的異步遠(yuǎn)程鏡像 為了同時(shí)利用同步的數(shù)據(jù)一致性優(yōu)勢和異步的性能/距離優(yōu)勢,各個(gè)存儲(chǔ)廠商都推出了一些能夠保證數(shù)據(jù)一致性的異步遠(yuǎn)程鏡像方式,主要是 ibm 的 pprcgm 和 emc 的 srdf/a。為了 100%的保證數(shù)據(jù)一致性和可用性,所有類似的技術(shù)都必須采用 3 份數(shù) 據(jù)的方式進(jìn)行操作(本地 1 份,遠(yuǎn)程 2 份)。ibm pprc gm 的工作方式如下:工作方式如下(其中綠色為生產(chǎn)站點(diǎn)磁盤,橙色和藍(lán)色為容災(zāi)站點(diǎn)磁盤):1. 綠色和橙色磁盤之間進(jìn)行 pprc-xd 異步操作2. 綠色磁盤組根據(jù)預(yù)先設(shè)置的時(shí)間,生成“一致性組”(consistencygroup),并記錄狀態(tài)3. 采用 pprc-xd 異步操作方式,將且只將“一致性組”記錄下來的數(shù)據(jù) 傳遞從綠色磁盤組傳遞到橙色磁盤組4. 3 完成后,立刻將橙色磁盤組數(shù)據(jù) flashcopy 到藍(lán)色磁盤組,進(jìn)行一 致性數(shù)據(jù)保留5. 4 完成后,回到步驟 1由于有“一致性組”的保護(hù),雖然采用異步方式,一旦每一個(gè)“一致性組” 數(shù)據(jù)包傳遞成功的那一時(shí)刻,橙色磁盤組的數(shù)據(jù)是一致的;由于步驟 4,藍(lán)色磁 盤組將能夠保留最近一次“一致性完全”的數(shù)據(jù)。一旦出現(xiàn)災(zāi)難,客戶丟失的是 兩次生成“一致性組”間隔之間的數(shù)據(jù)。如果網(wǎng)絡(luò)發(fā)生故障,pprc gm 會(huì)等待網(wǎng)絡(luò)恢復(fù),重新生成“一致性組”(對(duì) 于經(jīng)歷的較長時(shí)間網(wǎng)絡(luò)故障的系統(tǒng)而言,只是新的“一致性組”中的數(shù)據(jù)會(huì)比較 大而已),繼續(xù)進(jìn)行 pprc gm 的正常操作。pprc gm 能夠每 35 秒生成一次“一致性組”,意味著客戶即使采用異步方 式,也有可能只丟失 35 秒的數(shù)據(jù)。emc srdf/a 的工作方式如下:srdf/a 使用“增量集”來短期維護(hù)一組寫入操作。增量集是 srdf/a 所提供的所有功能的基礎(chǔ)。srdf/a 使用四種類型的增量集來管理數(shù)據(jù)流處理過程。srdf/a 的數(shù)據(jù) 流可歸結(jié)為幾個(gè)步驟:源位置的增量集:捕獲 - 在緩存中捕獲所有傳入到 srdf/a 組所涉及的源卷的寫入 操作。完成此“捕獲增量集”后,該集合中的寫入操作將被“折 疊”,并升級(jí)為“傳輸增量集”,同時(shí)開始傳輸其中的內(nèi)容。(然 后另外創(chuàng)建一個(gè)新的捕獲增量集,來維護(hù)下一個(gè)寫入操作增量 集。)傳輸 - 將內(nèi)容從源系統(tǒng)傳輸?shù)侥繕?biāo)系統(tǒng),僅傳輸最近的寫入操作 集。目標(biāo)位置的增量集:接收 - 接收增量集位于目標(biāo)系統(tǒng)上,用于接收由源位置的傳輸增 量集傳來的數(shù)據(jù)。接收到全部數(shù)據(jù)后,它將升級(jí)為應(yīng)用增量集。 應(yīng)用 - 將增量集中的寫入操作應(yīng)用到目標(biāo)卷,以創(chuàng)建一致的可重新 啟動(dòng)的遠(yuǎn)程拷貝。這就完成了增量集循環(huán)。如果網(wǎng)絡(luò)發(fā)生故障,由于 srdf/a 使用“增量集”存在于磁盤系統(tǒng)的高速緩存 中,一定時(shí)間的故障會(huì)造成高速緩存溢出,此時(shí)必須中斷 srdf/a,等待網(wǎng)絡(luò)恢 復(fù)。從網(wǎng)絡(luò)故障到恢復(fù)之間的數(shù)據(jù)只能夠采用傳統(tǒng)的 srdf 異步方式傳遞,為了 防止異步傳遞被異常中斷而造成對(duì)遠(yuǎn)程數(shù)據(jù)庫的破壞,在傳遞數(shù)據(jù)之前必須采用 timefinder 保護(hù)一下遠(yuǎn)程的數(shù)據(jù),然后才能夠繼續(xù)操作。4 容災(zāi)系統(tǒng)方案設(shè)計(jì)4.1 上海移動(dòng)系統(tǒng)現(xiàn)狀上海移動(dòng)目前主要有兩個(gè)生產(chǎn)機(jī)房,一個(gè)在欽州,一個(gè)在橫浜,業(yè)務(wù)分布如 下圖所示:欽州路生產(chǎn)中心:營帳、計(jì)費(fèi)、網(wǎng) 間結(jié)算、充值、經(jīng) 營分析和ondemand橫浜路生產(chǎn)中心:1860客服系統(tǒng)上海移動(dòng)目前的主要應(yīng)用系統(tǒng)均運(yùn)行在aix 433和oracle 8174下,部分業(yè)務(wù)運(yùn)行在aix 5.1/5.2下,但數(shù)據(jù)庫依然為oracle 8i;存儲(chǔ)設(shè)備有ibm ess 和7133 也有emc存儲(chǔ)。部分產(chǎn)品將根據(jù)實(shí)際情況升級(jí),但不在本方案中具體涉及。系統(tǒng)主機(jī)設(shè)備/地點(diǎn)存儲(chǔ)設(shè)備/地點(diǎn)營帳s85x2/欽州,2004年4季度將 f20/欽州,2004年4季度更新為p5-570x2將新增一臺(tái)ess800,計(jì) 費(fèi)與營帳的存儲(chǔ)將分 開。計(jì)費(fèi)s85x2/欽州f20/欽州1860p650x2/橫浜e20/橫浜 經(jīng)營分析p690x2/欽州emc/欽州 充值p630x2/欽州7133/欽州 采集h85x1/欽州f20/欽州 網(wǎng)間結(jié)算m80x2/欽州f20/橫浜下面將會(huì)對(duì)這些系統(tǒng)的容災(zāi)方案進(jìn)行具體闡述。4.2容災(zāi)架構(gòu)整體設(shè)計(jì)容災(zāi)系統(tǒng)總體架構(gòu)設(shè)計(jì)綜合以上要求,我們實(shí)際如下的容災(zāi)系統(tǒng)整體架構(gòu),在這個(gè)架構(gòu)中,對(duì)實(shí)時(shí) 性恢復(fù)要求高的核心業(yè)務(wù)的數(shù)據(jù)庫,我們考慮了兩層容災(zāi)設(shè)計(jì)。這里的核心業(yè)務(wù) 我們認(rèn)為是營帳數(shù)據(jù)庫,充值數(shù)據(jù)庫和1860數(shù)據(jù)庫。對(duì)于計(jì)費(fèi),經(jīng)營分析,網(wǎng)間 結(jié)算,批價(jià)等,我們考慮存儲(chǔ)層的容災(zāi)。由于從實(shí)際業(yè)務(wù)中,以下具體應(yīng)用模塊和數(shù)據(jù)庫是關(guān)鍵性的,所以單獨(dú)對(duì)這 些模塊進(jìn)行進(jìn)一步說明。由于boss 1.5的具體稱呼有些變化,但鑒于目前為止改 造項(xiàng)目并沒有實(shí)施完成,所以,我們主要從數(shù)據(jù)庫和數(shù)據(jù)一層考慮業(yè)務(wù)的具體特 性和容災(zāi)方式。營帳系統(tǒng)營帳系統(tǒng)是移動(dòng)業(yè)務(wù)中的核心系統(tǒng),實(shí)時(shí)性要求高,對(duì)于容災(zāi)系統(tǒng)的要求也 是最高,所以在此我們考慮使用數(shù)據(jù)庫備份模式加上存儲(chǔ)層數(shù)據(jù)鏡像模式。使用 業(yè)界成熟流行的數(shù)據(jù)庫實(shí)時(shí)抽取技術(shù)或者standby database技術(shù),在生產(chǎn)中心隨 時(shí)保留一個(gè)與生產(chǎn)庫基本同步的數(shù)據(jù)庫,該數(shù)據(jù)庫是處于open狀態(tài)的。這樣可以 在發(fā)生數(shù)據(jù)庫邏輯可以快速接管。這種方案的缺點(diǎn)是可能會(huì)有一些數(shù)據(jù)需要在事 后進(jìn)行補(bǔ)錄,但丟失的數(shù)據(jù)是非常少的。具體容災(zāi)架構(gòu)如下圖:營帳系統(tǒng)容災(zāi)架構(gòu)圖所有營帳數(shù)據(jù)庫里的數(shù)據(jù)都會(huì)通過存儲(chǔ)層的方案鏡像到金橋中心。本地通過數(shù)據(jù)抽取另生成一個(gè)active的數(shù)據(jù)庫,與源數(shù)據(jù)庫近乎同步, 一旦需要,可立即將應(yīng)用切換過來。如果本地有兩個(gè)物理存儲(chǔ),考慮到 高可用性,可以將抽取出來的數(shù)據(jù)放到另外一個(gè)存儲(chǔ)設(shè)備上。目前計(jì)劃進(jìn)行營帳系統(tǒng)“瘦身”計(jì)劃,擬將目前營帳數(shù)據(jù)庫中的歷史庫 剝離開,營帳庫中僅僅保留核心數(shù)據(jù),這樣更加適合采用復(fù)合方式。如果碰到非數(shù)據(jù)庫邏輯錯(cuò),本地接管不能恢復(fù),那么就盡快啟動(dòng)金橋中 心的備份??头?860系統(tǒng)1860系統(tǒng)對(duì)于移動(dòng)維系和提高客戶關(guān)系和客戶滿意度有著極其重要的意義, 同時(shí)1860系統(tǒng)也是一個(gè)實(shí)時(shí)聯(lián)機(jī)交易系統(tǒng)。目前有計(jì)劃將c/s結(jié)構(gòu)逐步改造成為 w/s結(jié)構(gòu),這樣本次備份中僅僅考慮數(shù)據(jù)庫服務(wù)器。應(yīng)用服務(wù)器可以不必考慮專 用的備份。1860容災(zāi)系統(tǒng)架構(gòu)如下圖所示:1860容災(zāi)系統(tǒng)架構(gòu)圖所有1860數(shù)據(jù)庫里的數(shù)據(jù)都會(huì)通過存儲(chǔ)層的方案鏡像到金橋中心。本地通過數(shù)據(jù)抽取另生成一個(gè)active的數(shù)據(jù)庫,與源數(shù)據(jù)庫近乎同步, 一旦需要,可立即將應(yīng)用切換過來。如果碰到非數(shù)據(jù)庫邏輯錯(cuò),本地接管不能恢復(fù),那么就盡快啟動(dòng)金橋中 心的備份。不必考慮專用的應(yīng)用服務(wù)器,可以共享。計(jì)費(fèi)系統(tǒng) 計(jì)費(fèi)業(yè)務(wù)處理屬于boss后臺(tái)處理,其業(yè)務(wù)中斷對(duì)客戶業(yè)務(wù)受理不產(chǎn)生直接影響,但是,計(jì)費(fèi)業(yè)務(wù)的中斷將間接影響漫游用戶處理、帳務(wù)處理、交費(fèi)、用戶查詢等業(yè)務(wù)功能,這將會(huì)一定程度上影響客戶滿意度,并導(dǎo)致基于boss的預(yù)付費(fèi)業(yè) 務(wù)產(chǎn)生透支及壞帳,所以一旦計(jì)費(fèi)業(yè)務(wù)故障發(fā)生,也必須在最短時(shí)間內(nèi)恢復(fù)。計(jì) 費(fèi)業(yè)務(wù)的數(shù)據(jù)主要分為數(shù)據(jù)庫里的數(shù)據(jù)和文件系統(tǒng)中的原始話單。兩部分?jǐn)?shù)據(jù)可 以統(tǒng)一用存儲(chǔ)層的技術(shù)解決,但是較好的辦法是:數(shù)據(jù)庫里的數(shù)據(jù)用存儲(chǔ)技術(shù)實(shí) 現(xiàn),文件系統(tǒng)的話單可以由應(yīng)用程序增加分發(fā)路徑,多放一份拷貝即可。計(jì)費(fèi)系 統(tǒng)由于數(shù)據(jù)庫龐大,同時(shí)實(shí)時(shí)性沒有聯(lián)機(jī)交易系統(tǒng)要求高,所以不考慮standby 數(shù)據(jù)庫的方式。計(jì)費(fèi)系統(tǒng)容災(zāi)架構(gòu)如圖所示:計(jì)費(fèi)容災(zāi)系統(tǒng)架構(gòu)圖數(shù)據(jù)庫里的數(shù)據(jù)通過存儲(chǔ)技術(shù)鏡像到金橋中心。文件系統(tǒng)的話單通過增加分發(fā)路徑傳輸?shù)浇饦蛑行模枰獑为?dú)專用 的空間存放。目前生產(chǎn)中心是使用三臺(tái)m8
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 餡餅制作教學(xué)課程設(shè)計(jì)
- 美術(shù)畢業(yè)課程設(shè)計(jì)
- 基于mapreduce的課程設(shè)計(jì)
- 純凈水檢測課程設(shè)計(jì)
- 螺紋蓋塑料課程設(shè)計(jì)
- 通信原理ssb課程設(shè)計(jì)
- 鑄造工藝學(xué)課程設(shè)計(jì)懸梁
- 餅干造型手工課程設(shè)計(jì)
- 運(yùn)輸成本課程設(shè)計(jì)
- 鍛造 專業(yè) 課程設(shè)計(jì)
- 醫(yī)療組長競聘
- 2024年業(yè)績換取股權(quán)的協(xié)議書模板
- 顳下頜關(guān)節(jié)疾?。谇活M面外科學(xué)課件)
- 工業(yè)自動(dòng)化設(shè)備維護(hù)保養(yǎng)指南
- 2024人教新版七年級(jí)上冊(cè)英語單詞英譯漢默寫表
- 《向心力》參考課件4
- 2024至2030年中國膨潤土行業(yè)投資戰(zhàn)略分析及發(fā)展前景研究報(bào)告
- 2024年深圳中考數(shù)學(xué)真題及答案
- 土方轉(zhuǎn)運(yùn)合同協(xié)議書
- Module 3 Unit 1 Point to the door(教學(xué)設(shè)計(jì))-2024-2025學(xué)年外研版(三起)英語三年級(jí)上冊(cè)
- 智能交通信號(hào)燈安裝合同樣本
評(píng)論
0/150
提交評(píng)論