上海移動容災(zāi)系統(tǒng)方案設(shè)計報告.doc_第1頁
上海移動容災(zāi)系統(tǒng)方案設(shè)計報告.doc_第2頁
上海移動容災(zāi)系統(tǒng)方案設(shè)計報告.doc_第3頁
上海移動容災(zāi)系統(tǒng)方案設(shè)計報告.doc_第4頁
上海移動容災(zāi)系統(tǒng)方案設(shè)計報告.doc_第5頁
已閱讀5頁,還剩142頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

上海移動容災(zāi)系統(tǒng)方案設(shè)計報告ibm 公司上海分公司version 5.079 ibm專有信息聲明本設(shè)計報告屬商業(yè)機密文件,書中的所有信息均為ibm機密信息,僅供上海移動容災(zāi)項目使用。務(wù)請妥善保管并且僅在與項目有關(guān)人員范圍內(nèi)使用,未經(jīng)ibm 公司明確做出的書面許可,不得為任何目的、以任何形式或手段(包括電子、機 械、復(fù)印、錄音或其他形式)對本文檔的任何部分進行復(fù)制、存儲、引入檢索系 統(tǒng)或者傳播。盡管ibm已經(jīng)盡力保證本文檔內(nèi)容的完整性和有效性,但仍可能存在某些方 面不夠準確的地方或印刷錯誤。若需求有所變化,ibm將對有關(guān)內(nèi)容進行相對應(yīng) 的調(diào)整,并在本報告的未來版本中體現(xiàn)。ibm是國際商業(yè)機器公司的注冊商標。本文檔提及的其他公司、產(chǎn)品和服務(wù) 的名稱,可能是其他公司的商標或服務(wù)的標志。copyright ibm china company limitedall rights reserved關(guān)于本文檔文檔信息文檔名稱上海移動容災(zāi)系統(tǒng)方案設(shè)計報告作者ibm全球服務(wù)部說明本文檔是上海移動容災(zāi)系統(tǒng)方案設(shè)計報告,由ibm公司上海分公司和上海移動容災(zāi)系統(tǒng)項目組共同編寫。文件名稱上海移動容災(zāi)系統(tǒng)方案設(shè)計報告 v5.0.doc怱訂歷史 (revision history)revsectiontypedateauthorremarks1.0allnew2004-09-13ibmshmccteam創(chuàng) 建 方 案 第 一 版本。2.0allrevised2004-09-22ibmshmccteam根據(jù)客戶反饋怱改而成3.0-3.1allrevised2004-09-27ibmshmccteam根據(jù)客戶反饋怱改而成,增加存儲管 樅 和 災(zāi) 難 恢 復(fù) 計 劃,網(wǎng)絡(luò)設(shè)計考慮多種方案4.0allrevised2004-10-08ibmshmccteam整樅版本5.0allrevised2004-10-25ibmshmccteam加入摘要,加強存儲管樅內(nèi)容。內(nèi)容范圍本文檔是上海移動容災(zāi)系統(tǒng)方案設(shè)計報告,屬于機密文件。 適用的對象本文檔適用于參與上海移動容災(zāi)項目組的決策者、評估者。目錄1摘要72容災(zāi)系統(tǒng)建設(shè)意義83容災(zāi)技術(shù)方案選型123.1容災(zāi)系統(tǒng)架構(gòu)方案設(shè)計范圍123.2容災(zāi)技術(shù)方案設(shè)計方法123.3容災(zāi)系統(tǒng)建設(shè)目標123.4容災(zāi) 7 層技術(shù)模型介紹133.5容災(zāi)技術(shù)方案選型考慮164容災(zāi)系統(tǒng)方案設(shè)計234.1上海移動系統(tǒng)現(xiàn)狀234.2容災(zāi)架構(gòu)整體設(shè)計244.3容災(zāi)系統(tǒng)詳細設(shè)計314.3.1本地數(shù)據(jù)庫容災(zāi)313.3.2容災(zāi)系統(tǒng)主機設(shè)計324.3.2容災(zāi)系統(tǒng)存儲設(shè)計463.3.4容災(zāi)系統(tǒng)網(wǎng)絡(luò)設(shè)計534.4容災(zāi)系統(tǒng)備份方案設(shè)計714.4.1數(shù)據(jù)備份概述714.4.2備份系統(tǒng)現(xiàn)狀分析734.4.3容災(zāi)備份系統(tǒng)邏輯設(shè)計754.4.4容災(zāi)備份系統(tǒng)配置設(shè)計824.4.5容災(zāi)備份系統(tǒng)專業(yè)服務(wù)844.5容災(zāi)系統(tǒng)管理方案設(shè)計864.5.1存儲資源管理864.5.2存儲網(wǎng)絡(luò)管理915容災(zāi)系統(tǒng)實施計劃945.1災(zāi)難恢復(fù)計劃945.2上海移動容災(zāi)項目實施計劃956附錄966.1機房工程技術(shù)說明966.2上海移動業(yè)務(wù)支撐系統(tǒng)平臺現(xiàn)狀概況一覽表。1056.3ibm 項目管理服務(wù)1076.4支持多廠商的網(wǎng)絡(luò)存儲通用管理軟件 sanavigator 版本1146.5容災(zāi)系統(tǒng)管理方案設(shè)計1216.5.1系統(tǒng)管理現(xiàn)狀1216.5.2系統(tǒng)管理需求1226.5.3系統(tǒng)管理架構(gòu)建議1236.5.4事件管理1266.5.5網(wǎng)絡(luò)管理1286.5.6數(shù)據(jù)庫管理1296.5.7主機系統(tǒng)監(jiān)控1316.5.8sla 管理1336.5.9boss 應(yīng)用管理1346.5.10流程管理1341 摘要一、項目背景隨著電信市場的開放以及中國加入 wto 進程的進行,中國移動通信面臨著前 所未有的發(fā)展機遇和挑戰(zhàn)。作為一個電信運營商,其 it 系統(tǒng)的應(yīng)用直接關(guān)乎管 理、服務(wù)、成本、效率等各個重要環(huán)節(jié),并最終全面影響運營商的競爭力。電信 行業(yè)是一個講究系統(tǒng)高可用性的行業(yè),它要求關(guān)鍵應(yīng)用服務(wù)器必須 247 的不間 斷運行,以滿足超大量用戶的實時訪問,任何潛在的單點故障都有可能導(dǎo)致整個 系統(tǒng)的癱瘓。為了保證信息系統(tǒng)的穩(wěn)定和數(shù)據(jù)的安全,提高業(yè)務(wù)運營系統(tǒng)的服務(wù) 質(zhì)量,確保在日益激烈的市場競爭中確立主導(dǎo)地位,上海移動決定在現(xiàn)有業(yè)務(wù)運 營支撐系統(tǒng)的基礎(chǔ)上,結(jié)合自身的特點和實踐經(jīng)驗進行上海移動業(yè)務(wù)運營支撐容 災(zāi)系統(tǒng)工程的建設(shè)。本次上海移動業(yè)務(wù)運營支撐容災(zāi)系統(tǒng)工程的目標,是按照移動集團公司 boss 系統(tǒng)容災(zāi)備份技術(shù)規(guī)范和業(yè)務(wù)規(guī)范,主要考慮中國移動業(yè)務(wù)支撐網(wǎng)中的 boss 系統(tǒng),兼顧經(jīng)營分析系統(tǒng)。對于 boss 系統(tǒng),將主要考慮其中的營帳子系統(tǒng), 計費子系統(tǒng),充值子系統(tǒng),1860 子系統(tǒng),綜合結(jié)算中的網(wǎng)間結(jié)算子系統(tǒng)。整個容災(zāi)系統(tǒng)建設(shè)將遵循統(tǒng)一規(guī)劃,分步實施的原則。二、本設(shè)計報告內(nèi)容結(jié)構(gòu)本容災(zāi)設(shè)計報告主要分為四大部分:容災(zāi)系統(tǒng)建設(shè)意義、容災(zāi)技術(shù)方案選型、 容災(zāi)系統(tǒng)方案設(shè)計以及容災(zāi)系統(tǒng)實施計劃。容災(zāi)系統(tǒng)建設(shè)意義部分主要從行業(yè)競爭需要、業(yè)務(wù)穩(wěn)定需要和企業(yè)管理需要 三方面闡述了容災(zāi)系統(tǒng)的建設(shè)意義。容災(zāi)技術(shù)方案選型部分主要根據(jù)上海移動 boss 系統(tǒng)的現(xiàn)狀和將來的發(fā)展并 滿足對應(yīng)用和在用系統(tǒng)影響最小以及生產(chǎn)系統(tǒng)變動的需要推薦使用存儲層+數(shù)據(jù) 庫層的復(fù)合容災(zāi)方案。容災(zāi)系統(tǒng)方案設(shè)計部分主要針對上海移動 boss 系統(tǒng)的各個子系統(tǒng)提出了各 自的容災(zāi)架構(gòu)設(shè)計,根據(jù)各子系統(tǒng)的實時性恢復(fù)要求提出對于營帳數(shù)據(jù)庫,充值 數(shù)據(jù)庫和 1860 數(shù)據(jù)庫實施兩層容災(zāi)設(shè)計;對于計費,經(jīng)營分析,網(wǎng)間結(jié)算,批 價等提出存儲層的容災(zāi)設(shè)計。另外還從容災(zāi)系統(tǒng)的主機、存儲、網(wǎng)絡(luò)、備份方案 以及存儲資源和存儲網(wǎng)絡(luò)管理方案方面作了詳細的設(shè)計。容災(zāi)系統(tǒng)實施計劃部分介紹了如何系統(tǒng)的實施災(zāi)難恢復(fù)計劃以保證災(zāi)難發(fā) 生時業(yè)務(wù)操作地連續(xù)性。2 容災(zāi)系統(tǒng)建設(shè)意義中國有句古話叫做“天有不測風(fēng)云,人有旦夕禍?!?,充分說明災(zāi)難的不可測性。911 事件是對這句話的最好注腳,在里面辦公的 286 家公司的 5 萬多名員 工是根本不會想到好端端的坐在辦公室里居然會有飛機撞過來。在這種近乎毀滅 性的局部災(zāi)難面前,是否有異地容災(zāi)系統(tǒng)就變成了關(guān)乎企業(yè)生存的現(xiàn)實問題。最 近國內(nèi)也發(fā)生了類似災(zāi)難,大連某個銀行的生產(chǎn)中心突然著火,因為沒有災(zāi)備系 統(tǒng),造成全部業(yè)務(wù)停止兩天,這還是不幸中的萬幸,因為絕大多數(shù)機器設(shè)備經(jīng)過 修復(fù)還可以使用,尤其是存儲設(shè)備,否則,后果真是不堪設(shè)想。很多企業(yè)是從 911 事件后開始真正認真考慮容災(zāi)的,以往容災(zāi)系統(tǒng)的建設(shè)往 往被視為錦上添花的項目而不是一個業(yè)務(wù)可持續(xù)性運行的必須項目。我們可以吸 取的教訓(xùn)是一定要建立核心數(shù)據(jù)和業(yè)務(wù)的容災(zāi)系統(tǒng),并且平時要加強管理和演 習(xí),加強人員的培訓(xùn),核心管理人員和技術(shù)的分散,以提高計算機系統(tǒng)因為天災(zāi) 或人為因素等意外事故導(dǎo)致系統(tǒng)毀壞無法運行時的抵御能力,至少將局部地區(qū)核 心業(yè)務(wù)支持在系統(tǒng)故障時的損失減至最小。無論是國內(nèi)還是國外的用戶,無論是政府還是企業(yè),現(xiàn)在都在思考這樣一個 問題,那就是,假設(shè)我們的企業(yè)發(fā)生了類似的情況,我們是否有足夠的備份措施, 企業(yè)的數(shù)據(jù)是否有足夠的保障?在美國、日本等一些發(fā)達國家,對于關(guān)乎國計民 生的行業(yè),有專門的法律要求該企業(yè)必須有災(zāi)難保護方案,(如美國是 bcc 177) 并且每年都會進行審計和稽核。國內(nèi)因為目前還沒有類似的法律約束,很多企業(yè) 對于應(yīng)用比較重視,但是對于整體系統(tǒng)的可用性考慮得不多,甚至是一些金融企 業(yè),當有類似數(shù)據(jù)庫出錯等故障發(fā)生時,還依然只能通過倒磁帶的方式恢復(fù)數(shù)據(jù)。 這種情況下,丟失數(shù)據(jù)就是不可避免的了,并且由于恢復(fù)時間的漫長,對廣大客 戶承諾的服務(wù)水平又如何能夠達到?現(xiàn)在,隨著中國加入 wto,一些國內(nèi)先進的 有前瞻性的企業(yè)也在這方面給予了足夠的重視,如上海移動等單位。隨著上海移動業(yè)務(wù)的飛速發(fā)展,業(yè)務(wù)對 it 系統(tǒng)的依賴性也隨之增加,越來 越多的業(yè)務(wù)集中到生產(chǎn)主機上,對主機和存儲設(shè)備都造成了較大的壓力。當一個 單位越來越依賴于數(shù)據(jù)處理去進行它的業(yè)務(wù)行為時,數(shù)據(jù)處理的高可靠性和高可 用性就尤為關(guān)鍵,大部分單位的業(yè)務(wù)處理需要數(shù)據(jù)處理的高可用性。用戶發(fā)現(xiàn)如 果沒有了數(shù)據(jù)處理,業(yè)務(wù)的開展變得極端困難,也許手工操作還可以使用,但那 只能用于短期的應(yīng)付,一個計算機系統(tǒng)的長期停止運轉(zhuǎn)將直接導(dǎo)致明顯的業(yè)務(wù)后 果,也許還會被追究管理責(zé)任。更為重要的是,一旦數(shù)據(jù)由于某種原因永久性丟 失,不但會給企業(yè)的運作帶來極大的困難,企業(yè)的商業(yè)信譽必將受到致命的打擊, 在競爭中處于劣勢,造成不可估量的后果。基于這種考慮,中國移動總部提出了在各省建設(shè) boss 系統(tǒng)容災(zāi)備份的要求, 這個報告書就是為上海移動的容災(zāi)系統(tǒng)進行方案設(shè)計。本方案中將重點討論 boss 系統(tǒng)的詳細容災(zāi)方案,兼顧其他業(yè)務(wù)系統(tǒng),同時根據(jù)上海移動的實際情況分步實現(xiàn)。當然,我們考慮容災(zāi)系統(tǒng)建設(shè)時,也應(yīng)該實事求是,從實際出發(fā)。能夠防御 所有災(zāi)難的方案是不存在的,也是不現(xiàn)實的。我們認為,計算機系統(tǒng)的災(zāi)難定義 是可以由用戶自己來定義的,各個行業(yè)可以有不同的要求。設(shè)計容災(zāi)系統(tǒng)時,應(yīng) 該基于一個合理的前提假設(shè),譬如,在主機房發(fā)生故障時,備份機房可以保證數(shù) 據(jù)的完整性,并且可以在最短時間內(nèi)完成應(yīng)用、網(wǎng)絡(luò)和數(shù)據(jù)的接管。本方案中的 容災(zāi)系統(tǒng)正是基于這種前提來設(shè)計,我們暫不考慮那種同時損壞主備機房的可能 性。讓我們再來看看容災(zāi)系統(tǒng)建設(shè)的意義,這個在移動總部的容災(zāi)系統(tǒng)建設(shè)規(guī)范 中也有多次強調(diào):行業(yè)競爭的需要美國明尼蘇達大學(xué)研究機構(gòu)的統(tǒng)計結(jié)果表明,對于銀行,金融,證券,電信等行業(yè)的企業(yè)而言,如果業(yè)務(wù)停頓時間長達兩天或更長,那么 25% 的企業(yè)將立 刻因信譽和業(yè)務(wù)問題而倒閉,40% 的企業(yè)將因為受不斷的后續(xù)因素的影響導(dǎo)致綜 合競爭力的下降而在今后兩至五年內(nèi)被淘汰,五年以后僅有 7% 的企業(yè)能夠繼續(xù) 在此行業(yè)內(nèi)生存。目前,在國內(nèi),通訊行業(yè)內(nèi)的競爭本來就很激烈,加之 wto 之后,國外實力 雄厚的企業(yè)對國內(nèi)市場的窺視,將不可避免地造成企業(yè)爭奪客戶群的白熱化的局 面,因此企業(yè)總體服務(wù)的水平將是影響競爭結(jié)果的重要因素。試想,一個時不時 就會抱歉地對客戶說:“對不起,由于我們的主機系統(tǒng)有問題,您要求的業(yè)務(wù)暫 時無法辦理”的企業(yè)將無法贏得挑剔的客戶的芳心。即使在發(fā)生眾所周知的 災(zāi)害,如果系統(tǒng)也是長時間的無法恢復(fù),也會帶來極嚴重的后果。所以,it 系 統(tǒng)的完善程度是激烈競爭的一個最重要的前提,在此基礎(chǔ)上,企業(yè)才能開發(fā)豐富 多樣的業(yè)務(wù)品種,提供高質(zhì)量的服務(wù)水平,在競爭中取得優(yōu)勢。不久前發(fā)生在南 京的“愛立信跳槽事件”已經(jīng)表明了中國加入 wto 后行業(yè)競爭的殘酷性和現(xiàn)實性。 根據(jù)業(yè)務(wù)的不同,對各種程度的中心系統(tǒng)可靠性要求也不同,如從最高等級 的xx服務(wù),到在指定時間內(nèi)恢復(fù)。為了滿足這些要求,更好地為客 戶服務(wù),上海移動應(yīng)當未雨綢繆,盡早制定和建立完備的災(zāi)難恢復(fù)計劃系統(tǒng),以增強系統(tǒng)的抗災(zāi)能力,最大限度地減小損失。業(yè)務(wù)穩(wěn)定的需要時至今日,企業(yè)業(yè)務(wù)運營對信息系統(tǒng)的運作的依賴性越大,就對信息系統(tǒng)運作的穩(wěn)定性和可靠性的要求越高。 而信息系統(tǒng)可用的定義已不再局限于主機設(shè)備的可用,而是從主機,存儲,用戶終端,網(wǎng)絡(luò)設(shè)備整體的物理可用,到系統(tǒng),數(shù)據(jù)庫,應(yīng)用軟件,用戶數(shù)據(jù)的 邏輯可用。然而,由于各種因素的影響,小至一般性的硬件故障,大到區(qū)域性的自然災(zāi) 害,從物理的設(shè)備不可用,到邏輯的人為失誤和破壞,都可能造成整個信息系統(tǒng) 的全面癱瘓,從而導(dǎo)致業(yè)務(wù)運營的停頓。因此,同一機房中的雙主機恢復(fù)系統(tǒng)有 很多企業(yè)已經(jīng)覺得不能滿足需求,特別是因為應(yīng)用的要求而作了區(qū)域集中或全國大集中的企業(yè),在享受數(shù)據(jù)集中帶來的諸多好處時,同時也承擔著數(shù)據(jù)丟失或者it 系統(tǒng)不可用帶來的巨大風(fēng)險。從以下這份國外的研究報告中我們可以知道這 些擔憂不是杞人憂天。這是 1996 年 source contingencyplanning research inc。 對于各種因素包括自然災(zāi)害:水災(zāi)、風(fēng)災(zāi)、地震、大雪、野火 結(jié)構(gòu)破壞:電力中斷、火災(zāi)、爆炸 操作問題:硬件問題、病毒入侵、操作失誤、人為破壞。讓我們暫時拋開滿腦子的災(zāi)難,來考慮一下即使是機器沒有發(fā)生故障是否也是 7小時可用呢?我們認為,現(xiàn)實環(huán)境中,這種情況也是不現(xiàn)實的,我們 經(jīng)常會進行一些正常的日常維護活動。假設(shè)我們認為,所有災(zāi)難都是屬于非計劃 中的系統(tǒng)不可用,那么還有很大一部分系統(tǒng)不可用時間是屬于計劃中的,從下圖 中我們可以看到非計劃宕機只是占了 it 系統(tǒng)不可用的 10%,而計劃中的宕機占了 90%。 如果我們有了容災(zāi)系統(tǒng),起碼我們可以將很多計劃中的停機事件避免,如數(shù)據(jù)備份,完全可以在容災(zāi)中心進行,同時,我們可以利用容災(zāi)中心做許多諸如新 的應(yīng)用程序測試,壓力測試等等,若是結(jié)合第二份數(shù)據(jù)鏡像功能,我們完全可以 輕松自如的在容災(zāi)中心進行數(shù)據(jù)查詢,數(shù)據(jù)挖掘等業(yè)務(wù)。當然,這些業(yè)務(wù)在只有 一份遠程鏡像時也可以實現(xiàn),只是需要較為仔細和復(fù)雜的操作,并且有可能暫時 中斷鏡像等,相比之下沒有前者操作方便簡單,對生產(chǎn)系統(tǒng)的沖突更小。definition of outagesmost customer outages are caused bydata base backup andchange controlplannedoutages90.0%unplannedoutages10.0%dbbackup52.0%operations25.0%software30.0%other9.0%application8.0%hardware8.0%software13.0%network10.0%hardware15.0%other3.0%application27.0% l a n n e d n p la n n e d 圖:造成系統(tǒng)不可用的因素企業(yè)管理的需要美國 911 恐怖襲擊事件之后,華爾街上幾乎所有的金融機構(gòu)都未受到致命的影響,這都要歸功于企業(yè)制定的業(yè)務(wù)持續(xù)性計劃。企業(yè)管理標準要求,每個企業(yè) 應(yīng)該具備一套保證企業(yè)在發(fā)生緊急事故時能夠從容應(yīng)對的管理計劃,這就是業(yè)務(wù) 持續(xù)性計劃。這套計劃將使得客戶能夠在災(zāi)難時啟動相關(guān)的備份設(shè)備,協(xié)調(diào)人員 流動,應(yīng)對媒體訪問,確保業(yè)務(wù)的正常運營。作為業(yè)務(wù)持續(xù)性計劃的一部分,信息系統(tǒng)的災(zāi)難恢復(fù)計劃的制定是非常重要 和關(guān)鍵的,它將直接決定企業(yè)業(yè)務(wù)應(yīng)用的恢復(fù)時間,制定信息系統(tǒng)的容災(zāi)計劃也 是對現(xiàn)有投資的保護。信息系統(tǒng)設(shè)備,軟件的購買和應(yīng)用是為了能更好的處理業(yè) 務(wù),由此獲得的客戶滿意和競爭實力不應(yīng)該因為一次嚴重的故障而喪失殆盡。信 息系統(tǒng)的容災(zāi)計劃將使企業(yè)在緊急狀況下仍能夠正常營業(yè),從而顯示出更強于其 它企業(yè)的競爭力。3 容災(zāi)技術(shù)方案選型3.1 容災(zāi)系統(tǒng)架構(gòu)方案設(shè)計范圍根據(jù)上海移動的要求,本次容災(zāi)系統(tǒng)架構(gòu)方案設(shè)計將主要考慮中國移動業(yè)務(wù) 支撐網(wǎng)中的 boss 系統(tǒng),兼顧經(jīng)營分析系統(tǒng)。對于 boss 系統(tǒng),將主要考慮其中的 營帳子系統(tǒng),計費子系統(tǒng),充值子系統(tǒng),1860 子系統(tǒng),綜合結(jié)算中的網(wǎng)間結(jié)算子 系統(tǒng)。整個容災(zāi)系統(tǒng)建設(shè)將遵循統(tǒng)一規(guī)劃,分步實施的原則,而不是一蹴而就的。3.2容災(zāi)技術(shù)方案設(shè)計方法移動總部的容災(zāi)系統(tǒng)業(yè)務(wù)規(guī)范建議容災(zāi)系統(tǒng)按照以下的方法論進行,本設(shè)計 是具體的方案設(shè)計部分。人 員調(diào) 控需 求 分 析需 求 分 析方 案 設(shè) 計核核核核 心心心心 業(yè)業(yè)業(yè)業(yè) 務(wù)務(wù)務(wù)務(wù) 及及及及 其其其其關(guān)關(guān)關(guān)關(guān) 聯(lián)聯(lián)聯(lián)聯(lián) 業(yè)業(yè)業(yè)業(yè) 務(wù)務(wù)務(wù)務(wù)習(xí) 、 測 試 、 維 護方 案 實 施需 求 分 析方 案 設(shè) 計核核核核 心心心心 業(yè)業(yè)業(yè)業(yè) 務(wù)務(wù)務(wù)務(wù) 及及及及 其其其其關(guān)關(guān)關(guān)關(guān) 聯(lián)聯(lián)聯(lián)聯(lián) 業(yè)業(yè)業(yè)業(yè) 務(wù)務(wù)務(wù)務(wù)習(xí) 、 測 試 、 維 護方 案 實 施核 心 業(yè) 務(wù) 及 其 關(guān) 聯(lián) 業(yè) 務(wù)方 案 設(shè) 計en te rp ri演 習(xí) 、 測 試 、 維 護驅(qū) 動方 案 實 施計 劃流 程技 術(shù)映 射3.3容災(zāi)系統(tǒng)建設(shè)目標業(yè)界在建設(shè)容災(zāi)系統(tǒng)時,主要考慮以下的目標參數(shù):恢復(fù)時間目標(rto) 在系統(tǒng)不可用的情況下,你可以忍受多長時間?這 個參數(shù)定義了系統(tǒng)能夠容忍的最長停機時間;恢復(fù)點目標(rpo)當系統(tǒng)被恢復(fù)時,你可以忍受多少數(shù)據(jù)需要重新建立?這個參數(shù)定義了系統(tǒng)能夠容忍的最多數(shù)據(jù)丟失;網(wǎng)絡(luò)恢復(fù)目標(nro) 需要多長時間才可以切換網(wǎng)絡(luò)?這個參數(shù)定義了系 統(tǒng)能夠容忍的最長網(wǎng)絡(luò)停機時間。一個應(yīng)用的完全恢復(fù)應(yīng)該包括主機,數(shù)據(jù)庫,應(yīng)用程序,網(wǎng)絡(luò)連接,應(yīng)用服 務(wù)器和應(yīng)用界面的完全可用。所以具體到一個特定的應(yīng)用,具體的技術(shù)指標會不 一樣。在移動總部的規(guī)范中將 boss 的容災(zāi)恢復(fù)指標定義為 2 級。根據(jù)上海移動 的具體實際,我們認為,將聯(lián)機交易處理類的應(yīng)用如營帳,1860,充值等業(yè)務(wù)的 恢復(fù)目標定義為 2 小時以內(nèi),非聯(lián)機交易如計費的恢復(fù)時間定在 4 小時以內(nèi)是比 較現(xiàn)實的。(這個時間沒有包括決策是時間,但是包括網(wǎng)絡(luò)切換時間)。3.4容災(zāi) 7層技術(shù)模型介紹首先讓我們看看業(yè)界公認的容災(zāi)技術(shù)方案等級,災(zāi)難備援技術(shù)方案的七個級 別:7 tiers for disaster recovery solution,是指根據(jù)國際標準 share 78 的定義,災(zāi)難備援技術(shù)方案可以根據(jù)以下主要方面所達到的程度而分為七級:1、 備份/恢復(fù)的范圍2、 災(zāi)難恢復(fù)計劃的狀態(tài)3、 應(yīng)用站點與備援站點之間的距離4、 應(yīng)用站點與備援站點之間是如何相互連接的5、 數(shù)據(jù)是怎樣在兩個站點之間傳送的6、 允許有多少數(shù)據(jù)被丟失7、 怎樣保證更新的數(shù)據(jù)在備援站點被更新8、 備援站點可以開始備援工作的能力即從低到高有七種不同層次的災(zāi)難恢復(fù)解決方案。 如下圖所示,該七個級別的災(zāi)難備援的技術(shù)方案分別是:tier 1 - ptam“卡車”運送訪問方式 (pickup truck access method)tier 2 - ptam 卡車運送訪問方式+熱備份站點 (ptam + hotsite)tier 3 - 電子鏈接方式 (electronic vaulting)tier 4 - 數(shù)據(jù)庫鏡像和日志方式 (batch/online database shadowing& journaling)tier 5 - 兩點兩階段提交 (two-site two-phase commit)tier 6 - 無數(shù)據(jù)丟失 (zero data loss)tier 7 - 無數(shù)據(jù)丟失和應(yīng)用自動切管 (zero data loss + app automatic takeover)以上七個級別的災(zāi)難備援的技術(shù)方案的特點和區(qū)別,可以參照如下描述:七層模型的可恢復(fù)性比較有無室內(nèi)備份? y/nnyyyyyyy容災(zāi)層次01234567保存的信息 (數(shù)據(jù),指令,文檔)ny/nyyyyyydetermination of requirementsnyyyyyyy專用的容災(zāi)硬件和機房ny/nyyyyyy災(zāi)難恢復(fù)計劃nnyyyyyy選擇性的異地數(shù)據(jù)保存nnyyyyyy支持危機時候的足夠的硬件和網(wǎng)絡(luò)設(shè)備nnyyyyyy至少部分信息的電子方式的備份nnnyyyyyactive management of recovery data by aprocessor at the recovery sitennnnyyyy雙向恢復(fù)nnnnyyyy物理分離nnnnyyyy所選數(shù)據(jù)的鏡像nnnnnyyy異地部分或全部的硬件備份nnnnnyyy主備中心數(shù)據(jù)即時異地傳輸nnnnnnyy根據(jù)策略自動切換到災(zāi)備中心nnnnnnny典型恢復(fù)時間uptonever 1week 1day1 day 1day 12hours 6hoursfewmins.tier 1 - ptam“卡車”運送訪問方式 (pickup truck access method)tier 1 的災(zāi)難恢復(fù)方案必須設(shè)計一個嚴格的數(shù)據(jù)備份方案,能夠備份所需 要的信息并將它遞送存放在異地,然后根據(jù)恢復(fù)的具體需求,有選擇地建立 備份平臺,但不提供數(shù)據(jù)處理的硬件。ptam 是一種被用于許多中心的備份的標準的方式,數(shù)據(jù)在完成寫操作的一 些時候,將會被送到遠離本地的地方,同時準備有數(shù)據(jù)恢復(fù)的程序。在災(zāi)難發(fā)生后,一整套安裝需要在一臺未開啟的計算機上重新完成。系統(tǒng)和數(shù)據(jù)可以被恢復(fù)并重新與網(wǎng)絡(luò)相連。這種災(zāi)難恢復(fù)方案相對來說成本較低(僅僅需 要傳輸工具的消耗以及存儲設(shè)備的消耗)。但同時有這樣的問題,那就是難 于管理,即很難知道什么樣的數(shù)據(jù)在什么樣的地方。tier 2 - ptam 卡車運送訪問方式+熱備份站點 (ptam + hotsite)tier 2 相當于 tier 1 再加上熱備份中心能力的進一步的災(zāi)難恢復(fù)。熱備份 中心擁有足夠的硬件和網(wǎng)絡(luò)設(shè)備去支持關(guān)鍵應(yīng)用的安裝需求,這樣的應(yīng)用是 十分的關(guān)鍵的,它必須在災(zāi)難發(fā)生的同時,在異地有與生產(chǎn)環(huán)境相類似的硬 件提供支持。這種災(zāi)難恢復(fù)的方式依賴于 ptam 方法去將日常數(shù)據(jù)放入倉庫, 當災(zāi)難發(fā)生的時候,數(shù)據(jù)再被移動到一個熱備份的中心。雖然移動數(shù)據(jù)到一 個熱備份中心增加了成本,但卻明顯降低了災(zāi)難恢復(fù)時間。tier 3 - 電子鏈接方式 (electronic vaulting)tier 3 是在 tier 2 的基礎(chǔ)上用電子鏈路取代了卡車進行數(shù)據(jù)的傳送的進一 步的災(zāi)難恢復(fù)。接收方的硬件必須與主中心物理地相分離,在災(zāi)難發(fā)生后, 存儲的數(shù)據(jù)用于災(zāi)難恢復(fù),由于熱備份中心要保持持續(xù)運行,增加了成本。 但消除了傳輸工具的需要,提高了災(zāi)難恢復(fù)速度。tier 4 - 數(shù)據(jù)庫鏡像和日志方式 (batch/online database shadowing & journaling)tier 4 是在 tier3 的基礎(chǔ)上,以數(shù)據(jù)庫遠程備份為基礎(chǔ)。災(zāi)難恢復(fù)具有兩 個中心同時處于活動狀態(tài)并管理彼此的備份數(shù)據(jù),允許備份行動在任何一個 方向發(fā)生。接收方硬件必須保證與另一方平臺物理地分離,在這種情況下, 工作負載可能在兩個中心之間分享,中心 1 成為中心 2 的備份,反之亦然。 在兩個中心之間,彼此的在線關(guān)鍵數(shù)據(jù)的拷貝不停地相互傳送著。在災(zāi)難發(fā) 生時,需要的關(guān)鍵數(shù)據(jù)通過網(wǎng)絡(luò)可迅速恢復(fù),通過網(wǎng)絡(luò)的切換,關(guān)鍵應(yīng)用的 恢復(fù)也可降低到小時級。tier 5 - 兩點兩階段提交 (two-site two-phase commit)tier 5 在 tier 4 的基礎(chǔ)上管理著被選擇的數(shù)據(jù)(根據(jù)單一 commit 的范圍在 本地和遠程數(shù)據(jù)庫中同時更新數(shù)據(jù)),也就是說,在更新請求被認為是滿意 之前,tier 5 需要生產(chǎn)中心與備份中心的數(shù)據(jù)都被更新。我們可以想象這 樣一種情景,數(shù)據(jù)在兩個中心之間相互映像,由遠程 two-phase commit 來 同步。tier5 為關(guān)鍵應(yīng)用使用了雙重在線存儲,在災(zāi)難發(fā)生時,僅僅傳送中 的數(shù)據(jù)被丟失,恢復(fù)時間被降低到分鐘級。tier 6 - 無數(shù)據(jù)丟失 (zero data loss)tier 6 可以實現(xiàn)零數(shù)據(jù)丟失率,同時保證數(shù)據(jù)立即自動地被傳輸?shù)交謴?fù)中 心。tier6 被認為是災(zāi)難恢復(fù)的相當高的級別,通過使用文件系統(tǒng)或存儲硬 件底層的數(shù)據(jù)同步/異步鏡像功能,保證數(shù)據(jù)的實時一致性和完整性。tier 7 - 無數(shù)據(jù)丟失和應(yīng)用自動切管 (zero data loss + app automatictakeover)tier 7 在 tier 6 的基礎(chǔ)上,在本地和遠程的所有數(shù)據(jù)被更新的同時,利用 了雙重在線活動的主機,備份數(shù)據(jù)和完全的網(wǎng)絡(luò)切換能力,實現(xiàn)應(yīng)用程序的 實時監(jiān)控和接管。tier7 是災(zāi)難恢復(fù)中最昂貴的方式,但也是需人工干預(yù)最 少,速度最快的恢復(fù)方式。3.5容災(zāi)技術(shù)方案選型考慮首先讓我們確定一下此次容災(zāi)建設(shè)的一些背景條件:1. 移動總部發(fā)布了 boss 1.5 規(guī)范,上海移動正在加緊進行 boss 應(yīng)用的改 造。這個說明在容災(zāi)系統(tǒng)實施的同時,業(yè)務(wù)環(huán)境也在發(fā)生變化。所以對 于具體選用何種技術(shù)就有很高的要求,譬如說通過應(yīng)用程序?qū)觼韺崿F(xiàn)容 災(zāi)就不現(xiàn)實了,因為一旦業(yè)務(wù)改動就需要改動容災(zāi)方案,基本上是不可 能的事情。2. 局方同時可能會啟動 boss 網(wǎng)管項目,整個業(yè)務(wù)支撐平臺的系統(tǒng)管理都 會在網(wǎng)管項目中考慮,所以在這個方案設(shè)計報告中就不對系統(tǒng)管理這一 塊內(nèi)容加以詳細闡述。3. 本方案設(shè)計書將闡述 boss 網(wǎng)管沒有具體規(guī)定的存儲和存儲網(wǎng)的管理。在我們的設(shè)計報告中,我們首先對整個容災(zāi)系統(tǒng)的架構(gòu)進行設(shè)計,然后對其 中的各個要素分別加以闡述。容災(zāi)系統(tǒng)建設(shè)中很重要的是如何將生產(chǎn)數(shù)據(jù)傳輸或復(fù)制到容災(zāi)中心,我們需 要考慮的是在系統(tǒng)的那一個層次上的復(fù)制數(shù)據(jù)和采用何種機制。 技術(shù)的發(fā)展讓 我們有了更多更好的選擇而不必受一些具體產(chǎn)品的約束。下圖是目前業(yè)界最常用 的成熟的技術(shù)。我們認為,首先需要一種技術(shù)方案,它的建設(shè)實施對應(yīng)用和在用系統(tǒng)影響最小,同時又能滿足生產(chǎn)系統(tǒng)變動的需要。而對于某些特定應(yīng)用,如果僅僅采用其 中的一種方案是可能不能完全滿足恢復(fù)需要,如一些聯(lián)機的實時交易的應(yīng)用,一 種方式顯得太單薄,所以對這些應(yīng)用,我們建議用復(fù)合式的容災(zāi)技術(shù)方案。究竟 以那種技術(shù)為主,那種為輔,應(yīng)該考慮實際情況。下圖是最近移動欽州機房發(fā)生影響生產(chǎn)的故障統(tǒng)計:2004年1月到8月影響生產(chǎn)的故障統(tǒng)計26%39%6%26%3%數(shù)據(jù)庫故障應(yīng)用故障網(wǎng)絡(luò)故障主機故障例行維護從中可以看出,發(fā)生頻率最高,對生產(chǎn)造成最大影響的是數(shù)據(jù)庫故障,其次是至少每月一次的例行維護和較高的網(wǎng)絡(luò)故障,而應(yīng)用故障和主機故障相對影響 較小。其中的數(shù)據(jù)庫故障大多時候都可以通過重啟數(shù)據(jù)庫來解決,這些本身可能 由于 oracle 8 版本軟件的缺陷造成,數(shù)據(jù)庫重啟時往往涉及到 recovery 過程, 如果有些意外發(fā)生時,recovery 的過程會很長,可能幾個小時才能完成,這時 重啟數(shù)據(jù)庫就遠遠不能滿足業(yè)務(wù)需求。針對這種情況,我們認為,保持數(shù)據(jù)庫的 高可用性是最重要的,其次是網(wǎng)絡(luò),在上海移動,ip 網(wǎng)絡(luò)目前的故障較多,而 光網(wǎng)路相對來說比較穩(wěn)定,這也為采用存儲層的使用 dwdm 技術(shù)的方案提供的基 礎(chǔ)保證。就數(shù)據(jù)本身而言,字節(jié)程度的一致性的重要性比不上交易程度的一致性 來得重要,所以,我們應(yīng)該強調(diào)當生產(chǎn)數(shù)據(jù)庫發(fā)生故障時,可以最快速度恢復(fù)。基于以上考慮我們給出下表的推薦,5 為最高,1 為最低。容災(zāi)技術(shù)技術(shù)成熟 度數(shù)據(jù)丟失情況硬件要求實施難易程度對在用系統(tǒng)影響推薦程度(15)存儲服務(wù)器層( tier 6)成熟不丟或少量同一品牌存儲較易較少4san 層(tier 6)成熟不丟或少量fc 連接較易較少3操作系統(tǒng)層(tier 6 or 7)成熟不丟或少量同一品牌主機較易較大3數(shù)據(jù)庫層(tire4 or 5)成熟部分丟失較易較大3.5由表中可以看出,對于建議采用復(fù)合方式的應(yīng)用來說,我們推薦使用數(shù)據(jù)庫層和存儲層結(jié)合的復(fù)合方案。存儲層可以在存儲產(chǎn)品層,也可以在 san 交換機層。手動/自動啟動容災(zāi) 我們知道,自動容災(zāi)技術(shù)可以自動識別災(zāi)難的發(fā)生并且自動啟動恢復(fù)程序,將應(yīng)用在容災(zāi)中心自動重啟。可是結(jié)合國內(nèi)實情,自動容災(zāi)方式并不是很適合上 海移動,因為是否啟動容災(zāi)系統(tǒng)不僅僅是一個技術(shù)問題,其中有一個決策過程, 還有一個切換的程度的問題。采用手動切換,可以將主動權(quán)握在手里。傳統(tǒng)磁盤遠程鏡像的基本概念 傳統(tǒng)基于磁盤的鏡像方式是由存儲設(shè)備控制通過數(shù)據(jù)通道,以邏輯卷為基本單位,將本地磁盤陣列上的數(shù)據(jù)鏡像到遠端的同構(gòu)磁盤陣列上比如 ibm的 pprc 和 emc 的 srdf?;诖疟P的鏡像功能傳統(tǒng)上提供 2 種工作方式,同步(左圖)和異步方式(右圖):在同步方式下,磁盤鏡像功能只有在本地和遠程磁盤都完成寫操作后才會向 主機發(fā)回“io 完成”消息,以確保源卷和目的卷的數(shù)據(jù)徹底一致。好處是:可以保證數(shù)據(jù)不會丟失可以保證數(shù)據(jù)的一致性 缺點是:對網(wǎng)絡(luò)和距離要求很高:需要高帶寬和距離一般不能超越城域?qū)ιa(chǎn)系統(tǒng)的性能影響也比較大在異步工作方式下,磁盤鏡像功能能夠在遠端更新未完成的情況下,只要本地更新成功就可以向主機返回“寫成功”信號。好處是:對網(wǎng)絡(luò)和距離的要求非常低對性能的影響非常小壞處是:數(shù)據(jù)一般情況下會丟失普通異步方式無法保證 io 的次序,所以在進行異步操作時,遠程鏡 像卷始終處于異步造成的“不一致”狀態(tài),直到所有數(shù)據(jù)“全部傳遞 完畢”。如果應(yīng)用是 7*24 小時不間斷的,就無法達到數(shù)據(jù)“全部傳 遞完畢”狀態(tài)。所以,異步備份一般只用于數(shù)據(jù)移植,或者和磁盤本 地鏡像結(jié)合,用于傳遞相對靜止的數(shù)據(jù)保證數(shù)據(jù)一致性的異步遠程鏡像 為了同時利用同步的數(shù)據(jù)一致性優(yōu)勢和異步的性能/距離優(yōu)勢,各個存儲廠商都推出了一些能夠保證數(shù)據(jù)一致性的異步遠程鏡像方式,主要是 ibm 的 pprcgm 和 emc 的 srdf/a。為了 100%的保證數(shù)據(jù)一致性和可用性,所有類似的技術(shù)都必須采用 3 份數(shù) 據(jù)的方式進行操作(本地 1 份,遠程 2 份)。ibm pprc gm 的工作方式如下:工作方式如下(其中綠色為生產(chǎn)站點磁盤,橙色和藍色為容災(zāi)站點磁盤):1. 綠色和橙色磁盤之間進行 pprc-xd 異步操作2. 綠色磁盤組根據(jù)預(yù)先設(shè)置的時間,生成“一致性組”(consistencygroup),并記錄狀態(tài)3. 采用 pprc-xd 異步操作方式,將且只將“一致性組”記錄下來的數(shù)據(jù) 傳遞從綠色磁盤組傳遞到橙色磁盤組4. 3 完成后,立刻將橙色磁盤組數(shù)據(jù) flashcopy 到藍色磁盤組,進行一 致性數(shù)據(jù)保留5. 4 完成后,回到步驟 1由于有“一致性組”的保護,雖然采用異步方式,一旦每一個“一致性組” 數(shù)據(jù)包傳遞成功的那一時刻,橙色磁盤組的數(shù)據(jù)是一致的;由于步驟 4,藍色磁 盤組將能夠保留最近一次“一致性完全”的數(shù)據(jù)。一旦出現(xiàn)災(zāi)難,客戶丟失的是 兩次生成“一致性組”間隔之間的數(shù)據(jù)。如果網(wǎng)絡(luò)發(fā)生故障,pprc gm 會等待網(wǎng)絡(luò)恢復(fù),重新生成“一致性組”(對 于經(jīng)歷的較長時間網(wǎng)絡(luò)故障的系統(tǒng)而言,只是新的“一致性組”中的數(shù)據(jù)會比較 大而已),繼續(xù)進行 pprc gm 的正常操作。pprc gm 能夠每 35 秒生成一次“一致性組”,意味著客戶即使采用異步方 式,也有可能只丟失 35 秒的數(shù)據(jù)。emc srdf/a 的工作方式如下:srdf/a 使用“增量集”來短期維護一組寫入操作。增量集是 srdf/a 所提供的所有功能的基礎(chǔ)。srdf/a 使用四種類型的增量集來管理數(shù)據(jù)流處理過程。srdf/a 的數(shù)據(jù) 流可歸結(jié)為幾個步驟:源位置的增量集:捕獲 - 在緩存中捕獲所有傳入到 srdf/a 組所涉及的源卷的寫入 操作。完成此“捕獲增量集”后,該集合中的寫入操作將被“折 疊”,并升級為“傳輸增量集”,同時開始傳輸其中的內(nèi)容。(然 后另外創(chuàng)建一個新的捕獲增量集,來維護下一個寫入操作增量 集。)傳輸 - 將內(nèi)容從源系統(tǒng)傳輸?shù)侥繕讼到y(tǒng),僅傳輸最近的寫入操作 集。目標位置的增量集:接收 - 接收增量集位于目標系統(tǒng)上,用于接收由源位置的傳輸增 量集傳來的數(shù)據(jù)。接收到全部數(shù)據(jù)后,它將升級為應(yīng)用增量集。 應(yīng)用 - 將增量集中的寫入操作應(yīng)用到目標卷,以創(chuàng)建一致的可重新 啟動的遠程拷貝。這就完成了增量集循環(huán)。如果網(wǎng)絡(luò)發(fā)生故障,由于 srdf/a 使用“增量集”存在于磁盤系統(tǒng)的高速緩存 中,一定時間的故障會造成高速緩存溢出,此時必須中斷 srdf/a,等待網(wǎng)絡(luò)恢 復(fù)。從網(wǎng)絡(luò)故障到恢復(fù)之間的數(shù)據(jù)只能夠采用傳統(tǒng)的 srdf 異步方式傳遞,為了 防止異步傳遞被異常中斷而造成對遠程數(shù)據(jù)庫的破壞,在傳遞數(shù)據(jù)之前必須采用 timefinder 保護一下遠程的數(shù)據(jù),然后才能夠繼續(xù)操作。4 容災(zāi)系統(tǒng)方案設(shè)計4.1 上海移動系統(tǒng)現(xiàn)狀上海移動目前主要有兩個生產(chǎn)機房,一個在欽州,一個在橫浜,業(yè)務(wù)分布如 下圖所示:欽州路生產(chǎn)中心:營帳、計費、網(wǎng) 間結(jié)算、充值、經(jīng) 營分析和ondemand橫浜路生產(chǎn)中心:1860客服系統(tǒng)上海移動目前的主要應(yīng)用系統(tǒng)均運行在aix 433和oracle 8174下,部分業(yè)務(wù)運行在aix 5.1/5.2下,但數(shù)據(jù)庫依然為oracle 8i;存儲設(shè)備有ibm ess 和7133 也有emc存儲。部分產(chǎn)品將根據(jù)實際情況升級,但不在本方案中具體涉及。系統(tǒng)主機設(shè)備/地點存儲設(shè)備/地點營帳s85x2/欽州,2004年4季度將 f20/欽州,2004年4季度更新為p5-570x2將新增一臺ess800,計 費與營帳的存儲將分 開。計費s85x2/欽州f20/欽州1860p650x2/橫浜e20/橫浜 經(jīng)營分析p690x2/欽州emc/欽州 充值p630x2/欽州7133/欽州 采集h85x1/欽州f20/欽州 網(wǎng)間結(jié)算m80x2/欽州f20/橫浜下面將會對這些系統(tǒng)的容災(zāi)方案進行具體闡述。4.2容災(zāi)架構(gòu)整體設(shè)計容災(zāi)系統(tǒng)總體架構(gòu)設(shè)計綜合以上要求,我們實際如下的容災(zāi)系統(tǒng)整體架構(gòu),在這個架構(gòu)中,對實時 性恢復(fù)要求高的核心業(yè)務(wù)的數(shù)據(jù)庫,我們考慮了兩層容災(zāi)設(shè)計。這里的核心業(yè)務(wù) 我們認為是營帳數(shù)據(jù)庫,充值數(shù)據(jù)庫和1860數(shù)據(jù)庫。對于計費,經(jīng)營分析,網(wǎng)間 結(jié)算,批價等,我們考慮存儲層的容災(zāi)。由于從實際業(yè)務(wù)中,以下具體應(yīng)用模塊和數(shù)據(jù)庫是關(guān)鍵性的,所以單獨對這 些模塊進行進一步說明。由于boss 1.5的具體稱呼有些變化,但鑒于目前為止改 造項目并沒有實施完成,所以,我們主要從數(shù)據(jù)庫和數(shù)據(jù)一層考慮業(yè)務(wù)的具體特 性和容災(zāi)方式。營帳系統(tǒng)營帳系統(tǒng)是移動業(yè)務(wù)中的核心系統(tǒng),實時性要求高,對于容災(zāi)系統(tǒng)的要求也 是最高,所以在此我們考慮使用數(shù)據(jù)庫備份模式加上存儲層數(shù)據(jù)鏡像模式。使用 業(yè)界成熟流行的數(shù)據(jù)庫實時抽取技術(shù)或者standby database技術(shù),在生產(chǎn)中心隨 時保留一個與生產(chǎn)庫基本同步的數(shù)據(jù)庫,該數(shù)據(jù)庫是處于open狀態(tài)的。這樣可以 在發(fā)生數(shù)據(jù)庫邏輯可以快速接管。這種方案的缺點是可能會有一些數(shù)據(jù)需要在事 后進行補錄,但丟失的數(shù)據(jù)是非常少的。具體容災(zāi)架構(gòu)如下圖:營帳系統(tǒng)容災(zāi)架構(gòu)圖所有營帳數(shù)據(jù)庫里的數(shù)據(jù)都會通過存儲層的方案鏡像到金橋中心。本地通過數(shù)據(jù)抽取另生成一個active的數(shù)據(jù)庫,與源數(shù)據(jù)庫近乎同步, 一旦需要,可立即將應(yīng)用切換過來。如果本地有兩個物理存儲,考慮到 高可用性,可以將抽取出來的數(shù)據(jù)放到另外一個存儲設(shè)備上。目前計劃進行營帳系統(tǒng)“瘦身”計劃,擬將目前營帳數(shù)據(jù)庫中的歷史庫 剝離開,營帳庫中僅僅保留核心數(shù)據(jù),這樣更加適合采用復(fù)合方式。如果碰到非數(shù)據(jù)庫邏輯錯,本地接管不能恢復(fù),那么就盡快啟動金橋中 心的備份。客服1860系統(tǒng)1860系統(tǒng)對于移動維系和提高客戶關(guān)系和客戶滿意度有著極其重要的意義, 同時1860系統(tǒng)也是一個實時聯(lián)機交易系統(tǒng)。目前有計劃將c/s結(jié)構(gòu)逐步改造成為 w/s結(jié)構(gòu),這樣本次備份中僅僅考慮數(shù)據(jù)庫服務(wù)器。應(yīng)用服務(wù)器可以不必考慮專 用的備份。1860容災(zāi)系統(tǒng)架構(gòu)如下圖所示:1860容災(zāi)系統(tǒng)架構(gòu)圖所有1860數(shù)據(jù)庫里的數(shù)據(jù)都會通過存儲層的方案鏡像到金橋中心。本地通過數(shù)據(jù)抽取另生成一個active的數(shù)據(jù)庫,與源數(shù)據(jù)庫近乎同步, 一旦需要,可立即將應(yīng)用切換過來。如果碰到非數(shù)據(jù)庫邏輯錯,本地接管不能恢復(fù),那么就盡快啟動金橋中 心的備份。不必考慮專用的應(yīng)用服務(wù)器,可以共享。計費系統(tǒng) 計費業(yè)務(wù)處理屬于boss后臺處理,其業(yè)務(wù)中斷對客戶業(yè)務(wù)受理不產(chǎn)生直接影響,但是,計費業(yè)務(wù)的中斷將間接影響漫游用戶處理、帳務(wù)處理、交費、用戶查詢等業(yè)務(wù)功能,這將會一定程度上影響客戶滿意度,并導(dǎo)致基于boss的預(yù)付費業(yè) 務(wù)產(chǎn)生透支及壞帳,所以一旦計費業(yè)務(wù)故障發(fā)生,也必須在最短時間內(nèi)恢復(fù)。計 費業(yè)務(wù)的數(shù)據(jù)主要分為數(shù)據(jù)庫里的數(shù)據(jù)和文件系統(tǒng)中的原始話單。兩部分數(shù)據(jù)可 以統(tǒng)一用存儲層的技術(shù)解決,但是較好的辦法是:數(shù)據(jù)庫里的數(shù)據(jù)用存儲技術(shù)實 現(xiàn),文件系統(tǒng)的話單可以由應(yīng)用程序增加分發(fā)路徑,多放一份拷貝即可。計費系 統(tǒng)由于數(shù)據(jù)庫龐大,同時實時性沒有聯(lián)機交易系統(tǒng)要求高,所以不考慮standby 數(shù)據(jù)庫的方式。計費系統(tǒng)容災(zāi)架構(gòu)如圖所示:計費容災(zāi)系統(tǒng)架構(gòu)圖數(shù)據(jù)庫里的數(shù)據(jù)通過存儲技術(shù)鏡像到金橋中心。文件系統(tǒng)的話單通過增加分發(fā)路徑傳輸?shù)浇饦蛑行?,需要單獨專?的空間存放。目前生產(chǎn)中心是使用三臺m8

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論