基于雙活“零”切換的服務(wù)不間斷的BOSS系統(tǒng)_圖文_第1頁
基于雙活“零”切換的服務(wù)不間斷的BOSS系統(tǒng)_圖文_第2頁
基于雙活“零”切換的服務(wù)不間斷的BOSS系統(tǒng)_圖文_第3頁
基于雙活“零”切換的服務(wù)不間斷的BOSS系統(tǒng)_圖文_第4頁
基于雙活“零”切換的服務(wù)不間斷的BOSS系統(tǒng)_圖文_第5頁
已閱讀5頁,還剩20頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、成果上報申請書成果名稱基于雙活零切換的服務(wù)不間斷的BOSS系統(tǒng)成果申報單位山東省(自治區(qū)/直轄市公司成果承擔(dān)部門/分公司帳務(wù)中心項目負(fù)責(zé)人姓名項目負(fù)責(zé)人聯(lián)系電話和Email成果專業(yè)類別*業(yè)務(wù)支撐所屬專業(yè)部門*業(yè)務(wù)支撐線條成果研究類別*其它省內(nèi)評審結(jié)果* 優(yōu)秀關(guān)鍵詞索引(35個容災(zāi)雙活零切換應(yīng)用投資200萬元(指別的省引入應(yīng)用需要的投資金額產(chǎn)品版權(quán)歸屬單位中國移動通信集團山東有限公司對企業(yè)現(xiàn)有標(biāo)準(zhǔn)規(guī)范的符合度:(按填寫說明5符合如果該成果來源于研發(fā)項目,請?zhí)顚懷邪l(fā)項目的年度、名稱和類型(類型包括:集團重點研發(fā)項目、集團聯(lián)合研發(fā)項目、省公司重點研發(fā)項目、其他研發(fā)項目,可填寫多個:省重點研發(fā)項目:應(yīng)

2、急容災(zāi)零切換,革命性提升BOSS系統(tǒng)業(yè)務(wù)服務(wù)水平。成果簡介:山東公司針對容災(zāi)系當(dāng)前存在的切換時間長、投資大、容災(zāi)側(cè)資源平時不能使用、流程復(fù)雜維護難等問題進行了積極探索,采用創(chuàng)新技術(shù)大膽嘗試,徹底解決容災(zāi)系統(tǒng)資源閑置問題(含存儲,通過在國內(nèi)首次創(chuàng)新嘗試將vplex存儲虛擬化結(jié)合oracle的遠(yuǎn)程rac技術(shù)實現(xiàn)了跨數(shù)據(jù)中心的雙活方案,即BOSS系統(tǒng)生產(chǎn)端和容災(zāi)端可以同時放開對外訪問,徹底解決了以往容災(zāi)端平時不能打開對外訪問的弊端。雙活數(shù)據(jù)中心結(jié)合通過定制開發(fā)的BOSS系統(tǒng)對外統(tǒng)一接口平臺,經(jīng)過測試容災(zāi)切換最多只需要幾十秒,且無需人工干預(yù)。BOSS系統(tǒng)的雙活數(shù)據(jù)中心將是BOSS系統(tǒng)的一場革命,必將大

3、大降低停機窗口、提高服務(wù)質(zhì)量,降低業(yè)務(wù)風(fēng)險,同時大大節(jié)約投資。省內(nèi)試運行效果:描述成果引入后在本省試運行方案、取得的效果、推廣價值和建議等。1、人力解放:通過優(yōu)化,大大減輕了容災(zāi)系統(tǒng)維護工作量,山東公司目前只有一人在兼職維護容災(zāi)系統(tǒng)。2、容災(zāi)系統(tǒng)可用性:通過優(yōu)化,是容災(zāi)系統(tǒng)可用性和切換信心度大幅增長,現(xiàn)在山東公司每半年均進行1到2次真實切換演練,在2011年集團公司組織的容災(zāi)演練專項檢查中,山東公司第一個參與真實演練并獲得滿分,充分證明了優(yōu)化的效果。3、提高客戶滿意度通過優(yōu)化,使系統(tǒng)停機窗口做到最小,尤其是雙活“0”切換技術(shù),使切換窗口最到最小,近幾年山東公司客戶滿意度在集團內(nèi)保持了比較高的名

4、次。4、節(jié)約投資通過創(chuàng)新的雙活“0”切換技術(shù)以及虛擬化技術(shù)的應(yīng)用,使容災(zāi)端的資源真正利用起來,從而大大節(jié)約了投資,以山東公司容災(zāi)系統(tǒng)投資占硬件整體投資的50%計算,相當(dāng)于每年可以節(jié)約4000萬人民幣文章主體(3000字以上,可附在表格后:根據(jù)成果研究類別,主體內(nèi)容的要求有差異,具體要求見表格后的“填寫說明6”。附表后。基于雙活零切換的服務(wù)不間斷的BOSS系統(tǒng)一、背景和意義為了更好的保障BOSS系統(tǒng)運行,提高服務(wù)質(zhì)量,我們先后建立了應(yīng)急系統(tǒng)、容災(zāi)系統(tǒng)等,但仍存在如下矛盾,并越來越突出投資大,效益慢:今年BOSS擴容需要約XXXX萬TPCC,XXXT存儲設(shè)備,需要同步對容災(zāi)系統(tǒng)擴容。1、災(zāi)備端平時

5、無法打開:災(zāi)備端的資源(尤其是存儲平時無法打開使用,造成資源浪費嚴(yán)重。2、切換時間長:一般需要1-2小時以上才能起來。3、故障情況下切換決策難:有時切換時間+決策時間>=災(zāi)難修復(fù)時間,難以決策,期間無法辦理業(yè)務(wù)。4、難以找到RTO、RPO都為0的0切換方案。5、流程復(fù)雜,維護難:系統(tǒng)切換需要一系列管理和技術(shù)流程,維護復(fù)雜,生產(chǎn)、容災(zāi)端都需要維護。6、無法做到在線的系統(tǒng)升級遷移和新業(yè)務(wù)上線。這種情況下,我們急需探索在BOSS系統(tǒng)中引入容災(zāi)系統(tǒng)雙活零切換技術(shù),基于如下考慮:1、可以從降低運行風(fēng)險、提高客戶滿意度等方面提升業(yè)務(wù)運營水平。2、可以從降低業(yè)務(wù)停機窗口、降低維護工作量等方面降低系統(tǒng)運

6、維壓力。3、可以降低系統(tǒng)災(zāi)難處理壓力、最大限度降低業(yè)務(wù)中斷時間,從而提高客戶滿意度。4、使容災(zāi)側(cè)資源平時可用,達到雙活。5、降低演練測試的業(yè)務(wù)停頓窗口,提升演練質(zhì)量。二、山東公司雙活零切換方案介紹2.1 雙活零切換方案的選型原則必須要從技術(shù)、管理、使用維護等方面考慮選擇雙活零切換的方案,具體來說:1、技術(shù)可靠要求數(shù)據(jù)要跨中心流動,在同一個中心內(nèi)部的無法做到容災(zāi)。要求數(shù)據(jù)必須雙活訪問,切換需要的RTO、RPO都為0。2、滿足高可用性要求滿足跨中心的高可用性,數(shù)據(jù)一致行的保證。由于跨中心,網(wǎng)絡(luò)(IP、SAN穩(wěn)定性問題必須考慮,由超強容錯機制。3、易于管理方案必須易于管理,手段便捷,因為復(fù)雜的管理也

7、是一種災(zāi)難。4、易于使用維護方案必須低風(fēng)險,易于使用,自動化程度高。切換簡單,流程少甚至無流程,并降低人工操作風(fēng)險。2.2 基于雙活零切換技術(shù)的主要方案分析目前主要有四類解決方案,對比如下:應(yīng)用改造+觸發(fā)器同步方案應(yīng)用改造+商用軟件同步方案應(yīng)用改造+賽門鐵克卷管理+oracle遠(yuǎn)程rac應(yīng)用改造+Emcvplex+oracle遠(yuǎn)程rac應(yīng)用改造難度難以全部數(shù)據(jù)同步,只能關(guān)鍵表關(guān)鍵表同步(gg、dsg、quest等通過對應(yīng)用本身改造并進行部署改造,可支持全部數(shù)據(jù)同步投資較小較大較大較大性能影響生產(chǎn)、容災(zāi)端影響生產(chǎn)、容災(zāi)端影響生產(chǎn),較低不影響維護管理麻煩麻煩較麻煩簡單、穩(wěn)定RTO>0>

8、0接近0 0RPO<>0<>00 0腦裂現(xiàn)象非全業(yè)務(wù),非雙活非全業(yè)務(wù),非雙活難以避免通過創(chuàng)新應(yīng)用避免山東公司綜合考慮并試驗驗證后選擇了第四種方案。2.3 山東公司方案構(gòu)成主要由如下特色技術(shù)實現(xiàn)1、核心數(shù)據(jù)層:國內(nèi)首創(chuàng)的將vplex和oracle遠(yuǎn)程rac技術(shù)相結(jié)合并創(chuàng)新性應(yīng)用于BOSS系統(tǒng)三中心,可實現(xiàn)全業(yè)務(wù)跨數(shù)據(jù)中心的雙活訪問2、應(yīng)用路由層:業(yè)內(nèi)率先新開發(fā)實現(xiàn)統(tǒng)一應(yīng)用接口平臺,作為連接數(shù)據(jù)庫服務(wù)的入口,并支持高可用連接切換。3、應(yīng)用部署層:對應(yīng)用部署方案進行創(chuàng)新性改造,支持跨中心雙活部署.下面分別進行介紹:2.3.1 核心數(shù)據(jù)層介紹在引入vplex以前的存儲復(fù)制架構(gòu):

9、主備模式,存儲底層同步,備份端平時不提供對外訪問。如下圖所示:引入vplex 后,生產(chǎn)端、容災(zāi)端的存儲資源平時均可訪問,vplex 通過全局緩存保證數(shù)據(jù)一致性和高可用性。平時兩邊主機分別訪問本地存儲,故障情況下可跨中心訪問對方存儲。如下圖:Oracle 遠(yuǎn)程RAC 技術(shù):跨數(shù)據(jù)中心的數(shù)據(jù)庫,一個數(shù)據(jù)庫多個跨節(jié)點實例。每個實例都是活的,可以訪問。但是需要結(jié)合其他共享存儲技術(shù)(主機的鏡像、存儲復(fù)制、vplex 等實現(xiàn)跨中心存儲并發(fā)訪問技術(shù)才能實現(xiàn),如下圖: Site B Site ASYNCHRONOUS REPLICATIONActive-Passive Site VPLEX Metro Sit

10、e B Site A F I B R E C H A N N E LActive-Active SiteVPLEX enables active use ofresources at two sitesD I S T R I B U TE D V I R T U A LV O L U M E 但是數(shù)據(jù)層遠(yuǎn)程rac 技術(shù)存在“腦裂”風(fēng)險,由于數(shù)據(jù)中心間距離遠(yuǎn),網(wǎng)絡(luò)穩(wěn)定性差,必須需要額外進行冗余設(shè)計,如網(wǎng)絡(luò)連接、內(nèi)部網(wǎng)絡(luò)、san 連接等。2個數(shù)據(jù)中心間網(wǎng)絡(luò)全斷情況下,無論vplex 還是oracle 的rac 均可能出現(xiàn)“腦裂”現(xiàn)象,造成訪問中斷,數(shù)據(jù)不一致現(xiàn)象發(fā)生。 山東公司結(jié)合三個數(shù)據(jù)中心設(shè)計

11、,在第三中心分別增加vplex 和oracle 的仲裁節(jié)點,避免了“腦裂”現(xiàn)象。 共青團路機房開發(fā)區(qū)機房經(jīng)十路機房15KM/20GIP 帶寬/40GSAN 帶寬5KM/10GIP 帶寬/24GSAN 帶寬15KM/20GIP 帶寬/40GSAN 帶寬在三個中心間建立互聯(lián)環(huán)狀全冗余架構(gòu),任何兩點之間的故障都不會影響第三點。 通過增加第三節(jié)點,防止兩個中心間網(wǎng)絡(luò)全斷場景。 最終的山東特色的核心數(shù)據(jù)層架構(gòu)如下: 2.3.2 應(yīng)用路由接口層方案數(shù)據(jù)層實現(xiàn)雙活方案后,應(yīng)用路由接口層必須進行改造才能最終實現(xiàn)0切換。山東公司針對外部接入,業(yè)內(nèi)率先專門實現(xiàn)統(tǒng)一的對外應(yīng)用接口平臺,實現(xiàn)了跨中心高可用性、并提高了

12、新業(yè)務(wù)開發(fā)效率和易維護性。EMC VPLEX SANSAN EMC DMX4EMC VPLEXSANSANEMC DMX44節(jié)點 ORACLE RAC 節(jié)點集群METRO 光纖互聯(lián)(波分 15KM p 網(wǎng)絡(luò)(波分 15KM 第三中心Vplex 仲裁點 oracle 虛節(jié)點第一中心第二中心現(xiàn)狀:1、系統(tǒng)使用的協(xié)議多:CICS :網(wǎng)廳、WAP 、SOCKET :短信、VC 、銀行等,EASYCICS :IVR 、自助,HTTP +XML :一級BOSS2、一個接口需要針對不同的協(xié)議開發(fā)多套,提高了開發(fā)的成本,“煙筒式”架構(gòu)。3、做不到對外服務(wù)0切換:難以做到每個對外服務(wù)接口均支持高可用性。 山東公

13、司針對上述現(xiàn)狀,結(jié)合0切換需求,開發(fā)的新的統(tǒng)一接口平臺從架構(gòu)、數(shù)據(jù)庫連接、負(fù)載均衡等方面考慮了在單數(shù)據(jù)中心故障下的零切換方案。如下圖:在每個數(shù)據(jù)中心均建立相應(yīng)的接口機,接口機連接后臺訪問的中間件服務(wù)器,并提供對外服務(wù),中間件負(fù)責(zé)連接數(shù)據(jù)庫,接口負(fù)責(zé)同時提供對外服務(wù),確保一個數(shù)據(jù)中心故障情況下另一個接口平臺仍能正常對外服務(wù)。通過多實例部署,分別練到多個數(shù)據(jù)中心,并同時對外提供服務(wù),通過負(fù)載均衡技術(shù),在多服務(wù)器和多數(shù)據(jù)中心間分擔(dān)系統(tǒng)壓力,降低了單節(jié)點和單中心接入宕機的風(fēng)險,確保系統(tǒng)穩(wěn)定。新的統(tǒng)一接口平臺解決了在數(shù)據(jù)庫、網(wǎng)絡(luò)故障情況下進程僵死、掛起等現(xiàn)象,從而支持了數(shù)據(jù)層的雙活零切換。下圖是進程隊列

14、的處理邏輯:自助終端1自助終端2自助終端3自助終端4自助終端服務(wù)器1自助終端服務(wù)器2負(fù)載均衡器防火墻接口機1接口機2中間件服務(wù)器1中間件服務(wù)器2數(shù)據(jù)庫數(shù)據(jù)庫個人工作站HTTP+XMLHTTP+XML 2.3.3 中間件層全業(yè)務(wù)部署方案接入層和中間層保留相當(dāng)余量,部署了相當(dāng)?shù)臉I(yè)務(wù)邏輯,每個中心中間層主機都可以接管所有業(yè)務(wù),平時均為生產(chǎn)。每個交易中間件主機針對每套數(shù)據(jù)庫同時建立2-4個連接指向跨中心的數(shù)據(jù)庫節(jié)點,并部署完全相同的服務(wù)和應(yīng)用。 WEB 層建立通用的分發(fā)器,負(fù)責(zé)調(diào)用交易中間件的region 服務(wù)(主、備。 可配置為負(fù)載均衡機制或主備機制,在一端失敗時,自動調(diào)用備用端region 和服務(wù)

15、。圖示如下:Servlet 應(yīng)用WEB 應(yīng)用服務(wù)器分發(fā)器后臺接口服務(wù)1營業(yè)數(shù)據(jù)庫12.3.4 山東公司0切換方案驗證情況完全按照一套生產(chǎn)營業(yè)crm 系統(tǒng)測試。 充分模擬考慮性能、各類故障等情況。測試環(huán)境:NGCRM +統(tǒng)一接口軟件+emc vplex +oracle rac (9i 11g 。 測試時間:2011年4月2號-6月18號。 測試拓?fù)淙缦? 測試設(shè)備清單如下:設(shè)備名稱配置用途Server1-1,1-2IBM P7,16CPU, 60GmemorySite1 測試主機 (IBM,數(shù)據(jù)庫節(jié)點 Server2-1,2-2IBM P7, 16 CPU,60Gmemory Site2 測試主

16、機 (IBM,數(shù)據(jù)庫節(jié)點 Serv3-8IBM P5 4C 40G中間件測試機器Server1-1SAN1-1SAN1-2Server1-2SAN1-1SAN1-2SAN1-3SAN1-4DWDMSAN2-3SAN2-4Server2-1SAN2-1SAN2-2Server2-2SAN2-1SAN2-2Switch1-1Switch1-2Switch1-3Switch1-4Switch2-1Switch2-2Switch2-3Switch2-4DWDMWANBiilingCRMCallCenterNMSOAHR。Center-2Center-3VPLEX1VPLEX2DMX-4-1DMX-4-

17、2SAN1-1,1-2MDS9509Site1測試主機HOST用SAN 交換機SAN2-1,2-2MDS9509Site2測試主機HOST用SAN 交換機SAN1-3,1-4MDS9509Site1測試Site間互聯(lián)用SAN 交換機(EMCSAN2-3,2-4MDS9509Site2測試Site間互聯(lián)用SAN 交換機(EMCDMX-4-1256G CACHE, 320*300GdisksSite1測試存儲(EMCDMX-4-2256G CACHE, 320*146GdisksSite2 測試存儲(EMCVPLEX164G CACHE, VPLEX Site1測試VPLEX(EMCVPLEX26

18、4G CACHE, VPLEX Site2測試VPLEX(EMCAIX/HACMPAIX 5.3/ HACMP測試主機操作系統(tǒng)/ 集群軟件(IBMORACLE 9i/11g RAC ORACLE 9i/11gStretch RAC測試數(shù)據(jù)庫軟件(ORACLE測試場景用例:1、重點功能測試,包含仲裁測試和業(yè)務(wù)測試。2、容錯測試,包含數(shù)據(jù)庫繁忙測試、數(shù)據(jù)庫故障測試、主機故障測試、VPLEX 故障測試、存儲故障測試、中心互聯(lián)故障測試等。3、性能測試,包含IOPS和MBPS等指標(biāo)。故障層次故障測試場景模擬ORACLE 故障1.Server1-1 oracle 故障宕機2.Server1-

19、2 oracle 故障宕機3.ORACLE RAC Server 心跳互聯(lián)故障主機故障1.Server1-1 故障宕機2.Server1-2故障宕機VPLEX 故障1.Vplex1 direct1故障2.Vplex1 故障存儲故障1.Vplex1 部分存儲空間故障2.Vplex1 整個磁盤陣列故障數(shù)據(jù)中心故障1.Vplex Metro數(shù)據(jù)中心互聯(lián)故障2.Vplex Metro數(shù)據(jù)中心互聯(lián)故障,NO Witness Server測試結(jié)果如下:性能方面:和傳統(tǒng)SRDF 方案差別不大。 針對真實應(yīng)用的測試結(jié)果如下:序號 容錯測試場景模擬 測試結(jié)果1S2-1 ORACLE undo space ful

20、lOthers NO impact2 S2-1 ORACLE Share Pool Latch wait Others NO impact3 Server1-1,1-2 oracle 故障宕機 Others delay18s4 Server1-1,1-2 oracle 心跳網(wǎng)卡故障 Others delay 33s5 Server1-1,1-2 故障宕機Others delay 23s6 Vplex2 direct2-1故障Server 2-1,2-2 delay 20s, others NO impact7 Vplex2 engine2故障 Server 1-1,1-2 NO impact

21、8 Vplex1 部分存儲空間 故障All servers NO impact9 Vplex1 整個磁盤陣列 故障All servers delay 15s 10 Vplex Metro 數(shù)據(jù)中心互聯(lián)故障Server1-1,1-2delay43s( reconnect,delay 17s 11Vplex Metro 數(shù)據(jù)中心互聯(lián)故障(NO witness Server1-1,1-2delay43s( reconnect,delay 23s 業(yè)務(wù)占比雙活模式(秒當(dāng)前模式(秒差距百分比響應(yīng)時間差值(秒001過戶提交 1.60% 5.06 3.26 55% 1.8 002停開機提交 1.60% 3.

22、94 2.731 44% 1.21 003產(chǎn)品變更提交 6.80% 2.14 2.232 -4% -0.09 004營收統(tǒng)計提交 5.20% 0.852 0.896 -5% -0.04 005日志查詢提交 6.80% 0.492 0.467 5% 0.03 006改資料提交 2.00% 1.58 1.515 4% 0.07 007繳費提交50.40% 1.94 1.856 5% 0.08 008客戶資料查詢提交 6.80% 2.09 2.186 -4% -0.1 009禁止業(yè)務(wù)提交 2.00% 2.004 1.787 12% 0.22 010銷戶退網(wǎng)提交 1.20% 5.38 5.362 0% 0.02 011改付費計劃 1.20% 5.847 1.833 219% 4.01 012開戶提交 5.20% 4.099 2.259 81%

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論