數(shù)據(jù)庫切換故障案例分析_第1頁
數(shù)據(jù)庫切換故障案例分析_第2頁
數(shù)據(jù)庫切換故障案例分析_第3頁
數(shù)據(jù)庫切換故障案例分析_第4頁
數(shù)據(jù)庫切換故障案例分析_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)庫切換故障案例分析-ISD白彥濤\o"Xianzhi.He(17032053)"Xianzhi.He-06-1811:47:08回復(fù)轉(zhuǎn)載到\o"gonewithwind"gonewithwind\o"人品天堂家族"人品天堂家族\o"電子技術(shù)"電子技術(shù)\o"esports海濤菜鳥群4群"esports海濤菜鳥群4群\o"志同道合"志同道合\o"廣東省直真網(wǎng)管"廣東省直真網(wǎng)管\o"廣東項目組(公司)"廣東項目組(公司)數(shù)據(jù)庫切換故障案例分析-06-10北京直真節(jié)點技術(shù)開發(fā)有限公司BeijingZZNodeTechnologiesDevelopmentCo.,Ltd.稱目錄1.案例背景

22.案例概述

23.操作過程

23.1:數(shù)據(jù)準備

23.2:查看切換狀態(tài)

23.3:及時恢復(fù)

23.4:查看數(shù)據(jù)庫運行狀況

24.擬定故障案例因素

24.1INFOR切換到備機上出現(xiàn)啟動異常

24.2/OPT/DBNM下自動生成.SH_HISTORY文獻造成數(shù)據(jù)庫MC切換失敗

24.3及時恢復(fù)數(shù)據(jù)庫到主數(shù)據(jù)庫服務(wù)器啟動失敗

25.解決故障案例恢復(fù)數(shù)據(jù)服務(wù)

25.1準備以前備份數(shù)據(jù)庫數(shù)據(jù)(全庫備份文獻)

25.2數(shù)據(jù)庫初始化

25.3創(chuàng)立數(shù)據(jù)庫

25.4數(shù)據(jù)導(dǎo)入

25.5啟動應(yīng)用

26.案例分析

26.1服務(wù)器操作系統(tǒng)備份

26.2數(shù)據(jù)庫備份

26.3主業(yè)務(wù)應(yīng)用采集備份

26.4測試(備)系統(tǒng)搭建

26.5總結(jié)

21.案例背景傳輸綜合網(wǎng)管二期二階段整建期間,升級MC軟件后,進行數(shù)據(jù)庫雙機切換失敗,現(xiàn)在數(shù)據(jù)庫單機運行。為滿足數(shù)據(jù)庫安全運行規(guī)定,提供服務(wù)器故障無影響提供傳輸綜合網(wǎng)管服務(wù),進行MC雙機數(shù)據(jù)庫切換測試。測試中出現(xiàn)數(shù)據(jù)庫chunks文獻PD無法拉起,無法正常訪問,造成數(shù)據(jù)庫不能提供數(shù)據(jù)服務(wù)。因此,局方賈工、HP工程師高鵬、集成商廠家馬立偉、白彥濤全力進行本次MC雙機切換測試。2.案例概述申請于-11-19日晚12:00至-11-20日早5:00間進行數(shù)據(jù)網(wǎng)MC雙機切換測試。實施前我們已經(jīng)做好數(shù)據(jù)庫全庫備份工作,方便出現(xiàn)腹脹并配備好熱備服務(wù)器的informix數(shù)據(jù)庫環(huán)境,MC手動切換數(shù)據(jù)庫到熱備服務(wù)器上,監(jiān)測啟動與否正常。但在MC切換過程中,造成chunks文獻無法讀取,數(shù)據(jù)庫啟動失敗。3.操作過程-11-20日00:20分開始進行MC切換3.1:數(shù)據(jù)準備準備工作:提前和informix廠家、HP廠家擬定MC雙機切換時間,方便為出現(xiàn)異常問題時,能得到第一時間支持解決。提前和HP擬定切換MC方案,并擬定一旦發(fā)現(xiàn)MC切換失敗,則及時恢復(fù)到現(xiàn)在數(shù)據(jù)庫葬主服務(wù)器運行狀態(tài),確保能在最短時間內(nèi)恢復(fù)應(yīng)用使用。MC切換前5個小時,做好數(shù)據(jù)庫全庫備份工作,方便意外狀況發(fā)生減少數(shù)據(jù)丟失。審核infor雙機配備環(huán)境,確保主備服務(wù)器參數(shù)配備一致(以前已經(jīng)和infor夏工確認過),并修改數(shù)據(jù)庫內(nèi)核參數(shù)和主數(shù)據(jù)庫服務(wù)器一致。3.2:查看切換狀態(tài)手動切換雙機從主數(shù)據(jù)庫服務(wù)器到熱備服務(wù)器。cmrunpkg到熱備服務(wù)器切換成功,但數(shù)據(jù)庫啟動3秒后停止運行查看狀態(tài)出現(xiàn):informix@tnmsbak1:/opt/dbnm#onstat-sharedmemorynotinitializedforINFORMIXSERVER'tms_db'3.3:及時恢復(fù)發(fā)現(xiàn)切換不成功,及時從備份服務(wù)器切換到主數(shù)據(jù)庫服務(wù)器,啟動數(shù)據(jù)庫正常,檢查沒有問題。(前提是無人訪問主數(shù)據(jù)庫服務(wù)器,使之不能在/opt/dbnm下出現(xiàn).sh_history的文獻否則將造成該目錄忙而引發(fā)無法掛載盤陣并正常啟動數(shù)據(jù)庫)3.4:查看數(shù)據(jù)庫運行狀況三次檢查熱備服務(wù)器參數(shù)等后擬定符合infor規(guī)定,再次mc切換,仍然出現(xiàn)2的狀況,而后及時切換到主數(shù)據(jù)庫服務(wù)器,數(shù)據(jù)庫啟動正常,啟動主業(yè)務(wù)應(yīng)用無法啟動,檢查數(shù)據(jù)庫發(fā)現(xiàn)其中一chunks文獻出現(xiàn)PD狀態(tài),c00000013ef047e814

9

0

9999500

0

PD-B-/opt/dbnm/lnkdev/datadbs214.擬定故障案例因素-11-20日:03:00將出現(xiàn)問題上報并協(xié)調(diào)infor廠家協(xié)助解決。4.1infor切換到備機上出現(xiàn)啟動異常故障現(xiàn)象:手動切換數(shù)據(jù)庫到熱備服務(wù)器后,onstat–顯示數(shù)據(jù)庫啟動正常:informix@tnmsdb:/opt/dbnm#onstat-IBMInformixDynamicServerVersion11.50.FC5

--On-Line--Up15:38:41--8134840Kbytesonstat–m顯示最后20行日志信息:00:52:55

On-LineMode00:52:56

SCHAPI:StarteddbSchedulerthread.00:52:57

BootingLanguage<spl>frommodule<>00:52:57

LoadingModule<SPLNULL>00:52:57

SCHAPI:Started2dbWorkerthreads.00:53:08

kaio.c,line2231,thread51,procid11647,kaiothread()ERROR.00:53:08

FatalerrorinADMVPatmt.c:1385500:53:08

Unexpectedvirtualprocessortermination,pid=11647,exit=0x10000:53:08

PANIC:Attemptingtobringsystemdown00:53:08

semctl:errno=2200:53:08

semctl:errno=22顯示出錯約過3秒全部時間,查看數(shù)據(jù)庫狀態(tài):onstat–顯示:informix@tnmsbak1:/opt/dbnm#onstat-sharedmemorynotinitializedforINFORMIXSERVER'tms_db'此時數(shù)據(jù)庫已經(jīng)宕掉。故障分析:已經(jīng)將當(dāng)時出錯的online.log文獻提交infor工程師,并遠程協(xié)助解決。現(xiàn)在無法擬定切換到熱備服務(wù)器上重啟后數(shù)據(jù)庫自動停止運行確實切因素。后重新擬定熱備服務(wù)器和主用服務(wù)器有關(guān)參數(shù)問題:要安裝HPKAIOdriver"asyncdsk"并鏈接到核心。確認為該操作系統(tǒng)本身參數(shù)未配備所致。而此項內(nèi)容在MC切換測試前,郵件和informix廠家確認需要修改參數(shù)內(nèi)容時,始終未提及。解決故障:安裝HP:KAIOdriver"asyncdsk",并鏈接到核心。然后做雙機切換。初步擬定:待下次雙機切換測試時,確保局方、informix廠家、HP廠家、集成商等全部在場,確保出線異常,第一之間排除解決。4.2/opt/dbnm下自動生成.sh_history文獻造成數(shù)據(jù)庫MC切換失敗故障現(xiàn)象:當(dāng)從熱備服務(wù)器手動切換回主數(shù)據(jù)庫服務(wù)器時,由于數(shù)據(jù)庫安裝目錄存在.sh_history文獻,致使該目錄忙,無法掛載盤陣,造成數(shù)據(jù)庫無法掛載并啟動。informix@tnmsdb:/opt/dbnm#pwd/opt/dbnminformix@tnmsdb:/opt/dbnm#ls-al-rw

1informix

informix

345411月20日20:55.sh_history故障分析:由于該文獻統(tǒng)計了曾經(jīng)登陸到該服務(wù)器所做的命令操作信息,致使該文獻處在始終在用狀態(tài),造成數(shù)據(jù)庫途徑忙碌,無法掛載數(shù)據(jù)庫盤陣。如果不登陸服務(wù)器本身,便不會產(chǎn)生該文獻,進而不會影響MC雙機磁盤空間掛載。解決故障:已經(jīng)提交HP廠家,現(xiàn)在沒有明確解決方案。但建議盡量不要登陸數(shù)據(jù)庫服務(wù)器本身,這樣便不會產(chǎn)生.sh_history,也不會影響MC雙機切換正常切換4.3及時恢復(fù)數(shù)據(jù)庫到主數(shù)據(jù)庫服務(wù)器啟動失敗故障現(xiàn)象:發(fā)現(xiàn)切換到熱備數(shù)據(jù)庫失敗后及時恢復(fù),切換到主數(shù)據(jù)庫,數(shù)據(jù)庫啟動正常,啟動應(yīng)用程序失敗,檢查因素排除應(yīng)用程序因素,檢查數(shù)據(jù)庫,發(fā)現(xiàn)庫tnsmdb2無法訪問,訪問是出現(xiàn):dbaccess回車后進入,選擇我們的庫回車顯示:311:Cannotopensystemcatalog(systables).

155:ISAMerror:PrimaryandMirrorchunksarebad

Onstat–d檢查chunks文獻,出現(xiàn)PD狀態(tài):Chunksaddress

chunk/dbs

offset

size

free

bpages

flagspathnamec00000013ef047e814

9

0

9999500

0

PD-B-/opt/dbnm/lnkdev/datadbs21HP判斷該磁盤處在讀寫狀態(tài),在用,且很正常。故障分析:提交informix廠家工程師,和IBM工程師遠程協(xié)助解決,現(xiàn)在診療擬定因素在:當(dāng)MC切換數(shù)據(jù)庫**,由于不能正常切換數(shù)據(jù)庫,出現(xiàn)IO錯誤,底層chunks文獻數(shù)據(jù)受影響,造成邏輯序列數(shù)據(jù)發(fā)生變化,以致在數(shù)據(jù)庫啟動時請求對該chunks文獻讀取是無法對的讀取其信息,所做請求失敗??赡艿囊蛩厥谴疟P設(shè)備出現(xiàn)問題、chunks文獻所使用裸設(shè)備不存在、該鏈接設(shè)備不存在等問題,造成該chunks文獻為PD狀態(tài)。經(jīng)IBM工程師測試擬定:ddif=/opt/dbnm/lnkdev/datadbs21of=/dev/null

bs=k寫入該chunks文獻數(shù)據(jù)顯示能正常寫入,闡明該chunks文獻存在,且磁盤設(shè)備經(jīng)HP廠家確認為正?!,F(xiàn)在IBM擬定該問題引發(fā)因素:出現(xiàn)IO錯誤,底層chunks文獻數(shù)據(jù)受影響,造成邏輯序列數(shù)據(jù)發(fā)生變化,以致在數(shù)據(jù)庫啟動時請求對該chunks文獻讀取是無法對的讀取其信息,所做請求失敗故障解決:IBM和informix廠家合力解決該chunks文獻仍拉起無果,建議:1):重新初始化數(shù)據(jù)庫:oninit–iv將數(shù)據(jù)庫庫文獻重新初始化(會造成數(shù)據(jù)全部丟失)2):重新建庫:

dbaccesssysmastercreatedatabasetnmsdb2indatadbs;

3):將以前備份的數(shù)據(jù)庫數(shù)據(jù)導(dǎo)入新建數(shù)據(jù)庫中l(wèi)oadzz.shtnmsdb2tnmsdb2fulldb風(fēng)險:由于數(shù)據(jù)備份方式單一,備份數(shù)據(jù)寄存位置存在安全隱患,不能確保備份數(shù)據(jù)的完整性和導(dǎo)入數(shù)據(jù)的完整性。備注:根據(jù)以上狀況分析,KAIO參數(shù)問題:--此參數(shù)服務(wù)器本身沒有打開造成1:HP服務(wù)器操作系統(tǒng)本身有一種KAIO參數(shù),HPKAIOdriver"asyncdsk"并鏈接到核心2:我們數(shù)據(jù)庫的環(huán)境變量有一種有關(guān)此調(diào)優(yōu)的參數(shù):此參數(shù)在數(shù)據(jù)庫的環(huán)境變量中是打開的。KAIOON=1exportKAIOON3:在和informix的郵件中,擬定需要修改參數(shù)時,并為涉及到服務(wù)器本身KAIO參數(shù)。4:操作過程中,當(dāng)擬定該參數(shù)時,HP工程師問到該參數(shù),并已得到我們的回復(fù)是:環(huán)境變量中該參數(shù)也已打開,但并未提及服務(wù)器操作系統(tǒng)本身的KAIO參數(shù)。本次數(shù)據(jù)庫切換至主數(shù)據(jù)庫服務(wù)器后無法提供正常的數(shù)據(jù)庫服務(wù),因素在于:MC雙機切換,出現(xiàn)IO錯誤,底層chunks文獻數(shù)據(jù)受影響,造成邏輯序列數(shù)據(jù)發(fā)生變化,以致在數(shù)據(jù)庫啟動時請求對該chunks文獻讀取是無法對的讀取其信息,所做請求失敗,造成該數(shù)據(jù)庫chunks文獻處在宕機PD狀態(tài),無法拉起。5.解決故障案例恢復(fù)數(shù)據(jù)服務(wù)由于數(shù)據(jù)庫無法正常提供服務(wù),chunks文獻時鐘無法拉起,進入應(yīng)急方案5.1準備以前備份數(shù)據(jù)庫數(shù)據(jù)(全庫備份文獻)傳輸綜合網(wǎng)管每次測試升級前都會做數(shù)據(jù)庫全庫備份,寄存途徑:informix@tnmsdb:/opt/dbnm/數(shù)據(jù)庫備份腳本/tnmsdb2/record該途徑下存在MC雙機測試前全庫備份數(shù)據(jù),存在形式是一張表存在:rw-r--r--

1informix

informix

514811月19日10:00ems-rw-r--r--

1informix

informix

11月19日16:24ems_clear_event-rw-r--r--

1informix

informix

1518358011月19日16:19ems_event此為表名稱,可單獨一張表導(dǎo)入數(shù)據(jù)庫,也可啟動導(dǎo)入腳本,進行全庫數(shù)據(jù)表導(dǎo)入。5.2數(shù)據(jù)庫初始化Oninit–iv進行數(shù)據(jù)庫初始化,并刪除數(shù)據(jù)庫庫文獻和數(shù)據(jù):informix@tnmsdb:/opt/dbnm#oninit-sivThisactionwillinitializeIBMInformixDynamicServer;anyexistingIBMInformixDynamicServerdatabaseswillNOTbeaccessible-Doyouwishtocontinue(y/n)?yCheckinggroupmembershiptodetermineserverrunmode...succeededReadingconfigurationfile'/opt/dbnm/etc/onconfig.tms_db'...succeededCreating/INFORMIXTMP/.infxdirs...succeededCheckingconfigparameters...succeededAllocatingandattachingtosharedmemory...succeededCreatingresidentpool1074200kbytes...succeededAllocating4000016kbytesforbufferpoolof2Kpagesize...succeededCreatinginfosfile"/opt/dbnm/etc/.infos.tms_db"...succeededLinkingconffile"/opt/dbnm/etc/.conf.tms_db"...succeededInitializingrheadstructure...succeededWritingtoinfosfile...succeededInitializationofEncryption...succeededInitializingASF...succeededInitializingDictionaryCacheandSPLRoutineCache...succeededBringingupADMVP...succeededCreatingVPclasses...succeededOnlining14additionalcpuvps...succeededOnlining2IOvps...succeededForkingmain_loopthread...succeededInitializingdataskipstructure...succeededCheckingfortemporarytablestodrop...succeededForkingonmode_monthread...succeededCreatingperiodicthread...succeededVerboseoutputcomplete:mode=1初始化數(shù)據(jù)庫完畢,現(xiàn)在數(shù)據(jù)庫為無數(shù)據(jù)庫新建庫5.3創(chuàng)立數(shù)據(jù)庫創(chuàng)立數(shù)據(jù)庫日志文獻:onparams-a-dlogdbs-s400000增加chunks文獻:onspaces-adatadbs1-p/infordata/informix/chunks/datachk4-o0-s0000檢查數(shù)據(jù)庫狀態(tài):informix@tnmsdb:/opt/dbnm#onstat-dIBMInformixDynamicServerVersion11.50.FC5

--On-Line--Up00:04:16--8134840Kbytesc00000013ef035f814

9

0

10000000

9999997

PO-B-/opt/dbnm/lnkdev/datadbs21重新讀取和加載該chunks文獻后恢復(fù)正常,為PO狀態(tài)。創(chuàng)立數(shù)據(jù)庫:dbaccesssysmastercreatedatabasetnmsdb2indatadbs5.4數(shù)據(jù)導(dǎo)入

在該目錄下:informix@tnmsdb:/opt/dbnm/數(shù)據(jù)庫備份腳本執(zhí)行數(shù)據(jù)庫導(dǎo)入腳本:loadzz.shtnmsdb2tnmsdb2fulldb則將以前備份到:/opt/dbnm/數(shù)據(jù)庫備份腳本/tnmsdb2/record目錄下的全庫數(shù)據(jù)文獻導(dǎo)入到新建tnmsdb2庫中

數(shù)據(jù)導(dǎo)入完畢后進行整個數(shù)據(jù)庫的全庫更新:updatestatistics;目的為提高新建庫的讀寫速度。并檢查數(shù)據(jù)庫運行狀態(tài),確保數(shù)據(jù)庫能提供正常服務(wù)。

注:由于數(shù)據(jù)備份采用load方式,導(dǎo)入和導(dǎo)出會因表的大小占用整個數(shù)據(jù)庫恢復(fù)的80%時間。恢復(fù)的及時有效性嚴重受到影響。5.5啟動應(yīng)用此時則重啟應(yīng)用服務(wù),恢復(fù)應(yīng)用。6.案例分析鑒于傳輸綜合網(wǎng)管一旦上線應(yīng)用運行,各地市推廣并主動應(yīng)用,一旦出現(xiàn)數(shù)據(jù)庫故障和主業(yè)務(wù)應(yīng)用故障等出現(xiàn)不可恢復(fù)*,則影響廣泛,嚴重影響告警派單等正常運行。為規(guī)避風(fēng)險,避免下次發(fā)生其它故障修復(fù)時間過長,且彌補現(xiàn)在安全隱患,現(xiàn)計劃并做以下實施:6.1服務(wù)器操作系統(tǒng)備份每月檢查服務(wù)器運行狀況,并申請磁帶,進行服務(wù)器操作系統(tǒng)磁帶備份。方便在服務(wù)器操作系統(tǒng)出現(xiàn)故障時及時恢復(fù)操作系統(tǒng)運行。6.2數(shù)據(jù)庫備份采用:ontape進行數(shù)據(jù)庫0級備份。Ontape:備份和恢復(fù)ONLINE數(shù)據(jù)、備份和恢復(fù)邏輯日志、變化數(shù)據(jù)庫日志狀態(tài)等優(yōu)點:ontape備份能夠在ONLINE聯(lián)機或靜止方式下進行,高效方便。ontape在數(shù)據(jù)庫發(fā)生故障無法訪問時,可在最短時間內(nèi),最有效率的及時恢復(fù)數(shù)據(jù)庫,及時性強備份頻率:每七天進行一次數(shù)據(jù)庫的0級備份每七天進行數(shù)據(jù)庫的全庫備份每次數(shù)據(jù)庫表更改前,進行數(shù)據(jù)庫表更改前后的備份備份數(shù)據(jù)寄存位置:單獨申請一塊磁盤,專門寄存數(shù)據(jù)庫備份數(shù)據(jù)

(寄存在盤陣上,讀寫速度要快于本地服務(wù)器硬盤,能在數(shù)據(jù)庫故障時縮短數(shù)據(jù)恢復(fù)時間)申請磁帶,進行數(shù)據(jù)庫數(shù)據(jù)庫磁帶備份雙份數(shù)據(jù)庫數(shù)據(jù)備份,增加多重數(shù)據(jù)保護。避免單一數(shù)據(jù)庫備份出現(xiàn)丟失的不可恢復(fù)操作。避免因load數(shù)據(jù)造成當(dāng)數(shù)據(jù)庫出現(xiàn)不可恢復(fù)是導(dǎo)入數(shù)據(jù)過慢,影響系統(tǒng)恢復(fù)及時*6.3主業(yè)務(wù)應(yīng)用采集備份每次升級運行測試后,進行主業(yè)務(wù)應(yīng)用和采集程序備份主業(yè)務(wù)應(yīng)用程序文獻和采集程序文獻,可和數(shù)據(jù)庫備份文獻一起放在單獨申請的備份磁盤上每次升級,磁帶備份主業(yè)務(wù)應(yīng)用程序和采集程序一旦采集應(yīng)用等出現(xiàn)不可修復(fù)問題,可在第一時間安裝布署主業(yè)務(wù)應(yīng)用程序和采集程序6.4測試(備)系統(tǒng)搭建構(gòu)建傳輸綜合網(wǎng)管系統(tǒng)的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論