XX-138應(yīng)急-數(shù)據(jù)庫(kù)緊急處理手冊(cè)_第1頁(yè)
XX-138應(yīng)急-數(shù)據(jù)庫(kù)緊急處理手冊(cè)_第2頁(yè)
XX-138應(yīng)急-數(shù)據(jù)庫(kù)緊急處理手冊(cè)_第3頁(yè)
XX-138應(yīng)急-數(shù)據(jù)庫(kù)緊急處理手冊(cè)_第4頁(yè)
XX-138應(yīng)急-數(shù)據(jù)庫(kù)緊急處理手冊(cè)_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第頁(yè)文檔編號(hào)XX_應(yīng)急_數(shù)據(jù)庫(kù)緊急處理手冊(cè)版本號(hào)V1.0密級(jí)秘密應(yīng)急_數(shù)據(jù)庫(kù)緊急處理手冊(cè)XXX信息技術(shù)有限公司

版本控制編號(hào)修訂人修訂時(shí)間版本號(hào)修訂內(nèi)容說(shuō)明23目錄1 數(shù)據(jù)庫(kù)故障緊急處理流程圖 42 數(shù)據(jù)庫(kù)故障緊急的分析處理 53 數(shù)據(jù)庫(kù)異常處理——查殺SQL處理 73.1 目的 73.2 適用范圍 73.3 執(zhí)行時(shí)間 73.4 流程說(shuō)明 83.5 自動(dòng)化腳本原理及實(shí)現(xiàn)方法介紹 93.6 技術(shù)部處理流程 9 數(shù)據(jù)庫(kù)故障緊急處理流程圖數(shù)據(jù)庫(kù)故障緊急的分析處理緊急場(chǎng)景:服務(wù)器掉電或其它硬件故障緊急處理:如果服務(wù)器掉電或其它硬件故障,則直接切換數(shù)據(jù)庫(kù)到備機(jī)運(yùn)行。把數(shù)據(jù)庫(kù)浮動(dòng)ip地址綁定到切換后的主機(jī)。預(yù)防措施:做好服務(wù)器硬件的選型工作,減少硬件出現(xiàn)問(wèn)題的概率做好服務(wù)器硬件方面的巡檢工作,提前發(fā)現(xiàn)問(wèn)題保證數(shù)據(jù)庫(kù)雙機(jī)狀態(tài)的可用性,保證切換的有效性。緊急場(chǎng)景:數(shù)據(jù)庫(kù)服務(wù)器負(fù)載異常升高,檢查操作系統(tǒng)日志/var/log/messages,如果確定出現(xiàn)系統(tǒng)內(nèi)核bug,導(dǎo)致db2主進(jìn)程出現(xiàn)問(wèn)題緊急處理:首先查看HADR備機(jī)的HADR狀態(tài),確定主備數(shù)據(jù)是否完全同步。如果主備數(shù)據(jù)同步,啟用備機(jī)提供服務(wù),將主機(jī)浮動(dòng)IP綁定在備機(jī)上;如果主備數(shù)據(jù)不同步,則直接重啟主機(jī)操作系統(tǒng),然后啟動(dòng)數(shù)據(jù)庫(kù),重新綁定主機(jī)的浮動(dòng)IP地址。預(yù)防措施:做好數(shù)據(jù)庫(kù)服務(wù)器的硬件和操作系統(tǒng)選型工作,盡量減少系統(tǒng)內(nèi)核bug的出現(xiàn)。緊急場(chǎng)景:數(shù)據(jù)庫(kù)服務(wù)器負(fù)載異常升高,有大量的數(shù)據(jù)庫(kù)請(qǐng)求被阻塞,并且時(shí)間發(fā)生在數(shù)據(jù)庫(kù)全備份結(jié)束時(shí),可確定原因?yàn)閿?shù)據(jù)庫(kù)正在修剪備份歷史文件緊急處理:重啟數(shù)據(jù)庫(kù)實(shí)例,以中斷備份歷史文件的修剪操作或者停止應(yīng)用服務(wù)器,減少數(shù)據(jù)庫(kù)請(qǐng)求,以使修剪操作盡快完成預(yù)防措施:定期檢查數(shù)據(jù)庫(kù)備份歷史文件大小,如果比較大(經(jīng)驗(yàn)值超過(guò)10M),則在凌晨或者停機(jī)維護(hù)時(shí)使用prune命令修剪此文件。緊急場(chǎng)景:數(shù)據(jù)庫(kù)服務(wù)器負(fù)載高,發(fā)現(xiàn)存在耗時(shí)和耗資源的SQL語(yǔ)句緊急處理:視情況決定是否將此連接殺掉分析此SQL,如果SQL寫(xiě)的有問(wèn)題,則要求相應(yīng)開(kāi)發(fā)人員修改SQL;如果統(tǒng)計(jì)信息有問(wèn)題,則視情況重新收集統(tǒng)計(jì)信息;如果索引創(chuàng)建有問(wèn)題,則視情況創(chuàng)建索引。預(yù)防措施:定期巡查各庫(kù)的SQL語(yǔ)句并進(jìn)行優(yōu)化緊急場(chǎng)景:表空間狀態(tài)異常,處于offline和前滾暫掛狀態(tài)緊急處理:確定表空間容器文件的權(quán)限是否異常,如果權(quán)限有異常,將權(quán)限更改后,前滾數(shù)據(jù)庫(kù)至日志末尾預(yù)防措施:嚴(yán)禁修改數(shù)據(jù)庫(kù)文件的權(quán)限(包括表空間容器文件、日志文件等)緊急場(chǎng)景:表空間狀態(tài)異常,處于備份暫掛狀態(tài)緊急處理:備份異常表空間預(yù)防措施:嚴(yán)禁在生產(chǎn)數(shù)據(jù)庫(kù)使用未帶copyyes選項(xiàng)的load命令帶有復(fù)制或者HADR的環(huán)境中,嚴(yán)禁使用load命令緊急場(chǎng)景:表狀態(tài)狀態(tài)異常,處于reorg暫掛狀態(tài)緊急處理:立即對(duì)異常表進(jìn)行重組預(yù)防措施:表結(jié)構(gòu)變更操作必須在測(cè)試環(huán)境嚴(yán)格測(cè)試后再在生產(chǎn)環(huán)境執(zhí)行嚴(yán)禁在生產(chǎn)數(shù)據(jù)庫(kù)中,進(jìn)行刪除列、設(shè)置已有字段非空等的表結(jié)構(gòu)變更操作。數(shù)據(jù)庫(kù)異常處理——查殺SQL處理目的為了解決部分應(yīng)用(SQL語(yǔ)句)導(dǎo)致數(shù)據(jù)庫(kù)負(fù)載過(guò)高,甚至導(dǎo)致數(shù)據(jù)庫(kù)無(wú)法響應(yīng),從而影響所有業(yè)務(wù),特制定該流程。適用范圍該流程的由系統(tǒng)部牽頭,技術(shù)部、產(chǎn)品部協(xié)助,共同制定。當(dāng)發(fā)現(xiàn)異常事件時(shí)啟動(dòng)該流程。異常事件定義:暫定為包含一次數(shù)據(jù)更改(包括插入,更新,刪除數(shù)據(jù))超過(guò)5000行的SQL語(yǔ)句的執(zhí)行(該操作將會(huì)被kill掉)。大負(fù)載的SQL語(yǔ)句。暫定為一個(gè)數(shù)據(jù)查詢(xún)操作行讀超過(guò)400萬(wàn)條的SQL語(yǔ)句的執(zhí)行(此操作會(huì)被記錄下來(lái),但是不會(huì)被kill掉)。執(zhí)行時(shí)間2009-6-22開(kāi)始執(zhí)行流程說(shuō)明出現(xiàn)問(wèn)題,及時(shí)溝通處理。并且系統(tǒng)部數(shù)據(jù)庫(kù)組成員最晚(李卓總負(fù)責(zé))在第二個(gè)工作日的10:30之前,將前一天的kill事務(wù)(自動(dòng)化腳本)信息收集整理,填寫(xiě)下表,郵件發(fā)送平臺(tái)負(fù)責(zé)人(張禮文和李均檸)cc給sysadmin@;yan.fu@,并口頭通知到平臺(tái)負(fù)責(zé)人(張禮文和李均檸)。格式如下:日期(系統(tǒng)部填寫(xiě))發(fā)起的機(jī)器(系統(tǒng)部填寫(xiě))執(zhí)行用戶(hù)(系統(tǒng)部填寫(xiě))執(zhí)行時(shí)間(系統(tǒng)部填寫(xiě))更新記錄數(shù)(系統(tǒng)部填寫(xiě))SQL語(yǔ)句(系統(tǒng)部填寫(xiě))影響的業(yè)務(wù)(技術(shù)部填寫(xiě))解決方案(技術(shù)部填寫(xiě))何時(shí)優(yōu)化(技術(shù)部填寫(xiě))效果(系統(tǒng)部在填寫(xiě))6月15號(hào)效果不明顯,XXX技術(shù)部就相關(guān)信息進(jìn)行分析,如果需要其他部門(mén)配合,由技術(shù)部牽頭。當(dāng)天下午15:30之前,由技術(shù)部填寫(xiě)該表(影響的業(yè)務(wù)、解決方案),全部回復(fù)收件人。系統(tǒng)部數(shù)據(jù)庫(kù)組進(jìn)行存檔,并對(duì)效果進(jìn)行檢驗(yàn),并補(bǔ)充填寫(xiě)“效果”一列,并全部回復(fù)給收件人。如果相同的異常事件連續(xù)發(fā)生兩天,以上郵件必須抄送給系統(tǒng)部與應(yīng)用中心負(fù)責(zé)人。如達(dá)不到效果,由系統(tǒng)部數(shù)據(jù)庫(kù)組重新發(fā)起該流程。

自動(dòng)化腳本原理及實(shí)現(xiàn)方法介紹1)原理編寫(xiě)shell腳本通過(guò)數(shù)據(jù)庫(kù)快照表函數(shù)監(jiān)控?cái)?shù)據(jù)庫(kù)的運(yùn)行,分析快照并抓取我們認(rèn)為運(yùn)行異常的事務(wù),記錄下該事務(wù)的相關(guān)信息并取得該事務(wù)的applicationhandle。在shell中執(zhí)行forceapplication停止該異常事務(wù)的執(zhí)行。2)實(shí)現(xiàn)監(jiān)控?cái)?shù)據(jù)庫(kù)并抓取異常事務(wù)SELECTAGENT_ID,ROWS_READ,STMT_ELAPSED_TIME_MS,STMT_TEXTFROMTABLE(SNAPSHOT_STATEMENT('mobile',-1))asdynSnapTabwhereSTMT_STARTisnotnullandSTMT_TEXTisnotnullandminute(currenttimestamp-STMT_START)>1orROWS_READ>50000停止異常事務(wù)的執(zhí)行db2"forceapplications($id)"技術(shù)部處理流程平臺(tái)負(fù)責(zé)人(XX)接到系統(tǒng)部數(shù)據(jù)庫(kù)小組“數(shù)據(jù)庫(kù)異常更新”的通知,著手處理。13:30前,根據(jù)系統(tǒng)部提供的“異常數(shù)據(jù)庫(kù)更新”發(fā)起的機(jī)器IP、服務(wù)名稱(chēng)、SQL語(yǔ)句,初步判定異常更新SQL語(yǔ)句對(duì)應(yīng)的應(yīng)用、根據(jù)SQL語(yǔ)句定位到相應(yīng)的代碼。(如果無(wú)法判斷,則召集相關(guān)人員討論)根據(jù)分析結(jié)果,找到負(fù)責(zé)相應(yīng)應(yīng)用的小組或開(kāi)發(fā)人員,評(píng)估該SQL語(yǔ)句的影響到的業(yè)務(wù)、解決方案、解決方

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論