05-第5章 系統(tǒng)支持的故障分析與定位_第1頁
05-第5章 系統(tǒng)支持的故障分析與定位_第2頁
05-第5章 系統(tǒng)支持的故障分析與定位_第3頁
05-第5章 系統(tǒng)支持的故障分析與定位_第4頁
05-第5章 系統(tǒng)支持的故障分析與定位_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

HUAWEIMSOFTX3000移動軟交換中心維護(hù)手冊故障處理分冊目錄表5-1所示。系統(tǒng)支撐常見故障現(xiàn)象故障分類故障現(xiàn)象的具體表現(xiàn)形式單板硬件故障和端口故障告警臺上報某塊單板故障告警或者某塊單板的端口故障告警且告警不能恢復(fù)。CPU過載交換機(jī)或某個模塊的呼叫出現(xiàn)大范圍的阻塞現(xiàn)象,接通率急劇下降,CPU的占用率超過過載閾值,出現(xiàn)CPU過載告警。單板倒換異常不能倒換、倒換后主用異常、倒換后影響其他單板單板加載異常不能加載、反復(fù)加載、加載超時、加載后前后臺版本不一致單板硬件故障和端口故障的分析與定位預(yù)備知識MSOFTX3000系統(tǒng)中單板通過如下三種方式與WSMU板通信:前插板通過共享資源總線向WSMU板上報單板狀態(tài);無處理器的后插板的狀態(tài)由對應(yīng)的前插板采集后通過共享資源總線上報WSMU板;有處理器的后插板的狀態(tài)則經(jīng)背板的串口總線直接上報給WSMU板。WSMU板依據(jù)單板狀態(tài)的正常與否產(chǎn)生相關(guān)的硬件故障告警或者恢復(fù)告警。擴(kuò)容框的WSMU板通過基本框的WSMU板向BAM發(fā)送告警。硬件異常和告警信息上報路徑如REF_Ref11121172\r\h圖5-1所示。單板硬件告警信息上報路徑單板硬件故障和端口故障的常見原因單板硬件故障和端口故障的常見原因有:告警單板自身硬件故障告警單板的上級單板故障單板與槽位接觸不良母板故障單板端口連接故障橋板WHSC故障LANSwitch故障單板硬件故障和端口故障的基本處理步驟各種單板硬件故障和端口故障的處理步驟基本上都很相似,如REF_Ref11141030\r\h圖5-2所示。單板硬件故障的基本處理步驟在處理單板硬件故障和端口故障的操作中需要注意以下幾點(diǎn):復(fù)位、更換、倒換、拔插單板將對系統(tǒng)造成一定的影響,應(yīng)當(dāng)在華為技術(shù)支持人員的指導(dǎo)下方可進(jìn)行;對于主備用單板,只有在故障單板處于備用狀態(tài)下,才可進(jìn)行單板的拔插和更換;拔插和更換單板應(yīng)嚴(yán)格按照更換單板的操作規(guī)范進(jìn)行,其要點(diǎn)包括:更換單板必須在凌晨等話務(wù)量小時進(jìn)行;拔插和更換單板前需要將單板上的中繼、信令、資源通道等進(jìn)行閉塞、隔離操作;拔插和更換單板后,單板完成加載,維護(hù)人員注意查詢加載后的單板的軟硬件版本是否正確;單板運(yùn)行正常后需將單板資源進(jìn)行解閉塞、激活操作,并對單板功能進(jìn)行一定的測試。在不確定哪些單板與故障有關(guān)聯(lián)時,不要輕易進(jìn)行操作,應(yīng)首先通知華為技術(shù)支持人員。對于端口故障,請首先確認(rèn)所有端口連接的正確性,其次應(yīng)該注意橋板和母板的狀態(tài)是否正常,LANSwitch是否有問題。CPU過載的故障分析與定位CPU過載是MSOFTX3000的嚴(yán)重故障,當(dāng)CPU占用率過高時,MSOFTX3000會對話務(wù)量進(jìn)行流量控制,從而導(dǎo)致呼損上升,接通率下降。CPU過載的常見原因CPU過載的常見原因有:話務(wù)量過大;話務(wù)統(tǒng)計任務(wù)周期過短;位置區(qū)設(shè)置不合理;維護(hù)操作不規(guī)范;數(shù)據(jù)設(shè)置不正確;CPU過載閾值設(shè)置不正確。CPU過載的處理步驟CPU過載的基本處理步驟如下:檢查維護(hù)操作是否合適大量的操作維護(hù)任務(wù)會占用大量的CPU資源,從而容易使CPU過載,為了避免在話務(wù)忙時因維護(hù)操作而導(dǎo)致CPU過載,應(yīng)注意以下幾點(diǎn):忙時不要運(yùn)行大批量的修改命令。忙時不要執(zhí)行顯示結(jié)果過多的顯示命令。忙時不要將統(tǒng)計輸出到終端。忙時不要對鏈路進(jìn)行過多的動態(tài)跟蹤。注意:由于向大量用戶發(fā)送廣播短消息時,會對MSCServer造成很大的沖擊,因而在發(fā)送廣播短消息時,需避開話務(wù)高峰的時間,而且盡可能分批發(fā)送廣播短消息,每一批的人數(shù)要盡量少一些。對于話務(wù)量已經(jīng)非常高的地區(qū),建議不要發(fā)送廣播短消息。檢查話務(wù)量交換機(jī)某一時段的實(shí)時話務(wù)量,可通過以下幾種途徑了解:查詢近段時期的話務(wù)統(tǒng)計報告。分析“試呼次數(shù)、接通次數(shù)、平均占用時長”等與呼損、話務(wù)量有關(guān)的關(guān)鍵信息,了解系統(tǒng)的話務(wù)量。查詢中繼電路的占用情況。若中繼電路的占用率超過70%,說明系統(tǒng)的局間話務(wù)量很大。對于話務(wù)量很大導(dǎo)致的CPU過載,一般是以觀察為主,對于長期的因話務(wù)量而導(dǎo)致過載可以和其他局協(xié)商,采用話務(wù)分流的方法減少話務(wù)量,或考慮進(jìn)行適當(dāng)?shù)脑O(shè)備升級。檢查話務(wù)統(tǒng)計任務(wù)的統(tǒng)計周期話務(wù)統(tǒng)計任務(wù)的統(tǒng)計周期設(shè)定對CPU占用率也有這重要的影響。由于絕大多數(shù)話務(wù)統(tǒng)計任務(wù)與呼叫關(guān)系緊密,因此,當(dāng)任務(wù)的統(tǒng)計周期過短的時候,會造成CPU的負(fù)荷加重。目前比較合理的周期設(shè)置是1小時,這一信息可以通過維護(hù)命令查詢和修改:查詢命令字:LSTTRFINF,填入相應(yīng)的任務(wù)ID,按<F9>即可列出該務(wù)的所有信息,其中就包含了改任務(wù)的統(tǒng)計周期信息。修改任務(wù)周期命令字:MODTRFTM,填入相應(yīng)的任務(wù)ID,并且在Period下拉菜單中選擇對應(yīng)的時間參數(shù),按<F9>即可進(jìn)行修改。需要注意的是,修改話務(wù)統(tǒng)計任務(wù)的統(tǒng)計周期對話務(wù)統(tǒng)計結(jié)果有一定的影響,那就是修改后的第一個統(tǒng)計周期將不會有話務(wù)統(tǒng)計的結(jié)果,請謹(jǐn)慎使用。檢查數(shù)據(jù)配置是否正常對于MSCServer而言,數(shù)據(jù)配置錯誤導(dǎo)致的CPU過載主要有兩個方面,一個方面是關(guān)于信令鏈路、中繼的負(fù)荷分擔(dān)配置不均衡,導(dǎo)致某些信令鏈路負(fù)荷過大,以致負(fù)責(zé)處理該部分的業(yè)務(wù)處理板過載,這種情況應(yīng)該調(diào)整數(shù)據(jù)鏈路配置。另一類數(shù)據(jù)配置錯誤是MAP功能配置錯誤,如將[周期性位置更新時間]設(shè)置過短(一般情況下,周期性位置更新時間應(yīng)設(shè)置為BSC/RNC設(shè)置的周期性位置更新時間的1.5~3倍),可能導(dǎo)致A/Iu-CS接口鏈路負(fù)荷過高。對設(shè)置不合理的位置區(qū)考慮位置區(qū)分裂由于在VLR中保存的用戶位置信息,都是以位置區(qū)形式的存儲的。因而當(dāng)MSCServer對用戶進(jìn)行尋呼時,是按照位置區(qū)向相應(yīng)的BSC/RNC發(fā)尋呼消息。因此如果一個MSCServer下帶有N個BSC/RNC,但是只有一個位置區(qū),此時對用戶的尋呼消息將發(fā)送給所有的BSC/RNC,這樣相對于一個BSC/RNC一個位置區(qū)來說,尋呼消息將增加N倍。因此對于一個位置區(qū)包含了多個BSC/RNC的情況而該位置區(qū)話務(wù)量居高不下時,應(yīng)該考慮適當(dāng)進(jìn)行位置區(qū)分裂,以減少系統(tǒng)的負(fù)荷,保證系統(tǒng)安全的渡過話務(wù)高峰期。(至于到底一個位置區(qū)多少個BSC/RNC合適,沒有明確的定論,但是一般認(rèn)為一個位置區(qū)超過4個BSC/RNC,就應(yīng)該進(jìn)行位置區(qū)分裂。)檢查CPU過載閾值的設(shè)置CPU過載閾值的設(shè)置將直接影響CPU過載故障的告警與恢復(fù),因此需要直接確認(rèn)該閾值是否設(shè)置正確,如果設(shè)置錯誤,一定要立即修改。該信息可以通過如下命令查詢和修改:LSTCPUTHD查詢CPU過載閾值命令字:LSTCPUTHD,填入相應(yīng)的模塊號,按<F9>即可列出該模塊的所有四級CPU過載閾值和恢復(fù)閾值。修改CPU過載閾值命令字:SETCPUTHD,填入相應(yīng)的模塊號以及各個級別的過載閾值和恢復(fù)閾值,即可進(jìn)行相應(yīng)的設(shè)置。目前默認(rèn)的CPU過載閾值信息如下:閾值OverloadLevel1OverloadLevel2OverloadLevel3OverloadLevel4ResumeLevel1ResumeLevel2ResumeLevel3ResumeLevel4默認(rèn)數(shù)值8085909575808590單板加載不成功的故障分析與定位預(yù)備知識在MSOFTX3000中,所有的加載工作都是通過WSMU板來完成的,所有的業(yè)務(wù)處理板的單板程序和相應(yīng)的數(shù)據(jù)都是從BAM經(jīng)過該框上的WSMU來加載到單板上的,而WCPC單板則是由BAM通過WSMU板再通過業(yè)務(wù)處理板來加載的。對于單板加載不成功的原因往往是單板加載的某段路徑出現(xiàn)異常,常見的加載路徑故障有:BAM上Exchange進(jìn)程和主機(jī)通信中斷;單板硬件版本與軟件版本不配套;某些單板的關(guān)鍵數(shù)據(jù)沒有配置;加載文件丟失或異常;標(biāo)識WSMU板所在框號的撥碼開關(guān)設(shè)置錯誤。單板加載故障的解決思路單板加載故障的基本思路為:檢查BAM和主機(jī)通信是否正常當(dāng)BAM和WSMU通信故障時,整個系統(tǒng)無法加載成功,當(dāng)BAM和其它單板通信故障時,則該板加載不能成功。檢查WSMU板撥碼開關(guān)設(shè)置是否錯誤通過維護(hù)命令字LSTBRD可以查詢指定框的單板配置,可以檢查一下該框的WSMU是否正確配置,如果未能查到,則需要檢查WSMU背板(WSIU板)撥碼開關(guān)設(shè)置是否錯誤。檢查是否是某些重要數(shù)據(jù)沒有配置當(dāng)沒有配置MAP功能信息、本局信息、WCDB功能配置時,會造成WCCU板重復(fù)加載;當(dāng)沒有配置位置區(qū)小區(qū)時,WCDP板也會重復(fù)加載。檢查軟件版本是否正確使用MML命令“DSPBVER”查詢軟件版本與是否與軟件版本描述表中內(nèi)容一致。單板加載后軟件版本與要加載的版本不一致一般是因為單板超時保護(hù)引起的。單板超時保護(hù)是指WSMU、WCDP、WCCU等主控板,在單板上電后一段時間內(nèi)得不到加載響應(yīng),就會使用本板FLASH內(nèi)的程序數(shù)據(jù)。因此,如果FLASH內(nèi)的程序與加載的程序不一致,就會造成版本不一致的現(xiàn)象。另外加載軟開關(guān)設(shè)置不正確也會造成軟件版本不一致的情況。(正確的軟件開關(guān)設(shè)置應(yīng)該是:加載前為程序、數(shù)據(jù)不可用,程序、數(shù)據(jù)可寫;加載完成后正常運(yùn)行時為程序、數(shù)據(jù)可用,程序不可寫、數(shù)據(jù)可寫。)檢查加載文件是否異常如果單板都可以完成加載,但單板狀態(tài)為故障,則有可能是加載文件異常造成的。出現(xiàn)這種情況,可以首先查詢加載軟件的大小、日期是否正確,再使用對比法,用一個已驗證過的加載文件進(jìn)行加載。相關(guān)案例加載文件不對導(dǎo)致單板不能正常加載【故障現(xiàn)象】某MSOFTX3000局升級,發(fā)現(xiàn)單板長時間沒有反應(yīng),根本無法加載相應(yīng)的文件?!竟收戏治觥吭贐AM安裝完畢后,單板加載的文件一般存放在d:\data目錄下:程序文件名為S3000.板名數(shù)據(jù)文件名為DB_模塊號.datWSMU板擴(kuò)展BOOTROM文件名為smubios2.bin業(yè)務(wù)處理板二級BOOTROM文件名為iobios2.bin單板無法加載,可能是這些文件損壞,也可能是路徑被人為改變,從而導(dǎo)致無法找到相應(yīng)的加載文件?!竟收隙ㄎ弧繖z查BAM上的路徑是否存在,發(fā)現(xiàn)存在;檢查文件是否存在,發(fā)現(xiàn)文件已經(jīng)不存在了;在回收站里發(fā)現(xiàn)文件,經(jīng)問詢得知是誤刪除導(dǎo)致;將文件還原,單板開始正常加載。連線、撥碼開關(guān)不正確導(dǎo)致WSMU板無法正常連接到BAM【故障現(xiàn)象】某MSOFTX3000局,WSMU板無法正常加載,不能連接到BAM?!竟收戏治觥窟@個問題可能由從LANSwitch故障或者該板上的端口故障引起,也可能是WSMU板后插WSIU板的撥碼開關(guān)不正確而引起的。WSMU加載時IP地址為:左板:172.20.框號.100,172.30.框號.100右板:172.20.框號.101,172.30.框號.101【故障定位】檢查LANSwitch發(fā)現(xiàn)其工作正常。查詢該板IP為172.20.9.100,172.30.9.100。查詢該板所在的框號顯示為11框,但是實(shí)際上應(yīng)該是1框。檢查其后插WSIU的撥碼開關(guān),發(fā)現(xiàn)其撥碼狀態(tài)有誤,第四個撥碼開關(guān)被錯誤地?fù)艿搅?的位置,恢復(fù)后重新啟動該板即恢復(fù)正常。倒換異常的故障分析與定位常見原因倒換異常的常見原因有:操作不規(guī)范系統(tǒng)運(yùn)行狀態(tài)不允許備板離線倒換異常的故障定位“不能倒換或倒換超時”故障的定位檢查備板是否離線當(dāng)備板未插、備板故障、備板狀態(tài)異常等造成的備板不可用時,稱備板離線。此時若執(zhí)行倒換操作,系統(tǒng)將拒絕執(zhí)行。在維護(hù)臺的維護(hù)工具導(dǎo)航樹中打開硬件配置面板圖,選擇相應(yīng)的模塊、機(jī)框,找到需要倒換的單板,查看該單板的信息,若單板狀態(tài)是“備用異?!?、“故障”、“待激活”、“就緒”、“隔離”等狀態(tài),該單板就不能被倒換。其他不允許被倒換的情況為了保障交換機(jī)安全運(yùn)行,在系統(tǒng)出現(xiàn)大話務(wù)量、CPU高占用率、定時任務(wù)執(zhí)行、數(shù)據(jù)備份等特殊情況時,系統(tǒng)也將拒絕執(zhí)行倒換操作,此時若強(qiáng)行倒換,則會引起嚴(yán)重后果,如話單丟失、斷話、主備用單板全部復(fù)位等,因此,在這種情況下的執(zhí)行倒換操作應(yīng)十分謹(jǐn)慎?!暗箵Q后主用異常或影響其他單板”故障的定位由于WCCU等控制單板是系統(tǒng)或模塊的控制核心,在進(jìn)行此類單板的倒換操作前,必須要遵循以下兩個原則:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論