網絡設備現場維護手冊_第1頁
網絡設備現場維護手冊_第2頁
網絡設備現場維護手冊_第3頁
網絡設備現場維護手冊_第4頁
網絡設備現場維護手冊_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、. 現場工程師設備維護手冊網絡工程師現場維護手冊1. 適應范圍 范圍:所有現場故障排除的任務均需參照該指導書要求。2. 目的 目的:為了提高工作效率,主動地搞好各代維點網絡設備的維護,力求保證各代維點網絡主干暢通。及時解決網絡運行中出現的問題,各維護人員要規(guī)范、有效地作好維護工作,不僅要解決出現的問題,而且盡量去分析出現問題的原因,為以后解決類似問題節(jié)約時間和精力。3. 主要涉及部門 國網客服服務中心國網信通網控中心技術服務中心技術支持網絡設備服務廠商4. 輸出:現場網絡設備故障報告(一) 維護人員準備為了搞好網絡維護,當問題出現時能及時發(fā)現問題、較快解決問題。各網絡維護人員在平時須

2、準備好以下準備:1.     常規(guī)類:各路由器、防火墻、核心設備配置和數據資料備份。2.    工具類:筆記本電腦、光通道檢測儀、網絡測試儀、水晶頭、標簽、筆、相關機房鑰匙和卡片。3.   資料類:網絡IP地址分配表、管理IP分配表、各代維技術資料、路由器、防火墻、核心和匯聚交換機的說明書、防火墻的說明書、路由器的說明書、維護聯系電話表。更新日期: 2011 年 11 月 13 日版本:1.0:27目 錄技術部分1 網絡常見信息收集方法21.1 日常維護操作21.2 操作命令示例72 故障處理92.1 處理原則102.2 準

3、備工作102.3 必備資料102.4 業(yè)務全阻故障的處理【整個局域網無法訪問任何網絡】102.5 部分用戶業(yè)務中斷故障的處理流程 【局域網故障】152.6 Ping 命令應用173 緊急故障處理方法193.1 CPU占用率較高的問題193.2 硬件接口問題203.3 單板故障213.4 丟包問題223.5 STP相關問題233.6 VRRP相關問題253.7 OSPF相關問題254 其他常見信息收集方法26技術部分1 網絡常見信息收集方法1.1 日常維護操作工程師到達現場后,首先記錄到達時間并由現場相關人員確認簽字或者登入故障網絡設備,設備故障時,登入并操作網絡設備時必須截取屏幕or 用相機拍

4、下登入網絡設備時的屏幕。提示:截屏和拍照需顯示現場時間】編碼檢查項目檢查分項目檢查方法備 注是否正常設備時間display clock顯示設備時間是否正常是 否 1環(huán)境及網絡設備單板硬件狀態(tài)檢查環(huán)境狀況display environment所有主控板,接口板溫度都應該在門限70度以內是 否 風扇狀況display fan風扇應該顯示normal是 否 電源狀況display power電源應該顯示normal是 否 指示燈狀況觀察所有單板的運行燈及告警燈的運行狀況正常狀態(tài)下,單板板運行燈慢閃,告警燈常滅。觀察網絡設備面板狀態(tài)燈,是否有橙色維修報警燈亮?是 否 單板運行狀況display dev

5、ice所有業(yè)務板應該是Normal,主控板為master或slave狀態(tài)是 否 2雙主控設備自檢主備板軟件版本是否一致?display boot-loader一定要確保主備板的軟件版本一致,包括當前使用版本和下次啟動版本。是 否 主控板上是否保存了配置?是否設置了啟動配置文件?dirdisplay startup如果不存在配置文件,請執(zhí)行save命令保存是 否 備板是否保存有配置文件使用命令dir slot#如果不存在配置文件,請執(zhí)行save命令保存是 否 3CPU占用率CPU的占用率是否忽高忽低.震蕩比較大(1060%)或者一直高(主控板CPU占用率是否超過60?業(yè)務板CPU占用率是否超過6

6、0?)多次使用display cpu.查看.正常情況下,主控板和業(yè)務板在5分鐘內的平均利用率應該在60%以下,并且無較大的震蕩。是 否 4內存占用率主控板和業(yè)務板內存占用率是否在60以下display memory slot 如果內存高于60,需要通過_display memory命令確認那個模塊占用內存過道,以便排查。是 否 5端口自檢 端口是否協(xié)商出了半雙工?Display brief interface如果顯示某個端口狀態(tài)為half,需要確認是否兩端配置不一致導致。是 否 是否在沒有必要啟動流控端口配置流控?使用display current命令查看配置關閉該端口流控.是 否 端口出/入

7、方向是否有大量的錯誤報文display interface查看errors部分是否有較大數據,并且在增加如果有,需要檢查:1: 檢查線路質量,中間連接的光電轉換器;2: 兩端配置是否一致?是否一端為強制而對端為協(xié)商?是 否 是否有比較頻繁的端口UP/DOWN?display logbuffer如果有某個端口有較多的UP、DOWN記錄,需要檢查:1: 該端口是否直連PC?如果是,開關PC機會造成端口DOWN;2: 檢查線路和中間連接的光電轉換器;3: 千兆端口檢查光功率是否處于臨界值?4: 檢查兩端配置是否一致?是 否 61000M光口自檢千兆光口兩端是否配置了千兆強制?display curr

8、ent interfaceH3C設備與其它廠商設備互連,建議光口速度和雙工設置為強制模式,H3C設備自己互連,優(yōu)先采用協(xié)商方式是 否 千兆光口是否有CRC錯誤?是否在增長?display interface如果發(fā)現大量CRC錯誤,且在增長,需要檢查光功率是否處于臨界值?可以通過更換光模塊、更換尾纖或清洗維光模塊連接器的方式解決。是 否 7設置TRUNK端口和MULTI端口的自檢檢查TRUNK端口是否配置undo port trunk permit vlan 1display current interface如果系統(tǒng)配置了GVRP,同時RUNK端口配置undo port trunk permi

9、t vlan 1,需要重新設置TRUNK端口的pvid為允許的vlan成員之一是 否 端口PVID是否和對端的PVID一致?display current interface互連鏈路兩端端口的PVID值設置必須一致是 否 TRUNK端口允許通過的VLAN是否和對端允許通過的VLAN一致?display current interface互連Trunk端口的兩端設備允許通過的VLAN配置必須一致,避免一端為TRUNK ALL,另外一端非TRUNK ALL。是 否 是否一端配置成TRUNK,一端配置成ACCESS?display current interface根據實際情況調整兩端的配置到一致狀

10、態(tài)是 否 VLAN 1是否成環(huán)路?用display interface命令查看所有設備互連Trunk端口的配置根據網絡情況調整,去掉VLAN 1環(huán)路是 否 8STP的自檢檢查STP時間因子的設置情況display current查看配置中是否存在stp timer-factor,如果不存在,建議配置為stp timer-factor 10 ,增加STP的穩(wěn)定性。是 否 接PC的端口是否配置為邊緣端口?display current interface如果配置了邊緣端口, 配置中會有stp edged-port的顯示確認和PC連接的端口設置為edge-port或者將STP關掉,和不支持STP設備

11、互連端口的STP關掉,避免這些端口的UP/DOWN干擾STP的計算。是 否 是否存在和思科的PVST+互通情況?檢查各個設備上STP的狀態(tài)計算是否正常如果存在類似問題,最好改為3層互連的方式,避免和思科私有的PVST協(xié)議互通。是 否 各個STP邏輯環(huán)路路中是否存在公共VLAN?使用display current 檢查STP端口配置避免多個STP邏輯環(huán)路中有公共VLAN,減小廣播域對其它STP邏輯環(huán)路影響。是 否 是否存在TC攻擊,導致端口STP狀態(tài)不停切換?dis stp tc,dis stp history查看端口tc計數和stp狀態(tài)切換記錄時間確認和PC連接的端口設置為edge-port或

12、者將STP關掉。和不支持STP設備互連的端口關掉STP是 否 9VRRP自檢握手時間是否設置成3秒?兩端的vrrp握手時間是否一致?display vrrp如果VRRP組在5個以下可以統(tǒng)一將VRRP握手時間改為3秒,如果VRRP組過多,可以將VRRP分為五個或三個一組,每組的VRRP握手時間分別配置為3秒、5秒、7秒是 否 10OSPF自檢是否有兩臺設備router id設置成一致?display ospf peer如果存在這個問題,會導致路由學習錯誤,需要修改Route-Id后,執(zhí)行reset ospf all命令是重新學習。是 否 display ospf error是否有大量錯誤?dis

13、play ospf error如果存在大量的OSPF error記錄,并且還在不斷增加,需要抓取信息進一步分析是 否 路由是否存在較大震蕩?display ip rout statistics 查看added和deleted數據與系統(tǒng)運行時間對應是否比較大如果有,請仔細分析變化的具體路由,然后根據該路由查找到路由的原設備,分析具體震蕩原因。可以在出現故障時,使用display ospf lsdb命令多次查看路由的age信息,確認那條路由在頻繁振蕩。是 否 OSPF狀態(tài)是否穩(wěn)定?display ospf peer查看OSPF鄰居的UP時間是 否 11ARP檢查是否存在大量ARP沖突?displa

14、y logbuffer 檢查沖突地址,根據IP地址排除該主機.是 否 12路由檢查缺省路由是否正常?是否存在路由環(huán)路?使用tracert 1.1.1.1等明顯不存在網段看是否存在路由環(huán),使用de ip p,打印部分報文,看是否存在TTL=1或者=0的報文.如果存在路由環(huán),請檢查對應的設備是否配置正確.,調整路由,去掉路由環(huán)。如果存在TTL超時報文,請分析對應網段路由是否正常是 否 13EA單板芯片轉發(fā)狀態(tài)自檢交換芯片是否正常輸入en_diag進入診斷模式;診斷模式下,多次使用debug rxtx mem <slot>對于EA單板請查看是否有大量復位記錄,并且持續(xù)增加的情況,如果存在

15、大量復位并且持續(xù)增加,需要聯系研發(fā)確認原因。是 否 14攻擊檢查是否有大量報文攻擊cpu診斷模式下:debug rxtx softcar show <slot>某類報文的統(tǒng)計計數不斷增長,說明有攻擊存在是 否 15DDRB異常記錄查看檢查DDRB里是否有異常記錄診斷模式下local logbuffer <slot> display如果存在該信息,需要轉相關人員確認是否是異常信息。升級后注意清除歷史記錄,相關命令為:local logbuffer <slot> clear是 否 16芯片端口錯包統(tǒng)計檢查分析錯包統(tǒng)計是否由于硬件原因導致bcm <slot&

16、gt; <chip> show/c/erdisc如果錯包統(tǒng)計中有如下計數不斷增長:GRFCS:端口CRC錯包計數GRPORTD:端口底層的stp不是一個forwarding狀態(tài)IRERPKT:HG接收到錯包是 否 17查看debug開關debug開關打開會消耗系統(tǒng)資源,請關閉display debug執(zhí)行undo debug all命令關閉debug信息是 否 網絡中的H3C核心交換機,應仔細查看以下面板指示燈: 引擎和業(yè)務板在運行過程中的狀態(tài),可以通過指示燈狀態(tài)以及一些命令來查看。² 引擎面板上有系統(tǒng)狀態(tài)指示燈,分別代表電源模塊、風扇框、業(yè)務單板、及引擎板本身的工作狀態(tài)

17、;² 電源指示燈(PWR)中的OK燈亮表示電源正常工作,燈滅表示電源有故障或者不在位;FAIL燈亮表示電源有故障,或者電源有輸入但沒有開啟電源模塊開關,燈滅表示電源正?;蛘卟辉谖唬?#178; 風扇指示燈(FAN)中的OK燈亮表示風扇工作正常,燈滅表示風扇有故障或者不在位;FAIL燈亮表示風扇工作不正?;蛘卟辉谖?,燈滅表示風扇工作正常;² 單板指示燈(SLOT0、SLOT1、)對應各個槽位的單板狀態(tài)。RUN燈常亮或常滅表示單板有故障或者不在位,燈閃爍表示單板工作正常;ALM燈常亮表示單板有故障,燈常滅表示單板無故障或者不在位;² 如果RUN 指示燈處于快速閃爍中,

18、表示單板正處于啟動過程中,并沒有正常工作。在系統(tǒng)初始啟動時,ALM 指示燈會亮一段時間,并不表示單板有故障。² 業(yè)務處理引擎主用/備用指示燈(ACTIVE)表示引擎的主備工作狀態(tài),燈常亮表示引擎工作在主用狀態(tài),常滅表示引擎工作在備用狀態(tài)。² 業(yè)務板上的指示燈表示端口的狀態(tài),燈滅表示該端口線路沒有連通,燈亮表示線路已經連通,燈閃爍表示有數據收發(fā)。1.2 操作命令示例常用的查看設備運行狀態(tài)的命令包括:² 查看設備版本: display version H3C Comware Platform SoftwareComware Software, Version 5.20

19、, Alpha 1011Copyright (c) 2004-2007 Hangzhou H3C Tech. Co., Ltd. All rights reserved.SIMWARE uptime is 67 week, 9day, 9 hour, 32 minutes備注:主要顯示IOS的版本、路由器持續(xù)運行的時間及查看設備最近一次重啟動的時間display version 命令顯示了路由器的許多有用的信息。² 查看設備日志: display logbuffer 重啟任何設備時,必須先保存日志文件Logging buffer configuration and contents:

20、enabledAllowed max buffer size : 1024Actual buffer size : 512Channel number : 4 , Channel name : logbufferDropped messages : 0Overwritten messages : 0Current messages : 35%Nov 14 00:53:58:219 2011 H3C HWCM/4/TRAPLOG: 1.3.6.1.4.1.25506.2.4.2.1<hh3cCfgManEventlog> configure changed: EventIndex=1

21、,CommandSource=2,ConfigSource=4,ConfigDestination=2%Nov 14 00:56:03:00 2011 H3C HWCM/4/EXIT: exit from configure mode%Nov 14 00:56:03:00 2011 H3C SHELL/4/LOGOUT: Console logout from con0%Nov 14 01:10:41:31 2011 H3C SHELL/4/LOGIN: Console login from con0%Nov 14 01:10:43:125 2011 H3C SHELL/4/CMD:task:

22、co0 ip:* user:* command:display version² 查看單板運行狀態(tài):display device<S7503E>display device Slot No. Brd Type Brd Status Subslot Num Sft Ver Patch Ver 0 LSQ1SRPB ,Master 0 S7500E-6305 ,P004 1 NONE ,Absent 0 NONE ,None 2 LSQ1FV48SA ,Normal 0 S7500E-6305 ,P004 3 LSQ1T24XGSC ,Normal 0 S7500E-6305

23、 ,P0044 NONE Fault , 0 NONE ,None狀態(tài)顯示為Normal,表示單板在位。如果顯示為Fault,表示單板出現故障,或者正在重啟。狀態(tài)顯示為Absent,表示該槽位沒有單板。引擎狀態(tài)顯示為Master,表示該槽位引擎為主用引擎;狀態(tài)顯示為Slave,表示該槽位引擎為備用引擎。² 查看環(huán)境狀況:display environment<S7503E>display environment System temperature information (degree centigrade):- Board Temperature Lower limi

24、t Upper limit 0 ,33 ,0 ,80 2 ,36 ,0 ,80 3 ,34 ,0 ,80 4 ,30 ,0 ,80 其中,Temperature列表示當前單板的運行溫度;Low limit列表示系統(tǒng)設定的單板溫度告警的下限,Upper limit表示系統(tǒng)設定的單板溫度告警的上限;如果當前Temperature的值低于Low limit,或者高于Upper limit,引擎上對應槽位的ALM會顯示成紅色。2 故障處理 2.1 處理原則² 收集必要的信息,供后續(xù)分析定位;盡快恢復業(yè)務,縮短業(yè)務中斷時長。2.2 準備工作² 準備裝有SecureCRT等控制臺程序的

25、PC或筆記本電腦、console線纜。² 了解各代維點網絡組網,網絡設備IP地址分配表、管理IP分配表、各代維技術資料、核心和匯聚交換機的說明書、防火墻的說明書、路由器的說明書、維護聯系電話表。² 獲取登陸設備的用戶名密碼等信息,各代維點路由器、防火墻、核心設備最新配置文件資料。² 現場工程師需攜帶路由器、交換機、防火墻的最新軟件版本,或統(tǒng)一使用的版本。2.3 必備資料² 網絡路由、交換設備產品的操作手冊和命令手冊,及系列產品故障處理指導,以作參考。以上資料均可從廠商網站上獲取2.4 業(yè)務全阻故障的處理【整個局域網無法訪問任何網絡】² 導致業(yè)務

26、全阻故障的主要原因有: 出口路由器&防火墻的上聯端口故障、上聯接口模塊故障、物理鏈路故障、光纖收發(fā)器、協(xié)議轉換器故障(包括傳輸)² 為了能分析故障原因,建議不要立即重啟路由器。如在操作過程中,無法排除故障而需要重啟網絡設備時【重啟設備請雙擊右邊附件】,必須按網絡設備重啟維護流程要求操作,并需要得到領導和網控人員的同意方可重啟,切記!處理該類故障通常遵循下面幾個步驟:² 檢查光纖收發(fā)器、網絡出口上聯端口鏈路指示燈、數據收發(fā)指示燈是否正常若不正常,需要進一步確定是設備的故障,還是物理鏈路的故障。常用的方法是自環(huán)光接口或在電接口上直接連接PC進行測試,當光接口自環(huán)或電接口

27、直聯PC正常時,可以初步判斷是物理鏈路問題或是對端設備故障。 處理步驟: 1、檢查光纖收發(fā)器故障圖1是收發(fā)器前面板示意圖。圖11、FX燈當網絡不通的時候,先看FX燈(FX中的F就代表Fiber即光纖),FX如果是綠色,則表明光纖連接良好(光路沒有問題),FX燈閃,則說明有數據傳輸,如果FX燈滅了,則有如下可能:1)對端設備損壞或是沒加電2)兩端光纖收發(fā)器之間的線路斷如果對端機房有沒有停電、最近有沒有被雷擊過,更換兩端對應型號的光纖收發(fā)器,如果換過光纖收發(fā)器以后線路還是不通,則說明肯定是光纜線路的故障了。2、TP燈TP即Twisted-Pair Cable Port(雙絞線端口)也就是我們平常說

28、的網口,TP輸出的線路即進入客戶的內部網絡設備了,通常情況下是進入交換機,如果TP LINK/ACT燈是綠色的,則說明雙絞線連接良好,當有數據傳輸時,TP燈會閃。3、FDX燈FDX燈即指示全雙工的工作狀態(tài),半雙工就是指A能發(fā)信號給B,B也能發(fā)信號給A,但這兩個過程不能同時進行。最典型的例子就像我們在使用對講機時一樣。全雙工比半雙工又進了一步,在A給B發(fā)信號的同時,B也可以給A發(fā)信號。典型的例子就是像我們打電話。真正支持100M全雙工的光纖收發(fā)器可以保證送、發(fā)的傳輸速度都在100M,這對于大容量的數據傳輸,比如網上的視頻內容的傳輸是非常必要的。(二)單纖單網口(或雙網口)光纖收發(fā)器單纖收發(fā)器在一

29、根光纖上用1310nm和1550nm分別代表收發(fā),應該說實現起來在技術難度上更高了,但是卻能夠有效的節(jié)約光纖資源,是一項非常實用的技術。1、單纖收發(fā)器的故障判斷與排除以RC305/306-2FE-S1系列的光纖收發(fā)器為例,這是設備的前面板圖。圖2指示燈表示收發(fā)器狀態(tài)如下:,端口指示燈名稱指示燈指示燈表示收發(fā)器狀態(tài)光口光接收鏈路燈RLK常亮,光口接收鏈路正常,反之鏈路錯誤光發(fā)送鏈路燈TLK常亮,光口發(fā)送鏈路正常,反之鏈路錯誤電口電口鏈路燈LNK常亮,電口鏈路正常,反之鏈路錯誤。電口收發(fā)燈ACT閃亮,電口有數據收發(fā)。電口速率燈100M常亮,電路速率為100M,不亮,速率10M電源電源指示燈PWR常

30、亮,電源工作正常,反之錯誤2、單纖收發(fā)器的設備互聯與雙纖光纖收發(fā)器不同,單纖收發(fā)器必須要配對使用的,而且型號也要對應一致,比如RC305-2FE-S1必須要RC306-2FE-S1配對使用,因為不同型號的單纖收發(fā)器可能定義收發(fā)光信號的功率不同,不配對使用可能會造成光口的損壞或者數據傳輸的不穩(wěn)定。3、 各代維點網絡出口路由器與白廣路互聯端口是否UP。直接去機房查看物理指示燈的狀態(tài)并記錄Or 拍照。² 檢查數據鏈路是否正常若上聯端口指示燈正常,就需要通過超級終端或Telnet登錄到路由器上進行進一步檢測。登錄到路由器上后,由近到遠通過ping的方法,驗證本地路由器到白廣路的每個環(huán)節(jié)是否通

31、暢。處理步驟:1、telnet至路由器 命令:telnet 10.2.208.254 或者通過SecurityCRT登入 2、 查看系統(tǒng)時間,以便記錄維護的時間點【截圖】3、 查看與白廣路互聯的IP地址,并執(zhí)行Ping 白廣路路IP及提供測試的IP地址動作。² 檢查本端路由器是否有上行路由和驗證對端路由器是否有返回路由查看本端路由器的路由表可以檢查出是否有上行路由。而驗證對端路由器是否有返回路由的最簡單方法是,通過連接到本地路由器的PC分別ping本端路由器上聯接口地址和對端路由器接口地址,若前者能通后者不能通,可以肯定對端路由器沒有返回本端路由器的路由,此時需要對對端路由器進行故障

32、診斷。命令:display ip routing-table ² 核心交換機、路由器、防火墻、協(xié)議轉換器操作系統(tǒng)崩潰時,重新啟動路由器。 當通過超級終端和Telnet無法登錄路由器,應該懷疑路由器操作系統(tǒng)已經崩潰,應該重新啟動路由器。同樣重啟機器需按照網絡設備重啟維護流程,并需要得到領導和網控人員的同意方可重啟,切記!2.5 部分用戶業(yè)務中斷故障的處理流程 【局域網故障】當部分用戶業(yè)務中斷時,可以按下列步驟進行故障診斷和排除:檢查硬件端口、物理鏈路是否正常;檢查數據鏈路層是否正常;檢查本端路由器上是否有到業(yè)務中斷用戶網段的路由信息,檢查用戶側缺省網關或路由設置是否正確;若用戶能pin

33、g通本端路由器但無法訪問,則需要確認上端路由器是否有該網段的返回路由;操作步驟:1、查看本地IP地址、子網掩碼、端口所屬的VLAN、網關、DNS 2、PING 本地網關 3、PING 本地出口IP 地址 2.6 Ping 命令應用 Ping這個詞源于聲納定位操作,本意是指來自聲納設備的脈沖信號,在網絡設備中,Ping幾乎是使用頻率最高的網絡測試命令,本文將詳細介紹Ping命令的基本原理,相關參數,使用技巧及其注意事項.一,Ping工作原理提到Ping命令就不能不介紹ICMP Internet Control Messages Protocol因特網控制信息協(xié)議.ICMP通常被認為是IP層的一個

34、組成部分用于傳遞差錯報文和其它需要注意的信息ICMP報文是在IP數據包內部傳輸的.結構如圖1所示ICMP報文格式如圖2所示,類型字段可以有15個不同的值描述特定類型的ICMP報文。Ping報文實際上是類型為0的,回顯應答和類型為8的請求回顯報文。二,Ping命令的格式和參數在H3C系列網絡設備產品上,Ping命令格式如下 粗體為關鍵字,斜體為參數Ping -c number-t number-s number ip-address-c Ping報文的個數,缺省值是5個-t 設置Ping報文的超時時間,以毫秒為單位,缺省值為2000-s 設置Ping報文的大小,缺省值是56 byte實際上,Pi

35、ng命令的參數還有很多,本文僅重點介紹最常用的三個三,Ping命令的使用誤區(qū)1,真的Ping不通?【案例一】 工程師小L在配置完一臺路由器之后,執(zhí)行Ping命令檢測鏈路是否通暢,發(fā)送了五個報文都沒有Ping通,于是檢查雙方配置命令和路由表,一直沒有找出錯誤,最后無奈之下重復執(zhí)行了一遍相同的Ping命令發(fā)現此次的五個報文中竟有兩個Ping通了原來線路質量不好,存在著嚴重的丟包現象。【點評】,小L被Ping命令的缺省參數-c給迷惑了,Ping不通的背后可能隱藏著丟包現象畢竟配置錯誤和線路質量不好的解決方法大相徑庭,有了此次教訓之后小L再遇到Ping不通的情況都會將命令多執(zhí)行一遍并加上參數,-c 1

36、0,這意味著連續(xù)Ping10個報文來檢驗是否存在丟包現象。命令格式,Ping -c 10 ip-address【案例二】,工程師小L配置完一臺路由器之后,執(zhí)行Ping命令訪問internet某站點IP地址沒有Ping通,有了上次教訓小L再一次Ping了10個報文仍沒有響應,于是小L斷定為網絡故障在費勁周折檢查了配置鏈路后仍沒有發(fā)現任何可疑之處,最后小L采取逐段檢測法。對鏈路網關進行逐級測試,發(fā)現每段都可Ping通,但響應時間越來越長,最后一個網關的響應時間已達到1800ms左右會不會是由于超時而導致顯示為Ping不同呢?受此啟發(fā)小L將Ping命令回顯時間改為4000ms Ping通了觀察發(fā)現所

37、有報文響應時間都在2100ms左右?!军c評】,這一次小L被Ping命令的另一個缺省參數-t 給迷惑了,Ping不通的背后可能隱藏著超時處理,系統(tǒng)缺省認為Ping報文應該在2000ms內有回應,如果超出該時間,即使有回應報文送達,也認為Ping不通,有了這次教訓之后,小L再遇到Ping不通的情況,都要把命令再敲一遍并加上參數,-c 10 -t 4000,這意味著連續(xù)Ping10個報文,每個報文的超時設置為4000ms,以此檢驗是否存在丟包和響應時間過長等現象命令格式,Ping -c 10 -t 4000 ip-address2真的能Ping通?1、 A能Ping通B,則B一定能Ping通A?【案

38、例一】小L在學習了Ping的工作原理之后,一直這樣認為如果A能夠Ping通B則B也一定能夠Ping通A不考慮防火墻因素但是在一次工程實踐中,如圖3所示卻發(fā)現并非如此?!军c評】在路由器A上Ping路由器B以太網地址2.2.2.2,顯示可以正常Ping通。但在路由器B上Ping路由器A以太網地址3.3.3.3時卻返回無法Ping通。仔細察配置發(fā)現,路由器A配置了一條指向2.0.0.0/8網段的靜態(tài)路由,但在路由器B上卻沒有相應配置到3.0.0.0/8的路由,因此路由器B Ping不通3.3.3.3。但是為什么路由器A可以Ping通2.2.2.2呢?同樣沒有回程路由小L百思不得其解,打開路由器IP報

39、文調試開關后,終于真相大白原來從路由器A上發(fā)出的ICMP報文的源地址填寫的是1.1.1.1,而不是3.3.3.3由于兩臺路由器的s0接口處于同一網段所以響應的報文可以順利送達路由器A。3 緊急故障處理方法3.1 CPU占用率較高的問題多次使用display cpu命令,查看過去5分鐘的平均占有率。如果結果都在60%以上,則可視為CPU占有率高。遇到此類問題,按照下面的方法處理:1) 查看系統(tǒng)各項任務占用CPU的情況:display cpu-usage task slot 0顯示結果后,查看TaskName和CPU兩列,找出CPU值較高的進程名稱。注:VIDL分別是S75E上的空閑進程。正常情況

40、下,應該是空閑進程數值遠高于其他進程。2) 查看上CPU的報文類型:S7500E-diagnosedebug rxtx event 0 Slot 0: information of Module RxTx /- the first chip UNIT = 0 -/Packets received from chip(U=unicast, M=Multicast, B=BroadCast): port bcm(U) bcm(M) bcm(B) 0 15 0 0 1 15 0 0 6 15 0 0 7 15 0 0Packets transmit to chip(U=unicast, M=Mult

41、icast, B=BroadCast): port bcm(U) bcm(M) bcm(B) 0 15 0 0 1 15 0 0 6 15 0 07 15 0 0注:² U表示單播報文,M表示組播報文,B表示廣播報文² port為芯片端口號,不是業(yè)務端口編號。3) 查看具體是什么報文S7500E-diagnosedebug rxtx c 100 pkt 0 -c 100 表示打印100個上CPU的報文,具體數值可以修改0 表示查看上0槽位主控板的報文,也可查看其他單板的報文。4) 對上CPU的報文做分類統(tǒng)計:進入診斷模式輸入debug rxtx catch by , 可選擇

42、根據da(目的MAC)、dip(目的IP)、sa(源MAC)、sip(源IP)、etype(報文類型)、VLAN等進行報文分類統(tǒng)計。等待1分鐘之后,輸入debug rxtx catch end結束統(tǒng)計并顯示統(tǒng)計結果。根據結果,可以判斷是從哪個地址有大量報文上CPU處理,或者是何種類型的大量報文上CPU處理。5) 通過對第4步的統(tǒng)計結果進行分析,采取相關方法處理:如果是大量TTL超時報文,使用undo ip ttl-expires命令,可阻止此類報文上送CPU處理。然后排查網絡中是否有路由環(huán)路等,造成TTL超時。如果是大量ARP報文,可先對關鍵業(yè)務配置靜態(tài)ARP規(guī)避,然后查找大量ARP報文的發(fā)送

43、源,并查殺病毒。3.2 硬件接口問題² 電口頻繁UP/DOWN故障1) 查看兩端端口是否存在收發(fā)錯誤報文統(tǒng)計。命令為display interface 如果存在錯誤報文統(tǒng)計,則表明鏈路質量不好,需要檢查端口配置情況和檢查鏈路質量;2) 如果確認端口配置正常(速度以及雙工一致),則檢查物理鏈路是否正常。簡單方法是使用手輕輕碰網線看是否有UP/DOWN變化。如果沒有,則更換連接線觀察;3) 如果確認物理鏈路正常,而端口又為協(xié)商模式,將兩端配置為強制模式觀察;4) 更換一端設備端口(如果條件允許,推薦是同類型的其它槽位單板),觀察是否故障依舊;5) 如果更換端口依舊,則更換另一端設備端口(

44、如果條件允許,推薦是同類型的其它槽位單板);6) 可以在端口下配置link-delay命令來調整端口up、down靈敏度,通常敏感局點建議使用10;7) 如果故障依舊需要研發(fā)人員確認;² 光口頻繁UP/DOWN故障1) 查看兩端端口是否存在收發(fā)錯誤報文統(tǒng)計。命令為display interface 如果存在錯誤報文統(tǒng)計,則表明鏈路質量不好,需要檢查端口配置情況和檢查鏈路質量;2) 如果確認端口配置正常(速度以及雙工一致),則檢查物理鏈路是否正常。簡單方法是使用手輕輕碰光纖看是否有UP/DOWN變化。如果沒有,則更換連接線觀察;3) 通過測試光功率依舊更換光纖等手段,如果確認物理鏈路正

45、常,而端口又為協(xié)商模式,將兩端配置為強制模式觀察;4) 更換一端設備端口(如果條件允許,推薦是同類型的其它槽位單板)。觀察是否故障依舊;5) 如果更換端口依舊,則更換另一端設備端口(如果條件允許,推薦是同類型的其它槽位單板);6) 可以在端口下配置link-delay命令來調整端口up、down靈敏度,通常敏感局點建議使用10;7) 如果故障依舊需要研發(fā)人員確認;² 電口不UP的故障1) 在本板上兩端口直接互連,判定是否能up;2) 如果直連無法up,檢查物理連接線是否正常;更換網線再測試;3) 如果確認物理連接線正常,使用命令display interface檢查配置情況;4) 如

46、果確認對端沒有被配置為down狀態(tài)或者鏈路兩端配置一致,可以肯定端口存在物理異常。² SFP光口不UP的故障1) 使用命令display interface檢查是否配置合理,是否能正確讀出SFP的模塊參數。如果確認對端沒有被配置為down狀態(tài)并且端口配置完全一致,建議更換兩端端口配置數據(雙工以及速度)。2) 檢查光纖收發(fā)端是否接反,物理連接是否正常,光功率是否在光模塊的規(guī)格之內等;3) 如果確認光路正常,在本板上將兩端口通過光纖直接互連,檢查是否能up;4) 如果直連不能UP,將分別將鏈路兩端端口更換到其他端口進行測試;5) 如果還不能UP,需要分別更換兩端光模塊光模塊進行測試。&

47、#178; 端口不接收報文故障1) 使用display interface 查看是否有入報文統(tǒng)計,兩端端口是否up。必要時使用reset counter interface清空端口統(tǒng)計報文再觀察。查看對端是否有發(fā)送報文統(tǒng)計;2) 確認端口配置是否有異常。其中包括兩端的協(xié)商狀態(tài),端口速率,端口類型以及vlan等配置 ;3) 查看端口stp狀態(tài),是否被discarding掉,是否lacp端口被Unselected ;4) up/down一下端口,看是否能恢復。如果不能恢復,更改端口屬性(速度、雙工)的配置,看看是否能恢復;5) 更換到其它端口看是否存在相同現象。如果存在相同現象,檢查互連中間鏈路設

48、備(光轉,轉接架,傳輸等設備)是否正常。如果為電口,使用pc替代對接。如果為光口,更換光模塊測試;6) 確認對端設備以及鏈路是否有問題;² 端口不發(fā)送報文故障1) 使用display interface 查看端口是否有收發(fā)報文統(tǒng)計,兩端是否均up。檢查對端設備是否收報文統(tǒng)計;2) 確認端口配置是否有異常。其中包括兩端的協(xié)商狀態(tài),端口速率、雙工,端口類型以及vlan配置等;3) 查看端口stp狀態(tài),是否被discarding掉,是否是動態(tài)聚合端口被Unselected;4) up/down一下端口,看是否能恢復。如果不能恢復,更改端口屬性(速度、雙工)的配置,看看是否能恢復;5) 更換

49、到其它端口看是否存在相同現象。如果存在相同現象,當端口為電口時,使用PC替代對接測試。當端口為光口時,更換光模塊測試;3.3 單板故障² 主控板無法啟動故障1) 觀察BOOTROM啟動信息,判斷系統(tǒng)無法啟動原因。如果顯示啟動文件類錯誤,轉步驟二處理。如果啟動文件確認正常,BOOTROM提示信息中發(fā)現錯誤信息或者信息不全,則轉步驟五處理。2) 出現文件異常,典型信息為BOOTROM提示CRC錯誤,或者找不到啟動文件。請重新加載啟動文件,并檢查FLASH中文件大小是否與版本庫上一致。如果不一致,請重新加載。并設置該文件為當前啟動文件。(在BOOTROM加載過程中,BOOTROM能自動將該

50、文件設置為當前啟動文件。) 3) 如果確認加載的文件大小正確,且設置為當前啟動文件也正常。請重新啟動單板,在看到starting后立即按crtl+T,并觀察是否有內存自檢錯誤,如果提示內存錯誤,請更換內存條,正常顯示如下:Starting.RAMLine.OKSystem is booting.4) 如果內存檢查也正常,但依舊提示文件錯誤,則判斷是否單板插牢固,確認牢固,更換單板;5) 如果BOOTROM啟動信息有錯誤信息,則根據提示的信息初步判斷相關器件出現故障。再次啟動,看是否必現。如果必現,檢查單板是否插牢固,否則更換單板;6) 如果BOOTROM啟動中,系統(tǒng)停留在某些啟動階段。收集啟動

51、信息。同時復位單板,確認是否能啟動。確認無法啟動且單板插入牢固,則更換單板;7) 如果BOOTROM啟動中,系統(tǒng)在某些啟動階段反復重起。如果提示單板狀態(tài)錯誤,則表示單板沒有插到位,請重新插入單板。如果為其它過程中重起,收集啟動信息。同時插拔單板,確認是否能啟動,則更換單板。² 業(yè)務板無法注冊、加載不成功故障1) 使用display boot-loader命令參看當前啟動文件是否存在,文件大小是否與網站上的軟件版本一致;2) 查看主機log信息,檢查是否有加載信息,如果有,進行步驟3;如果沒有,轉入步驟7;3) 如果條件允許,在無法加載的業(yè)務板槽位插入其它單板做測試;4) 如果新單板能

52、啟動,檢查版本配套資料,判定主機軟件是否支持原單板。如果確認支持,初步可以判定原業(yè)務板存在故障;5) 如果新單板同樣無法啟動,則升級主機軟件,檢測是否原版本問題。如果同樣無法加載,建議更換主控板;6) 如果無空余業(yè)務板測試,請更換業(yè)務板槽位,特別是在其他業(yè)務板可以加載的槽位上測試。如果該單板同樣無法加載成功,則需要更換該業(yè)務板;7) 如果沒有加載信息,則使用命令display cpu task 主控板槽位號,查看DEV任務狀態(tài)。如果正常,則更換業(yè)務板槽位檢測是否能正常加載; 3.4 丟包問題在網絡中如過發(fā)現有丟包問題,請按下面的方法處理:1) 確認報文經過的網絡拓撲,包括設備、鏈路等; 2) 根據拓撲,使用ping包的方法,逐段進行排查;3) 排查時,需要在該段鏈路上選取兩個地址互ping。因為我司設備有ping保護的機制,因此這兩個地址最好選取PC機的地址;4) 在ping包經過的設備出入方法,通過配置ACL做流統(tǒng)計的方法,檢查是哪個設備或者哪段鏈路出現丟包;5) 如果多次統(tǒng)計,沒有發(fā)現丟包,需要在下一段網絡上,用同樣的方法排查;6) 如果確認是鏈路丟包之后,需要檢查該段鏈路是否存在質量問題,例如是否出現大量錯包(檢查兩端端口的Input方向)。如果是,則需要通過更換網線、光纖等方法處理。如果確認是75E設備丟包,需要對設備做如下排查:1) 根據報文丟失的情況

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論