計算機硬件及網(wǎng)絡(luò)小機生產(chǎn)系統(tǒng)異常操作指南_第1頁
計算機硬件及網(wǎng)絡(luò)小機生產(chǎn)系統(tǒng)異常操作指南_第2頁
計算機硬件及網(wǎng)絡(luò)小機生產(chǎn)系統(tǒng)異常操作指南_第3頁
計算機硬件及網(wǎng)絡(luò)小機生產(chǎn)系統(tǒng)異常操作指南_第4頁
計算機硬件及網(wǎng)絡(luò)小機生產(chǎn)系統(tǒng)異常操作指南_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、 小機生產(chǎn)系統(tǒng)異常操作指南目錄 TOC o 1-3 h z u HYPERLINK l _Toc249169163 第一章 WAS篇 PAGEREF _Toc249169163 h 4 HYPERLINK l _Toc249169164 無法登陸管理控制臺 PAGEREF _Toc249169164 h 4 HYPERLINK l _Toc249169165 應(yīng)用服務(wù)器無法啟動 PAGEREF _Toc249169165 h 4 HYPERLINK l _Toc249169166 應(yīng)用程序請求無響應(yīng) PAGEREF _Toc249169166 h 4 HYPERLINK l _Toc24916

2、9167 應(yīng)用程序無法訪問 PAGEREF _Toc249169167 h 5 HYPERLINK l _Toc249169168 應(yīng)用服務(wù)器java進程crash PAGEREF _Toc249169168 h 5 HYPERLINK l _Toc249169169 概要文件被破壞 PAGEREF _Toc249169169 h 6 HYPERLINK l _Toc249169170 Java進程CPU 100% PAGEREF _Toc249169170 h 10 HYPERLINK l _Toc249169171 新部署應(yīng)用程序無法訪問 PAGEREF _Toc249169171 h 1

3、0 HYPERLINK l _Toc249169172 在集群模式下節(jié)點不同步 PAGEREF _Toc249169172 h 12 HYPERLINK l _Toc249169173 第二章 MQ篇 PAGEREF _Toc249169173 h 13 HYPERLINK l _Toc249169174 通道無法啟動 PAGEREF _Toc249169174 h 13 HYPERLINK l _Toc249169175 隊列管理器無法啟動 PAGEREF _Toc249169175 h 13 HYPERLINK l _Toc249169176 隊列管理器無法停止 PAGEREF _Toc2

4、49169176 h 14 HYPERLINK l _Toc249169177 死信隊列不斷有消息堆積 PAGEREF _Toc249169177 h 14 HYPERLINK l _Toc249169178 MQ對象被損壞 PAGEREF _Toc249169178 h 14 HYPERLINK l _Toc249169179 第三章 DB2篇 PAGEREF _Toc249169179 h 16 HYPERLINK l _Toc249169180 實例停止 PAGEREF _Toc249169180 h 16 HYPERLINK l _Toc249169181 實例無法啟動 PAGEREF

5、 _Toc249169181 h 16 HYPERLINK l _Toc249169182 表空間暫時性的無法訪問 PAGEREF _Toc249169182 h 16 HYPERLINK l _Toc249169183 表空間永久性的無法訪問 PAGEREF _Toc249169183 h 17 HYPERLINK l _Toc249169184 數(shù)據(jù)庫活動日志丟失 PAGEREF _Toc249169184 h 17 HYPERLINK l _Toc249169185 表空間滿 PAGEREF _Toc249169185 h 17 HYPERLINK l _Toc249169186 活動日

6、志空間滿 PAGEREF _Toc249169186 h 17 HYPERLINK l _Toc249169187 活動日志所在目錄文件系統(tǒng)滿 PAGEREF _Toc249169187 h 18 HYPERLINK l _Toc249169188 表被鎖,無法訪問 PAGEREF _Toc249169188 h 18 HYPERLINK l _Toc249169189 表中的內(nèi)容被誤刪除 PAGEREF _Toc249169189 h 18 HYPERLINK l _Toc249169190 第四章 AIX篇 PAGEREF _Toc249169190 h 19 HYPERLINK l _T

7、oc249169191 硬件故障 PAGEREF _Toc249169191 h 19 HYPERLINK l _Toc249169192 CPU使用過度 PAGEREF _Toc249169192 h 19 HYPERLINK l _Toc249169193 內(nèi)存使用過度 PAGEREF _Toc249169193 h 19 HYPERLINK l _Toc249169194 系統(tǒng)ping不通 PAGEREF _Toc249169194 h 20 HYPERLINK l _Toc249169195 系統(tǒng)可以ping通,但是無法telnet PAGEREF _Toc249169195 h 20

8、 HYPERLINK l _Toc249169196 部分主機不能訪問某臺主機 PAGEREF _Toc249169196 h 20 HYPERLINK l _Toc249169197 HA無法切換,或切換不正常 PAGEREF _Toc249169197 h 21 HYPERLINK l _Toc249169198 文件系統(tǒng)滿 PAGEREF _Toc249169198 h 21 HYPERLINK l _Toc249169199 文件系統(tǒng)無法進行正常讀寫 PAGEREF _Toc249169199 h 22 HYPERLINK l _Toc249169200 鏡像不同步 PAGEREF _

9、Toc249169200 h 22 HYPERLINK l _Toc249169201 Dump設(shè)備太小 PAGEREF _Toc249169201 h 22 HYPERLINK l _Toc249169202 密碼丟失 PAGEREF _Toc249169202 h 23 HYPERLINK l _Toc249169203 系統(tǒng)有報錯信息 PAGEREF _Toc249169203 h 23 HYPERLINK l _Toc249169204 telnet的響應(yīng)很慢 PAGEREF _Toc249169204 h 23 HYPERLINK l _Toc249169205 文件系統(tǒng)不能umou

10、nt PAGEREF _Toc249169205 h 24 HYPERLINK l _Toc249169206 TCP網(wǎng)絡(luò)的socket端口不能釋放,始終處于close_wait狀態(tài) PAGEREF _Toc249169206 h 24 HYPERLINK l _Toc249169207 系統(tǒng)中包含大量的僵尸進程 PAGEREF _Toc249169207 h 25 HYPERLINK l _Toc249169208 第五章 突發(fā)情況信息收集 PAGEREF _Toc249169208 h 26 HYPERLINK l _Toc249169209 DB2需要收集的信息 PAGEREF _Toc

11、249169209 h 26 HYPERLINK l _Toc249169210 WAS需要收集的信息 PAGEREF _Toc249169210 h 27 HYPERLINK l _Toc249169211 MQ需要收集的信息 PAGEREF _Toc249169211 h 29 HYPERLINK l _Toc249169212 SNA需要收集的信息 PAGEREF _Toc249169212 h 29 HYPERLINK l _Toc249169213 AIX需要收集的信息 PAGEREF _Toc249169213 h 30第一章 WAS篇無法登陸管理控制臺1、現(xiàn)象描述IE瀏覽: :/

12、IP:9060/admin判斷是否還能登陸,不能登錄時說明控制臺應(yīng)用沒有發(fā)布。其中9060是WAS的服務(wù)端口。2、處理方法進入wsadmin狀態(tài)(AdminConsole.ear_Path, -server server1)AdminConfig.save()完成安裝/usr/WebSphere/AppServer/bin/目錄下執(zhí)行:./startServer.sh server應(yīng)用服務(wù)器無法啟動1、現(xiàn)象描述對于WAS5.1,在bin目錄下執(zhí)行:./startServer.sh server判斷是否能正常啟動。對于WAS6.1,WAS使用的端口是9060,因此不會和9090端口沖突。2、處理

13、方法# netstat an|grep 9090查看端口(9090是WAS5.1控制臺所用的默認(rèn)端口)#/usr/websm/bin/wsmserver disable 關(guān)閉系統(tǒng)占用的9090端口/usr/WebSphere/AppServer/bin/目錄下執(zhí)行:./startServer.sh server信息收集時請收集install_root/logs/server_name的所有信息應(yīng)用程序請求無響應(yīng)1、現(xiàn)象描述生產(chǎn)環(huán)境系統(tǒng)訪問長時間沒有頁面顯示,在瀏覽器訪問后長時間沒有反應(yīng)。2、處理方法ps ef|grep java查看java進程號;/usr/WebSphere/AppServe

14、r/bin/目錄下執(zhí)行:./stopServer.sh server(若無法停止則使用kill 命令殺掉)/usr/WebSphere/AppServer/bin/目錄下執(zhí)行:./startServer.sh server在下圖中可以看到進程號碼是8822。信息收集時,參見5.2 3系統(tǒng)hung或者性能下降。應(yīng)用程序無法訪問1、現(xiàn)象描述生產(chǎn)環(huán)境系統(tǒng)訪問出現(xiàn)404錯誤頁面或者找不到服務(wù)器2、處理方法查看IBM Server的 d進程是否正常狀態(tài)運行;例如是否有父進程為“1”的現(xiàn)象;/usr/IBMIHS/bin/apachectl stop 停止 IBM Server(若無法停止則把相關(guān)的 進程

15、殺掉)/usr/IBMIHS/bin/apachectl start 啟動 IBM Server信息收集時,收集IHS的logs目錄下的日志,ps ef|grep 的輸出。Plugin的日志和WAS的logs目錄的日志應(yīng)用服務(wù)器java進程crash1、現(xiàn)象描述ps ef|grep java沒有WAS的java進程在執(zhí)行2、處理方法/usr/WebSphere/AppServer/bin/目錄下執(zhí)行:./startServer.sh server成功啟動后可以看到類似如下的輸出:信息收集時,參見5.2 - 2系統(tǒng)崩潰概要文件被破壞1、現(xiàn)象描述對于WAS6.1版本,創(chuàng)建服務(wù)器需要一個概要表,即p

16、rofile。概要文件位于$WAS_HOME/profiles,包含了一個應(yīng)用所用的一組server,如果遭到人為破壞,則需要重建整個profile。2、處理方法若以前對配置做過備份,先恢復(fù)以前的配置,看是否能夠啟動,若仍然不能啟動,則創(chuàng)建新的概要文件:/usr/WebSphere/AppServer/bin/manageprofiles.sh -help命令輸出如下,可以看到,針對所需的配置內(nèi)容,可以從命令中得到進一步的聯(lián)機幫助,例如manageprofiles.sh -create -help用來查看創(chuàng)建profile的幫助內(nèi)容。信息收集時,需要收集的內(nèi)容如下:1./startServer

17、.sh server trace的信息;2install_root/logs/server_name的所有信息。以下腳本會創(chuàng)建一個名為newProfileName的新的Default類型Profile,對應(yīng)節(jié)點名稱為newNode。1)進入WAS安裝目錄下bin目錄,例如在AIX上為cd /usr/IBM/WebSphere/AppServer/bin2)在root權(quán)限下執(zhí)行:# ./manageprofiles.sh -create -profileName newProfileName -profilePath /usr/IBM/WebSphere/AppServer/profiles/n

18、ewProfileName -templatePath /usr/IBM/WebSphere/AppServer/profileTemplates/default -nodeName newNode概要文件名:newProfileName概要文件路徑:/usr/IBM/WebSphere/AppServer/profiles/newProfileName概要文件類型:defaultnode名稱:newNode如果需要使用Dmgr Profile對Default Profile進行管理,則需要把Default Profile的節(jié)點添加到Dmgr Profile所在的單元。假設(shè)Dmgr Profi

19、le所在主機名稱為DMGR_HOSTNAME,則把名為newProfile的Default Profile添加其中的步驟為:1.進入Default Profile安裝目錄下的bin目錄;cd /usr/IBM/WebSphere/AppServer/profiles/newProfile/bin;2.把節(jié)點添加到單元,在root權(quán)限中執(zhí)行:./addNode.sh DMGR_HOSTNAME 8879PMT是管理概要表的圖形工具,是profile management tool的簡稱。通常位于WAS_HOME/bin/ProfileManagement/pmt.sh,或pmt.bat,或pmt

20、AIX.sh,腳本取決于操作系統(tǒng)和WAS版本。如果使用PMT管理概要文件,可以通過圖形界面創(chuàng)建概要表 不同版本的pmt界面會有較大的差異,64位版本的was不包含管理概要表的圖形工具。選擇概要表類型:選擇概要表的創(chuàng)建位置和名稱:選擇節(jié)點名和主機名:在安裝過程不要啟用全局安全性,安裝后需要該功能時可以從管理控制臺啟用。由WAS生成默認(rèn)的端口,如果需要也可以自行修改,此時需要確保端口和該服務(wù)器上安裝的其他應(yīng)用不存在沖突。復(fù)核概要表的定義無誤后,點擊“下一步”創(chuàng)建概要表:Java進程CPU 100%1、現(xiàn)象描述topas查看java的CPU使用情況2、處理方法ps ef|grep java查看jav

21、a進程號;用kill殺掉該進程。/usr/WebSphere/AppServer/bin/目錄下執(zhí)行:./startServer.sh server信息收集參見5.2 - 1 CPU利用率達(dá)到100%。新部署應(yīng)用程序無法訪問1、現(xiàn)象描述訪問新系統(tǒng)出現(xiàn)404錯誤2、處理方法1).查看最新的插件更新日期:/usr/WebSphere/AppServer/config/cells/2).在IE管理控制臺里面更新插件,然后復(fù)制最新的插件到Web Server的指定目錄下;/usr/IBMIHS/bin/apachectl stop 停止 IBM Server/usr/IBMIHS/bin/apache

22、ctl start 啟動 IBM Server應(yīng)用程序部署完成后,需要為IHS配置插件,提供應(yīng)用的URI、虛擬主機、服務(wù)器地址等信息,以便IHS把請求轉(zhuǎn)發(fā)到應(yīng)用服務(wù)器。IHS PLUGIN的配置包含兩個步驟:插件的生成和傳播,這里的插件指的是IHS PLUGIN所需的配置文件plugin-cfg.xml。進入WAS控制臺,進入應(yīng)用服務(wù)器web服務(wù)器,選中需要更新插件的web服務(wù)器,點擊“生成插件”所生成的服務(wù)器的插件位置將會顯示如下。如果IHS和AppServer處于同一臺服務(wù)器上,則不需要傳播插件。否則請按照下一節(jié)內(nèi)容完成插件的傳播。如果IHS和AppServer位于不同的機器上,請在插件生

23、成后,再次選擇需要傳播插件的服務(wù)器,點擊傳播插件。此前需要確認(rèn)IHS服務(wù)器的控制臺已經(jīng)啟動,WAS將通過IHS的控制臺端口把插件配置傳播到IHS服務(wù)器中。信息收集時,需要收集install_root/logs/server_name的所有信息。在集群模式下節(jié)點不同步1、現(xiàn)象描述訪問管理控制臺之后,管理控制臺無法修改和管理節(jié)點,在nodeagent上顯示:不同步2、處理方法1).停止節(jié)點上的server和nodeagent,保持dmgr正常啟動狀態(tài);在節(jié)點的bin目錄下執(zhí)行:#./syncNode.sh server 88792).在節(jié)點的bin目錄下執(zhí)行:3).進管理控制臺查看節(jié)點是否同步信息

24、收集時,需要收集install_root/logs/server_name的所有信息。第二章 MQ篇通道無法啟動1、現(xiàn)象描述在Runmqsc中start channel(channel name)無法啟動。2、處理方法將通道序列號復(fù)位。使用Reset channel命令。使用strmqm和endmqm命令重啟隊列管理器。根據(jù)錯誤代碼檢查sna和網(wǎng)絡(luò)、對方MQ的狀態(tài)。下圖為dspmq命令的輸出樣例:信息收集時,參見5.3 1-5點內(nèi)容。隊列管理器無法啟動1、現(xiàn)象描述Strmqm QMGR命令失敗2、處理方法使用ps ef檢查,把所有的MQ進程都?xì)⒌?。使用mqiclen x m QMGR命令清除共

25、享內(nèi)存資源。然后重啟MQ:strmqm該命令的輸出結(jié)果類似下面的情況:信息收集時,參見5.3 1-5點內(nèi)容。隊列管理器無法停止1、現(xiàn)象描述Endmqm QMGR 命令不能停止隊列管理器2、處理方法使用endmqm i QMGR命令。仍然不能停止則使用endmqm p QMGR命令。命令的輸出情況如下所示:信息收集時,參見5.3 1-6點內(nèi)容。死信隊列不斷有消息堆積1、現(xiàn)象描述Dis queue(DLQ)看到有消息堆積。2、處理方法查看通道的狀態(tài)是否正常:dis chs(*);以及對端MQ的狀態(tài)是否正常。使用amqsbcg Qname Qmgr命令瀏覽死信隊列的消息內(nèi)容,根據(jù)原因碼再采取相應(yīng)的措

26、施。該命令的使用參數(shù)列表如下:信息收集時,參見5.3 1-5點內(nèi)容。MQ對象被損壞1、現(xiàn)象描述MQ隊列、通道等對象被刪除或者MQ的系統(tǒng)文件被破壞,Dis queue(*)Dis channel(*)找不到對象。2、處理方法使用crtmqm QMGR的命令重新創(chuàng)建隊列管理器,使用runmqsc 80%表示CPU消耗過量2、處理方法方法 1控制應(yīng)用使用的CPU量,減小系統(tǒng)的負(fù)荷來保證系統(tǒng)的穩(wěn)定方法 2進行CPU緊急擴容。使用LPAR動態(tài)調(diào)整功能,擴充系統(tǒng)的CPU總量。降低系統(tǒng)的CPU使用百分比方法 3在方法1和方法2都無法執(zhí)行,且系統(tǒng)問題非常緊急的情況下,使用sar 以及nice等命令,調(diào)整進程的

27、使用CPU優(yōu)先級,確保主要應(yīng)用暫時不受影響。另行安排時間進行CPU擴容。信息收集時,需要收集perfpmr的信息。內(nèi)存使用過度1、現(xiàn)象描述Vmstat觀察pi po值;Svmon觀察free的內(nèi)存值;Topas觀察內(nèi)存和paging。如果free的內(nèi)存為零,并且pi po值持續(xù)保持較高的值,代表系統(tǒng)以及存在內(nèi)存緊缺的問題2、處理方法方法 1控制應(yīng)用使用的內(nèi)存量,減小系統(tǒng)的負(fù)荷來保證系統(tǒng)的穩(wěn)定方法 2進行內(nèi)存緊急擴容。使用LPAR動態(tài)調(diào)整功能,擴充系統(tǒng)的內(nèi)存總量,保證有足夠的內(nèi)存使用。方法 3調(diào)整vmo參數(shù),平衡系統(tǒng)內(nèi)部內(nèi)存的分配情況,首先保證關(guān)鍵和繁忙的應(yīng)用擁有足夠的內(nèi)存。信息收集時,需要收集

28、perfpmr的信息。系統(tǒng)ping不通1、現(xiàn)象描述Ping 時,發(fā)生ping不通的現(xiàn)象2、處理方法由hmc登錄主機,檢查系統(tǒng)的ip設(shè)置。重點檢查系統(tǒng)與網(wǎng)關(guān)之間的通訊是否正常。遇到這種情況,最好直接登錄系統(tǒng)查看和分析問題。信息收集時,需要收集snap ac的信息。系統(tǒng)可以ping通,但是無法telnet1、現(xiàn)象描述telnet 時,發(fā)生telnet不通現(xiàn)象,但是這個系統(tǒng)可以被ping通2、處理方法方法1由hmc登錄主機,檢查inetd進程是否正常方法 2檢查所有的系統(tǒng)文件系統(tǒng)包括/ /tmp /var 是否有足夠空間方法 3檢查網(wǎng)絡(luò)設(shè)備是否存在防火墻或者telnet的限制遇到這種情況,最好直接登

29、錄系統(tǒng)查看和分析問題。信息收集時,需要收集snap ac的信息。部分主機不能訪問某臺主機1、現(xiàn)象描述從某個(或某些)主機可以telnet到這臺主機,但從另一個(或另一些)主機不能telnet到這臺主機2、處理方法方法1檢查主機的路由信息netstat rn,確定主機的路由表是否正常方法 2檢查不同網(wǎng)絡(luò)設(shè)備之間的通訊是否存在問題遇到這種情況,最好直接登錄系統(tǒng)查看和分析問題。信息收集時,需要收集snap ac的信息。HA無法切換,或切換不正常1、現(xiàn)象描述HA切換異常,表現(xiàn)為備機不能完全接管主機的資源。觀察應(yīng)用是否運行正常;觀察 HA相關(guān)地址是否正確(boot、standby、service)。2、

30、處理方法方法1如果主機仍然可以訪問,依次手動關(guān)閉主機的應(yīng)用,數(shù)據(jù)庫,文件系統(tǒng),vg。殺死HA進程。在備機端關(guān)閉HA進程,并確認(rèn)所有IP和資源正常。重起備機HA,拉起資源。方法2如果主機已經(jīng)無法訪問,關(guān)閉主機系統(tǒng)。在備機端重復(fù)方法1中的拉起資源的步驟。方法3如果主備機都無法使用,HA拉起資源和應(yīng)用,采取手動方式恢復(fù)業(yè)務(wù)。依次手動開啟vg,文件系統(tǒng),數(shù)據(jù)庫和應(yīng)用。信息收集時,需要在兩個節(jié)點上分別收集snap ac的信息,并在其中任意一個節(jié)點上收集snap ec信息。文件系統(tǒng)滿1、現(xiàn)象描述df k發(fā)現(xiàn)文件系統(tǒng)使用率超過702、處理方法方法1采取緊急擴容,擴充文件系統(tǒng)的大小。方法 2如果已經(jīng)影響到主機

31、的正常使用,由HMC登錄主機。方法 3如果HMC也無法登錄主機,使用光盤引導(dǎo)進入系統(tǒng),在maintenance的模式下擴充文件系統(tǒng)。這種情況一般不需要收集信息。如果一定要收,請收snap ac信息。文件系統(tǒng)無法進行正常讀寫1、現(xiàn)象描述任何讀寫操作都會發(fā)生I/O 的報錯2、處理方法首先備份文件系統(tǒng)所在的數(shù)據(jù)。將所有仍然可以訪問的數(shù)據(jù)全部備份方法 1關(guān)閉文件系統(tǒng),進行fsck的檢查。試圖修復(fù)文件系統(tǒng)的邏輯錯誤。方法 2如果文件系統(tǒng)無法修復(fù),則必須重建一個新的文件系統(tǒng),由備份數(shù)據(jù)恢復(fù)。(如果之前的備份數(shù)據(jù)完整,則可以使用事先準(zhǔn)備的備份數(shù)據(jù),不然則需要客戶提供完整的數(shù)據(jù)備份)信息收集時,需要收集sna

32、p ac的信息。鏡像不同步1、現(xiàn)象描述lsvg l 發(fā)現(xiàn)有部分lv的狀態(tài)是stale2、處理方法檢查是否存在硬件故障。如果是,請解除鏡像、修復(fù)硬件、重做鏡像。如果不是硬件問題導(dǎo)致的不同步,則需要在系統(tǒng)中重新建立同步關(guān)系。syncvg l 做完后檢查是否狀態(tài)都是syncd。這種情況一般不需要收集信息。信息收集時,需要收集snap ac的信息。Dump設(shè)備太小1、現(xiàn)象描述系統(tǒng)errpt會提示當(dāng)前的dump文件已經(jīng)超出了存放dump的空間2、處理方法尋找dump 存放的位置sysdumpdev l檢查dump 需要的空間sysudmpdev e擴大dump 設(shè)備,達(dá)到預(yù)計的大小extendlv這種情

33、況一般不需要收集信息。信息收集時,需要收集snap ac的信息。密碼丟失1、現(xiàn)象描述Root或其他用戶密碼丟失2、處理方法如果普通用戶密碼丟失,使用root 用戶登錄,su到普通用戶,然后執(zhí)行passwd命令修改密碼如果root用戶密碼丟失,停系統(tǒng),使用光盤引導(dǎo)進入maintenance模式,執(zhí)行passwd命令修改密碼這種情況不需要收集信息。系統(tǒng)有報錯信息1、現(xiàn)象描述使用errpt命令發(fā)現(xiàn)有報錯信息。2、處理方法如果是小型機硬件設(shè)備報錯(例如sysplanner0的錯誤,fcs的H類錯誤,網(wǎng)卡的H類錯誤,內(nèi)置磁盤的H類報錯等),請聯(lián)系設(shè)備處相關(guān)維護人員進行問題診斷和處理;如果是外置存儲磁盤和

34、鏈路報錯(例如hdisk的報錯),請聯(lián)系設(shè)備處相關(guān)維護人員進行問題診斷和處理;如果是軟件類報錯,請聯(lián)系IBM工程師進行分析。info類的信息可以忽略不計。在這種情況下,需要收集snap gc的信息。telnet的響應(yīng)很慢1、現(xiàn)象描述在終端上使用telnet命令登錄AIX系統(tǒng)時,終端會過很久(1,2分鐘左右)才顯示出登錄提示字符。2、處理方法這種情況一般是設(shè)置了域名解析造成的。處理方法:和應(yīng)用溝通,問是否可以刪除/etc/resolv.conf文件。如果可以,就刪除它。如果不可以,編輯文件,加參數(shù)c在telnet最后,如下 telnet stream tcp6 nowait root /usr/

35、sbin/telnetd telnetd -a -c 刷新inetd服務(wù): # refresh -s inetd在這種情況下,不需要收集信息文件系統(tǒng)不能umount1、現(xiàn)象描述在umount某一文件系統(tǒng)時,終端上報文件系統(tǒng)busy,不能umount。2、處理方法首先使用fuser xuc ,查看有哪些進程占著該文件系統(tǒng)。然后使用fuser kuxc ,強制關(guān)閉占用該文件系統(tǒng)的進程。注意:這步風(fēng)險很大。如果沒調(diào)查清楚,可能會導(dǎo)致誤殺應(yīng)用和系統(tǒng)進程,從而導(dǎo)致系統(tǒng)或應(yīng)用crash。在這種情況下,不需要收集信息TCP網(wǎng)絡(luò)的socket端口不能釋放,始終處于close_wait狀態(tài)1、現(xiàn)象描述應(yīng)用已經(jīng)停

36、止,但它所在的端口一直得不到釋放。2、處理方法查看端口PCB的值:netstat An |grep 端口號清除tcpcb地址所在的socket:rmsock tcpcb 在這種情況下,不需要收集信息系統(tǒng)中包含大量的僵尸進程1、現(xiàn)象描述ps Af查看到系統(tǒng)中有很多defunct進程2、處理方法用ps Af查看defunct進程的父進程。如果父進程是應(yīng)用進程,則停止該應(yīng)用進程即可清除僵尸進程;如果父進程是系統(tǒng)進程,只有重啟系統(tǒng)才能清除僵尸進程。在這種情況下,不需要收集信息第五章 突發(fā)情況信息收集對于開放平臺如發(fā)生突發(fā)事件,如果現(xiàn)場不能確定問題的根本原因,在進行應(yīng)急預(yù)案的同時,應(yīng)收集相關(guān)信息,包括故

37、障現(xiàn)場的環(huán)境、描述、日志、診斷文件等等,以進行事后原因分析。對于宕機,hang等問題,考慮收集trace文件。如果收集信息需要的時間較長,影響應(yīng)急生產(chǎn)恢復(fù),則應(yīng)保證后者的更高優(yōu)先級。DB2需要收集的信息任何故障都應(yīng)收集db2pd -file -everything數(shù)據(jù)庫hangdb2pd -db -stack all -repeat 3db2trc on -l 128Mrecreate the problem db2trc offdb2service.perf1 ( Performance/hang data collection scripts) 本命令將用到的script: 數(shù)據(jù)庫性能問題

38、db2 update monitor switches using bufferpool on lock on sort on statement on uow ondb2 get snapshot for dbmdb2 get snapshot for all on 實例故障db2support . -s數(shù)據(jù)庫故障db2support . -d -c -s WAS需要收集的信息CPU利用率達(dá)到100%得到所有網(wǎng)絡(luò)連接的信息得到CPU利用率使用信息tprof_ps.sh tprof_ps每隔2分鐘生成一個javacorekill -3 java的進程號install_root/logs/ser

39、ver_name的所有信息系統(tǒng)崩潰executable is /usr/WebSphere/AppServer/java/jre/bin/javacore_file_name is the core filegetlib.sh java_executable_full_path core_filename (系統(tǒng)必須安裝dbx)tar cvf core_file_name core_file_nameinstall_root/java/jre/bin/jextract -o core.sdff core_pathinstall_root/logs/server_name的所有信息系統(tǒng)hung或

40、者性能下降svmon -P pid -m -r -I 60 5 svmon.out &tprof -k -s -e -x sleep 60每2分鐘生成一個javacorekill -3 PID_of_hung_JVMinstall_root/logs/server_name,plugin-cfg.xml, _plugin.log, install_root/logs/ffdc的所有信息數(shù)據(jù)庫連接問題檢查數(shù)據(jù)源配置情況,測試數(shù)據(jù)庫連接TroubleshootingLogging and TracingDiagonstic Trace Enable trace with the following

41、 specification is selectedTroubleshootingLogging and TracingDiagonstic TraceTrace Specification Connecting to a database in V5.1:2c=all=enabled:RRA=all=enabled:WAS.database=all=enabled:Transaction=all=enabled Connecting to a database in V5.0:2c=all=enabled:RRA=all=enabled:WAS.database=all=enabled:co

42、m.ibm.ejs.jts.*=all=enabled:com.ibm.ws.LocalTransaction.*=all=enabledRestart Application ServerCollect the resulting trace output fileMQ需要收集的信息收集mqs.ini 收集/var/mqm/errors/目錄下的日志收集/var/mqm/qmgrs/SYSTEM/errors/目錄下的日志收集/var/mqm/qmgrs/QM/errors目錄下的日志MQ TRACE INSTRUCTIONS:Start trace:trace -a -j30D,30E -

43、o /path/to/trace.out -L 50000000End trace:trcstopSNA需要收集的信息SNA TRACE INSTRUCTIONS:snaadmin set_log_file,log_file_type=AUDIT,file_size=20000000 snaadmin set_log_file,log_file_type=ERROR,file_size=20000000 snaadmin set_trace_file,trace_file_type=IPS,trace_file_size=100000000 snaadmin set_global_log_type,audit=YES, exception=YES snaadmin set_global_log_type,succinct_audits=YES, succinct_errors=YES snaadmin add_dlc_trace snaadmin set_trace_type,trace_flags=NONE,api_flags=NONE 等待相應(yīng)需要的時間執(zhí)行:snagetp

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論