




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、1. 通用標(biāo)準(zhǔn)處置快速索引主要包含RedHat Linux操作系統(tǒng)故障場景的通用標(biāo)準(zhǔn)處置General Operating System Linux:編號通 用 標(biāo) 準(zhǔn) 處 置索 引GOL001Linux操作系統(tǒng)標(biāo)準(zhǔn)關(guān)閉GOL002Linux操作系統(tǒng)標(biāo)準(zhǔn)重啟GOL003Linux操作系統(tǒng)強行關(guān)閉GOL004Linux操作系統(tǒng)強行重啟GOL005檢查Linux操作系統(tǒng)CPU負(fù)載GOL006查詢占用CPU資源最多的進程GOL007檢查Linux操作系統(tǒng)內(nèi)存使用率GOL008查詢占用內(nèi)存資源最多的進程GOL009判斷是否有僵尸進程GOL010檢查Linux操作系統(tǒng)磁盤I/O負(fù)載GOL011查詢消耗I
2、/O資源最多的進程GOL012文件系統(tǒng)信息GOL013物理卷、卷組和邏輯卷GOL014查看系統(tǒng)主要日志GOL015主機通訊是否有延遲GOL016主機通訊延遲或丟包GOL017主機路由設(shè)置是否正確GOL018到相連業(yè)務(wù)系統(tǒng)的通訊是否正常GOL019網(wǎng)卡驅(qū)動是否正常加載GOL020網(wǎng)卡配置信息檢測GOL021網(wǎng)卡配置參數(shù)GOL022查看雙機狀態(tài)GOL023重啟群集效勞GOL024群及效勞切換到備機GOL025關(guān)閉主機群集效勞GOL026手工恢復(fù)群集效勞GOL027搜集系統(tǒng)信息GOL028進入單用戶模式GOL029進入緊急救援模式GOL030查看效勞器端口是否正常開啟GOL031網(wǎng)絡(luò)連接數(shù)統(tǒng)計GOL
3、032交換區(qū)使用情況檢查GOL033文件句柄數(shù)調(diào)整GOL034主機啟動時fstab中有錯誤配置GOL035bond主備網(wǎng)卡切換GOL036查看內(nèi)核slab內(nèi)存占用GOL037清理系統(tǒng)內(nèi)存中的cache和bufferGOXXX2. 通用處置Linux2.1. GOL001:Linux操作系統(tǒng)標(biāo)準(zhǔn)關(guān)閉處置名稱:Linux操作系統(tǒng)標(biāo)準(zhǔn)關(guān)閉處置時間:5分鐘該時間因系統(tǒng)而異,請各根據(jù)實際停止時間填寫影響分析:1業(yè)務(wù)影響: 系統(tǒng)效勞暫停。2技術(shù)影響:無3其它影響: 無操作步驟: 1) 通過SOM平臺以root用戶登錄;2) 根據(jù)需求首先關(guān)閉應(yīng)用程序/數(shù)據(jù)庫該步驟可選,需要的系統(tǒng)請明示步驟3) 執(zhí)行shut
4、down -h now驗證步驟:1) 無。修訂日期:2021年5月8日 修訂人:張鵬 2.2. GOL002:Linux操作系統(tǒng)標(biāo)準(zhǔn)重啟處置名稱:Linux操作系統(tǒng)標(biāo)準(zhǔn)重啟處置時間:10-20分鐘該時間因系統(tǒng)而異,請根據(jù)實際停止時間填寫影響分析:1業(yè)務(wù)影響: 系統(tǒng)效勞暫停。2技術(shù)影響:無3其它影響: 無操作步驟: 1通過SOM平臺以root用戶登錄2根據(jù)需求首先關(guān)閉應(yīng)用程序/數(shù)據(jù)庫該步驟可選,需要的系統(tǒng)請明示步驟3執(zhí)行shutdown -r now驗證步驟:無。修訂日期:2021年5月8日 修訂人:張鵬2.3. GOL003:Linux操作系統(tǒng)強行關(guān)閉處置名稱:Linux操作系統(tǒng)強行關(guān)閉處置時
5、間:5分鐘該時間因系統(tǒng)而異,請各根據(jù)實際停止時間填寫影響分析:1業(yè)務(wù)影響: 系統(tǒng)效勞暫停。2技術(shù)影響:無3其它影響: 無操作步驟: 1) 通過SOM平臺以root用戶登錄;2) 執(zhí)行: echo o /proc/ sysrq-trigger驗證步驟:命令執(zhí)行后主機自動關(guān)閉修訂日期:2021年11月20日 修訂人:張鵬2.4. GOL004:Linux操作系統(tǒng)強行重啟處置名稱:Linux操作系統(tǒng)強行重啟處置時間:10-20分鐘該時間因系統(tǒng)而異,請各根據(jù)實際停止時間填寫影響分析:1業(yè)務(wù)影響:系統(tǒng)效勞暫停。2技術(shù)影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root用戶登錄;2) 執(zhí)行:
6、echo b /proc/ sysrq-trigger驗證步驟:命令執(zhí)行后主機自動重啟修訂日期:2021年11月20日 修訂人: 張鵬 2.5. GOL005:檢查Linux操作系統(tǒng)CPU負(fù)載處置名稱:檢查Linux操作系統(tǒng)CPU負(fù)載處置時間:5分鐘該時間因系統(tǒng)而異,請各根據(jù)實際停止時間填寫影響分析:1業(yè)務(wù)影響:無2技術(shù)影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root或普通權(quán)限用戶登錄2) 執(zhí)行top命令;3) 執(zhí)行sar 2 30命令;4) 執(zhí)行vmstat 2 30命令;5) 執(zhí)行mpstat 2 30命令。驗證步驟:根據(jù)命令輸出內(nèi)容判斷CPU使用情況修訂日期:2021年5
7、月8日 修訂人: 張鵬2.6. GOL006:定位占用CPU資源最多的進程處置名稱:定位占用CPU資源最多的進程處置時間:3分鐘該時間因系統(tǒng)而異,請各根據(jù)實際停止時間填寫影響分析:1業(yè)務(wù)影響:無2技術(shù)影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root或普通權(quán)限用戶登錄2) 執(zhí)行top命令;3) 在top命令執(zhí)行窗口,使用熱鍵“P,按照CPU使用率對進程進行排序。驗證步驟:根據(jù)top命令輸出的排序情況,定位CPU使用率較高的進程。修訂日期:2021年5月8日 修訂人: 張鵬 2.7. GOL007:檢查Linux操作系統(tǒng)內(nèi)存使用率處置名稱:檢查Linux操作系統(tǒng)內(nèi)存使用率處置時間:
8、5分鐘該時間因系統(tǒng)而異,請各根據(jù)實際停止時間填寫影響分析:1業(yè)務(wù)影響:無2技術(shù)影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root或普通權(quán)限用戶登錄;2) 執(zhí)行命令:top;3) 執(zhí)行命令:free;4) 執(zhí)行命令:cat /proc/meminfo驗證步驟:1) top-在程序界面中,查看MEM、Swap、Buffer、Cache數(shù)值;2) free:查看+/-buffers/cache后的內(nèi)存使用率;3) cat /proc/meminfo:查看內(nèi)存詳細(xì)使用情況修訂日期:2021年5月8日 修訂人: 張鵬2.8. GOL008:查詢占用內(nèi)存資源最多的進程處置名稱:查詢占用內(nèi)存資
9、源最多的進程處置時間:3分鐘該時間因系統(tǒng)而異,請各根據(jù)實際停止時間填寫影響分析:1業(yè)務(wù)影響:無2技術(shù)影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root或普通權(quán)限用戶登錄;2) 執(zhí)行top;3) 在top界面中按熱鍵“M,按照內(nèi)存使用率對進程進行排序。驗證步驟:根據(jù)top命令輸出排序結(jié)果,定位占用內(nèi)存資源最多的進程。修訂日期:2021年5月8日 修訂人: 張鵬2.9. GOL009:判斷是否有僵尸進程處置名稱:判斷是否有僵尸進程處置時間:3分鐘該時間因系統(tǒng)而異,請各根據(jù)實際停止時間填寫影響分析:1業(yè)務(wù)影響:無2技術(shù)影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root或普
10、通權(quán)限用戶登錄;2) 執(zhí)行top命令;3) 執(zhí)行ps -ef|grep defunct命令;驗證步驟:1) 執(zhí)行top:查看top輸出中是否提示有僵尸進程及其數(shù)量;2) 使用ps命令查找并定位僵尸進程。修訂日期:2021年5月16日 修訂人: 張鵬 2.10. GOL010:檢查Linux操作系統(tǒng)磁盤I/O負(fù)載處置名稱:檢查Linux操作系統(tǒng)磁盤I/O負(fù)載處置時間:5分鐘該時間因系統(tǒng)而異,請各根據(jù)實際停止時間填寫影響分析:1業(yè)務(wù)影響:無 2技術(shù)影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root或普通權(quán)限用戶登錄2) 執(zhí)行:vmstat、iostat、sar -d命令。驗證步驟:1
11、) vmstat反映了進程的虛擬內(nèi)存,虛擬內(nèi)存,磁盤,trap和cpu的活動情況,在多cpu系統(tǒng)中,vmstat在輸出結(jié)果中平均了cpu數(shù)量 ;2) iostat:如果想看每個設(shè)備的io情況,可使用iostat命令。修訂日期:2021年5月16日 修訂人: 張鵬2.11. GOL011:查詢消耗I/O資源最多的進程處置名稱:查詢消耗I/O資源最多的進程處置時間:5分鐘該時間因系統(tǒng)而異,請各根據(jù)實際停止時間填寫影響分析:1業(yè)務(wù)影響:無2技術(shù)影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root用戶登錄;2) 運行iotop工具進行系統(tǒng)I/O性能監(jiān)控驗證步驟:根據(jù)iotop輸出結(jié)果驗證
12、修訂日期:2021年7月26日 修訂人: 張鵬2.12. GOL012:文件系統(tǒng)信息處置名稱:文件系統(tǒng)信息處置時間:2-5分鐘該時間因系統(tǒng)而異,請各根據(jù)實際停止時間填寫影響分析:1業(yè)務(wù)影響:無2技術(shù)影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root用戶登錄;2) 執(zhí)行以下命令查看文件系統(tǒng)掛載情況:#df 查看文件系統(tǒng)使用率#mount 查看文件系統(tǒng)mount屬性#cat /etc/fstab 確認(rèn)是否有未掛載文件系統(tǒng)3) 查看日志中是否有關(guān)于文件系統(tǒng)的報錯信息 #tail -2000 /var/log/messages驗證步驟:1) 文件系統(tǒng)正常掛載,讀/寫屬性正常,日志無報錯;
13、2) 可手工創(chuàng)立臨時文件,以驗證文件系統(tǒng)的可讀/寫性。修訂日期:2021年5月20日 修訂人: 張鵬 2.13. GOL013:物理卷、卷組和邏輯卷處置名稱:物理卷、卷組和邏輯卷處置時間: 5分鐘該時間因系統(tǒng)而異,請各根據(jù)實際停止時間填寫影響分析:1業(yè)務(wù)影響:無2技術(shù)影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root用戶登錄;2) 執(zhí)行以下命令查看PV、VG、LV信息:#pvs ;#pvdisplay 查看物理卷信息#vgs ;#vgdisplay 查看卷組信息#lvs ;#lvdisplay 查看邏輯卷信息3) 查看日志中是否有關(guān)于文件系統(tǒng)的報錯信息 #tail -2000 /
14、var/log/messages驗證步驟:1) 物理卷、卷組、邏輯卷狀態(tài)正常,讀/寫屬性正常,日志無報錯;2) 如果要查看PV、VG和LV的詳細(xì)掃描信息,可以使用命令pvdisplay、vgdisplay、lvdisplay并搭配 “-vvvv參數(shù)使用。修訂日期:2021年5月20日 修訂人: 張鵬 2.14. GOL014:查看系統(tǒng)主要日志處置名稱:查看系統(tǒng)主要日志處置時間:5分鐘該時間因系統(tǒng)而異,請各根據(jù)實際停止時間填寫影響分析:1業(yè)務(wù)影響:無2技術(shù)影響:無3其它影響:無操作步驟: 4) 通過SOM平臺以root用戶登錄;5) 查看以下日志:/var/log/messages/var/lo
15、g/dmesg驗證步驟:查看日志中是否有明顯報錯信息修訂日期:2021年11月20日 修訂人: 張鵬 2.15. GOL015:主機通訊是否延遲處置名稱:主機通訊是否延遲處置時間:3分鐘該時間因系統(tǒng)而異,請各根據(jù)實際停止時間填寫影響分析:1業(yè)務(wù)影響:無2技術(shù)影響:無3其它影響:無操作步驟: 1通過SOM平臺以root或普通權(quán)限用戶登錄;2執(zhí)行命令: #ping 網(wǎng)關(guān)_IP #ping 關(guān)聯(lián)主機_IP1) 驗證步驟:通過ping測試,驗證相同網(wǎng)段及不同網(wǎng)段的IP地址與本機的通訊是否正常。修訂日期:2021年5月8日 修訂人: 張鵬 2.16. GOL016:主機通訊是否丟包處置名稱:主機通訊是否
16、丟包處置時間:3分鐘該時間因系統(tǒng)而異,請各根據(jù)實際停止時間填寫影響分析:1業(yè)務(wù)影響:無2技術(shù)影響:無3其它影響:無操作步驟: 1通過SOM平臺以root或普通權(quán)限用戶登錄2執(zhí)行: #/sbin/ifconfig驗證步驟:根據(jù)ifconfig命令輸出結(jié)果,判斷是否有網(wǎng)絡(luò)丟包或延遲現(xiàn)象。修訂日期:2021年5月8日 修訂人:張鵬 2.17. GOL017:主機路由設(shè)置是否正確處置名稱:主機路由設(shè)置是否正確處置時間:3分鐘該時間因系統(tǒng)而異,請各根據(jù)實際停止時間填寫影響分析:1業(yè)務(wù)影響:無2技術(shù)影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root或普通權(quán)限用戶登錄;2) 執(zhí)行以下命令:#r
17、oute#cat /proc/net/route#cat /proc/net/rt_cache驗證步驟:1) 查看路由是否正確添加;2) 當(dāng)前路由所對應(yīng)物理網(wǎng)卡是否正確;3) 最多只有一條缺省路由。修訂日期:2021年5月8日 修訂人: 張鵬 2.18. GOL018:到相連業(yè)務(wù)系統(tǒng)的通訊是否正常處置名稱:到相連業(yè)務(wù)系統(tǒng)的通訊是否正常處置時間:3分鐘該時間因系統(tǒng)而異,請各根據(jù)實際停止時間填寫影響分析:1業(yè)務(wù)影響:無2技術(shù)影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root用戶登錄;2) 執(zhí)行命令:#ping 關(guān)聯(lián)系統(tǒng)_IP;#telnet 關(guān)聯(lián)系統(tǒng)_IP PORT_NUMBER #
18、route#traceroute 關(guān)聯(lián)系統(tǒng)_IP#ifconfig 驗證步驟:1) 檢測與目標(biāo)主機的連通性;2) 檢測路由正確性;3) 檢測網(wǎng)卡狀況是否正常。修訂日期:2021年7月26日 修訂人: 張鵬 2.19. GOL019:網(wǎng)卡驅(qū)動是否正常加載處置名稱:網(wǎng)卡驅(qū)動是否正常加載處置時間:5分鐘該時間因系統(tǒng)而異,請各根據(jù)實際停止時間填寫影響分析:1業(yè)務(wù)影響:系統(tǒng)效勞暫停。2技術(shù)影響:無3其它影響:無操作步驟: 3) 通過SOM平臺以root用戶登錄;4) 執(zhí)行命令:#tail -2000 /var/log/messages 查看日志信息#ifconfig 查看網(wǎng)卡工作狀態(tài)#lspci |gr
19、ep -i eth 查看物理網(wǎng)卡#ethtool -i 網(wǎng)卡_名稱 查看指定網(wǎng)卡所使用的驅(qū)動程序#cat /etc/modprobe.conf 查看網(wǎng)卡所使用的驅(qū)動程序名稱#cat /proc/modules 查看已加載驅(qū)動#lsmod 查看當(dāng)前網(wǎng)卡驅(qū)動是否已經(jīng)正確加載#modinfo 驅(qū)動_名稱 查看驅(qū)動信息驗證步驟:1) 查看messages日志文件中是否有報錯;2) 根據(jù)ifconfig查看網(wǎng)卡工作狀態(tài);3) 根據(jù)lspci判斷物理網(wǎng)卡型號;4) 使用ethtool查看指定網(wǎng)卡所使用的驅(qū)動程序;5) 根據(jù)/etc/modprobe.conf判斷網(wǎng)卡驅(qū)動程序名稱;6) 根據(jù)/proc/mo
20、dules、lsmod判斷網(wǎng)卡驅(qū)動是否已經(jīng)正常加載;7) 使用modinfo查看驅(qū)動程序詳細(xì)信息。修訂日期:2021年5月8日 修訂人: 張鵬 2.20. GOL020:網(wǎng)卡配置信息檢測處置名稱:網(wǎng)卡配置信息檢測處置時間:5分鐘該時間因系統(tǒng)而異,請各根據(jù)實際停止時間填寫影響分析:1業(yè)務(wù)影響:系統(tǒng)通訊閃斷,效勞短時間暫停2技術(shù)影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root用戶登錄;2) 執(zhí)行以下命令:#ping 網(wǎng)管_IP#ping 關(guān)聯(lián)主機_IP#ifconfig 查看網(wǎng)卡信息#tail -2000 /var/log/messages 查看日志信息#cat /etc/sysc
21、onfig/network 查看主機名及缺省路由配置#cat /etc/sysconfig/network- scripts/ifcfg-eth?, 查看IP,掩碼,網(wǎng)關(guān)等設(shè)置信息;修改配置文件后,執(zhí)行 #service network restart ,重啟網(wǎng)絡(luò)效勞。驗證步驟:1) 檢測主機與網(wǎng)管及關(guān)聯(lián)主機通訊是否正常;2) 主機網(wǎng)卡狀態(tài)是否正常;3) 系統(tǒng)日志中是否有明顯報錯;4) 主機缺省路由是否配置正確;5) 網(wǎng)卡配置文件是否正確:如果配置文件中含有MAC地址,應(yīng)使用dmesg命令,驗證MAC地址是否填寫正確;6) 調(diào)整配置并重啟網(wǎng)絡(luò)效勞。修訂日期:2021年5月8日 修訂人: 張鵬
22、2.21. GOL021:網(wǎng)卡配置參數(shù)處置名稱:網(wǎng)卡配置參數(shù)處置時間:3分鐘該時間因系統(tǒng)而異,請各根據(jù)實際停止時間填寫影響分析:1業(yè)務(wù)影響:無2技術(shù)影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root用戶登錄;2) 執(zhí)行命令:#ethtool 網(wǎng)卡_名稱驗證步驟:使用ethtool命令,查看網(wǎng)卡配置是否正常,主要關(guān)注網(wǎng)卡連接模式10/100/1000baseT及工作模式Half/Full。修訂日期:2021年5月8日 修訂人: 張鵬 2.22. GOL022:查看群集狀態(tài)及共享資源處置名稱:查看群集狀態(tài)及共享資源處置時間:3分鐘該時間因系統(tǒng)而異,請各根據(jù)實際停止時間填寫影響分析:1
23、業(yè)務(wù)影響: 無2技術(shù)影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root用戶登錄;2) 執(zhí)行:clustat驗證步驟: 1) 集群幾點狀態(tài)為Online;2) 集群資源狀態(tài)為Started。修訂日期:2021年5月8日 修訂人: 張鵬 2.23. GOL023:重啟群集效勞處置名稱:重啟群集效勞處置時間:5-10分鐘該時間因系統(tǒng)而異,請各根據(jù)實際停止時間填寫影響分析:1業(yè)務(wù)影響:系統(tǒng)效勞短時間暫停。2技術(shù)影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root用戶登錄;2) 如果主機效勞異常,例如某些應(yīng)用效勞進程異常終止,且無法手工單獨啟動,那么就可以在主機上重啟效勞:#c
24、lusvcadm r test_svc 重新啟動test_svc這個效勞;3) 查看日志:tail -f /var/log/messages4) 使用clustat查看雙機節(jié)點及效勞狀態(tài)。驗證步驟: 1) clusvcadm命令執(zhí)行成功,效勞重新運行于當(dāng)前節(jié)點;2) 切換過程中,messages日志文件中午報錯信息;3) clustat命令顯示雙機節(jié)點及效勞狀態(tài)正常。修訂日期:2021年7月26日 修訂人: 張鵬 2.24. GOL024:群集效勞切換到備機處置名稱:群集效勞切換到備機處置時間:5-10分鐘該時間因系統(tǒng)而異,請各根據(jù)實際停止時間填寫影響分析:1業(yè)務(wù)影響:系統(tǒng)效勞短時間暫停。2技
25、術(shù)影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root用戶登錄;2) 如果主機效勞異常,且通過重啟主機效勞進程亦無法恢復(fù),那么可以將效勞切換到備機:#clusvcadm r test_svc -m host2將效勞test_svc切換到主機host2上運行3) 查看日志:tail -f /var/log/messages4) clustat命令顯示雙機節(jié)點及效勞狀態(tài)正常。驗證步驟:1) clusvcadm命令執(zhí)行成功,雙機節(jié)點正常切換;2) 切換過程中,messages日志文件中午報錯信息;3) clustat命令顯示雙機節(jié)點及效勞狀態(tài)正常。修訂日期:2021年5月18日 修訂人:
26、 張鵬 2.25. GOL025:關(guān)閉主機群集效勞處置名稱:關(guān)閉主機群集效勞處置時間:5-10分鐘該時間因系統(tǒng)而異,請各根據(jù)實際停止時間填寫影響分析:1業(yè)務(wù)影響:系統(tǒng)效勞暫停。2技術(shù)影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root用戶登錄;2) 如果RHCS集群環(huán)境中,主、備機均無法正常提供效勞,那么可以手工啟動或是冷備機的方式恢復(fù)效勞,但在這之前需要先關(guān)閉集群中的效勞進程:#clusvcadm s test_svc m host2在主機host2上停止test_svc效勞;3) 執(zhí)行clustat命令查看效勞關(guān)閉情況;4) 使用df、ping、ip addr list命令,確
27、認(rèn)群集共享資源已釋放;5) 查看日志:tail -f /var/log/messages;6) 在群集各節(jié)點執(zhí)行clustop命令,關(guān)閉cluster效勞。驗證步驟:1) 群集Service正常關(guān)閉;2) 群集共享資源已釋放;3) 系統(tǒng)日志無報錯;4) 群集各節(jié)點Cluster效勞關(guān)閉;修訂日期:2021年11月18日 修訂人: 張鵬 2.26. GOL026:手工恢復(fù)群集效勞處置名稱:手工恢復(fù)群集效勞處置時間:10-20分鐘該時間因系統(tǒng)而異,請各根據(jù)實際停止時間填寫影響分析:1業(yè)務(wù)影響:系統(tǒng)效勞暫停。2技術(shù)影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root用戶登錄;2) 在停止
28、RHCS效勞后,可按照以下步驟手工掛載資源,并啟動效勞:網(wǎng)絡(luò)IP地址:使用ifconfig命令,修改效勞地址;存儲空間:vgscan 掃描可用卷組;vgdisplay 查看卷組信息;importvg VG_NAME 導(dǎo)入卷組信息;vgchange -ay VG_NAME 激活卷組;lvscan 識別lv;【如果上述操作中,卷組無法在單機激活,那么有可能是在/etc/lvm/lvm.conf中配置了volume_list限制,只有帶有相應(yīng)TAG標(biāo)簽的卷組才能在相應(yīng)主機激活,可按如下操作驗證并調(diào)整:#vgs -o +vg_tags 查看卷組標(biāo)簽信息#vgchange -addtag hostnam
29、e 共享_VG_NAME #vgs -o +vg_tags 驗證卷組標(biāo)簽是否已經(jīng)添加】文件系統(tǒng):根據(jù)lvscan信息,mount相關(guān)文件系統(tǒng);配置文件:檢查/etc/passwd,/etc/hosts,/etc/services等配置文件是否正常;數(shù)據(jù)庫裸設(shè)備:首先檢測數(shù)據(jù)庫裸設(shè)備鏈接是否正常,然后手工重啟裸設(shè)備效勞:#service rawdevices restart檢測數(shù)據(jù)庫配置信息完備,嘗試啟動數(shù)據(jù)庫其間注意觀察數(shù)據(jù)庫日志信息;應(yīng)用效勞:根據(jù)應(yīng)用效勞啟動順序,啟動各項應(yīng)用效勞。3) 查看日志:tail -f /var/log/messages驗證步驟: 1) 手工添加Service I
30、P;2) 卷組可以正常在單機激活;3) lv信息正常;4) 在單機手工掛載共享存儲資源;5) 啟動數(shù)據(jù)庫及應(yīng)用。修訂日期:2021年5月18日 修訂人: 張鵬 2.27. GOL027:搜集系統(tǒng)信息處置名稱:搜集系統(tǒng)信息處置時間:5-10分鐘該時間因系統(tǒng)而異,請各根據(jù)實際停止時間填寫影響分析:1業(yè)務(wù)影響:無2技術(shù)影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root用戶登錄;2) 執(zhí)行命令:sosreport驗證步驟:查看在/tmp目錄下自動生成的信息文件。修訂日期:2021年5月8日 修訂人: 張鵬 2.28. GOL028:進入單用戶模式處置名稱:進入單用戶模式處置時間:20-3
31、0分鐘該時間因系統(tǒng)而異,請各根據(jù)實際停止時間填寫影響分析:1業(yè)務(wù)影響:系統(tǒng)效勞中斷2技術(shù)影響:無3其它影響:無操作步驟: 1) 在控制臺重啟主機;2) 在屏幕出現(xiàn)GRUB的啟動菜單時按任意鍵;3) 選擇要修改的Linux菜單,按“e鍵;4) 再選中“kernel的行,按“e鍵;5) 在kernel所在行末尾輸入“ ss前有空格;6) 輸入完成后,按回車,保存菜單;7) 使用修改好的菜單引導(dǎo)系統(tǒng),按“b鍵,以單用戶模式臨時引導(dǎo)系統(tǒng);8) 進入單用戶模式后,對系統(tǒng)故障進行修復(fù)。驗證步驟:無。修訂日期:2021年5月18日 修訂人: 張鵬 2.29. GOL029:進入緊急救援模式處置名稱:進入緊急
32、救援模式處置時間:20-30分鐘該時間因系統(tǒng)而異,請各根據(jù)實際停止時間填寫影響分析:1業(yè)務(wù)影響:系統(tǒng)效勞中斷2技術(shù)影響:無3其它影響:無操作步驟: 1) 在控制臺重啟主機,并用操作系統(tǒng)安裝光盤引導(dǎo);2) 出現(xiàn)boot提示符后輸入:linux rescue;3) 選擇語言;4) 選擇鍵盤類型;5) 選擇是否啟用網(wǎng)絡(luò)如果啟用網(wǎng)絡(luò),需根據(jù)程序提示配置IP地址等信息;6) 選擇是否讓系統(tǒng)查找硬盤上的Linux系統(tǒng),選擇“Continue;7) 自動搜索當(dāng)前已安裝的Linux系統(tǒng);8) 系統(tǒng)顯示硬盤上的系統(tǒng)已經(jīng)被找到,并掛載在/mnt/sysimage目錄下;并提示可以使用 chroot /mnt/sy
33、simage 命令進行環(huán)境切換;9) 進入單用戶模式后,對系統(tǒng)故障進行修復(fù)。驗證步驟:查看在/tmp目錄下自動生成的信息文件。修訂日期:2021年5月18日 修訂人: 張鵬 2.30. GOL030:查看效勞器端口是否正常開啟處置名稱:查看效勞器端口是否正常開啟處置時間:1分鐘該時間因系統(tǒng)而異,請各根據(jù)實際停止時間填寫影響分析:1業(yè)務(wù)影響:無2技術(shù)影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以root用戶登錄;2) 執(zhí)行命令:#netstat -an | grep Port_Number#netstat -tulpn如果是系統(tǒng)效勞,可同時查看效勞狀態(tài):#service Your_Se
34、rvice_Name status驗證步驟:1) 查看效勞器端口是否正常開啟;2) 確認(rèn)效勞正常運行。修訂日期:2021年6月15日 修訂人: 張鵬 2.31. GOL031:網(wǎng)絡(luò)連接數(shù)統(tǒng)計處置名稱:網(wǎng)絡(luò)連接數(shù)統(tǒng)計處置時間:2分鐘該時間因系統(tǒng)而異,請各根據(jù)實際停止時間填寫影響分析:1業(yè)務(wù)影響:無2技術(shù)影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以普通賬號或root賬號登錄;2) 執(zhí)行以下命令查看當(dāng)前網(wǎng)絡(luò)連接數(shù)量:listen狀態(tài)的連接數(shù):$netstat -an|grep tcp |awk print $6|sort -ir|uniq -c |grep LISTEN |awk pri
35、nt $1established狀態(tài)的連接數(shù):$netstat -an|grep tcp |awk print $6|sort -ir|uniq -c |grep ESTABLISHED |awk print $1close_wait狀態(tài)的連接數(shù):$netstat -an|grep tcp |awk print $6|sort -ir|uniq -c |grep CLOSE_WAIT |awk print $1fin_wait_2狀態(tài)的連接數(shù):$netstat -an|grep tcp |awk print $6|sort -ir|uniq -c |grep FIN_WAIT_2 |awk p
36、rint $1驗證步驟:根據(jù)命令輸出查看各種狀態(tài)的網(wǎng)絡(luò)連接數(shù)量修訂日期:2021年5月20日 修訂人: 張鵬 2.32. GOL032:交換區(qū)使用情況檢查處置名稱:交換區(qū)使用情況檢查處置時間:2分鐘該時間因系統(tǒng)而異,請各根據(jù)實際停止時間填寫影響分析:1業(yè)務(wù)影響:無2技術(shù)影響:無3其它影響:無操作步驟: 1) 通過SOM平臺以普通用戶或root用戶登錄;2) 查看內(nèi)存及交換空間使用情況$free3) 查看交換空間設(shè)備使用情況$cat /proc/swaps4) 查看交換區(qū)訪問情況$vmstat 2 10 此命令輸出周期為2秒,共計10次。需注意其中的swap列的si、so值。驗證步驟:1) 內(nèi)存
37、及交換區(qū)使用數(shù)量及使用率;2) 是否有頻繁的SwapOut、SwapIn操作。修訂日期:2021年5月20日 修訂人: 張鵬 2.33. GOL033:文件句柄數(shù)調(diào)整處置名稱:文件句柄數(shù)調(diào)整處置時間:2分鐘該時間因系統(tǒng)而異,請各根據(jù)實際停止時間填寫影響分析:1業(yè)務(wù)影響:無2技術(shù)影響:無3其它影響:無操作步驟: 當(dāng)系統(tǒng)已用的文件句柄數(shù)到達(dá)最大限值時running out of file handles,操作系統(tǒng)日志會提示無法繼續(xù)分配文件句柄:1) 通過SOM平臺以root用戶登錄;2) 查看當(dāng)前文件句柄數(shù)最大限值:# cat /proc/sys/fs/file-max3) 查看當(dāng)前文件句柄數(shù)使用
38、情況:# cat /proc/sys/fs/file-nr第一列為當(dāng)前已分配文件句柄數(shù)。4) 在線修改最大文件句柄數(shù)臨時:echo 819200 /proc/sys/fs/file-max上述819200僅為舉例。通常file-max的缺省值為操作系統(tǒng)內(nèi)存單位:kb的10%。5) 永久修改最大文件句柄數(shù):將以下內(nèi)容參加/etc/sysctl.conf配置文件,其中819200為例如數(shù)據(jù):fs.file-max = 819200驗證步驟:1) 查看當(dāng)前文件句柄數(shù)最大限值:# cat /proc/sys/fs/file-max2) 查看當(dāng)前文件句柄數(shù)使用情況:# cat /proc/sys/fs/
39、file-nr修訂日期:2021年5月20日 修訂人: 張鵬 2.34. GOL034:主機啟動時fstab中有錯誤配置處置名稱:主機啟動時fstab中有錯誤配置處置時間:5分鐘因主機型號而異,啟動耗時會有不同影響分析:1業(yè)務(wù)影響:問題修復(fù)期間,系統(tǒng)效勞暫停2技術(shù)影響:修改主機fstab文件3其它影響:無操作步驟: 當(dāng)/etc/fstab配置錯誤時,主機重啟過程會中斷并報錯,如下截圖所示: 1) 在主機控制臺輸入root用戶口令,登入系統(tǒng);2) 執(zhí)行以下命令,重新掛載根文件系統(tǒng)為可讀寫狀態(tài):# mount -o remount,rw /3) 修改/etc/fstab文件中的錯誤配置:# vi
40、/etc/fstab4) 保存修改內(nèi)容并退出,系統(tǒng)自動重啟。驗證步驟:系統(tǒng)啟動過程正常,未再出現(xiàn)關(guān)于/etc/fstab的報錯。修訂日期:2021年11月20日 修訂人: 張鵬 2.35. GOL035:bond主備網(wǎng)卡切換處置名稱:bond主備網(wǎng)卡切換處置時間:2分鐘影響分析:1業(yè)務(wù)影響:問題修復(fù)期間,通訊可能會有瞬間中斷2技術(shù)影響:無3其它影響:無操作步驟: 1) 查看當(dāng)前bond網(wǎng)卡信息#ifconfig#cat /proc/net/bonding/bond?符號“?表示bonding網(wǎng)卡的序號,通常為bond0、bond1等。在/proc/net/bonding/bond? 文件中,可
41、以看到當(dāng)前網(wǎng)卡的主、備關(guān)系。2) 查看網(wǎng)卡配置文件進入 /etc/sysconfig/network-scripts/ 目錄,查看網(wǎng)卡配置文件:ifcfg-bond0ifcfg-eth?符號“?表示網(wǎng)卡序號,通常為ifcfg-eth0、ifcfg-eth1等。3) 將bond切換到備用網(wǎng)卡上 #ifconfig eth_主網(wǎng)卡 down4) 確認(rèn)網(wǎng)卡及主機通訊情況#ifconfig#cat /proc/net/bonding/bond?#route#tail /var/log/messages#ping 業(yè)務(wù)關(guān)聯(lián)主機_IP驗證步驟: 檢測網(wǎng)卡連通性,以及到相關(guān)聯(lián)業(yè)務(wù)系統(tǒng)主機的通訊情況,并驗證應(yīng)
42、用效勞是否受影響。修訂日期:2021年11月20日 修訂人: 張鵬 2.36. GOL036:查看內(nèi)核slab內(nèi)存占用處置名稱:查看內(nèi)核slab內(nèi)存占用處置時間:2分鐘影響分析:1業(yè)務(wù)影響:無2技術(shù)影響:無3) 其它影響:無操作步驟: 查看當(dāng)前kernel slab cache信息#slabtop#cat /proc/slabinfo驗證步驟: 從上述命令輸出結(jié)果中,確認(rèn)kernel slab cache中的資源占用情況。修訂日期:2021年08月12日 修訂人: 張鵬 2.37. GOL037:清理系統(tǒng)內(nèi)存中的cache和buffer處置名稱:清理系統(tǒng)內(nèi)存中的cache和buffer處置時間
43、:3分鐘影響分析:1業(yè)務(wù)影響:建議在關(guān)閉應(yīng)用程序后再執(zhí)行內(nèi)存cache清理;2技術(shù)影響:無4) 其它影響:無操作步驟: 1、 查看當(dāng)前kernel slab cache信息#slabtop #cat /proc/slabinfo2、 刷新緩存 #sync3、 清理cache可以有選擇地進行清理:清理pagecache: echo 1 /proc/sys/vm/drop_caches清理dentries和inodes緩存: echo 2 /proc/sys/vm/drop_caches清理pagecache、dentries和inodes緩存: echo 3 /proc/sys/vm/drop_
44、caches4、 查看當(dāng)前kernel slab cache信息#slabtop #cat /proc/slabinfo驗證步驟: 使用slabtop、free命令查看內(nèi)存占用情況??记绊氈?、在清理內(nèi)存之前,先執(zhí)行 sync 命令刷新系統(tǒng)buffer;2、在生產(chǎn)環(huán)境應(yīng)慎用此命令:雖然清理緩存時影響應(yīng)用程序上下文的可能性很小,但是最好在關(guān)閉應(yīng)用程序后再行清理。修訂日期:2021年08月12日 修訂人: 張鵬 3. Linux操作系統(tǒng)故障應(yīng)急場景3.1. 系統(tǒng)CPU負(fù)載高并觸發(fā)監(jiān)控報警件級別:六級授權(quán)級別:部室負(fù)責(zé)人授權(quán)場景描述:主機CPU資源使用率較高并觸發(fā)監(jiān)控報警。業(yè)務(wù)影響:根據(jù)業(yè)務(wù)系統(tǒng)負(fù)
45、載判定告警信息:部門名:系統(tǒng)名:主機名稱:主機名:實例名的Unix效勞器CPU利用率當(dāng)前值為:value,告警閥值為:min-max,發(fā)生時間occurTime部門名:系統(tǒng)名:主機名稱:主機名:實例名的Unix效勞器CPU系統(tǒng)時間當(dāng)前值為:value,告警閥值為:min-max,發(fā)生時間occurTime部門名:系統(tǒng)名:主機名稱:主機名:實例名的Unix效勞器CPU用戶時間當(dāng)前值為:value,告警閥值為:min-max,發(fā)生時間occurTime部門名:系統(tǒng)名:主機名稱:主機名:實例名的Unix效勞器CPU等待IO時間當(dāng)前值為:value,告警閥值為:min-max,發(fā)生時間occurTim
46、e啟動條件:集中監(jiān)控顯示CPU資源使用率持續(xù)維持在較高水平現(xiàn)場保護:使用sosreport命令收集系統(tǒng)信息。故 障 場 景 應(yīng) 急 處 置序號調(diào)用處置編號 處 置 簡 要 描 述時間樹T1收到集中監(jiān)控的報警后,通知二級運維支持人員,當(dāng)日值班經(jīng)理,部室負(fù)責(zé)人3分鐘T2使用root用戶登錄主機,執(zhí)行sosreport命令保存現(xiàn)場信息5-10分鐘T3GOL005查看系統(tǒng)CPU使用情況3分鐘T4GOL006定位占用CPU資源最多的進程3分鐘T5GOL014查看系統(tǒng)主要日志:在messages日志中是否有關(guān)于軟、硬件的報錯信息。5分鐘T6查看數(shù)據(jù)庫/應(yīng)用日志是否有報錯信息T7應(yīng)急處置結(jié)束。N/A修訂日期
47、:2021年5月20日 修訂人:張鵬3.2. 系統(tǒng)內(nèi)存使用率高并觸發(fā)監(jiān)控報警件級別:六級授權(quán)級別:部室負(fù)責(zé)人授權(quán)場景描述:主機內(nèi)存資源使用率較高并觸發(fā)監(jiān)控報警。業(yè)務(wù)影響:根據(jù)業(yè)務(wù)系統(tǒng)負(fù)載判定告警信息:部門名:系統(tǒng)名:主機名稱:主機名的可用內(nèi)存百分比過低,當(dāng)前值為:value,告警閥值為:min-max,發(fā)生時間occurTime部門名:系統(tǒng)名:主機名稱:主機名:實例名的利用率當(dāng)前值為:value,告警閥值為:min-max,發(fā)生時間occurTime部門名:系統(tǒng)名:主機名稱:主機名:實例名的剩余KB數(shù)當(dāng)前值為:value,告警閥值為:min-max,發(fā)生時間occurTime部門名:系統(tǒng)名:主
48、機名稱:主機名:實例名的頁交換出當(dāng)前值為:value,告警閥值為:min-max,發(fā)生時間occurTime部門名:系統(tǒng)名:主機名稱:主機名:實例名的頁交換進當(dāng)前值為:value,告警閥值為:min-max,發(fā)生時間occurTime啟動條件:集中監(jiān)控顯示內(nèi)存資源使用率持續(xù)維持在較高水平現(xiàn)場保護:使用sosreport命令收集系統(tǒng)信息。故 障 場 景 應(yīng) 急 處 置序號調(diào)用處置編號 處 置 簡 要 描 述時間樹T1收到集中監(jiān)控的報警后,通知二級運維支持人員,當(dāng)日值班經(jīng)理,部室負(fù)責(zé)人3分鐘T2使用root用戶登錄主機,執(zhí)行sosreport命令保存現(xiàn)場信息5-10分鐘T3GOL007查看系統(tǒng)內(nèi)存
49、使用情況3分鐘T4GOL008定位占用內(nèi)存資源較多的進程5分鐘T5GOL009判斷是否有僵尸進程3分鐘T6GOL014查看系統(tǒng)主要日志5分鐘T7應(yīng)急處置結(jié)束。N/A修訂日期:2021年5月20日 修訂人:張鵬3.3. 系統(tǒng)I/O資源使用率高并長時間持續(xù)件級別:六級授權(quán)級別:部室負(fù)責(zé)人授權(quán)場景描述:主機I/O資源使用率較高并觸發(fā)監(jiān)控報警。業(yè)務(wù)影響:根據(jù)業(yè)務(wù)系統(tǒng)負(fù)載判定告警信息: 部門名:系統(tǒng)名:主機名稱:主機名:實例名的Unix效勞器磁盤忙當(dāng)前值為:value,告警閥值為:min-max,發(fā)生時間occurTime啟動條件:集中監(jiān)控顯示I/O資源使用率持續(xù)維持在較高水平現(xiàn)場保護:使用sosreport命令收集系統(tǒng)信息。故 障 場 景 應(yīng) 急 處 置序號調(diào)用處置編號 處 置 簡 要 描 述時間樹T1收到集中監(jiān)控的報警后,通知二級運維支持人員,當(dāng)日值班經(jīng)理,部室負(fù)責(zé)人3分鐘T2使用root用戶登錄主機,執(zhí)行sosreport命令保存現(xiàn)場信息5-10分鐘T3GOL010查看系統(tǒng)I/O使用情況3分鐘T4GOL011定位占用I/O資源較多的進程5分鐘T5GOL014查看系統(tǒng)主要日志5分鐘T6應(yīng)急處置結(jié)束。N/A修訂日期:2021年5月25
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 設(shè)備設(shè)備衛(wèi)生管理制度
- 設(shè)置宿舍衛(wèi)生管理制度
- 設(shè)計單位施工管理制度
- 設(shè)計顧問公司管理制度
- 診所安全用藥管理制度
- 2025年中國滑雪用護目鏡行業(yè)市場全景分析及前景機遇研判報告
- 試驗檢測資料管理制度
- 財務(wù)賬目健全管理制度
- 賬戶托管服務(wù)管理制度
- 貨運碼頭貨場管理制度
- 九年級上冊藏文期中考試答題卡
- 七年級英語完形填空、閱讀理解題庫100題含參考答案
- 法國國家簡介
- 長春中醫(yī)藥大學(xué)輔導(dǎo)員考試真題2022
- 彝族-ppt教材課件
- 上海市2022-2023學(xué)年高一下學(xué)期期末數(shù)學(xué)試題(解析版)
- 西山煤電集團煤礦工人準(zhǔn)入題庫
- 《短視頻營銷與運營》教案
- (中級)計算機維修工學(xué)習(xí)考試題庫(濃縮500題)
- 2023年河北石家莊市屬國有企業(yè)招聘筆試參考題庫附帶答案詳解
- 集團集中采購管理制度(試運行)
評論
0/150
提交評論