Linux死機(jī)問(wèn)題分析定位_第1頁(yè)
Linux死機(jī)問(wèn)題分析定位_第2頁(yè)
Linux死機(jī)問(wèn)題分析定位_第3頁(yè)
Linux死機(jī)問(wèn)題分析定位_第4頁(yè)
Linux死機(jī)問(wèn)題分析定位_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1、 現(xiàn)象初步判斷:1、 判定是否死機(jī):首先需要確定是否真正的死機(jī)了,而往往有些現(xiàn)象被現(xiàn)場(chǎng)誤認(rèn)為是死機(jī)了。是否死機(jī)的確定方法有如下:A、 對(duì)于直接死掉的,沒(méi)有任何反應(yīng)的情況下,看看鍵盤(pán)輸入是否有效,putty是否能夠登陸,bmB否能夠登錄;B、 通過(guò)lastreboot確認(rèn)是否死機(jī)死機(jī)的時(shí)間C、 通過(guò)在messages中對(duì)應(yīng)的時(shí)間點(diǎn)看是否有imklog啟動(dòng)的日志并在這個(gè)時(shí)間點(diǎn)前是否收到關(guān)機(jī)信號(hào)或者異常打印D、 通過(guò)在中對(duì)應(yīng)時(shí)間點(diǎn)有啟動(dòng)的相關(guān)記錄,并同時(shí)查看在中是否有關(guān)機(jī)的相關(guān)日志打印搜索:Shuttingdown關(guān)鍵字看是否存在關(guān)機(jī)2、 是否人為操作出現(xiàn)系統(tǒng)重啟現(xiàn)象,往往被認(rèn)為是系統(tǒng)死機(jī)后然后

2、重啟的,這就通過(guò)重啟現(xiàn)象了來(lái)認(rèn)為系統(tǒng)死機(jī)過(guò),但是這種系統(tǒng)重啟是否是由于死機(jī)造成的,需要進(jìn)行確定。A、 通過(guò)同現(xiàn)場(chǎng)人員進(jìn)行溝通,確認(rèn)是否為人為的重啟比如按電源、拔電源等人為動(dòng)作B、 通過(guò)history中查詢?cè)谙到y(tǒng)重啟時(shí)的時(shí)間點(diǎn)附近有reboot或halt、shutdown、initC通過(guò)在BMC3志中確認(rèn)是否有通過(guò)BMC勺操作進(jìn)行系統(tǒng)的重啟操作對(duì)于直接拔電源致使系統(tǒng)重啟的操作,在messges和中是沒(méi)有相關(guān)的信息記錄的,表現(xiàn)為系統(tǒng)日志和業(yè)務(wù)運(yùn)行日志在同一時(shí)間全部消失。對(duì)于按電源、命令進(jìn)行重啟操作,在messages中能夠看到系統(tǒng)收到關(guān)機(jī)或者重啟的信息,同時(shí)在中會(huì)有關(guān)機(jī)時(shí)的關(guān)閉系統(tǒng)服務(wù)的關(guān)機(jī)過(guò)程信

3、息。對(duì)于在BMCb直接進(jìn)行關(guān)機(jī)或者重啟操作,信息記錄就比較復(fù)雜了。而對(duì)于此種情況,在messages中和中是看不到相關(guān)的信息記錄,同直接拔電源一樣的。2、 處理步驟:1、日志盡快獲?。涸诂F(xiàn)場(chǎng)反饋出現(xiàn)死機(jī)問(wèn)題后,第一時(shí)間反饋相關(guān)日志,并盡量多盡量準(zhǔn)確全面,等待的時(shí)間越長(zhǎng)日志可能就已覆蓋,或清除,或環(huán)境重搭,致使定位工作受到阻礙。A、死機(jī)問(wèn)題發(fā)生的時(shí)間點(diǎn)如果發(fā)生死機(jī)問(wèn)題時(shí)測(cè)試或維護(hù)人員在場(chǎng),需反饋死機(jī)問(wèn)題發(fā)生的精確時(shí)間。日死機(jī)具體現(xiàn)象描述死機(jī)問(wèn)題的發(fā)生通常伴隨著系統(tǒng)和業(yè)務(wù)方面的異?,F(xiàn)象,系統(tǒng)異常包括服務(wù)器重啟、系統(tǒng)掛死(如BMCI屏)、系統(tǒng)遲緩(如命令無(wú)法執(zhí)行或響應(yīng)時(shí)間過(guò)長(zhǎng))、網(wǎng)絡(luò)中斷(如Ping

4、檢測(cè)失?。?、登陸失敗(如無(wú)法遠(yuǎn)程登陸或卡死在登陸界面)、文件系統(tǒng)異常(如文件只讀或系統(tǒng)命令失效)等等;操作失敗、超時(shí)、執(zhí)行無(wú)返回等。項(xiàng)目結(jié)果服務(wù)器重啟OK/NOK系統(tǒng)掛死(BM偵KVhMH)OK/NOK系統(tǒng)延緩(如命令無(wú)法執(zhí)行或響應(yīng)時(shí)間過(guò)長(zhǎng))OK/NOK網(wǎng)絡(luò)中斷(如Ping檢測(cè)失?。㎡K/NOK登陸失敗(如無(wú)法遠(yuǎn)程登陸或卡死在登陸界面)OK/NOK文件系統(tǒng)異常(如文件只讀或系統(tǒng)命令失效)OK/NOK業(yè)務(wù)異常則包括主備HAOK/NOK操作失敗OK/NOK命令執(zhí)行超時(shí)OK/NOK此外,同樣現(xiàn)象的死機(jī)問(wèn)題是否多次出現(xiàn)、出現(xiàn)頻率也需要反饋。C死機(jī)時(shí)段具體操作主要指死機(jī)時(shí)段內(nèi)對(duì)整個(gè)系統(tǒng)(包括硬件和軟件)

5、進(jìn)行的各種操作,包括但不限于對(duì)服務(wù)器上下電、更換硬件、拔插網(wǎng)線、更改交換機(jī)配置、監(jiān)控及日志查詢。此外還包括死機(jī)之前對(duì)問(wèn)題服務(wù)器的各種操作,如執(zhí)行腳本或系統(tǒng)命令、拷貝/刪除/修改文件、啟動(dòng)/停止系統(tǒng)服務(wù)、掛載本地或遠(yuǎn)端目錄等。2.組網(wǎng)、硬件和BM信息反饋組網(wǎng)、硬件信息有助于定位人員從宏觀把握整個(gè)系統(tǒng)以及借鑒之前的經(jīng)驗(yàn),而內(nèi)置在服務(wù)器中3”系統(tǒng)收集的信息有時(shí)更能為死機(jī)問(wèn)題定位提供直接的依據(jù)。A組網(wǎng)信息組網(wǎng)信息主要包括網(wǎng)絡(luò)規(guī)模(服務(wù)器、交換機(jī)數(shù)目)、硬件類(lèi)型(防火墻、服務(wù)器、交換機(jī)型號(hào))、網(wǎng)絡(luò)配置(IP地址規(guī)劃、交換機(jī)配置)、物理連線圖等。B、硬件信息硬件信息主要包括發(fā)生死機(jī)的服務(wù)器類(lèi)型(RH228

6、5E6000、T6000或其它服務(wù)器)、CPU型號(hào)與數(shù)目、內(nèi)存大小、本地硬盤(pán)容量與數(shù)目、BIOS配置等,此外建議信息收集人員盡可能反饋組網(wǎng)內(nèi)其它服務(wù)器、其它設(shè)備的硬件信息,便于定位人員橫向?qū)Ρ?。服?wù)器各種硬件信息查詢?nèi)缦拢海?) CPU號(hào)與數(shù)目對(duì)于管理、存儲(chǔ)節(jié)點(diǎn),使用“cat/proc/cpuinfo”命令獲得;對(duì)于計(jì)算節(jié)點(diǎn)使用“cat/proc/cpuinfo”僅能獲得domain。中的CP%息,可以通過(guò)xmdmesg”命令查看所有的CPU信息。(2) 2)內(nèi)存大小對(duì)于管理、存儲(chǔ)節(jié)點(diǎn),使用“cat/proc/meminfo”命令獲得;對(duì)于計(jì)算節(jié)點(diǎn)使用“cat/proc/meminfo”僅能獲

7、得domain。中的內(nèi)存信息,可以通過(guò)xmdmesg”命令查看內(nèi)存總大小。(3) 3)本地硬盤(pán)容量與數(shù)目本地硬盤(pán)容量可以通過(guò)“fdisk-l”命令獲得,考慮RAID組以及掛載遠(yuǎn)端磁盤(pán)的因素,本地硬盤(pán)數(shù)目最好通過(guò)BM那面直接查看,在BM那面,系統(tǒng)信息-系統(tǒng)狀態(tài)中可以看到硬盤(pán)槽位和硬盤(pán)狀態(tài)。3、BM桔息BMC1公司自研的RH2285E6000、T6000等型號(hào)服務(wù)器內(nèi)嵌的服務(wù)器管理控制單元,能夠?qū)崿F(xiàn)對(duì)服務(wù)器的多種管理、查詢、監(jiān)控功能,發(fā)生死機(jī)問(wèn)題時(shí)需要從BMCC集的信息包括(4) BMC(統(tǒng)事件日志登陸B(tài)MC1供的web#面后,查看系統(tǒng)日志事件,反饋死機(jī)發(fā)生時(shí)間點(diǎn)前后一段時(shí)間(建議取死機(jī)發(fā)生前后1

8、2小時(shí))的日志截圖。通過(guò)即方式登陸B(tài)MCJ文件系統(tǒng),反饋data目錄下的文件。(5) BMCBIOS版本號(hào)在BMCweb#面,選擇系統(tǒng)信息-固件版本查詢,反饋版本信息:(6) BMCWOS的時(shí)間差由于BMC口OS1用不同的時(shí)間芯片,因此這兩者之間可能存在時(shí)間差,需要現(xiàn)場(chǎng)人員通過(guò)登陸B(tài)MC(統(tǒng)和OSS行時(shí)間的比對(duì),并截圖表示兩者之間的時(shí)間差異,這樣便于定位人員分析BMCB志和OS勺日志(時(shí)間差)。三、系統(tǒng)信息Linux的日志系統(tǒng)能夠記錄系統(tǒng)的登陸情況、操作記錄、異常事件等,多數(shù)情況下為系統(tǒng)側(cè)死機(jī)問(wèn)題提供重要的線索,發(fā)生死機(jī)問(wèn)題時(shí),建議從系統(tǒng)方面獲得如下信息:1.系統(tǒng)messaged志系統(tǒng)的mes

9、sage日志會(huì)記錄在cd/var/log/目錄下,并根據(jù)日志產(chǎn)生時(shí)間和日志文件大小壓縮備份為“messages-.bz”的形式,請(qǐng)盡可能在反饋全部的日志文件(包括當(dāng)前日志文件/var/log/messages以及所有的bz壓縮文件)。3、 系統(tǒng)boot日志操作系統(tǒng)能夠記錄當(dāng)前和前一次啟動(dòng)時(shí)的日志,兩次啟動(dòng)記錄保存在/var/log/和/var/log/中,請(qǐng)全部反饋。4、 系統(tǒng)登錄和使用情況使用last可以查看系統(tǒng)每次啟動(dòng)的時(shí)間點(diǎn)、用戶登陸情況等,建議使用:“l(fā)astreboot”命令將last命令的執(zhí)行結(jié)果保存為文本文件進(jìn)行反饋。5、 系統(tǒng)歷史操作記錄使用history可以查看系統(tǒng)的歷史操作

10、信息,建議使用“history”命令將history命令的執(zhí)行結(jié)果保存為文本文件進(jìn)行反饋。6、 系統(tǒng)黑匣子記錄系統(tǒng)中提供黑匣子功能收集節(jié)點(diǎn)操作系統(tǒng)Crash(如panic、oops、BUGoom等)時(shí)的異常信息,黑匣子功能實(shí)現(xiàn)的機(jī)制和記錄存放位置不同,請(qǐng)注意按照不同的操作系統(tǒng)類(lèi)型和發(fā)生死機(jī)的時(shí)間反饋對(duì)應(yīng)的黑匣子日志。系統(tǒng)監(jiān)控記錄GalaX系統(tǒng)提供對(duì)操作系統(tǒng)各種資源進(jìn)行監(jiān)控的功能,并生成監(jiān)控日志保存在每個(gè)節(jié)點(diǎn)的/opt/osinfo/statistics/目錄中,監(jiān)控日志會(huì)根據(jù)大小和時(shí)間在同一目錄下保存為“statistics.tgz”格式,請(qǐng)注意按照發(fā)生死機(jī)的時(shí)間反饋對(duì)應(yīng)的系統(tǒng)監(jiān)控日志。A、系

11、統(tǒng)串口消息如果出于調(diào)測(cè)的目的開(kāi)放系統(tǒng)的串口,請(qǐng)反饋問(wèn)題服務(wù)器的串口打印信息,通常情況下GalaX系統(tǒng)中各個(gè)節(jié)點(diǎn)的串口功能是關(guān)閉的。串口打印的堆棧信息、臨終遺言對(duì)死機(jī)定位非常有用,如果沒(méi)有部署串口,請(qǐng)盡量將串口部署上,串口信息對(duì)于死機(jī)問(wèn)題的定位很重要。B底層日志:C收集系統(tǒng)的打印信息:命令:cat/proc/sys/kernel/printk1、 定位方法1 .是否硬件狗復(fù)位A.在死機(jī)問(wèn)題中,較多的死機(jī)問(wèn)題都是由于軟件狗未喂硬件狗,或者喂狗不成功,導(dǎo)致硬件狗超時(shí)(超時(shí)時(shí)間為20Min),從而重啟服務(wù)器,這樣就認(rèn)為系統(tǒng)死機(jī)后的重啟。B.因此查看watchdog的日志,看是否是喂狗的時(shí)候出現(xiàn)問(wèn)題。首

12、先需要判定是否由于watchdog自身的原因或者某些規(guī)則導(dǎo)致硬件狗超時(shí)而重啟服務(wù)器,這樣的原因下就是上層業(yè)務(wù)造成的,不是。孫身的問(wèn)題。C.同時(shí)在查看watchdog的日志時(shí),注意查看是否是喂狗的腳本執(zhí)行不成功有無(wú)及時(shí)的返回喂狗腳本執(zhí)行的結(jié)果這樣判定是否是由于喂狗腳本阻塞引起的硬件狗超時(shí)同時(shí)比對(duì)是否在其它的業(yè)務(wù)模塊日志中也有執(zhí)行腳本不成功的情況這樣如果所有的模塊都存在這種執(zhí)行腳本不成功、卡死的話,那就不是watchdog本身的原因,而是在系統(tǒng)中的其它原因造成,需要向系統(tǒng)更深入的排查原因了。如果是由硬件狗復(fù)位服務(wù)器,在BM洲面日志中能夠記錄到相應(yīng)的日志,通過(guò)此可以進(jìn)行判定;2 .是否系統(tǒng)負(fù)載過(guò)高L

13、inux系統(tǒng)不是孤立的存在的,其上往往是運(yùn)行這產(chǎn)品自身的業(yè)務(wù),而業(yè)務(wù)既然使用語(yǔ)言代碼編程,那也就存在Bug,而對(duì)于這些Bug也可能引起Linux的崩潰或者類(lèi)似死機(jī)的現(xiàn)象。這類(lèi)問(wèn)題往往最常見(jiàn)的現(xiàn)象是系統(tǒng)響應(yīng)緩慢,或者無(wú)法響應(yīng),從而認(rèn)為系統(tǒng)死機(jī),這往往從監(jiān)控日志中能夠看到內(nèi)存和CPU1用飆高,而這往往是由于系統(tǒng)負(fù)載過(guò)高導(dǎo)致的。由于系統(tǒng)負(fù)載過(guò)高導(dǎo)致的卡死,一定是解決的越快越好!需要通過(guò)命令行終端進(jìn)行定位。通過(guò)Ctrl+Alt+F1(通常F1F6都可以進(jìn)行切換),此時(shí)可能鍵盤(pán)的輸入速度比較慢,請(qǐng)耐性等候,在提示符后輸入top回車(chē),看到一張動(dòng)態(tài)的表,上面列出了耗用資源最多的進(jìn)程。觀察到刷新幾次后,按q退

14、出,然后輸入killPID,其中PID為top中顯示的占用資源較多的進(jìn)程,此時(shí)系統(tǒng)應(yīng)該會(huì)快不少,如果沒(méi)有結(jié)束掉進(jìn)程,通過(guò)kill-9,這樣基本上沒(méi)有問(wèn)題了(這個(gè)動(dòng)作一般不要做)。3 .是否業(yè)務(wù)導(dǎo)致判斷到是由于系統(tǒng)的負(fù)載過(guò)高導(dǎo)致系統(tǒng)的死機(jī),然后就是判定是否是由于業(yè)務(wù)導(dǎo)致的業(yè)務(wù)模塊相對(duì)來(lái)說(shuō)是一個(gè)比較新開(kāi)發(fā)的,出現(xiàn)問(wèn)題的幾率還是相對(duì)來(lái)說(shuō)比較大的。因此首先是從業(yè)務(wù)模塊下手。1 .在出現(xiàn)問(wèn)題時(shí),現(xiàn)場(chǎng)是否做了哪些的操作2 .而這些操作是否會(huì)引起某些系統(tǒng)資源的過(guò)載使用3 .結(jié)合業(yè)務(wù)模塊的日志,分析在出現(xiàn)問(wèn)題時(shí)是否有某些異常的日志記錄4 .如果有,則找到出現(xiàn)這些異常的原因,向上找到出現(xiàn)這些異常的起始點(diǎn),再向上

15、查找比較長(zhǎng)的時(shí)間段日志,看是否有明顯的異常。5 .是否硬件相關(guān)因此首先需要同判定現(xiàn)場(chǎng)環(huán)境中的BIOS中的某些項(xiàng)的設(shè)置是否正確看當(dāng)時(shí)配套版本中說(shuō)明的設(shè)置,以及此版本是否本身就存在此問(wèn)題在判定完上述后,如果都不符合,則有可能是出現(xiàn)了新的問(wèn)題,獲取到messages和監(jiān)控日志等,在其中進(jìn)行查看是否有報(bào)硬件相關(guān)的錯(cuò)誤,針對(duì)這些錯(cuò)誤,判斷分析是否正常而同時(shí)這些錯(cuò)誤有可能在出現(xiàn)問(wèn)題之前比較長(zhǎng)的時(shí)間,需要向上回溯。需要專(zhuān)業(yè)硬件人員來(lái)分析。6 .是否內(nèi)核問(wèn)題問(wèn)題與kernel可能也有關(guān)系了,而如果同kernel有較大關(guān)系的話,系統(tǒng)會(huì)產(chǎn)生kbox文件,而管理節(jié)點(diǎn)由于使用LinuxIMG,則產(chǎn)生的黑匣子日志文件在本地/var

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論