計算機中心機房運行風險分析及應(yīng)對_第1頁
計算機中心機房運行風險分析及應(yīng)對_第2頁
計算機中心機房運行風險分析及應(yīng)對_第3頁
計算機中心機房運行風險分析及應(yīng)對_第4頁
計算機中心機房運行風險分析及應(yīng)對_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、_計算機中心機房運行風險分析及應(yīng)對為了滿足業(yè)務(wù)或管理的需要,保障計算機核心系統(tǒng)和網(wǎng)絡(luò)系統(tǒng)的正常運行環(huán)境,越來越多的計算機中心機房(以下簡稱機房)投入使用。 機房以及各種各樣的機房保障系統(tǒng)的安全運行水平, 決定了核心業(yè)務(wù)系統(tǒng)和網(wǎng)絡(luò)系統(tǒng)的可靠性和可用性。計算機應(yīng)用系統(tǒng)和網(wǎng)絡(luò)系統(tǒng)越重要,對機房的保障要求就越高,確保機房的安全可靠運行,是每個機房管理者追求的目標。然而, 各種各樣的計算機系統(tǒng),龐大的信息通訊網(wǎng)絡(luò),眾多的機房保障系統(tǒng),連續(xù)不間斷的長期運轉(zhuǎn),注定了機房運行風險的客觀存在。一、機房運行風險分析1、機房的運行風險機房中連續(xù)運行著各種各樣的設(shè)備和系統(tǒng),對設(shè)備(系統(tǒng))的可用性是人們關(guān)注的重點。假設(shè)

2、一臺設(shè)備(系統(tǒng))的可用性達到99.9 ,那么它一年中就可能有8.76 小時不能用,即使設(shè)備(系統(tǒng))的可用性達到 99.99,其一年仍然可能有 0.876小時不能用。一個機房內(nèi)成百上千臺套的運行設(shè)備(系統(tǒng)),可以說時刻都孕育著運行失效的風險,因此防范運行風險必須引起足夠的重視。風險防范須建立在對風險的清楚認知的基礎(chǔ)之上。比較簡單的方法是通過風險列表,按照分類等級盡可能詳盡地羅列出相關(guān)機房可能存在的各種運行風險,用以進一步的分析。 一般可以按照機房環(huán)境、 運行設(shè)備、 機房管理等方面進行機房風險分類,然后盡可能詳盡地列出相應(yīng)的風險事件和因素,并進行分級。以下是一個機房風險列表示例(見下表)。其中,一

3、級風險為無法承受的運行風險,因為一旦發(fā)生, 無法在短時間內(nèi)恢復正常的運行狀態(tài),必然會給所屬單位造成嚴重的經(jīng)濟、社會損失。二、三級風險雖然嚴重危及運行安全,但是大部分可能造成局部運行異?;蛑皇沁\行安精品資料_全隱患, 基本屬于可承受和可控制的運行風險。當然不同類型用途的機房,其風險等級的認定會不同。值得注意得是,機房運行風險不是一成不變的,會隨著機房內(nèi)相關(guān)要素的各種變化而改變,或者影響其風險等級,或者會產(chǎn)生新的風險因素。機房運行風險分析列表風險風險等級分類一級二級三級機房發(fā)生火災(zāi)機房部分設(shè)備發(fā)生火險機房大面積漏水主要機房地面積水機房局部漏水機房建筑物發(fā)生塌毀機房建筑物局部損毀機房建筑物險情機房消

4、防系統(tǒng)失控消防系統(tǒng)異常安全空調(diào)系統(tǒng)失效或失控溫度或濕度超范圍門禁系統(tǒng)失控門禁系統(tǒng)異常機房照明失效照明異常場地監(jiān)控系統(tǒng)失效場地監(jiān)控系統(tǒng)異常核心設(shè)備故障停機主要設(shè)備故障停機個別設(shè)備故障停機運行機房大面積停電供電異常接地異常安全系統(tǒng)異常或程序混亂系統(tǒng)異常程序錯誤運行數(shù)據(jù)丟失無法恢復數(shù)據(jù)丟失但可以恢復數(shù)據(jù)錯誤可以恢復精品資料_核心網(wǎng)絡(luò)中斷備份無效主/備網(wǎng)絡(luò)故障部分網(wǎng)絡(luò)故障人為破壞事故嚴重操作失誤一般操作失誤管理及人員安管理機構(gòu)或責任缺失全規(guī)章制度不健全管理松懈人員傷亡人員受傷財產(chǎn)重要設(shè)備損毀局部設(shè)備損毀設(shè)備故障安全重要設(shè)備(數(shù)據(jù))丟失設(shè)備丟失設(shè)備配件丟失雷擊導致供電或網(wǎng)絡(luò)通訊中斷發(fā)生雷擊入侵防雷設(shè)施失

5、效鼠害毀壞線纜發(fā)現(xiàn)老鼠其他發(fā)生蟲害發(fā)生嚴重電磁干擾發(fā)生一般電磁干擾2、機房運行風險分析機房風險的來源是多方面的。首先,機房風險的存在是客觀的。任何長期運行的機房,不可避免會發(fā)生各種各樣的異常,從而導致運行風險,如設(shè)備故障、網(wǎng)絡(luò)通訊異常、計算機系統(tǒng)失效等。從運行安全的容忍程度,可以分為可承受風險和不可承受風險;從風險發(fā)生的角度,可分為可控制風險及不可控風險。機房管理的目標是最大限度地避免發(fā)生無法承受的不可控制的運行風險,及時排除可承受風險發(fā)生的隱患,避免可控制風險的發(fā)生。其次,機房風險來源于機房設(shè)計、施工缺陷。機房的設(shè)計、施工及驗收,國家都有相關(guān)的標準,但是由于經(jīng)費投入、設(shè)計施工單位資質(zhì)、機房管

6、理部門要求等因素,使得有些機房在開精品資料_始設(shè)計建設(shè)時就在使用功能、安全標準、配套設(shè)施、 材料用品等方面存在很多缺陷,特別是在機房的安全性、可維性、可擴展性方面留下嚴重隱患。第三, 機房風險來源于低水平的管理。由于機房用途的特殊性,決定了其管理的重要性。由于目前沒有標準的機房管理規(guī)范,各行各業(yè)各家的機房管理都是自行其是,問題是相當多的機房運行風險正是由管理不到位造成的。如規(guī)章制度不健全或形同虛設(shè)、安全管理不到位、檢測檢查制度不嚴格、技術(shù)維護制度不落實等等。第四, 機房風險來源于不嚴謹?shù)倪\維。機房運行維護是維持長期可靠運行的必要手段,高度的責任心、 精通的運維技術(shù)和嚴謹?shù)墓ぷ鲬B(tài)度,對實現(xiàn)安全運

7、維目標缺一不可。往往一時的疏忽, 一個隨意的操作,一次不到位的檢查,一次不經(jīng)意的失誤等等,就會導致一場運行風險甚至災(zāi)難。二、防范機房運行風險的對策機房管理者應(yīng)該在機房運行風險沒有發(fā)生時就制定好嚴密的應(yīng)對對策。為此,針對機房風險的對策主要應(yīng)該體現(xiàn)在以下一些方面。1、真實可行的風險分析應(yīng)用科學的方法,針對確定的對象,進行認真仔細的風險分析,同時進行合理的風險判斷。盡管機房運行風險的基本情況如前表的羅列,但是具體的機房必須進行具體的風險分析,才可以制定出切合實際的防范對策。其方法可以參照本文的列表進行分類分級,在此基礎(chǔ)上,進行風險承受性和風險控制性分析。下面以對某機房的消防保障情況分析,說明機房火災(zāi)

8、風險分析的方法。1)火險火源:電源(老化、過載、短路、電弧等)。人為(用火失誤、放火破壞等)。精品資料_2 )控制能力:首先,機房所有建筑材料,全部為不可燃物品或難燃物品,即使發(fā)生火險,其燃燒蔓延速度和范圍有限。 其次,電源設(shè)施全部按照國家標準施工建設(shè)和驗收,其中開關(guān)、線纜等配件均為合格產(chǎn)品;機房線纜全部實現(xiàn)金屬穿管布線。第三,機房安排24 小時雙人同時值班, 嚴格執(zhí)行定期檢查檢測制度,認真落實供配電系統(tǒng)定期檢測制度,所有供電回路沒有滿載使用情況。第四, 機房安裝了合格的自動檢測消防系統(tǒng),包括自動溫感和煙感報警及自動撲滅裝置,機房內(nèi)合理布置了適量的手提滅火器。第五,機房內(nèi)嚴禁用火,工作人員嚴禁

9、在機房內(nèi)吸煙。第五, 機房有健全的門徑控制系統(tǒng)和嚴格的人員進出管理制度,工作人員的業(yè)務(wù)素質(zhì)較高,職業(yè)操守良好。3)風險承受力:局部火險的影響可以承受,一旦發(fā)生火災(zāi)就將會導致非常嚴重的后果和不可控制的影響4)結(jié)論:可控性高,發(fā)生率低,風險較小。2、風險預(yù)置理念通過對機房運行風險的分析,就會發(fā)現(xiàn), 機房風險可以進行適當?shù)姆謩e對待,因此提出機房運行風險預(yù)先處置的理念。即通過科學的防范措施,盡可能避免一級風險的發(fā)生,盡可能減少二、三級風險的發(fā)生。1)風險轉(zhuǎn)移。將一些可以預(yù)見但可能發(fā)生概率較低的風險,通過購買保險、設(shè)備維修外包等形式,轉(zhuǎn)移到保險公司和機房設(shè)備服務(wù)商。如購買財產(chǎn)保險,將機房風險(機房建筑物

10、風險、火災(zāi)風險等)轉(zhuǎn)移到保險公司;通過機房設(shè)備外包的方式,將UPS 、精密空調(diào)等設(shè)備故障風險轉(zhuǎn)移到設(shè)備維修服務(wù)公司等。特別是對重要的設(shè)備以外包方式實現(xiàn)風險轉(zhuǎn)移,是非常理智的選擇。同時強調(diào),選擇風險轉(zhuǎn)移的主要目的在于通過借助相關(guān)部門的管理、技術(shù)、資金來最大限度地降低機房發(fā)生相關(guān)風險的可能性。精品資料_2)科學監(jiān)控。 事實上, 機房保障系統(tǒng)的運行故障,大部分是有一個從量變到質(zhì)變的過程的,機房設(shè)備的使用壽命也有一定的規(guī)律可循,而且所有機房設(shè)備的運行故障必定有其特定的原因。據(jù)此, 通過健全科學的實時監(jiān)控措施,對發(fā)生故障隨機性強的機房保障系統(tǒng)進行長期實時檢測, 經(jīng)過對采集的運行參數(shù)的有機分析,及時采取有

11、效的規(guī)避風險的措施。由實時監(jiān)控系統(tǒng)建立的預(yù)警系統(tǒng), 可以達到對其監(jiān)控設(shè)備的運行狀態(tài)檢測、運行異常警告、 運行故障原因分析,從而達到運行故障防范和及時處置的目的。3)應(yīng)急方案。應(yīng)對運行風險的目標,是盡可能避免發(fā)生運行風險,一旦發(fā)生風險就要做到快速反應(yīng), 快速恢復。既然機房運行風險是客觀存在的,同時必須承認,有些機房運行風險發(fā)生的時間是無法預(yù)控和預(yù)知的。對此,理想的選擇是建立一整套科學有效的“機房運行風險應(yīng)急方案 ”。包括啟動運行危機處置的報告體系、負責人力資源調(diào)動和現(xiàn)場協(xié)調(diào)指揮的組織機構(gòu), 負責執(zhí)行風險處置的各方面專業(yè)技術(shù)人員及聯(lián)絡(luò)體系,指導具體操作的完善詳盡的異常處置應(yīng)對方案。“機房運行應(yīng)急方案 ”, 特別重要的是可用性,即實用、能用、會用。其基本原則是制定方案分門別類,描述內(nèi)容直觀明晰,處置方法準確詳盡,應(yīng)急效果可靠穩(wěn)妥。必須關(guān)注整個應(yīng)急處置過程的所有細節(jié), 包括異常分析判斷、啟動聯(lián)系協(xié)調(diào)手段、 應(yīng)急人員備份、 處置工具器材等; 應(yīng)急方案必須具備多種級別的應(yīng)對措施,任何情況下, 避免出現(xiàn)無所作為或無法應(yīng)對的局面。 同時特別重要的是對應(yīng)急

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論