![運行維護管理體系和制度規(guī)范_第1頁](http://file4.renrendoc.com/view/35eba978cd984d529e1b27fdd63fbedb/35eba978cd984d529e1b27fdd63fbedb1.gif)
![運行維護管理體系和制度規(guī)范_第2頁](http://file4.renrendoc.com/view/35eba978cd984d529e1b27fdd63fbedb/35eba978cd984d529e1b27fdd63fbedb2.gif)
![運行維護管理體系和制度規(guī)范_第3頁](http://file4.renrendoc.com/view/35eba978cd984d529e1b27fdd63fbedb/35eba978cd984d529e1b27fdd63fbedb3.gif)
![運行維護管理體系和制度規(guī)范_第4頁](http://file4.renrendoc.com/view/35eba978cd984d529e1b27fdd63fbedb/35eba978cd984d529e1b27fdd63fbedb4.gif)
![運行維護管理體系和制度規(guī)范_第5頁](http://file4.renrendoc.com/view/35eba978cd984d529e1b27fdd63fbedb/35eba978cd984d529e1b27fdd63fbedb5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、 運行維護管理體系和制度規(guī)范目 錄 TOC o 1-3 h z u HYPERLINK l _Toc310001784 1、總則3 HYPERLINK l _Toc310001785 2、編制方法3 HYPERLINK l _Toc310001807 3、運維工作職責3 HYPERLINK l _Toc310001786 4、運維服務管理體系5 HYPERLINK l _Toc310001787 4.1運維服務管理對象6 HYPERLINK l _Toc310001788 4.2 運維系統(tǒng)功能框架6 HYPERLINK l _Toc310001789 4.3運維管理組織結(jié)構(gòu)7 HYPERLIN
2、K l _Toc310001790 4.3.1項目負責人8 HYPERLINK l _Toc310001791 4.3.2項目經(jīng)理8 HYPERLINK l _Toc310001792 4.3.3技術(shù)主管9 HYPERLINK l _Toc310001793 4.3.4服務臺9 HYPERLINK l _Toc310001794 4.3.5網(wǎng)絡管理員10 HYPERLINK l _Toc310001795 4.3.5應用、數(shù)據(jù)庫管理員10 HYPERLINK l _Toc310001796 4.3.7終端管理員11 HYPERLINK l _Toc310001797 4.4運維服務流程11 H
3、YPERLINK l _Toc310001798 4.4.1項目運維服務工作流程圖12 HYPERLINK l _Toc310001799 4.4.2服務臺 PAGEREF _Toc310001799 h 12 HYPERLINK l _Toc310001800 3.4.3事件管理 PAGEREF _Toc310001800 h 13 HYPERLINK l _Toc310001801 4.4.4工單管理 PAGEREF _Toc310001801 h 13 HYPERLINK l _Toc310001802 4.4.5問題管理 PAGEREF _Toc310001802 h 14 HYPER
4、LINK l _Toc310001803 4.4.6變更管理 PAGEREF _Toc310001803 h 14 HYPERLINK l _Toc310001804 4.4.7配置管理 PAGEREF _Toc310001804 h 14 HYPERLINK l _Toc310001805 4.4.8知識庫管理 PAGEREF _Toc310001805 h 15 HYPERLINK l _Toc310001806 4.4.9統(tǒng)計及工作報告 PAGEREF _Toc310001806 h 15 HYPERLINK l _Toc310001807 5、運維服務內(nèi)容 PAGEREF _Toc31
5、0001807 h 15 HYPERLINK l _Toc310001808 5.1服務目標 PAGEREF _Toc310001808 h 15 HYPERLINK l _Toc310001809 5.2資產(chǎn)統(tǒng)計服務 PAGEREF _Toc310001809 h 16 HYPERLINK l _Toc310001810 5.3網(wǎng)絡、安全系統(tǒng)運維服務 PAGEREF _Toc310001810 h 16 HYPERLINK l _Toc310001811 5.4主機、存儲系統(tǒng)運維服務 PAGEREF _Toc310001811 h 17 HYPERLINK l _Toc310001812 5
6、.5數(shù)據(jù)庫系統(tǒng)運維服務 PAGEREF _Toc310001812 h 18 HYPERLINK l _Toc310001813 5.6中間件運維服務 PAGEREF _Toc310001813 h 19 HYPERLINK l _Toc310001814 5.7終端、外設運維服務 PAGEREF _Toc310001814 h 19 HYPERLINK l _Toc310001815 6、應急服務響應措施 PAGEREF _Toc310001815 h 19 HYPERLINK l _Toc310001816 6.1應急預案實施基本流程20 HYPERLINK l _Toc310001817
7、 6.2突發(fā)事件應急策略20 HYPERLINK l _Toc310001818 7、服務管理制度規(guī)范21 HYPERLINK l _Toc310001819 7.1服務時間21 HYPERLINK l _Toc310001820 7.2行為規(guī)范221、總則為保障實驗室系統(tǒng)軟硬件設備的良好運行,使員工的運維工作制度化、流程化、規(guī)范化,特制訂本制度。運維工作總體目標:立足根本促發(fā)展,開拓運維新局面。在企業(yè)發(fā)展壯大時期,通過網(wǎng)絡、桌面、系統(tǒng)等的運維,促進企業(yè)穩(wěn)定可持續(xù)性發(fā)展。運維管理制度的適用范圍:運維人員。2、編制方法本實施細則包括運維服務全生命周期管理方法、管理標準/規(guī)范、管理模式、管理支撐工
8、具、管理對象以及基于流程的管理方法。本實施細則以ITIL/ISO20000為基礎(chǔ),以信息化項目的運維為目標,以管理支撐工具為手段,以流程化、規(guī)范化、標準化管理為方法,以全生命周期的PDCA循環(huán)為提升途徑,體現(xiàn)了對運維服務全過程的體系化管理。3、運維部工作職責一、負責網(wǎng)站運維和技術(shù)支持(一)根據(jù)網(wǎng)站運營戰(zhàn)略和目標,負責網(wǎng)站整體架構(gòu)、欄目、應用系統(tǒng)等技術(shù)開發(fā)方案制定和組織開發(fā),保障網(wǎng)站技術(shù)的穩(wěn)定性和先進性。(二)負責網(wǎng)站欄目和應用系統(tǒng)的使用培訓和操作使用指南編寫,對用戶使用過程中出現(xiàn)問題的溝通和解決。(三)網(wǎng)站設備和軟件購買計劃書的擬定,包括采購數(shù)量、品牌規(guī)格、技術(shù)參數(shù)。會同行政部進行采購。(四)
9、網(wǎng)站設備和軟件操作規(guī)程和應用管理制度的制定,并負責監(jiān)督執(zhí)行。(五)網(wǎng)站設備和軟件安裝、調(diào)試和驗收,使用培訓和維修保養(yǎng)。(六)網(wǎng)站日常運行過程中信息安全和技術(shù)問題的協(xié)調(diào)解決,保障網(wǎng)站24小時安全穩(wěn)定運行。(七)網(wǎng)站技術(shù)服務外包管理,主要包括技術(shù)外包開發(fā)、運行服務托管和空間域名管理。(八)負責網(wǎng)站管理系統(tǒng)及設備保密口令的設置和保存,保密口令設置后報中心主任備案,保密口令設定后任何人不得隨意更改,保密口令每季度更新一次。(九)負責網(wǎng)站新程序、新系統(tǒng)和網(wǎng)站改版升級方案技術(shù)的設計開發(fā)。二、負責網(wǎng)站信息和技術(shù)安全(一)執(zhí)行國家和省上有關(guān)網(wǎng)絡信息技術(shù)安全的法律法規(guī),與通信管理和網(wǎng)絡安全監(jiān)管部門聯(lián)絡,及時處理
10、網(wǎng)站信息技術(shù)安全方面存在的問題,確保網(wǎng)站安全、穩(wěn)定、可靠運行。(二)網(wǎng)站信息技術(shù)安全保密制度和工作流程的制定,落實信息技術(shù)安全保密責任制,執(zhí)行“誰主管、誰負責,誰主辦、誰負責”的原則,責任到人。( 三 )在服務器和計算機之間設置硬件防火墻,在服務器及工作站上均安裝防病毒軟件,進行硬件和技術(shù)雙保護,確保網(wǎng)站不受病毒和黑客攻擊。(四)負責網(wǎng)站信息技術(shù)安全應急處理預案制定和實施。(五)安排專人監(jiān)控網(wǎng)站各頻道,各頁面,各版塊,各欄目信息內(nèi)容,建立網(wǎng)站信息技術(shù)安全監(jiān)控值班登記制度,發(fā)現(xiàn)問題及時處理,并登記問題和處理結(jié)果登記;(六)建立多機備份網(wǎng)站信息服務系統(tǒng)機制,一旦主系統(tǒng)遇到故障或受到攻擊導致不能正常
11、運行,可以在最短的時間內(nèi)替換主系統(tǒng)提供服務。(七)建立網(wǎng)站系統(tǒng)集中式權(quán)限管理,按照崗位職責設定工作人員操作權(quán)限,針對不同應用系統(tǒng)、終端、操作人員,設置共享數(shù)據(jù)庫信息的訪問權(quán)限,并設置密碼。不同的操作人員設定不同的用戶名,且定期更換,嚴禁操作人員泄漏密碼。4、運維服務管理體系運維服務管理體系規(guī)定了運維活動涉及的各類實體,以及這些實體間的相互關(guān)系。相關(guān)的實體按照運維服務管理體系進行有機組織,并協(xié)調(diào)工作,按照服務協(xié)議要求提供不同級別的IT運維服務。4.1運維服務管理對象運維服務管理對象包括基礎(chǔ)設施、應用系統(tǒng)、用戶、研發(fā)部門以及IT運維部門和人員,具體內(nèi)容如下:(1)基礎(chǔ)設施包括網(wǎng)絡、主機系統(tǒng)、存儲系
12、統(tǒng)、安全系統(tǒng)等。(2)應用系統(tǒng)包括uap云管理平臺、cloud門戶、demo、zabbix、機房設備管理系統(tǒng)、vmware以及yum源等。(3)用戶包括使用如上應用系統(tǒng)的用戶。(4)研發(fā)部門包括Iaas平臺研發(fā)部門。(5)運維部門和人員包括內(nèi)部參與運維活動的相關(guān)部門和人員,以及提供運維服務的企業(yè)和相關(guān)人員。4.2 運維系統(tǒng)功能框架根據(jù)建設單位的系統(tǒng)結(jié)構(gòu)和業(yè)務開展需要,運維項目組將項目的維護框架分為9個具體組成部分,分別為:服務臺、事件管理、工單管理、問題管理、變更管理、配置管理、工程師考核、知識庫管理、統(tǒng)計、系統(tǒng)管理等9個子項。而具體運維流程將以此為依據(jù)開展工作。4.3運維管理組織結(jié)構(gòu)本運維項
13、目的運維管理結(jié)構(gòu)位三層模式,具體如下圖所示。由項目負責人與甲方進行業(yè)務范圍接洽,并將溝通結(jié)果向下傳遞。項目經(jīng)理負責項目的整體運維工作,包括各種制度的制定和實施。運維工程師則在項目經(jīng)理的指導下開展維護工作。4.3.1運維負責人職責:負責項目商務、整體協(xié)調(diào)事宜。職位描述:1)、整體負責建設單位運維項目服務計劃的制定,領(lǐng)導項目經(jīng)理并安排項目工作,指導項目經(jīng)理完成具體維護工作,每周聽取項目經(jīng)理的工作匯報,負責考核項目經(jīng)理工作完成情況。2)、協(xié)助建設單位完成新增項目的調(diào)研、方案設計并指導項目經(jīng)理進行具體實施。4.3.2運維主管職責:規(guī)劃、執(zhí)行、完善信息化項目的運維工作,指導網(wǎng)絡、數(shù)據(jù)庫維護工程師開展工作
14、。職位描述:1、根據(jù)公司戰(zhàn)略目標,指導下屬工程師開展客戶服務工作,確保運維工作能夠滿足客戶的實際需要;2、建立和持續(xù)完善運維管理體系,優(yōu)化運維流程流程,解決運維服務中出現(xiàn)的特殊問題;3、規(guī)劃并提升運維工程師專業(yè)服務能力,在整體上提高客戶滿意度;4、制定和持續(xù)完善績效考核體系;5、制定整理運維項目的應急預案系統(tǒng),并指導運維工程師實施;6、提高自身專業(yè)技能,在業(yè)務方面給予網(wǎng)絡管理員和數(shù)據(jù)庫管理員指導。4.3.3系統(tǒng)管理員 職責:操作系統(tǒng)、應用、數(shù)據(jù)庫管理,oracle性能調(diào)優(yōu),實現(xiàn)應用負載均衡。職位描述:技術(shù)主管非項目常駐人員,根據(jù)項目需要進行專業(yè)方面指導;負責數(shù)據(jù)庫性能分析與調(diào)優(yōu),數(shù)據(jù)庫運行狀態(tài)
15、監(jiān)控,及時發(fā)現(xiàn)異常并快速處理。熟練掌握Oracle10G的RAC技術(shù),能夠?qū)崿F(xiàn)部署及調(diào)優(yōu)。掌握WAS、Weblogic、Tomcat、websphere等中間件的工作原理,能夠?qū)崿F(xiàn)部署調(diào)優(yōu)及故障解決。熟練掌握red-flag、redhat等linux操作系統(tǒng),部署oracle10g、mysql數(shù)據(jù)庫。熟練掌握dataguard技術(shù),保證oracle數(shù)據(jù)庫冗災、數(shù)據(jù)保護、故障恢復。負責應用負載均衡的部署和調(diào)試。負責指導數(shù)據(jù)庫工程師管理員開展工作。4.3.4網(wǎng)絡管理員職責:維護建設單位網(wǎng)絡系統(tǒng)正常,解決網(wǎng)絡相關(guān)故障。職位描述:1、對現(xiàn)有服務器、局域網(wǎng)絡及機房、配線間的日常管理維護;2、對信息安全建
16、設提出相關(guān)建議,確保網(wǎng)絡的安全;3、保證外網(wǎng)光纖線路正常,保證局域網(wǎng)運行正常;4、對網(wǎng)絡系統(tǒng)和網(wǎng)絡設備的運行狀態(tài)進行監(jiān)控;5、熟練掌握域策略設置、DHCP、DNS、FTP服務器、NTFS權(quán)限設置等;6、編寫網(wǎng)絡部分的應用處理預案并實施。7、工作認真、細致,積極主動有條理性,具有良好的溝通能力及團隊合作精神.4.3.5應用、數(shù)據(jù)庫管理員職責:維護建設單位業(yè)務系統(tǒng)運行正常,解決應用和數(shù)據(jù)庫故障。職位描述:1、監(jiān)測業(yè)務系統(tǒng)運行狀況,應用、數(shù)據(jù)庫性能監(jiān)視及優(yōu)化,作必要調(diào)整;2、規(guī)劃不同數(shù)據(jù)的生命周期,制訂備份、恢復、遷移和災備策略,根據(jù)業(yè)務的需要執(zhí)行數(shù)據(jù)轉(zhuǎn)換及遷移等操作;3、保證應用和數(shù)據(jù)庫系統(tǒng)的安全
17、性、完整性和運行效率。4、負責數(shù)據(jù)庫平臺的整體架構(gòu)及解決方案的制定和實施;5、工作認真、細致,積極主動有條理性,具有良好的溝通能力及團隊合作精神.4.4運維服務標準流程IT運維服務管理流程涉及事件管理、問題管理、配置管理、變更管理、發(fā)布管理、服務級別管理、財務管理、能力管理、可用性管理、服務持續(xù)性管理、知識管理及供應商管理等,隨著運維活動的不斷深入和持續(xù)改進,其他流程可能會逐步獨立并規(guī)范。 4.4.1項目運維服務工作標準流程圖4.4.2服務臺(暫無)服務臺是支持運維服務的核心功能,與各個流程聯(lián)系密切。所有管理流程都要通過服務臺為用戶提供單點聯(lián)系,解答用戶的相關(guān)問題和需求,或為用戶尋求相應的支持
18、人員。在本系統(tǒng)中,服務臺是接收各種來源服務請求和相關(guān)信息反饋的唯一入口和出口,同時服務臺還負責一般請求、通過知識庫(歷史事件)能夠解決的請求;他也是復雜問題二線處理的橋梁。由于當前人員不足,服務臺的工作暫時由運維工程師統(tǒng)一處理。4.4.3事件管理事件管理流程的主要目標是盡快恢復服務提供并減少其對業(yè)務的不利影響,盡可能保證最好的服務質(zhì)量和可用性等級。事件管理流程通常涉及事件的偵測和記錄、事件的分類和支持、事件的調(diào)查和診斷、事件的解決和恢復以及事件的關(guān)閉。本系統(tǒng)把所有服務請求和報警歸結(jié)為事件。事件管理是提供服務臺和事件管理者對于事件記錄、處理、查詢、審核、派發(fā)等功能。它也包括通過和第三方監(jiān)控系統(tǒng)對
19、接,把其發(fā)送報警形成事件的功能。4.4.4工單管理工單管理:工單是現(xiàn)場運維、二線支持的任務載體,運維工程依據(jù)所接收工單進行運維工作。工單管理是對工單實現(xiàn)創(chuàng)建、變更、查詢?yōu)g覽、派發(fā)、監(jiān)督等功能的模塊。4.4.5問題管理問題管理流程的主要目標是預防問題和事故的再次發(fā)生,并將未能解決的事件的影響降低到最小。問題管理流程包括診斷事件根本原因和確定問題解決方案所需要的活動,通過合適的控制過程,尤其是變更管理和發(fā)布管理,負責確保解決方案的實施。問題管理還將維護有關(guān)問題、應急方案和解決方案的信息。問題管理是針對已處理事件的遺留問題或處理事件的方案只是治標不治本的不能徹底解決問題而考慮的模塊。根據(jù)事件、及處理
20、方案,問題處理人經(jīng)過調(diào)查、診斷并提出最終解決方法。4.4.6變更管理變更管理實現(xiàn)所有基礎(chǔ)設施和應用系統(tǒng)的變更,變更管理應記錄并對所有要求的變更進行分類,應評估變更請求的風險、影響和業(yè)務收益。其主要目標是以對服務最小的干擾實現(xiàn)有益的變更。變更管理是要對重大資源的新增、變更、升級等運維活動進行審核的功能,以免這些活動對現(xiàn)有資源的可用性造成沒有必要的影響和破壞;同時,他還要實現(xiàn)在工單中產(chǎn)生的變化進行后審計的功能。4.4.7配置管理配置管理流程負責核實基礎(chǔ)設施和應用系統(tǒng)中實施的變更以及配置項之間的關(guān)系是否已經(jīng)被正確記錄下來;確保配置管理數(shù)據(jù)庫能夠準確地反映現(xiàn)存配置項的實際版本狀態(tài)。 配置管理實際上是全
21、部資源的統(tǒng)一管理的功能,包括資源整個生命周期的參數(shù)或配置的變化記錄的管理。管理信息主要涉及分類、型號、版本、位置,狀態(tài)、相關(guān)資料等基本信息還包括核心參數(shù)等 4.4.8知識庫管理運維知識經(jīng)驗的總結(jié)、維護和共享是提高員工運維技能水平、增強單位凝聚力的重要手段,也是把寶貴的經(jīng)驗教訓從支持人員頭腦逐步沉淀、固化的重要方式。知識庫管理:知識庫是提供給運維人員重要的技術(shù)資料內(nèi)容,他匯集在工作的遇到的典型案例歸納總結(jié)的知識要點和全面實用資料手冊。在本系統(tǒng)中,知識庫管理提供便于使用的人機接口、快速查詢的技術(shù)手段和維護手段。4.4.9統(tǒng)計及工作報告 運維管理系統(tǒng)提供一線解決率統(tǒng)計、客戶滿意度統(tǒng)計、按分類的事件匯
22、總統(tǒng)計、工作報告生成的功能,按照一定格式根據(jù)事件數(shù)據(jù)、工單數(shù)據(jù)、問題數(shù)據(jù)、配置數(shù)據(jù)、變更數(shù)據(jù)可以幫助運維管理者能把運維的所做的工作內(nèi)容清晰的羅列出來。5、運維服務內(nèi)容5.1運維服務目標 實驗室運維部門提供的運行維護服務包括,虛擬機、主機設備、操作系統(tǒng)、數(shù)據(jù)庫、網(wǎng)絡安全設備和存儲設備的運行維護服務,保證云管理平臺的正常運行,降低整體管理成本,提高Iaas平臺的整體服務水平。同時根據(jù)日常維護的數(shù)據(jù)和記錄,給研發(fā)部門提供Iaas平臺優(yōu)化及改善建議。實驗室運維的組成主要可分為兩類:硬件設備和軟件系統(tǒng)。硬件設備包括網(wǎng)絡設備、安全設備、主機設備、存儲設備等;軟件設備可分為云管理平臺、操作系統(tǒng)、典型應用軟件
23、(如:數(shù)據(jù)庫軟件等)等。服務項目范圍覆蓋的信息系統(tǒng)資源以下方面的關(guān)鍵狀態(tài)及參數(shù)指標:運行狀態(tài)、故障情況配置信息可用性情況及健康狀況性能指標IT資產(chǎn)統(tǒng)計服務服務內(nèi)容包括:硬件設備型號、數(shù)量、版本等信息統(tǒng)計記錄軟件產(chǎn)品型號、版本和補丁等信息統(tǒng)計記錄網(wǎng)絡結(jié)構(gòu)、網(wǎng)絡路由、網(wǎng)絡IP地址統(tǒng)計記錄綜合布線系統(tǒng)結(jié)構(gòu)圖的繪制其它附屬設備的統(tǒng)計記錄5.3網(wǎng)絡、安全系統(tǒng)運維服務從網(wǎng)絡的連通性、網(wǎng)絡的性能、網(wǎng)絡的監(jiān)控管理三個方面實現(xiàn)對網(wǎng)絡系統(tǒng)的運維管理,網(wǎng)絡設備位于IT架構(gòu)的骨干位置,下面是需要監(jiān)控的指標,及對應健康狀況故障以后可能引起的問題。設備基礎(chǔ)性能檢測:cpu、內(nèi)存使用情況監(jiān)測。當cpu、內(nèi)存使用率過高,會導
24、致用戶網(wǎng)絡訪問質(zhì)量下降,丟包、時延較高等狀況的產(chǎn)生。說明當前網(wǎng)絡設備負載較高,需要對下行設備進行遷移,分流,減輕負載。設備日志查看;當設備日志出現(xiàn)異常時,可能是設備出現(xiàn)異常訪問或者異常配置,可能會導致網(wǎng)絡中斷。需要檢測防火墻等安全設備狀態(tài)。設備snmp、telnet狀態(tài);當snmp、telnet都不可達時,一般是設備脫網(wǎng)情況的產(chǎn)生,會導致網(wǎng)絡中斷。需要人工查看設備運行狀態(tài)。測試Ping,tracert等工具的連通性;當ping丟包率過高,說明網(wǎng)絡訪問質(zhì)量有問題,需要tracert查看網(wǎng)絡路徑是哪一跳對應的IP設備時延較高或者不可達。分析是哪個網(wǎng)關(guān)路由或者策略引起的問題。網(wǎng)絡安全策略應用是否正常
25、;安全策略異常會導致網(wǎng)絡設備遭受入侵,會影響整個網(wǎng)絡的訪問。Internet帶寬流量的實時監(jiān)測;流量所占帶寬比較高,會造成當前網(wǎng)絡設備對應端口網(wǎng)關(guān)的所有網(wǎng)絡訪問質(zhì)量下降。需要抓包查看是哪些設備對應的訪問流量較高,決定是加大帶寬還是服務器中毒。 網(wǎng)絡拓撲鏈路狀態(tài)監(jiān)測;鏈路狀態(tài)異常說明網(wǎng)絡中某個設備異常,需要查看鏈路對應的網(wǎng)絡設備健康狀況,結(jié)合其他指標分析問題所在。異常網(wǎng)絡數(shù)據(jù)包流量、Dos、ddos等網(wǎng)絡攻擊情況監(jiān)測;存在異常網(wǎng)絡數(shù)據(jù)流量包等,會導致正常的網(wǎng)絡質(zhì)量下降,說明網(wǎng)絡可能受到攻擊,需要結(jié)合netflow和流量狀況查看異常流量的訪問網(wǎng)段,從路由策略或者防火墻限制該網(wǎng)段的訪問光纖光口光功率
26、、光電口誤碼率大小。光功率值不在光模塊的默認光功率范圍內(nèi),會導致光口不可用,可能是光模塊出現(xiàn)故障,需要聯(lián)系廠家查看光模塊是否正常5.4主機、存儲系統(tǒng)運維服務提供的主機、存儲系統(tǒng)的運維服務包括:主機、存儲設備的日常監(jiān)控,設備的運行狀態(tài)監(jiān)控,故障處理,操作系統(tǒng)維護,補丁升級等內(nèi)容。進行監(jiān)控管理的內(nèi)容包括:CPU 性能管理;GPU指標過高,會導致服務器程序運行緩慢,出現(xiàn)卡死狀況。需要查看引起GPU過高原因,做虛機遷移等操作,減輕服務器壓力。內(nèi)存使用情況管理;內(nèi)存使用率過大,會導致服務器崩潰,需要及時擴充內(nèi)存資源,或者回收不再使用的虛機資源。硬盤利用情況管理;硬盤使用率過高,會導致開始啟動失敗,需要定
27、期清理服務器臨時文件,或者擴充服務器硬盤。系統(tǒng)進程管理;服務器關(guān)鍵進程運行是否正常,異常會導致服務器崩潰,需要查看進程異常原因。實時監(jiān)控主機電源、風扇的使用情況及主機機箱內(nèi)部溫度;電源狀態(tài)異常,可能會導致服務器斷電,風扇異常,主機穩(wěn)定過高會導致服務器重啟,需要與廠商聯(lián)系,查看硬件是否正常監(jiān)控主機硬盤運行狀態(tài);硬盤讀寫狀態(tài)等標識硬盤可用性,需要查看是否硬盤壓力過大,考慮更換存儲類型ssd等監(jiān)控主機網(wǎng)卡等硬件狀態(tài);主機網(wǎng)卡down掉,會影響服務器的網(wǎng)絡訪問,硬件異常會影響服務器正常運行,需要聯(lián)系廠商做硬件檢測。監(jiān)控主機HA運行狀況;災備系統(tǒng)運行異常,會導致HA切換異常,需要查看引起HA異常的原因,
28、是軟件問題還是硬件問題,逐步排除原因。 5.5數(shù)據(jù)庫系統(tǒng)運維服務提供的數(shù)據(jù)庫運行維護服務是包括主動數(shù)據(jù)庫性能管理,數(shù)據(jù)庫的主動性能管理對系統(tǒng)運維非常重要。通過主動式性能管理可了解數(shù)據(jù)庫的日常運行狀態(tài),識別數(shù)據(jù)庫的性能問題發(fā)生在什么地方,有針對性地進行性能優(yōu)化。同時,密切注意數(shù)據(jù)庫系統(tǒng)的變化,主動地預防可能發(fā)生的問題。進行監(jiān)控管理的內(nèi)容包括:數(shù)據(jù)庫基本信息:文件系統(tǒng)、碎片、死鎖、CPU占用率較大或時間較長的SQL語句。存在上面會導致業(yè)務訪問緩慢,需要定位那些SQL占用內(nèi)存較大或者死鎖,針對具體情況進行優(yōu)化代碼。表空間使用信息監(jiān)測;表空間占用太大會影響查詢效率,需要優(yōu)化存儲結(jié)構(gòu),將集中存儲換為單表
29、文件,索引根據(jù)實際業(yè)務進行優(yōu)化,是否需要索引,或者索引刪除重建,或者建立分區(qū)表。數(shù)據(jù)庫文件I/0讀寫情況;數(shù)據(jù)庫I/0反應數(shù)據(jù)庫瓶頸,查看引起I/O較大的原因是業(yè)務量較大還是服務器I/O現(xiàn)在,更換存儲類型,必要情況下更換內(nèi)存數(shù)據(jù)庫等。Session連接數(shù)量監(jiān)控;Session長鏈接數(shù)量較大會造成數(shù)據(jù)庫負載較高,需要考慮將長鏈接更換為短連接。數(shù)據(jù)庫監(jiān)聽運行狀態(tài)監(jiān)測;數(shù)據(jù)庫運行狀態(tài)為down會導致業(yè)務中斷,查看是業(yè)務層還是網(wǎng)絡層引起的問題,如果為網(wǎng)絡層,需要對網(wǎng)絡情況排除,如果為業(yè)務層導致,要進行SQL優(yōu)化。查看每日數(shù)據(jù)備份、數(shù)據(jù)同步是否正常;數(shù)據(jù)庫備份異常,會導致備份數(shù)據(jù)丟失,對于數(shù)據(jù)庫遷移,和
30、數(shù)據(jù)恢復造成不可恢復的影響,需要具體查看引起該問題是數(shù)據(jù)庫本身還是服務器問題,具體問題具體分析解決。對表和索引進行Analyze,檢查表空間碎片;數(shù)據(jù)庫表和索引的占用量太大會影響查詢效率,需要調(diào)整表結(jié)構(gòu)或者索引刪除重建。數(shù)據(jù)庫對象的空間擴展情況監(jiān)測;表空間擴展太快會導致數(shù)據(jù)庫服務器存儲空間占滿,數(shù)據(jù)庫down掉等異常情況,需要優(yōu)化表結(jié)構(gòu)。5.6云管理平臺運維服務云管理平臺主要包括管理節(jié)點、計算節(jié)點、存儲節(jié)點的運維。同時,實時監(jiān)控重點虛擬機,保證主要業(yè)務不中斷。主要內(nèi)容包括:Management Server狀態(tài)及性能監(jiān)控(cpu、內(nèi)存、磁盤、io、mysql數(shù)據(jù)庫、系統(tǒng)及應用日志等);虛擬化主
31、機agent狀態(tài)監(jiān)控;主存儲及二級存儲使用率監(jiān)控;數(shù)據(jù)中心虛擬資源(cpu、內(nèi)存、磁盤)使用量監(jiān)控;單臺計算節(jié)點cpu、內(nèi)存分配及實際使用量監(jiān)控;單臺存儲節(jié)點硬盤分配及實際使用量監(jiān)控;虛擬機模版、網(wǎng)絡、方案策略制定;系統(tǒng)虛擬機、虛機路由狀態(tài)監(jiān)控;非計費用戶閑置虛擬資源回收;用戶資源審批、賬戶充值及余額管理;虛擬機外網(wǎng)網(wǎng)絡及端口開通;計算節(jié)點主機及存儲節(jié)點擴容;5.7運維工具監(jiān)控工具實驗室選用開源運維工具Zabbix,Zabbix是一個基于WEB界面的提供分布式系統(tǒng)監(jiān)控以及網(wǎng)絡監(jiān)控功能的企業(yè)級開源運維平臺,也是目前國內(nèi)互聯(lián)網(wǎng)用戶中使用最廣的監(jiān)控軟件。Grafana-zabbix展示效果入門容易、
32、上手簡單、功能強大并且開源免費是對Zabbix的最直觀評價。Zabbix易于管理和配置,能生成比較漂亮的數(shù)據(jù)圖,其自動發(fā)現(xiàn)功能大大減輕日常管理的工作量,豐富的數(shù)據(jù)采集方式和API接口可以讓用戶靈活進行數(shù)據(jù)采集,而分布式系統(tǒng)架構(gòu)可以支持監(jiān)控更多的設備。理論上,通過Zabbix提供的插件式架構(gòu),可以滿足企業(yè)的任何需求。優(yōu)點:1. 支持多平臺的企業(yè)級分布式開源監(jiān)控軟件;2. 安裝部署簡單、管理方便;3. 功能強大,監(jiān)控靈活,可實現(xiàn)復雜多條件告警;4. 多種數(shù)據(jù)采集插件,靈活集成;5. 自帶畫圖功能,得到的數(shù)據(jù)可以繪成圖形;6. 同時支持調(diào)用腳本,很方便;7. 提供多種API接口,定制化最高的監(jiān)控軟件
33、;8. 出現(xiàn)問題時可自動遠程執(zhí)行命令(需對agent設置執(zhí)行權(quán)限);缺點:1. 項目批量修改不方便;2. 社區(qū)雖然成熟,但是中文資料相對較少,服務支持有限;3. 入門容易,能實現(xiàn)基礎(chǔ)的監(jiān)控,但是深層次需求需要非常熟悉Zabbix并進行大量的二次定制開發(fā),難度較大;4. 系統(tǒng)級別報警設置相對比較多,如果不篩選的話報警郵件會很多;并且自定義的項目報警需要自己設置,過程比較繁瑣;5. 缺少數(shù)據(jù)匯總功能,如無法查看一組HYPERLINK /list/b/0402_1.shtml t _blank o 服務器服務器平均值,需進行二次開發(fā);6. 數(shù)據(jù)報表需要特殊二次開發(fā)定義;實驗室監(jiān)控體系也有集中式監(jiān)控擴
34、展到分布式監(jiān)控,監(jiān)控系統(tǒng)之間的耦合性逐步降低。在分布式系統(tǒng)中,整個系統(tǒng)有一個監(jiān)控中心服務器,若干個子監(jiān)控服務器和被監(jiān)控對象組成的,每一個子監(jiān)控服務器負責監(jiān)控屬于它所屬的子系統(tǒng),不同的子系統(tǒng)之間也不完全獨立,他們之間的規(guī)模也不大,產(chǎn)生的數(shù)據(jù)也不是很大。這樣就大大減小中心監(jiān)控服務器的工作壓力。圖:分布式監(jiān)控架構(gòu)分布式監(jiān)控主要分三個層次,最底層是需要監(jiān)控的節(jié)點,他通過啟動snmp服務或者主動發(fā)送trapped或者啟動agent進程。收集每個節(jié)點的狀態(tài)信息,并向監(jiān)控子服務器發(fā)送收集的信息。中間層是proxy服務器層,它負責收集每個節(jié)點發(fā)送給它的監(jiān)控信息,然后向中心的監(jiān)控服務器發(fā)送搜集到的監(jiān)控信息。最上
35、面一層是中心監(jiān)控服務器,它主要負責收集每個子監(jiān)控服務器的數(shù)據(jù),然后存入數(shù)據(jù)庫,再通過web服務器發(fā)送提供展現(xiàn)、查詢、等服務。 分布式的監(jiān)控結(jié)構(gòu)將大量數(shù)據(jù)采集的工作分散到每個監(jiān)控子系統(tǒng)中,從而極大的減少了監(jiān)控中心服務器的壓力,減少了網(wǎng)絡的負載,但是也可能帶來一定的系統(tǒng)延遲。Zabbix性能優(yōu)化:性能指標的采集方式根據(jù)不同指標類型進行指標分組,如CPU組、內(nèi)存組、文件系統(tǒng)組、進程組等,每個性能組又對應若干個性能,根據(jù)不同用戶對于不同指標關(guān)注度不同,指標采集力度也不同,如CPU內(nèi)存等實時度要求比較高的,需要1分鐘采集一次,而對應存儲的硬盤檢測可能趨勢變化不大,所以采集力度可能比較大一周或者一月。而隨著設備量的增加,虛機的擴張變快,zabbix服務器的優(yōu)化不得不加入考慮,Zabbix雖然采用分布式結(jié)構(gòu),但是指標計算(按照通用指標統(tǒng)計) : 2500(服務器數(shù)量)*15(指標數(shù)量)*3600(一天) = 135000000Zabbix server的性能同過查看指標,每秒處理數(shù)和等待隊列長度Zabbix數(shù)據(jù)庫調(diào)優(yōu):使用innodb,為每一張數(shù)據(jù)庫表使用一個文件 ,修改my.cf innodb_file_per_table = 1;使用分區(qū)表關(guān)閉houerkeeper,zabb
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 物聯(lián)網(wǎng)技術(shù)在職教實訓室的應用前景
- 現(xiàn)代物流配送體系的智能化升級路徑
- 2024年學年八年級語文上冊 第一單元 愛在人間 第3課《蘆花蕩》說課稿 滬教版五四制
- 2024年四年級英語下冊 Unit 5 What will you do this weekend Lesson 25說課稿 人教精通版(三起)
- Unit 1 Greetings(說課稿)-2024-2025學年滬教版(五四制)(2024)英語一年級上冊
- 2023二年級數(shù)學下冊 7 萬以內(nèi)數(shù)的認識第2課時 1000以內(nèi)數(shù)的認識(2)說課稿 新人教版
- Unit 3 Food Let's Spell(說課稿)-2024-2025學年人教新起點版英語三年級上冊
- 2024-2025學年高一地理《宇宙中的地球》說課稿
- 2023六年級數(shù)學上冊 八 探索樂園單元概述和課時安排說課稿 冀教版
- 2024-2025學年高中歷史 專題4 雅爾塔體制下的冷戰(zhàn)與和平 3 人類對和平的追求說課稿(含解析)人民版選修3
- WORD2010第三講:文檔的格式化
- GB/T 17387-1998潛油電泵裝置的操作、維護和故障檢查
- GA/T 1133-2014基于視頻圖像的車輛行駛速度技術(shù)鑒定
- GB∕T 41461-2022 自助銀行網(wǎng)點服務要求
- 學校委托管理協(xié)議書范本
- 重醫(yī)大《護理學導論》期末試卷(兩套)及答案
- 部編新教材人教版七年級上冊歷史重要知識點歸納
- 重點時段及節(jié)假日前安全檢查表
- 建筑樁基技術(shù)規(guī)范2018年
- 物理調(diào)查問卷
- 《傻子上學》臺詞
評論
0/150
提交評論