




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
PAGE29-運行維護管理體系和制度標(biāo)準(zhǔn)目錄1、總那么 32、編制方法 33、運維工作職責(zé) 34、運維效勞管理體系 54.1運維效勞管理對象 64.2運維系統(tǒng)功能框架 64.3運維管理組織結(jié)構(gòu) 74.3.1工程負(fù)責(zé)人 84.3.2工程經(jīng)理 84.3.3技術(shù)主管 94.3.4效勞臺 94.3.5網(wǎng)絡(luò)管理員 104.3.5應(yīng)用、數(shù)據(jù)庫管理員 104.3.7終端管理員 114.4運維效勞流程 114.4.1工程運維效勞工作流程圖 124.4.2效勞臺 123.4.3事件管理 134.4.4工單管理 134.4.5問題管理 144.4.6變更管理 144.4.7配置管理 144.4.8知識庫管理 154.4.9統(tǒng)計及工作報告 155、運維效勞內(nèi)容 155.1效勞目標(biāo) 155.2 資產(chǎn)統(tǒng)計效勞 165.3網(wǎng)絡(luò)、平安系統(tǒng)運維效勞 165.4主機、存儲系統(tǒng)運維效勞 175.5數(shù)據(jù)庫系統(tǒng)運維效勞 185.6中間件運維效勞 195.7終端、外設(shè)運維效勞 196、應(yīng)急效勞響應(yīng)措施 196.1應(yīng)急預(yù)案實施根本流程 206.2突發(fā)事件應(yīng)急策略 207、效勞管理制度標(biāo)準(zhǔn) 217.1效勞時間 217.2行為標(biāo)準(zhǔn) 221、總那么為保障實驗室系統(tǒng)軟硬件設(shè)備的良好運行,使員工的運維工作制度化、流程化、標(biāo)準(zhǔn)化,特制訂本制度。運維工作總體目標(biāo):立足根本促開展,開拓運維新局面。在企業(yè)開展壯大時期,通過網(wǎng)絡(luò)、桌面、系統(tǒng)等的運維,促進企業(yè)穩(wěn)定可持續(xù)性開展。運維管理制度的適用范圍:運維人員。2、編制方法本實施細(xì)那么包括運維效勞全生命周期管理方法、管理標(biāo)準(zhǔn)/標(biāo)準(zhǔn)、管理模式、管理支撐工具、管理對象以及基于流程的管理方法。本實施細(xì)那么以ITIL/ISO20000為根底,以信息化工程的運維為目標(biāo),以管理支撐工具為手段,以流程化、標(biāo)準(zhǔn)化、標(biāo)準(zhǔn)化管理為方法,以全生命周期的PDCA循環(huán)為提升途徑,表達了對運維效勞全過程的體系化管理。3、運維部工作職責(zé)一、負(fù)責(zé)網(wǎng)站運維和技術(shù)支持〔一〕根據(jù)網(wǎng)站運營戰(zhàn)略和目標(biāo),負(fù)責(zé)網(wǎng)站整體架構(gòu)、欄目、應(yīng)用系統(tǒng)等技術(shù)開發(fā)方案制定和組織開發(fā),保障網(wǎng)站技術(shù)的穩(wěn)定性和先進性?!捕池?fù)責(zé)網(wǎng)站欄目和應(yīng)用系統(tǒng)的使用培訓(xùn)和操作使用指南編寫,對用戶使用過程中出現(xiàn)問題的溝通和解決?!踩尘W(wǎng)站設(shè)備和軟件購置方案書的擬定,包括采購數(shù)量、品牌規(guī)格、技術(shù)參數(shù)。會同行政部進行采購?!菜摹尘W(wǎng)站設(shè)備和軟件操作規(guī)程和應(yīng)用管理制度的制定,并負(fù)責(zé)監(jiān)督執(zhí)行?!参濉尘W(wǎng)站設(shè)備和軟件安裝、調(diào)試和驗收,使用培訓(xùn)和維修保養(yǎng)?!擦尘W(wǎng)站日常運行過程中信息平安和技術(shù)問題的協(xié)調(diào)解決,保障網(wǎng)站24小時平安穩(wěn)定運行。〔七〕網(wǎng)站技術(shù)效勞外包管理,主要包括技術(shù)外包開發(fā)、運行效勞托管和空間域名管理。〔八〕負(fù)責(zé)網(wǎng)站管理系統(tǒng)及設(shè)備保密口令的設(shè)置和保存,保密口令設(shè)置后報中心主任備案,保密口令設(shè)定后任何人不得隨意更改,保密口令每季度更新一次?!簿拧池?fù)責(zé)網(wǎng)站新程序、新系統(tǒng)和網(wǎng)站改版升級方案技術(shù)的設(shè)計開發(fā)。二、負(fù)責(zé)網(wǎng)站信息和技術(shù)平安〔一〕執(zhí)行國家和省上有關(guān)網(wǎng)絡(luò)信息技術(shù)平安的法律法規(guī),與通信管理和網(wǎng)絡(luò)平安監(jiān)管部門聯(lián)絡(luò),及時處理網(wǎng)站信息技術(shù)平安方面存在的問題,確保網(wǎng)站平安、穩(wěn)定、可靠運行?!捕尘W(wǎng)站信息技術(shù)平安保密制度和工作流程的制定,落實信息技術(shù)平安保密責(zé)任制,執(zhí)行“誰主管、誰負(fù)責(zé),誰主辦、誰負(fù)責(zé)〞的原那么,責(zé)任到人。(三)在效勞器和計算機之間設(shè)置硬件防火墻,在效勞器及工作站上均安裝防病毒軟件,進行硬件和技術(shù)雙保護,確保網(wǎng)站不受病毒和黑客攻擊?!菜摹池?fù)責(zé)網(wǎng)站信息技術(shù)平安應(yīng)急處理預(yù)案制定和實施?!参濉嘲才艑H吮O(jiān)控網(wǎng)站各頻道,各頁面,各版塊,各欄目信息內(nèi)容,建立網(wǎng)站信息技術(shù)平安監(jiān)控值班登記制度,發(fā)現(xiàn)問題及時處理,并登記問題和處理結(jié)果登記;〔六〕建立多機備份網(wǎng)站信息效勞系統(tǒng)機制,一旦主系統(tǒng)遇到故障或受到攻擊導(dǎo)致不能正常運行,可以在最短的時間內(nèi)替換主系統(tǒng)提供效勞?!财摺辰⒕W(wǎng)站系統(tǒng)集中式權(quán)限管理,按照崗位職責(zé)設(shè)定工作人員操作權(quán)限,針對不同應(yīng)用系統(tǒng)、終端、操作人員,設(shè)置共享數(shù)據(jù)庫信息的訪問權(quán)限,并設(shè)置密碼。不同的操作人員設(shè)定不同的用戶名,且定期更換,嚴(yán)禁操作人員泄漏密碼。4、運維效勞管理體系運維效勞管理體系規(guī)定了運維活動涉及的各類實體,以及這些實體間的相互關(guān)系。相關(guān)的實體按照運維效勞管理體系進行有機組織,并協(xié)調(diào)工作,按照效勞協(xié)議要求提供不同級別的IT運維效勞。4.1運維效勞管理對象運維效勞管理對象包括根底設(shè)施、應(yīng)用系統(tǒng)、用戶、研發(fā)部門以及IT運維部門和人員,具體內(nèi)容如下:(1)根底設(shè)施包括網(wǎng)絡(luò)、主機系統(tǒng)、存儲系統(tǒng)、平安系統(tǒng)等。(2)應(yīng)用系統(tǒng)包括uap云管理平臺、cloud門戶、demo、zabbix、機房設(shè)備管理系統(tǒng)、vmware以及yum源等。(3)用戶包括使用如上應(yīng)用系統(tǒng)的用戶。(4)研發(fā)部門包括Iaas平臺研發(fā)部門。(5)運維部門和人員包括內(nèi)部參與運維活動的相關(guān)部門和人員,以及提供運維效勞的企業(yè)和相關(guān)人員。4.2運維系統(tǒng)功能框架根據(jù)建設(shè)單位的系統(tǒng)結(jié)構(gòu)和業(yè)務(wù)開展需要,運維工程組將工程的維護框架分為9個具體組成局部,分別為:效勞臺、事件管理、工單管理、問題管理、變更管理、配置管理、工程師考核、知識庫管理、統(tǒng)計、系統(tǒng)管理等9個子項。而具體運維流程將以此為依據(jù)開展工作。4.3運維管理組織結(jié)構(gòu)本運維工程的運維管理結(jié)構(gòu)位三層模式,具體如以下圖所示。由工程負(fù)責(zé)人與甲方進行業(yè)務(wù)范圍接洽,并將溝通結(jié)果向下傳遞。工程經(jīng)理負(fù)責(zé)工程的整體運維工作,包括各種制度的制定和實施。運維工程師那么在工程經(jīng)理的指導(dǎo)下開展維護工作。4.3.1運維負(fù)責(zé)人職責(zé):負(fù)責(zé)工程商務(wù)、整體協(xié)調(diào)事宜。職位描述:1〕、整體負(fù)責(zé)建設(shè)單位運維工程效勞方案的制定,領(lǐng)導(dǎo)工程經(jīng)理并安排工程工作,指導(dǎo)工程經(jīng)理完成具體維護工作,每周聽取工程經(jīng)理的工作匯報,負(fù)責(zé)考核工程經(jīng)理工作完成情況。2〕、協(xié)助建設(shè)單位完成新增工程的調(diào)研、方案設(shè)計并指導(dǎo)工程經(jīng)理進行具體實施。4.3.2運維主管職責(zé):規(guī)劃、執(zhí)行、完善信息化工程的運維工作,指導(dǎo)網(wǎng)絡(luò)、數(shù)據(jù)庫維護工程師開展工作。職位描述:1、根據(jù)公司戰(zhàn)略目標(biāo),指導(dǎo)下屬工程師開展客戶效勞工作,確保運維工作能夠滿足客戶的實際需要;2、建立和持續(xù)完善運維管理體系,優(yōu)化運維流程流程,解決運維效勞中出現(xiàn)的特殊問題;3、規(guī)劃并提升運維工程師專業(yè)效勞能力,在整體上提高客戶滿意度;4、制定和持續(xù)完善績效考核體系;5、制定整理運維工程的應(yīng)急預(yù)案系統(tǒng),并指導(dǎo)運維工程師實施;6、提高自身專業(yè)技能,在業(yè)務(wù)方面給予網(wǎng)絡(luò)管理員和數(shù)據(jù)庫管理員指導(dǎo)。4.3.3系統(tǒng)管理員職責(zé):操作系統(tǒng)、應(yīng)用、數(shù)據(jù)庫管理,oracle性能調(diào)優(yōu),實現(xiàn)應(yīng)用負(fù)載均衡。職位描述:技術(shù)主管非工程常駐人員,根據(jù)工程需要進行專業(yè)方面指導(dǎo);負(fù)責(zé)數(shù)據(jù)庫性能分析與調(diào)優(yōu),數(shù)據(jù)庫運行狀態(tài)監(jiān)控,及時發(fā)現(xiàn)異常并快速處理。熟練掌握Oracle10G的RAC技術(shù),能夠?qū)崿F(xiàn)部署及調(diào)優(yōu)。掌握WAS、Weblogic、Tomcat、websphere等中間件的工作原理,能夠?qū)崿F(xiàn)部署調(diào)優(yōu)及故障解決。熟練掌握red-flag、redhat等linux操作系統(tǒng),部署oracle10g、mysql數(shù)據(jù)庫。熟練掌握dataguard技術(shù),保證oracle數(shù)據(jù)庫冗災(zāi)、數(shù)據(jù)保護、故障恢復(fù)。負(fù)責(zé)應(yīng)用負(fù)載均衡的部署和調(diào)試。負(fù)責(zé)指導(dǎo)數(shù)據(jù)庫工程師管理員開展工作。4.3.4網(wǎng)絡(luò)管理員職責(zé):維護建設(shè)單位網(wǎng)絡(luò)系統(tǒng)正常,解決網(wǎng)絡(luò)相關(guān)故障。職位描述:1、對現(xiàn)有效勞器、局域網(wǎng)絡(luò)及機房、配線間的日常管理維護;2、對信息平安建設(shè)提出相關(guān)建議,確保網(wǎng)絡(luò)的平安;3、保證外網(wǎng)光纖線路正常,保證局域網(wǎng)運行正常;4、對網(wǎng)絡(luò)系統(tǒng)和網(wǎng)絡(luò)設(shè)備的運行狀態(tài)進行監(jiān)控;5、熟練掌握域策略設(shè)置、DHCP、DNS、FTP效勞器、NTFS權(quán)限設(shè)置等;6、編寫網(wǎng)絡(luò)局部的應(yīng)用處理預(yù)案并實施。7、工作認(rèn)真、細(xì)致,積極主動有條理性,具有良好的溝通能力及團隊合作精神.4.3.5應(yīng)用、數(shù)據(jù)庫管理員職責(zé):維護建設(shè)單位業(yè)務(wù)系統(tǒng)運行正常,解決應(yīng)用和數(shù)據(jù)庫故障。職位描述:1、監(jiān)測業(yè)務(wù)系統(tǒng)運行狀況,應(yīng)用、數(shù)據(jù)庫性能監(jiān)視及優(yōu)化,作必要調(diào)整;2、規(guī)劃不同數(shù)據(jù)的生命周期,制訂備份、恢復(fù)、遷移和災(zāi)備策略,根據(jù)業(yè)務(wù)的需要執(zhí)行數(shù)據(jù)轉(zhuǎn)換及遷移等操作;3、保證應(yīng)用和數(shù)據(jù)庫系統(tǒng)的平安性、完整性和運行效率。4、負(fù)責(zé)數(shù)據(jù)庫平臺的整體架構(gòu)及解決方案的制定和實施;5、工作認(rèn)真、細(xì)致,積極主動有條理性,具有良好的溝通能力及團隊合作精神.4.4運維效勞標(biāo)準(zhǔn)流程IT運維效勞管理流程涉及事件管理、問題管理、配置管理、變更管理、發(fā)布管理、效勞級別管理、財務(wù)管理、能力管理、可用性管理、效勞持續(xù)性管理、知識管理及供應(yīng)商管理等,隨著運維活動的不斷深入和持續(xù)改進,其他流程可能會逐步獨立并標(biāo)準(zhǔn)。4.4.1工程運維效勞工作標(biāo)準(zhǔn)流程圖4.4.2效勞臺〔暫無〕效勞臺是支持運維效勞的核心功能,與各個流程聯(lián)系密切。所有管理流程都要通過效勞臺為用戶提供單點聯(lián)系,解答用戶的相關(guān)問題和需求,或為用戶尋求相應(yīng)的支持人員。在本系統(tǒng)中,效勞臺是接收各種來源效勞請求和相關(guān)信息反響的唯一入口和出口,同時效勞臺還負(fù)責(zé)一般請求、通過知識庫〔歷史事件〕能夠解決的請求;他也是復(fù)雜問題二線處理的橋梁。由于當(dāng)前人員缺乏,效勞臺的工作暫時由運維工程師統(tǒng)一處理。4.4.3事件管理事件管理流程的主要目標(biāo)是盡快恢復(fù)效勞提供并減少其對業(yè)務(wù)的不利影響,盡可能保證最好的效勞質(zhì)量和可用性等級。事件管理流程通常涉及事件的偵測和記錄、事件的分類和支持、事件的調(diào)查和診斷、事件的解決和恢復(fù)以及事件的關(guān)閉。本系統(tǒng)把所有效勞請求和報警歸結(jié)為事件。事件管理是提供效勞臺和事件管理者對于事件記錄、處理、查詢、審核、派發(fā)等功能。它也包括通過和第三方監(jiān)控系統(tǒng)對接,把其發(fā)送報警形成事件的功能。4.4.4工單管理工單管理:工單是現(xiàn)場運維、二線支持的任務(wù)載體,運維工程依據(jù)所接收工單進行運維工作。工單管理是對工單實現(xiàn)創(chuàng)立、變更、查詢?yōu)g覽、派發(fā)、監(jiān)督等功能的模塊。4.4.5問題管理問題管理流程的主要目標(biāo)是預(yù)防問題和事故的再次發(fā)生,并將未能解決的事件的影響降低到最小。問題管理流程包括診斷事件根本原因和確定問題解決方案所需要的活動,通過適宜的控制過程,尤其是變更管理和發(fā)布管理,負(fù)責(zé)確保解決方案的實施。問題管理還將維護有關(guān)問題、應(yīng)急方案和解決方案的信息。問題管理是針對已處理事件的遺留問題或處理事件的方案只是治標(biāo)不治本的不能徹底解決問題而考慮的模塊。根據(jù)事件、及處理方案,問題處理人經(jīng)過調(diào)查、診斷并提出最終解決方法。4.4.6變更管理變更管理實現(xiàn)所有根底設(shè)施和應(yīng)用系統(tǒng)的變更,變更管理應(yīng)記錄并對所有要求的變更進行分類,應(yīng)評估變更請求的風(fēng)險、影響和業(yè)務(wù)收益。其主要目標(biāo)是以對效勞最小的干擾實現(xiàn)有益的變更。變更管理是要對重大資源的新增、變更、升級等運維活動進行審核的功能,以免這些活動對現(xiàn)有資源的可用性造成沒有必要的影響和破壞;同時,他還要實現(xiàn)在工單中產(chǎn)生的變化進行后審計的功能。4.4.7配置管理配置管理流程負(fù)責(zé)核實根底設(shè)施和應(yīng)用系統(tǒng)中實施的變更以及配置項之間的關(guān)系是否已經(jīng)被正確記錄下來;確保配置管理數(shù)據(jù)庫能夠準(zhǔn)確地反映現(xiàn)存配置項的實際版本狀態(tài)。配置管理實際上是全部資源的統(tǒng)一管理的功能,包括資源整個生命周期的參數(shù)或配置的變化記錄的管理。管理信息主要涉及分類、型號、版本、位置,狀態(tài)、相關(guān)資料等根本信息還包括核心參數(shù)等4.4.8知識庫管理運維知識經(jīng)驗的總結(jié)、維護和共享是提高員工運維技能水平、增強單位凝聚力的重要手段,也是把珍貴的經(jīng)驗教訓(xùn)從支持人員頭腦逐步沉淀、固化的重要方式。知識庫管理:知識庫是提供應(yīng)運維人員重要的技術(shù)資料內(nèi)容,他聚集在工作的遇到的典型案例歸納總結(jié)的知識要點和全面實用資料手冊。在本系統(tǒng)中,知識庫管理提供便于使用的人機接口、快速查詢的技術(shù)手段和維護手段。4.4.9統(tǒng)計及工作報告運維管理系統(tǒng)提供一線解決率統(tǒng)計、客戶滿意度統(tǒng)計、按分類的事件匯總統(tǒng)計、工作報告生成的功能,按照一定格式根據(jù)事件數(shù)據(jù)、工單數(shù)據(jù)、問題數(shù)據(jù)、配置數(shù)據(jù)、變更數(shù)據(jù)可以幫助運維管理者能把運維的所做的工作內(nèi)容清晰的羅列出來。5、運維效勞內(nèi)容5.1運維效勞目標(biāo)實驗室運維部門提供的運行維護效勞包括,虛擬機、主機設(shè)備、操作系統(tǒng)、數(shù)據(jù)庫、網(wǎng)絡(luò)平安設(shè)備和存儲設(shè)備的運行維護效勞,保證云管理平臺的正常運行,降低整體管理本錢,提高Iaas平臺的整體效勞水平。同時根據(jù)日常維護的數(shù)據(jù)和記錄,給研發(fā)部門提供Iaas平臺優(yōu)化及改善建議。實驗室運維的組成主要可分為兩類:硬件設(shè)備和軟件系統(tǒng)。硬件設(shè)備包括網(wǎng)絡(luò)設(shè)備、平安設(shè)備、主機設(shè)備、存儲設(shè)備等;軟件設(shè)備可分為云管理平臺、操作系統(tǒng)、典型應(yīng)用軟件〔如:數(shù)據(jù)庫軟件等〕等。效勞工程范圍覆蓋的信息系統(tǒng)資源以下方面的關(guān)鍵狀態(tài)及參數(shù)指標(biāo):運行狀態(tài)、故障情況配置信息可用性情況及健康狀況性能指標(biāo)IT資產(chǎn)統(tǒng)計效勞效勞內(nèi)容包括:硬件設(shè)備型號、數(shù)量、版本等信息統(tǒng)計記錄軟件產(chǎn)品型號、版本和補丁等信息統(tǒng)計記錄網(wǎng)絡(luò)結(jié)構(gòu)、網(wǎng)絡(luò)路由、網(wǎng)絡(luò)IP地址統(tǒng)計記錄綜合布線系統(tǒng)結(jié)構(gòu)圖的繪制其它附屬設(shè)備的統(tǒng)計記錄5.3網(wǎng)絡(luò)、平安系統(tǒng)運維效勞從網(wǎng)絡(luò)的連通性、網(wǎng)絡(luò)的性能、網(wǎng)絡(luò)的監(jiān)控管理三個方面實現(xiàn)對網(wǎng)絡(luò)系統(tǒng)的運維管理,網(wǎng)絡(luò)設(shè)備位于IT架構(gòu)的骨干位置,下面是需要監(jiān)控的指標(biāo),及對應(yīng)健康狀況故障以后可能引起的問題。設(shè)備根底性能檢測:cpu、內(nèi)存使用情況監(jiān)測。當(dāng)cpu、內(nèi)存使用率過高,會導(dǎo)致用戶網(wǎng)絡(luò)訪問質(zhì)量下降,丟包、時延較高等狀況的產(chǎn)生。說明當(dāng)前網(wǎng)絡(luò)設(shè)備負(fù)載較高,需要對下行設(shè)備進行遷移,分流,減輕負(fù)載。設(shè)備日志查看;當(dāng)設(shè)備日志出現(xiàn)異常時,可能是設(shè)備出現(xiàn)異常訪問或者異常配置,可能會導(dǎo)致網(wǎng)絡(luò)中斷。需要檢測防火墻等平安設(shè)備狀態(tài)。設(shè)備snmp、telnet狀態(tài);當(dāng)snmp、telnet都不可達時,一般是設(shè)備脫網(wǎng)情況的產(chǎn)生,會導(dǎo)致網(wǎng)絡(luò)中斷。需要人工查看設(shè)備運行狀態(tài)。測試Ping,tracert等工具的連通性;當(dāng)ping丟包率過高,說明網(wǎng)絡(luò)訪問質(zhì)量有問題,需要tracert查看網(wǎng)絡(luò)路徑是哪一跳對應(yīng)的IP設(shè)備時延較高或者不可達。分析是哪個網(wǎng)關(guān)路由或者策略引起的問題。網(wǎng)絡(luò)平安策略應(yīng)用是否正常;平安策略異常會導(dǎo)致網(wǎng)絡(luò)設(shè)備遭受入侵,會影響整個網(wǎng)絡(luò)的訪問。Internet帶寬流量的實時監(jiān)測;流量所占帶寬比較高,會造成當(dāng)前網(wǎng)絡(luò)設(shè)備對應(yīng)端口網(wǎng)關(guān)的所有網(wǎng)絡(luò)訪問質(zhì)量下降。需要抓包查看是哪些設(shè)備對應(yīng)的訪問流量較高,決定是加大帶寬還是效勞器中毒。網(wǎng)絡(luò)拓?fù)滏溌窢顟B(tài)監(jiān)測;鏈路狀態(tài)異常說明網(wǎng)絡(luò)中某個設(shè)備異常,需要查看鏈路對應(yīng)的網(wǎng)絡(luò)設(shè)備健康狀況,結(jié)合其他指標(biāo)分析問題所在。異常網(wǎng)絡(luò)數(shù)據(jù)包流量、Dos、ddos等網(wǎng)絡(luò)攻擊情況監(jiān)測;存在異常網(wǎng)絡(luò)數(shù)據(jù)流量包等,會導(dǎo)致正常的網(wǎng)絡(luò)質(zhì)量下降,說明網(wǎng)絡(luò)可能受到攻擊,需要結(jié)合netflow和流量狀況查看異常流量的訪問網(wǎng)段,從路由策略或者防火墻限制該網(wǎng)段的訪問光纖光口光功率、光電口誤碼率大小。光功率值不在光模塊的默認(rèn)光功率范圍內(nèi),會導(dǎo)致光口不可用,可能是光模塊出現(xiàn)故障,需要聯(lián)系廠家查看光模塊是否正常5.4主機、存儲系統(tǒng)運維效勞提供的主機、存儲系統(tǒng)的運維效勞包括:主機、存儲設(shè)備的日常監(jiān)控,設(shè)備的運行狀態(tài)監(jiān)控,故障處理,操作系統(tǒng)維護,補丁升級等內(nèi)容。進行監(jiān)控管理的內(nèi)容包括:CPU性能管理;GPU指標(biāo)過高,會導(dǎo)致效勞器程序運行緩慢,出現(xiàn)卡死狀況。需要查看引起GPU過高原因,做虛機遷移等操作,減輕效勞器壓力。內(nèi)存使用情況管理;內(nèi)存使用率過大,會導(dǎo)致效勞器崩潰,需要及時擴充內(nèi)存資源,或者回收不再使用的虛機資源。硬盤利用情況管理;硬盤使用率過高,會導(dǎo)致開始啟動失敗,需要定期清理效勞器臨時文件,或者擴充效勞器硬盤。系統(tǒng)進程管理;效勞器關(guān)鍵進程運行是否正常,異常會導(dǎo)致效勞器崩潰,需要查看進程異常原因。實時監(jiān)控主機電源、風(fēng)扇的使用情況及主機機箱內(nèi)部溫度;電源狀態(tài)異常,可能會導(dǎo)致效勞器斷電,風(fēng)扇異常,主機穩(wěn)定過高會導(dǎo)致效勞器重啟,需要與廠商聯(lián)系,查看硬件是否正常監(jiān)控主機硬盤運行狀態(tài);硬盤讀寫狀態(tài)等標(biāo)識硬盤可用性,需要查看是否硬盤壓力過大,考慮更換存儲類型ssd等監(jiān)控主機網(wǎng)卡等硬件狀態(tài);主機網(wǎng)卡down掉,會影響效勞器的網(wǎng)絡(luò)訪問,硬件異常會影響效勞器正常運行,需要聯(lián)系廠商做硬件檢測。監(jiān)控主機HA運行狀況;災(zāi)備系統(tǒng)運行異常,會導(dǎo)致HA切換異常,需要查看引起HA異常的原因,是軟件問題還是硬件問題,逐步排除原因。5.5數(shù)據(jù)庫系統(tǒng)運維效勞提供的數(shù)據(jù)庫運行維護效勞是包括主動數(shù)據(jù)庫性能管理,數(shù)據(jù)庫的主動性能管理對系統(tǒng)運維非常重要。通過主動式性能管理可了解數(shù)據(jù)庫的日常運行狀態(tài),識別數(shù)據(jù)庫的性能問題發(fā)生在什么地方,有針對性地進行性能優(yōu)化。同時,密切注意數(shù)據(jù)庫系統(tǒng)的變化,主動地預(yù)防可能發(fā)生的問題。進行監(jiān)控管理的內(nèi)容包括:數(shù)據(jù)庫根本信息:文件系統(tǒng)、碎片、死鎖、CPU占用率較大或時間較長的SQL語句。存在上面會導(dǎo)致業(yè)務(wù)訪問緩慢,需要定位那些SQL占用內(nèi)存較大或者死鎖,針對具體情況進行優(yōu)化代碼。表空間使用信息監(jiān)測;表空間占用太大會影響查詢效率,需要優(yōu)化存儲結(jié)構(gòu),將集中存儲換為單表文件,索引根據(jù)實際業(yè)務(wù)進行優(yōu)化,是否需要索引,或者索引刪除重建,或者建立分區(qū)表。數(shù)據(jù)庫文件I/0讀寫情況;數(shù)據(jù)庫I/0反響數(shù)據(jù)庫瓶頸,查看引起I/O較大的原因是業(yè)務(wù)量較大還是效勞器I/O現(xiàn)在,更換存儲類型,必要情況下更換內(nèi)存數(shù)據(jù)庫等。Session連接數(shù)量監(jiān)控;Session長鏈接數(shù)量較大會造成數(shù)據(jù)庫負(fù)載較高,需要考慮將長鏈接更換為短連接。數(shù)據(jù)庫監(jiān)聽運行狀態(tài)監(jiān)測;數(shù)據(jù)庫運行狀態(tài)為down會導(dǎo)致業(yè)務(wù)中斷,查看是業(yè)務(wù)層還是網(wǎng)絡(luò)層引起的問題,如果為網(wǎng)絡(luò)層,需要對網(wǎng)絡(luò)情況排除,如果為業(yè)務(wù)層導(dǎo)致,要進行SQL優(yōu)化。查看每日數(shù)據(jù)備份、數(shù)據(jù)同時是否正常;數(shù)據(jù)庫備份異常,會導(dǎo)致備份數(shù)據(jù)喪失,對于數(shù)據(jù)庫遷移,和數(shù)據(jù)恢復(fù)造成不可恢復(fù)的影響,需要具體查看引起該問題是數(shù)據(jù)庫本身還是效勞器問題,具體問題具體分析解決。對表和索引進行Analyze,檢查表空間碎片;數(shù)據(jù)庫表和索引的占用量太大會影響查詢效率,需要調(diào)整表結(jié)構(gòu)或者索引刪除重建。數(shù)據(jù)庫對象的空間擴展情況監(jiān)測;表空間擴展太快會導(dǎo)致數(shù)據(jù)庫效勞器存儲空間占滿,數(shù)據(jù)庫down掉等異常情況,需要優(yōu)化表結(jié)構(gòu)。5.6云管理平臺運維效勞云管理平臺主要包括管理節(jié)點、計算節(jié)點、存儲節(jié)點的運維。同時,實時監(jiān)控重點虛擬機,保證主要業(yè)務(wù)不中斷。主要內(nèi)容包括:ManagementServer狀態(tài)及性能監(jiān)控〔cpu、內(nèi)存、磁盤、io、mysql數(shù)據(jù)庫、系統(tǒng)及應(yīng)用日志等〕;虛擬化主機agent狀態(tài)監(jiān)控;主存儲及二級存儲使用率監(jiān)控;數(shù)據(jù)中心虛擬資源〔cpu、內(nèi)存、磁盤〕使用量監(jiān)控;單臺計算節(jié)點cpu、內(nèi)存分配及實際使用量監(jiān)控;單臺存儲節(jié)點硬盤分配及實際使用量監(jiān)控;虛擬機模版、網(wǎng)絡(luò)、方案策略制定;系統(tǒng)虛擬機、虛機路由狀態(tài)監(jiān)控;非計費用戶閑置虛擬資源回收;用戶資源審批、賬戶充值及余額管理;虛擬機外網(wǎng)網(wǎng)絡(luò)及端口開通;計算節(jié)點主機及存儲節(jié)點擴容;5.7運維工具監(jiān)控工具實驗室選用開源運維工具Zabbix,Zabbix是一個基于WEB界面的提供分布式系統(tǒng)監(jiān)控以及網(wǎng)絡(luò)監(jiān)控功能的企業(yè)級開源運維平臺,也是目前國內(nèi)互聯(lián)網(wǎng)用戶中使用最廣的監(jiān)控軟件。 Grafana-zabbix展示效果入門容易、上手簡單、功能強大并且開源免費是對Zabbix的最直觀評價。Zabbix易于管理和配置,能生成比較漂亮的數(shù)據(jù)圖,其自動發(fā)現(xiàn)功能大大減輕日常管理的工作量,豐富的數(shù)據(jù)采集方式和API接口可以讓用戶靈巧進行數(shù)據(jù)采集,而分布式系統(tǒng)架構(gòu)可以支持監(jiān)控更多的設(shè)備。理論上,通過Zabbix提供的插件式架構(gòu),可以滿足企業(yè)的任何需求。優(yōu)點:1.支持多平臺的企業(yè)級分布式開源監(jiān)控軟件;2.安裝部署簡單、管理方便;3.功能強大,監(jiān)控靈巧,可實現(xiàn)復(fù)雜多條件告警;4.多種數(shù)據(jù)采集插件,靈巧集成;5.自帶畫圖功能,得到的數(shù)據(jù)可以繪成圖形;6.同時支持調(diào)用腳本,很方便;7.提供多種API接口,定制化最高的監(jiān)控軟件;8.出現(xiàn)問題時可自動遠(yuǎn)程執(zhí)行命令(需對agent設(shè)置執(zhí)行權(quán)限);缺點:1.工程批量修改不方便;2.社區(qū)雖然成熟,但是中文資料相對較少,效勞支持有限;3.入門容易,能實現(xiàn)根底的監(jiān)控,但是深層次需求需要非常熟悉Zabbix并進行大量的二次定制開發(fā),難度較大;4.系統(tǒng)級別報警設(shè)置相比照擬多,如果不篩選的話報警郵件會很多;并且自定義的工程報警需要自己設(shè)置,過程比較繁瑣;5.缺少數(shù)據(jù)匯總功能,如無法查看一組\o"效勞器"效勞器平均值,需進行二次開發(fā);6.數(shù)據(jù)報表需要特殊二次開發(fā)定義;實驗室監(jiān)控體系也有集中式監(jiān)控擴展到分布式監(jiān)控,監(jiān)控系統(tǒng)之間的耦合性逐步降低。在分布式系統(tǒng)中,整個系統(tǒng)有一個監(jiān)控中心效勞器,假設(shè)干個子監(jiān)控效勞器和被監(jiān)控對象組成的,每一個子監(jiān)控效勞器負(fù)責(zé)監(jiān)控屬于它所屬的子系統(tǒng),不同的子系統(tǒng)之間也不完全獨立,他們之間的規(guī)模也不大,產(chǎn)生的數(shù)據(jù)也不是很大。這樣就大大減小中心監(jiān)控效勞器的工作壓力。圖:分布式監(jiān)控架構(gòu)分布式監(jiān)控主要分三個層次,最底層是需要監(jiān)控的節(jié)點,他通過啟動snmp效勞或者主動發(fā)送trapped或者啟動agent進程。收集每個節(jié)點的狀態(tài)信息,并向監(jiān)控子效勞器發(fā)送收集的信息。中間層是proxy效勞器層,它負(fù)責(zé)收集每個節(jié)點發(fā)送給它的監(jiān)控信息,然后向中心的監(jiān)控效勞器發(fā)送搜集到的監(jiān)控信息。最上面一層是中心監(jiān)控效勞器,它主要負(fù)責(zé)收集每個子監(jiān)控效勞器的數(shù)據(jù),然后存入數(shù)據(jù)庫,再通過web效勞器發(fā)送提供展現(xiàn)、查詢、等效勞。分布式的監(jiān)控結(jié)構(gòu)將大量數(shù)據(jù)采集的工作分散到每個監(jiān)控子系統(tǒng)中,從而極大的減少了監(jiān)控中心效勞器的壓力,減少了網(wǎng)絡(luò)的負(fù)載,但是也可能帶來一定的系統(tǒng)延遲。Zabbix性能優(yōu)化:性能指標(biāo)的采集方式根據(jù)不同指標(biāo)類型進行指標(biāo)分組,如CPU組、內(nèi)存組、文件系統(tǒng)組、進程組等,每個性能組又對應(yīng)假設(shè)干個性能,根據(jù)不同用戶對于不同指標(biāo)關(guān)注度不同,指標(biāo)采集力度也不同,如CPU內(nèi)存等實時度要求比較高的,需要1分鐘采集一次,而對應(yīng)存儲的硬盤檢測可能趨勢變化不大,所以采集力度可能比較大一周或者一月。而隨著設(shè)備量的增加,虛機的擴張變快,zabbix效勞器的優(yōu)化不得不參加考慮,Zabbix雖然采用分布式結(jié)構(gòu),但是指標(biāo)計算(按照通用指標(biāo)統(tǒng)計):2500(效勞器數(shù)量)*15(指標(biāo)數(shù)量)*3600(一天)=135000000Zabbixserver的性能同過查看指標(biāo),每秒處理數(shù)和等待隊列長度Zabbix數(shù)據(jù)庫調(diào)優(yōu):使用innodb,為每一張數(shù)據(jù)庫表使用一個文件,修改my.cfinnodb_file_per_table=1;使用分區(qū)表關(guān)閉houerkeeper,zabbix_server.conf參數(shù)DisableHousekeeper=1;使用分區(qū)表,需要建立分區(qū)的相關(guān)表f配置文件相關(guān)樣例如以下圖:6、應(yīng)急效勞響應(yīng)措施運維工程組制定了詳盡的應(yīng)急處理預(yù)案,整個流程嚴(yán)謹(jǐn)而有序。但在效勞維護過程中,意外情況將難以完全防止。我們將對工程實施的突發(fā)風(fēng)險進行詳細(xì)分析,并且針對各類突發(fā)事件,設(shè)計了相應(yīng)的預(yù)防與解決
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年甘肅交通職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫完美版
- 2025年度學(xué)生安全教育與心理健康維護合同
- 2025年度勞動合同解除補償協(xié)議及員工福利待遇保障書
- 2025年度保險公司與國有企業(yè)單位全面合作協(xié)議
- 2025年度房屋租賃合同訂金及配套設(shè)施使用協(xié)議
- 2025年度摩托車進出口代理業(yè)務(wù)合同
- 2025年度公司股東內(nèi)部關(guān)于股權(quán)結(jié)構(gòu)優(yōu)化與分配的協(xié)議書
- 2025年度委托招聘合同-行業(yè)領(lǐng)軍人才合作項目
- 2025年度員工向公司借款合同變更通知合同
- 2025年度工程車輛司機勞務(wù)派遣合同
- 2024年1月浙江高考英語聽力考試試題真題完整版答案詳解+MP3文本
- 《SolidWorks建模實例教程》第5章 裝配建模及實例
- 口腔科護理教學(xué)查房
- 《趙匡胤:北宋的開國皇帝》
- 二年級 書法 開學(xué)第一課課
- 精神科病人跌倒的預(yù)防與處理
- 蒸壓加氣混凝土砌塊干燥收縮檢測記錄11969-2020
- 2023-2024學(xué)年第二學(xué)期人教版英語五年級教學(xué)計劃(含進度表)
- 小學(xué)教師師德師風(fēng)培訓(xùn)內(nèi)容(4篇)
- (完整word版)勞動合同書(電子版)正規(guī)范本(通用版)
- DB1522-T 1-2023 農(nóng)用天氣預(yù)報 水稻適宜度
評論
0/150
提交評論