數(shù)據(jù)中心運維管理方案_第1頁
數(shù)據(jù)中心運維管理方案_第2頁
數(shù)據(jù)中心運維管理方案_第3頁
數(shù)據(jù)中心運維管理方案_第4頁
數(shù)據(jù)中心運維管理方案_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)中心運維管理方案目錄TOC\o"1-5"\h\z\o"CurrentDocument"第一章某數(shù)據(jù)中心基礎(chǔ)運維概述 1\o"CurrentDocument"第二章數(shù)據(jù)中心運維分類 2\o"CurrentDocument"基礎(chǔ)環(huán)境運維管理 2\o"CurrentDocument"網(wǎng)絡(luò)運維管理 3\o"CurrentDocument"服務(wù)器和存儲運維管理 4\o"CurrentDocument"服務(wù)器運行情況及性能監(jiān)測 4\o"CurrentDocument"服務(wù)器軟硬件兼容性檢查 5\o"CurrentDocument"磁盤陣列設(shè)備管理 5\o"CurrentDocument"機柜、電源、網(wǎng)線布局管理 6\o"CurrentDocument"協(xié)助第三方維護 6\o"CurrentDocument"基礎(chǔ)軟件運維管理 6\o"CurrentDocument"操作系統(tǒng) 6\o"CurrentDocument"數(shù)據(jù)庫 7\o"CurrentDocument"中間件 9\o"CurrentDocument"備份系統(tǒng) 9\o"CurrentDocument"應(yīng)用系統(tǒng) 9第三章運維工作內(nèi)容 10日常維護工作 10\o"CurrentDocument"系統(tǒng)性能監(jiān)控管理 10\o"CurrentDocument"系統(tǒng)維護管理 10\o"CurrentDocument"系統(tǒng)配置與支持維護 13\o"CurrentDocument"系統(tǒng)容量管理 13\o"CurrentDocument"巡檢工作 14\o"CurrentDocument"定期服務(wù)報告 16\o"CurrentDocument"設(shè)備配置檔案 16\o"CurrentDocument"服務(wù)文檔 16\o"CurrentDocument"服務(wù)總結(jié) 17\o"CurrentDocument"運行維護優(yōu)化評估 17\o"CurrentDocument"應(yīng)急保障措施和組織 19\o"CurrentDocument"應(yīng)急響應(yīng)系統(tǒng) 19\o"CurrentDocument"應(yīng)急響應(yīng)過程 19\o"CurrentDocument"制定應(yīng)急保障預(yù)案及演練 20IT運維服務(wù)工具 21\o"CurrentDocument"運維監(jiān)控平臺 21第一章某數(shù)據(jù)中心基礎(chǔ)運維概述某數(shù)據(jù)中心的基礎(chǔ)運維工作主要包含包括四個部分:基礎(chǔ)環(huán)境、網(wǎng)絡(luò)、服務(wù)器存儲和基礎(chǔ)軟件。其中第一部分機房基礎(chǔ)環(huán)境部分,包含機柜位置、空調(diào)、消防、安防、弱電、UPS等最基礎(chǔ)的機房環(huán)境設(shè)施。需要對這些基礎(chǔ)環(huán)境部分進行運維維護,確保整個機房環(huán)境正常穩(wěn)定。第二部分為網(wǎng)絡(luò)環(huán)境,包括當(dāng)前數(shù)據(jù)中心所有的交換機、路由器等設(shè)備,以及由這些設(shè)備組成的所有網(wǎng)絡(luò),需要監(jiān)控網(wǎng)絡(luò)運行情況并提出網(wǎng)絡(luò)風(fēng)險評估,定期對網(wǎng)絡(luò)進行優(yōu)化配置,提高網(wǎng)絡(luò)運行效率,保證整個網(wǎng)絡(luò)環(huán)境的安全。第三部分服務(wù)器和存儲部分,包含整個數(shù)據(jù)中心的小型機、服務(wù)器、存儲設(shè)備、SAN交換機等設(shè)備。這些設(shè)備支撐著整個業(yè)務(wù)系統(tǒng),是非常重要的基礎(chǔ)硬件環(huán)境。需要監(jiān)控這些設(shè)備的運行情況,及時處理出現(xiàn)的問題和變更,并基于整個環(huán)境提供優(yōu)化。第四部分為基礎(chǔ)軟件部分,包括各種操作系統(tǒng)、數(shù)據(jù)庫、中間件、備份軟件等等。要求這些軟件可以正常工作,并優(yōu)化配置,為平臺和工作站正常服務(wù),當(dāng)這些軟件出現(xiàn)問題時,能發(fā)現(xiàn)并提出解決方案;可以協(xié)助應(yīng)用人員解決故障或進行對應(yīng)的變更、升級等操作。本方案將基于這幾個方面進行設(shè)計,確保數(shù)據(jù)中心正常、高效運行。第二章數(shù)據(jù)中心運維分類某數(shù)據(jù)中心運維團隊將根據(jù)當(dāng)前數(shù)據(jù)中心的實際情況和對應(yīng)的管理制度,通過主動性、預(yù)防性維護,執(zhí)行日常維護作業(yè)計劃,對告警、性能、運行狀態(tài)進行檢查分析,及時進行數(shù)據(jù)備份,并定期對備份數(shù)據(jù)進行恢復(fù)性測試驗證,對系統(tǒng)運行質(zhì)量進行分析,并進行維護記錄。對監(jiān)控或維護中發(fā)現(xiàn)的問題及時處理,消除隱患,保障平臺的穩(wěn)定運行。我們將基于以下幾個方面對運維工作進行描述2.1基礎(chǔ)環(huán)境運維管理針對基本的機房環(huán)境設(shè)施,我們的工作內(nèi)容包含以下這些內(nèi)容:1)機房機柜擺放規(guī)劃和機柜管理;2)服務(wù)器和網(wǎng)絡(luò)設(shè)備擺放規(guī)劃和日常管理;3)設(shè)備出入機房審批登記管理;4)內(nèi)部人員出入機房審批登記管理;5)外部來賓機房參觀審批登記管理;6)機房電力系統(tǒng)監(jiān)控、問題及時上報;7)消防監(jiān)控系統(tǒng)監(jiān)控、接收報警短信和聯(lián)系第三方;8)空調(diào)報警系統(tǒng)監(jiān)控、接收報警短信和聯(lián)系第三方;確認空調(diào)運行狀態(tài)良好。清潔機房的空調(diào)防塵網(wǎng)。9)溫濕度報警監(jiān)控、接受報警短信和聯(lián)系專業(yè)第三方;10)漏水報警系統(tǒng)監(jiān)控、接受報警短信和聯(lián)系專業(yè)第三方;11)IC卡門禁系統(tǒng)日常運維;12)視頻監(jiān)控系統(tǒng)日常運維;UPS報警系統(tǒng)監(jiān)控和聯(lián)系第三方;14)機房資產(chǎn)管理系統(tǒng)(CMDB)。15)機房環(huán)境。清理機房的雜物,將機房物品定置。清潔機房門窗、地面。定期清潔電池室的地面;檢查機房所有與外界的空洞是否已嚴密封堵,嚴密防鼠;檢查機房玻璃、地板、天花板、通氣口,墻體表面是否正常,外觀是否完好,有否出現(xiàn)老化現(xiàn)象。檢查機房是否有漏水現(xiàn)象。檢查機房墻壁是否有滲水現(xiàn)象。填寫巡檢記錄,有問題及時報告。16)巡視電池間;檢查電池工作狀態(tài)。17)確認機房照明良好,出現(xiàn)問題及時報告。18)視頻網(wǎng)絡(luò)播放系統(tǒng)。定期檢查可用性,有問題及時與專業(yè)第三方公司聯(lián)系解決。19)填寫巡檢記錄。網(wǎng)絡(luò)運維管理針對數(shù)據(jù)中心的網(wǎng)絡(luò)部分,運維內(nèi)容主要包含以下內(nèi)容:1)測試網(wǎng)絡(luò)接入速度,監(jiān)控網(wǎng)絡(luò)訪問可用性和訪問質(zhì)量,出現(xiàn)問題第一時間直接聯(lián)系接入商解決。2)網(wǎng)絡(luò)接入商變化時,配合網(wǎng)絡(luò)接入商對網(wǎng)絡(luò)變更方案的可行性審查、問題審查。配合網(wǎng)絡(luò)接入商更替施工。3)局域網(wǎng)。本地局域網(wǎng)日常管理和維護;VLAN劃分;網(wǎng)絡(luò)性能優(yōu)化;故障排除;網(wǎng)絡(luò)節(jié)點周期性檢查,發(fā)現(xiàn)潛在問題,并解決。4)無線局域網(wǎng)。負責(zé)無線局域網(wǎng)的日常管理和維護;客戶端不能正常接入網(wǎng)絡(luò)的故障排除;網(wǎng)絡(luò)性能優(yōu)化;故障排除;網(wǎng)絡(luò)節(jié)點周期性檢查,發(fā)現(xiàn)潛在問題并解決。5)遠程接入。制定VPN使用策略,實施VPN用戶日常遠程接入服務(wù)器的管理,以及性能優(yōu)化和故障排除等。6)網(wǎng)絡(luò)病毒查殺和網(wǎng)絡(luò)安全保護。7)根據(jù)實際項目或安排而產(chǎn)生的其他工作。服務(wù)器和存儲運維管理服務(wù)器運行情況及性能監(jiān)測數(shù)據(jù)中心運維團隊將通過綜合監(jiān)控系統(tǒng)實施7*24小時平臺設(shè)備監(jiān)控,發(fā)現(xiàn)告警,并進行處理,解決問題。對系統(tǒng)運行進行實時檢查。對監(jiān)控或維護中發(fā)現(xiàn)的問題及時處理,消除隱患,保障平臺的穩(wěn)定運行。并且還提供針對各服務(wù)器物理資源的使用情況和操作系統(tǒng)的運行情況、進行實時監(jiān)控,提供服務(wù)器安全監(jiān)測報告。主機性能監(jiān)控的檢查列表包括:CPU利用率內(nèi)存使用情況交換區(qū)使用情況磁盤I/O情況關(guān)鍵文件系統(tǒng)的狀態(tài)重要進程的運行情況(例程數(shù)量、消耗CPU、占用內(nèi)存)操作系統(tǒng)的各類日志文件網(wǎng)絡(luò)、端口信息運維團隊需根據(jù)檢查列表進行日常檢查,并不斷地改進日常檢查列表,以滿足對系統(tǒng)監(jiān)控的需要。服務(wù)器軟硬件兼容性檢查數(shù)據(jù)中心運維團隊在維護系統(tǒng)穩(wěn)定運行的同時,需主動收集系統(tǒng)關(guān)鍵補丁、軟件補丁、硬件微碼等信息,在通過數(shù)據(jù)中心專家評審的前提下,對相關(guān)設(shè)備進行升級服務(wù),并在升級完成后配合應(yīng)用方對系統(tǒng)進行測試。升級前后需要和應(yīng)用方及時做好溝通確認工作,確保不會產(chǎn)生兼容性導(dǎo)致的故障。磁盤陣列設(shè)備管理運維團隊需要對磁盤陣列設(shè)備及其相關(guān)的部件(如硬盤、控制器等)進行編號,并記錄在案,對軟件設(shè)置中的參數(shù)也要進行詳細的記錄,并在每次變更后及時更新相關(guān)的信息。除此之外,運維團隊定期(暫定每半年)對于每個服務(wù)器的系統(tǒng)容量監(jiān)測的審核,并制定相應(yīng)的容量規(guī)劃,主要監(jiān)測文件系統(tǒng)的空間、數(shù)據(jù)庫的空間資源利用情況,分析資源利用趨勢,并提供資源情況報表。文件系統(tǒng)空間管理定期檢查文件系統(tǒng)的空間使用情況,根據(jù)業(yè)務(wù)發(fā)展需求和新業(yè)務(wù)的增加,制定合理的空間分配方案,新增、修改或刪除空間。對文件系統(tǒng)空間的使用進行監(jiān)控,發(fā)現(xiàn)空間使用不合理或需要清理的協(xié)調(diào)解決。數(shù)據(jù)庫空間管理應(yīng)實時監(jiān)測數(shù)據(jù)存儲空間的使用情況,根據(jù)業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)量、數(shù)據(jù)結(jié)構(gòu)以及增長速度,制定合適的數(shù)據(jù)存儲和結(jié)構(gòu)優(yōu)化策略,動態(tài)增加新的空間以存放業(yè)務(wù)數(shù)據(jù);定期檢查數(shù)據(jù)存儲空間的使用情況,根據(jù)實際情況規(guī)劃增加新的空間,填寫數(shù)據(jù)庫空間新增/修改/刪除申請表,經(jīng)審核后實施,并更新數(shù)據(jù)庫配置狀況記錄表。機柜、電源、網(wǎng)線布局管理運維團隊對于新上架安裝的設(shè)備,需要進行拍照留檔,確認各線路位置,并對服務(wù)器的電源部分進行編號整理,最終登記在冊。協(xié)助第三方維護對于由專業(yè)第三方提供運維的設(shè)備,設(shè)備出現(xiàn)問題后運維團隊需及時通知第三方并告知采購人,視情況嚴重性,決定是否啟動應(yīng)急預(yù)案;配合第三方服務(wù)商一起排查和解決問題,實施為了解決故障而進行的系統(tǒng)軟硬件的補丁、升級及維護工作。獨立處理初級系統(tǒng)故障,與第三方廠商或服務(wù)商配合解決高級別系統(tǒng)故障。記錄問題、故障的解決辦法及解決過程。做出臨時的配置變更以排除故障,在必要的時候,提出永久性配置變更建議?;A(chǔ)軟件運維管理操作系統(tǒng)運維團隊充分保障服務(wù)器操作系統(tǒng)的穩(wěn)定運行,將提供以下服務(wù)內(nèi)容:1)系統(tǒng)升級運維團隊在維護系統(tǒng)穩(wěn)定運行的同時,需主動收集系統(tǒng)關(guān)鍵補丁、軟件補丁等信息,在通過數(shù)據(jù)中心專家評審的前提下,對相關(guān)系統(tǒng)進行升級服務(wù),并在升級完成后配合應(yīng)用方對系統(tǒng)進行測試。升級前后需要和應(yīng)用方及時做好溝通確認工作,確保不會產(chǎn)生兼容性導(dǎo)致的故障。2)操作系統(tǒng)穩(wěn)定性監(jiān)控定時查看操作系統(tǒng)日志及IIS日志,查看CPU、內(nèi)存占用率,排除故障。3)權(quán)限與文件管理服務(wù)器應(yīng)明確責(zé)任人及管理帳號持有人,不應(yīng)出現(xiàn)多人單帳戶,單人多帳戶的情況,不利于在服務(wù)器出現(xiàn)問題后,對服務(wù)器進行操作維護、查找問題。4)定期檢查磁盤空間進行磁盤文件排列的優(yōu)化和錯誤掃描,并處理錯誤;安全地刪除系統(tǒng)各路徑下存放的臨時文件、無用文件、備份文件等等,完全釋放磁盤空間。5)維護系統(tǒng)注冊表。6)系統(tǒng)配置。優(yōu)化系統(tǒng)配置,關(guān)閉無用服務(wù)和端口,以最適合系統(tǒng)運行方式,最小劃安裝等。維護系統(tǒng)配置文檔。7)負責(zé)系統(tǒng)用戶管理,如增加、刪除用戶、重置用戶密碼、管理用戶權(quán)限等。進行系統(tǒng)用戶管理時,記錄所有相關(guān)的系統(tǒng)變更。8)對于新安裝的服務(wù)器,運維團隊應(yīng)負責(zé)安裝必要的應(yīng)用軟件:如遠程監(jiān)控工具、備份工具、防病毒軟件等。數(shù)據(jù)庫運維團隊將對數(shù)據(jù)進行日常維護,在數(shù)據(jù)庫性能監(jiān)控的檢查列表包括:資源使用情況運行情況數(shù)據(jù)庫進程狀態(tài)數(shù)據(jù)庫連接狀態(tài)數(shù)據(jù)庫進程使用資源數(shù)據(jù)庫的表空間(數(shù)據(jù)表空間、索引空間、臨時表空間等等)使用情況;數(shù)據(jù)庫日志空間回滾段使用情況數(shù)據(jù)庫鎖的數(shù)量死鎖的發(fā)生、死鎖資源數(shù)據(jù)庫碎片的數(shù)量磁盤I/O數(shù)據(jù)庫運行日志數(shù)據(jù)庫用戶登錄情況監(jiān)控結(jié)果應(yīng)做登記管理,如實記錄系統(tǒng)日常運行狀況及異常情況,填寫日常運行情況記錄表;除此之外,數(shù)據(jù)庫的運維工作還包含一些其他工作,如:1)數(shù)據(jù)庫備份和恢復(fù)2)做好備份計劃,工程師定時完成,因備份占用內(nèi)存較大,在訪問量大的情況下進行。當(dāng)出現(xiàn)數(shù)據(jù)問題時,向采購人管理部門通報,說明數(shù)據(jù)情況,后恢復(fù)。3)訪問性能優(yōu)化及數(shù)據(jù)庫同步4)服務(wù)器管理人員需記錄詳細的設(shè)置;數(shù)據(jù)庫如需要同步,應(yīng)明確同步時間或?qū)崟r同步等方式。5)數(shù)據(jù)庫日志和表空間,定期進行整理,問題解決。中間件運維團隊針對中間件的運維工作,內(nèi)容如下:OracleWeblogic,輔助開發(fā)公司進行配置,保留配置文檔。模塊配置與更新,配合第三方配置.java及wls的版本及更新工作。操作系統(tǒng)模塊配置與更新,配合第三方配置操作系統(tǒng)到可用的版本及更新。配合反饋第三方解決服務(wù)錯誤日志中的問題。2)新軟件安裝,收集安裝光盤、安裝合同(可復(fù)印學(xué)習(xí))使用說明書、授權(quán)書(Liscense)。紙質(zhì)版文件掃描后入庫,電子版文件進入配置庫。備份系統(tǒng)為保證在系統(tǒng)崩潰或停止運行時能盡快恢復(fù)系統(tǒng),將制定相關(guān)的數(shù)據(jù)備份制度。應(yīng)針對不同系統(tǒng)制定備份方案,應(yīng)包括備份方法、頻率等。數(shù)據(jù)備份包括定期和不定期備份。重要數(shù)據(jù)應(yīng)每月進行全備份和增量備份;不定期備份應(yīng)該在數(shù)據(jù)變更后立即進行,更新前的備份按需要保存一定時間。應(yīng)用系統(tǒng)當(dāng)前的應(yīng)用系統(tǒng)及相關(guān)的開發(fā)工作由第三方公司負責(zé),運維團隊主要起配合作用,相關(guān)的工作內(nèi)容如下:1)當(dāng)應(yīng)用出現(xiàn)問題,及時聯(lián)系第三方解決,并做問題記錄。2)配合第三方進行操作系統(tǒng)、數(shù)據(jù)庫和中間件的系統(tǒng)配置,并做配置記錄,在有授權(quán)運維的系統(tǒng)中,熟悉應(yīng)用系統(tǒng)維護方法。3)配合第三方新應(yīng)用系統(tǒng)上線,需收集安裝文件,源代碼,部署文檔、運維文檔。掃描后,入配置庫。與合同庫相關(guān)聯(lián),記錄維護期間聯(lián)系人,原公司質(zhì)保期。4)每日上班后、下班前檢查可用性,確認無災(zāi)難性問題、黑客篡改問題。5)其他待完成工作,根據(jù)實際情況來處理。第三章運維工作內(nèi)容日常維護工作運維團隊的值班安排分三班,保持7x24小時的人員安排,在任何時間數(shù)據(jù)中心都由值班人員。運維團隊根據(jù)數(shù)據(jù)中心的運維管理制度,通過主動性、預(yù)防性維護,執(zhí)行日常維護作業(yè)計劃,對告警、性能、運行狀態(tài)進行檢查分析,及時進行數(shù)據(jù)備份,并定期對備份數(shù)據(jù)進行恢復(fù)性測試驗證,對系統(tǒng)運行質(zhì)量進行分析,并進行維護記錄。對監(jiān)控或維護中發(fā)現(xiàn)的問題及時處理,消除隱患,保障平臺的穩(wěn)定運行。系統(tǒng)性能監(jiān)控管理運維團隊通過綜合監(jiān)控系統(tǒng)等實施7*24a小時平臺設(shè)備監(jiān)控,發(fā)現(xiàn)告警,并進行處理,解決問題。使用綜合監(jiān)控系統(tǒng)對系統(tǒng)運行進行實時檢查。對監(jiān)控或維護中發(fā)現(xiàn)的問題及時處理,消除隱患,保障平臺的穩(wěn)定運行。系統(tǒng)維護管理故障處理運維團隊負責(zé)故障發(fā)現(xiàn)、故障分析、故障處理工作,在規(guī)定時間內(nèi),處理完成故障,同時負責(zé)調(diào)查故障原因,最后編寫詳細的《故障報告》,包括故障發(fā)生的起止時間、原因、現(xiàn)象、處理過程、處理結(jié)果和處理經(jīng)驗。如果故障設(shè)備或組件為第三方維保,值班工程師負責(zé)和第三方對接,迅速解決問題。軟件和補丁維護操作系統(tǒng)級別的軟件和補丁服務(wù)o運維團隊對于維保設(shè)備提供所有軟件補丁,提供預(yù)警服務(wù),對于軟件的維護版本提供補丁,并按穩(wěn)定性和安全性的要求,提供是否升級的建議,評估風(fēng)險和制作實施方案。o故障經(jīng)工程師的分析表明它是由一個軟件錯誤所引起的,那么運維團隊需提供相應(yīng)的軟件版本和補丁。o對于軟件版本和補丁的安裝,運維團隊首先將確認是否可以在對應(yīng)平臺上進行裝載。若確認可實施,運維團隊則將提供補丁升級服務(wù),升級前要配合相關(guān)應(yīng)用方做好測試。應(yīng)急預(yù)案及演練為加強風(fēng)險管理意識,提高應(yīng)急預(yù)案相關(guān)人員的應(yīng)急處置能力,及時發(fā)現(xiàn)應(yīng)急預(yù)案可能存在的問題,確保在緊急情況下,應(yīng)急預(yù)案能夠真正發(fā)揮作用,需要通過周期性的演習(xí)演練來不斷檢驗應(yīng)急體系應(yīng)急預(yù)案的可靠性、有效性和可操作性。應(yīng)急預(yù)案的演習(xí)演練方式、演習(xí)演練頻度等內(nèi)容明確如下:1、演練分為桌面演練和實戰(zhàn)演練兩種方式,每次演練都應(yīng)該有相關(guān)技術(shù)人員全程參與。2、定期桌面演練,定期實戰(zhàn)演練;3、每次演練結(jié)束之后應(yīng)進行分析和總結(jié),及時完成應(yīng)急預(yù)案的更新、優(yōu)化和完善。協(xié)助第三方維護在服務(wù)期內(nèi),運維團隊將配合第三方或服務(wù)商進行系統(tǒng)的升級、替換、新部件(模塊)安裝等,并在實施完成后確認工作正常。備份為保證在系統(tǒng)崩潰或停止運行時能盡快恢復(fù)系統(tǒng),將制定相關(guān)的數(shù)據(jù)備份制度。應(yīng)針對不同系統(tǒng)制定備份方案,應(yīng)包括備份方法、頻率等。數(shù)據(jù)備份包括定期和不定期備份。重要數(shù)據(jù)應(yīng)每月進行全備份和增量備份;不定期備份應(yīng)該在數(shù)據(jù)變更后立即進行,更新前的備份按需要保存一定時間。系統(tǒng)優(yōu)化對于巡檢或日常維護過程中發(fā)現(xiàn)的系統(tǒng)隱患或系統(tǒng)不是處于滿意狀態(tài),提供相關(guān)系統(tǒng)優(yōu)化的報告。對于運行情況跟蹤,預(yù)防性診斷設(shè)備存在的隱患,提供系統(tǒng)優(yōu)化建議,提供系統(tǒng)規(guī)范和流程的建議,提供系統(tǒng)優(yōu)化概要。硬件設(shè)備統(tǒng)計運維團隊將定期對參保設(shè)備進行統(tǒng)計。質(zhì)量分析報告運維團隊建立數(shù)據(jù)中心平臺的質(zhì)量分析報告。每月匯總設(shè)備運行質(zhì)量、系統(tǒng)性能等指標,進行數(shù)據(jù)中心平臺運行質(zhì)量分析,排除質(zhì)量隱患,不斷提高網(wǎng)絡(luò)運行質(zhì)量和服務(wù)質(zhì)量。運維工程師應(yīng)每周和每月對于數(shù)據(jù)中心在網(wǎng)系統(tǒng)運行情況作分析,數(shù)據(jù)采集、統(tǒng)計和分析系統(tǒng)設(shè)備的運行數(shù)據(jù),形成系統(tǒng)運行周報和月報。分析報告,包括優(yōu)化設(shè)備運行的績效,提高系統(tǒng)穩(wěn)定性的建議,對于系統(tǒng)擴容和優(yōu)化投資的建議,提供系統(tǒng)運行情況概要,系統(tǒng)中關(guān)鍵設(shè)備的運行情況分析,并能識別和解決潛在問題,做好預(yù)警,制定并實施相應(yīng)的優(yōu)化措施,并對于系統(tǒng)的擴容和項目投資提供建議報告。3.4系統(tǒng)配置與支持維護運維團隊的日常工作中,在系統(tǒng)配置和支持方面的工作內(nèi)容如下:o維護系統(tǒng)軟硬件配置文檔;o負責(zé)系統(tǒng)用戶管理,如增加、刪除用戶、重置用戶密碼、管理用戶權(quán)限等;o進行系統(tǒng)用戶管理時必須遵循數(shù)據(jù)中心的賬戶命名規(guī)則及賬戶密碼策略,并文檔記錄所有相關(guān)的系統(tǒng)變更;o每月提交系統(tǒng)賬戶變更月報;o配合第三方經(jīng)行升級、安裝系統(tǒng),及時更新操作系統(tǒng)補丁,進行系統(tǒng)軟件備份;o根據(jù)運維報告及統(tǒng)計報表,每月制定維護作業(yè)計劃,并提交日常維護報告;3.5系統(tǒng)容量管理運維團隊至少每半年進行一次對于每個服務(wù)器的系統(tǒng)容量監(jiān)測的審核,并制定相應(yīng)的容量規(guī)劃,主要監(jiān)測文件系統(tǒng)的空間、數(shù)據(jù)庫的空間資源利用情況,分析資源利用趨勢,并提供資源情況月報表。文件系統(tǒng)空間管理o定期檢查文件系統(tǒng)的空間使用情況,根據(jù)業(yè)務(wù)發(fā)展需求和新業(yè)務(wù)的增加,制定合理的空間分配方案,新增、修改或刪除空間。o對文件系統(tǒng)空間的使用進行監(jiān)控,發(fā)現(xiàn)空間使用不合理或需要清理的協(xié)調(diào)解決。數(shù)據(jù)庫空間管理o應(yīng)實時監(jiān)測數(shù)據(jù)存儲空間的使用情況,根據(jù)業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)量、數(shù)據(jù)結(jié)構(gòu)以及增長速度,制定合適的數(shù)據(jù)存儲和結(jié)構(gòu)優(yōu)化策略,動態(tài)增加新的空間以存放業(yè)務(wù)數(shù)據(jù);定期檢查數(shù)據(jù)存儲空間的使用情況,根據(jù)實際情況規(guī)劃增加新的空間,填寫數(shù)據(jù)庫空間新增/修改/刪除申請表,經(jīng)審核后實施,并更新數(shù)據(jù)庫配置狀況記錄表;3.6巡檢工作除了依靠數(shù)據(jù)中心的監(jiān)控軟件,還要求運維團隊對服務(wù)器、存儲、操作系統(tǒng)、數(shù)據(jù)庫、中間件等基礎(chǔ)設(shè)施進行巡檢,并編寫巡檢報告。通過巡檢可以對當(dāng)前系統(tǒng)的運行狀況有一個詳細的了解,對巡檢中發(fā)現(xiàn)的問題可以及時采取預(yù)防性措施,降低故障發(fā)生的概率,提高系統(tǒng)的可靠性。巡檢工作需要檢查以下幾個方面:o場地環(huán)境檢查:包括機房的溫度、濕度、通風(fēng)及UPS工作狀態(tài)等的檢測;o操作系統(tǒng):檢查補丁完整性,記錄軟件版本,以保證系統(tǒng)發(fā)揮最佳性能;o外設(shè)檢查:對網(wǎng)卡或HBA卡、磁盤驅(qū)動器的讀寫、磁帶機的讀寫進行檢測;o網(wǎng)絡(luò)設(shè)備檢查:運行環(huán)境檢查、LED控制面板、IOS版本信息、進程狀態(tài)、內(nèi)存利用率、接口狀態(tài)、路由表狀態(tài)、網(wǎng)絡(luò)連通性測試;o設(shè)備清潔:對相關(guān)設(shè)備進行維護保潔工作,使設(shè)備保持良好的運行狀態(tài);o系統(tǒng)日志檢查;o文件系統(tǒng)檢查、清理;o系統(tǒng)配置檢查;o系統(tǒng)和數(shù)據(jù)備份檢查;o系統(tǒng)運行情況分析;o系統(tǒng)總體性能評估。.機房環(huán)境日常檢查內(nèi)容機房環(huán)境服務(wù)力在為機房設(shè)備如小型機、網(wǎng)絡(luò)設(shè)備和存儲設(shè)備等提供一個安全可靠的物理環(huán)境,確保機房設(shè)備不會因為環(huán)境因素導(dǎo)致不能正常運行或損壞。為了達到此目的,機房環(huán)境需具備以下標準:o確保機房溫度在24+2℃之間,最大溫度變化率不超過10℃/小時;o確保機房濕度在50+5%之間;o確保機房電壓在220V+5%之間,電壓頻率在50.5~49.5之間,瞬間變動電壓不超過220V+/-15%,總諧波不高于5%;o機房電源地線方面確保機房接地線與任何導(dǎo)線完全隔離及絕緣,接地線線徑至少為3.5mm,系統(tǒng)接地電阻在電源插座連線與地線間不大于2歐姆,在電源輸出座連線與地線間電壓小于1V,在接地線的接地端測的接地電阻不大于1歐姆;o確保機房為網(wǎng)絡(luò)設(shè)備、空調(diào)、視頻等提供獨立的冗余雙電源供應(yīng)系統(tǒng),杜絕電源公用現(xiàn)象,確保網(wǎng)絡(luò)設(shè)備電源無隱患;o確保機房整潔干凈,避免機房在陽光直射之下;O確保機房無線電雜波干擾低于0.5V/米;.服務(wù)器、存儲、操作系統(tǒng)、數(shù)據(jù)庫、中間件巡檢及巡檢報告內(nèi)容針對服務(wù)器、存儲、操作系統(tǒng)、數(shù)據(jù)庫、中間件等比較重要的組件,數(shù)據(jù)中心制定了按月巡檢的計劃,需要按照巡檢報告的模板進行檢查,巡檢報告要涵蓋以下內(nèi)容:.7定期服務(wù)報告系統(tǒng)維護檔案,詳細記錄數(shù)據(jù)中心相關(guān)的設(shè)備信息和項目管理信息、。在日常運維中,服務(wù)報告和技術(shù)文檔由運維團隊的相關(guān)人員負責(zé)維護和更新。系統(tǒng)維護檔案將分為以下四個部分:設(shè)備配置檔案維護設(shè)備及軟件清單、系統(tǒng)功能、詳細配置信息及軟件版本和設(shè)備PN號;設(shè)備位置、網(wǎng)絡(luò)拓撲、設(shè)備連接拓撲及各種工程圖紙;如果系統(tǒng)發(fā)生變更,如實施軟件、補丁、微碼升級或業(yè)務(wù)調(diào)整,同步更新配置檔案;系統(tǒng)雙機、備份設(shè)置和運行情況。服務(wù)文檔技術(shù)參數(shù)的配置文檔;處理故障時的《故障處理報告》;每季度的《季度運維總結(jié)》;每次重大故障處理后發(fā)布《重大問題分析報告》;共享維護內(nèi)容及其他技術(shù)資源整理知識庫;每次巡檢時的《巡檢報告》;微碼更新、性能分析及優(yōu)化、機房搬遷等服務(wù)實施方案、專業(yè)服務(wù)報告和技術(shù)建議等。3.7.3服務(wù)總結(jié)運維團隊根據(jù)自身的工作內(nèi)容,在每季度需要對自己的工作進行匯總,并生成《季度運維總結(jié)》。報告中的具體內(nèi)容包括:故障處理及備件更換情況匯總;設(shè)備狀況分析及評價;人員出勤情況,工作量,或資源使用情況,包括第三方供應(yīng)商服務(wù)情況;重大事件和變更情況;配置管理相關(guān)信息;趨勢信息;下一步工作計劃;3.8運行維護優(yōu)化評估(1)建立基于數(shù)據(jù)中心的基礎(chǔ)運維服務(wù)管理框架體系及運維團隊,根據(jù)網(wǎng)絡(luò)的現(xiàn)狀提出整體安全規(guī)劃,包括日常維護計劃、安全風(fēng)險控制計劃、應(yīng)急響應(yīng)計劃等(2)提供風(fēng)險評估、災(zāi)難恢復(fù)、應(yīng)急響應(yīng)、安全培訓(xùn)服務(wù)并提供報告(3)安全檢測每季度定期對服務(wù)范圍內(nèi)的對網(wǎng)絡(luò)設(shè)備、服務(wù)器操作系統(tǒng)、數(shù)據(jù)庫系統(tǒng)、應(yīng)用軟件系統(tǒng)的安全策略和安全配置進行檢查和測試,從中獲得相關(guān)的信息、發(fā)現(xiàn)系統(tǒng)面臨的威脅以及存在的安全性。(4)安全評估。每季度對服務(wù)范圍內(nèi)的整體網(wǎng)絡(luò)系統(tǒng)進行全面、統(tǒng)一的系統(tǒng)性的安全風(fēng)險評估,識別和控制網(wǎng)絡(luò)中的關(guān)鍵資產(chǎn)及可能會產(chǎn)生的安全風(fēng)險,并對所發(fā)現(xiàn)的問題提供優(yōu)化、改進建議。并根據(jù)評估的結(jié)果為關(guān)鍵資產(chǎn)建立應(yīng)急響應(yīng)預(yù)案以及細微調(diào)整其后安全維護服務(wù)所要監(jiān)控的內(nèi)容。(5)策略優(yōu)化根據(jù)安全評估的結(jié)果每半年對系統(tǒng)策略及網(wǎng)絡(luò)系統(tǒng)進行優(yōu)化設(shè)計,制定調(diào)整系統(tǒng)策略優(yōu)化、網(wǎng)絡(luò)拓撲優(yōu)化、安全域規(guī)劃與配置、IP規(guī)劃、VLAN優(yōu)化等策略,并根據(jù)實際情況調(diào)整與實施。(6)應(yīng)急預(yù)案與演練根據(jù)數(shù)據(jù)中心的現(xiàn)狀,模擬實際災(zāi)難發(fā)生場景,提供各種應(yīng)急預(yù)案,經(jīng)過采購人討論,協(xié)助采購人實施演練。(7)培訓(xùn)運維服務(wù)期內(nèi),安排以運維管理、安全為主題的培訓(xùn),數(shù)量為4~5人次,按要求制定相應(yīng)的培訓(xùn)計劃。(8)資料收集存檔參與機房運維涉及的專業(yè)第三方機構(gòu)合同的起草、談判,與采購人一起對第三方機構(gòu)進行管理。整理收集涉及到的第三方合同,中間文檔、過程記錄,備查,按照采購人規(guī)定進行提交。3.9應(yīng)急保障措施和組織應(yīng)急響應(yīng)系統(tǒng)運維團隊在處理緊急情況和重大事項時,會啟用應(yīng)急指揮系統(tǒng):接口人:應(yīng)用系統(tǒng)下,各個相關(guān)方的固定接口人,一般為項目經(jīng)理運維團隊:事故發(fā)生期間提供直接的技術(shù)咨詢、指導(dǎo)服務(wù),負責(zé)直接處理故障。二線專家:嚴重事件由承保的第三方服務(wù)商或原廠商的二線專家最快速度到達現(xiàn)場處理事故。應(yīng)急響應(yīng)過程應(yīng)急響應(yīng)過程劃分為四個主要階段:應(yīng)急準備、監(jiān)測與預(yù)警、應(yīng)急處置措

施和總結(jié)改進。a)應(yīng)急準備階段的工作包括:組建應(yīng)急響應(yīng)組織,確定應(yīng)急響應(yīng)制度,系統(tǒng)性識別運行維護服務(wù)對象及運行維護活動中可能出現(xiàn)的風(fēng)險,定義應(yīng)急事件級別,制定預(yù)案,開展培訓(xùn)和演練;b)監(jiān)測與預(yù)警階段的工作包括:進行日常監(jiān)測,及時發(fā)現(xiàn)應(yīng)急事件并有效預(yù)警,進行核實和評估,以規(guī)定的策略和程序啟動預(yù)案,并保持對應(yīng)急事件的跟蹤;c)應(yīng)急處置階段的工作包括:采取必要的應(yīng)急調(diào)度手段,基于預(yù)案開展故障排查與診斷,對故障進行有效、快速的處理與系統(tǒng)恢復(fù),及時通報應(yīng)急事件,提供持續(xù)性服務(wù)保障,進行結(jié)果評價,關(guān)閉事件;d)總結(jié)改進階段的工作包括:對應(yīng)急事件發(fā)生原因、處理過程和結(jié)果進行總結(jié)分析,持續(xù)改進應(yīng)急工作,完善信息系統(tǒng)。制定應(yīng)急保障預(yù)案及演練為了應(yīng)對業(yè)務(wù)系統(tǒng)可能出現(xiàn)的緊急故障,運維團隊將定期模擬故障演練服務(wù)。運維團隊有一套整體的應(yīng)急方案,以確保數(shù)據(jù)中心在系統(tǒng)發(fā)生突發(fā)事件或災(zāi)難情況下能夠迅速恢復(fù)IT服務(wù),從而保證系統(tǒng)業(yè)務(wù)的持續(xù)運行。根據(jù)普遍認可的最佳實踐指導(dǎo)原則,IT應(yīng)急和IT災(zāi)難恢復(fù)的定義應(yīng)該是:“計算機系統(tǒng)災(zāi)難是指任何造成計算機系統(tǒng)不能處理業(yè)務(wù)的時間超過了可容忍程度的事故。應(yīng)急方案是指計算機系統(tǒng)災(zāi)難發(fā)生后,按照既定的應(yīng)急恢復(fù)方案在一定時間內(nèi)恢復(fù)系統(tǒng)運行和業(yè)務(wù)處理的過程?!睘榱藨?yīng)對生產(chǎn)系統(tǒng)可能出現(xiàn)的緊急故障(重大、嚴重故障),數(shù)據(jù)中心將從事前預(yù)防和事后處理兩個方面制定緊急故障應(yīng)處理預(yù)案。(A)事前預(yù)防:應(yīng)急涉及到多個層面的配合,每方都需要指定專人負責(zé)在緊急故障發(fā)生時及時溝通數(shù)據(jù)中心專家支持團隊進行系統(tǒng)風(fēng)險評估,提出系統(tǒng)整改建議,制定緊急故障應(yīng)急處理預(yù)案進行一定次數(shù)的實際演練,包括后備系統(tǒng)切換測試、備份數(shù)據(jù)還原測試對流程進行持續(xù)性跟蹤,系統(tǒng)出現(xiàn)變更后,重新評估流程的有效性(B)事后處理:響應(yīng)時間:由工程師立即做出響應(yīng)故障修復(fù):由經(jīng)驗豐富的專家支持團隊提供專人支持,包括搭建測試環(huán)境、遠程和現(xiàn)場故障診斷和排除;同時啟動緊急故障處理流程,按既定程序做應(yīng)急處理應(yīng)急演練:應(yīng)急演練計劃至少每季度一次進行測試和演練,以保證:計劃內(nèi)容能夠反映當(dāng)前的狀況;計劃的有效性和可操作性;應(yīng)急演練人員熟悉應(yīng)急恢復(fù)流程。所有測試和演練的結(jié)果應(yīng)當(dāng)依據(jù)事先確定好的標準,來判斷測試和演練是否成功。如:多長時間恢復(fù)服務(wù),會出現(xiàn)多少問題,及問題的嚴重性等。在測試完成后應(yīng)記錄下結(jié)果,并根據(jù)需要對應(yīng)急恢復(fù)計劃進行修訂。針對演練或測試過程中出現(xiàn)的問題和失敗應(yīng)該進行說明并體現(xiàn)在相應(yīng)的改進計劃中。3.10IT運維服務(wù)工具3.10.1運維監(jiān)控平臺運維服務(wù)事件管理系統(tǒng)是支撐運維管理組織中各運維角色按照規(guī)定的運維事件流程開展運維活動的信息化系統(tǒng)。一方面,該系統(tǒng)要支持運維服務(wù)提供者對運維服務(wù)事件管理對象進行管理,以實現(xiàn)運維服務(wù)的能力;另一方面,要支持運維服務(wù)提供者按照商定的服務(wù)級別協(xié)議方便地向運維服務(wù)使用者提供運維服務(wù);同時,要支持運維服務(wù)管理者對整個運維服務(wù)事件的考核、監(jiān)督和評估。運維服務(wù)事件管理工具是構(gòu)成運行管理體系不可缺少的元素,從被動管理向主動管理轉(zhuǎn)化的重要部分,為整個運行管理體系的高效實施奠定了基礎(chǔ)。

監(jiān)控拓撲當(dāng)前數(shù)據(jù)中心采用了華勝運維監(jiān)控平臺,對數(shù)據(jù)中心設(shè)備進行監(jiān)測。用戶通過客戶端登錄華勝運維監(jiān)控平臺,查看所有被監(jiān)控設(shè)備的運行情況。當(dāng)前監(jiān)控平臺支持機房環(huán)境、網(wǎng)絡(luò)設(shè)備、存儲設(shè)備、服務(wù)器設(shè)備、系統(tǒng)和數(shù)據(jù)庫等組件的監(jiān)控,支持故障預(yù)警等服務(wù)。i流比兜務(wù)器[作:站讖呻近二級平行網(wǎng)絡(luò)傳輸磁路‘;?安退師彳】吸射范?唾孑冏組件的監(jiān)控,支持故障預(yù)警等服務(wù)。i流比兜務(wù)器[作:站讖呻近二級平行網(wǎng)絡(luò)傳輸磁路‘;?安退師彳】吸射范?唾孑冏一不同二鉞邛%;網(wǎng)絡(luò)樗輸解耀圣.旗嫌雋福T許誕一一|派出所您平臺當(dāng)水沈H-彗屏?摞魯技斑。隔遑球機1J敷九||打丁■性留浩■*-報膏嵌田”建件fl晶卡現(xiàn)頓服身翳I.防樂有社!卷愚?蟄按證,當(dāng)技列=:'|速牌忸-MA背性FT??普掖帶主機監(jiān)控為確保數(shù)據(jù)中心服務(wù)器高速、穩(wěn)定運轉(zhuǎn),華勝運維監(jiān)控平臺從多個方面對主機服務(wù)器的硬件設(shè)備及操作系統(tǒng)進行監(jiān)控管理和性能管理。它通過采集服務(wù)器的CPU、內(nèi)存、硬盤、網(wǎng)卡等硬件的關(guān)鍵運行參數(shù),以及軟件和應(yīng)用程序的進程、服務(wù)、端口等的運行狀況,對系統(tǒng)日志進行分類掃描查詢。通過數(shù)據(jù)采集和分析,華勝運維監(jiān)控平臺能夠及時對影響用戶服務(wù)器運行性能的故障事件發(fā)送報警,并采取相應(yīng)的故障處理措施,保證服務(wù)器的正常安全運行。Windows服務(wù)器監(jiān)控運維監(jiān)控平臺對服務(wù)器的監(jiān)控支持Agent代理、SNMP和WMI非代理三大方式,方便不同用戶對服務(wù)器全面監(jiān)控的需求。運維監(jiān)控平臺服務(wù)器主要監(jiān)測指標如下Ping順施㈣魏燧期(硝狀態(tài)值(200表示成功300表示出錯)CPU££雌5題%)峰蜩兼(%:moa(%)Windows旦志監(jiān)測

MemTop5-物理內(nèi)存使用(M)則便員敦陽■齦鼠峭賽獺MB)監(jiān)測Windows賬戶是否被修改oWindows進程鬼蹦麴(個)她必照』珍熬頗氯疝碼授澄蝠酸比(%)發(fā)頻氟疝㈣艘馥勃比(%)按攻包教Cpackets/s^<packets/s)&&平均唳道時間即刈SEU.指拉/電蜥耿%)Linux服務(wù)器監(jiān)控運維監(jiān)控平臺對Linux服務(wù)器的監(jiān)控支持Agent代理、SNMP和SSH、Telnet非代理三大方式,方便不同用戶對服務(wù)器全面監(jiān)控的需求。運維監(jiān)控平臺Linux服務(wù)器主要監(jiān)測指標如下

Ping平均,胞應(yīng)時間(%)wvWV\ANi7Kpz人必GEMJk熱SMffi塞1%)崛詢㈣至及HM/%j總的花量(M)Meniorv使用率[%)轆詢峭鐲嬲秒(頁/秒)魏蕊鼎MB)監(jiān)測Linux事件日志健9城邀行)寢能1行)獺實蝕1嗷(個)嫄平均響應(yīng)時間(ms)wwW\A/^W^v<M_aA\ f

cpuTopl-Namcf)叩uTcpI■使用率1%)cpuTop2-NameQupuTcp2■使用率1%)T0P-5CPU使用cpuTop3-Nanie()cpuTop為使用率(%)CDUT0D4-NameQ叩uTop4-使用率(%)cpuTop5-Name()叩UTCip宇使用率〔%)

丁珅冬物理內(nèi)存使用MemTopi-進程名OMerrTTcipl-物理內(nèi)存使用CM)除巳rrrrcp2-卅:程名M3nnTcip2-物理內(nèi)存使用(M)MenrropS-過程名。MtennTcip3-物理內(nèi)存使用CM)171心小丁卬4-進程名()M6nnTcip4■物理內(nèi)存使用LM)加印丁85-進程名。MennTcip5.物理內(nèi)存使用[M)網(wǎng)絡(luò)設(shè)備監(jiān)控華勝運維監(jiān)控平臺可以從各個方面對數(shù)據(jù)中心的網(wǎng)絡(luò)設(shè)備進行監(jiān)測和管理,內(nèi)容包括網(wǎng)絡(luò)設(shè)備的可用性、設(shè)備性能、流量管理等等。華勝運維監(jiān)控平臺的網(wǎng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論