項目運維服務(wù)方案_第1頁
項目運維服務(wù)方案_第2頁
項目運維服務(wù)方案_第3頁
項目運維服務(wù)方案_第4頁
項目運維服務(wù)方案_第5頁
已閱讀5頁,還剩59頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、項目編號: ZC-CCS21097 項目名稱:中宣部“掃黃打非”相關(guān)信息系統(tǒng)云計算服務(wù)采購項目項目運維服務(wù)方案針對本項目,金山云具備高效、優(yōu)質(zhì)的運維能力,針對本項目,金山云結(jié)合甲方業(yè)務(wù)需要及信息系統(tǒng)情況,制定了完整詳細的運維服務(wù)方案(請見章節(jié)18(全章節(jié))。金山云承諾提供7*24小時運維服務(wù),定期提供運維報告,其中包含安全情況分析及處置建議(請見章節(jié)18.1、18.2.3)。金山云配備有業(yè)務(wù)實力強大的運維團隊,其中團隊負責人、團隊成員均需有豐富的工作經(jīng)驗,具備較強的業(yè)務(wù)能力(團隊人員及其相關(guān)認證和獲獎證書請見 章節(jié)20 項目經(jīng)理、和 章節(jié)21 項目團隊(不含項目經(jīng)理)。金山云承諾按照甲方要求安

2、排不少于1人駐場提供服務(wù),并不因人員駐場而加收費用(承諾函請見章節(jié)18.5)。結(jié)合項目實際需要提出針對本項目各項工作的服務(wù)標準運維服務(wù)時間:7*24小時。服務(wù)方式:電話、微信群(客戶專屬群)、駐場(如有需要)服務(wù)內(nèi)容(部分):(1)備案業(yè)務(wù)問題在線支持,在線診斷,秒級響應(yīng),技術(shù)支持團隊為您提供急速的在線支持(2)技術(shù)工單,云產(chǎn)品技術(shù)問題,技術(shù)支持團隊為您提供7*24小時竭誠服務(wù)(3)專家服務(wù),專家團隊為您提供高效、專業(yè)的全周期上云護航服務(wù)。為用戶配備專屬大客戶經(jīng)理、售前咨詢、技術(shù)支持專家等多位專業(yè)人員,隨時幫您解決云上遇到的所有問題。大客戶經(jīng)理,為您的業(yè)務(wù)需求精準匹配產(chǎn)品,伴您項目跟進、測試對

3、接、合同簽署、遷移交付、售后維護等售前架構(gòu)師,針對技術(shù)與產(chǎn)品交流、技術(shù)評估、基于金山云產(chǎn)品特性為您量身定制基礎(chǔ)架構(gòu)、技術(shù)方案等技術(shù)支持專家,提供面向各類云產(chǎn)品的問題排查、運維管理,為您的云上系統(tǒng)穩(wěn)定運行打造高效的技術(shù)支持服務(wù)(4)定期提供運維報告,其中包含安全情況分析及處置建議。以P0(最高)級別為本次項目客戶評級,所能提供的服務(wù)時效標準如下:1)一線售后人員90s內(nèi)響應(yīng)。2)一線售后人員如在10鐘內(nèi)未能解決問題,將問題升級至“運維中心”一同處理。3)運維中心人員如在30分內(nèi)未能解決問題,將根據(jù)具體問題升級至對應(yīng)的研發(fā)中心一同跟進處理。項目服務(wù)方案范圍控制金山云除CDN和視頻業(yè)務(wù)以外的已上線且

4、非定制化的標準產(chǎn)品(以下簡稱:產(chǎn)品)功能的咨詢、使用、配置建議金山云的產(chǎn)品相關(guān)的技術(shù)問題、故障診斷金山云API相關(guān)問題的故障診斷,(已有對外提供正式服務(wù)的產(chǎn)品API,如ks3,主機產(chǎn)品api 等等) 與金山云資源相關(guān)的操作建議或系統(tǒng)問題的故障診斷 與金山云的管理控制臺或其他金山云官方工具相關(guān)的問題排查協(xié)助處理由客戶或內(nèi)部發(fā)起的遷移需求(協(xié)商遷移時間,跟進通報遷移進展) 報警通知:由運營商、骨干網(wǎng)導(dǎo)致的省級(青海、西藏、黑龍江等長期網(wǎng)絡(luò)質(zhì)量較差地域除外)以上范圍性網(wǎng)絡(luò)丟包超過10%且持續(xù)10分鐘以上無法有效解決或恢復(fù),經(jīng)網(wǎng)絡(luò)運維確認后由售后發(fā)送短信通告分鐘級網(wǎng)絡(luò)抖動不發(fā)通告(如攻擊),P0客戶在

5、微信內(nèi)群告知故障報告,故障原因定位后24小時內(nèi)發(fā)發(fā)送客戶配置管理在云平臺中進行的所有配置內(nèi)容都將事先與客戶進行溝通確認,并依照不同角色分工進行分權(quán)處理。文檔管理在運維期間,我司將根據(jù)客戶要求定期(默認為每月一次)為客戶提供運維月報,月報內(nèi)容如下:編號文檔名稱備注1運維報告包括資源使用情況、日常服務(wù)統(tǒng)計、資源監(jiān)控記錄、安全服務(wù)記錄、安全風險匯總分析及處置建議等2WAF報表WAF告警分類統(tǒng)計3堡壘機及VPN報表資源列表4主機防護報表安全態(tài)勢分析,漏洞分析5云主機安全配置核查操作系統(tǒng)安全異常報告6殺毒報表病毒感染報告7數(shù)據(jù)庫審計數(shù)據(jù)庫風險分析8備份服務(wù)報告?zhèn)浞萸鍐?APT防護服務(wù)報告攻擊報告、威脅報

6、告、資產(chǎn)風險分析風險控制在控制臺中提供了資源報警功能,通過配置相應(yīng)的報警閾值,我方將與客戶方同時獲取到資源預(yù)警信息(郵件 和 短信),并在運維群中即時通告,并作出優(yōu)化調(diào)整或緊急處理。人員控制公司針對人員控制采取分職責權(quán)限進行嚴格把控,涉及客戶信息資料禁止外傳,針對售后人員在工作期間參與的客戶群,含微信、QQ等通訊工具,在不負責本項目時將由售后管理員將其移除所有群組,并移交“客戶信息資料交接表”,新增入群人員需與業(yè)務(wù)確認后審核后入群,對售后群內(nèi)人員最定期狀態(tài)核驗,協(xié)助客戶及時清理客戶方離職人員。保密管理公司文件機密等級說明:公司擬定的一切文檔文件,不論是內(nèi)部文件,還是對外文件,都需要添加公司Lo

7、go函頭,內(nèi)部存檔問需添加機密等級,并按相應(yīng)的等級進行存檔。為了加強公司案宗管理,避免公司或客戶商業(yè)機密落入競爭者手中,公司對各類文檔文件進行機密等級設(shè)置,金山云根據(jù)文件涉密級別,分為公開,絕密、機密、秘密四個等級。說明如下:公開文件:公司對外公開文檔,不涉及機密等級,可供所有人查閱;絕密級:其查閱人僅限于公司總經(jīng)理,高層管理人員及事件相關(guān)負責人;機密級:其查閱人僅限于公司總經(jīng)理,高層管理人員,部門經(jīng)理、副經(jīng)理及事件相關(guān)負責人;秘密級:其查閱人為公司內(nèi)部所有員工。運維服務(wù)方案運維管理規(guī)范政務(wù)專區(qū)運維服務(wù)管理由運維活動角色及運維管理組織結(jié)構(gòu)、運維服務(wù)支撐系統(tǒng)、運維管理對象、運維管理流程和IT運維

8、服務(wù)等五個要素組成,其主要內(nèi)容及其相互關(guān)系如下圖所示。圖:政務(wù)專區(qū)運維管理框架政務(wù)專區(qū)業(yè)務(wù)運維活動角色及運維管理組織結(jié)構(gòu)政務(wù)專區(qū)業(yè)務(wù)運維活動角色是指從事運維活動的所有組織、部門或者具體工作人員,一般包括運維服務(wù)提供者、運維服務(wù)使用者、以及運維服務(wù)管理者三類角色。各類角色在運維活動中所構(gòu)成的組織形式構(gòu)成了運維管理組織結(jié)構(gòu)。政務(wù)專區(qū)業(yè)務(wù)運維服務(wù)支撐系統(tǒng)運維服務(wù)支撐系統(tǒng)是支撐運維管理組織中各運維角色按照規(guī)定的運維流程開展運維活動的信息化系統(tǒng)。一方面,運維服務(wù)支撐系統(tǒng)支持運維服務(wù)提供者對運維服務(wù)管理對象進行管理,以實現(xiàn)運維服務(wù)的能力;另一方面,支持運維服務(wù)提供者按照商定的服務(wù)級別協(xié)議方便地向運維服務(wù)使

9、用者提供運維服務(wù);同時,要支持運維服務(wù)管理者對整個運維服務(wù)的考核、監(jiān)督和評估。政務(wù)專區(qū)業(yè)務(wù)運維管理對象運維服務(wù)管理對象主要包括基礎(chǔ)設(shè)施、物理資源、虛擬資源、數(shù)據(jù)、平臺資源、應(yīng)用資源、用戶和IT供應(yīng)商。廣義概念下,有時也將組織內(nèi)部從事IT運維活動的部門和人員作為運維服務(wù)管理對象。圖:政務(wù)專區(qū)運維管理對象政務(wù)專區(qū)業(yè)務(wù)運維管理流程運維服務(wù)管理流程是指聯(lián)系運維服務(wù)提供者、運維服務(wù)使用者以及運維服務(wù)管理者之間開展規(guī)范化協(xié)同工作的機制和方法。金山云具備完整的運維服務(wù)管理流程,覆蓋運維服務(wù)的規(guī)劃、設(shè)計、運行和持續(xù)改進等各個環(huán)節(jié)。運維服務(wù)管理流程的信息化可借助運維服務(wù)支撐系統(tǒng)得以實現(xiàn)。金山政務(wù)專區(qū)運維管理的流

10、程如下圖所示。圖:政務(wù)專區(qū)運維管理流程政務(wù)專區(qū)業(yè)務(wù)IT運維服務(wù)IT運維服務(wù)是運維服務(wù)提供者向運維服務(wù)使用者提供的服務(wù)產(chǎn)品,相關(guān)的運維服務(wù)質(zhì)量應(yīng)該可度量,服務(wù)提供方式應(yīng)該符合規(guī)定的流程。在本部分中規(guī)范的運維服務(wù)包括云設(shè)施運維服務(wù)、基于云的應(yīng)用系統(tǒng)運維服務(wù)、云安全管理服務(wù)、支持政務(wù)專區(qū)網(wǎng)絡(luò)接入服務(wù)、內(nèi)容信息服務(wù)以及其他綜合管理服務(wù)。運維服務(wù)的自動化實施需要依靠運維服務(wù)支撐系統(tǒng)。聯(lián)系運維服務(wù)提供者、運維服務(wù)使用者以及運維服務(wù)管理者之間開展規(guī)范化協(xié)同工作的機制和方法。完整的運維服務(wù)管理流程應(yīng)該覆蓋運維服務(wù)的規(guī)劃、設(shè)計、運行和持續(xù)改進等各個環(huán)節(jié),本規(guī)范主要針對支撐政務(wù)專區(qū)運維服務(wù)運行階段的相關(guān)流程。運維

11、服務(wù)管理流程的信息化可借助政務(wù)專區(qū)運維服務(wù)支撐系統(tǒng)得以實現(xiàn)。運維服務(wù)方案概述硬件系統(tǒng)的監(jiān)控和維護計算資源運維服務(wù)實施對象和活動 對象為分布式的虛擬計算資源(虛擬機、虛擬機監(jiān)控器(Hypervisor)、虛擬計算資源池(Resource Pool)集群,充分利用集群匯聚的強大威力,對海量數(shù)據(jù)做分布式的處理,快速的完成數(shù)據(jù)分析工作。集群的維護特點是集中管理,集中控制,集中運維,有效監(jiān)控,提前預(yù)警感知,為計算系統(tǒng)的正常而有序的運行提供堅實的基礎(chǔ)。例行操作 監(jiān)控虛擬計算資源監(jiān)控主要監(jiān)控虛擬計算資源的運行狀況、變化趨勢及其指標。具體見下表,包括:虛擬機監(jiān)控器CPU負荷 虛擬機監(jiān)控器磁盤I/O負荷 虛擬機

12、監(jiān)控器內(nèi)存負荷 虛擬機監(jiān)控器網(wǎng)絡(luò)I/O負荷 虛擬機監(jiān)控器網(wǎng)絡(luò)鏈路狀態(tài)監(jiān)控 虛擬機監(jiān)控器服務(wù)進程監(jiān)控 虛擬機監(jiān)控器計算資源分配監(jiān)控 虛擬機監(jiān)控器系統(tǒng)日志異常監(jiān)控 計算資源池資源分配監(jiān)控 虛擬機CPU負荷 虛擬機磁盤I/O負荷 虛擬機內(nèi)存負荷 虛擬機網(wǎng)絡(luò)I/O負荷預(yù)防性檢查對于虛擬計算資源預(yù)防性的檢查,包括:虛擬計算資源故障的提前預(yù)警,系統(tǒng)運行趨勢的分析,安全日志的分析等。 虛擬計算資源的預(yù)防性檢查包括性能檢查和脆弱性檢查。其中,性能檢查包括:檢查虛擬機監(jiān)控器CPU使用峰值情況檢查虛擬機監(jiān)控器內(nèi)存使用峰值情況檢查虛擬機監(jiān)控器文件系統(tǒng)空間使用情況檢查虛擬機監(jiān)控器I/O讀寫情況檢查虛擬機監(jiān)控器網(wǎng)絡(luò)流量

13、情況等檢查虛擬機的資源分配情況檢查計算資源池的資源分配情況與分配策略脆弱性檢查包括:檢查物理服務(wù)器關(guān)鍵硬件部件是否存在故障檢查計算資源池資源分配是否超過預(yù)定閥值當前虛擬機監(jiān)控器版本是否安裝相關(guān)風險補丁檢查虛擬機監(jiān)控器服務(wù)進程的健康狀態(tài)檢查虛擬機監(jiān)控器文件空間使用是否達到預(yù)定閥值檢查虛擬機監(jiān)控器系統(tǒng)數(shù)據(jù)安全防護設(shè)置是否滿足要求檢查虛擬計算資源安全隔離有效性常規(guī)作業(yè)對虛擬計算資源的常規(guī)作業(yè)包括:更換損壞的硬件 虛擬機監(jiān)控器軟件升級 日常的可靠性計劃制定與演習 腳本維護 制作虛擬機快照 虛擬機手工遷移 虛擬機資源配置更改 虛擬機備份、克隆與恢復(fù) 虛擬機的維護包括創(chuàng)建虛擬機,并進行啟動、停止、刪除、回

14、收等操作 虛擬資源池的擴容與資源再分配 制作與升級標準虛擬機模板 虛擬機映像維護 虛擬機轉(zhuǎn)換 虛擬資源的訪問控制與權(quán)限管理 制作系統(tǒng)運行狀況報告響應(yīng)支持 事件驅(qū)動響應(yīng)針對虛擬計算資源所依賴的硬件,網(wǎng)絡(luò)及軟件故障而進行的響應(yīng),包括: 解決物理服務(wù)器故障 解決物理網(wǎng)絡(luò)設(shè)備故障 解決虛擬機監(jiān)控器軟件故障或者缺陷 虛擬機緊急遷移 虛擬資源池緊急擴容服務(wù)請求響應(yīng)根據(jù)應(yīng)用系統(tǒng)運行需要或需方、服務(wù)相關(guān)方的請求,而進行的響應(yīng)服務(wù),包括: 數(shù)據(jù)備份與恢復(fù) 虛擬機備份與恢復(fù) 系統(tǒng)擴容 虛擬機供應(yīng) 虛擬機遷移、回收、變更 虛擬資源池變更 虛擬資源池的高可用配置、計劃實施與演練 報表清單優(yōu)化改善 適應(yīng)性改善:根據(jù)應(yīng)用

15、系統(tǒng)的要求,進行改善 虛擬計算資源CPU、內(nèi)存容量、硬盤容量、網(wǎng)絡(luò)的調(diào)整 虛擬計算資源遷移 虛擬機監(jiān)控器資源調(diào)度的算法 增強性改善:根據(jù)應(yīng)用的特點和發(fā)展要求,以及數(shù)據(jù)量處理能力要求進行升級,擴容等 物理服務(wù)器計算能力擴容 物理服務(wù)器內(nèi)存擴容 物理服務(wù)器網(wǎng)絡(luò)吞吐能力擴容 虛擬計算資源高可用性增強與演練 虛擬計算資源容錯機制增強與演練 虛擬計算資源備份恢復(fù)測試 預(yù)防性改善:根據(jù)對虛擬計算資源的運行記錄和趨勢的分析發(fā)現(xiàn)潛在的隱患而進行的改進作業(yè),包括: 根據(jù)系統(tǒng)監(jiān)控得到的信息替換可能存在問題的內(nèi)存,CPU,硬盤,網(wǎng)絡(luò)設(shè)備等 根據(jù)系統(tǒng)的壓力增長趨勢主動對物理服務(wù)器的數(shù)量進行必要的擴容 根據(jù)系統(tǒng)的發(fā)展趨

16、勢對網(wǎng)絡(luò)系統(tǒng)采取必要的擴容咨詢評估 通過對虛擬計算資源的運行記錄、運行趨勢進行分析,根據(jù)應(yīng)用系統(tǒng)的特點和運行需求,提出物理計算設(shè)備、虛擬機監(jiān)控器、虛擬計算資源池、虛擬機的改進建議和方案。存儲資源運維服務(wù)實施對象和活動 服務(wù)實施對象是通過虛擬化建立大規(guī)模的分布式虛擬存儲資源(虛擬存儲卷、存儲資源池、服務(wù)控制器),提供安全、可靠、實時、高吞吐的數(shù)據(jù)存儲。虛擬化存儲集群集中管理、集中運營、集中維護,以更小的硬件資源和人力資源投入,提供更堅實的存儲平臺。例行操作 監(jiān)控虛擬存儲資源監(jiān)控主要監(jiān)控各軟硬件的運行狀況和指標。具體內(nèi)容包括:服務(wù)控制器CPU負載情況 服務(wù)控制器內(nèi)存消耗情況 服務(wù)控制器整體數(shù)據(jù)吞吐

17、帶寬、IOPS、響應(yīng)時間和請求隊列時間 服務(wù)控制器后端數(shù)據(jù)吞吐帶寬、IOPS、響應(yīng)時間和請求隊列時間 服務(wù)控制器間數(shù)據(jù)吞吐帶寬、IOPS、響應(yīng)時間和請求隊列時間 服務(wù)控制器cache利用情況 存儲資源池分配策略與空間使用情況 虛擬存儲卷訪問吞吐率、IOPS、響應(yīng)時間和請求隊列時間 仲裁控制點(磁盤、服務(wù)器等)健康性 服務(wù)控制器前后端IO鏈路 服務(wù)控制器后端分布式物理存儲健康性 服務(wù)控制器各服務(wù)網(wǎng)絡(luò)端口監(jiān)聽情況 服務(wù)控制器服務(wù)進程的運行狀態(tài) 服務(wù)控制器日志預(yù)防性檢查在監(jiān)控服務(wù)的基礎(chǔ)上,對虛擬存儲資源進行預(yù)防性檢查,包括性能檢查和脆弱性檢查。其中性能檢查包括:檢查服務(wù)控制器下列場景的數(shù)據(jù)吞吐帶寬、

18、IOPS、響應(yīng)時間和請求排隊時間包含:整體、后端及控制器間 檢查虛擬存儲卷訪問吞吐率、IOPS、響應(yīng)時間和請求隊列時間 檢查各服務(wù)控制器cache利用率,做為后端存儲優(yōu)化依據(jù) 檢查存儲資源池分配策略與空間使用率 檢查虛擬存儲卷后端存儲的性能匹配 檢查服務(wù)控制器日志 檢查用戶請求的錯誤率 檢查所有服務(wù)所接受的請求錯誤率脆弱性檢查包括:檢查服務(wù)控制器冗余度 檢查服務(wù)仲裁控制點健康性 檢查服務(wù)控制器微碼版本 檢查存儲資源池分配策略避免過度分配 檢查控制器存儲虛擬化軟件版本一致性 檢查虛擬存儲資源授權(quán)的全局性和統(tǒng)一性 檢查數(shù)據(jù)副本數(shù) 檢查數(shù)據(jù)保存的出錯率 檢查數(shù)據(jù)傳輸?shù)某鲥e率 檢查數(shù)據(jù)副本的一致性 統(tǒng)

19、計數(shù)據(jù)恢復(fù)的時間常規(guī)作業(yè)對虛擬存儲資源的常規(guī)作業(yè)包括:SAN拓撲,端口,Zoning配置維護 服務(wù)控制器配置備份和恢復(fù) 虛擬存儲資源劃分 虛擬存儲資源權(quán)限設(shè)置 擴充存儲資源池容量 制定和實施異構(gòu)存儲資源池數(shù)據(jù)快照,鏡像,容災(zāi)計劃 存儲資源池內(nèi)數(shù)據(jù)在線遷移 數(shù)據(jù)分層管理 維護數(shù)據(jù)副本數(shù) 資源使用情況統(tǒng)計 用戶使用情況統(tǒng)計 服務(wù)控制器軟件升級 更換損壞硬件 日志文件分析和備份響應(yīng)支持 事件驅(qū)動響應(yīng)針對虛擬存儲資源的軟、硬件故障而進行的響應(yīng)服務(wù),包括: 解決存儲虛擬化軟件缺陷或故障; 解決服務(wù)控制器宕機、重啟、死機等; 解決服務(wù)控制器前后端網(wǎng)絡(luò)故障; 數(shù)據(jù)恢復(fù); 硬件損壞更換; 服務(wù)請求響應(yīng)根據(jù)應(yīng)用

20、系統(tǒng)運行需要或需方、服務(wù)相關(guān)方的請求,而進行的響應(yīng)服務(wù),包括:數(shù)據(jù)統(tǒng)一備份; 數(shù)據(jù)容災(zāi)計劃制定,實施與演練; 數(shù)據(jù)訪問性能優(yōu)化; 數(shù)據(jù)在線遷移; 數(shù)據(jù)分級存儲,降低存儲成本; 新增主機分配存儲空間; 現(xiàn)有主機存儲空間調(diào)整; 主機端多路徑軟件的安裝配置。 優(yōu)化改善 適應(yīng)性改進根據(jù)應(yīng)用系統(tǒng)特點和運行需求,對虛擬存儲資源進行調(diào)整,包括: 服務(wù)控制器內(nèi)存、數(shù)量和磁盤數(shù)量、容量間的配比; 根據(jù)數(shù)據(jù)生命周期,進行存儲資源分層調(diào)整; 數(shù)據(jù)存儲平衡算法調(diào)整; 服務(wù)控制器前后端網(wǎng)絡(luò)(SAN或IP)端口吞吐速率的調(diào)整。 增強性改進根據(jù)應(yīng)用系統(tǒng)的特點和運行需求,通過對虛擬存儲資源的運行記錄、趨勢的分析,對存儲設(shè)備進

21、行調(diào)整、擴容或升級,包括: 存儲容量增加; 服務(wù)控制器數(shù)量增加; 服務(wù)控制器內(nèi)存容量增加; 服務(wù)控制器CPU增強; 服務(wù)控制器前后端網(wǎng)絡(luò)(SAN或IP)端口增加; 存儲虛擬化軟件升級。 預(yù)防性改進根據(jù)對虛擬存儲資源的運行記錄、趨勢的分析,結(jié)合應(yīng)用系統(tǒng)的需求,發(fā)現(xiàn)存儲設(shè)備的脆弱點,有針對性地進行改進性作業(yè),包括: 收集磁盤空間的使用情況,及時清理垃圾數(shù)據(jù)或增加存儲設(shè)備容量; 監(jiān)控負載情況,必要時增加硬件數(shù)量,或提高硬件規(guī)格; 監(jiān)控硬件出錯率,替換存在問題的硬件; 服務(wù)控制器微碼升級; 存儲虛擬化軟件升級。咨詢評估 通過對虛擬存儲資源的運行記錄、運行趨勢進行分析,根據(jù)應(yīng)用系統(tǒng)的特點和運行需求,提出

22、處理或改進的建議和方案。 網(wǎng)絡(luò)資源運維服務(wù)實施對象和活動 運維對象是虛擬網(wǎng)絡(luò)資源(虛擬網(wǎng)卡、虛擬網(wǎng)絡(luò)資源池、虛擬機網(wǎng)絡(luò))和網(wǎng)絡(luò)設(shè)備,基本活動包括例行操作、響應(yīng)支持、優(yōu)化改善、咨詢評估。 例行操作 監(jiān)控重點是對虛擬網(wǎng)絡(luò)資源的運行狀態(tài)、運行性能、資源使用分配情況進行監(jiān)控,以便了解其是否滿足運行要求。監(jiān)控應(yīng)當采用合適的裝備與手段,分配專門人員定期或全時段進行監(jiān)控。對虛擬網(wǎng)絡(luò)資源的監(jiān)控內(nèi)容包括: 虛擬網(wǎng)絡(luò)資源的健康狀態(tài)虛擬網(wǎng)絡(luò)資源池分配狀況虛擬網(wǎng)絡(luò)資源的鏈路狀況如端到端時延變化、鏈路端口工作穩(wěn)定性、鏈路負載百分比虛擬網(wǎng)絡(luò)資源配置變動監(jiān)控虛擬網(wǎng)絡(luò)資源操作日志監(jiān)控虛擬網(wǎng)絡(luò)資源安全事件監(jiān)控預(yù)防性檢查應(yīng)在監(jiān)控

23、服務(wù)的基礎(chǔ)上,對虛擬網(wǎng)絡(luò)資源進行預(yù)防性檢查。包括性能檢查和脆弱性檢查。其中,性能檢查包括: 檢查虛擬網(wǎng)絡(luò)資源健康狀態(tài) 檢查虛擬網(wǎng)絡(luò)資源CPU使用峰值情況 檢查虛擬網(wǎng)絡(luò)資源內(nèi)存使用峰值情況 檢查虛擬網(wǎng)絡(luò)資源端口的吞吐率 檢查虛擬網(wǎng)絡(luò)資源鏈路的健康狀況,包括IP包傳輸延時、IP包丟失率、IP包誤差率、無效IP包(包括攻擊性IP包、欺騙性IP包、垃圾IP包等)脆弱性檢查包括:檢查虛擬網(wǎng)絡(luò)資源的鏈路冗余度要求 虛擬網(wǎng)絡(luò)資源使用度和調(diào)度情況評估 虛擬網(wǎng)絡(luò)資源可用性周期性檢查 虛擬網(wǎng)絡(luò)資源安全事件周期性整理分析常規(guī)作業(yè)虛擬網(wǎng)絡(luò)資源的常規(guī)作業(yè)內(nèi)容包括:虛擬網(wǎng)絡(luò)資源配置備份及存檔 監(jiān)控虛擬網(wǎng)絡(luò)資源日志備份及存

24、檔 虛擬網(wǎng)絡(luò)資源日志數(shù)據(jù)分析與報告生成 虛擬網(wǎng)絡(luò)資源配置變更文件的審核 虛擬網(wǎng)絡(luò)資源配置變更的操作 虛擬網(wǎng)絡(luò)資源配置變更的記錄響應(yīng)支持 事件驅(qū)動響應(yīng)針對虛擬網(wǎng)絡(luò)資源故障引起的業(yè)務(wù)中斷或運行效率無法滿足正常運行要求,而進行的響應(yīng)服務(wù),包括: 故障定位; 虛擬網(wǎng)絡(luò)資源更換; 中斷、連通網(wǎng)絡(luò)連接; 關(guān)閉、啟動端口; 更改、恢復(fù)配置; 停止、啟動進程; 虛擬網(wǎng)絡(luò)資源重新調(diào)配服務(wù)請求響應(yīng)根據(jù)應(yīng)用系統(tǒng)運行需要或需方、服務(wù)相關(guān)方的請求,而進行的響應(yīng)服務(wù),包括: 增加、降低虛擬網(wǎng)絡(luò)資源網(wǎng)絡(luò)接入數(shù)量或速率; 更改虛擬網(wǎng)絡(luò)資源配置; 啟動、關(guān)閉端口或服務(wù); 更換、更新或升級虛擬網(wǎng)絡(luò)資源硬件或軟件; 調(diào)配虛擬網(wǎng)絡(luò)資

25、源。 優(yōu)化改善適應(yīng)性改進:根據(jù)應(yīng)用系統(tǒng)特點和運行需求,對虛擬網(wǎng)絡(luò)資源進行調(diào)整,包括: 設(shè)備或鏈路負載調(diào)整; 安全策略調(diào)整; 監(jiān)控對象覆蓋范圍調(diào)整; 路由策略調(diào)整; 局部交換優(yōu)化; 局部冗余優(yōu)化; 虛擬網(wǎng)絡(luò)資源調(diào)配。 增強性改進:根據(jù)應(yīng)用系統(tǒng)的特點和運行需求,通過對虛擬網(wǎng)絡(luò)資源的運行記錄、趨勢的分析,對虛擬網(wǎng)絡(luò)資源進行調(diào)整、擴容或升級,包括: 虛擬網(wǎng)絡(luò)資源調(diào)整,如CPU、內(nèi)存、端口的調(diào)配、擴容回收 虛擬網(wǎng)絡(luò)資源網(wǎng)絡(luò)架構(gòu)變動; 網(wǎng)絡(luò)架構(gòu)容量變化,如網(wǎng)絡(luò)子系統(tǒng)的增減等; 系統(tǒng)功能變化,如新增安全系統(tǒng)、新增審計系統(tǒng)等; 路由協(xié)議應(yīng)用及部署調(diào)整; 整體安全策略收緊; 虛擬網(wǎng)絡(luò)資源冗余優(yōu)化。 預(yù)防性改進:

26、根據(jù)對虛擬網(wǎng)絡(luò)資源的運行記錄、趨勢的分析,結(jié)合應(yīng)用系統(tǒng)的需求,發(fā)現(xiàn)虛擬網(wǎng)絡(luò)資源的脆弱點,有針對性地進行改進性作業(yè),包括: 配置參數(shù)優(yōu)化,例如虛擬網(wǎng)絡(luò)資源的VLAN、QoS、ACL、帶寬等; 部署路由策略情況下端到端選路變化、端口流量變化、路由條目變化 咨詢評估 咨詢評估服務(wù)包括: (整體或局部)虛擬網(wǎng)絡(luò)資源實際負荷與承載能力分析; (整體或局部)虛擬網(wǎng)絡(luò)資源預(yù)期負荷與承載能力分析與建議; (整體或局部)虛擬網(wǎng)絡(luò)資源架構(gòu)變動分析與建議; (整體或局部)虛擬網(wǎng)絡(luò)資源路由策略變動分析與建議; (整體或局部)虛擬網(wǎng)絡(luò)資源安全策略變動分析與建議; (整體或局部)虛擬網(wǎng)絡(luò)資源配置調(diào)優(yōu)分析與建議等。云平臺監(jiān)

27、控及維護云監(jiān)管與監(jiān)控能力金山云在云監(jiān)管與監(jiān)控方面具有完備的運維能力,主要包括:自動化巡檢與預(yù)警能力目標:防患于未然,提前發(fā)現(xiàn)并預(yù)警,及時消除隱患手段:所有服務(wù)模塊的存活性檢測報表所有服務(wù)模塊提供的各種功能請求的總量,成功率,平均響應(yīng)時間,響應(yīng)時間分布報表存儲系統(tǒng)可用冗余度(比如3副本的系統(tǒng),當前存活副本數(shù)量)巡檢容量增長趨勢與可支撐安全天數(shù)預(yù)警精準監(jiān)控與根因定位能力目標:精準告警,減少誤報,自動定位根因,縮短人工定位時間手段:豐富的采集指標,包含服務(wù)器硬件,操作系統(tǒng)基礎(chǔ)性能指標,服務(wù)模塊功能請求與異常日志等方面多個監(jiān)控指標聯(lián)合分析基于數(shù)據(jù)流(請求處理流轉(zhuǎn)路徑)的報警匯聚分析多region容量與

28、流量管理和調(diào)度能力目標:根據(jù)各個region不同的服務(wù)能力和容量空間,合理調(diào)度確保容量安全。手段:各個region的流量和容量,鏈路質(zhì)量實時采集分析根據(jù)各個地域的容量和流量增長預(yù)估剩余資源可支撐天數(shù)根據(jù)以上數(shù)據(jù)及時預(yù)警擴容,并給出調(diào)度建議硬件故障自動化修復(fù)能力目標:大幅縮短硬件故障響應(yīng)與修復(fù)時間,保證高在線率,減少次生災(zāi)害。手段:硬件故障信息高時間密度采集與監(jiān)控服務(wù)層面提供離線故障硬件的接口故障時調(diào)用離線接口,發(fā)起自動修復(fù)(自動發(fā)系統(tǒng)工單外包操作修復(fù))故障修復(fù)完畢自動檢測,并將硬件回歸線上(如存儲系統(tǒng)的數(shù)據(jù)盤)政務(wù)專區(qū)機房環(huán)境巡檢標準環(huán)境巡檢流程圖流程具體說明政務(wù)專區(qū)機房環(huán)境巡檢標準適用于:金

29、山云政務(wù)專區(qū)機房環(huán)境巡檢工作。巡檢頻率:每天2次。上午10點一次,下午4點一次;巡檢內(nèi)容:巡檢機房內(nèi)機柜的用電情況,采集機房內(nèi)兩個單路/雙路最高的機柜用電(A安培);巡檢機房內(nèi)的溫濕度情況,采集機房內(nèi)兩個最高溫濕度的空調(diào)或機架;異常處理:若發(fā)現(xiàn)機柜出現(xiàn)單雙路斷電或溫度超過28,濕度超過70%,先與運營商溝通,并啟動應(yīng)急響應(yīng)通報流程;注:巡檢過程中發(fā)現(xiàn)的溫濕度異常的情況,符合緊急通報的要按照緊急通報,達不到緊急通報要求的,在QQ群里通告(紅色字體)如果晚上遇到問題要電話值班和通知到孟憲偉。然后在QQ群里做溝通報告報表輸出:每日18點將巡檢報表發(fā)至金山云統(tǒng)一接口郵箱:ksc_idc報表模板如下:發(fā)

30、送要求:郵件主題:金山云政務(wù)專區(qū)-*機房-巡檢報表-201XXXXX政務(wù)專區(qū)機房服務(wù)器故障巡檢標準服務(wù)器故障巡檢流程圖流程具體說明政務(wù)專區(qū)機房環(huán)境巡檢標準適用于:金山云政務(wù)專區(qū)機房服務(wù)器故障巡檢工作。巡檢頻率:每天下午15點開始巡檢;注:設(shè)備故障巡檢頻率變更為每天4次。巡檢時段為: 03:00,10:00,16:00,22:00巡檢內(nèi)容:通過服務(wù)器指示燈、液晶顯示面板、報警聲音對服務(wù)器進行巡檢。發(fā)現(xiàn)故障服務(wù)器,需要記錄故障服務(wù)器的機房、機架位、IP、故障詳細信息(如故障代碼、故障指示燈)一般設(shè)備指示燈呈紅色、橙色為報警。注:個別機房的機柜有機柜門,巡檢時需要打開門,進行巡檢。準確仔細的完成故障

31、信息確認。巡檢注意事項:硬盤的編號要以機器面板上的序號為準。注:巡檢發(fā)現(xiàn)的新增故障在QQ群中通報。硬盤和電源類的要重點通報以紅色字體突出如果遇到晚上巡檢,發(fā)現(xiàn)的故障(硬盤和電源類的)第一時間通知到機房值班,由值班人確定是否處理。報告報表輸出:巡檢完成后將故障信息統(tǒng)計至故障巡檢報表中。每日18點將報表發(fā)送至金山云指定郵箱,ksc_idc故障巡檢的內(nèi)容需要黏貼到中正文中,若服務(wù)器無故障在正文中說明?!氨敬窝矙z未發(fā)現(xiàn)服務(wù)器故障”報表模板如下:發(fā)送要求:郵件主題:金山云政務(wù)專區(qū)-*機房-巡檢報表-20150126政務(wù)專區(qū)機房新服務(wù)器到貨標準操作新服務(wù)器到貨流程圖流程具體說明政務(wù)專區(qū)機房新服務(wù)器到貨標準

32、操作適用于金山云政務(wù)專區(qū)機房新服務(wù)器到貨操作。金山云運維工程師發(fā)起操作工單。政務(wù)專區(qū)機房現(xiàn)場接收工單,準備所需工具現(xiàn)場與運營商辦理設(shè)備進出手續(xù),并確認人員入室信息。(人員入室信息提前一天確認)到貨支持人員進行入室登記到貨當天確認設(shè)備信息是否與工單一致。如果不一致及時反饋發(fā)單人。如果一致則監(jiān)督廠商完成拆箱、運輸、上架、綁線等工作?,F(xiàn)場協(xié)助廠商完成100%測電,如果機架無設(shè)備可以在機架上逐臺加電進行測電,接雙電然后AB倒換測試單路設(shè)備是否可以供電。若機架上已有服務(wù)器,使用機房市電或其他空機柜的電源進行測試。需要逐臺測試,避免批量電流過大導(dǎo)致掉電。10%的BIOS抽查。存儲機器無需抽檢(4U設(shè)備)抽

33、查選項見附表,并將抽檢結(jié)果反饋給發(fā)單人, HYPERLINK mailto:抄送ksc_idc 抄送ksc_idc運維組反饋當天完成上架綁線進度?,F(xiàn)場需協(xié)助廠商按照綁線標準進行綁線及接線?,F(xiàn)場外包需要對廠商上架的設(shè)備進行核對,對線纜的連接進行核對。政務(wù)專區(qū)機房人員入室標準操作人員入室流程圖流程具體說明政務(wù)專區(qū)機房人員入室標準操作適用于金山云人員、廠商人員、外包運維人員、參觀人員的操作流程人員分類及權(quán)限 進入金山云數(shù)據(jù)中心的人員可分為四類,金山云運維人員、外包運維人員,廠家維修人員、參觀人員金山云運維人員權(quán)限:可以進入機房進行設(shè)備的日常運維工作。現(xiàn)場不需要全程進行陪同,可以臨時借用門禁卡使用。但

34、操作過程需要遵守機房規(guī)范,如布線及設(shè)備放置。外包運維人員權(quán)限:外包運維人員屬于金山云機房長期或臨時駐場維護5*8或7*24維護人員。可以持有機房門禁或鑰匙,根據(jù)金山云的工單要求進行操作。操作需要遵守操作規(guī)范。入室權(quán)限屬于階段性入室。廠家維修人員權(quán)限:廠商維修人員進入機房是為了維修機房設(shè)備,僅對維修的設(shè)備具有操作權(quán)限。現(xiàn)場需要陪同,并進入指定區(qū)域進行維修?,F(xiàn)場需要定時監(jiān)督,門禁不能隨時借用。入室權(quán)限屬于因需求觸發(fā)參觀人員權(quán)限:參觀人員進入機房是查看設(shè)備,僅具備查看權(quán)限。進入機房需要人員全程陪同。禁止操作任何設(shè)備,禁止機房取照,禁止借用門禁。入室權(quán)限屬于因需求觸發(fā)。入室確認及記錄人員入室申請由金山

35、云人員發(fā)起外包人員對進入機房的人員進行確認是否有授權(quán),判斷人員屬于哪一類。根據(jù)人員分類權(quán)限進行協(xié)助操作。有授權(quán)則進入登記進入,若無授權(quán)則與人員的確認與金山群中溝通相關(guān)情況并要求金山補發(fā)入室申請?,F(xiàn)場外包人員對需進入政務(wù)專區(qū)機房的人員進行人員入室登記。登記表格如下:入室登記表格每月最后一天下班前反饋一次電子版信息。登記的表格文字需要清晰可查。每周登記版的入室信息拍照隨周報一同發(fā)送。政務(wù)專區(qū)機房設(shè)備簽收/發(fā)送準操作設(shè)備到貨簽收要求設(shè)備到貨及快遞簽收,需要有金山云的接貨通知才可以接貨。若機房未收到金山云的接貨通知前,禁止接收設(shè)備及快遞,安排送貨人員進行等待。機房人員與金山云的QQ溝通群中反饋,待得到

36、金山云人員的接貨確認后才可以簽收貨物。簽收前請于物流的貨運單及設(shè)備清單進行比對,信息一致后進行簽收。簽收前檢查外包裝箱完整性,同時需拆箱檢查設(shè)備,驗證設(shè)備是否有硬損。若有硬損需要第一時間告知(拍照發(fā)郵件)。暫時不予以簽收,待確定后在進行簽收。(新設(shè)備到貨僅查驗外包裝即可)簽收完成后,統(tǒng)計相關(guān)信息反饋給金山云現(xiàn)場運維人員,抄送ksc_idc政務(wù)專區(qū)機房核心機柜安全管理要求核心機柜安全使用要求為保證機房的核心機柜設(shè)備運行安全。需要將核心機柜鎖閉。每次有核心機柜設(shè)備操作需求時,再行開啟每次開啟核心機柜需要進行記錄,已保證信息具有可查性登記信息記錄模板如下:政務(wù)專區(qū)機房可上鎖核心機柜說明機房機柜信息是

37、否可以鎖閉鑰匙保存?zhèn)渥⒄f明政務(wù)專區(qū)機房特殊機柜標注說明機房機柜信息特殊名稱是否標記運維服務(wù)應(yīng)急預(yù)案應(yīng)急預(yù)案流程流程目的協(xié)助建立、健全金山云政務(wù)專區(qū)信息安全事件(以下簡稱安全事件)應(yīng)急響應(yīng)體系,規(guī)范應(yīng)急響應(yīng)工作內(nèi)容和流程,提高應(yīng)急響應(yīng)能力,確保信息系統(tǒng)的安全和業(yè)務(wù)的連續(xù)性,減少安全事件帶來的負面影響及損失。流程原則責任人原則明確信息安全應(yīng)急響應(yīng)工作的組織機構(gòu),保證各項工作責任到人,信息安全領(lǐng)導(dǎo)小組統(tǒng)一負責安全事件的應(yīng)急組織和指揮工作。分級處置原則明確安全事件的等級范圍、劃分依據(jù),制定相應(yīng)的應(yīng)急響應(yīng)流程,確保處置的有效、準確。有效防備原則建立安全事件的預(yù)案制度。完善安全事件監(jiān)控和管理機制,積極采取

38、有針對性的應(yīng)急準備,防備安全事件的惡化。保障組織崗位職責職責 領(lǐng)導(dǎo)小組負責審核和批準信息安全應(yīng)急響應(yīng)總體規(guī)劃、信息安全事件報告。負責統(tǒng)籌規(guī)劃信息安全應(yīng)急基礎(chǔ)設(shè)施建設(shè)。授權(quán)信息安全聯(lián)合工作組啟動特定應(yīng)急預(yù)案。信息安全聯(lián)合工作組組建、完善應(yīng)急響應(yīng)體系。定期組織信息系統(tǒng)的風險評估和整改。定期組織應(yīng)急預(yù)案的演練。制信息安全事件報告。負責信息安全事件特定系統(tǒng)應(yīng)急預(yù)案的啟動和停止。應(yīng)急響應(yīng)資源支持組負責應(yīng)急行動的資源保障工作,包括車輛安排、人員安排等。應(yīng)急響應(yīng)業(yè)務(wù)支持組負責制訂業(yè)務(wù)系統(tǒng)應(yīng)急預(yù)案。負責評估信息安全事件對業(yè)務(wù)工作所造成的影響。從業(yè)務(wù)角度,為領(lǐng)導(dǎo)小組及聯(lián)合工作組決策提供信息和建議。根據(jù)應(yīng)急響應(yīng)工

39、作的需要,采取相應(yīng)的應(yīng)急處置措施。編寫應(yīng)急響應(yīng)業(yè)務(wù)工作報告。應(yīng)急響應(yīng)技術(shù)支持組負責制訂系統(tǒng)技術(shù)應(yīng)急預(yù)案。從技術(shù)角度,為領(lǐng)導(dǎo)小組及聯(lián)合工作組提供信息和建議。根據(jù)應(yīng)急響應(yīng)工作的需要,組織施行技術(shù)處置措施。編寫應(yīng)急響應(yīng)技術(shù)工作報告。應(yīng)急管理流程流程說明:先期處置接到信息安全事件報告后,應(yīng)急響應(yīng)技術(shù)組立即采取防止事態(tài)擴大的臨時應(yīng)對措施。同時,獲取安全事件證據(jù),備份相關(guān)系統(tǒng)日志與審計記錄等。啟動預(yù)案根據(jù)信息安全事件的等級,分別由應(yīng)急支持小組,信息安全聯(lián)合工作組,領(lǐng)導(dǎo)組進行決策啟動或授權(quán)啟動應(yīng)急預(yù)案。應(yīng)急處置處置過程中,如果發(fā)現(xiàn)應(yīng)急處置措施確實存在缺陷,根據(jù)安全事件的等級,分別由應(yīng)急支持小組、信息安全聯(lián)合

40、工作組或領(lǐng)導(dǎo)組決定是否變更和如何進行調(diào)整應(yīng)急措施。應(yīng)急處置中,如果因事態(tài)變化而造成信息安全事件等級變化,處置決策全跟隨升級或降級,各應(yīng)急響應(yīng)組按照新的安全事件等級進行處置。應(yīng)急處置結(jié)束后,各應(yīng)急響應(yīng)支持組要繼續(xù)監(jiān)控信息系統(tǒng)的運行狀況,直至確定可持續(xù)正常運行為止。應(yīng)急結(jié)束安全事件經(jīng)應(yīng)急處置并得到有效控制后,根據(jù)信息安全等級由響應(yīng)的管理層批準執(zhí)行。后期處置在應(yīng)急結(jié)束后,應(yīng)急響應(yīng)技術(shù)支持組和應(yīng)急響應(yīng)業(yè)務(wù)支持組要迅速采取措施,組織實施信息系統(tǒng)重建,恢復(fù)系統(tǒng)正常運行。應(yīng)急工作結(jié)束后,各應(yīng)急響應(yīng)支持組向信息安全聯(lián)合工作組提交應(yīng)急工作總結(jié)報告,由信息安全聯(lián)合工作組進行匯總,并向領(lǐng)導(dǎo)小組匯報。應(yīng)急預(yù)案及演練應(yīng)

41、急預(yù)案需要在充分調(diào)研業(yè)務(wù)模型的基礎(chǔ)上按需量身定制,并以此為依據(jù)設(shè)計應(yīng)急演練實戰(zhàn)。通過應(yīng)急演練實戰(zhàn),驗證應(yīng)急預(yù)案的預(yù)期動作和結(jié)果,積累應(yīng)對云平臺突發(fā)狀況的處理經(jīng)驗。根據(jù)需求,可以不定期組織開展網(wǎng)絡(luò)與信息系統(tǒng)的應(yīng)急演練,以檢驗應(yīng)急通訊、應(yīng)急人員、應(yīng)急設(shè)備、應(yīng)急操作流程的可靠性和可用性。通過應(yīng)急演練,發(fā)現(xiàn)并及時修改應(yīng)急預(yù)案中存在的缺陷和不足,檢驗各部門的應(yīng)急保障能力、應(yīng)急人員對應(yīng)急響應(yīng)工作的了解程度和實際操作技能。各應(yīng)急響應(yīng)支持組應(yīng)定期識別評估職責范圍內(nèi)的業(yè)務(wù)和技術(shù)風險,并根據(jù)實際應(yīng)急響應(yīng)、系統(tǒng)調(diào)整、人員變動、業(yè)務(wù)變化及應(yīng)急演練中發(fā)現(xiàn)的問題等進行動態(tài)維護和更新。信息安全聯(lián)合工作組負責綜合應(yīng)急預(yù)案、應(yīng)

42、急預(yù)案操作辦法的動態(tài)維護,應(yīng)急響應(yīng)技術(shù)組、業(yè)務(wù)組負責特定系統(tǒng)應(yīng)急預(yù)案的動態(tài)維護。政務(wù)專區(qū)機房應(yīng)急響應(yīng)流程標準應(yīng)急響應(yīng)流程圖應(yīng)急流程具體說明政務(wù)專區(qū)機房應(yīng)急響應(yīng)流程標準適用于:機柜單路斷電、機柜雙路斷電、溫度超過28。啟動應(yīng)急響應(yīng)流程的條件:機房出現(xiàn)機柜單/雙路斷電,溫度超過28,空調(diào)故障導(dǎo)致機房溫度升高的。記錄具體的位置信息,影響區(qū)域?,F(xiàn)場聯(lián)系運營商進行處理,電話通知金山值班接口人具體情況,并在qq群內(nèi)進行通告,1小時內(nèi)發(fā)出郵件通報通知。若第一時間未能聯(lián)系到值班接口人,聯(lián)系第二接口人員?,F(xiàn)場跟進運營商的處理進度,處理完成后在qq群內(nèi)通告,并回復(fù)郵件確認問題處理完成。通報要求:故障情況通報時間通

43、報方式機架單雙路斷電10分鐘電話 郵件溫濕度過高15分鐘電話 郵件通報方式中電話、郵件的,需要先進行電話通報,后續(xù)整理郵件發(fā)送郵件通報人接口信息:接口姓名手機郵件抄送郵件組第一接口人第二接口人通報反饋關(guān)鍵點:通報情況反饋關(guān)鍵點機架單路/雙路斷電確定影響范圍,如XX機房XX機柜,涉及多少服務(wù)器及交換機。掉電原因記錄故障及恢復(fù)時間點。并拍照記錄溫濕度過高確定影響范圍,如XX機房冷風通道溫度達到28以上,產(chǎn)生原因,是否協(xié)調(diào)運營商進行處理。應(yīng)急響應(yīng)通報包含以下信息:發(fā)現(xiàn)的時間具體位置信息,包括機房、機架、A,B路等影響的范圍,處理方法(可以記錄運營商的處理方法)處理結(jié)果/恢復(fù)結(jié)果緊急情況通報模板政務(wù)專

44、區(qū)機房緊急通報情況信息概要了解問題包括以下信息,若遇突發(fā)事件需將有效信息回饋故障情況了解問題機架單路掉電或雙路掉電了解事故影響范圍(如XX機房整體掉電,或XX機房X機架掉電,涉及服務(wù)器X臺)了解事故原因處理進度情況,拍下照片記錄溫度采集點最高溫度達到30度了解是否空調(diào)是否工作正常;了解故障原因;要求XX動力環(huán)境負責人立即處理;空調(diào)發(fā)生故障了解原因是什么(如壓縮機高溫報警等)確定所影響的服務(wù)器范圍(如XX機房X機架)XX動力環(huán)境負責人處理進展;注:發(fā)生故障以后優(yōu)先到運營商值班室向值班負責人咨詢,如無法找到通過值班電話咨詢;了解事故情況后通報金山云相關(guān)人員故障情況通報信息機架單路掉電或雙路掉電故影

45、響范圍(如XX機房整體掉電,或XX機房X機架掉電,涉及服務(wù)器N臺)事故原因處理進度情況,拍下照片記錄溫度采集點最高溫度達到30度是否空調(diào)是否工作正常;故障原因政務(wù)專區(qū)機房動力環(huán)境負責人處理情況;空調(diào)發(fā)生故障原因是什么(如壓縮機高溫報警等)確定所影響的服務(wù)器范圍(如XX機房X機架)政務(wù)專區(qū)機房動力環(huán)境負責人處理進展;事故恢復(fù)檢查服務(wù)器硬件是否有故障及損傷,逐臺進行處理并記錄受影響的設(shè)備信息及數(shù)量等信息,恢復(fù)完成后,郵件發(fā)送政務(wù)專區(qū)機房緊急情況通報模版至金山郵件組.模板如下:政務(wù)專區(qū)機房緊急情況通報模版通報事故事故機房機架掉電單路 雙路 影響范圍機房溫度過高影響區(qū)域 實測溫度 影響范圍空調(diào)故障空調(diào)

46、編號 故障定位 影響范圍其它事故情況時間點1.事故發(fā)現(xiàn)時間點2.事故發(fā)生時間點3.故障恢復(fù)時間點事故經(jīng)過采取的措施及事故原因后續(xù)改進辦法事件跟蹤人通報工程師聯(lián)系方式運營商動力環(huán)境人員:聯(lián)系方式政務(wù)專區(qū)機房故障處理標準操作故障處理流程圖流程具體說明政務(wù)專區(qū)機房故障處理標準操作適用于金山云政務(wù)專區(qū)機房故障處理操作。包括硬盤故障、內(nèi)存故障、RAID卡故障、電源故障等。具體操作流程如下:金山云運維工程師發(fā)起操作工單。政務(wù)專區(qū)機房現(xiàn)場接收操作工單,并準備操作所需用具現(xiàn)場確認操作的設(shè)備信息是否與工單提供的信息一致。如果一致進行操作。如果不一致需與發(fā)單人進行溝通確認。確認后繼續(xù)操作,操作完成后回復(fù)郵件操作完

47、成。金山云確認是否操作完成,如果完成則結(jié)單評價。如果確定未完成,則要求現(xiàn)場繼續(xù)完成操作。操作過程中如涉及資產(chǎn)變動請及時更新資產(chǎn)表服務(wù)器故障報修流程服務(wù)器故障報修流程圖流程具體說明服務(wù)器故障報修流程是適用于金山云人員、廠商人員、外包運維人員的操作流程。具體流程如下:金山云駐場外包在巡檢時發(fā)現(xiàn)故障或者備機替換下來的故障機。經(jīng)過和金山云機房組的人員確認設(shè)備是否可以報修金山云的人員確認設(shè)備需要報修,現(xiàn)場則聯(lián)系廠家進行報修,如果故障暫時忽略,則不報修更新備注即可。駐場外包報修設(shè)備格式如下:*機房服務(wù)器報修報修設(shè)備信息服務(wù)器品牌服務(wù)器型號服務(wù)器SN故障信息報修聯(lián)系人報修機房地址期望上門維修時間報修郵件標題

48、:金山云+*機房+品牌服務(wù)器報修-報修日期例:金山云政務(wù)專區(qū)機房DELL服務(wù)器2015/08/25報修完成后請跟進廠商提供的維修人員信息。協(xié)助提交給相關(guān)人員,由相關(guān)人員完成報修維修完成后更新巡檢報告外包指定郵箱報修時必須抄送ksc_idc 組,如果不按照要求報修,廠家將拒絕受理系統(tǒng)日常運維合理化建議為更好地提高各系統(tǒng)的日常運維水平和運維效率,并為各系統(tǒng)提供更高質(zhì)量的運維保障,建議對系統(tǒng)的運維工作標準化、流程化、制度化和可衡量化,實行規(guī)范化流程運維管理,支撐各系統(tǒng)的穩(wěn)定、高效運行。運維服務(wù)團隊金山云配備有業(yè)務(wù)實力強大的運維團隊,其中團隊負責人、團隊成員均需有豐富的工作經(jīng)驗,具備較強的業(yè)務(wù)能力。團

49、隊人員及其相關(guān)認證和獲獎證書請見章節(jié)20 項目經(jīng)理、和章節(jié)21 項目團隊(不含項目經(jīng)理)。此處不再贅述。承諾函承諾函致:采購方和代理機構(gòu)我公司參與 中宣部“掃黃打非”相關(guān)信息系統(tǒng)云計算服務(wù)采購 項目(項目編號:ZC-CCS21097),承諾以下事項:1、金山云具備高效、優(yōu)質(zhì)的運維能力,針對本項目,金山云結(jié)合甲方業(yè)務(wù)需要及信息系統(tǒng)情況,制定了完整詳細的運維服務(wù)方案(請見章節(jié)18(全章節(jié))。2、金山云承諾提供7*24小時運維服務(wù),定期提供運維報告,其中包含安全情況分析及處置建議(請見章節(jié)18.1、18.2.3)。3、金山云配備有業(yè)務(wù)實力強大的運維團隊,其中團隊負責人、團隊成員均需有豐富的工作經(jīng)驗,

50、具備較強的業(yè)務(wù)能力(團隊人員及其相關(guān)認證和獲獎證書請見章節(jié)18.4)。4、金山云承諾按照甲方要求安排不少于1人駐場提供服務(wù),并不因人員駐場而加收費用。公司:北京金山云網(wǎng)絡(luò)技術(shù)有限公司(簽章)時間:2021.10.8重保方案金山云承諾提供重大活動(節(jié)假日、重要會議活動等)期間的重點保障方案,以協(xié)助支撐客戶業(yè)務(wù)在重要關(guān)鍵時刻的業(yè)務(wù)穩(wěn)定性和服務(wù)可靠性。為保證采購方重大活動(節(jié)假日、重要會議活動)應(yīng)急處理高效穩(wěn)定及快速聯(lián)動性,金山云將成立重保項目組,項目組成員包括項目經(jīng)理、產(chǎn)品、解決方案架構(gòu)師、售前、交付、售后組、運維負責人和研發(fā)負責人等,各負責人將提供現(xiàn)場、QQ群、微信群支持,以便隨時靈活的進行應(yīng)急

51、問題處理,并提供充足的帶寬資源以及網(wǎng)站變更和遷移、升級等支持服務(wù),確保采購方重大活動的順利進行。重保活動期間,金山云將嚴格按照既定的重保服務(wù)流程執(zhí)行,重保服務(wù)流程包含響應(yīng)服務(wù)保障、巡檢服務(wù)保障和線上服務(wù)保障;同時金山云有成熟的應(yīng)急處理機制。金山云重保平臺金山云提供專門的重保服務(wù)平臺,對各個重?;顒舆M行統(tǒng)一管理,如下圖所示。重保平臺提供如下功能:(1)重保申請與審批;(2)重保資源組織,如人員組織、云資源組織等;(3)重保期間實時進展更新與同步;(4)重保期間故障處理管理;(5)重保服務(wù)總結(jié)。重保服務(wù)流程響應(yīng)服務(wù)保障在重大活動重保期間,金山云提升服務(wù)響應(yīng)級別,SLA提升為2min即時通訊工具(微信群、QQ群等)響應(yīng),10分鐘內(nèi)提出解決方案,項目經(jīng)理724小時電話暢通。同時,針對采購方的重大活動的重要性,金山云會提供研發(fā)負責人、運維負責人現(xiàn)場支持,以便最高優(yōu)及時響應(yīng)。巡檢服務(wù)保障金山云將在采購方重保期間進行每日一次的日常巡檢保障,以便問題的提前發(fā)現(xiàn)及穩(wěn)定服務(wù)保障。如巡檢中指標數(shù)據(jù)出現(xiàn)日常情況5% 范圍波動則會立即通知運維及研發(fā)進行問題確認及問題排查和解決,部分巡檢項如下表所示(實際巡檢項依據(jù)重?;顒悠陂g實際涉及的云服務(wù)確定)。巡檢服務(wù)明細項目指標數(shù)據(jù)處理方式負責人云服務(wù)器巡檢CPU利用率在連續(xù)兩個5min內(nèi)的均值均7

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論