




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
云存儲應急演練體系建立及場景設計
【導讀】云存儲技術的應用很大程度上降低了企業(yè)構(gòu)建同城和異地容災的成本,相比于傳統(tǒng)存儲架構(gòu),云存儲具有完全不同的業(yè)務特征,比如在數(shù)據(jù)的一致性同步規(guī)則和數(shù)據(jù)更新粒度等方面,這些業(yè)務特征和應用模式的明顯區(qū)別,使云存儲的高可用保護及應急體系建設都區(qū)別于傳統(tǒng)存儲。本文將基于云原生和企業(yè)云架構(gòu)體系的視角,分析如何構(gòu)建云存儲演練的標準體系,通過云存儲幾種常見的高可用容災技術,梳理在不同故障場景下的應急切換流程,建立符合云存儲標準的應急預案。一、云存儲演練的必要性分析云存儲演練的重要性隨著云計算技術的推廣,云存儲逐漸成為一種有效解決企業(yè)海量數(shù)據(jù)存儲和管理問題的方式。針對企業(yè)日常生產(chǎn)過程中產(chǎn)生的不同類型非結(jié)構(gòu)化數(shù)據(jù),企業(yè)可選擇相應類型的云存儲(包括文件存儲、對象存儲、塊存儲等),對非結(jié)構(gòu)化數(shù)據(jù)進行統(tǒng)一存儲和管理。利用分布式存儲架構(gòu)所提供的的軟件即存儲能力,幫助企業(yè)構(gòu)建了云服務的基礎系統(tǒng)服務層,為云上各類的微服務應用提供了云存儲和云共享服務。針對云存儲及云平臺的基礎設施建立應急切換演練機制,能夠顯著提升企業(yè)處理信息安全事件響應能力、降低和預防發(fā)生信息安全事件產(chǎn)生的損失,保障業(yè)務連續(xù)性。針對企業(yè)核心數(shù)據(jù)、核心存儲設備,建立一整套完善的應急預案,構(gòu)建應急處置機制,并驗證應急保障預案的有效性等環(huán)節(jié),已經(jīng)成為業(yè)務連續(xù)性中重要環(huán)節(jié)。云存儲VS傳統(tǒng)存儲云存儲相較于傳統(tǒng)的存儲架構(gòu),云存儲的容災服務通常包括為彈性云計算資源、云硬盤設備、分布式存儲設備等服務提供容災的服務。這些服務不僅為上層應用提供了更為靈活的軟硬件一體化部署模式,同時也兼具更加健壯的高可用模式,尤其是在開展應急演練方面:可以基于現(xiàn)有云上的業(yè)務策略,按需配置云服務器、云存儲的保護實例。并通過存儲同步復制技術、磁盤映射技術、數(shù)據(jù)緩存冗余等技術構(gòu)建云存儲的高可用性,為業(yè)務提供數(shù)據(jù)的可靠性以及業(yè)務連續(xù)性,從而確保容災備份的RPO為0,在演練過程中,云存儲將彈性云服務器的數(shù)據(jù)、配置信息復制到容災站點,并支持應用所在的服務器停機期間從另外的位置啟動并正常運行,從而提升業(yè)務連續(xù)性,相比于傳統(tǒng)存儲,基于云存儲的容災方式,能夠更好的降低容災建設成本。二、云存儲應急場景及標準體系建設云存儲切換演練及場景建設根據(jù)企業(yè)業(yè)務連續(xù)性相關要求,結(jié)合云存儲的特點和現(xiàn)狀,對應急演練的內(nèi)容、實施過程以及預期效果,梳理云存儲的應急演練特別應該注意以下幾個方面:首先,確立組織演練規(guī)劃小組,并確定演練范圍及周期:前期的演練會盡量降低復雜度,在零風險的前提下進行多次小規(guī)模演練,提升管理人員的災難恢復能力。設計演練場景并制定恢復策略:針對應急預案設立不同的演練場景及相應的恢復策略。最后進行實戰(zhàn)演練及總結(jié):監(jiān)控并記錄整個恢復過程,驗證災難恢復流程及備份數(shù)據(jù)的有效性。構(gòu)建基于云架構(gòu)的演練標準體系由于基于云架構(gòu)的業(yè)務平臺,采用分布式計算機存儲系統(tǒng),天然形成了數(shù)據(jù)冗余存儲、具有自動恢復機制,提高了存儲數(shù)據(jù)抵抗外界諸如硬件故障、單臺存儲設備故障等不可抗風險。因此,在構(gòu)建基于云架構(gòu)的演練標準體系方面,要投入更多的關注,覆蓋基礎設施到應用層,底層環(huán)境(物理機、虛擬機、容器)及操作系統(tǒng)(Linux、Windows)、應用容器編排等方面。作者認為構(gòu)建基于云存儲的演練體系應至少應包括:(1)明確云存儲突發(fā)事件應急各環(huán)節(jié)中的角色和責任,提高云存儲各項響應和操作能力;在關注云架構(gòu)環(huán)境中,傳統(tǒng)的存儲設備管理員轉(zhuǎn)變成devops開發(fā)運維工程師,對存儲的運維也從硬件層面轉(zhuǎn)變?yōu)閷煤臀⒎盏闹巍?2)利用多手段組合的方式,構(gòu)建云存儲應急演練手段技術體系;利用真實可模擬的微服務存儲故障等突發(fā)事件應急環(huán)境來訓練參演人員,增強參演人員的心適應能力和調(diào)整能力,縮短突發(fā)事件應急現(xiàn)場的適應期;(3)明確云存儲在應急演練各環(huán)節(jié)關鍵的功能要素,包括SSD云盤的IOPS、吞吐量和訪問時延。并據(jù)此從定性和量化兩個方面構(gòu)建科學的演練效果評估指標體系;(4)針對現(xiàn)行傳統(tǒng)存儲的應急預案、政策法規(guī)及應急流程進行測試和評估,發(fā)現(xiàn)缺點和薄弱環(huán)節(jié)并進行針對性改進;發(fā)現(xiàn)應急資源準備和保障的缺點和薄弱環(huán)節(jié);改進各個環(huán)節(jié)所涉及組織機構(gòu)之間的協(xié)調(diào)和溝通能力;以云原生思維拓寬演練領域分布式云存儲日益復雜,演練領域的確定,也需要拓寬思路,考慮到諸多傳統(tǒng)架構(gòu)中不存在的不確定因素。比如,機器高負載、網(wǎng)絡異常、磁盤IO、節(jié)點調(diào)度等故障,以及云平臺自身的資源、應用服務、容器以及基礎設施各環(huán)節(jié)導致的問題。以國內(nèi)某云存儲為例,分析云存儲相關的各層次下常見故障場景:基于上述的故障場景,云存儲的容錯機制通常包括:云磁盤緩存將數(shù)據(jù)緩存在云磁盤中,對常用的數(shù)據(jù)進行備份,因此,當用戶再次訪問同一數(shù)據(jù)時,就從緩存中訪問,大大縮短了訪問時間。在云存儲容災中,將數(shù)據(jù)信息緩存在容災系統(tǒng)中,可以實現(xiàn)對數(shù)據(jù)的備份和快速恢復。其中,數(shù)據(jù)容災的緩存技術,通常有2種實現(xiàn)方式:第一,本地容災磁盤的飽和計算,該種方法是指通過對單位時間內(nèi)數(shù)據(jù)恢復的次數(shù)進行統(tǒng)計與計算,替換恢復次數(shù)較少的數(shù)據(jù)塊;第二,對異地數(shù)據(jù)信息的恢復計算,所謂的異地數(shù)據(jù)信息恢復計算是指,通過單位時間內(nèi)數(shù)據(jù)塊恢復的次數(shù)確定是否對異地數(shù)據(jù)塊進行替換。映射技術映射技術在一般情況下對云磁盤和程序管理之間形成的映射關系進行處理,它是完成信息儲存的主要技術,映射關系的出現(xiàn)導致了數(shù)據(jù)的自動遷移,而自動遷移是由一種指令的觸發(fā)而形成的自動化操作,如:數(shù)據(jù)的自動保存、復制和粘貼、刪除。當云磁盤遭到損壞后,將映射技術應用到數(shù)據(jù)容災中,容災系統(tǒng)就會自動接收到該項指令,并對相關數(shù)據(jù)進行映射操作。在使用映射技術時,還可對磁盤的透明進行替換,建立云存儲環(huán)境,然后在云存儲環(huán)境中將映射的數(shù)據(jù)進行多項復制和備份到容災系統(tǒng)中,同時,為了避免磁盤的損壞導致數(shù)據(jù)的永久不可還原性,在數(shù)據(jù)備份的過程中可以同時創(chuàng)建多個副本。存儲鏈路冗余由于數(shù)據(jù)容災系統(tǒng)涉及主節(jié)點與冗余備份節(jié)點,因此將它們連接起來的互聯(lián)技術在容災中十分重要。目前,主節(jié)點與冗余備份節(jié)點之間的連接主要是光纖通道連接,主要是基于SAN的遠程復制,即通過光纖通道FC,把2個SAN連接起來,進行遠程復制。當災難發(fā)生時,由備份數(shù)據(jù)中心替代主數(shù)據(jù)中心保證系統(tǒng)工作的連續(xù)性,這種遠程容災備份方式存在的一些缺陷是:實現(xiàn)成本高,設備的互操作性差。數(shù)據(jù)連續(xù)性保護(CDP)Continuous
Data
Protection(CDP)是一個實時的數(shù)據(jù)備份系統(tǒng),它自動將應用數(shù)據(jù)的所有變化實時記錄下來。它的關鍵是將每一個應用數(shù)據(jù)的變化加上了時間索引。這樣,當出現(xiàn)數(shù)據(jù)丟失、數(shù)據(jù)損壞或者安全問題時,就可能恢復到最近的完好數(shù)據(jù)。CDP技術不斷進步,在數(shù)據(jù)損耗的情況下,其允許快速的數(shù)據(jù)恢復,并把數(shù)據(jù)還原到生命周期任一指定點。三、云存儲演練流程及應急預案的建立完善演練程序流程目前在傳統(tǒng)架構(gòu)的應急演練流程中,企業(yè)已意識到應急演練的重要作用,希望通過演練提升自身的應急響應能力。然而在云存儲也缺少規(guī)范化的演練程序,容易出現(xiàn)演練方案不合理、演練腳本不細致、人員培訓不到位、保障準備不充分等問題,導致云存儲的演練質(zhì)量達不到預期要求。針對此問題,應針對云架構(gòu)的特點,探討演練持續(xù)改進方法和流程,設計一套演練程序管理體系,實現(xiàn)從規(guī)劃、設計、實施到評估和改進的全方位管理,逐步完善云存儲的應急演練流程,使其更有效地驗證應急預案的科學性、可行性、有效性。評估IaaS層、PaaS層是否健壯通過模擬底層的基礎設施或者平臺資源負載,驗證調(diào)度系統(tǒng)的有效性;模擬依賴的分布式存儲不可用,驗證系統(tǒng)的容錯能力;模擬調(diào)度節(jié)點不可用,測試調(diào)度任務是否自動遷移到可用節(jié)點;模擬主備節(jié)點故障,測試主備切換是否正常。衡量容器及微服務的容錯能力通過模擬調(diào)用延遲、服務不可用、機器資源滿載等,查看發(fā)生故障的節(jié)點或?qū)嵗欠癖蛔詣痈綦x、下線,流量調(diào)度是否正確,預案是否有效,同時觀察系統(tǒng)整體的QPS或RT是否受影響。在此基礎上可以緩慢增加故障節(jié)點范圍,驗證上游服務限流降級、熔斷等是否有效。最終故障節(jié)點增加到請求服務超時,估算系統(tǒng)容錯紅線,衡量系統(tǒng)容錯能力。驗證容器編排配置是否合理通過模擬殺服務Pod、殺節(jié)點、增大Pod資源負載,觀察系統(tǒng)服務可用性,驗證副本配置、資源限制配置以及Pod下部署的容器是否合理。驗證監(jiān)控告警的時效性通過對系統(tǒng)注入故障,驗證監(jiān)控指標是否準確,監(jiān)控維度是否完善,告警閾值是否合理,告警是否快速,告警接收人是否正確,通知渠道是否可用等,提升監(jiān)控告警的準確和時效性。豐富演練場景,創(chuàng)建基于云存儲的應急預案演練場景可以說是業(yè)務連續(xù)性預案中最為核心的內(nèi)容。在云架構(gòu)模式下,針對云存儲的演練場景,根據(jù)每個故障領域確定演練場景,每個場景下設置演練模板和腳本。再發(fā)起演練階段,只需要選擇好演練場景,即可發(fā)起。云存儲故障演練可適用于以下典型場景:1、云存儲部署在不同的云平臺或者混合云(包括公共云及專有云)場景中,兩朵云同時提供服務,災難場景下進行快速切換,需要統(tǒng)一的容災管控并確保數(shù)據(jù)一致性。2、不同類型的云存儲設備,包括文件存儲、對象存儲、塊存儲。針對不同類型的云存儲類型及故障場景建立不同的應急預案:場景一:云存儲集群中,單臺設備故障無法正常使用使用技術:數(shù)據(jù)連續(xù)性保護技術(CDP)RPO=1Day(可恢復1天前的備份副本);RTO=2-3Hour(200G數(shù)據(jù)需恢復需10Min)。業(yè)務恢復步驟:選擇存儲卷及備份副本,完成云存儲及業(yè)務恢復。場景二:云服務中的文件存儲誤刪除或丟失使用技術:云磁盤緩存技術RPO=1Day(可恢復1天前的文件);RTO=30Min-2Hour(200G數(shù)據(jù)需恢復需10Min)。業(yè)務恢復步驟:選擇虛擬機及備份副本,確認丟失文件的路徑,選擇恢復的目標,完成丟失文件的恢復。場景三:對象存儲損壞或丟失使用技術:備份一體機DP進行恢復RPO=1Day(可恢復1天前的文件);RTO=30Min-2Hour(200G數(shù)據(jù)需恢復需10Min)。業(yè)務恢復步驟:選擇數(shù)據(jù)庫副本文件進行數(shù)據(jù)恢復,恢復后確保數(shù)據(jù)完整性及數(shù)據(jù)庫可用性。場景四:核心業(yè)務系統(tǒng)發(fā)生宕機無法快速恢復使用技術:通過RP技術進行恢復RPO=30sec;RTO=5min。業(yè)務恢復步驟:選擇相應的時間點,進行容災切換,將備機直接開啟,并確認業(yè)務是否可以使用。四、總結(jié)云存儲的演練場景是整個演練體系中非常重要的環(huán)節(jié),將同業(yè)務系統(tǒng)的所有云磁盤放置在一致性組下,業(yè)務恢復時選擇測試選項。容災恢復軟件會將一致性組下災備的業(yè)務系統(tǒng)全部開啟,并允許讀寫,同時將這些虛機放置在一個孤立的網(wǎng)絡下,確保不會對生產(chǎn)環(huán)境造成影響。然后由業(yè)務人員對災備的業(yè)務系統(tǒng)進行測試
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 個稅贍養(yǎng)老人專項附加扣除分攤協(xié)議-約定分攤(經(jīng)濟條件差異型)
- 二零二五年度智能制造數(shù)據(jù)保密協(xié)議承諾書
- 2025年度智慧酒店物業(yè)智能化管理合同
- 二零二五年度減肥俱樂部會員積分兌換服務合同
- 二零二五年度員工股份激勵與公司知識產(chǎn)權許可協(xié)議
- 二零二五年度地質(zhì)災害防治施工安全協(xié)議
- 2025年度綠色建筑節(jié)能改造房屋合同模板
- 2025年度項目經(jīng)理內(nèi)部承包責任制及合同糾紛解決合同
- 二零二五年度終止委托合同書面通知范例
- 2025年度高科技企業(yè)競業(yè)禁止及商業(yè)秘密保護協(xié)議
- 四大名著導讀-課件-(共18張)
- app 購買合同范例
- 高二上學期物理(理科)期末試題(含答案)
- 2024年房地產(chǎn)經(jīng)紀人《房地產(chǎn)經(jīng)紀專業(yè)基礎》考前沖刺必會試題庫300題(含詳解)
- 礦山生態(tài)修復工程不穩(wěn)定斜坡治理工程設計
- 躲避球運動用球項目評價分析報告
- 風機盤管更換施工方案
- 河道整治與生態(tài)修復工程監(jiān)理規(guī)劃
- 2024年度委托創(chuàng)作合同:原創(chuàng)美術作品設計與委托制作3篇
- 建設工程招標代理合同(GF-2005-0215)(標準版)
- 剪映專業(yè)版教學課件
評論
0/150
提交評論