云存儲應(yīng)急演練體系建立及場景設(shè)計_第1頁
云存儲應(yīng)急演練體系建立及場景設(shè)計_第2頁
云存儲應(yīng)急演練體系建立及場景設(shè)計_第3頁
云存儲應(yīng)急演練體系建立及場景設(shè)計_第4頁
云存儲應(yīng)急演練體系建立及場景設(shè)計_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

云存儲應(yīng)急演練體系建立及場景設(shè)計

【導(dǎo)讀】云存儲技術(shù)的應(yīng)用很大程度上降低了企業(yè)構(gòu)建同城和異地容災(zāi)的成本,相比于傳統(tǒng)存儲架構(gòu),云存儲具有完全不同的業(yè)務(wù)特征,比如在數(shù)據(jù)的一致性同步規(guī)則和數(shù)據(jù)更新粒度等方面,這些業(yè)務(wù)特征和應(yīng)用模式的明顯區(qū)別,使云存儲的高可用保護及應(yīng)急體系建設(shè)都區(qū)別于傳統(tǒng)存儲。本文將基于云原生和企業(yè)云架構(gòu)體系的視角,分析如何構(gòu)建云存儲演練的標準體系,通過云存儲幾種常見的高可用容災(zāi)技術(shù),梳理在不同故障場景下的應(yīng)急切換流程,建立符合云存儲標準的應(yīng)急預(yù)案。一、云存儲演練的必要性分析云存儲演練的重要性隨著云計算技術(shù)的推廣,云存儲逐漸成為一種有效解決企業(yè)海量數(shù)據(jù)存儲和管理問題的方式。針對企業(yè)日常生產(chǎn)過程中產(chǎn)生的不同類型非結(jié)構(gòu)化數(shù)據(jù),企業(yè)可選擇相應(yīng)類型的云存儲(包括文件存儲、對象存儲、塊存儲等),對非結(jié)構(gòu)化數(shù)據(jù)進行統(tǒng)一存儲和管理。利用分布式存儲架構(gòu)所提供的的軟件即存儲能力,幫助企業(yè)構(gòu)建了云服務(wù)的基礎(chǔ)系統(tǒng)服務(wù)層,為云上各類的微服務(wù)應(yīng)用提供了云存儲和云共享服務(wù)。針對云存儲及云平臺的基礎(chǔ)設(shè)施建立應(yīng)急切換演練機制,能夠顯著提升企業(yè)處理信息安全事件響應(yīng)能力、降低和預(yù)防發(fā)生信息安全事件產(chǎn)生的損失,保障業(yè)務(wù)連續(xù)性。針對企業(yè)核心數(shù)據(jù)、核心存儲設(shè)備,建立一整套完善的應(yīng)急預(yù)案,構(gòu)建應(yīng)急處置機制,并驗證應(yīng)急保障預(yù)案的有效性等環(huán)節(jié),已經(jīng)成為業(yè)務(wù)連續(xù)性中重要環(huán)節(jié)。云存儲VS傳統(tǒng)存儲云存儲相較于傳統(tǒng)的存儲架構(gòu),云存儲的容災(zāi)服務(wù)通常包括為彈性云計算資源、云硬盤設(shè)備、分布式存儲設(shè)備等服務(wù)提供容災(zāi)的服務(wù)。這些服務(wù)不僅為上層應(yīng)用提供了更為靈活的軟硬件一體化部署模式,同時也兼具更加健壯的高可用模式,尤其是在開展應(yīng)急演練方面:可以基于現(xiàn)有云上的業(yè)務(wù)策略,按需配置云服務(wù)器、云存儲的保護實例。并通過存儲同步復(fù)制技術(shù)、磁盤映射技術(shù)、數(shù)據(jù)緩存冗余等技術(shù)構(gòu)建云存儲的高可用性,為業(yè)務(wù)提供數(shù)據(jù)的可靠性以及業(yè)務(wù)連續(xù)性,從而確保容災(zāi)備份的RPO為0,在演練過程中,云存儲將彈性云服務(wù)器的數(shù)據(jù)、配置信息復(fù)制到容災(zāi)站點,并支持應(yīng)用所在的服務(wù)器停機期間從另外的位置啟動并正常運行,從而提升業(yè)務(wù)連續(xù)性,相比于傳統(tǒng)存儲,基于云存儲的容災(zāi)方式,能夠更好的降低容災(zāi)建設(shè)成本。二、云存儲應(yīng)急場景及標準體系建設(shè)云存儲切換演練及場景建設(shè)根據(jù)企業(yè)業(yè)務(wù)連續(xù)性相關(guān)要求,結(jié)合云存儲的特點和現(xiàn)狀,對應(yīng)急演練的內(nèi)容、實施過程以及預(yù)期效果,梳理云存儲的應(yīng)急演練特別應(yīng)該注意以下幾個方面:首先,確立組織演練規(guī)劃小組,并確定演練范圍及周期:前期的演練會盡量降低復(fù)雜度,在零風險的前提下進行多次小規(guī)模演練,提升管理人員的災(zāi)難恢復(fù)能力。設(shè)計演練場景并制定恢復(fù)策略:針對應(yīng)急預(yù)案設(shè)立不同的演練場景及相應(yīng)的恢復(fù)策略。最后進行實戰(zhàn)演練及總結(jié):監(jiān)控并記錄整個恢復(fù)過程,驗證災(zāi)難恢復(fù)流程及備份數(shù)據(jù)的有效性。構(gòu)建基于云架構(gòu)的演練標準體系由于基于云架構(gòu)的業(yè)務(wù)平臺,采用分布式計算機存儲系統(tǒng),天然形成了數(shù)據(jù)冗余存儲、具有自動恢復(fù)機制,提高了存儲數(shù)據(jù)抵抗外界諸如硬件故障、單臺存儲設(shè)備故障等不可抗風險。因此,在構(gòu)建基于云架構(gòu)的演練標準體系方面,要投入更多的關(guān)注,覆蓋基礎(chǔ)設(shè)施到應(yīng)用層,底層環(huán)境(物理機、虛擬機、容器)及操作系統(tǒng)(Linux、Windows)、應(yīng)用容器編排等方面。作者認為構(gòu)建基于云存儲的演練體系應(yīng)至少應(yīng)包括:(1)明確云存儲突發(fā)事件應(yīng)急各環(huán)節(jié)中的角色和責任,提高云存儲各項響應(yīng)和操作能力;在關(guān)注云架構(gòu)環(huán)境中,傳統(tǒng)的存儲設(shè)備管理員轉(zhuǎn)變成devops開發(fā)運維工程師,對存儲的運維也從硬件層面轉(zhuǎn)變?yōu)閷?yīng)用和微服務(wù)的支撐。(2)利用多手段組合的方式,構(gòu)建云存儲應(yīng)急演練手段技術(shù)體系;利用真實可模擬的微服務(wù)存儲故障等突發(fā)事件應(yīng)急環(huán)境來訓(xùn)練參演人員,增強參演人員的心適應(yīng)能力和調(diào)整能力,縮短突發(fā)事件應(yīng)急現(xiàn)場的適應(yīng)期;(3)明確云存儲在應(yīng)急演練各環(huán)節(jié)關(guān)鍵的功能要素,包括SSD云盤的IOPS、吞吐量和訪問時延。并據(jù)此從定性和量化兩個方面構(gòu)建科學(xué)的演練效果評估指標體系;(4)針對現(xiàn)行傳統(tǒng)存儲的應(yīng)急預(yù)案、政策法規(guī)及應(yīng)急流程進行測試和評估,發(fā)現(xiàn)缺點和薄弱環(huán)節(jié)并進行針對性改進;發(fā)現(xiàn)應(yīng)急資源準備和保障的缺點和薄弱環(huán)節(jié);改進各個環(huán)節(jié)所涉及組織機構(gòu)之間的協(xié)調(diào)和溝通能力;以云原生思維拓寬演練領(lǐng)域分布式云存儲日益復(fù)雜,演練領(lǐng)域的確定,也需要拓寬思路,考慮到諸多傳統(tǒng)架構(gòu)中不存在的不確定因素。比如,機器高負載、網(wǎng)絡(luò)異常、磁盤IO、節(jié)點調(diào)度等故障,以及云平臺自身的資源、應(yīng)用服務(wù)、容器以及基礎(chǔ)設(shè)施各環(huán)節(jié)導(dǎo)致的問題。以國內(nèi)某云存儲為例,分析云存儲相關(guān)的各層次下常見故障場景:基于上述的故障場景,云存儲的容錯機制通常包括:云磁盤緩存將數(shù)據(jù)緩存在云磁盤中,對常用的數(shù)據(jù)進行備份,因此,當用戶再次訪問同一數(shù)據(jù)時,就從緩存中訪問,大大縮短了訪問時間。在云存儲容災(zāi)中,將數(shù)據(jù)信息緩存在容災(zāi)系統(tǒng)中,可以實現(xiàn)對數(shù)據(jù)的備份和快速恢復(fù)。其中,數(shù)據(jù)容災(zāi)的緩存技術(shù),通常有2種實現(xiàn)方式:第一,本地容災(zāi)磁盤的飽和計算,該種方法是指通過對單位時間內(nèi)數(shù)據(jù)恢復(fù)的次數(shù)進行統(tǒng)計與計算,替換恢復(fù)次數(shù)較少的數(shù)據(jù)塊;第二,對異地數(shù)據(jù)信息的恢復(fù)計算,所謂的異地數(shù)據(jù)信息恢復(fù)計算是指,通過單位時間內(nèi)數(shù)據(jù)塊恢復(fù)的次數(shù)確定是否對異地數(shù)據(jù)塊進行替換。映射技術(shù)映射技術(shù)在一般情況下對云磁盤和程序管理之間形成的映射關(guān)系進行處理,它是完成信息儲存的主要技術(shù),映射關(guān)系的出現(xiàn)導(dǎo)致了數(shù)據(jù)的自動遷移,而自動遷移是由一種指令的觸發(fā)而形成的自動化操作,如:數(shù)據(jù)的自動保存、復(fù)制和粘貼、刪除。當云磁盤遭到損壞后,將映射技術(shù)應(yīng)用到數(shù)據(jù)容災(zāi)中,容災(zāi)系統(tǒng)就會自動接收到該項指令,并對相關(guān)數(shù)據(jù)進行映射操作。在使用映射技術(shù)時,還可對磁盤的透明進行替換,建立云存儲環(huán)境,然后在云存儲環(huán)境中將映射的數(shù)據(jù)進行多項復(fù)制和備份到容災(zāi)系統(tǒng)中,同時,為了避免磁盤的損壞導(dǎo)致數(shù)據(jù)的永久不可還原性,在數(shù)據(jù)備份的過程中可以同時創(chuàng)建多個副本。存儲鏈路冗余由于數(shù)據(jù)容災(zāi)系統(tǒng)涉及主節(jié)點與冗余備份節(jié)點,因此將它們連接起來的互聯(lián)技術(shù)在容災(zāi)中十分重要。目前,主節(jié)點與冗余備份節(jié)點之間的連接主要是光纖通道連接,主要是基于SAN的遠程復(fù)制,即通過光纖通道FC,把2個SAN連接起來,進行遠程復(fù)制。當災(zāi)難發(fā)生時,由備份數(shù)據(jù)中心替代主數(shù)據(jù)中心保證系統(tǒng)工作的連續(xù)性,這種遠程容災(zāi)備份方式存在的一些缺陷是:實現(xiàn)成本高,設(shè)備的互操作性差。數(shù)據(jù)連續(xù)性保護(CDP)Continuous

Data

Protection(CDP)是一個實時的數(shù)據(jù)備份系統(tǒng),它自動將應(yīng)用數(shù)據(jù)的所有變化實時記錄下來。它的關(guān)鍵是將每一個應(yīng)用數(shù)據(jù)的變化加上了時間索引。這樣,當出現(xiàn)數(shù)據(jù)丟失、數(shù)據(jù)損壞或者安全問題時,就可能恢復(fù)到最近的完好數(shù)據(jù)。CDP技術(shù)不斷進步,在數(shù)據(jù)損耗的情況下,其允許快速的數(shù)據(jù)恢復(fù),并把數(shù)據(jù)還原到生命周期任一指定點。三、云存儲演練流程及應(yīng)急預(yù)案的建立完善演練程序流程目前在傳統(tǒng)架構(gòu)的應(yīng)急演練流程中,企業(yè)已意識到應(yīng)急演練的重要作用,希望通過演練提升自身的應(yīng)急響應(yīng)能力。然而在云存儲也缺少規(guī)范化的演練程序,容易出現(xiàn)演練方案不合理、演練腳本不細致、人員培訓(xùn)不到位、保障準備不充分等問題,導(dǎo)致云存儲的演練質(zhì)量達不到預(yù)期要求。針對此問題,應(yīng)針對云架構(gòu)的特點,探討演練持續(xù)改進方法和流程,設(shè)計一套演練程序管理體系,實現(xiàn)從規(guī)劃、設(shè)計、實施到評估和改進的全方位管理,逐步完善云存儲的應(yīng)急演練流程,使其更有效地驗證應(yīng)急預(yù)案的科學(xué)性、可行性、有效性。評估IaaS層、PaaS層是否健壯通過模擬底層的基礎(chǔ)設(shè)施或者平臺資源負載,驗證調(diào)度系統(tǒng)的有效性;模擬依賴的分布式存儲不可用,驗證系統(tǒng)的容錯能力;模擬調(diào)度節(jié)點不可用,測試調(diào)度任務(wù)是否自動遷移到可用節(jié)點;模擬主備節(jié)點故障,測試主備切換是否正常。衡量容器及微服務(wù)的容錯能力通過模擬調(diào)用延遲、服務(wù)不可用、機器資源滿載等,查看發(fā)生故障的節(jié)點或?qū)嵗欠癖蛔詣痈綦x、下線,流量調(diào)度是否正確,預(yù)案是否有效,同時觀察系統(tǒng)整體的QPS或RT是否受影響。在此基礎(chǔ)上可以緩慢增加故障節(jié)點范圍,驗證上游服務(wù)限流降級、熔斷等是否有效。最終故障節(jié)點增加到請求服務(wù)超時,估算系統(tǒng)容錯紅線,衡量系統(tǒng)容錯能力。驗證容器編排配置是否合理通過模擬殺服務(wù)Pod、殺節(jié)點、增大Pod資源負載,觀察系統(tǒng)服務(wù)可用性,驗證副本配置、資源限制配置以及Pod下部署的容器是否合理。驗證監(jiān)控告警的時效性通過對系統(tǒng)注入故障,驗證監(jiān)控指標是否準確,監(jiān)控維度是否完善,告警閾值是否合理,告警是否快速,告警接收人是否正確,通知渠道是否可用等,提升監(jiān)控告警的準確和時效性。豐富演練場景,創(chuàng)建基于云存儲的應(yīng)急預(yù)案演練場景可以說是業(yè)務(wù)連續(xù)性預(yù)案中最為核心的內(nèi)容。在云架構(gòu)模式下,針對云存儲的演練場景,根據(jù)每個故障領(lǐng)域確定演練場景,每個場景下設(shè)置演練模板和腳本。再發(fā)起演練階段,只需要選擇好演練場景,即可發(fā)起。云存儲故障演練可適用于以下典型場景:1、云存儲部署在不同的云平臺或者混合云(包括公共云及專有云)場景中,兩朵云同時提供服務(wù),災(zāi)難場景下進行快速切換,需要統(tǒng)一的容災(zāi)管控并確保數(shù)據(jù)一致性。2、不同類型的云存儲設(shè)備,包括文件存儲、對象存儲、塊存儲。針對不同類型的云存儲類型及故障場景建立不同的應(yīng)急預(yù)案:場景一:云存儲集群中,單臺設(shè)備故障無法正常使用使用技術(shù):數(shù)據(jù)連續(xù)性保護技術(shù)(CDP)RPO=1Day(可恢復(fù)1天前的備份副本);RTO=2-3Hour(200G數(shù)據(jù)需恢復(fù)需10Min)。業(yè)務(wù)恢復(fù)步驟:選擇存儲卷及備份副本,完成云存儲及業(yè)務(wù)恢復(fù)。場景二:云服務(wù)中的文件存儲誤刪除或丟失使用技術(shù):云磁盤緩存技術(shù)RPO=1Day(可恢復(fù)1天前的文件);RTO=30Min-2Hour(200G數(shù)據(jù)需恢復(fù)需10Min)。業(yè)務(wù)恢復(fù)步驟:選擇虛擬機及備份副本,確認丟失文件的路徑,選擇恢復(fù)的目標,完成丟失文件的恢復(fù)。場景三:對象存儲損壞或丟失使用技術(shù):備份一體機DP進行恢復(fù)RPO=1Day(可恢復(fù)1天前的文件);RTO=30Min-2Hour(200G數(shù)據(jù)需恢復(fù)需10Min)。業(yè)務(wù)恢復(fù)步驟:選擇數(shù)據(jù)庫副本文件進行數(shù)據(jù)恢復(fù),恢復(fù)后確保數(shù)據(jù)完整性及數(shù)據(jù)庫可用性。場景四:核心業(yè)務(wù)系統(tǒng)發(fā)生宕機無法快速恢復(fù)使用技術(shù):通過RP技術(shù)進行恢復(fù)RPO=30sec;RTO=5min。業(yè)務(wù)恢復(fù)步驟:選擇相應(yīng)的時間點,進行容災(zāi)切換,將備機直接開啟,并確認業(yè)務(wù)是否可以使用。四、總結(jié)云存儲的演練場景是整個演練體系中非常重要的環(huán)節(jié),將同業(yè)務(wù)系統(tǒng)的所有云磁盤放置在一致性組下,業(yè)務(wù)恢復(fù)時選擇測試選項。容災(zāi)恢復(fù)軟件會將一致性組下災(zāi)備的業(yè)務(wù)系統(tǒng)全部開啟,并允許讀寫,同時將這些虛機放置在一個孤立的網(wǎng)絡(luò)下,確保不會對生產(chǎn)環(huán)境造成影響。然后由業(yè)務(wù)人員對災(zāi)備的業(yè)務(wù)系統(tǒng)進行測試

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論