




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、 DOCPROPERTY PartNumber DOCPROPERTY Product&Project Name 華為OceanStor Dorado 全閃存存儲系統 DOCPROPERTY DocumentName 產品技術白皮書目 錄 TOC h z t 標題 1,1,標題 2,2,標題 3,3, 標題 4,4, 標題 5,5, 標題 7,1, 標題 8,2, 標題 9,3, Heading1 No Number,1,Appendix heading 1,1,Appendix heading 2,2,Appendix heading 3,3,Appendix heading 4,4,App
2、endix heading 5,5, Heading 1,1,Heading 2,2,Heading 3,3, Heading 4,4, Heading 5,5, Heading 7,1,Heading 8,2,Heading 9,3 HYPERLINK l _Toc520453331 1 摘要 PAGEREF _Toc520453331 h 1 HYPERLINK l _Toc520453332 2 簡介 PAGEREF _Toc520453332 h 2 HYPERLINK l _Toc520453333 2.1 產品系列 PAGEREF _Toc520453333 h 2 HYPERLI
3、NK l _Toc520453334 2.2 客戶價值 PAGEREF _Toc520453334 h 3 HYPERLINK l _Toc520453335 3 系統架構 PAGEREF _Toc520453335 h 5 HYPERLINK l _Toc520453336 3.1 相關概念 PAGEREF _Toc520453336 h 5 HYPERLINK l _Toc520453337 3.1.1 控制框 PAGEREF _Toc520453337 h 5 HYPERLINK l _Toc520453338 3.1.2 控制器 PAGEREF _Toc520453338 h 7 HY
4、PERLINK l _Toc520453339 3.1.3 硬盤框 PAGEREF _Toc520453339 h 7 HYPERLINK l _Toc520453340 3.1.4 硬盤域 PAGEREF _Toc520453340 h 7 HYPERLINK l _Toc520453341 3.1.5 存儲池 PAGEREF _Toc520453341 h 9 HYPERLINK l _Toc520453342 3.1.6 RAID技術 PAGEREF _Toc520453342 h 10 HYPERLINK l _Toc520453343 3.2 硬件架構 PAGEREF _Toc520
5、453343 h 14 HYPERLINK l _Toc520453344 3.2.1 設備形態(tài) PAGEREF _Toc520453344 h 14 HYPERLINK l _Toc520453345 3.2.2 自研HSSD PAGEREF _Toc520453345 h 16 HYPERLINK l _Toc520453346 盤內磨損均衡 PAGEREF _Toc520453346 h 16 HYPERLINK l _Toc520453347 壞塊管理 PAGEREF _Toc520453347 h 16 HYPERLINK l _Toc520453348 數據冗余保護 PAGEREF
6、 _Toc520453348 h 16 HYPERLINK l _Toc520453349 .1 后臺巡檢 PAGEREF _Toc520453349 h 17 HYPERLINK l _Toc520453350 .2 支持SAS和NVMe協議 PAGEREF _Toc520453350 h 17 HYPERLINK l _Toc520453351 3.2.3 自研芯片 PAGEREF _Toc520453351 h 18 HYPERLINK l _Toc520453352 3.2.4 硬件擴展能力 PAGEREF _Toc520453352 h 19 HYPERLINK l _Toc5204
7、53353 3.2.5 硬件架構特征 PAGEREF _Toc520453353 h 23 HYPERLINK l _Toc520453354 3.3 軟件架構 PAGEREF _Toc520453354 h 23 HYPERLINK l _Toc520453355 3.3.1 FlashLinkTM PAGEREF _Toc520453355 h 24 HYPERLINK l _Toc520453356 冷熱數據分流 PAGEREF _Toc520453356 h 24 HYPERLINK l _Toc520453357 端到端IO優(yōu)先級 PAGEREF _Toc520453357 h 25
8、 HYPERLINK l _Toc520453358 ROW滿分條寫 PAGEREF _Toc520453358 h 25 HYPERLINK l _Toc520453359 全局垃圾回收 PAGEREF _Toc520453359 h 26 HYPERLINK l _Toc520453360 全局磨損均衡/反磨損均衡 PAGEREF _Toc520453360 h 27 HYPERLINK l _Toc520453361 3.3.2 IO流程 PAGEREF _Toc520453361 h 28 HYPERLINK l _Toc520453362 寫流程 PAGEREF _Toc520453
9、362 h 28 HYPERLINK l _Toc520453363 讀流程 PAGEREF _Toc520453363 h 30 HYPERLINK l _Toc520453364 3.3.3 豐富軟件特性 PAGEREF _Toc520453364 h 31 HYPERLINK l _Toc520453365 3.3.4 軟件架構特征 PAGEREF _Toc520453365 h 32 HYPERLINK l _Toc520453366 4 精簡高效Smart系列特性 PAGEREF _Toc520453366 h 33 HYPERLINK l _Toc520453367 4.1 在線重
10、刪(SmartDedupe) PAGEREF _Toc520453367 h 33 HYPERLINK l _Toc520453368 4.2 在線壓縮(SmartCompression) PAGEREF _Toc520453368 h 34 HYPERLINK l _Toc520453369 4.3 智能精簡配置(SmartThin) PAGEREF _Toc520453369 h 35 HYPERLINK l _Toc520453370 4.4 智能服務質量控制(SmartQoS) PAGEREF _Toc520453370 h 36 HYPERLINK l _Toc520453371 4
11、.5 異構虛擬化(SmartVirtualization) PAGEREF _Toc520453371 h 37 HYPERLINK l _Toc520453372 4.6 智能數據遷移(SmartMigration) PAGEREF _Toc520453372 h 38 HYPERLINK l _Toc520453373 5 數據保護Hyper特性 PAGEREF _Toc520453373 h 41 HYPERLINK l _Toc520453374 5.1 快照(HyperSnap) PAGEREF _Toc520453374 h 41 HYPERLINK l _Toc520453375
12、 5.2 克?。℉yperClone) PAGEREF _Toc520453375 h 43 HYPERLINK l _Toc520453376 5.3 遠程復制(HyperReplication) PAGEREF _Toc520453376 h 45 HYPERLINK l _Toc520453377 5.3.1 同步遠程復制 (HyperReplication/S) PAGEREF _Toc520453377 h 45 HYPERLINK l _Toc520453378 5.3.2 異步遠程復制 (HyperReplication/A) PAGEREF _Toc520453378 h 48
13、 HYPERLINK l _Toc520453379 5.4 陣列雙活(HyperMetro) PAGEREF _Toc520453379 h 50 HYPERLINK l _Toc520453380 5.5 兩地三中心(3DC) PAGEREF _Toc520453380 h 51 HYPERLINK l _Toc520453381 6 系統安全和數據加密 PAGEREF _Toc520453381 h 52 HYPERLINK l _Toc520453382 6.1 系統數據加密(Data Encryption) PAGEREF _Toc520453382 h 52 HYPERLINK l
14、 _Toc520453383 6.2 基于角色的訪問控制管理 PAGEREF _Toc520453383 h 54 HYPERLINK l _Toc520453384 7 系統管理及兼容性 PAGEREF _Toc520453384 h 56 HYPERLINK l _Toc520453385 7.1 系統管理 PAGEREF _Toc520453385 h 56 HYPERLINK l _Toc520453386 7.1.1 Device Manager PAGEREF _Toc520453386 h 56 HYPERLINK l _Toc520453387 7.1.2 CLI PAGERE
15、F _Toc520453387 h 56 HYPERLINK l _Toc520453388 7.1.3 Call Home服務 PAGEREF _Toc520453388 h 56 HYPERLINK l _Toc520453389 7.1.4 Restful API PAGEREF _Toc520453389 h 57 HYPERLINK l _Toc520453390 7.1.5 SNMP PAGEREF _Toc520453390 h 57 HYPERLINK l _Toc520453391 7.1.6 SMI-S PAGEREF _Toc520453391 h 57 HYPERLIN
16、K l _Toc520453392 7.1.7 配套工具 PAGEREF _Toc520453392 h 57 HYPERLINK l _Toc520453393 7.2 生態(tài)集成及兼容性 PAGEREF _Toc520453393 h 57 HYPERLINK l _Toc520453394 7.2.1 VVol(Virtual Volumes) PAGEREF _Toc520453394 h 57 HYPERLINK l _Toc520453395 7.2.2 OpenStack集成 PAGEREF _Toc520453395 h 58 HYPERLINK l _Toc520453396
17、7.2.3 虛擬機環(huán)境插件 PAGEREF _Toc520453396 h 59 HYPERLINK l _Toc520453397 7.2.4 主機兼容性 PAGEREF _Toc520453397 h 59 HYPERLINK l _Toc520453398 8 最佳實踐 PAGEREF _Toc520453398 h 61 HYPERLINK l _Toc520453399 9 附錄 PAGEREF _Toc520453399 h 63 HYPERLINK l _Toc520453400 9.1 更多參考信息 PAGEREF _Toc520453400 h 63 HYPERLINK l
18、_Toc520453401 9.2 如何反饋意見 PAGEREF _Toc520453401 h 63 HYPERLINK l _Toc520453402 9.3 縮略語 PAGEREF _Toc520453402 h 64摘要華為公司OceanStor Dorado V3是面向企業(yè)關鍵業(yè)務打造的全閃存存儲系統,采用專為閃存設計的FlashLinkTM 技術,實現0.5ms穩(wěn)定低時延;免網關雙活技術,為客戶提供端到端雙活數據中心解決方案,并可平滑升級到兩地三中心容災方案,實現方案級99.9999%的可靠性;在線重刪和壓縮技術,提供更多的客戶可用容量,減少TCO。OceanStor Dorado
19、 V3能夠滿足數據庫、虛擬桌面 (VDI)、虛擬服務器架構 (VSI) 和 SAP HANA等企業(yè)級應用的關鍵需求,助力金融、制造、運營商等行業(yè)向全閃存時代平滑演進。本文從產品定位、硬件架構、軟件架構、特性方面詳細介紹了OceanStor Dorado V3全閃存存儲系統的關健技術,以及為客戶帶來的獨特價值。簡介產品系列OceanStor Dorado V3包括Dorado5000 V3 (包括 NVMe和SAS版本)、Dorado6000 V3幾款產品。OceanStor Dorado5000 V3OceanStor Dorado6000 V3詳細產品規(guī)格信息請參見: HYPERLINK /
20、cn/products/cloud-computing-dc/storage/unified-storage/dorado-v3 /cn/products/cloud-computing-dc/storage/unified-storage/dorado-v3客戶價值OceanStor Dorado V3 在軟件架構上針對Flash介質做了深度優(yōu)化,同時又集成了華為存儲十幾年的技術積累和OceanStor OS存儲操作系統的豐富特性,如:快照、克隆、同步/異步復制,雙活,3DC、QoS、遷移,Thin等,給客戶提供極致性能體驗的同時,又提供無與倫比的數據保護能力。OceanStor Dorad
21、o V3通過技術創(chuàng)新,在以下方面為客戶創(chuàng)造價值。極致性能在銀行、海關、證券等極致性能要求場景,Dorado V3能夠提供小于0.5ms的穩(wěn)定時延和高吞吐量,極大提高客戶的業(yè)務處理效率以及減少批處理業(yè)務需要的時間窗。靈活擴展Dorado V3支持Scale-out和Scale-up靈活擴展,以滿足客戶對極致性能和大容量的訴求。針對極致性能場景,可以采用Scale-out方式增加控制器,IOPS和帶寬能夠隨控制器增加線性增加,低時延保持不變。針對大容量需求,可以通過擴展磁盤框的方式進行Scale-up。穩(wěn)定可靠通過部件、系統、解決方案三級可靠性設計和實現,保證系統的可靠性。作為核心部件的華為自研S
22、SD(HSSD)盤片內部實現了閃存顆粒內部(LDPC糾錯算法)、閃存顆粒間(閃存顆粒間RAID)的兩級可靠性方案,實現芯片級的失效數據保護;智能矩陣式多控架構、創(chuàng)新的RAID2.0+及RAID-TP技術和針對閃存設計的FlashLinkTM等技術,使得系統無單點故障、能夠容忍3盤同時失效和提升閃存壽命;無網關雙活,實現站點發(fā)生事故或者災難情況下業(yè)務RTO=0和RPO=0,業(yè)務連續(xù)性不受影響。融合高效采用在線全局重刪和壓縮技術,同等可用容量,全閃存節(jié)省75% CAPEX;支持與華為OceanStor V3融合存儲通過遠程復制組成容災網絡,實現全閃存陣列與傳統存儲的融合;通過異構虛擬化和遠程復制,
23、實現與華為傳統存儲以及第三方陣列的融合。系統架構相關概念控制框OceanStor Dorado V3的控制框(Controller Enclosure,簡稱CTE)是指包含存儲控制器在內的硬件框,負責所有存儲業(yè)務邏輯的處理,提供主機訪問、設備管理、數據服務等核心功能。包括:系統插框、控制器、接口模塊、電源、BBU、管理模塊等。Dorado V3系列支持2U、3U、6U三種控制框形態(tài),分別支持盤控一體和盤控分離設計。OceanStor Dorado 2U控制框1系統插框2硬盤模塊3電源-BBU模塊4控制器(含接口板)OceanStor Dorado V3 3U控制框1系統插框2BBU模塊3控制器
24、4電源模塊5管理模塊6接口模塊OceanStor Dorado V3 6U控制框1系統插框2控制器3BBU模塊4電源模塊5管理模塊6接口模塊控制器OceanStor Dorado V3控制器是包含CPU、內存、主板等硬件的計算模塊,主要負責處理存儲業(yè)務、接收用戶的配置管理命令、保存配置信息、接入硬盤和保存關鍵信息到保險箱硬盤。保險箱盤分為內置和外置兩種保險箱盤,用于保存存儲系統的數據和系統掉電后Cache中的數據。每個控制器內置一個或多個硬盤,稱為內置保險箱盤。外置保險箱盤位于控制器外,對于Dorado5000 V3系列,控制框自帶硬盤模塊中的前4塊硬盤作為保險箱盤;對于Dorado6000
25、V3系列,存儲系統中第一個硬盤框的前4塊硬盤規(guī)劃為保險箱盤。(具體各型號保險箱盤規(guī)格及分區(qū)參考: HYPERLINK /hedex/hdx.do?docid=EDOC1000141860&lang=zh OceanStor Dorado5000 V3, Dorado6000 V3 產品文檔)一個控制框支持2個控制器或4個控制器,兩兩配對成一個高可用控制器對。在單控制器故障的時候,可以由其配對的另一個控制器接管存儲處理業(yè)務,保證系統的高可用性??刂破髑岸送ㄟ^IO模塊提供主機業(yè)務接入的訪問接口,支持8G/16GFC/10GE/FCoE/56G IB主機接口。硬盤框OceanStor Dorado
26、V3硬盤框支持25盤位的2.5英寸SAS SSD,包括:系統插框、級聯模塊、電源模塊和硬盤模塊,提供2個SAS3.0級聯接口,是系統容量Scale-up的基本單位。硬盤框硬件架構1系統插框2硬盤模塊3電源模塊4級聯模塊硬盤域硬盤域是由多塊硬盤組合而成,RAID組在硬盤域的范圍內選擇成員盤。OceanStor Dorado V3支持創(chuàng)建一個或者多個硬盤域,支持跨控制框創(chuàng)建硬盤域(硬盤域最大只能跨2個控制框創(chuàng)建)。硬盤域跨控制框上圖示例為一個Dorado V3雙控制框系統,可以對系統的所有硬盤創(chuàng)建一個硬盤域,也可以對每個控制框分別創(chuàng)建一個硬盤域。硬盤域有熱備策略和加密類型兩個屬性。熱備策略提供高、
27、低、無三種策略,熱備策略可以在線修改。高:高熱備空間比例,硬盤域會預留更多的熱備空間用于硬盤故障時存儲系統重構數據。熱備空間的容量隨著硬盤數量的增加呈非線性增長。低(默認值):低熱備空間比例,硬盤域會預留較少(至少保障重構一塊硬盤的空間)的熱備空間用于硬盤故障時存儲系統重構數據。熱備空間的容量呈非線性增加。無:系統不提供熱備空間。硬盤域熱備空間容量隨硬盤數量的變化情況(表中列出了200盤以內的情況)硬盤數高熱備策略熱備空間(塊)低熱備策略熱備空間(塊)8121113252265032517547612553126175617620074硬盤域支持普通硬盤域和加密硬盤域兩個選項,此屬性在創(chuàng)建硬盤
28、域時配置,一旦配置無法更改。普通硬盤域:非加密的普通硬盤可以創(chuàng)建普通硬盤域,加密硬盤也可以創(chuàng)建普通硬盤域作為非加密硬盤,但無法啟用加密功能;加密硬盤域:只能使用加密硬盤創(chuàng)建,并需要配置密管服務。硬盤域創(chuàng)建示例存儲池存儲池創(chuàng)建于硬盤域中,是存放存儲空間資源的容器,所有應用服務器使用的存儲空間都來自于存儲池。一個硬盤域中包含一個存儲池。創(chuàng)建存儲池的時候,需要指定RAID級別。存儲池的容量會默認包括選定的硬盤域的所有可用容量。存儲池默認RAID策略配置為RAID 6, RAID 6可以滿足絕大部分場景的可靠性要求,同時可以提供較好的性能和容量利用率。在單盤容量較大的場景下(如8T盤),單盤重構時間很
29、長會降低可靠性,此時使用RAID-TP可以彌補可靠性的降低。創(chuàng)建存儲池RAID技術OceanStor Dorado V3 RAID技術采用華為專利EC(Erase-Code)算法,能夠同時支持RAID 5,RAID 6,RAID-TP,RAID10*。RAID-TP能夠容忍三盤失效,提供更高的可靠性。如有*號標注處規(guī)格要求,請聯系華為銷售人員。OceanStor Dorado V3 數據冗余機制RAID采用RAID2.0+塊級虛擬化技術:多個SSD組成一個硬盤域;每個SSD盤被切分成固定大小的Chunk(簡稱CK,大小為4MB)進行邏輯空間管理;來自不同SSD盤的CK按照客戶配置RAID冗余級
30、別組成Chunk組(CKG)。CKG冗余算法支持3種冗余度配置:RAID 5,采用EC-1算法,每個校驗條帶生成1個校驗數據;RAID 6,采用EC-2算法,每個校驗條帶生成2個校驗數據;RAID-TP,采用EC-3算法,每個校驗條帶生成3個校驗數據;CKG再被劃分為更細粒度的Grain,通常為8K,為滿分條寫盤的最小粒度,OceanStor Dorado V3 寫盤采用滿分條寫,避免傳統RAID的大小寫導致系統額外開銷。RAID映射流程如下所示:OceanStor Dorado V3 RAID冗余映射圖OceanStor Dorado V3 通過EC算法,RAID組能夠支持更多的成員盤數,能
31、夠獲取更高的空間利用率。EC算法支持的RAID利用率RAID級別EC算法推薦的成員盤數RAID利用率傳統算法推薦成員盤數RAID利用率RAID 522+195.6%7+187.5%RAID 621+291.3%14+287.5%RAID-TP20+386.9%不支持NA當發(fā)生硬盤故障或者長時間拔出時,該硬盤上的Chunk將通過所在的CKG進行RAID重構。具體描述如下:硬盤故障,導致該硬盤上的Chunk不可用;故障Chunk所在的CKG處于RAID降級狀態(tài);系統從存儲池中分配空余的CK用于數據修復;系統根據存儲池的RAID級別,利用校驗列和未損壞的數據列,計算出損壞的數據塊寫到空閑的CK中;由
32、于故障硬盤導致多個Chunk不可用,多個chuck又分布在多個CKG中,多個CKG將同時啟動重構,而新分配的Chunk也是分布在多個硬盤中,所以重構過程是故障硬盤所在的硬盤域內所有硬盤都可能參與重構,充分利用了系統所有硬盤的IO能力,可以極大的提升數據重構速度,縮短數據恢復時間。Dorado V3 RAID重構采用動態(tài)RAID重構,并支持兩種重構方式:普通重構和縮列重構,系統自動選擇重構方式,保證各種場景下RAID冗余度不降低,維持高可靠。普通重構通過將恢復數據寫入新分配CK的重構稱為普通重構,重構前后RAID成員列數保持不變。RAID成員列數為M+N(M為數據列數,N為校驗列數),如果硬盤域
33、中狀態(tài)正常的成員盤數大于等于M+N,則執(zhí)行普通重構。重構過程中,對故障的CKG,系統選擇空閑的CK替換故障的CK,然后進行數據重構。如下圖所示,D0、D1、D2、P、Q組成CKG,當disk2發(fā)生故障,那么從disk5中選擇一個CK(D2_new)替換disk2中的D2,把D0、D1、D2_new、P、Q一起組成CKG,把D2中的數據重構到D2_new中;普通重構完成后,所有的數據保持RAID成員盤數不變,冗余級別不變。普通重構示意圖縮列重構當硬盤域可用成員盤數小于RAID成員盤數時,系統將采用縮列重構??s列重構和普通重構不同的地方是,由于硬盤域總的可用硬盤小于RAID成員盤數,縮列重構時保持
34、N(校驗列)不變,減少M(數據列)的方式進行重構,重構前后RAID校驗列數不變,數據列數變少。發(fā)生縮列重構時候,故障CK的數據,會重新寫入到新的CKG上,RAID列數將減少(如果系統只有M+N-1塊盤,那么新的CKG就是M-1+N)。未故障的數據列(M-1),加上新選擇的P、Q列,組成新的CKG,數據列保持不變,重新計算P、Q。如下圖所示,以6塊可用盤(4+2)為例,disk2發(fā)生故障,那么CKG0中的數據D2會當做新數據寫到新的CKG1上(圖中D2),RAID列數則為3+2;原CKG0上的數據D0、D1、D3則重新計算P、Q組成3+2的新CKG0??s列重構完成后,RAID組成員盤數減少,但是
35、RAID冗余級別不變。縮列重構示意圖RAID列數是根據硬盤域的硬盤數由系統自動調整。OceanStor Dorado V3在選擇RAID列數時是綜合考慮了容量的利用率,RAID可靠性和重構速率等因素。硬盤域中硬盤數與RAID列數的對應關系如下表:RAID列數與硬盤域硬盤數對應表硬盤域硬盤數RAID列數高熱備策略熱備空間X(812)X-11X(1325)X-22X(2627)X-33X(X27)25大于等于3RAID列數M+N遵循如下原則:當硬盤域內故障的硬盤數小于等于高熱備策略熱備空間內的盤數,系統均不應引起縮列重構。盡量保證較高的容量利用率。M+N不大于25。當盤數小于13盤時,熱備空間為1
36、個盤的容量,RAID列數M+N為X-1,優(yōu)先保證了系統容量利用率。當盤數大于等于13盤小于25盤時,高熱備空間2個盤的容量,RAID列數M+N為X-2,優(yōu)先保證系統在損壞多塊硬盤時盡量避免產生縮列重構。當盤數在2627盤之間時,此時參照表3-1,高熱備策略的情況下,系統是有3塊盤的空間作為熱備空間。由于熱備空間是系統設計的允許的壞盤數,在這個范圍內的壞盤(這里指的不是同時損壞的情況)均應視為正常故障場景。此時RAID列數選擇為X-3,是為了保證客戶當系統先后故障達3塊盤時,系統不啟動縮列重構。當盤數大于27盤后,系統采用最大M+N為25,既保證了較好的容量利用率又避免M+N數值太大時RAID重
37、構而引起的讀放大過程。比如采用30+2的RAID算法,那么損壞一塊盤時,故障CKG中每重構一個CK都需要讀取另外30個盤的CK,產生了較大的讀放大,因此系統設計最大M+N為25。系統擴容時,RAID策略中的M+N將隨著盤數的增加而增加。所有新寫入的數據(包括垃圾回收產生的寫入數據),都將采用新的M+N的方式來寫入。原有數據保持原來的RAID列數不變。比如,系統硬盤域內原有15塊硬盤,采用的RAID策略為RAID6,對照表3-3那么M+N為11+2,如果客戶擴容至25塊盤,那么新數據寫入為21+2,而原來的數據保持11+2不變。當系統啟動垃圾回收時,會把11+2中的有效CK寫入到21+2中,原先
38、11+2的CKG將會被存儲池回收。OceanStor Dorado V3數據冗余和恢復機制優(yōu)勢如下:快速重構:硬盤域所有盤參與重構。根據實測數據OceanStor Dorado V3 1TB數據不帶業(yè)務重構只需要30min可以完成,而傳統RAID重構1TB數據的時間超過2小時。RAID保護機制靈活,可靠性高:OceanStor Dorado V3支持3種不同級別的RAID冗余機制,用戶可以根據不同業(yè)務場景靈活選擇,對于可靠性要求高場景,RAID-TP可以提供同時故障3盤可靠性保障。支持智能選擇RAID成員盤策略:在系統發(fā)生單盤持續(xù)故障場景,通過智能縮減RAID成員盤機制以及縮列重構,保證新寫入
39、的數據還是可以保持原來的冗余度級別,不會因此導致數據降級寫,降低數據數據保護可靠性。避免傳統RAID的Write Hole導致數據不一致:OceanStor Dorado V3采用滿分條追加寫的方式,避免傳統RAID 由于Write Hole問題而引入的數據不一致問題。硬件架構OceanStor Dorado V3系列存儲系統采用智能矩陣式多控架構,以控制框為單位橫向擴擴展,達到性能和容量的線性增長。單個控制框采用雙控冗余架構,雙控間采用板載PCIE3.0實現雙控緩存鏡像通道,多控制框之間通過PCIe3.0交換機實現Scale-out。后端硬盤框擴展采用SAS3.0實現硬盤框的Scale-up
40、。控制框內硬盤通過雙端口連接到兩個控制器,支持SAS接口的SSD和NVMe接口的SSD兩種類型硬盤。通過BBU(Backup Battery Unit),在系統掉電時把cache中的緩存數據持久化到保險箱盤上實現緩存數據的保護和系統掉電后的數據一致性。主機接口采用華為自主研發(fā)的SmartIO卡支持16GFC、10GE/FCoE接口的融合,同時支持56G的IB接口。存儲智能矩陣式多控架構設備形態(tài)OceanStor Dorado V3系列包含OceanStor Dorado5000 V3和OceanStor Dorado6000 V3二種產品形態(tài)。OceanStor Dorado V3產品形態(tài)產品
41、型號控制框形態(tài)控制器數/控制框硬盤類型Dorado5000 V3盤控一體(2U)2NVMe/SASDorado6000 V3控制框和硬盤框獨立架構(3U)2SASOceanStor Dorado5000 V3采用盤控一體,實現高密度的性能和容量??刂瓶驗?U背板互聯的雙控架構,硬盤有NVMe接口和SAS接口兩種類型。NVMe版本后端通過PCIe交換芯片擴展,連接到25個2.5英寸雙端口NVMe SSD;SAS版本后端通過SAS交換芯片擴展,連接到25個2.5英寸雙端口SAS SSD。OceanStor Dorado5000 V3 NVMe 設備架構圖OceanStor Dorado5000 V
42、3 SAS 設備架構圖OceanStor Dorado6000 V3均采用控制框和硬盤框分離的架構,控制框為3U背板互聯的雙控架構,可實現靈活的Scale-out和Scale-up的擴展??刂瓶騼鹊目刂破魍ㄟ^背板上的PCIE3.0通道互聯,跨控制框通過PCIE3.0交換機實現Scale-out。通過SAS3.0支持硬盤框的擴展以實現容量的Scale-up。自研HSSDOceanStor Dorado V3采用自主研發(fā)的SSD(HSSD),通過存儲軟件和HSSD盤的深度配合,可以發(fā)揮Dorado V3全閃存系統的極致性能。SSD主要由控制單元和存儲單元(當前主要是FLASH閃存顆粒)組成,控制單
43、元包括SSD控制器、主機接口、DRAM等,存儲單元主要是NAND FLASH顆粒。NAND FLASH內部存儲讀寫的基本單元為Block和Page。Block:能夠執(zhí)行擦除操作的最小單元,通常由多個Page組成;Page:能夠執(zhí)行編程和讀操作的最小單元,通常大小為4KB/8KB/16KB等。對NAND FLASH讀寫數據的操作主要涉及擦除(Erase)、編程(Program)和讀(Read),其中編程和讀的基本操作單位是Page,擦除的基本操作單位是Block。在寫入一個Page之前,必須要擦除這個Page所在的整個Block。因此在寫入某個Page時,需要把Block中其他有效的數據拷貝到新
44、的存儲空間,從而把原先的整個Block擦除,這一過程稱為垃圾回收(Garbage Collection,簡稱GC)。每一次對Block的編程寫入和擦除稱為一次P/E(Program/Erase)。不同于機械硬盤HDD,SSD盤中對每個Block的擦寫次數是有限制的。如果某些Block的擦寫次數太多,將會導致該Block不可用。針對SSD的這些特點,華為自研的HSSD盤采用了多項關鍵技術來保證SSD的可靠性和性能。盤內磨損均衡磨損均衡是指SSD控制器通過對NAND Flash中Block的P/E次數進行監(jiān)控,通過一定的軟件算法使所有Block的P/E次數比較平均,防止單個Block因過度擦寫而導
45、致失效,延長NAND FLASH整體的使用壽命。華為HSSD采用的磨損均衡分為動態(tài)磨損均衡和靜態(tài)磨損均衡。動態(tài)磨損均衡是指在主機數據寫入的時候,優(yōu)先挑選磨損較小的Block使用,這樣保證P/E消耗平均分布;靜態(tài)磨損均衡是指盤片定期在整個盤片的范圍內尋找P/E消耗較少的Block并回收其上的有效數據,從而使得保存冷數據的Block也參與到磨損均衡的循環(huán)中。HSSD通過這2種方案的結合來保證全盤磨損均衡。壞塊管理NAND FLASH芯片在制造和使用過程中會逐漸出現一些不符合要求的存儲單元,此類Block將被標志為壞塊。HSSD根據大量的實驗數據和應用場景確定了壞塊的判斷標準,該標準會根據NAND
46、FLASH的擦寫次數,錯誤類型,發(fā)生的頻率等因素來判斷Block是否為壞塊。如果出現壞塊,則通過NAND FLASH間XOR冗余校驗數據來計算出壞塊上的數據,并將數據恢復到新的可用Block上。在一個SSD生命周期內,盤片大概會出現1.5%左右的壞塊,HSSD在盤片內部預留了空間用作壞塊替換,確保在生命周期內可能出現的壞塊可以及時被替換,保障SSD上的數據安全可靠。數據冗余保護由于SSD在使用過程中可能會出現數據位翻轉和跳變,HSSD采用冗余校驗對用戶數據進行多維度的保護。數據在SSD的DRAM中使用了ECC和CRC校驗來防止數據跳變和篡改;數據在NAND FLASH中使用了LDPC和CRC校
47、驗來保護Page上的數據;而在不同的NAND FLASH之間則采用了XOR冗余進行保護以防止顆粒失效導致的數據丟失。多維度數據冗余保護LDPC即低密度奇偶校驗碼(Low Density Parity Check Code),是通過校驗矩陣定義的一類線性碼,主要用于數據校驗和糾錯,廣泛應用于無線通信、衛(wèi)星數字傳輸等領域。在數據寫入NAND FLASH的Page時,計算出數據的LDPC校驗信息一起寫入到Page中;在從Page中讀取數據的時候通過LDPC進行校驗和糾錯。HSSD盤片還通過閃存顆粒間內置XOR異或引擎對用戶數據進行冗余保護,當Flash顆粒出現物理故障(頁失效、塊失效、DIE失效甚至
48、顆粒失效)時,采用校驗數據塊對故障塊上的用戶數據進行恢復,確保用戶數據不丟失。后臺巡檢NAND FLASH上的數據會由于存放時間過長,讀干擾、寫干擾、隨機失效等原因導致數據發(fā)生錯誤。HSSD會周期性的讀取NAND FLASH上的數據,識別數據跳變情況,對于出現高比特位跳變的數據及時讀取并寫入到新的Page。通過這一后臺巡檢過程可以提前識別出現的風險并進行處理,能有效防止這些錯誤導致的數據丟失,提高數據的安全性和可靠性。支持SAS和NVMe協議華為自主研發(fā)的HSSD支持SAS和NVMe(Non-Volatile Memory Express)接口。NVMe協議相對傳統的SAS協議更為簡潔高效:從
49、軟件棧來看,去掉了SCSI層,協議交互次數減少;從硬件傳輸路徑來看,無需SAS控制器、SAS Expander,直接與CPU通過PCIe總線連接,實現更低的時延。同時NVMe可以支持更大的并發(fā)和隊列深度(64K個隊列,每隊列深度可達64K),充分發(fā)掘SSD的性能。華為自研的NVMe接口的SSD通過多年在閃存技術方面的積累,能夠支持雙端口,熱插拔能力,有效的提升了系統的性能、可靠性和可維護性。NVMe盤片與SAS盤片傳輸路徑對比NVMe SSD寫請求數據間通信次數相比SAS SSD從4次減少到2次。如下圖所示:SAS:在SCSI(SAS后端)協議會通過4次協議交互的步驟才能完成一次寫操作;NVM
50、e:在NVMe協議只需要2次協議交互就能完成一次寫操作。NVMe協議與SAS協議交互流程對比 自研芯片華為通過在芯片領域不斷的積累和持續(xù)投入,自主開發(fā)了SSD盤片控制器芯片、前端接口芯片(SmartIO芯片)、板級管理 BMC 芯片等存儲系統的一些關鍵芯片,并應用在OceanStor Dorado V3上。SSD控制器芯片:HSSD使用華為自研的新一代控制器,該控制器是一款面向企業(yè)級應用,提供目前業(yè)界標準SAS 3.0X2和PCIe 3.0X4接口,該控制器具備高性能、低功耗特點。針對介質磨損壽命下降的問題,通過增強ECC、內置RAID等技術延長SSD壽命,滿足企業(yè)級可靠性應用要求;該控制器使
51、用28nm工藝并支持最新的DDR4、SAS 12Gb/s、PCIe 8Gb/s接口速率以及硬件加速FTL等技術,為企業(yè)級應用提供穩(wěn)定、低時延的性能。SmartIO芯片:Hi182x(IOC)芯片是華為公司在存儲接口芯片領域的第一顆獨立開發(fā)的芯片,自研并集成10GE/8GFC/16GFC/FCoE多種協議接口,性能卓越、接口密度高,協議種類多、端口靈活可變,為存儲量身打造,構建獨特的不可替代的價值。BMC芯片:Hi1710是一款針對 X86 CPU 平臺的板級管理 BMC 芯片,包括A9 CPU,協處理 8051、傳感器電路、控制電路、接口電路等組件。支持IPMI(Intelligent Pla
52、tform Management Interface)即智能平臺管理接口標準,實現了對存儲系統硬件部件的監(jiān)測和控制,包括:系統上下電控制,控制板監(jiān)控,接口卡監(jiān)控,電源/BBU管理,風扇監(jiān)控等主要功能。硬件擴展能力OceanStor Dorado V3架構設計同時支持Scale-up和Scale-out兩種能力,給用戶提供靈活的擴展方式。Dorado V3支持Scale-out和Scale-upScale-upOceanStor Dorado V3 Scale-up能力,控制框和硬盤框之間通過冗余SAS3.0鏈路直連。Dorado6000 V3硬盤框級聯采用雙上行組網,Dorado5000 V3
53、 SAS級聯的硬盤框采用單上行組網方式。雙上行是指硬盤框的兩個級聯口都作為上行口與控制器連接,每個硬盤框與控制框通過4條SAS線纜進行連接。OceanStor Dorado V3 雙上行組網SSD盤片相比傳統磁盤,單盤性能大幅提升。相比傳統的磁盤存儲系統,全SSD存儲系統的性能瓶頸點從盤轉移到了SAS級聯鏈路及控制器CPU處理能力等方面。通過采用雙上行組網,消除鏈路瓶頸,提升系統后端帶寬,降低時延。單上行組網,是指硬盤框的一個級聯口作為上行口與控制器連接,每個硬盤框與控制框通過2條SAS線纜進行連接。OceanStor Dorado V3單上行組網Dorado5000 V3 SAS是盤控一體架
54、構,控制框中的25盤采用雙上行方式,外接的硬盤框采用單上行級聯組網實現容量的擴展。在首次部署的時候,推薦使用相同容量的硬盤。在后續(xù)擴容時,新擴的硬盤可以是相同容量的盤,也可以擴展為更大容量的盤。SSD盤容量會越來越大,通過支持擴展更大容量的盤,客戶后期擴容時可以選擇當時最主流的盤片,降低TCO。Scale-outOceanStor Dorado V3 支持Scale-out能力,一個控制框內部的2個或者4個控制器,采用控制框背板上的鏡像通道互聯;控制框之間采用PCIe3.0交換機進行互聯。每個控制器通過雙端口的PCIe接口卡,分別接到兩臺PCIe交換機上,形成冗余鏈路。任何一個交換機、控制器、
55、接口卡、鏈路故障,系統都有冗余能力,保證系統的高可用性。詳細的組網如下圖所示:OceanStor Dorado V3 Scale-out數據網絡互聯組網示意圖Scale-out互聯的管理網絡采用菊花鏈的方式連接。菊花鏈把控制器和PCIe交換機一起納入管理,節(jié)省管理網絡的交換機端口,為客戶節(jié)省網絡資源。Scale-out管理網絡互聯組網示意圖硬件架構特征極致性能:端到端高速架構,PCIe 3.0總線;SAS 3.0硬盤接口/PCIe 3.0 * 4硬盤接口;16G FC/10GE/FCoE/56G IB主機接口;高性能自研硬盤NVMe SSD的應用,實現更高的性能,更低的時延;穩(wěn)定可靠:采用成熟
56、硬件,全冗余硬件架構經過現網上萬套系統驗證,穩(wěn)定可靠。穩(wěn)定可靠的PCIe暴力熱拔插技術,確保系統支持NVMe SSD在線維護和更換;極致高效:同時支持Scale-out和Scale-up,控制器和硬盤均可在線擴展。模塊化設計,IO模塊采用可熱插拔設計,前端、后端接口支持靈活按需配置。軟件架構OceanStor DoradoV3采用華為自研的面向SSD設計的OceanStor OS存儲軟件,通過特有的FlashLinkTM技術和豐富的特性為用戶提供高性能、高可靠、高效率的存儲產品。OceanStor Dorado V3軟件架構框圖存儲控制器軟件架構整體分為管控面(Cluster & Manage
57、ment)和業(yè)務面。管控面提供系統運行的基本環(huán)境,多控Scale-out的管理控制邏輯,以及告警、性能監(jiān)控和用戶操作管理。業(yè)務面負責存儲業(yè)務IO調度,實現數據Scale-out能力以及FlashLinkTM技術中控制器軟件相關的功能,諸如重刪壓縮、ROW滿分條寫、冷熱數據分流、垃圾回收、全局磨損均衡與反磨損均衡等功能。FlashLinkTMFlashLinkTM技術的核心是通過一系列針對閃存介質的優(yōu)化技術,實現了存儲控制器和SSD之間的的協同和聯動,在保證可靠性的同時,最大限度的發(fā)揮閃存的性能。FlashLinkTM針對閃存介質特點設計的關鍵技術主要有:冷熱數據分流技術、端到端IO優(yōu)先級、RO
58、W滿分條寫,全局垃圾回收以及全局磨損均衡/反均衡等有效的解決了閃存系統中寫放大、垃圾回收給系統帶來的性能抖動等問題,保障了OceanStor Dorado V3穩(wěn)定的低時延和高IOPS。冷熱數據分流在SSD的垃圾回收過程中,對于每次擦除的Block,SSD硬盤期望該Block中所有數據都是無效數據,這樣就可以直接擦除整個Block,而不用搬移有效數據,可以減少系統的寫放大。而存儲系統中不同數據具備不同的冷熱程度。比如:系統的元數據更新頻繁,屬于熱數據,產生垃圾的概率更高;而用戶數據一般修改的頻率要低,屬于冷數據,產生垃圾的概率要低。FlashLinkTM技術通過硬盤驅動和控制器軟件配合,在控制
59、器軟件中將修改頻率不同的數據(元數據、用戶數據)帶上不同的標示發(fā)給SSD,使得冷熱數據存放在不同的Block中,從而增加Block中數據同時無效的概率,達到減少GC過程中搬移有效數據的數據量,提升SSD的性能及可靠性。冷熱數據分流技術示意圖下圖中紅色代表元數據,灰色代表用戶數據。使用冷熱數據分流技術前,用戶數據和元數據混合分布在SSD盤片的相同Block上。由于元數據變化快,很快成為垃圾數據,盤片進行Block擦除的時候,就需要把有效的用戶數據搬移到新的Block上。使用冷熱數據分流技術后,元數據和數據分布到不同的Block上。對元數據所在的Block,該Block上的數據很快都會成為垃圾,B
60、lock擦除需要搬移的有效數據就很少。冷熱數據分流技術效果示意圖端到端IO優(yōu)先級OceanStor Dorado V3為保證穩(wěn)定時延,控制器對各類IO進行了優(yōu)先級標識。根據這些標識,系統在CPU調度、資源調度、排隊等方面進行控制,實現端到端的優(yōu)先級保障。如SSD在接收IO時,會檢查IO的優(yōu)先級標識,并優(yōu)先處理高優(yōu)先級IO,實現SSD盤對高優(yōu)先級IO的快速響應。OceanStor Dorado V3系統把IO分為5類:數據讀寫IO,高級特性IO,重構IO,Cache刷盤寫IO,垃圾回收IO,并為這5類IO分別賦予從高到低的優(yōu)先級(如下圖所示)。通過對這些IO的優(yōu)先級控制,從整體上獲得最均衡的內外
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 奉賢區(qū)羽毛球球場施工方案
- 水庫牧道及庫區(qū)清施工方案
- 長沙設備內襯防腐施工方案
- 2025年中國搬運機器人產業(yè)深度分析、投資前景及發(fā)展趨勢預測報告
- 生態(tài)補償機制的建設與完善策略及實施路徑
- 中西通俗小說賞析知到課后答案智慧樹章節(jié)測試答案2025年春溫州理工學院
- 2025年電子金融相關設備項目建議書
- 數學高考備考講義第三章不等式35
- 燈條施工方案模板
- 2025年高三二輪專題復習學案地理(藝體生專用)第26講地區(qū)產業(yè)結構變化與產業(yè)轉移
- 中考百日誓師大會-百日沖刺決戰(zhàn)中考-2024年中考百日誓師大會(課件)
- 非線粒體氧化體系講解課件
- 初中八年級語文課件-桃花源記 全國公開課一等獎
- 《無人機操控技術》教案全套 1.1 無人機概述 -6.2 自動機場操控
- ISO27001標準培訓課件
- 《審核員培訓教程》課件
- 《光催化技術》課件
- 辦公打印機的租賃合同范文
- 危大工程監(jiān)理巡視檢查用表
- 大埔縣生活垃圾填埋場應急加固及滲濾液處理站擴容改造工程環(huán)境影響報告
- 餐飲行業(yè)儀容儀表標準規(guī)范
評論
0/150
提交評論