FusionStorage大數(shù)據(jù)存儲技術(shù)白皮書_第1頁
FusionStorage大數(shù)據(jù)存儲技術(shù)白皮書_第2頁
FusionStorage大數(shù)據(jù)存儲技術(shù)白皮書_第3頁
FusionStorage大數(shù)據(jù)存儲技術(shù)白皮書_第4頁
FusionStorage大數(shù)據(jù)存儲技術(shù)白皮書_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、FusionStorage 大數(shù)據(jù)存儲技術(shù)白皮書目錄 HYPERLINK l _bookmark0 概述1 HYPERLINK l _bookmark1 產(chǎn)品價值2 HYPERLINK l _bookmark2 產(chǎn)品架構(gòu)3 HYPERLINK l _bookmark3 軟件架構(gòu)3 HYPERLINK l _bookmark4 數(shù)據(jù)服務(wù)4 HYPERLINK l _bookmark5 統(tǒng)一資源池4 HYPERLINK l _bookmark6 分布式 Hash 路由6 HYPERLINK l _bookmark7 Cache 機(jī)制7 HYPERLINK l _bookmark11 關(guān)鍵業(yè)務(wù)流程8

2、 HYPERLINK l _bookmark12 特性介紹10 HYPERLINK l _bookmark13 數(shù)據(jù)冗余策略10 HYPERLINK l _bookmark14 小文件在線聚合10 HYPERLINK l _bookmark15 配額和資源統(tǒng)計11 HYPERLINK l _bookmark16 QoS12 HYPERLINK l _bookmark17 訪問權(quán)限控制13 HYPERLINK l _bookmark18 存儲管理13 HYPERLINK l _bookmark19 存儲服務(wù)化13 HYPERLINK l _bookmark20 存儲集群管理14 HYPERLIN

3、K l _bookmark21 集群擴(kuò)容14 HYPERLINK l _bookmark22 推薦硬件14 HYPERLINK l _bookmark23 系統(tǒng)組網(wǎng)15 HYPERLINK l _bookmark24 組網(wǎng)方案16 HYPERLINK l _bookmark25 組網(wǎng)設(shè)計原則16 HYPERLINK l _bookmark26 集群內(nèi)組網(wǎng)方案16 HYPERLINK l _bookmark27 軟件部署18 HYPERLINK l _bookmark28 局域網(wǎng)部署方案18 HYPERLINK l _bookmark29 廣域網(wǎng)部署 DNS 方案18 HYPERLINK l _

4、bookmark30 高性能和彈性擴(kuò)展20 HYPERLINK l _bookmark31 單 namespace 高性能20 HYPERLINK l _bookmark32 元數(shù)據(jù)多級緩存21 HYPERLINK l _bookmark33 全局負(fù)載均衡22 HYPERLINK l _bookmark34 數(shù)據(jù)在線聚合22 HYPERLINK l _bookmark35 無狀態(tài)集群23 HYPERLINK l _bookmark36 彈性擴(kuò)展23 HYPERLINK l _bookmark37 高可靠24 HYPERLINK l _bookmark38 數(shù)據(jù)冗余保護(hù)機(jī)制24 HYPERLIN

5、K l _bookmark39 數(shù)據(jù)條帶化24 HYPERLINK l _bookmark40 N+M 數(shù)據(jù)保護(hù)25 HYPERLINK l _bookmark41 節(jié)點(diǎn)級安全級別26 HYPERLINK l _bookmark42 快速數(shù)據(jù)重建27 HYPERLINK l _bookmark43 集群可靠性28 HYPERLINK l _bookmark44 硬件可靠性28 HYPERLINK l _bookmark45 鏈路可靠性29 HYPERLINK l _bookmark46 系統(tǒng)安全30 HYPERLINK l _bookmark47 總體安全框架31 HYPERLINK l _b

6、ookmark48 管理系統(tǒng)安全31 HYPERLINK l _bookmark49 用戶安全31 HYPERLINK l _bookmark50 密碼安全32鑒權(quán)認(rèn)證錯誤!未定義書簽。 HYPERLINK l _bookmark51 日志和告警管理33 HYPERLINK l _bookmark52 存儲業(yè)務(wù)安全33 HYPERLINK l _bookmark53 訪問的認(rèn)證和鑒權(quán)33 HYPERLINK l _bookmark55 namespace 的訪問控制34 HYPERLINK l _bookmark56 訪問審計34 HYPERLINK l _bookmark57 存儲網(wǎng)絡(luò)安全3

7、4 HYPERLINK l _bookmark58 平面隔離34 HYPERLINK l _bookmark61 存儲設(shè)備安全36 HYPERLINK l _bookmark62 操作系統(tǒng)加固36安全補(bǔ)丁錯誤!未定義書簽。 HYPERLINK l _bookmark63 Web 安全36 HYPERLINK l _bookmark64 開放兼容性38 HYPERLINK l _bookmark65 與主流協(xié)議的兼容38 HYPERLINK l _bookmark66 與大數(shù)據(jù)平臺的兼容38 HYPERLINK l _bookmark67 與集中管理平臺的兼容39 HYPERLINK l _bo

8、okmark68 縮略語和術(shù)語40 1 概 述當(dāng)前從科學(xué)研究到醫(yī)療保險,從銀行政府到互聯(lián)網(wǎng),從智慧城市到運(yùn)營商,各個不同領(lǐng)域的信息都在爆炸式增長出數(shù)據(jù)量?;ヂ?lián)網(wǎng)、物聯(lián)網(wǎng)、AI 等科技日新月異,都離不開對海量數(shù)據(jù)的存儲和分析。數(shù)據(jù)已經(jīng)滲透到當(dāng)今各個行業(yè)和領(lǐng)域,成為重要的生產(chǎn)因素。大量的數(shù)據(jù)等待挖掘和分析,來支撐新一波的業(yè)務(wù)增長。而通過我們跟大數(shù)據(jù)客戶的交流,發(fā)現(xiàn)當(dāng)前在大數(shù)據(jù)集群的使用中,有很多的痛點(diǎn)需要解決,隨著數(shù)據(jù)和業(yè)務(wù)越來越龐大,痛點(diǎn)越來越明顯。新的挑戰(zhàn)必然催生新的需 求,基于此,華為 FusionStorage 大數(shù)據(jù)存儲應(yīng)運(yùn)而生。圖1-1 行業(yè)應(yīng)用痛點(diǎn)華為 FusionStorage 大

9、數(shù)據(jù)存儲靈活、彈性,讓大數(shù)據(jù)集群擴(kuò)展像堆積木一樣簡單,讓計算和存儲都能得到充分的利用,是一款可大規(guī)模橫向擴(kuò)展的全分布式大數(shù)據(jù)存儲產(chǎn)品,并提供企業(yè)級的可靠性和可用性。 2產(chǎn)品價值FusionStorage 大數(shù)據(jù)存儲采用高擴(kuò)展的分布式架構(gòu)提供高效的大數(shù)據(jù)底座,在大數(shù)據(jù)需求不斷增長的形勢下具有如下優(yōu)勢:存儲計算按需配置,保護(hù)客戶投資FusionStorage 大數(shù)據(jù)存儲將 HDD、SSD 等硬件存儲介質(zhì)通過分布式技術(shù)組織成大規(guī)模存儲資源池,將存儲從計算中分離,實(shí)現(xiàn)存儲、計算比例隨意配置,按需靈活擴(kuò)容, 降低投資成本,保護(hù)客戶投資。存儲計算分離后,將數(shù)據(jù)從計算集群剝離,計算集群 可以快速縮容和擴(kuò)容,

10、無需等待數(shù)據(jù)遷移,計算資源實(shí)現(xiàn)靈活分配。多租戶特性助力客戶構(gòu)建統(tǒng)一存儲資源池FusionStorage 大數(shù)據(jù)存儲支持創(chuàng)建多個 namespace 來對接多套計算集群,支持計算集群間鑒權(quán)隔離,且跟對應(yīng)的 namespace 統(tǒng)一鑒權(quán)。多個 namespace 之間數(shù)據(jù)邏輯隔離, 空間靈活分配,存儲能力共享,真正將存儲資源池能力發(fā)揮出來。分布式的數(shù)據(jù)和元數(shù)據(jù)管理,以彈性高效滿足未來數(shù)據(jù)存取需求FusionStorage 大數(shù)據(jù)存儲采用全分布式架構(gòu),支持通過橫向擴(kuò)展硬件節(jié)點(diǎn)線性增加整系統(tǒng)容量與性能,無需復(fù)雜的資源需求規(guī)劃;系統(tǒng)可輕松擴(kuò)展至數(shù)千節(jié)點(diǎn)及EB 級容量,滿足您的云業(yè)務(wù)規(guī)模增長需求。相對于原

11、生HDFS NameNode 的主備模式, FusionStorage 大數(shù)據(jù)存儲采用全分布式NameNode 機(jī)制,打破原生 HDFS 單NameNode 一億文件數(shù)的限制,單 NameSpace 支持百億文件存儲,整集群支持萬億文件存儲。完全兼容原生的 HDFS 語義的 EC 機(jī)制,助力客戶業(yè)務(wù)平滑遷移相比原生 HDFS EC 不支持 append, truncate, hflush, fsync 等諸多接口, FusionStorage 大數(shù)據(jù)存儲完全兼容原生的HDFS 語義,助力客戶業(yè)務(wù)平滑遷移,廣泛兼容華為及第三方大數(shù)據(jù)平臺。支持高達(dá) 22+2 大比例EC,利用率達(dá)到 91.7%,遠(yuǎn)

12、高于原生 HDFS EC 和三副本機(jī)制,降低客戶投資成本。以企業(yè)級存儲可靠性保障客戶業(yè)務(wù)和數(shù)據(jù)安全FusionStorage 大數(shù)據(jù)存儲基于華為云上云下統(tǒng)一的 DFV 架構(gòu),跟 FusionStorage 塊、對象、文件統(tǒng)一架構(gòu),共同構(gòu)筑企業(yè)級存儲可靠性。2TB/小時的重構(gòu)速度避免 2 次故障導(dǎo)致數(shù)據(jù)丟失。支持全面故障盤、亞健康盤的識別和容錯處理、支持令牌的流控, 磁盤靜默損壞檢查,以企業(yè)級存儲可靠性保障客戶業(yè)務(wù)和數(shù)據(jù)安全。 3產(chǎn)品架構(gòu) HYPERLINK l _bookmark3 軟件架構(gòu) HYPERLINK l _bookmark4 數(shù)據(jù)服務(wù) HYPERLINK l _bookmark18

13、 存儲管理 HYPERLINK l _bookmark22 推薦硬件 HYPERLINK l _bookmark23 系統(tǒng)組網(wǎng) HYPERLINK l _bookmark27 軟件部署軟件架構(gòu)華為 FusionStorage 大數(shù)據(jù)存儲是一款可大規(guī)模橫向擴(kuò)展的大數(shù)據(jù)存儲產(chǎn)品,架構(gòu)上遵循業(yè)界先進(jìn)的 Scale-out、服務(wù)化、微服務(wù)化等設(shè)計原則。圖3-1 FusionStorage 大數(shù)據(jù)軟件架構(gòu)如上圖所示,F(xiàn)usionStorage 大數(shù)據(jù)存儲從架構(gòu)上主要分為三層:Persistence Layer(存儲持久層),Index Layer(元數(shù)據(jù)服務(wù)層)和 Service Layer(HDFS

14、語義服務(wù)層):Persistence Layer(存儲持久層)基于通用服務(wù)器和介質(zhì)構(gòu)建統(tǒng)一的存儲持久層,負(fù)責(zé)數(shù)據(jù)布局、負(fù)載均衡、數(shù)據(jù)恢復(fù)能力,提供EC 數(shù)據(jù)冗余方式,可以靈活解決性能以及成本問題??梢钥闯觯琍ersistence Layer 是 FusionStorage 大數(shù)據(jù)存儲的基石,存儲系統(tǒng)的擴(kuò)展性、性能、可靠性均基于此。Index Layer(元數(shù)據(jù)服務(wù)層)負(fù)責(zé)具體的元數(shù)據(jù)分布、索引、故障切換等,采用全分布式部署,對上層的 Service Layer 提供高速的元數(shù)據(jù)存取和查詢等能力,從上圖中可以看到 Index Layer 的數(shù)據(jù)最終也是存儲在Persistence Layer,所

15、以這些元數(shù)據(jù)一樣共享底層Persistence Layer 的數(shù)據(jù)存儲能力,從而保證整個系統(tǒng)的所有數(shù)據(jù)都是高擴(kuò)展、高可靠的。Service Layer(語義服務(wù)層),提供 HDFS 原生協(xié)議的接口,負(fù)責(zé)業(yè)務(wù)的接入、全局統(tǒng)一命名空間等,同時具備完善的增值服務(wù),比如配額、QOS 等特性,業(yè)界通用的HDFS 協(xié)議在 FusionStorage 大數(shù)據(jù)存儲都可以提供,真正做到了按需分配,用戶不用再為存儲的選擇而犯難。FusionStorage 大數(shù)據(jù)存儲架構(gòu)上具有如下特點(diǎn):領(lǐng)先的分布式架構(gòu):FusionStorage 大數(shù)據(jù)存儲采用全分布式的架構(gòu):分布式管理集群、分布式哈希數(shù)據(jù)路由算法、分布式無狀態(tài)機(jī)

16、頭和分布式智能 Cache 等,這種架構(gòu)使得整個存儲系統(tǒng)沒有單點(diǎn)故障。高性能和高可靠性:FusionStorage 大數(shù)據(jù)存儲在所有磁盤中實(shí)現(xiàn)負(fù)載的均衡,數(shù)據(jù)打散存放,不會出現(xiàn)熱點(diǎn),高效的路由算法和分布式Cache 技術(shù)保證了高性能。并行快速故障重建:數(shù)據(jù)分片在資源池內(nèi)打散,硬盤故障后,可在全資源池范圍內(nèi)自動并行重建,重建效率高。易擴(kuò)展和超大容量:FusionStorage 大數(shù)據(jù)存儲的分布式無狀態(tài)機(jī)頭可橫向擴(kuò)展, 存儲與計算分別按需平滑擴(kuò)容,支持非煙囪式超大容量擴(kuò)展。數(shù)據(jù)服務(wù)FusionStorage 大數(shù)據(jù)存儲對外提供標(biāo)準(zhǔn)的 HDFS 協(xié)議接口,完全兼容原生的 HDFS 語義,廣泛兼容華為

17、和第三方大數(shù)據(jù)平臺。FusionStorage 大數(shù)據(jù)存儲具備如下關(guān)鍵優(yōu)勢:FusionStorage 大數(shù)據(jù)存儲采用業(yè)界先進(jìn)的Scale-out 分布式存儲架構(gòu)和DHT(Distributed Hash Table,分布式哈希表)算法,匹配海量數(shù)據(jù)存儲;對外提供兼容原生 HDFS 協(xié)議的接口,支撐多業(yè)務(wù)承載;提供基于Erasure Code 的數(shù)據(jù)保護(hù)技術(shù),可靠性和空間占用達(dá)到了很好的平衡;支持多租戶模式,可以最大限制的滿足企業(yè)和私有云等場景的資源分配需求;大數(shù)據(jù)存儲服務(wù)具備海量擴(kuò)展能力、安全可靠和高效融合的特點(diǎn),適用于海量數(shù)據(jù)存儲和集中備份應(yīng)用場景,可以為客戶帶來大容量,高可靠,易維護(hù),易

18、擴(kuò)展的價值。統(tǒng)一資源池FusionStorage 大數(shù)據(jù)存儲支持作為統(tǒng)一資源池同時對接多套計算集群。作為統(tǒng)一資源池的根本,F(xiàn)usionStorage 大數(shù)據(jù)存儲支持為多租戶分別創(chuàng)建單獨(dú)的 namespace,各個namespace 之間數(shù)據(jù)邏輯隔離,空間靈活動態(tài)分配,能力共享,真正將存儲資源池能力發(fā)揮出來。從煙囪式向統(tǒng)一資源池轉(zhuǎn)變租戶在大數(shù)據(jù)存儲服務(wù)時需要創(chuàng)建自己的 NameSpace,并在NameSpace 中創(chuàng)建和管理自己的數(shù)據(jù)。針對每個 NameSpace 可以設(shè)定配額和QOS,并且可以隨時靈活更改。各租戶的計算集群支持各自獨(dú)立的鑒權(quán)系統(tǒng),且計算集群和所分配的 NameSpace 統(tǒng)一鑒

19、權(quán)。多租戶的實(shí)現(xiàn)方式:每個NameSpace 實(shí)例替代原 HDFS 服務(wù)集群,提供與 HDFS 完全一致的能力。分布式 Hash 路由FusionStorage 大數(shù)據(jù)存儲采用DHT(Distribute Hash Table,分布式哈希表)路由數(shù)據(jù)算法。每個存儲節(jié)點(diǎn)負(fù)責(zé)存儲一小部分?jǐn)?shù)據(jù),基于DHT 實(shí)現(xiàn)整個系統(tǒng)數(shù)據(jù)的尋址和存儲。相比DHT 路由算法,傳統(tǒng) HDFS 存儲采用集中式元數(shù)據(jù)管理方式,每次 IO 操作都需要去查詢元數(shù)據(jù)服務(wù),隨著系統(tǒng)規(guī)模逐漸變大,元數(shù)據(jù)的容量也會越來越大,系統(tǒng)所能提供的并發(fā)操作能力將受限于元數(shù)據(jù)服務(wù)所在服務(wù)器的能力,元數(shù)據(jù)服務(wù)將會成為系統(tǒng)的性能瓶頸。不同與傳統(tǒng)的集中

20、式元數(shù)據(jù)管理,F(xiàn)usionStorage 大數(shù)據(jù)存儲采用DHT(分布式一致性哈希)進(jìn)行數(shù)據(jù)尋址,具體的算法如下圖:圖3-2 DHT 數(shù)據(jù)尋址DHT 環(huán):Distributed Hash Table, 超大虛擬節(jié)點(diǎn)構(gòu)成的環(huán)形空間Partition:將 DHT 環(huán)空間劃分為 N 等份,每一等份是一個分區(qū)物理節(jié)點(diǎn):即一個 DISK, 與 Partition 分區(qū)對應(yīng)FusionStorage 大數(shù)據(jù)存儲將哈??臻g設(shè)置為,并將該哈希空間劃分為N 等份,每1 等份是 1 個分區(qū)(Partition),這 N 等份按照硬盤數(shù)量進(jìn)行均分。例如:系統(tǒng)N 默認(rèn)為 3600,假設(shè)當(dāng)前系統(tǒng)有 36 塊硬盤,則每塊硬

21、盤承載 100 個分區(qū)。上述“分區(qū)-硬盤”的映射關(guān)系在系統(tǒng)初始化時會分配好,后續(xù)會隨著系統(tǒng)中硬盤數(shù)量的變化會進(jìn)行調(diào)整。該映射表所需要的空間很小,F(xiàn)usionStorage 大數(shù)據(jù)存儲系統(tǒng)中的節(jié)點(diǎn)會在內(nèi)存中保存該映射關(guān)系,用于進(jìn)行快速路由,可見,F(xiàn)usionStorage 大數(shù)據(jù)存儲的路由機(jī)制不同于傳統(tǒng) HDFS 存儲系統(tǒng),并沒有集中的元數(shù)據(jù)管理,也就不存在元數(shù)據(jù)服務(wù)成為系統(tǒng)的性能瓶頸。FusionStorage 大數(shù)據(jù)存儲的這個 DHT 環(huán)技術(shù)具備如下特點(diǎn)和價值:性能高:存儲數(shù)據(jù)通過 DHT 環(huán),“均勻”分布在所有磁盤上,所有磁盤都參考數(shù)據(jù)讀寫,消除熱點(diǎn)磁盤帶來的讀寫瓶頸問題;數(shù)據(jù)可靠性高:可

22、靈活配置的分區(qū)分配算法,避免相同副本數(shù)據(jù)位于同一個Disk、同一塊板、同一個機(jī)柜;水平擴(kuò)展速度快: 新物理節(jié)點(diǎn)加入時, 只需要搬移部分?jǐn)?shù)據(jù)(partition),并達(dá)到負(fù)載均衡。Cache 機(jī)制FusionStorage 大數(shù)據(jù)存儲采用多級 cache 機(jī)制提升存儲 IO 性能,讀、寫cache 機(jī)制采用不同流程。Write cache 機(jī)制:Persistence Layer 在寫 IO 操作時,會將寫 IO 緩存在 SSD cache 后完成本節(jié)點(diǎn)寫操作。同時,會周期將緩存在 SSD cache 中的寫 IO 數(shù)據(jù)批量寫入到硬盤(HDD),寫 Cache 有一個水位值,未到刷盤周期超過設(shè)定

23、水位值也會將 Cache 中數(shù)據(jù)寫入到硬盤中,如下圖所示:圖3-3 Write cache 機(jī)制FusionStorage 大數(shù)據(jù)存儲支持大 IO 直通,按缺省配置大于 256KB 的 IO 直接透寫 HDD 不寫Cache,這個配置可以修改。Read cache 機(jī)制:FusionStorage 大數(shù)據(jù)存儲使用 SSD 作為讀Cache 介質(zhì)以加速存儲訪問。FusionStorage 大數(shù)據(jù)存儲的讀緩存采用分層機(jī)制,第一層為內(nèi)存 cache,內(nèi)存cache 采用 LRU 機(jī)制緩存數(shù)據(jù),第二層為 SSD cache,SSD cache 采用熱點(diǎn)讀機(jī)制,系統(tǒng)會統(tǒng)計每個讀取的數(shù)據(jù),并統(tǒng)計熱點(diǎn)訪問因

24、子,當(dāng)達(dá)到閾值時,系統(tǒng)會自動緩存數(shù)據(jù)到SSD 中,同時會將長時間未被訪問的數(shù)據(jù)移出 SSD。同時FusionStorage 大數(shù)據(jù)存儲支持預(yù)讀機(jī)制,統(tǒng)計讀數(shù)據(jù)的相關(guān)性,讀取某塊數(shù)據(jù)時自動將相關(guān)性高的塊讀出并緩存到 SSD 中。如下圖所示,Persistence Layer 在收到上層發(fā)送的讀 IO 操作時,會進(jìn)行如下步驟處理:從內(nèi)存“讀 cache”中查找是否存在所需 IO 數(shù)據(jù),如果存在,則直接返回, 同時調(diào)整該 IO 數(shù)據(jù)到“讀 cache”LRU 隊(duì)首,否則執(zhí)行 HYPERLINK l _bookmark8 2;從 SSD 的“讀 cache”中查找是否存在所需 IO 數(shù)據(jù),如果存在,則

25、直接返回,同時增加該 IO 數(shù)據(jù)的熱點(diǎn)訪問因子,否則執(zhí)行; HYPERLINK l _bookmark9 3從 SSD 的“寫 cache”中查找是否存在所需 IO 數(shù)據(jù),如果存在,則直接返回,同時增加該 IO 數(shù)據(jù)的熱點(diǎn)訪問因子;如果熱點(diǎn)訪問因子達(dá)到閾值,則會被緩存在 SSD 的“讀 cache”中。如果不存在,執(zhí)行 HYPERLINK l _bookmark10 4;從硬盤中查找到所需 IO 數(shù)據(jù)并返回,同時增加該 IO 數(shù)據(jù)的熱點(diǎn)訪問因子, 如果熱點(diǎn)訪問因子達(dá)到閾值,則會被緩存在 SSD 的“讀 cache”中。圖3-4 Persistence Layer 讀 IO 操作步驟關(guān)鍵業(yè)務(wù)流程

26、數(shù)據(jù)的寫入過程,可以分為如下步驟:圖3-5 數(shù)據(jù)寫入過程請求接入:計算節(jié)點(diǎn)與存儲服務(wù)的節(jié)點(diǎn)建立連接,計算節(jié)點(diǎn)開始向訪問的節(jié)點(diǎn)發(fā)送數(shù)據(jù);存儲策略的選擇:存儲節(jié)點(diǎn)根據(jù)用戶配置,決定數(shù)據(jù)的存儲策略;數(shù)據(jù)分片:存儲節(jié)點(diǎn)按用戶配置的存儲策略計算出分片的大?。ǜ鶕?jù)系統(tǒng)設(shè)定的分條大小以及冗余配比計算),然后按這個大小把數(shù)據(jù)切分為相應(yīng)的數(shù)據(jù)分片;數(shù)據(jù)路由:存儲節(jié)點(diǎn)調(diào)用存儲接口,將數(shù)據(jù)片散列存放到不同的磁盤中。數(shù)據(jù)的讀取過程,與寫入流程相反,可以分為如下步驟:圖3-6 數(shù)據(jù)讀取過程請求接入:計算節(jié)點(diǎn)與存儲服務(wù)的節(jié)點(diǎn)建立連接,計算節(jié)點(diǎn)向訪問的節(jié)點(diǎn)請求數(shù)據(jù);數(shù)據(jù)路由:存儲節(jié)點(diǎn)根據(jù)散列規(guī)則尋址到數(shù)據(jù)分區(qū),讀取相應(yīng)的數(shù)

27、據(jù)片;數(shù)據(jù)修復(fù):如果某些數(shù)據(jù)片損壞,存儲節(jié)點(diǎn)將根據(jù)數(shù)據(jù)的存儲策略進(jìn)行相應(yīng)的修復(fù)操作;數(shù)據(jù)聚合:存儲節(jié)點(diǎn)將數(shù)據(jù)片聚合為完整的數(shù)據(jù),發(fā)送給計算節(jié)點(diǎn)。FusionStorage 大數(shù)據(jù)存儲節(jié)點(diǎn)的內(nèi)存預(yù)留了部分緩沖區(qū),用于在數(shù)據(jù)讀取和寫入時實(shí)現(xiàn)數(shù)據(jù)的分片和聚合。當(dāng)寫入數(shù)據(jù)時,對于切分完成的數(shù)據(jù)片,存儲節(jié)點(diǎn)會緩沖其中的一部分,與此同時再向多個存儲節(jié)點(diǎn)寫入多個數(shù)據(jù)片,以獲得更高的寫入效率。當(dāng)讀取數(shù)據(jù)時,存儲節(jié)點(diǎn)會預(yù)判計算機(jī)點(diǎn)讀取數(shù)據(jù)的范圍,同時從多個存儲節(jié)點(diǎn)預(yù)先讀取連續(xù)的數(shù)據(jù)片,保留在緩沖區(qū)內(nèi),以獲得更高的讀取效率。FusionStorage 大數(shù)據(jù)存儲的接入節(jié)點(diǎn),會根據(jù)客戶端到接入節(jié)點(diǎn)的連接速度和數(shù)據(jù)的

28、大小,動態(tài)調(diào)整緩沖區(qū)的大小和并發(fā)讀寫存儲節(jié)點(diǎn)的數(shù)量,以最小的資源實(shí)現(xiàn)最優(yōu)的吞吐。特性介紹數(shù)據(jù)冗余策略FusionStorage 大數(shù)據(jù)存儲采用EC(Erasure Code)算法實(shí)現(xiàn)數(shù)據(jù)冗余存儲,確保硬件失效時的數(shù)據(jù)可靠性和可用性。糾刪碼(EC)技術(shù)主要是對數(shù)據(jù)分片進(jìn)行分組,每個分組有數(shù)據(jù)塊和校驗(yàn)塊組成,其中校驗(yàn)塊即為產(chǎn)生的部分冗余數(shù)據(jù)。如果數(shù)據(jù)的一部分損壞或丟失,存儲服務(wù)能夠利用冗余的數(shù)據(jù)重建并修復(fù)損壞數(shù)據(jù)。該策略數(shù)據(jù)不僅具有較高的可靠性,而且存儲空間利用率非常高(相比多副本模式),是可靠性和經(jīng)濟(jì)性平衡的最佳選擇。對于用戶上傳的數(shù)據(jù),F(xiàn)usionStorage 大數(shù)據(jù)存儲的接入集群在將數(shù)據(jù)切

29、分為數(shù)據(jù)片的過程中,會將連續(xù)的 N 個數(shù)據(jù)片劃分為一個EC 組,并利用糾刪碼技術(shù)對 EC 組進(jìn)行計算,生成 M 個校驗(yàn)數(shù)據(jù)片。每個 EC 組的數(shù)據(jù)片和校驗(yàn)數(shù)據(jù)片,將存儲在存儲集群上一組連續(xù)的數(shù)據(jù)分區(qū)中,以保證每個數(shù)據(jù)片存儲在不同的物理節(jié)點(diǎn)上,確保其可靠性。只要每個EC 組損壞的數(shù)據(jù)片數(shù)量不超過 M,F(xiàn)usionStorage 大數(shù)據(jù)存儲的接入集群都能利用 EC 組的其它數(shù)據(jù)片將損壞數(shù)據(jù)片修復(fù)。小文件在線聚合傳統(tǒng)HDFS 存儲系統(tǒng)中小文件的挑戰(zhàn):小文件按三副本存儲,空間利用率低,只有33%,即使 EC 機(jī)制下,因?yàn)槲募]法寫滿 Strip, 利用率也只有 33%。FusionStorage

30、大數(shù)據(jù)存儲提供了小文件在線聚合能力,有效的將空間利用率提升至80%+,具體原理如下圖:圖3-7 小文件匯聚如上圖所示,客戶端上傳的小文件 File1、File2、File3、File4、File5、File6 和 File7 優(yōu)先寫入 SSD cache 進(jìn)行匯聚成一個EC 分條大小,然后進(jìn)行EC 計算,并自動將數(shù)據(jù)分片(Strip)和 EC 計算出的校驗(yàn)片(Parity)存儲到HDD,這樣以來小文件也是按EC 存儲的,也就是 EC 的利用率,例如 EC 為 12+3,那么利用率就是 80%,是傳統(tǒng)的三副本的 33%利用率的 2.4 倍。配額和資源統(tǒng)計FusionStorage 大數(shù)據(jù)存儲支持

31、資源的統(tǒng)計和namespace 級、租戶級的容量配額。如下圖所示,F(xiàn)usionStorage 大數(shù)據(jù)存儲的使用者,可將企業(yè)內(nèi)部的部門、員工等組織關(guān)系,和租戶、namespace 建立對應(yīng)關(guān)系,比如財務(wù)部租戶 2,限制其容量配額為40TB;財務(wù)部下面的員工bnamespace2,限制其容量配額為 10TB,且隨時可以更改。圖3-8 配額QoSFusionStorage 大數(shù)據(jù)存儲配額的主要功能點(diǎn):namespace 級配額:namespace 的容量大小上限。當(dāng)namespace 容量達(dá)到所配置的namespace 配額后,無法再對該 namespace 進(jìn)行寫入操作。租戶級配額:租戶的容量大小

32、上限。當(dāng)租戶的 namespace 容量總數(shù)達(dá)到所配置的帳戶配額后,該租戶及其所有用戶無法再進(jìn)行寫入操作。FusionStorage 大數(shù)據(jù)存儲支持使用REST 接口獲取租戶、namespace 的資源統(tǒng)計情況,比如統(tǒng)計文件數(shù)量,容量等:namespace 資源統(tǒng)計:namespace 資源包括 namespace 的空間大小及namespace 中的文件數(shù)量。用戶可對自己的 namespace 資源進(jìn)行查詢。租戶資源統(tǒng)計:租戶資源包括帳戶配額、擁有的文件數(shù)量及容量總大小。FusionStorage 大數(shù)據(jù)存儲提供服務(wù)質(zhì)量的控制能力-QoS,該特性可以合理分配系統(tǒng)資源,幫助客戶提供更好的服務(wù)能

33、力。圖3-9 基于賬戶和 namespace 的智能流控對于私有云等多租戶場景,用戶希望存儲池的 TPS 和帶寬資源能夠合理分配給不同優(yōu)先級的租戶或 namespace,同時希望保障核心業(yè)務(wù)TPS 與帶寬的供給。相比傳統(tǒng)的HDFS 存儲系統(tǒng),F(xiàn)usionStorage 大數(shù)據(jù)存儲提供了精細(xì)控制的 QoS 能力,很好了解決了以上 2 個訴求:提供精細(xì)化控制 IO 的能力:系統(tǒng)能對不同優(yōu)先級的租戶、namesapce 提供差異化的服務(wù)。提供租戶、namespace 級別的 TPS 和帶寬粒度的服務(wù)質(zhì)量控制?;?FusionStorage 大數(shù)據(jù)存儲的 QoS 特性,對于不同優(yōu)先級的應(yīng)用,可以配置

34、不同的namespace,通過QoS 控制 namespace 的 TPS 以及帶寬資源的分配,以達(dá)到存儲池資源利用率最大化,并且避免核心業(yè)務(wù)受到其它業(yè)務(wù)的影響(應(yīng)用分級應(yīng)用場景);針對同一系統(tǒng)中的 VIP 租戶和普通租戶,可以配置不同QoS 策略,以保證高優(yōu)先級租戶的服務(wù)質(zhì)量(租戶分級應(yīng)用場景)。訪問權(quán)限控制FusionStorage 大數(shù)據(jù)存儲提供了跟原生 HDFS 完全一致的訪問權(quán)限控制,請求用戶只能訪問自己被授權(quán)的資源,如果訪問未被授權(quán)的資源,則請求失敗,支持跟計算集群統(tǒng)一鑒權(quán)服務(wù)器,實(shí)現(xiàn)鑒權(quán)拉通。存儲管理存儲服務(wù)化FusionStorage 大數(shù)據(jù)存儲提供存儲資源池管理和存儲業(yè)務(wù)配置

35、功能,通過FusionStorage 大數(shù)據(jù)存儲的管理平臺可以完成業(yè)務(wù)開通。資源池管理資源池管理可查看選定資源池的統(tǒng)計信息,查看選定資源池的硬盤拓?fù)洌瑸檫x定資源池擴(kuò)容、減容,以及刪除資源池。還提供創(chuàng)建新資源池功能。存儲業(yè)務(wù)配置可管理存儲服務(wù),包括如下功能:鑒權(quán)配置支持選擇POE、IAM 三種模式,并完成對接配置。當(dāng)選擇POE 本地鑒權(quán)時,可支持業(yè)務(wù)賬戶的管理。Namespace 管理支持針對租戶創(chuàng)建namespace, 設(shè)置配額和 QOS, 支持查看 namespace 列表和配額使用情況。存儲集群管理FusionStorage 大數(shù)據(jù)存儲通過集群管理軟件完成集群的管理工作,功能包括集群基本信

36、息監(jiān)控、性能監(jiān)控、賬戶管理、告警管理、用戶管理、License 管理、集群管理、節(jié)點(diǎn)管理、交換機(jī)管理。集群基本信息監(jiān)控:查看集群的基本信息,包括集群名稱、健康狀態(tài)、運(yùn)行狀態(tài)、版本號、集群容量、節(jié)點(diǎn)數(shù)信息。性能監(jiān)控:查看相關(guān)訪問的帶寬和 IOPS 信息。賬戶管理:使用POE 方式鑒權(quán)時,可以通過賬戶管理功能完成存儲服務(wù)賬戶的創(chuàng)建、刪除及屬性修改。告警管理:提供查看告警信息、處理告警、告警屏蔽、告警通知、轉(zhuǎn)儲告警的功能。用戶管理:提供用戶基本管理、安全策略配置功能。License 管理:提供查看已激活的 License 和導(dǎo)入新 License 功能。集群管理:提供啟停系統(tǒng)、啟停 Toolkit

37、服務(wù)、配置系統(tǒng)時間、配置外部 DNS 和導(dǎo)入導(dǎo)出配置文件功能。節(jié)點(diǎn)管理:提供停止節(jié)點(diǎn)、凍結(jié)節(jié)點(diǎn)功能。集群擴(kuò)容FusionStorage 大數(shù)據(jù)存儲的分布式架構(gòu)具有良好的可擴(kuò)展性,支持超大容量存儲,節(jié)點(diǎn)規(guī)模支持 34096。隨著節(jié)點(diǎn)數(shù)的增加,存儲容量和計算能力線性增加,最終給用戶提供呈線性遞增的帶寬、并發(fā)數(shù)。FusionStorage 大數(shù)據(jù)存儲集群擴(kuò)容具有如下優(yōu)勢:支持在線擴(kuò)容,擴(kuò)容過程業(yè)務(wù)不受影響。支持靈活的擴(kuò)容方式,新擴(kuò)容節(jié)點(diǎn)可加入已有存儲池或創(chuàng)建新存儲池使用。擴(kuò)容存儲節(jié)點(diǎn)到已有存儲池時不需要做大量的數(shù)據(jù)搬遷,系統(tǒng)可以快速達(dá)到負(fù)載均衡狀態(tài)。推薦硬件FusionStorage 大數(shù)據(jù)存儲基于

38、通用硬件設(shè)計,為保證系統(tǒng)可靠性以及最佳性能,推薦客戶采用基于如下硬件平臺的典型配置(詳細(xì)配置請咨詢您所在區(qū)域華為銷售代表),包括存儲節(jié)點(diǎn)、網(wǎng)絡(luò)設(shè)備、KVM 和調(diào)制解調(diào)器。硬件類型推薦選型說明機(jī)柜標(biāo)準(zhǔn) IT 機(jī)柜提供 42U 內(nèi)部安裝空間Huawei TaiShan 5280 典36 盤位存儲節(jié)點(diǎn)型配置256G 內(nèi)存,華為自研 Hi1616CPU,緩存為 800G/1.6TB/3.2TB NVME SSDHuawei TaiShan 2280 典12 盤位存儲節(jié)點(diǎn)型配置256G 內(nèi)存,華為自研 Hi1616CPU,緩存為 800G/1.6TB/3.2TB NVME SSD網(wǎng)絡(luò)設(shè)備Huawei C

39、E6855-48S6Q-HI10GE 以太網(wǎng)交換機(jī)Huawei CE6865-48S8CQ- EI10GE/25GE 交換機(jī)Huawei CE5855-48T4S2Q- EIGE 以太網(wǎng)交換機(jī)8 口 KVM(Keyboard,Video,and Mouse) 控制器提供 8 路鍵盤、鼠標(biāo)和視頻端口系統(tǒng)組網(wǎng)FusionStorage 大數(shù)據(jù)存儲的邏輯組網(wǎng)平面分為:業(yè)務(wù)平面:FusionStorage 大數(shù)據(jù)存儲與用戶業(yè)務(wù)網(wǎng)絡(luò)對接的組網(wǎng),用于計算節(jié)點(diǎn)接入業(yè)務(wù),簡稱為業(yè)務(wù)平面,支持多子網(wǎng)。存儲平面:FusionStorage 大數(shù)據(jù)存儲內(nèi)部節(jié)點(diǎn)間的組網(wǎng),用于集群內(nèi)部數(shù)據(jù)通信,簡稱為存儲平面,支持多子

40、網(wǎng),但僅支持部署為 IPv4 協(xié)議組網(wǎng)。管理平面:FusionStorage 大數(shù)據(jù)存儲與用戶管理網(wǎng)絡(luò)對接的平面,簡稱管理平面,用于客戶維護(hù)終端接入 FusionStorage 大數(shù)據(jù)存儲。BMC 平面:用于接入 FusionStorage 大數(shù)據(jù)存儲節(jié)點(diǎn) Mgmt 接口,簡稱BMC 平面,提供遠(yuǎn)程硬件設(shè)備管理功能。FusionStorage 大數(shù)據(jù)存儲組網(wǎng)示意如下圖所示。圖3-10 組網(wǎng)示意圖FusionStorage 大數(shù)據(jù)存儲支持GE、10GE 和 25GE,如下表所示。表3-1 組網(wǎng)方案匯總表方案業(yè)務(wù)網(wǎng)絡(luò)接入方式存儲網(wǎng)絡(luò)接入方式10GE 組網(wǎng)方案10GE10GE25GE 組網(wǎng)方案25G

41、E25GEGE 組網(wǎng)方案GE10GE同時,F(xiàn)usionStorage 大數(shù)據(jù)存儲支持華為 FusionCloud 私有云整體解決方案場景,此時遵循 FusionCloud 解決方案組網(wǎng)原則。組網(wǎng)方案組網(wǎng)設(shè)計原則FusionStorage 大數(shù)據(jù)存儲的組網(wǎng)包括業(yè)務(wù)平面和存儲平面均采用 10GE 組網(wǎng)、業(yè)務(wù)平面采用 GE 組網(wǎng)同時存儲平面采用 10GE 組網(wǎng)以及業(yè)務(wù)和存儲平面均采用 25GE 組網(wǎng)三種方式。集群內(nèi)組網(wǎng)方案集群內(nèi)典型組網(wǎng)方案根據(jù)業(yè)務(wù)和存儲平面是否共用交換機(jī)有如下兩種:圖3-11 業(yè)務(wù)和存儲平面獨(dú)立交換機(jī)組網(wǎng)圖3-12 業(yè)務(wù)和存儲平面共用交換機(jī)組網(wǎng)上述兩個圖示均為單個子網(wǎng)內(nèi)的節(jié)點(diǎn)和交換

42、機(jī)連線示意圖,單個集群由若干個這樣的子網(wǎng)組成。子網(wǎng)之間通過匯聚交換機(jī)互聯(lián)。軟件部署局域網(wǎng)部署方案局域網(wǎng)部署方案簡單便捷,以 5 個節(jié)點(diǎn)的集群為例,如下圖所示,node4 和node5 上面的 DNS 業(yè)務(wù)以雙活的方式運(yùn)行。為清晰起見,圖中沒有顯式地畫出存儲平面網(wǎng)絡(luò)交換機(jī),對外 IP 地址用 1.11.5 表示。在計算節(jié)點(diǎn)(個人電腦或服務(wù)器)上添加 DNS 服務(wù)器地址項(xiàng),指定為FusionStorage 大數(shù)據(jù)存儲的 DNS IP 地址(圖中為 1.4 和 1.5)。用戶訪問過程:客戶請求訪問域名 ,計算節(jié)點(diǎn)從 2 個 DNS 服務(wù)器地址 1.4 和 1.5 中選取 1.5(也可以選擇 1.4)

43、,并請求解析 ;節(jié)點(diǎn) node5 上的 DNS 服務(wù)域名 解析為 1.1,并返回給客戶端。計算節(jié)點(diǎn)將得到的 IP 地址緩存,然后訪問 IP 地址 1.1 對應(yīng)的 node1;在緩存期內(nèi),下次訪問就不再請求域名解析,直接訪問緩存中的 IP 地址。該方案的優(yōu)點(diǎn)是部署簡單;劣勢是無法跨網(wǎng)段訪問,緩存中的 IP 地址對應(yīng)的節(jié)點(diǎn)恰好故障時,需要等待緩存自動刷新后才能再次正常訪問。圖3-13 局域網(wǎng)用戶訪問流程廣域網(wǎng)部署 DNS 方案與局域網(wǎng)方案相比,本方案增設(shè)了DNS 服務(wù)器,如下圖,DNS 服務(wù)器中配置 的下級 DNS 地址為 1.4 和 1.5。用戶訪問過程:客戶請求訪問域名,計算節(jié)點(diǎn)通過廣域網(wǎng)向

44、DNS 服務(wù)器請求解析域名 ;DNS 服務(wù)器從 2 個 DNS 中選取 1 個(1.5),并將解析請求轉(zhuǎn)交給它(node5); node5 根據(jù)所有節(jié)點(diǎn)的狀態(tài),根據(jù)一定的策略來解析,圖 23 中將 解析為 1.1(對應(yīng) node1)并返回給DNS;DNS 接收到 DNS 的解析結(jié)果之后,并結(jié)果轉(zhuǎn)交給計算節(jié)點(diǎn)并在本地緩存;計算節(jié)點(diǎn)在本地緩存解析結(jié)果,在緩存有效期內(nèi),直接使用本緩存中的 IP 址。本方案的優(yōu)勢是計算節(jié)點(diǎn)不用做任何設(shè)置,直接使用。圖3-14 廣域網(wǎng)用戶訪問流程 4高性能和彈性擴(kuò)展 HYPERLINK l _bookmark31 單 namespace 高性能 HYPERLINK l

45、_bookmark32 元數(shù)據(jù)多級緩存 HYPERLINK l _bookmark33 全局負(fù)載均衡 HYPERLINK l _bookmark34 數(shù)據(jù)在線聚合 HYPERLINK l _bookmark35 無狀態(tài)集群 HYPERLINK l _bookmark36 彈性擴(kuò)展單 namespace 高性能原生HDFS 存儲系統(tǒng)在單namespace 文件數(shù)量和性能面臨的兩大挑戰(zhàn):系統(tǒng)擴(kuò)展性支持的節(jié)點(diǎn)規(guī)模有限,難以滿足 100PB 級的擴(kuò)展性要求;namespace 和文件的元數(shù)據(jù)管理存在瓶頸,單 namespace 文件數(shù)量有限(一億左右)。這兩大挑戰(zhàn)導(dǎo)致單 namespace 容量和性能

46、受限,不能發(fā)揮整系統(tǒng)的能力,而需要用戶系統(tǒng)去做多 namespace 的管理,增加了適配和管理存儲的復(fù)雜性。針對這兩大挑戰(zhàn)和用戶訴求,F(xiàn)usionStorage 大數(shù)據(jù)存儲通過一些關(guān)鍵技術(shù)解決了單 namespace 的性能問題:FusionStorage 大數(shù)據(jù)存儲架構(gòu)的三層(Service Layer,Index Layer,Persistence Layer)都是互相解耦,可以各自橫向擴(kuò)展的。單集群最大支持 4096 個節(jié)點(diǎn),支持 EB 級擴(kuò)展,充分滿足客戶海量數(shù)據(jù)單一資源池存儲、使用管理簡便的述求(解決單 namespace 的擴(kuò)展性瓶頸)。Range 動態(tài)分區(qū)技術(shù)將元數(shù)據(jù)管理打散,每

47、個服務(wù)器管理一組分段的元數(shù)據(jù),支持故障切換及動態(tài)均衡:圖4-1 動態(tài)分區(qū)如上圖所示,F(xiàn)usionStorage 大數(shù)據(jù)存儲將“namespace+文件名”進(jìn)行字典序排序,組成統(tǒng)一的元數(shù)據(jù)空間,然后根據(jù)元數(shù)據(jù)的大小和熱度進(jìn)行動態(tài)分區(qū),分成多個Partition,若干個Partition 由一個元數(shù)據(jù)服務(wù)器管理,最終實(shí)現(xiàn)元數(shù)據(jù)在所有節(jié)點(diǎn)(Node)打散(解決單namespace 的元數(shù)據(jù)管理瓶頸)。Persistence Layer(數(shù)據(jù)持久層)基于 DHT 免布局元數(shù)據(jù)技術(shù)進(jìn)行數(shù)據(jù)路由,保證數(shù)據(jù)可均勻分布到系統(tǒng)的所有節(jié)點(diǎn)和磁盤(解決單namespace 的數(shù)據(jù)分布瓶頸)。FusionStorag

48、e 大數(shù)據(jù)存儲的單 namespace 支持 100 億文件,充分滿足客戶業(yè)務(wù)應(yīng)用單namespace 讀寫業(yè)務(wù)的述求,免除了分 namespace 改造的麻煩。元數(shù)據(jù)多級緩存FusionStorage 大數(shù)據(jù)存儲支持元數(shù)據(jù)的多級緩存,以提升讀性能,加速熱點(diǎn)數(shù)據(jù)的快速訪問。圖4-2 多級緩存機(jī)制如上圖所示,F(xiàn)usionStorage 大數(shù)據(jù)存儲的元數(shù)據(jù)首先在系統(tǒng)中進(jìn)行壓縮存儲,可大幅減少元數(shù)據(jù)量:元數(shù)據(jù)以字符串為主,壓縮率比較高;選快速壓縮算法,能夠取得比較好的壓縮效果,并且 CPU 占用不高。元數(shù)據(jù)壓縮后,首先在DRAM 中做一級緩存,提供微秒級元數(shù)據(jù)讀性能,然后利用SSD 做二級緩存,提供

49、毫秒級元數(shù)據(jù)讀性能。全局負(fù)載均衡FusionStorage 大數(shù)據(jù)存儲的 DHT(Distributed Hash Table)機(jī)制以保證上層應(yīng)用對數(shù)據(jù)的 IO 操作會均勻分布在不同服務(wù)器的不同硬盤上,不會出現(xiàn)局部的熱點(diǎn),實(shí)現(xiàn)全局負(fù)載均衡:系統(tǒng)自動將每個文件的數(shù)據(jù)打散存儲在不同服務(wù)器的不同硬盤上,冷熱不均的數(shù)據(jù)會均勻分布在不同的服務(wù)器上,不會出現(xiàn)集中的熱點(diǎn)。擴(kuò)容節(jié)點(diǎn)或者故障減容節(jié)點(diǎn)時,數(shù)據(jù)恢復(fù)重建算法保證了重建后系統(tǒng)中各節(jié)點(diǎn)負(fù)載的均衡性。元數(shù)據(jù)按照全局排序后,分段分區(qū)的存儲在每個節(jié)點(diǎn)上,根據(jù)請求量和數(shù)據(jù)總量動態(tài)調(diào)整分區(qū)大小。數(shù)據(jù)在線聚合FusionStorage 大數(shù)據(jù)存儲支持將各種不同大小的

50、文件,在線聚合為一個 EC 滿分條, 然后按每個條帶(Strip)512K 的大顆粒 IO 寫入 HDD,從而最大程度發(fā)揮 HDD 的大IO 優(yōu)勢,規(guī)避 HDD 的低 IOPS 短板。圖4-3 數(shù)據(jù)在線聚合如上圖所示,不同Client 上傳的文件在同一個 Server 上會匯聚成一個個 512KB 的 IO, 然后每N 個 512K 的 IO 并發(fā)寫入N 個 HDD 上(假設(shè) EC 的比例為N+M)。一般單個 HDD 的能力在 200 IOPS 或 100MB/s 左右,以Client 寫入 200 個 100KB 大小的 IO 為例,如果不做聚合,這 200 個 IO 已經(jīng)達(dá)到了 HDD 的

51、 IOPS 瓶頸,但實(shí)際提供的帶寬 只有 200 * 100KB=20MB/s 左右;如果 Server 能做聚合,將這 200 個 IO 聚合為 40 個512K 的 IO,那么單個 HDD 的只有 40 IOPS 和 20MB/s 的壓力,兩項(xiàng)指標(biāo)都未達(dá)到瓶頸,這個 HDD 仍然可以接入更多的 IO,可以最大程度發(fā)揮 HDD 的高帶寬優(yōu)勢。無狀態(tài)集群FusionStorage 大數(shù)據(jù)存儲接入節(jié)點(diǎn)以集群方式組網(wǎng),基于一次簡單尋址的分布式哈希算法,接入節(jié)點(diǎn)與存儲節(jié)點(diǎn)之間的松耦合關(guān)系使得接入節(jié)點(diǎn)成為無狀態(tài)服務(wù)節(jié)點(diǎn),任何服務(wù)請求都可以通過負(fù)荷分擔(dān)機(jī)制由任一接入節(jié)點(diǎn)提供服務(wù),不存在傳統(tǒng)存儲由于狀態(tài)同

52、步、鎖定機(jī)制導(dǎo)致的接入節(jié)點(diǎn)數(shù)目擴(kuò)展瓶頸,因此接入節(jié)點(diǎn)集群內(nèi)的節(jié)點(diǎn)數(shù)目理論上可以無限擴(kuò)展,支撐容量線性擴(kuò)展不存在架構(gòu)上的瓶頸。彈性擴(kuò)展FusionStorage 大數(shù)據(jù)存儲的分布式擴(kuò)展性具備如下特點(diǎn):快速負(fù)載均衡:擴(kuò)容存儲節(jié)點(diǎn)后不需要做大量的數(shù)據(jù)搬遷,系統(tǒng)可以快速達(dá)到負(fù)載均衡狀態(tài)。靈活的擴(kuò)容方式:可以獨(dú)立擴(kuò)容計算節(jié)點(diǎn)、硬盤、存儲節(jié)點(diǎn),或者同時進(jìn)行擴(kuò)容。性能線性增長:機(jī)頭、存儲帶寬和Cache 都均勻分布到各個節(jié)點(diǎn)上,系統(tǒng)TPS、吞吐量和Cache 隨著節(jié)點(diǎn)的擴(kuò)容而線性增加。圖4-4 FusionStorage 大數(shù)據(jù)存儲擴(kuò)容FusionStorage 大數(shù)據(jù)存儲支持節(jié)點(diǎn)動態(tài)擴(kuò)展,推薦節(jié)點(diǎn)為 34

53、096 節(jié)點(diǎn)。隨著節(jié)點(diǎn)數(shù)的增加,存儲容量和計算能力線性增加,最終給用戶提供呈線性遞增的帶寬、并發(fā) 數(shù)。FusionStorage 大數(shù)據(jù)存儲提供了全局一致的緩存,緩存容量隨著節(jié)點(diǎn)增加而線性增長,隨著節(jié)點(diǎn)數(shù)目的增加,越來越多的熱點(diǎn)數(shù)據(jù)可以被緩存命中,大大減少硬盤隨機(jī) I/O,提高整系統(tǒng)性能。傳統(tǒng)的存儲系統(tǒng)需要耗時的規(guī)劃、升級和維護(hù)活動,增加容量或者性能往往需要橫向擴(kuò)展和重新配置應(yīng)用程序,從而導(dǎo)致中斷用戶活動,并最終損失工作效率和收入;FusionStorage 大數(shù)據(jù)存儲在擴(kuò)容時也保持這個特征,分鐘級的擴(kuò)容能力,自動負(fù)載均衡,不需要更改配置,不更改服務(wù)器或者客戶端的設(shè)置,不需要更改應(yīng)用程序,客戶

54、業(yè)務(wù)無中斷。 5高可靠FusionStorage 大數(shù)據(jù)存儲提供了數(shù)據(jù)跨節(jié)點(diǎn)的保護(hù)能力,在多個硬盤或者節(jié)點(diǎn)故障時也能夠繼續(xù)提供服務(wù),將數(shù)據(jù)放置到同一個節(jié)點(diǎn)池內(nèi)不同節(jié)點(diǎn)的不同硬盤上,數(shù)據(jù)獲得了跨節(jié)點(diǎn)的可靠性和故障快速恢復(fù)的能力。 HYPERLINK l _bookmark38 數(shù)據(jù)冗余保護(hù)機(jī)制 HYPERLINK l _bookmark42 數(shù)據(jù)一致性 HYPERLINK l _bookmark42 快速數(shù)據(jù)重建 HYPERLINK l _bookmark43 集群可靠性 HYPERLINK l _bookmark44 硬件可靠性 HYPERLINK l _bookmark45 鏈路可靠性數(shù)據(jù)冗

55、余保護(hù)機(jī)制FusionStorage 大數(shù)據(jù)存儲采用Erasure Code(糾刪碼,以下簡稱 EC)模式實(shí)現(xiàn)數(shù)據(jù)冗余保護(hù)。數(shù)據(jù)條帶化為實(shí)現(xiàn)數(shù)據(jù)保護(hù)和高性能讀寫,系統(tǒng)對數(shù)據(jù)進(jìn)行按節(jié)點(diǎn)條帶(Strip)化處理。首先, 創(chuàng)建新文件時,系統(tǒng)會按照默認(rèn)保護(hù)級別挑選符合要求的節(jié)點(diǎn),然后寫數(shù)據(jù)時系統(tǒng)將用戶的數(shù)據(jù)平均分布在各節(jié)點(diǎn)上,讀數(shù)據(jù)時系統(tǒng)從所有節(jié)點(diǎn)并行讀取。FusionStorage 大數(shù)據(jù)存儲使用Erasure Code 方式存儲數(shù)據(jù),可以針對“租戶”配置不同的數(shù)據(jù)保護(hù)方式(+2/+3/+4 等)。不同的數(shù)據(jù)保護(hù)方式,是通過不同的數(shù)據(jù)條帶化方式實(shí)現(xiàn)的。寫入 FusionStorage 大數(shù)據(jù)存儲系統(tǒng)

56、的數(shù)據(jù),會按照固定大?。ū热?12KB)劃分為一個條帶,將文件的數(shù)據(jù)切分為多個原數(shù)據(jù)條帶,然后對每N 個原數(shù)據(jù)條帶,計算得到 M 個冗余數(shù)據(jù)條帶,最終這 N+M 個條帶組成一個分條(Stripe),寫入到系統(tǒng)中。當(dāng)系統(tǒng)出現(xiàn)故障,丟失了其中的某些條帶時,只要一個分條中丟失的條帶數(shù)目不超過 M,就可進(jìn)行正常的數(shù)據(jù)讀寫。通過數(shù)據(jù)恢復(fù)算法,丟失的條帶可從剩余條帶中計算得到。在這種方式下,空間的利用率約為 N/(N+M),數(shù)據(jù)的可靠性由M 值的大小決定,M 越大可靠性越高。N+M 數(shù)據(jù)保護(hù)相比于傳統(tǒng)的RAID 方式,F(xiàn)usionStorage 大數(shù)據(jù)存儲在提供高可靠性的同時也能夠提供更高的磁盤利用率。傳

57、統(tǒng)RAID 把數(shù)據(jù)存放在一個RAID 組內(nèi)的不同硬盤上,當(dāng)其中有硬盤損壞時,通過RAID 重構(gòu),恢復(fù)壞盤上的數(shù)據(jù)。這類存儲系統(tǒng)常用的 RAID 方式有RAID-0/1/5/6 等, 其中可靠性最高的RAID-6 最多只能支持 2 塊硬盤同時發(fā)生故障。另外一方面,這類存儲系統(tǒng)使用控制器執(zhí)行RAID 數(shù)據(jù)存儲,為了預(yù)防控制器故障,它們通常使用雙控制器的方式來保證服務(wù)的可用性,但當(dāng) 2 個控制器同時發(fā)生故障時,還是會導(dǎo)致服務(wù)中斷。雖然這類系統(tǒng)還可以通過在多個節(jié)點(diǎn)間進(jìn)行同步/異步的數(shù)據(jù)復(fù)制,進(jìn)一步提高系統(tǒng)可靠性,但這會導(dǎo)致硬盤利用率很低,讓用戶承擔(dān)較高的TCO(總體擁有成本)。如下圖。圖5-1 傳統(tǒng)

58、RAID 數(shù)據(jù)保護(hù)FusionStorage 大數(shù)據(jù)存儲的數(shù)據(jù)保護(hù)技術(shù),是建立在分布式、節(jié)點(diǎn)間冗余的基礎(chǔ)上的。數(shù)據(jù)進(jìn)入系統(tǒng)之后,首先被切分為N 個數(shù)據(jù)條帶,然后計算出 M 個冗余條帶,并最終保存在 N+M 個不同的節(jié)點(diǎn)中。如下圖。圖5-2 N+M 數(shù)據(jù)保護(hù)由于同一條帶的數(shù)據(jù)保存在不同節(jié)點(diǎn)中,所以 FusionStorage 大數(shù)據(jù)存儲中的數(shù)據(jù)不僅能支持硬盤級的故障,而且能夠支持節(jié)點(diǎn)級的故障,保證數(shù)據(jù)不丟失。只要系統(tǒng)中同時故障的節(jié)點(diǎn)數(shù)不超過 M,系統(tǒng)就可以持續(xù)提供服務(wù)。通過數(shù)據(jù)重構(gòu)過程,系統(tǒng)可以恢復(fù)出損壞的數(shù)據(jù),恢復(fù)整系統(tǒng)的數(shù)據(jù)可靠性。FusionStorage 大數(shù)據(jù)存儲的數(shù)據(jù)保護(hù)方式與傳統(tǒng)R

59、AID 相比,能達(dá)到類似于傳統(tǒng)RAID 在多節(jié)點(diǎn)數(shù)據(jù)復(fù)制的高可靠性,同時仍可保持N/(N+M)的高硬盤利用率。另外, 在 FusionStorage 大數(shù)據(jù)存儲系統(tǒng)中,任意可用空間都可以作為“熱備”空間使用,不需要像傳統(tǒng) RAID 那樣預(yù)先劃分獨(dú)立的熱備盤,因此可進(jìn)一步提高存儲利用率。FusionStorage 大數(shù)據(jù)存儲提供多種N+M 的冗余比配置,用戶可根據(jù)業(yè)務(wù)需求在管理界面上進(jìn)行配置。這意味著用戶可以靈活多變的根據(jù)自己的實(shí)際需求來指定數(shù)據(jù)冗 余,從而設(shè)置最適合的可靠性。節(jié)點(diǎn)級安全級別FusionStorage 大數(shù)據(jù)存儲使用全分布式架構(gòu),文件數(shù)據(jù)和元數(shù)據(jù)在切片和 EC 后,會打散分布在每

60、臺節(jié)點(diǎn)上。在節(jié)點(diǎn)數(shù)目與數(shù)據(jù)分片的比例達(dá)到最低要求的情況下,系統(tǒng)支持節(jié)點(diǎn)級安全。如:選取 EC 的 N+M 為 4+2,則只需要最小 6 個節(jié)點(diǎn)即可做到節(jié)點(diǎn)級安全(4+2 共 6 個分片,每個節(jié)點(diǎn)分布 1 個分片)。每個節(jié)點(diǎn)會嚴(yán)格存儲 1 個數(shù)據(jù)分片(數(shù)據(jù)校驗(yàn)片),這樣任意節(jié)點(diǎn)臨時故障,仍然能保證數(shù)據(jù)可讀。如果節(jié)點(diǎn)數(shù)目達(dá)到 7 個,則能支持在永久故障一個節(jié)點(diǎn)的情況下,EC 比例不下降,仍為 4+2。根據(jù)上述原則,節(jié)點(diǎn)級安全的最少節(jié)點(diǎn)數(shù)計算公式可以總結(jié)為(N+M)/M + 1。下圖為節(jié)點(diǎn)級安全的節(jié)點(diǎn)排布。當(dāng)其中一個節(jié)點(diǎn)故障時,仍能從剩下的 5 個節(jié)點(diǎn)中讀取出 5 個分片,通過 EC 計算,得到原始

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論