Ceph分布式存儲(chǔ)系統(tǒng)優(yōu)化分析_第1頁(yè)
Ceph分布式存儲(chǔ)系統(tǒng)優(yōu)化分析_第2頁(yè)
Ceph分布式存儲(chǔ)系統(tǒng)優(yōu)化分析_第3頁(yè)
Ceph分布式存儲(chǔ)系統(tǒng)優(yōu)化分析_第4頁(yè)
Ceph分布式存儲(chǔ)系統(tǒng)優(yōu)化分析_第5頁(yè)
已閱讀5頁(yè),還剩9頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Ceph分布式存儲(chǔ)系統(tǒng)優(yōu)化分析Ceph支持多種存儲(chǔ)訪問(wèn)接口,現(xiàn)有的多種性能測(cè)試工具都可用 于Ceph的性能測(cè)試,如測(cè)試塊接口性能的fio , iometer等;測(cè)試 CephFSH口的 filebench ,fio 等;測(cè)試對(duì)象接口的 cosbench 等。Ceph 有專用的基準(zhǔn)測(cè)試集 CBT其包含radosbench , librbdfio , kvmrbdfio 和rbdfio 。radosbench基準(zhǔn)測(cè)試使用cephcommoi件包附帶的rados 二進(jìn)制文件,通過(guò)對(duì)象接口來(lái)訪問(wèn) Ceph集群。剩下的3個(gè)工具都是 測(cè)試塊存儲(chǔ)性能的。librbdfio基準(zhǔn)模塊通過(guò)用戶態(tài)librbd庫(kù)來(lái)測(cè)

2、試RBD勺塊存儲(chǔ)性能。kvmrbdfio基準(zhǔn)測(cè)試要求在使用CBT前創(chuàng)建虛擬機(jī)實(shí)例,并掛 載RBD設(shè)備。rbdfio基準(zhǔn)測(cè)試使用內(nèi)核進(jìn)行驅(qū)動(dòng)并將其映射到塊設(shè)備的RBD塊設(shè)備上。Teuthology是一個(gè)Ceph自動(dòng)化測(cè)試的框架,可以在指定 節(jié)點(diǎn)運(yùn)行測(cè)試用例,也可以用于性能的測(cè)試。對(duì)Ceph系統(tǒng)進(jìn)行持續(xù)的性能監(jiān)控可以了解集群運(yùn)行狀況,及早 發(fā)現(xiàn)性能瓶頸。Ceph提供了命令行接口輸出性能相關(guān)的統(tǒng)計(jì)數(shù)據(jù)。 OSDZ PG為單位收集性能數(shù)據(jù)并定期發(fā)給 Monitor節(jié)點(diǎn)。Monitor節(jié) 點(diǎn)匯總性能數(shù)據(jù)并同步至其他 Monitor節(jié)點(diǎn)。我們也提出了一種針對(duì) Ceph存儲(chǔ)系統(tǒng)層進(jìn)行分層性能監(jiān)測(cè)和采集的框架

3、,以及一種通過(guò) Ceph電文來(lái)分析系統(tǒng)性能和瓶頸的方法。Ceph存儲(chǔ)系統(tǒng)的特點(diǎn)和挑戰(zhàn)本節(jié)總結(jié)了 Ceph分布式存儲(chǔ)系統(tǒng)的特點(diǎn)和面臨的挑戰(zhàn)。(1 )Ceph存儲(chǔ)系統(tǒng)的優(yōu)點(diǎn)1 )高性能。針對(duì)并發(fā)量大的異步IO場(chǎng)景,隨著集群規(guī)模的擴(kuò)大, Ceph可提供近線性的性能增長(zhǎng)。2)高可擴(kuò)展性。Ceph通過(guò)CRUS篥法來(lái)實(shí)現(xiàn)數(shù)據(jù)尋址。這種方 法避免了元數(shù)據(jù)訪問(wèn)的瓶頸,使集群的存儲(chǔ)容量可以輕易擴(kuò)展至PB級(jí),甚至EB級(jí)。3)統(tǒng)一存儲(chǔ),適用范圍廣。Ceph支持塊、文件和對(duì)象存儲(chǔ),可 滿足多種不同的需求。底層的RADOSX擴(kuò)展并支持不同類型的存儲(chǔ)服 務(wù)。4)支持范圍廣。自2012年起,Linux內(nèi)核開始支持Ceph,

4、目前 Ceph可以在幾乎所有主流的Linux發(fā)行版和其他類UNIX系統(tǒng)上運(yùn)行。 自2016年起,Ceph開始支持AR隙構(gòu),同時(shí)也可適用于移動(dòng)、低功 耗等領(lǐng)域,其應(yīng)用場(chǎng)景覆蓋了當(dāng)前主流的軟硬件平臺(tái)。(2 )Ceph面臨的挑戰(zhàn))Ceph底層采用定長(zhǎng)的對(duì)象存儲(chǔ),為了保證對(duì)象級(jí)別的原子性, 底層存儲(chǔ)引擎的寫放大問(wèn)題嚴(yán)重影響了性能。)Ceph的數(shù)據(jù)分布算法CRUSHE實(shí)際環(huán)境中存在一些問(wèn)題,包 括擴(kuò)容時(shí)數(shù)據(jù)遷移不可控、數(shù)據(jù)分布不均衡等。這些問(wèn)題影響了 Ceph 性能的穩(wěn)定性。)Ceph對(duì)新型存儲(chǔ)介質(zhì)的支持較差。在使用高速存儲(chǔ)介質(zhì)時(shí),軟件造成的時(shí)延比硬件導(dǎo)致的時(shí)延高出數(shù)十倍。 社區(qū)也在開發(fā)面向新 型存儲(chǔ)介

5、質(zhì)的存儲(chǔ)引擎。4)Ceph的架構(gòu)復(fù)雜,抽象層次多,時(shí)延較大。雖然 Ceph采用 面向?qū)ο蟮脑O(shè)計(jì)思想,但其代碼內(nèi)對(duì)象間的耦合嚴(yán)重,導(dǎo)致不同版本 間的接口不兼容。針對(duì)不同版本的性能優(yōu)化技術(shù)和方法也互相不兼容。5 )Ceph是一個(gè)通用的分布式存儲(chǔ)系統(tǒng),可應(yīng)用于云計(jì)算、大數(shù) 據(jù)和高性能計(jì)算等領(lǐng)域。針對(duì)不同的訪問(wèn)負(fù)載特征,Ceph還有較大的性能提升和優(yōu)化空間。Ceph是一個(gè)通用的分布式文件系統(tǒng),適用于不同的場(chǎng)景。內(nèi)部 機(jī)制的優(yōu)化對(duì)所有的場(chǎng)景都會(huì)產(chǎn)生性能的提升,但是優(yōu)化的難度和復(fù) 雜度也最高。存儲(chǔ)引擎的優(yōu)化在分布式存儲(chǔ)系統(tǒng)中,數(shù)據(jù)被分散在大量的存儲(chǔ)服務(wù)器上,大部 分分布式存儲(chǔ)系統(tǒng)都直接使用本地文件系統(tǒng)來(lái)存

6、儲(chǔ)數(shù)據(jù),如HDFS ,Lustre等。高性能、高可靠的分布式存儲(chǔ)系統(tǒng)離不開高效、一致、 穩(wěn)定、可靠的本地文件系統(tǒng)。Ceph存儲(chǔ)引擎的優(yōu)化,參考“ Ceph分 布式存儲(chǔ)系統(tǒng)架構(gòu)研究綜述”。網(wǎng)絡(luò)通信的優(yōu)化在分布式存儲(chǔ)系統(tǒng)中,節(jié)點(diǎn)間需要通過(guò)網(wǎng)絡(luò)通信來(lái)交換狀態(tài)和數(shù) 據(jù)。Ceph有3種類型的通信模式,分別是Simple , Async和XIO。Simple 線程模式對(duì)每個(gè)網(wǎng)絡(luò)連接都創(chuàng)建了兩個(gè)線程,分別用于接收和發(fā)送。 Ceph集群中OSD Monitor節(jié)點(diǎn)及客戶端之間都需要建立連接。隨著 集群規(guī)模的增長(zhǎng),創(chuàng)建的連接數(shù)和線程數(shù)會(huì)呈指數(shù)級(jí)增長(zhǎng),需要消耗更多的CPUffi內(nèi)存資源。在內(nèi)存有限的情況下,Sim

7、ple模式將導(dǎo)致大量線程的頻繁切換以致內(nèi)存耗盡。Async模式將連接和線程分開,通過(guò)線程池管理來(lái)維護(hù)線程的使用,用戶可設(shè)置線程池中線程的數(shù)量。 這是目前被廣泛采用的方式,自2017年發(fā)布Kraken版本后,這已經(jīng) 成為默認(rèn)的通信模式。XIO模式使用了開源的網(wǎng)絡(luò)通信庫(kù)accelio來(lái) 實(shí)現(xiàn),現(xiàn)今仍處于實(shí)驗(yàn)階段。目前針對(duì)網(wǎng)絡(luò)通信優(yōu)化的研究都是基于 Async通信模式實(shí)現(xiàn)的。Async模式使用線程池,可兼顧資源和性能的平衡,但早期其設(shè) 計(jì)是基于循環(huán)的簡(jiǎn)單調(diào)度方案,未考慮傳輸數(shù)據(jù)大小和線程負(fù)載。 這 種早期設(shè)計(jì)會(huì)導(dǎo)致工作線程負(fù)載不平衡,在高負(fù)荷情況下產(chǎn)生一些性 能問(wèn)題。Han等提出了一種用于Ceph文

8、件系統(tǒng)的動(dòng)態(tài)消息感知通信 的調(diào)度程序,以解決工作線程調(diào)度不平衡的問(wèn)題,從而提高性能。他 提出的調(diào)度算法根據(jù)傳入消息的類型來(lái)平衡工作線程的工作量,同時(shí)避免了工作線程之間不必要的連接轉(zhuǎn)換。一方面,該算法將低優(yōu)先級(jí)消息(例如來(lái)自心跳連接的消息)分配 給特定線程,以免干擾其他高優(yōu)先級(jí)消息。另一方面,高優(yōu)先級(jí)消息 被平均分配給每個(gè)工作線程,以平衡線程之間的工作負(fù)載。同時(shí)其使 用遺傳算法(GA)來(lái)使不必要的連接轉(zhuǎn)換最小化。測(cè)試結(jié)果表明,在相 同的客戶端工作負(fù)載下,該方法比原始 Asyncmessenger的性能高出 12.5 %,在客戶端的隨機(jī)工作負(fù)載下,其性能比原始Asyncmessenger 高出24

9、%。優(yōu)化Asyncmessenger還可以通過(guò)將多個(gè)工作線程分配給單個(gè)連接來(lái)處理來(lái)自該連接的流量。但是,由于多個(gè)線程爭(zhēng)用訪問(wèn)連接中的共享資源,這種映射結(jié)構(gòu)會(huì)引起與鎖定維護(hù)有關(guān)的另一種開銷Ceph的Luminous版本將Async網(wǎng)絡(luò)通信模型作為默認(rèn)的通信方 式。雖然Async實(shí)現(xiàn)了 IO的多路復(fù)用,使用共享的線程池來(lái)實(shí)現(xiàn)異 步發(fā)送和接收任務(wù),但是如彳平衡Async工作線程的負(fù)載也是一個(gè)值 得關(guān)注的問(wèn)題。下表總結(jié)了幾種常見的算法的優(yōu)化方案。同除他汀謁度的他牝方率7*罐小之理ft量.F. r 耳K Jf;Hitt 4*才就后,至F青曲可保度a f & 冷輪 t 冏性息地上/港工桑H r案群3毒也二

10、小二曜便電乜苗工仆收工事*孑界始1%2維也電, 口 用M岑W *睥m由的號(hào)亍 tf. it -彳青 W-尋*卜工冷氣電和。中國(guó)精,1去用* R *4僧韓才+飽T *甲*加a使u產(chǎn)嚴(yán)主11 V nm:rtTnt*1愧 安 尢二與吐科中黃曲充*抻號(hào)*與聚珀LcpL,蛇雷比*4費(fèi)冊(cè)/上叼人春rHi * H3*用3M理由如依夏平憫 金身慝 fE 卜建盛分肥野上工,堂授有貴理W f直升SI總劇If用牛建H , 馬 t悝物 建It稅削弊用機(jī)與且用.此*曲1”的牝Jl.ft* r uKiinRDM麋一種低延遲、高性能的網(wǎng)絡(luò)傳輸協(xié)議,已被廣泛應(yīng)用于 高性能計(jì)算環(huán)境中。為了在Ceph中利J用RDMAZ實(shí)現(xiàn)高速的

11、數(shù)據(jù)傳輸, 開發(fā)社區(qū)提出了兩種方案。第一種方案是降低Ceph對(duì)網(wǎng)絡(luò)層狀態(tài)的要求,減少M(fèi)essenger 需要實(shí)現(xiàn)的邏輯。現(xiàn)在的XioMessenger規(guī)定的語(yǔ)義和策略過(guò)于復(fù)雜, 使用新的網(wǎng)絡(luò)協(xié)議實(shí)現(xiàn)的難度大;減少M(fèi)essenger的邏輯則需要增加 上層的邏輯。第二種方案是基于目前的 AsyncMessenger的框架,擴(kuò)展出支持 RDMA勺網(wǎng)絡(luò)后端而無(wú)需關(guān)心上層的會(huì)話邏輯。國(guó)內(nèi)的XSKY公司和Mellanox公司合作提出了基于 AsyncMessenger的網(wǎng)絡(luò)通信引擎。這 種修改使用RDMA勺雙邊通信機(jī)制,性能提升有限。并且在當(dāng)前版本 的代碼實(shí)現(xiàn)中,RDM??捎糜诳蛻舳伺c服務(wù)器之間、服務(wù)器與

12、服務(wù) 器之間的通信,不能在兩個(gè)網(wǎng)絡(luò)中同時(shí)被應(yīng)用,這也限制了該方案的應(yīng)用數(shù)據(jù)放置方法的優(yōu)化經(jīng)典Ceph存儲(chǔ)系統(tǒng)在副本模式下選擇存儲(chǔ)節(jié)點(diǎn)時(shí),僅以節(jié)點(diǎn)存 儲(chǔ)容量為唯一選擇條件,并沒(méi)有考慮到網(wǎng)絡(luò)和節(jié)點(diǎn)的負(fù)載狀況,這影響了系統(tǒng)在網(wǎng)絡(luò)性能差和節(jié)點(diǎn)高負(fù)載的情況下的讀寫性能。為解決這些問(wèn)題,文獻(xiàn)設(shè)計(jì)了基于軟件定義網(wǎng)絡(luò)技術(shù)的Ceph存儲(chǔ)系統(tǒng)模型和存儲(chǔ)節(jié)點(diǎn)選擇策略,首先利用軟件定義網(wǎng)絡(luò)技術(shù)實(shí)時(shí)獲取網(wǎng)絡(luò)和負(fù)載 狀況,以簡(jiǎn)化網(wǎng)絡(luò)配置和減小測(cè)量開銷,然后通過(guò)建立并求解出綜合 考慮了多種因素的多屬性決策數(shù)學(xué)模型來(lái)確定存儲(chǔ)節(jié)點(diǎn)的位置。在實(shí)際環(huán)境中對(duì)設(shè)計(jì)的存儲(chǔ)節(jié)點(diǎn)選擇方法進(jìn)行讀寫操作的測(cè)試, 結(jié)果表明,與現(xiàn)有的CRUSH:法

13、相比,提出的存儲(chǔ)節(jié)點(diǎn)選擇方法可以 在保持與原有Ceph系統(tǒng)相同的寫操作性能的同時(shí),針對(duì) 4KB對(duì)象的 100娥操作的響應(yīng)日t間比原有的 Ceph集群的縮短了 10ms左右,針對(duì) 4096KB對(duì)象的100%讀操作響應(yīng)時(shí)間相對(duì)縮短了 120ms左右。這種方 法需要獲取網(wǎng)絡(luò)的實(shí)時(shí)性能以用于數(shù)據(jù)放置策略的調(diào)整,引入了網(wǎng)絡(luò)負(fù)載采集的開銷,在大規(guī)模集群場(chǎng)景下應(yīng)用受限。并且由于該方法會(huì) 頻繁更新CRUSH:法的參數(shù),其讀取性能會(huì)有所下降。配置參數(shù)性能調(diào)優(yōu)Ceph存儲(chǔ)系統(tǒng)的可配置參數(shù)有1500多個(gè),參數(shù)的調(diào)整對(duì)系統(tǒng)性 能有較大的影響。默認(rèn)配置針對(duì)不同的硬件和應(yīng)用通常不是最優(yōu)配置。 通過(guò)鎖優(yōu)化和系統(tǒng)參數(shù)調(diào)優(yōu)技術(shù)

14、使系統(tǒng)的吞吐率提升了1.6倍,但其并未討論修改了哪些配置參數(shù)。雖有文獻(xiàn)詳細(xì)介紹了在全閃存環(huán)境下需要調(diào)整哪些參數(shù)(包括內(nèi)核、文件系統(tǒng)、磁盤緩存、 RADO和RBD等),但是沒(méi)有給出調(diào)整前后的性能對(duì)比。Intel開發(fā)并開源了一個(gè)性能優(yōu)化工具 CeTune該工具可用于 Ceph集群的部署、測(cè)試、分析和調(diào)優(yōu)。該工具是一個(gè)交互性的調(diào)優(yōu) 工具,尚不能自動(dòng)尋找最優(yōu)配置。分布式存儲(chǔ)系統(tǒng)的性能調(diào)優(yōu)仍是一 個(gè)具有挑戰(zhàn)性的問(wèn)題。參數(shù)組合導(dǎo)致問(wèn)題解空間大,且參數(shù)之間會(huì)互 相影響。在數(shù)據(jù)庫(kù)領(lǐng)域已有一些利用機(jī)器學(xué)習(xí)和決策樹的方法進(jìn)行自 動(dòng)調(diào)優(yōu)的成功案例,而在分布式存儲(chǔ)系統(tǒng)領(lǐng)域,相關(guān)研究仍處于起步 階段。面向特定硬件環(huán)境的

15、優(yōu)化隨著3DXpoint和非易失內(nèi)存等技術(shù)的發(fā)展與成熟,最快的存儲(chǔ) 介質(zhì)性能已接近內(nèi)存性能。使用新型存儲(chǔ)器件的系統(tǒng)中軟件已成為瓶 頸。如圖所示,HDD SATASSDNVMeNANDSSDDXPointStorage , 3DXPointMemory系統(tǒng)中的軟件造成的延遲分別是 0,10% ,20% ,40% 和90%。通過(guò)重構(gòu)軟件的體系結(jié)構(gòu)來(lái)充分發(fā)揮高速存儲(chǔ)介質(zhì)的性能 是目前的一個(gè)研究熱點(diǎn)。固態(tài)存儲(chǔ)設(shè)備相比磁盤設(shè)備,在性能、功耗和機(jī)架密度上具有顯 著的優(yōu)勢(shì)。SAT服口限制了固態(tài)存儲(chǔ)設(shè)備的最大吞吐率。Intel提出 的利用PCIE總線來(lái)訪問(wèn)固態(tài)存儲(chǔ)的NVM部口方法提供了通用的高速 存取方案。使

16、用NVMe勺固態(tài)存儲(chǔ)設(shè)備在吞吐量和延遲性能上比傳統(tǒng) 的磁盤高出1-2個(gè)數(shù)量級(jí),因此在總的IO處理時(shí)間中,軟件造成的 延遲占據(jù)更大的比例?,F(xiàn)有的存儲(chǔ)系統(tǒng)為低速硬件設(shè)計(jì)了合并寫、異步寫等機(jī)制,但是這些機(jī)制并不適用于高速存儲(chǔ)設(shè)備。隨著存儲(chǔ)設(shè)備 性能的進(jìn)一步提升,存儲(chǔ)系統(tǒng)軟件棧的性能和效率對(duì)存儲(chǔ)系統(tǒng)的影響 越來(lái)越大。存儲(chǔ)系統(tǒng)因受制于低效冗余的軟件棧而不能充分發(fā)揮硬件 性能。SPD癌Intel提出的使用NVMeSS作為后端存儲(chǔ)的應(yīng)用軟件加 速庫(kù)。該軟件庫(kù)的核心是實(shí)現(xiàn)用戶態(tài)、異步、無(wú)鎖、輪詢方式的NVMe 驅(qū)動(dòng)。雖然SPD得新型驅(qū)動(dòng)可以將NVMeSSD性能最高提高6倍, 但是在Ceph中直接使用SPDK沒(méi)

17、有明顯的性能提升。其主要原因在 于在BlueStore的處理中有很多線程協(xié)作,線程間的互斥和切換開銷較大。在Ceph中,OS皺用異步IO等待IO完成,多線程可以充分利 用NVMeSSD通道的特點(diǎn)來(lái)提升性能。由于一個(gè) OSED5法充分利用 NVMeSS的帶寬,研究人員發(fā)現(xiàn)將 NVMeSS進(jìn)行分區(qū),然后在其上運(yùn) 行多個(gè)OSDI顯著提高性能。圖給出了一個(gè) NVMeSSD別使用1個(gè) OSD 2個(gè)OS于口 4個(gè)OSD寸的性能,可以看到在1個(gè) SSD上運(yùn)行4 個(gè)OSD寸的隨機(jī)讀,其IOPS增長(zhǎng)很快但延遲增長(zhǎng)緩慢。但是將SSM區(qū)并同時(shí)支持多個(gè)OSE&有一些缺點(diǎn),如降低了可 靠性、小塊隨機(jī)寫延遲增大、需要更多

18、內(nèi)存和 CPLK源等。另一項(xiàng)對(duì) 于隨機(jī)寫的測(cè)試結(jié)果如圖所示,在1個(gè)SSD上運(yùn)行2個(gè)OSD寸的IOPS 與運(yùn)行4個(gè)OSD寸的IOPS相近,且需要的CPLK源更少。使用多個(gè) OSD勺提升效果與SSD勺性能和CPU勺性能相關(guān),且需要占用較多的 CPUA內(nèi)存資源,對(duì)可用性也有影響,因此不適用于大規(guī)模生產(chǎn)環(huán)境。40U M BOO LNM 1如OJOIOPS-IDSIl-SVSIe - - - 20SO-N VMi:3OSDNMc,于SDi生性的對(duì)比J匹111、樂(lè)口匚uaH”】MAVLIJH B二i蜘 64* 用 aBlock Siae/K產(chǎn)ISI拈 IMSwz/ WS| K)PS2Tl PL: UB4G

19、E %6必PU VAGF %bj*忤儲(chǔ)拘對(duì)比討除了 NVMeU外,現(xiàn)在還有一些使用SATASS來(lái)代替HDM策略,但直接替換存儲(chǔ)介質(zhì)的性能提升有限。 Ceph針對(duì)HD皺計(jì)了很多異 步和調(diào)整寫順序的機(jī)制,但這些機(jī)制反而降低了 SSD勺性能。當(dāng)使用 Ceph集群和全閃存SSDif行4 K隨機(jī)寫入/讀取的性能測(cè)試時(shí),隨機(jī) 寫入性能也只能達(dá)到16KIOPS當(dāng)線程數(shù)增加到32個(gè)及以上時(shí),IOPS 幾乎保持不變,且延遲急劇增加。隨機(jī)讀取時(shí),當(dāng)線程數(shù)少于32時(shí), IOPS較低,且延遲較高。2、非易失內(nèi)存存儲(chǔ)是數(shù)據(jù)密集型系統(tǒng)中最慢的組件。盡管基于NVMe勺固態(tài)驅(qū)動(dòng)器提供了更快、更持久的存儲(chǔ),IO性能已大大提高,

20、但其仍然比 系統(tǒng)中的其他組件慢。隨著 NVDIM砰品的出現(xiàn),可字節(jié)尋址的非易 失性存儲(chǔ)器將提供與內(nèi)存相近的IO性能。Intel # Client端的NVM乍為緩存,提出了 3個(gè)優(yōu)化方案,大 大提升了塊存儲(chǔ)接口的訪問(wèn)性能。方案一提出由于Ceph快照中的父對(duì)象是只讀的,Client端將其 緩存在本地SSD中以提高讀取性能。但該方案僅緩存特定的不變對(duì)象, 不具有通用性。方案二利用Client端的NVMR現(xiàn)了一個(gè)寫回緩存,寫入NVM勺 數(shù)據(jù)并將其不定期刷新至 OSM。該方案性能提升的效果明顯,能將 99.99 %的寫入延遲縮短到1/10以下。但是因?yàn)樵诳蛻舳税l(fā)生故障時(shí), 保存在NVMfr的數(shù)據(jù)沒(méi)有寫入

21、Ceph后端的OSD所以會(huì)造成數(shù)據(jù)不 一致。為了解決這個(gè)問(wèn)題,方案三通過(guò) RDM腋術(shù)為Client節(jié)點(diǎn)和OSD 節(jié)點(diǎn)的NV庵間建立鏡像,以避免因Client故障導(dǎo)致的數(shù)據(jù)丟失。 復(fù)制寫日志機(jī)制將數(shù)據(jù)同時(shí)持久化至 Client和OSD勺NVMK當(dāng) Client不發(fā)生故障時(shí),OS雙提供鏡像空間,無(wú)需額外的CPU?資源?;诳蛻舳说木彺嫘阅芴嵘黠@,但為每個(gè)客戶端配置NVMf口 RDMA的成本較高,且該方案并未充分利用 OSW的NVMf性。3、混合存儲(chǔ)在Ceph集群中可以使用SSD乍為保存日志或緩存來(lái)提高訪問(wèn)性 能。Ceph支持使用高速存儲(chǔ)設(shè)備作為緩存來(lái)加速IO性能。目前有兩 種不同的緩存實(shí)現(xiàn)方式:

22、1 )在OSD3部使用緩存;2 )將高性能節(jié)點(diǎn) 組成緩存層。根據(jù)第一種方案,在使用FileStore時(shí),文件系統(tǒng)可以識(shí)別并使 用異構(gòu)來(lái)存儲(chǔ)介質(zhì),并將其中的 SSD乍為緩存,具架構(gòu)如圖7 (a)所 示。這種方案可以依賴已有的緩存工具 (如dm-cache, bcache, FalshCache)來(lái)實(shí)現(xiàn)該功能,也可以使用現(xiàn)有的多種緩存控制方法。 其中,dm-cache作為linux 內(nèi)核的一部分,采用 devicemapper機(jī)制 以允許用戶建立混合卷;bcache是linux內(nèi)核塊層緩存,使用SSD乍 為HDD1盤的緩存,從而起到加速作用;FlashCache可智能緩存最近 讀取過(guò)的用戶數(shù)據(jù)或元

23、數(shù)據(jù),從而加快數(shù)據(jù)訪問(wèn)。ApplicationC ache(k)qI(replicated) .一 : $Backing pool BbcLlii paol(rep麻肌刈 l-cplic孤汕Ceph storage cluster(h)分層存池第二種方案的實(shí)現(xiàn)方式是將獨(dú)立的設(shè)備或節(jié)點(diǎn)組成緩存池,在慢速節(jié)點(diǎn)保存冷數(shù)據(jù),在高性能節(jié)點(diǎn)保存熱數(shù)據(jù)。在這種方案中,高速 節(jié)點(diǎn)被組織成為緩存層,該緩存層也是一個(gè)RADOS1,不僅具有持久 化的能力,還具有獨(dú)立的CRUS策略。該層以下是基于HDD勺R(shí)ADOS 池,其可以采用三副本的 ReplicatePG作為后端,也可以采用 Erasurecoded 作為后端。未來(lái)展望針對(duì)前面提到的不同的性能優(yōu)化方法,本節(jié)從 Ceph內(nèi)部機(jī)制優(yōu)化、基于新型硬件和面向不同負(fù)載優(yōu)化這 3個(gè)方面對(duì)性能優(yōu)化問(wèn)題的未來(lái)研究方向進(jìn)行了展望。1、Ceph內(nèi)部機(jī)制的優(yōu)化Ceph發(fā)展至今,其規(guī)模和復(fù)雜性不斷增大。數(shù)據(jù)分

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論