Ceph分布式存儲(chǔ)系統(tǒng)優(yōu)化分析

上傳人：z*** IP屬地：天津上傳時(shí)間：2022-08-02 格式：DOCX 頁(yè)數(shù)：14 大小：105.26KB 積分：18 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩9頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Ceph分布式存儲(chǔ)系統(tǒng)優(yōu)化分析Ceph支持多種存儲(chǔ)訪問(wèn)接口，現(xiàn)有的多種性能測(cè)試工具都可用于Ceph的性能測(cè)試，如測(cè)試塊接口性能的fio , iometer等；測(cè)試 CephFSH口的 filebench ,fio 等；測(cè)試對(duì)象接口的 cosbench 等。Ceph 有專用的基準(zhǔn)測(cè)試集 CBT其包含radosbench , librbdfio , kvmrbdfio 和rbdfio 。radosbench基準(zhǔn)測(cè)試使用cephcommoi件包附帶的rados 二進(jìn)制文件，通過(guò)對(duì)象接口來(lái)訪問(wèn) Ceph集群。剩下的3個(gè)工具都是測(cè)試塊存儲(chǔ)性能的。librbdfio基準(zhǔn)模塊通過(guò)用戶態(tài)librbd庫(kù)來(lái)測(cè)

2、試RBD勺塊存儲(chǔ)性能。kvmrbdfio基準(zhǔn)測(cè)試要求在使用CBT前創(chuàng)建虛擬機(jī)實(shí)例，并掛載RBD設(shè)備。rbdfio基準(zhǔn)測(cè)試使用內(nèi)核進(jìn)行驅(qū)動(dòng)并將其映射到塊設(shè)備的RBD塊設(shè)備上。Teuthology是一個(gè)Ceph自動(dòng)化測(cè)試的框架，可以在指定節(jié)點(diǎn)運(yùn)行測(cè)試用例，也可以用于性能的測(cè)試。對(duì)Ceph系統(tǒng)進(jìn)行持續(xù)的性能監(jiān)控可以了解集群運(yùn)行狀況，及早發(fā)現(xiàn)性能瓶頸。Ceph提供了命令行接口輸出性能相關(guān)的統(tǒng)計(jì)數(shù)據(jù)。 OSDZ PG為單位收集性能數(shù)據(jù)并定期發(fā)給 Monitor節(jié)點(diǎn)。Monitor節(jié) 點(diǎn)匯總性能數(shù)據(jù)并同步至其他 Monitor節(jié)點(diǎn)。我們也提出了一種針對(duì) Ceph存儲(chǔ)系統(tǒng)層進(jìn)行分層性能監(jiān)測(cè)和采集的框架

3、，以及一種通過(guò) Ceph電文來(lái)分析系統(tǒng)性能和瓶頸的方法。Ceph存儲(chǔ)系統(tǒng)的特點(diǎn)和挑戰(zhàn)本節(jié)總結(jié)了 Ceph分布式存儲(chǔ)系統(tǒng)的特點(diǎn)和面臨的挑戰(zhàn)。(1 )Ceph存儲(chǔ)系統(tǒng)的優(yōu)點(diǎn)1 )高性能。針對(duì)并發(fā)量大的異步IO場(chǎng)景，隨著集群規(guī)模的擴(kuò)大， Ceph可提供近線性的性能增長(zhǎng)。2)高可擴(kuò)展性。Ceph通過(guò)CRUS篥法來(lái)實(shí)現(xiàn)數(shù)據(jù)尋址。這種方法避免了元數(shù)據(jù)訪問(wèn)的瓶頸，使集群的存儲(chǔ)容量可以輕易擴(kuò)展至PB級(jí)，甚至EB級(jí)。3)統(tǒng)一存儲(chǔ)，適用范圍廣。Ceph支持塊、文件和對(duì)象存儲(chǔ)，可滿足多種不同的需求。底層的RADOSX擴(kuò)展并支持不同類型的存儲(chǔ)服務(wù)。4)支持范圍廣。自2012年起，Linux內(nèi)核開始支持Ceph,

4、目前 Ceph可以在幾乎所有主流的Linux發(fā)行版和其他類UNIX系統(tǒng)上運(yùn)行。自2016年起，Ceph開始支持AR隙構(gòu)，同時(shí)也可適用于移動(dòng)、低功耗等領(lǐng)域，其應(yīng)用場(chǎng)景覆蓋了當(dāng)前主流的軟硬件平臺(tái)。(2 )Ceph面臨的挑戰(zhàn))Ceph底層采用定長(zhǎng)的對(duì)象存儲(chǔ)，為了保證對(duì)象級(jí)別的原子性，底層存儲(chǔ)引擎的寫放大問(wèn)題嚴(yán)重影響了性能。)Ceph的數(shù)據(jù)分布算法CRUSHE實(shí)際環(huán)境中存在一些問(wèn)題，包括擴(kuò)容時(shí)數(shù)據(jù)遷移不可控、數(shù)據(jù)分布不均衡等。這些問(wèn)題影響了 Ceph 性能的穩(wěn)定性。)Ceph對(duì)新型存儲(chǔ)介質(zhì)的支持較差。在使用高速存儲(chǔ)介質(zhì)時(shí)，軟件造成的時(shí)延比硬件導(dǎo)致的時(shí)延高出數(shù)十倍。社區(qū)也在開發(fā)面向新型存儲(chǔ)介

5、質(zhì)的存儲(chǔ)引擎。4)Ceph的架構(gòu)復(fù)雜，抽象層次多，時(shí)延較大。雖然 Ceph采用面向?qū)ο蟮脑O(shè)計(jì)思想，但其代碼內(nèi)對(duì)象間的耦合嚴(yán)重，導(dǎo)致不同版本間的接口不兼容。針對(duì)不同版本的性能優(yōu)化技術(shù)和方法也互相不兼容。5 )Ceph是一個(gè)通用的分布式存儲(chǔ)系統(tǒng)，可應(yīng)用于云計(jì)算、大數(shù) 據(jù)和高性能計(jì)算等領(lǐng)域。針對(duì)不同的訪問(wèn)負(fù)載特征，Ceph還有較大的性能提升和優(yōu)化空間。Ceph是一個(gè)通用的分布式文件系統(tǒng)，適用于不同的場(chǎng)景。內(nèi)部機(jī)制的優(yōu)化對(duì)所有的場(chǎng)景都會(huì)產(chǎn)生性能的提升，但是優(yōu)化的難度和復(fù) 雜度也最高。存儲(chǔ)引擎的優(yōu)化在分布式存儲(chǔ)系統(tǒng)中，數(shù)據(jù)被分散在大量的存儲(chǔ)服務(wù)器上，大部分分布式存儲(chǔ)系統(tǒng)都直接使用本地文件系統(tǒng)來(lái)存

6、儲(chǔ)數(shù)據(jù)，如HDFS ,Lustre等。高性能、高可靠的分布式存儲(chǔ)系統(tǒng)離不開高效、一致、穩(wěn)定、可靠的本地文件系統(tǒng)。Ceph存儲(chǔ)引擎的優(yōu)化，參考“ Ceph分布式存儲(chǔ)系統(tǒng)架構(gòu)研究綜述”。網(wǎng)絡(luò)通信的優(yōu)化在分布式存儲(chǔ)系統(tǒng)中，節(jié)點(diǎn)間需要通過(guò)網(wǎng)絡(luò)通信來(lái)交換狀態(tài)和數(shù) 據(jù)。Ceph有3種類型的通信模式，分別是Simple , Async和XIO。Simple 線程模式對(duì)每個(gè)網(wǎng)絡(luò)連接都創(chuàng)建了兩個(gè)線程，分別用于接收和發(fā)送。 Ceph集群中OSD Monitor節(jié)點(diǎn)及客戶端之間都需要建立連接。隨著集群規(guī)模的增長(zhǎng)，創(chuàng)建的連接數(shù)和線程數(shù)會(huì)呈指數(shù)級(jí)增長(zhǎng)，需要消耗更多的CPUffi內(nèi)存資源。在內(nèi)存有限的情況下，Sim

7、ple模式將導(dǎo)致大量線程的頻繁切換以致內(nèi)存耗盡。Async模式將連接和線程分開，通過(guò)線程池管理來(lái)維護(hù)線程的使用，用戶可設(shè)置線程池中線程的數(shù)量。這是目前被廣泛采用的方式，自2017年發(fā)布Kraken版本后，這已經(jīng) 成為默認(rèn)的通信模式。XIO模式使用了開源的網(wǎng)絡(luò)通信庫(kù)accelio來(lái) 實(shí)現(xiàn)，現(xiàn)今仍處于實(shí)驗(yàn)階段。目前針對(duì)網(wǎng)絡(luò)通信優(yōu)化的研究都是基于 Async通信模式實(shí)現(xiàn)的。Async模式使用線程池，可兼顧資源和性能的平衡，但早期其設(shè) 計(jì)是基于循環(huán)的簡(jiǎn)單調(diào)度方案，未考慮傳輸數(shù)據(jù)大小和線程負(fù)載。這種早期設(shè)計(jì)會(huì)導(dǎo)致工作線程負(fù)載不平衡，在高負(fù)荷情況下產(chǎn)生一些性能問(wèn)題。Han等提出了一種用于Ceph文

8、件系統(tǒng)的動(dòng)態(tài)消息感知通信的調(diào)度程序，以解決工作線程調(diào)度不平衡的問(wèn)題，從而提高性能。他提出的調(diào)度算法根據(jù)傳入消息的類型來(lái)平衡工作線程的工作量，同時(shí)避免了工作線程之間不必要的連接轉(zhuǎn)換。一方面，該算法將低優(yōu)先級(jí)消息（例如來(lái)自心跳連接的消息）分配給特定線程，以免干擾其他高優(yōu)先級(jí)消息。另一方面，高優(yōu)先級(jí)消息被平均分配給每個(gè)工作線程，以平衡線程之間的工作負(fù)載。同時(shí)其使用遺傳算法（GA）來(lái)使不必要的連接轉(zhuǎn)換最小化。測(cè)試結(jié)果表明，在相同的客戶端工作負(fù)載下，該方法比原始 Asyncmessenger的性能高出 12.5 %,在客戶端的隨機(jī)工作負(fù)載下，其性能比原始Asyncmessenger 高出24

9、%。優(yōu)化Asyncmessenger還可以通過(guò)將多個(gè)工作線程分配給單個(gè)連接來(lái)處理來(lái)自該連接的流量。但是，由于多個(gè)線程爭(zhēng)用訪問(wèn)連接中的共享資源，這種映射結(jié)構(gòu)會(huì)引起與鎖定維護(hù)有關(guān)的另一種開銷Ceph的Luminous版本將Async網(wǎng)絡(luò)通信模型作為默認(rèn)的通信方式。雖然Async實(shí)現(xiàn)了 IO的多路復(fù)用，使用共享的線程池來(lái)實(shí)現(xiàn)異步發(fā)送和接收任務(wù)，但是如彳平衡Async工作線程的負(fù)載也是一個(gè)值得關(guān)注的問(wèn)題。下表總結(jié)了幾種常見的算法的優(yōu)化方案。同除他汀謁度的他牝方率7*罐小之理ft量.F. r 耳K Jf；Hitt 4*才就后，至F青曲可保度a f & 冷輪 t 冏性息地上/港工桑H r案群3毒也二

10、小二曜便電乜苗工仆收工事*孑界始1%2維也電，口用M岑W *睥m由的號(hào)亍 tf. it -彳青 W-尋*卜工冷氣電和。中國(guó)精，1去用* R *4僧韓才+飽T *甲*加a使u產(chǎn)嚴(yán)主11 V nm：rtTnt*1愧安尢二與吐科中黃曲充*抻號(hào)*與聚珀LcpL，蛇雷比*4費(fèi)冊(cè)/上叼人春rHi * H3*用3M理由如依夏平憫金身慝 fE 卜建盛分肥野上工，堂授有貴理W f直升SI總劇If用牛建H , 馬 t悝物建It稅削弊用機(jī)與且用.此*曲1”的牝Jl.ft* r uKiinRDM麋一種低延遲、高性能的網(wǎng)絡(luò)傳輸協(xié)議，已被廣泛應(yīng)用于高性能計(jì)算環(huán)境中。為了在Ceph中利J用RDMAZ實(shí)現(xiàn)高速的

11、數(shù)據(jù)傳輸，開發(fā)社區(qū)提出了兩種方案。第一種方案是降低Ceph對(duì)網(wǎng)絡(luò)層狀態(tài)的要求，減少M(fèi)essenger 需要實(shí)現(xiàn)的邏輯。現(xiàn)在的XioMessenger規(guī)定的語(yǔ)義和策略過(guò)于復(fù)雜，使用新的網(wǎng)絡(luò)協(xié)議實(shí)現(xiàn)的難度大；減少M(fèi)essenger的邏輯則需要增加上層的邏輯。第二種方案是基于目前的 AsyncMessenger的框架，擴(kuò)展出支持 RDMA勺網(wǎng)絡(luò)后端而無(wú)需關(guān)心上層的會(huì)話邏輯。國(guó)內(nèi)的XSKY公司和Mellanox公司合作提出了基于 AsyncMessenger的網(wǎng)絡(luò)通信引擎。這種修改使用RDMA勺雙邊通信機(jī)制，性能提升有限。并且在當(dāng)前版本的代碼實(shí)現(xiàn)中，RDM?？捎糜诳蛻舳伺c服務(wù)器之間、服務(wù)器與

12、服務(wù) 器之間的通信，不能在兩個(gè)網(wǎng)絡(luò)中同時(shí)被應(yīng)用，這也限制了該方案的應(yīng)用數(shù)據(jù)放置方法的優(yōu)化經(jīng)典Ceph存儲(chǔ)系統(tǒng)在副本模式下選擇存儲(chǔ)節(jié)點(diǎn)時(shí)，僅以節(jié)點(diǎn)存儲(chǔ)容量為唯一選擇條件，并沒(méi)有考慮到網(wǎng)絡(luò)和節(jié)點(diǎn)的負(fù)載狀況，這影響了系統(tǒng)在網(wǎng)絡(luò)性能差和節(jié)點(diǎn)高負(fù)載的情況下的讀寫性能。為解決這些問(wèn)題，文獻(xiàn)設(shè)計(jì)了基于軟件定義網(wǎng)絡(luò)技術(shù)的Ceph存儲(chǔ)系統(tǒng)模型和存儲(chǔ)節(jié)點(diǎn)選擇策略，首先利用軟件定義網(wǎng)絡(luò)技術(shù)實(shí)時(shí)獲取網(wǎng)絡(luò)和負(fù)載狀況，以簡(jiǎn)化網(wǎng)絡(luò)配置和減小測(cè)量開銷，然后通過(guò)建立并求解出綜合考慮了多種因素的多屬性決策數(shù)學(xué)模型來(lái)確定存儲(chǔ)節(jié)點(diǎn)的位置。在實(shí)際環(huán)境中對(duì)設(shè)計(jì)的存儲(chǔ)節(jié)點(diǎn)選擇方法進(jìn)行讀寫操作的測(cè)試，結(jié)果表明，與現(xiàn)有的CRUSH：法

13、相比，提出的存儲(chǔ)節(jié)點(diǎn)選擇方法可以在保持與原有Ceph系統(tǒng)相同的寫操作性能的同時(shí)，針對(duì) 4KB對(duì)象的 100娥操作的響應(yīng)日t間比原有的 Ceph集群的縮短了 10ms左右，針對(duì) 4096KB對(duì)象的100%讀操作響應(yīng)時(shí)間相對(duì)縮短了 120ms左右。這種方法需要獲取網(wǎng)絡(luò)的實(shí)時(shí)性能以用于數(shù)據(jù)放置策略的調(diào)整，引入了網(wǎng)絡(luò)負(fù)載采集的開銷，在大規(guī)模集群場(chǎng)景下應(yīng)用受限。并且由于該方法會(huì) 頻繁更新CRUSH：法的參數(shù)，其讀取性能會(huì)有所下降。配置參數(shù)性能調(diào)優(yōu)Ceph存儲(chǔ)系統(tǒng)的可配置參數(shù)有1500多個(gè)，參數(shù)的調(diào)整對(duì)系統(tǒng)性能有較大的影響。默認(rèn)配置針對(duì)不同的硬件和應(yīng)用通常不是最優(yōu)配置。通過(guò)鎖優(yōu)化和系統(tǒng)參數(shù)調(diào)優(yōu)技術(shù)

14、使系統(tǒng)的吞吐率提升了1.6倍，但其并未討論修改了哪些配置參數(shù)。雖有文獻(xiàn)詳細(xì)介紹了在全閃存環(huán)境下需要調(diào)整哪些參數(shù)（包括內(nèi)核、文件系統(tǒng)、磁盤緩存、 RADO和RBD等），但是沒(méi)有給出調(diào)整前后的性能對(duì)比。Intel開發(fā)并開源了一個(gè)性能優(yōu)化工具 CeTune該工具可用于 Ceph集群的部署、測(cè)試、分析和調(diào)優(yōu)。該工具是一個(gè)交互性的調(diào)優(yōu) 工具，尚不能自動(dòng)尋找最優(yōu)配置。分布式存儲(chǔ)系統(tǒng)的性能調(diào)優(yōu)仍是一個(gè)具有挑戰(zhàn)性的問(wèn)題。參數(shù)組合導(dǎo)致問(wèn)題解空間大，且參數(shù)之間會(huì)互相影響。在數(shù)據(jù)庫(kù)領(lǐng)域已有一些利用機(jī)器學(xué)習(xí)和決策樹的方法進(jìn)行自動(dòng)調(diào)優(yōu)的成功案例，而在分布式存儲(chǔ)系統(tǒng)領(lǐng)域，相關(guān)研究仍處于起步階段。面向特定硬件環(huán)境的

15、優(yōu)化隨著3DXpoint和非易失內(nèi)存等技術(shù)的發(fā)展與成熟，最快的存儲(chǔ) 介質(zhì)性能已接近內(nèi)存性能。使用新型存儲(chǔ)器件的系統(tǒng)中軟件已成為瓶頸。如圖所示，HDD SATASSDNVMeNANDSSDDXPointStorage , 3DXPointMemory系統(tǒng)中的軟件造成的延遲分別是 0,10% ,20% ,40% 和90%。通過(guò)重構(gòu)軟件的體系結(jié)構(gòu)來(lái)充分發(fā)揮高速存儲(chǔ)介質(zhì)的性能是目前的一個(gè)研究熱點(diǎn)。固態(tài)存儲(chǔ)設(shè)備相比磁盤設(shè)備，在性能、功耗和機(jī)架密度上具有顯著的優(yōu)勢(shì)。SAT服口限制了固態(tài)存儲(chǔ)設(shè)備的最大吞吐率。Intel提出的利用PCIE總線來(lái)訪問(wèn)固態(tài)存儲(chǔ)的NVM部口方法提供了通用的高速存取方案。使

16、用NVMe勺固態(tài)存儲(chǔ)設(shè)備在吞吐量和延遲性能上比傳統(tǒng) 的磁盤高出1-2個(gè)數(shù)量級(jí)，因此在總的IO處理時(shí)間中，軟件造成的延遲占據(jù)更大的比例?，F(xiàn)有的存儲(chǔ)系統(tǒng)為低速硬件設(shè)計(jì)了合并寫、異步寫等機(jī)制，但是這些機(jī)制并不適用于高速存儲(chǔ)設(shè)備。隨著存儲(chǔ)設(shè)備性能的進(jìn)一步提升，存儲(chǔ)系統(tǒng)軟件棧的性能和效率對(duì)存儲(chǔ)系統(tǒng)的影響越來(lái)越大。存儲(chǔ)系統(tǒng)因受制于低效冗余的軟件棧而不能充分發(fā)揮硬件性能。SPD癌Intel提出的使用NVMeSS作為后端存儲(chǔ)的應(yīng)用軟件加速庫(kù)。該軟件庫(kù)的核心是實(shí)現(xiàn)用戶態(tài)、異步、無(wú)鎖、輪詢方式的NVMe 驅(qū)動(dòng)。雖然SPD得新型驅(qū)動(dòng)可以將NVMeSSD性能最高提高6倍，但是在Ceph中直接使用SPDK沒(méi)

17、有明顯的性能提升。其主要原因在于在BlueStore的處理中有很多線程協(xié)作，線程間的互斥和切換開銷較大。在Ceph中，OS皺用異步IO等待IO完成，多線程可以充分利用NVMeSSD通道的特點(diǎn)來(lái)提升性能。由于一個(gè) OSED5法充分利用 NVMeSS的帶寬，研究人員發(fā)現(xiàn)將 NVMeSS進(jìn)行分區(qū)，然后在其上運(yùn) 行多個(gè)OSDI顯著提高性能。圖給出了一個(gè) NVMeSSD別使用1個(gè) OSD 2個(gè)OS于口 4個(gè)OSD寸的性能，可以看到在1個(gè) SSD上運(yùn)行4 個(gè)OSD寸的隨機(jī)讀，其IOPS增長(zhǎng)很快但延遲增長(zhǎng)緩慢。但是將SSM區(qū)并同時(shí)支持多個(gè)OSE&有一些缺點(diǎn)，如降低了可靠性、小塊隨機(jī)寫延遲增大、需要更多

18、內(nèi)存和 CPLK源等。另一項(xiàng)對(duì) 于隨機(jī)寫的測(cè)試結(jié)果如圖所示，在1個(gè)SSD上運(yùn)行2個(gè)OSD寸的IOPS 與運(yùn)行4個(gè)OSD寸的IOPS相近，且需要的CPLK源更少。使用多個(gè) OSD勺提升效果與SSD勺性能和CPU勺性能相關(guān)，且需要占用較多的 CPUA內(nèi)存資源，對(duì)可用性也有影響，因此不適用于大規(guī)模生產(chǎn)環(huán)境。40U M BOO LNM 1如OJOIOPS-IDSIl-SVSIe - - - 20SO-N VMi：3OSDNMc，于SDi生性的對(duì)比J匹111、樂(lè)口匚uaH”】MAVLIJH B二i蜘 64* 用 aBlock Siae/K產(chǎn)ISI拈 IMSwz/ WS| K)PS2Tl PL： UB4G

19、E %6必PU VAGF %bj*忤儲(chǔ)拘對(duì)比討除了 NVMeU外，現(xiàn)在還有一些使用SATASS來(lái)代替HDM策略，但直接替換存儲(chǔ)介質(zhì)的性能提升有限。 Ceph針對(duì)HD皺計(jì)了很多異步和調(diào)整寫順序的機(jī)制，但這些機(jī)制反而降低了 SSD勺性能。當(dāng)使用 Ceph集群和全閃存SSDif行4 K隨機(jī)寫入/讀取的性能測(cè)試時(shí)，隨機(jī) 寫入性能也只能達(dá)到16KIOPS當(dāng)線程數(shù)增加到32個(gè)及以上時(shí)，IOPS 幾乎保持不變，且延遲急劇增加。隨機(jī)讀取時(shí)，當(dāng)線程數(shù)少于32時(shí)， IOPS較低，且延遲較高。2、非易失內(nèi)存存儲(chǔ)是數(shù)據(jù)密集型系統(tǒng)中最慢的組件。盡管基于NVMe勺固態(tài)驅(qū)動(dòng)器提供了更快、更持久的存儲(chǔ)，IO性能已大大提高，

20、但其仍然比系統(tǒng)中的其他組件慢。隨著 NVDIM砰品的出現(xiàn)，可字節(jié)尋址的非易失性存儲(chǔ)器將提供與內(nèi)存相近的IO性能。Intel # Client端的NVM乍為緩存，提出了 3個(gè)優(yōu)化方案，大大提升了塊存儲(chǔ)接口的訪問(wèn)性能。方案一提出由于Ceph快照中的父對(duì)象是只讀的，Client端將其緩存在本地SSD中以提高讀取性能。但該方案僅緩存特定的不變對(duì)象，不具有通用性。方案二利用Client端的NVMR現(xiàn)了一個(gè)寫回緩存，寫入NVM勺數(shù)據(jù)并將其不定期刷新至 OSM。該方案性能提升的效果明顯，能將 99.99 %的寫入延遲縮短到1/10以下。但是因?yàn)樵诳蛻舳税l(fā)生故障時(shí)，保存在NVMfr的數(shù)據(jù)沒(méi)有寫入

21、Ceph后端的OSD所以會(huì)造成數(shù)據(jù)不一致。為了解決這個(gè)問(wèn)題，方案三通過(guò) RDM腋術(shù)為Client節(jié)點(diǎn)和OSD 節(jié)點(diǎn)的NV庵間建立鏡像，以避免因Client故障導(dǎo)致的數(shù)據(jù)丟失。復(fù)制寫日志機(jī)制將數(shù)據(jù)同時(shí)持久化至 Client和OSD勺NVMK當(dāng) Client不發(fā)生故障時(shí)，OS雙提供鏡像空間，無(wú)需額外的CPU?資源?；诳蛻舳说木彺嫘阅芴嵘黠@，但為每個(gè)客戶端配置NVMf口 RDMA的成本較高，且該方案并未充分利用 OSW的NVMf性。3、混合存儲(chǔ)在Ceph集群中可以使用SSD乍為保存日志或緩存來(lái)提高訪問(wèn)性能。Ceph支持使用高速存儲(chǔ)設(shè)備作為緩存來(lái)加速IO性能。目前有兩種不同的緩存實(shí)現(xiàn)方式：

22、1 )在OSD3部使用緩存；2 )將高性能節(jié)點(diǎn) 組成緩存層。根據(jù)第一種方案，在使用FileStore時(shí)，文件系統(tǒng)可以識(shí)別并使用異構(gòu)來(lái)存儲(chǔ)介質(zhì)，并將其中的 SSD乍為緩存，具架構(gòu)如圖7 (a)所示。這種方案可以依賴已有的緩存工具 (如dm-cache, bcache, FalshCache)來(lái)實(shí)現(xiàn)該功能，也可以使用現(xiàn)有的多種緩存控制方法。其中，dm-cache作為linux 內(nèi)核的一部分，采用 devicemapper機(jī)制以允許用戶建立混合卷；bcache是linux內(nèi)核塊層緩存，使用SSD乍為HDD1盤的緩存，從而起到加速作用；FlashCache可智能緩存最近讀取過(guò)的用戶數(shù)據(jù)或元

23、數(shù)據(jù)，從而加快數(shù)據(jù)訪問(wèn)。ApplicationC ache(k)qI(replicated) .一： $Backing pool BbcLlii paol(rep麻肌刈 l-cplic孤汕Ceph storage cluster(h)分層存池第二種方案的實(shí)現(xiàn)方式是將獨(dú)立的設(shè)備或節(jié)點(diǎn)組成緩存池，在慢速節(jié)點(diǎn)保存冷數(shù)據(jù)，在高性能節(jié)點(diǎn)保存熱數(shù)據(jù)。在這種方案中，高速節(jié)點(diǎn)被組織成為緩存層，該緩存層也是一個(gè)RADOS1,不僅具有持久化的能力，還具有獨(dú)立的CRUS策略。該層以下是基于HDD勺R(shí)ADOS 池，其可以采用三副本的 ReplicatePG作為后端，也可以采用 Erasurecoded 作為后端。未來(lái)展望針對(duì)前面提到的不同的性能優(yōu)化方法，本節(jié)從 Ceph內(nèi)部機(jī)制優(yōu)化、基于新型硬件和面向不同負(fù)載優(yōu)化這 3個(gè)方面對(duì)性能優(yōu)化問(wèn)題的未來(lái)研究方向進(jìn)行了展望。1、Ceph內(nèi)部機(jī)制的優(yōu)化Ceph發(fā)展至今，其規(guī)模和復(fù)雜性不斷增大。數(shù)據(jù)分

人人文庫(kù)> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

Ceph分布式存儲(chǔ)系統(tǒng)優(yōu)化分析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

Ceph分布式存儲(chǔ)系統(tǒng)優(yōu)化分析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔