![LustreIO性能特點與最佳實踐_第1頁](http://file4.renrendoc.com/view/300dca78127992dbe8f6793e3c375a49/300dca78127992dbe8f6793e3c375a491.gif)
![LustreIO性能特點與最佳實踐_第2頁](http://file4.renrendoc.com/view/300dca78127992dbe8f6793e3c375a49/300dca78127992dbe8f6793e3c375a492.gif)
![LustreIO性能特點與最佳實踐_第3頁](http://file4.renrendoc.com/view/300dca78127992dbe8f6793e3c375a49/300dca78127992dbe8f6793e3c375a493.gif)
![LustreIO性能特點與最佳實踐_第4頁](http://file4.renrendoc.com/view/300dca78127992dbe8f6793e3c375a49/300dca78127992dbe8f6793e3c375a494.gif)
![LustreIO性能特點與最佳實踐_第5頁](http://file4.renrendoc.com/view/300dca78127992dbe8f6793e3c375a49/300dca78127992dbe8f6793e3c375a495.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
LustreI/O性能特點與最佳實踐Lustre是一種平行分布式文件系統(tǒng),通常用于大型計算機集群。Lustre是源自Linux和Cluster的混成詞。最早在1999年集群文件系統(tǒng)公司ClusterFileSystemsInc.開始研發(fā),并于2003年發(fā)布Lustre1.0采用GNUGPLv2開源碼授權。Lustre是HP、Intel和ClusterFileSystem公司聯(lián)合美國能源部開發(fā)的Linux集群并行文件系統(tǒng),Intel也在維護一個企業(yè)版本,前幾天聽聞Intel放棄Lustre,停止發(fā)行企業(yè)版HPC文件系統(tǒng),但最近又得知Intel還會為Lustre長期穩(wěn)定版提供服務支持。可見Lustre還是常見分布式文件系統(tǒng)中的佼佼者。GridFS件上將.文忤下整】>.|?了支皆?修3和電m"跳話告峰界物***知皿黃.■咄,由的開莊go*呻.一躍「白埒詢尸。.GridFS件上將.文忤下整】>.|?了支皆?修3和電m"跳話告峰界物***知皿黃.■咄,由的開莊go*呻.一躍「白埒詢尸。.IRUIM用鵬._我—H翔科兩站淵幽喬■文件.母w為了弧率m司百事斑(?維溫于umw的—分布貳直忤射丸.后曾出策于餓■克的T1S*珈節(jié),但G。百?明浪再需整杷皿二二二二二二二;;二二,山聞,"曬了f分布式文件料(HiioqittiitributwIFU.Syitm)L薄臥阱1?=$【真岫“明"②,1*,]昆仍司獷?.■國肛MftM.*1翊同■岫財,田軻,庭,主忖?!龅氖Y制㈱窗箱,它啊,白帆,訊imunn,席上,兇力仲,/說由叫**>息井*的圖.mogileFSFastDFSLustre1、Lustre概述Lustre是面向集群的存儲架構,它是基于Linux平臺的開源集群(并行)文件系統(tǒng),提供與POSIX兼容的文件系統(tǒng)接口。Lustre兩個最大特征是高擴展性和高性能,能夠支持數(shù)萬客戶端系統(tǒng)、PB級存儲容量、數(shù)百GB的聚合I/O吞吐量。Lustre是Scale-Out存儲架構,借助強大的橫向擴展能力,通過增加服務器即可方便擴展系統(tǒng)總存儲容量和性能。Lustre的集群和并行架構,非常適合眾多客戶端并發(fā)進行大文件讀寫的場合,但目前對于小文件應用非常不適用,尤其是海量小文件應用LOSF(LotsOfSmallFiles)。Lustre廣泛應用于各種環(huán)境,目前部署最多的為高性能計算HPC,世界超級計算機TOP10中的70%,TOP30中的50%,TOP100中的40%均部署了Lustre。另外,Lustre在石油、天然氣、制造、富媒體、金融等行業(yè)領域也被大量部署應用。2LustreStripeLustre采用對象存儲技術,將大文件分片并以類似RAID0的方式分散存儲在多個OST上,一個文件對應多個OST上的對象。Lustre系統(tǒng)中,每個文件對應MDT上的一個元數(shù)據(jù)文件,inode以擴展屬性記錄了數(shù)據(jù)分片布局信息,包括stripe_count(對象數(shù)),stripe_size(分片大?。?,stripe_offset(起始OST)以及每個OST對象信息。當客戶數(shù)據(jù)端訪問文件時,首先從MDS請求文件元數(shù)據(jù)并獲得分片布局信息(stripelayout),然后直接與多個OST同時交互進行并發(fā)讀寫。Lustre這種數(shù)據(jù)分片策略,提高了多用戶訪問的并發(fā)度和聚合I/O帶寬,這是Lustre獲得高性能的主要因素。再者,Stripe還能夠使得Lustre可以存儲超大文件,突破單一OST對文件大小的限制。當然,數(shù)據(jù)分片策略同時也會帶來負面影響,比如增加系統(tǒng)負載和數(shù)據(jù)風險。Lustre的OST數(shù)量可以達到數(shù)千,但是出于復雜性、性能、實際存儲需求等考慮,目前設計實現(xiàn)中將單個文件對象數(shù)限制為160個。對于EXT4后端文件系統(tǒng),單個文件最大可達2TB,因此Lustre單個文件最大可以達到320TB。那么,Lustre如何在可用OST集合中選擇合適的OST呢?目前有兩種選擇算法,即Round-Robin和隨機加權算法,這兩種算法調度的依據(jù)是,任意兩個OST剩余存儲容量相差是否超過20%的閾值。一般在系統(tǒng)使用之初,直接使用Round-Robin算法以順序輪轉方式選擇OST,這種算法非常高效。隨著文件數(shù)據(jù)量的增加,一旦達到20%的閾值,Lustre將啟用隨機加權算法選擇OST。Lustre維護著一個剩余空間的優(yōu)先列表,采用隨機算法在此列表中選擇OST,這種算法會產(chǎn)生開銷并影響性能。如果任意兩個OST剩余存儲容量相差重新降到20%閾值之內,則重新啟用Round-Robin算法選擇OST。Lustre在創(chuàng)建文件時就按照分片模式并采用OST選擇算法,預先創(chuàng)建好文件所需的OST對象。分片模式可以使用lfssetstripe進行設置,或者由系統(tǒng)自動選擇缺省模式,文件目錄會自動繼承父目錄的分片模式,但可以進行修改。數(shù)據(jù)寫入后,文件分片模式就不能修改,新加入的。51只會參與新創(chuàng)建的文件目錄。51選擇調度。Lustre目前還沒有實現(xiàn)OST存儲空間的自動均衡,需要手工進行數(shù)據(jù)遷移復制達到均衡的效果。Lustre缺省情況下,stripe_count=1,stripe_size=1MB,stripe_offset=-1,即每個文件僅包含一個OST對象,分片大小為1MB,起始OST由Lustre自動選擇。實際上這種分片模式就是不對文件進行分片存儲,顯然不能滿足許多應用的存儲需求,實際應用時需要在分析數(shù)據(jù)特點、網(wǎng)絡環(huán)境、訪問行為的基礎上進行適當配置。分片不是越多越好,在滿足存儲需求的前提下,應該使得OST對象數(shù)量盡可能少。應用lustreStripe時,應該考慮如下因素:(1)提供高帶寬訪問:Lustre文件分片并存儲于多個OSS,對于單一大文件來說,它可以提供遠大于單一OSS提供的聚合I/O帶寬。在HPC環(huán)境中,成百上千的客戶端會同時并發(fā)讀寫同一個文件,當文件很大時,分散與多個OSS能夠獲得非常高的聚合帶寬。Lustre文件系統(tǒng)理論上可以提供2.5TB/s的帶寬,經(jīng)過驗證的帶寬達到240GB/s。當然對于小于1GB的文件來說,分片數(shù)量不宜多于4個,更多分片不會帶來更高的性能提升,還會引入額外開銷。對于小文件,文件大小本身可能小于分片大小,實際上是不作分片,對性能不會有提升。(2)改善性能:如果聚合的客戶端帶寬超過單個OSS的帶寬,文件分片存儲策略可以充分利用聚合的OSS帶寬,極大提高性能,為應用程序提供高速的數(shù)據(jù)讀寫訪問。合理的分片數(shù)量可以估算,客戶端聚合I/O帶寬除以單個OSSI/O性能即可得到。(3)提供超大容量文件:Lustre后端文件系統(tǒng)采用改進的EXT3文件系統(tǒng)(接近于EXT4),單個文件最大為2TB。如果不進行分片,則單個Lustre文件最大只能為2TB°Lustre目前分片最多可達到160個,因此文件最大可以達到320TB,這是容量是非常大的,基本上可以滿足所有單一文件存儲容量的需求。(4)提高存儲空間利用率:當Lustre剩余存儲空間有限時,每個OSS的剩余空間也就更加有限,這時再寫入一個的大文件至單一OSS很大可能會由于空間不足而失敗。采用分片策略,寫入單個OSS的對象容量會成倍減小,如果OSS數(shù)量選擇合適,文件仍然可以寫入Lustre系統(tǒng)。這使得Lustre存儲空間利用更為充分,有效提高了利用率。(5)增加負載:Stripe會導致額外的鎖和網(wǎng)絡操作消耗,比如stat,unlink,雖然這些操作可以并發(fā)執(zhí)行,但仍會對性能產(chǎn)生影響。另外,分片多會造成服務器的開銷。設想這樣一個情形:Lustre中有100個OSS,100個客戶端,100個文件,每個客戶端訪問一個文件。如果不分片,則每個客戶端僅與一個OSS相互,可以進行順序I/O讀寫。如果每個文件分成100片,則每個客戶端都需要分別與100個OSS進行相交,并發(fā)訪問時,OSS上的磁盤1/。為隨機讀寫。這些都是額外的負載開銷,一定程度上影響性能。(6)增加風險:從概率的角度看,多個OSS發(fā)生故障的概率要高出單個OSS許多。文件分片存儲于多個OSS上,一個分片不可用就會導致整個文件不可訪問,即使其他分片仍然是完好的。因此,分片大大增加了數(shù)據(jù)發(fā)生丟失的風險,需要采用適當?shù)拇胧┻M行保護,比如RAID5/6或者Failover。3LustreI/O性能特征(1)寫性能優(yōu)于讀性能Lustre系統(tǒng)中通常寫性能會優(yōu)于讀性能。首先,對于寫操作,客戶端是以異步方式執(zhí)行的,RPC調用分配以及寫入磁盤順序按到達順序執(zhí)行,可以實現(xiàn)聚合寫以提高效率。而對于讀,請求可能以不同的順序來自多個客戶端,需要大量的磁盤seek與read操作,顯著影響吞吐量。其次,目前1口$吐0沒有實現(xiàn)OSTreadcache,僅僅在客戶端實現(xiàn)了Readahead。這樣的設計也是有充分理由的,每個OST有可能會有大量客戶端并發(fā)訪問,如果進行數(shù)據(jù)預讀,內存消耗將會非常大,而且這個是不可控制的。Writecache是在客戶端上實現(xiàn)的,內存占用不會太大并且是可控的。再者,對于TCP/IP網(wǎng)絡而言,讀會占用更多的CPU資源。讀操作,Lustre需要從網(wǎng)絡接口緩存進行數(shù)據(jù)Copy而獲得所需數(shù)據(jù),而寫操作可以通過sendfile或ZeroCopy避免額外的數(shù)據(jù)復制。(2)大文件性能表現(xiàn)好Lustre的元數(shù)據(jù)與數(shù)據(jù)分離、數(shù)據(jù)分片策略、數(shù)據(jù)緩存和網(wǎng)絡設計非常適合大文件順序I/O訪問,大文件應用下性能表現(xiàn)非常好。這些設計著眼于提高數(shù)據(jù)訪問的并行性,實現(xiàn)極大的聚合I/O帶寬,這其中關鍵得益于數(shù)據(jù)分片設計(具體見上面的分析)。另外,后端改進的EXT3文件系統(tǒng)本身也非常適合大文件I/O。(3)小文件性能表現(xiàn)差然而,Lustre的設計卻非常不利于小文件I/O,尤其是LOSF(Lotsofsmallfiles)。Lustre在讀寫文件前需要與MDS交互,獲得相關屬性和對象位置信息。與本地文件系統(tǒng)相比,增加了一次額外的網(wǎng)絡傳輸和元數(shù)據(jù)訪問開銷,這對于小文件I/O而言,開銷是相當大的。對于大量頻繁的小文件讀寫,Lustre客戶端Cache作用會失效,命中率大大降低。如果文件小于物理頁大小,則還會產(chǎn)生額外的網(wǎng)絡通信量,小文件訪問越頻繁開銷越大,對Lustre總體I/O性能影響就越大。OST后端采用改進的EXT3文件系統(tǒng),它對小文件的讀寫性能本身就不好,其元數(shù)據(jù)訪問效率不高,磁盤尋址延遲和磁盤碎片問題嚴重。這也是大多數(shù)磁盤文件系統(tǒng)的缺點,Reiserfs是針對小文件設計的文件系統(tǒng),性能表現(xiàn)要好很多。Lustre的設計決定了它對小文件I/O性能表現(xiàn)差,實際I/O帶寬遠低于所提供的最大帶寬。在4個OSS的千兆網(wǎng)絡配置下,單一客戶端小文件讀寫性能不到4MB/s。4Lustre小文件優(yōu)化實際上前面已經(jīng)提到,Lustre并不適合小文件I/O應用,性能表現(xiàn)非常差。因此,建議不要將Lustre應用于LOSF場合。不過,Lustre操作手冊仍然給出了一些針對小文件的優(yōu)化措施。(1)通過應用聚合讀寫提高性能,比如對小文件進行Tar,或創(chuàng)建大文件或通過loopbackmount來存儲小文件。小文件系統(tǒng)調用開銷和額外的I/O開銷非常大,應用聚合優(yōu)化可以顯著提高性能。另外,可以使用多節(jié)點、多進程/多線程盡可能通過聚合來提高I/O帶寬。(2)應用采用O_DIRECT方式進行直接1/。,讀寫記錄大小設置為4KB,與文件系統(tǒng)保持一致。對輸出文件禁用locking,避免客戶端之間的競爭。(3)應用程序盡量保證寫連續(xù)數(shù)據(jù),順序讀寫小文件要明顯優(yōu)于隨機小文件I/O。(4)OST采用SSD或更多的磁盤,提高IOPS來改善小文件性能。創(chuàng)建大容量OST,而非多個小容量OST,減少日志、連接等負載。(5)OST采用RAID1+0替代RAID5/6,避免頻繁小文件I/O引起的數(shù)據(jù)校驗開銷。Lustre提供了強大的系統(tǒng)監(jiān)控與控制接口用于進行性能分析與調優(yōu),對于小文件I/O,也可以通過調整一些系統(tǒng)參數(shù)進行優(yōu)化。(1)禁用所有客戶端LNETdebug功能:缺省開啟多種調試信息,sysctl-wlnet.debug=0,減少系統(tǒng)開銷,但發(fā)生錯誤時將無LOG可詢。(2)增加客戶端DirtyCache大?。簂ctlset_paramosc./*.max_dirty_mb=256,缺省為32MB,增大緩存將提升I/O性能,但數(shù)據(jù)丟失的風險也隨之增大。(3)增加RPC并行數(shù)量:echo32>/proc/fs/lustre/osc/*-OST000*/max_rpcs_in_flight,^省為8,提升至32將提高數(shù)據(jù)和元數(shù)據(jù)性能。不利之處是如果服務器壓力很大,可能反而會影響性能。(4)控制Lustrestriping:lfssetstripe-c0/1/T/path/filename,如果OST對象數(shù)大于1,小文件性能會下降,因此將OST對象設置為1。(5)客戶端考慮使用本地鎖:mount-tlustre-olocalflock,如果確定多個進程從同一個客戶端進行寫文件,則可用localflock代替flock,減少發(fā)送到MDS的RPC數(shù)量。(6)使用loopbackmount文件:創(chuàng)建大Lustre文件,與100P設備關聯(lián)并創(chuàng)建文件系統(tǒng),然后將其作為文件系統(tǒng)進行mount。小文件作用其上,則原先大量的MDS元數(shù)據(jù)操作將轉換為OSS讀寫操作,消除了元數(shù)據(jù)瓶頸,可以顯著提高小文件性能。這種方法應用于scratch空間可行,但對于生產(chǎn)數(shù)據(jù)應該謹慎使用,因為Lustre目前工作在這種模式下還存在問題。操作方法如下:ddif=/dev/zeroof=/mnt/lustre/loopback/scratchbs=1048576coun
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年高、低能校正磁鐵合作協(xié)議書
- 部編初中數(shù)學八年級下學期開學考試卷
- 2025年交配電設備設施委托管理協(xié)議(2篇)
- 2025年產(chǎn)權房屋買賣合同經(jīng)典版(三篇)
- 2025年產(chǎn)品商標設計委托合同模板(三篇)
- 2025年產(chǎn)品采購協(xié)作服務協(xié)議(2篇)
- 2025年亮化工程施工承包合同經(jīng)典版(三篇)
- 2025年中班幼兒園教師個人工作心得體會模版(4篇)
- 2025年產(chǎn)品試用協(xié)議范例(2篇)
- 2025年個人房屋裝修委托書合同(2篇)
- 2024年四川省成都市新都區(qū)中考英語一診試卷(含解析)
- 醫(yī)療器械物價收費申請流程
- 招聘專員轉正述職報告
- “一帶一路”背景下的西安市文化旅游外宣翻譯研究-基于生態(tài)翻譯學理論
- 2024年江蘇省昆山市六校中考聯(lián)考(一模)化學試題
- 大學生文學常識知識競賽考試題庫500題(含答案)
- 國家電網(wǎng)智能化規(guī)劃總報告
- 邢臺市橋西區(qū)2024年事業(yè)單位考試《公共基礎知識》全真模擬試題含解析
- 太原頭腦外賣營銷方案
- 2023年寧夏中考物理試題(附答案)
- JBT 7041.1-2023 液壓泵 第1部分:葉片泵 (正式版)
評論
0/150
提交評論