Lustre文件系統(tǒng)架構(gòu)和配置調(diào)優(yōu)_第1頁
Lustre文件系統(tǒng)架構(gòu)和配置調(diào)優(yōu)_第2頁
Lustre文件系統(tǒng)架構(gòu)和配置調(diào)優(yōu)_第3頁
Lustre文件系統(tǒng)架構(gòu)和配置調(diào)優(yōu)_第4頁
Lustre文件系統(tǒng)架構(gòu)和配置調(diào)優(yōu)_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、 Lustre文件系統(tǒng)架構(gòu)和配置調(diào)優(yōu)目 錄 TOC o 1-3 h z u HYPERLINK l _Toc2634971 1.背景介紹 PAGEREF _Toc2634971 h 3 HYPERLINK l _Toc2634972 2.Lustre文件系統(tǒng)是什么 PAGEREF _Toc2634972 h 3 HYPERLINK l _Toc2634973 2.1.Lustre文件系統(tǒng)特性 PAGEREF _Toc2634973 h 5 HYPERLINK l _Toc2634974 3.Lustre文件系統(tǒng)主要組件 PAGEREF _Toc2634974 h 9 HYPERLINK l _

2、Toc2634975 3.1.管理服務(wù)器(MGS) PAGEREF _Toc2634975 h 10 HYPERLINK l _Toc2634976 3.2.Lustre文件系統(tǒng)組件 PAGEREF _Toc2634976 h 10 HYPERLINK l _Toc2634977 3.3.Lustre網(wǎng)絡(luò) (LNet) PAGEREF _Toc2634977 h 13 HYPERLINK l _Toc2634978 3.4.Lustre集群 PAGEREF _Toc2634978 h 13 HYPERLINK l _Toc2634979 4.Lustre文件系統(tǒng)存儲與I/O PAGEREF _

3、Toc2634979 h 14 HYPERLINK l _Toc2634980 4.1.Lustre文件系統(tǒng)條帶化 PAGEREF _Toc2634980 h 17 HYPERLINK l _Toc2634981 4.2.配置簡單的Lustre文件系統(tǒng) PAGEREF _Toc2634981 h 19 HYPERLINK l _Toc2634982 5.Lustre其他附加配置選項 PAGEREF _Toc2634982 h 20背景介紹 DDN公司近日宣布收購Intel公司Lustre文件系統(tǒng)業(yè)務(wù)和相關(guān)資產(chǎn)(Intel收購Whamcloud獲得Lustre文件系統(tǒng))。這項重要收購將加強DDN

4、在大規(guī)模數(shù)據(jù)方面的全球市場領(lǐng)導(dǎo)地位,幫助DDN為Lustre客戶提供更加強大的現(xiàn)場支持和投資雄厚的技術(shù)路線圖。這項收購也使得DDN可以將Lustre在高性能計算方面的領(lǐng)導(dǎo)地位拓展到那些快速增長中的市場,如數(shù)據(jù)分析、人工智能和混合云。 本次收購Intel公司的開源Lustre文件系統(tǒng)的全部資產(chǎn),旨在將這項先進的文件系統(tǒng)技術(shù)加入DDN已頗為充實的高性能計算、數(shù)據(jù)分析和云存儲產(chǎn)品組合中(DDN的HPC產(chǎn)品家族中,主要包括Lustre和GPFS并行文件系統(tǒng))。 Lustre已經(jīng)在數(shù)千個數(shù)據(jù)中心部署,領(lǐng)域遍及健康、能源、制造、金融服務(wù)、學(xué)術(shù)、研究和高性能計算實驗室。在全球最快的那些高性能計算機使用的存儲

5、系統(tǒng)中,Lustre也持續(xù)地占據(jù)著頭把交椅。Lustre長期被公認為是擁有最先進技術(shù)的并行文件系統(tǒng)。 既然Lustre這么優(yōu)秀,那么下面詳細對Lustre文件系統(tǒng)進行分析,幫助大家掌握Lustre文件系統(tǒng)。當然,前期也將HPC行業(yè)趨勢、產(chǎn)品和技術(shù)的分析梳理成“高性能計算(HPC)技術(shù)、方案和行業(yè)全面解析”電子書,點擊原文鏈接獲取資料詳情。(以下文章內(nèi)容來源:Lustre文件系統(tǒng)與DDN)Lustre文件系統(tǒng)是什么 Lustre架構(gòu)是一種集群存儲體系結(jié)構(gòu),其核心組件就是Lustre文件系統(tǒng)。該文件系統(tǒng)可在Linux操作系統(tǒng)上運行,并提供了符合POSIX標準的UNIX文件系統(tǒng)接口。 Lustre架

6、構(gòu)用于許多不同種類的集群。眾所周知,它服務(wù)于許多全球最大的高性能計算(HPC)集群,提供了數(shù)以萬計的客戶端,PB級存儲和每秒數(shù)百GB的吞吐量。許多HPC站點使用Lustre文件系統(tǒng)作為全站范圍的全局文件系統(tǒng),為數(shù)十個群集提供服務(wù)。 Lustre文件系統(tǒng)具有按需擴展容量和性能的能力,降低了部署多個獨立文件系統(tǒng)的必要性(如每個計算群集部署一個文件系統(tǒng)),從而避免了在計算集群之間復(fù)制數(shù)據(jù),簡化了存儲管理。Lustre文件系統(tǒng)不僅可將許多服務(wù)器的存儲容量進行聚合,也可將其I / O吞吐量進行聚合,并通過添置服務(wù)器進行擴展。通過動態(tài)地添加服務(wù)器,輕松實現(xiàn)整個集群的吞吐量和容量的提升。 雖然Lustre文

7、件系統(tǒng)可以在許多工作環(huán)境中運行,但也并非就是所有應(yīng)用程序的最佳選擇。當單個服務(wù)器無法提供所需容量時,使用Lustre文件系統(tǒng)集群無疑是最適合的。在某些情況下,由于其強大的鎖定和數(shù)據(jù)一致性,即使在單個服務(wù)器環(huán)境下Lustre文件系統(tǒng)也比其他文件系統(tǒng)表現(xiàn)得更好。 目前,Lustre文件系統(tǒng)并不特別適用于“端對端”的用戶模式。在這種模式下,客戶端和服務(wù)器在同一節(jié)點上運行,每個節(jié)點共享少量存儲。由于Lustre缺少軟件級別的數(shù)據(jù)副本,如果一個客戶端或服務(wù)器發(fā)生故障,存儲在該節(jié)點上的數(shù)據(jù)在該節(jié)點重新啟動前將不可訪問。Lustre文件系統(tǒng)特性 Lustre文件系統(tǒng)可運行在各種廠商的內(nèi)核上。一個Lustre

8、文件系統(tǒng)在客戶端節(jié)點數(shù)量、磁盤存儲量、帶寬上進行擴大或縮小。可擴展性和性能取決于可用磁盤、網(wǎng)絡(luò)帶寬以及系統(tǒng)中服務(wù)器的處理能力。 Lustre文件系統(tǒng)可以以多種配置進行部署,這些配置的可擴展性遠遠超出了迄今所觀察到生產(chǎn)系統(tǒng)中的規(guī)模和性能。 下表中列出了一些Lustre文件系統(tǒng)的可擴展性和性能: 其他Lustre軟件性能特征如下:性能增強的ext4文件系統(tǒng):Lustre文件系統(tǒng)使用改進版的ext4日志文件系統(tǒng)來存儲數(shù)據(jù)和元數(shù)據(jù)。這個版本被命名為ldiskfs,不僅性能有所提升且提供了Lustre文件系統(tǒng)所需的附加功能。Lustre 2.4或更高版本中,可使用ZFS作為Lustre的MDT,OST和

9、MGS存儲的后備文件系統(tǒng)。這使Lustre能夠利用ZFS的可擴展性和數(shù)據(jù)完整性特性來實現(xiàn)單個存儲目標。符合POSIX標準:通過完整的POSIX測試集,像測試本地文件系統(tǒng)Ext4一樣,測試Lustre文件系統(tǒng)客戶端,只有極少量例外。在集群中,大多數(shù)操作都是原子操作,因此客戶端永遠不會看到損壞的數(shù)據(jù)或元數(shù)據(jù)。 Lustre軟件支持mmap()文件I /O操作。高性能異構(gòu)網(wǎng)絡(luò):Lustre軟件支持各種高性能低延遲的網(wǎng)絡(luò),可使用遠程直接內(nèi)存訪問(RDMA)方式,實現(xiàn)在InfiniBand、Intel OmniPath等高級網(wǎng)絡(luò)上的快速高效網(wǎng)絡(luò)傳輸。可使用Lustre路由橋接多個RDMA網(wǎng)絡(luò)以獲得最佳性

10、能。Lustre軟件同時也集成了網(wǎng)絡(luò)診斷。高可用性:Lustre文件系統(tǒng)通過OSTs(OSS targets)的共享存儲分區(qū)實現(xiàn)主動/主動故障切換。 Lustre 2.3或更早版本通過使用MDT(MDS target)的共享存儲分區(qū)實現(xiàn)主動/被動故障切換。 Lustre文件系統(tǒng)可以與各種高可用性(HA)管理器一起工作,以實現(xiàn)自動故障切換并消除了單點故障(NSPF)。這使得應(yīng)用程序透明恢復(fù)成為可能。多重掛載保護(MMP)提供了對高可用性系統(tǒng)中錯誤的綜合保護,避免導(dǎo)致文件系統(tǒng)損壞。Lustre 2.4或更高版本中,可配置多個MDT的主動/主動故障切換。這允許了通過添加MDT存儲設(shè)備和MDS節(jié)點來擴

11、展Lustre文件系統(tǒng)的元數(shù)據(jù)性能。安全性:默認情況下,TCP連接只允許授權(quán)端口通過。 UNIX組成員身份在MDS上進行驗證。訪問控制列表(ACL)及擴展屬性:Lustre安全模型遵循UNIX文件系統(tǒng)原則,并使用POSIX ACL進行增強。此外還有一些額外功能,如root squash。互操作性:Lustre文件系統(tǒng)可運行在各種CPU架構(gòu)和大小端混合的群集上,連續(xù)發(fā)布的Lustre主要軟件版本之間保持互操作性性?;趯ο蟮捏w系結(jié)構(gòu):客戶端與磁盤文件結(jié)構(gòu)相互隔離,可在不影響客戶端的情況下升級存儲體系結(jié)構(gòu)。字節(jié)粒度文件鎖和細粒度元數(shù)據(jù)鎖:許多客戶端可以同時讀取和修改相同的文件或目錄。 Lustre

12、分布式鎖管理器(LDLM)確保了文件系統(tǒng)中所有客戶端和服務(wù)器之間的文件是一致的。其中,MDT鎖管理器負責管理inode權(quán)限和路徑名。每個OST都有其自己的鎖管理器,用于鎖定存儲在其上的文件條帶,其性能可隨著文件系統(tǒng)大小增長而擴展。配額:用戶、組和項目配額可用于Lustre文件系統(tǒng)。容量增長:通過向群集添加新的OST和MDT,可以在不中斷服務(wù)的情況下增加Lustre文件系統(tǒng)的大小和集群總帶寬。受控文件布局:可以在每個文件,每個目錄或每個文件系統(tǒng)基礎(chǔ)上配置跨OST的文件布局。這允許了在單個文件系統(tǒng)中調(diào)整文件I/O以適應(yīng)特定的應(yīng)用程序要求。 Lustre文件系統(tǒng)使用RAID-0進行條帶化并可在OST

13、之間調(diào)節(jié)空間使用大小。網(wǎng)絡(luò)數(shù)據(jù)完整性保護:從客戶端發(fā)送到OSS的所有數(shù)據(jù)的校驗和可防止數(shù)據(jù)在傳輸期間被損壞。MPI I/O:Lustre架構(gòu)具有專用的MPI ADIO層,優(yōu)化了并行I/O以匹配基礎(chǔ)文件系統(tǒng)架構(gòu)。NFS和CIFS導(dǎo)出:可以使用NFS(通過Linux knfsd)或CIFS(通過Samba)將Lustre文件重新導(dǎo)出,使其可以與非Linux客戶端(如Microsoft Windows 和Apple Mac OS X)共享。災(zāi)難恢復(fù)工具:Lustre文件系統(tǒng)提供在線分布式文件系統(tǒng)檢查(LFSCK),當發(fā)生主要文件系統(tǒng)錯誤的情況下恢復(fù)存儲組件之間的一致性。 Lustre文件系統(tǒng)在存在文

14、件系統(tǒng)不一致的情況下也可以運行,而LFSCK可以在文件系統(tǒng)正在使用時運行,因此LFSCK不需要在文件系統(tǒng)恢復(fù)生產(chǎn)之前完成。性能監(jiān)視:Lustre文件系統(tǒng)提供了多種機制來檢查性能和進行調(diào)整。開放源代碼:為在Linux操作系統(tǒng)上運行,Lustre軟件使用GPL 2.0許可證。Lustre文件系統(tǒng)主要組件 一個Lustre安裝實例包括管理服務(wù)器(MGS)和一個或多個與Lustre網(wǎng)絡(luò)(LNet)互連的Lustre文件系統(tǒng)。Lustre文件系統(tǒng)組件的基本配置如下圖所示:管理服務(wù)器(MGS) MGS存儲集群中所有Lustre文件系統(tǒng)的配置信息,并將此信息提供給其他Lustre組件。每個Lustre目標(

15、Target)通過聯(lián)系MGS提供信息,而Lustre客戶通過聯(lián)系MGS獲取信息。MGS最好有自己的存儲空間,以便可以獨立管理。但同時,MGS可以與MDS放在一起,并共享存儲空間,如上圖中所示。Lustre文件系統(tǒng)組件 每個Lustre文件系統(tǒng)由以下組件組成:元數(shù)據(jù)服務(wù)器(MDS)- MDS使存儲在一個或多個MDT中的元數(shù)據(jù)可供Lustre客戶端使用。每個MDS管理Lustre文件系統(tǒng)中的名稱和目錄,并為一個或多個本地MDT提供網(wǎng)絡(luò)請求處理。元數(shù)據(jù)目標(MDT)- 在Lustre 2.3或更早版本中,每個文件系統(tǒng)只有一個MDT。 MDT在MDS的附加存儲上存儲元數(shù)據(jù)(例如文件名,目錄,權(quán)限和文件

16、布局)。雖然共享存儲目標上的MDT可用于多個MDS,但一次只能有一個MDS可以訪問。如果當前MDS發(fā)生故障,則備用MDS可以為MDT提供服務(wù),并將其提供給客戶端。這被稱為MDS故障切換。在Lustre 2.4中,分布式命名空間環(huán)境(DNE)中可支持多個MDT。除保存文件系統(tǒng)根目錄的主MDT之外,還可以添加其他MDS節(jié)點,每個MDS節(jié)點都有自己的MDT,以保存文件系統(tǒng)的子目錄樹。在Lustre 2.8中,DNE還允許文件系統(tǒng)將單個目錄的文件分布到多個MDT節(jié)點。分布在多個MDT上的目錄稱為條帶化目錄。對象存儲服務(wù)器(OSS):OSS為一個或多個本地OST提供文件I / O服務(wù)和網(wǎng)絡(luò)請求處理。通常

17、,OSS服務(wù)于兩個到八個OST,每個最多16TB;在專用節(jié)點上配置一個MDT;在每個OSS節(jié)點上配置兩個或更多OST;而在大量計算節(jié)點上配置客戶端。對象存儲目標(OST):用戶文件數(shù)據(jù)存儲在一個或多個對象中,每個對象位于Lustre文件系統(tǒng)的單獨OST中。每個文件的對象數(shù)由用戶配置,并可根據(jù)工作負載情況調(diào)試到最優(yōu)性能。Lustre客戶端:Lustre客戶端是運行Lustre客戶端軟件的計算、可視化或桌面節(jié)點,可掛載Lustre文件系統(tǒng)。Lustre客戶端軟件為Linux虛擬文件系統(tǒng)和Lustre服務(wù)器之間提供了接口??蛻舳塑浖ㄒ粋€管理客戶端(MGC),一個元數(shù)據(jù)客戶端(MDC)和多個對象存

18、儲客戶端(OSC)。每個OSC對應(yīng)于文件系統(tǒng)中的一個OST。 邏輯對象卷(LOV)通過聚合OSC以提供對所有OST的透明訪問。因此,掛載了Lustre文件系統(tǒng)的客戶端會看到一個連貫的同步名字空間。多個客戶端可以同時寫入同一文件的不同部分,而其他客戶端可以同時讀取文件。 與LOV文件訪問方式類似,邏輯元數(shù)據(jù)卷(LMV)通過聚合MDC提供一種對所有MDT透明的訪問。這使得了客戶端可將多個MDT上的目錄樹視為一個單一的連貫名字空間,并將條帶化目錄合并到客戶端形成一個單一目錄以便用戶和應(yīng)用程序查看:Lustre網(wǎng)絡(luò) (LNet) Lustre Networking(LNet)是一種定制網(wǎng)絡(luò)API,提供

19、處理Lustre文件系統(tǒng)服務(wù)器和客戶端的元數(shù)據(jù)和文件I/O數(shù)據(jù)的通信基礎(chǔ)設(shè)施。Lustre集群 在系統(tǒng)規(guī)模上,一個Lustre文件系統(tǒng)集群可以包含數(shù)百個OSS和數(shù)千個客戶端(如下圖所示)。 Lustre集群中可以使用多種類型的網(wǎng)絡(luò),OSS之間的共享存儲啟用故障切換功能。Lustre文件系統(tǒng)存儲與I/O 在Lustre 2.0中,引入了Lustre文件標識符(FID)來替換用于識別文件或?qū)ο蟮腢NIX inode編號。 FID是一個128位的標識符,其中,64位用于存儲唯一的序列號,32位用于存儲對象標識符(OID),另外32位用于存儲版本號。序列號在文件系統(tǒng)(OST和MDT)中的所有Lustr

20、e目標中都是唯一的。這一改變使未來支持多種 MDT 和ZFS(均在Lustre 2.4中引入)成為了可能。 同時,在此版本中也引入了一個名為FID-in-dirent(也稱為dirdata)的ldiskfs功能,F(xiàn)ID作為文件名稱的一部分存儲在父目錄中。該功能通過減少磁盤I/O顯著提高了ls命令執(zhí)行的性能。 FID-in-dirent是在創(chuàng)建文件時生成的。 在Lustre 2.4中,LFSCK文件系統(tǒng)一致性檢查工具提供了對現(xiàn)有文件啟用FID-in-dirent的功能。具體如下:為1.8版本文件系統(tǒng)上現(xiàn)有文件生成IGIF模式的FID。驗證每個文件的FID-in-dirent,如其無效或丟失,則重

21、新生成FID-in-dirent。驗證每個linkEA條目,如其無效或丟失,則重新生成。 linkEA由文件名和父類FID組成,它作為擴展屬性存儲在文件本身中。因此,linkEA可以用來重建文件的完整路徑名。 有關(guān)文件數(shù)據(jù)在OST上的位置信息將作為擴展屬性布局EA,存儲在由FID標識的MDT對象中(具體如下圖所示))。若該文件是普通文件(即不是目錄或符號鏈接),則MDT對象1對N地指向包含文件數(shù)據(jù)的OST對象。若該MDT文件指向一個對象,則所有文件數(shù)據(jù)都存儲在該對象中。若該MDT文件指向多個對象,則使用RAID 0將文件數(shù)據(jù)劃分為多個對象,將每個對象存儲在不同的OST上。 當客戶端讀寫文件時,

22、首先從文件的MDT對象中獲取布局EA,然后使用這個信息在文件上執(zhí)行I / O,直接與存儲對象的OSS節(jié)點進行交互。具體過程如下圖所示。 Lustre文件系統(tǒng)的可用帶寬如下:網(wǎng)絡(luò)帶寬等于OSS到目標的總帶寬。磁盤帶寬等于存儲目標(OST)的磁盤帶寬總和,受網(wǎng)絡(luò)帶寬限制。總帶寬等于磁盤帶寬和網(wǎng)絡(luò)帶寬的最小值??捎玫奈募到y(tǒng)空間等于所有OST的可用空間總和。Lustre文件系統(tǒng)條帶化 Lustre文件系統(tǒng)高性能的主要原因之一是能夠以輪詢方式跨多個OST將數(shù)據(jù)條帶化。用戶可根據(jù)需要為每個文件配置條帶數(shù)量,條帶大小和OST。當單個文件的總帶寬超過單個OST的帶寬時,可以使用條帶化來提高性能。同時,當單個

23、OST沒有足夠的可用空間來容納整個文件時,條帶化也能發(fā)揮它的作用。如圖下圖所示,條帶化允許將文件中的數(shù)據(jù)段或“塊”存儲在不同的OST中。 在Lustre文件系統(tǒng)中,通過RAID 0模式將數(shù)據(jù)在一定數(shù)量的對象上進行條帶化。一個文件中處理的對象數(shù)稱為stripe_count。每個對象包含文件中的一個數(shù)據(jù)塊,當寫入特定對象的數(shù)據(jù)塊超過stripe_size時,文件中的下一個數(shù)據(jù)塊將存儲在下一個對象上。stripe_count和stripe_size的默認值由為文件系統(tǒng)設(shè)置的,其中,stripe_count為1,stripe_size為1MB。用戶可以在每個目錄或每個文件上更改這些值。 下圖中,文件C

24、的stripe_size大于文件A的stripe_size,表明更多的數(shù)據(jù)被允許存儲在文件C的單個條帶中。文件A的stripe_count為3,則數(shù)據(jù)在三個對象上條帶化。文件B和文件C的stripe_count是1。OST上沒有為未寫入的數(shù)據(jù)預(yù)留空間。 最大文件大小不受單個目標大小的限制。在Lustre文件系統(tǒng)中,文件可以跨越多個對象(最多2000個進行分割,每個對象可使用多達16 TB的ldiskfs,多達256PB的ZFS。也就是說,ldiskfs的最大文件大小為31.25 PB,ZFS的最大文件大小為8EB。Lustre文件系統(tǒng)上的文件大小受且僅受OST上可用空間的限制,Lustre最大可支持2 63字節(jié)(8EB)的文件。配置簡單的Lustre文件系統(tǒng) 通過使用Lustre提供的管理工具,Lustre文件系統(tǒng)可以按照不同的設(shè)置配置起來。下面的流程給出了如何配置一個簡單的Lustre文件系統(tǒng)(由一個合在一起的MGS/MDS、一個OSS帶兩

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論