智能計(jì)算平臺(tái)應(yīng)用開(kāi)發(fā)(初級(jí))-數(shù)據(jù)存儲(chǔ)-分布式文件系統(tǒng)_第1頁(yè)
智能計(jì)算平臺(tái)應(yīng)用開(kāi)發(fā)(初級(jí))-數(shù)據(jù)存儲(chǔ)-分布式文件系統(tǒng)_第2頁(yè)
智能計(jì)算平臺(tái)應(yīng)用開(kāi)發(fā)(初級(jí))-數(shù)據(jù)存儲(chǔ)-分布式文件系統(tǒng)_第3頁(yè)
智能計(jì)算平臺(tái)應(yīng)用開(kāi)發(fā)(初級(jí))-數(shù)據(jù)存儲(chǔ)-分布式文件系統(tǒng)_第4頁(yè)
智能計(jì)算平臺(tái)應(yīng)用開(kāi)發(fā)(初級(jí))-數(shù)據(jù)存儲(chǔ)-分布式文件系統(tǒng)_第5頁(yè)
已閱讀5頁(yè),還剩28頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第6章數(shù)據(jù)存儲(chǔ)分布式文件系統(tǒng)云存儲(chǔ)配置數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)可視化工具文件系統(tǒng)簡(jiǎn)介文件文件是文件系統(tǒng)用來(lái)管理存儲(chǔ)空間的數(shù)據(jù)以某種特定的組織方式構(gòu)成的數(shù)據(jù)集合。元數(shù)據(jù)(Metadata)是保存文件屬性的數(shù)據(jù),如文件名、文件長(zhǎng)度、文件所屬用戶組和文件存儲(chǔ)位置等。文件系統(tǒng)簡(jiǎn)介文件系統(tǒng)一種存儲(chǔ)和組織計(jì)算機(jī)數(shù)據(jù)的方法,能使訪問(wèn)和查找變得容易。傳統(tǒng)文件系統(tǒng)基于數(shù)據(jù)存儲(chǔ)塊進(jìn)行操作,數(shù)據(jù)塊(Block)是存儲(chǔ)文件的最小單元。數(shù)據(jù)塊對(duì)存儲(chǔ)介質(zhì)劃分了固定的區(qū)域,使用時(shí)按這些區(qū)域分配使用。用于管理和組織保存在磁盤(pán)驅(qū)動(dòng)器上的數(shù)據(jù)的系統(tǒng)軟件,是操作系統(tǒng)的重要構(gòu)成部分。文件系統(tǒng)簡(jiǎn)介文件系統(tǒng)將文件組織成樹(shù)結(jié)構(gòu)的形式進(jìn)行管理,通過(guò)抽象化自身管理的存儲(chǔ)資源對(duì)外提供統(tǒng)一的訪問(wèn)接口,并對(duì)用戶屏蔽具體的實(shí)現(xiàn)細(xì)節(jié)。文件系統(tǒng)按照底層數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)和管理范圍的不同的劃分本地文件系統(tǒng)(LocalFileSystem)分布式文件系統(tǒng)(DistributedFileSystem)分布式與文件系統(tǒng)——分布式分布式移動(dòng)互聯(lián)網(wǎng)在迅猛發(fā)展,移動(dòng)端的網(wǎng)絡(luò)應(yīng)用每天產(chǎn)生海量的文本、圖片、音視頻等小容量文件,傳統(tǒng)的文件存儲(chǔ)方式已經(jīng)不能滿足當(dāng)前系統(tǒng)對(duì)于存儲(chǔ)空間和訪問(wèn)效率的要求。分布式指的是文件、數(shù)據(jù)被切塊分散存儲(chǔ)到不同存儲(chǔ)節(jié)點(diǎn)的每一塊硬盤(pán)上。當(dāng)前的分布式文件存儲(chǔ)系統(tǒng)大多對(duì)文件進(jìn)行分片存儲(chǔ),并會(huì)對(duì)文件元數(shù)據(jù)進(jìn)行集中管理,這種存儲(chǔ)方式可以對(duì)大文件實(shí)現(xiàn)高效存儲(chǔ),但是用于小文件存儲(chǔ)時(shí),會(huì)存在元數(shù)據(jù)服務(wù)器容量受限、訪問(wèn)效率低下和存儲(chǔ)資源利用率不高等問(wèn)題。分布式與文件系統(tǒng)——分布式文件系統(tǒng)的概念常見(jiàn)的分布式文件系統(tǒng)一般基于客戶端與服務(wù)端(C/S)模式進(jìn)行設(shè)計(jì)包括多個(gè)供用戶訪問(wèn)的服務(wù)器和供用戶調(diào)用的客戶端服務(wù)器之間的對(duì)等特性允許一些服務(wù)器扮演客戶端和服務(wù)端的雙重角色。分布式文件系統(tǒng)(DistributedFileSystem)指文件系統(tǒng)管理的物理存儲(chǔ)資源通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)互連的服務(wù)器集群,而不一定直接連接在本地節(jié)點(diǎn)上,服務(wù)器之間可以相互通信與協(xié)調(diào),從而構(gòu)成一個(gè)可以共享存儲(chǔ)空間的大規(guī)模系統(tǒng)。分布式與文件系統(tǒng)——分布式文件系統(tǒng)的基本架構(gòu)基本架構(gòu)盡管分布式文件系統(tǒng)的種類很多,但分布式文件系統(tǒng)一般都會(huì)采用M/S架構(gòu)。分布式文件系統(tǒng)一般由控制服務(wù)器、存儲(chǔ)服務(wù)器和客戶端3個(gè)部分構(gòu)成??刂品?wù)器主要負(fù)責(zé)整個(gè)分布式文件系統(tǒng)的管理、調(diào)度和控制等。存儲(chǔ)服務(wù)器通常有多臺(tái);用于數(shù)據(jù)的存儲(chǔ)與備份??蛻舳耸怯脩羰褂玫囊欢?;用戶通過(guò)客戶端對(duì)分布式文件系統(tǒng)內(nèi)的數(shù)據(jù)進(jìn)行存儲(chǔ)和訪問(wèn)。分布式與文件系統(tǒng)——分布式文件系統(tǒng)的基本架構(gòu)分布式文件系統(tǒng)在吞吐量、I/O性能方面具有較強(qiáng)的優(yōu)勢(shì),并且有良好的擴(kuò)展性。分布式文件系統(tǒng)將多個(gè)存儲(chǔ)服務(wù)器的存儲(chǔ)資源進(jìn)行統(tǒng)一管理和整合,組織成一個(gè)整體,統(tǒng)一對(duì)外提供聚合的存儲(chǔ)容量和I/O帶寬。分布式文件系統(tǒng)利用控制服務(wù)器定位數(shù)據(jù)所在的存儲(chǔ)節(jié)點(diǎn),然后將數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)的地址返回給客戶端,提高了系統(tǒng)的整體可用性、可靠性和擴(kuò)展性。分布式與文件系統(tǒng)——分布式文件系統(tǒng)的基本架構(gòu)市場(chǎng)普及率最高的、典型的數(shù)據(jù)密集型分布式應(yīng)用——搜索引擎搜索引擎系統(tǒng)性能若僅僅依賴本地文件系統(tǒng)的基本功能,是遠(yuǎn)遠(yuǎn)無(wú)法滿足海量用戶的訪問(wèn)需求的因此,為提高響應(yīng)速度,搜索引擎均采用分布式文件系統(tǒng)進(jìn)行數(shù)據(jù)存儲(chǔ)。分布式與文件系統(tǒng)——分布式文件系統(tǒng)分布式應(yīng)用的快速推廣與普及對(duì)分布式文件系統(tǒng)的發(fā)展方向起到重要影響,不同類型的分布式應(yīng)用的特征各異,導(dǎo)致分布式應(yīng)用分布式文件系統(tǒng)的性能需求不同。當(dāng)前分布式文件系統(tǒng)大部分是針對(duì)特定的應(yīng)用類型進(jìn)行設(shè)計(jì)。例如,常見(jiàn)的分布式文件系統(tǒng)分布式文件系統(tǒng)說(shuō)明GFS均是針對(duì)搜索引擎的應(yīng)用需求進(jìn)行設(shè)計(jì)的分布式文件系統(tǒng);GFS和HDFS針對(duì)大量MapReduce分布式計(jì)算的使用場(chǎng)景,對(duì)大文件存儲(chǔ)做了專門(mén)優(yōu)化。HDFS(Apache開(kāi)發(fā)的開(kāi)源分布式文件系統(tǒng))FastDFS為滿足海量圖片的高效存儲(chǔ)需求進(jìn)行設(shè)計(jì),適合存儲(chǔ)小文件。常見(jiàn)的分布式文件系統(tǒng)——GFS的簡(jiǎn)介GFS是由Google公司進(jìn)行設(shè)計(jì)開(kāi)發(fā)的高性能分布式文件存儲(chǔ)系統(tǒng),用于滿足Google迅速增長(zhǎng)的數(shù)據(jù)存儲(chǔ)和處理需求,由許多廉價(jià)易損的普通組件組成,具有較好的容錯(cuò)性和可擴(kuò)展性。Google根據(jù)公司的實(shí)際應(yīng)用場(chǎng)景及業(yè)務(wù)需求,對(duì)傳統(tǒng)的分布式文件系統(tǒng)的設(shè)計(jì)思想進(jìn)行針對(duì)性的改進(jìn)。在GFS中,組件失效是一種常態(tài),需要迅速地偵測(cè)、冗余并恢復(fù)那些失效的組件。GFS針對(duì)大文件存儲(chǔ)進(jìn)行設(shè)計(jì),保證多用戶并發(fā)操作時(shí)數(shù)據(jù)追加的原子性。常見(jiàn)的分布式文件系統(tǒng)——GFS的系統(tǒng)架構(gòu)GFS集群由3個(gè)角色構(gòu)成??刂乒?jié)點(diǎn)(Master);數(shù)據(jù)塊節(jié)點(diǎn)(ChunkServer);客戶端(Client)。常見(jiàn)的分布式文件系統(tǒng)——GFS的系統(tǒng)架構(gòu)控制節(jié)點(diǎn)負(fù)責(zé)存儲(chǔ)管理文件元數(shù)據(jù)以及協(xié)調(diào)系統(tǒng)整體活動(dòng)。數(shù)據(jù)塊節(jié)點(diǎn)用于存儲(chǔ)并維護(hù)文件分割之后產(chǎn)生的數(shù)據(jù)塊(Chunk);支持客戶端讀寫(xiě)文件數(shù)據(jù)??蛻舳讼蚩刂乒?jié)點(diǎn)請(qǐng)求元數(shù)據(jù);根據(jù)元數(shù)據(jù)的信息訪問(wèn)對(duì)應(yīng)數(shù)據(jù)塊節(jié)點(diǎn)上的文件數(shù)據(jù)。常見(jiàn)的分布式文件系統(tǒng)——GFS的系統(tǒng)架構(gòu)每個(gè)數(shù)據(jù)塊的大小是固定的,一般為64MB。每個(gè)數(shù)據(jù)塊有一個(gè)全局唯一、不變的64位ID標(biāo)識(shí),稱為chunk-handle,chunk-handle是在數(shù)據(jù)塊創(chuàng)建時(shí)由控制節(jié)點(diǎn)分配的。每個(gè)數(shù)據(jù)塊以普通Linux文件的形式存儲(chǔ)在數(shù)據(jù)塊服務(wù)器上。GFS中會(huì)存儲(chǔ)數(shù)據(jù)塊的多個(gè)副本,副本數(shù)默認(rèn)為3,但可以通過(guò)修改配置文件進(jìn)行設(shè)置。GFS將文件分割成的若干數(shù)據(jù)塊(Chunk)常見(jiàn)的分布式文件系統(tǒng)——GFS的系統(tǒng)架構(gòu)元數(shù)據(jù)包括命名空間、文件、Block的映射關(guān)系(文件包括哪些Block)和每個(gè)Block副本的存放位置等信息,還需加入額外的描述信息,用來(lái)校驗(yàn)??刂乒?jié)點(diǎn)負(fù)責(zé)系統(tǒng)整體的管理與協(xié)調(diào)工作,如租約管理、孤兒塊的垃圾收集和數(shù)據(jù)塊服務(wù)器之間的塊轉(zhuǎn)移??刂乒?jié)點(diǎn)以心跳的方式與系統(tǒng)內(nèi)的每一個(gè)數(shù)據(jù)塊服務(wù)器進(jìn)行通信,發(fā)送指令并獲取狀態(tài)信息??刂乒?jié)點(diǎn):存儲(chǔ)并維護(hù)GFS系統(tǒng)中的所有元數(shù)據(jù)常見(jiàn)的分布式文件系統(tǒng)——GFS的系統(tǒng)架構(gòu)用戶通過(guò)客戶端與控制節(jié)點(diǎn)、數(shù)據(jù)塊服務(wù)器進(jìn)行交互??蛻舳伺c控制節(jié)點(diǎn)之間僅是進(jìn)行元數(shù)據(jù)的訪問(wèn)操作??蛻舳伺c數(shù)據(jù)塊服務(wù)器之間進(jìn)行文件塊的讀寫(xiě)??蛻舳顺R?jiàn)的分布式文件系統(tǒng)——GFS的系統(tǒng)架構(gòu)客戶端與控制節(jié)點(diǎn)、數(shù)據(jù)塊服務(wù)器的交互過(guò)程在客戶端與數(shù)據(jù)塊服務(wù)器之間的交互過(guò)程中才有數(shù)據(jù)信息。當(dāng)用戶應(yīng)用程序需要讀取某個(gè)特定文件的數(shù)據(jù)時(shí),因?yàn)閿?shù)據(jù)塊是定長(zhǎng)的,所以客戶端可以計(jì)算出這段數(shù)據(jù)跨越了幾個(gè)數(shù)據(jù)塊??蛻舳藢⑽募托枰臄?shù)據(jù)塊索引發(fā)送給控制節(jié)點(diǎn),控制節(jié)點(diǎn)根據(jù)文件名查找命名空間和文件與Chunk的映射表,得到數(shù)據(jù)塊副本的存儲(chǔ)位置,然后將數(shù)據(jù)塊的chunk-handle和所有副本的存儲(chǔ)位置返回給客戶端??蛻舳烁鶕?jù)一定的選擇策略選取一個(gè)副本,然后與副本所在的數(shù)據(jù)塊服務(wù)器建立連接,索取所需要的數(shù)據(jù),數(shù)據(jù)塊服務(wù)器將文件數(shù)據(jù)發(fā)送給客戶端。常見(jiàn)的分布式文件系統(tǒng)——HDFS的簡(jiǎn)介HDFS是Apache軟件基金會(huì)根據(jù)GFS的論文概念模型設(shè)計(jì)實(shí)現(xiàn)的開(kāi)源分布式文件系統(tǒng),用于作為Hadoop的存儲(chǔ)系統(tǒng)。HDFS作為GFS的一個(gè)最重要的實(shí)現(xiàn),與GFS的設(shè)計(jì)目標(biāo)高度一致。常見(jiàn)的分布式文件系統(tǒng)——HDFS的系統(tǒng)架構(gòu)HDFS系統(tǒng)架構(gòu)整體由NameNode節(jié)點(diǎn)、DataNode節(jié)點(diǎn)和客戶端3個(gè)角色構(gòu)成。常見(jiàn)的分布式文件系統(tǒng)——HDFS的系統(tǒng)架構(gòu)NameNode中心服務(wù)器;NameNode節(jié)點(diǎn)保存分布式系統(tǒng)中與DataNode節(jié)點(diǎn)相關(guān)的信息;負(fù)責(zé)管理文件系統(tǒng)的NameSpace和客戶端對(duì)文件的訪問(wèn)。主要包括:DataNode節(jié)點(diǎn)的位置信息DataNode節(jié)點(diǎn)k的數(shù)據(jù)信息各副本的位置信息常見(jiàn)的分布式文件系統(tǒng)——HDFS的系統(tǒng)架構(gòu)DataNode用于保存系統(tǒng)中的文件數(shù)據(jù);每個(gè)DataNode節(jié)點(diǎn)將存儲(chǔ)空間分割為大小為64MB的數(shù)據(jù)塊(Block),文件數(shù)據(jù)就存儲(chǔ)在這些數(shù)據(jù)塊中;DataNode與數(shù)據(jù)塊之間的對(duì)應(yīng)信息,以元數(shù)據(jù)的形式保存在NameNode上。HDFS采用一定的副本策略,將多個(gè)副本分配至不同的DataNode節(jié)點(diǎn),而NameNode節(jié)點(diǎn)中保存了這些映射信息,使HDFS更具可靠性。常見(jiàn)的分布式文件系統(tǒng)——HDFS的系統(tǒng)架構(gòu)應(yīng)用程序通過(guò)客戶端將要訪問(wèn)的數(shù)據(jù)塊信息發(fā)送到NameNode節(jié)點(diǎn)NameNode節(jié)點(diǎn)通過(guò)查詢相應(yīng)的元數(shù)據(jù)信息,獲取數(shù)據(jù)塊和DataNode之間的對(duì)應(yīng)關(guān)系查找到具體存儲(chǔ)數(shù)據(jù)塊的DataNode節(jié)點(diǎn),將DataNode信息發(fā)送至客戶端??蛻舳私邮盏絅ameNode節(jié)點(diǎn)發(fā)送的信息,訪問(wèn)對(duì)應(yīng)的DataNode節(jié)點(diǎn),從而對(duì)元數(shù)據(jù)進(jìn)行讀寫(xiě)操作??蛻舳耸菓?yīng)用程序訪問(wèn)元數(shù)據(jù)的代理。過(guò)程常見(jiàn)的分布式文件系統(tǒng)——FastDFS的簡(jiǎn)介FastDFS是一款輕量級(jí)、開(kāi)源的分布式文件存儲(chǔ)系統(tǒng),由前淘寶架構(gòu)師余慶開(kāi)發(fā)。FastDFS專門(mén)針對(duì)互聯(lián)網(wǎng)應(yīng)用進(jìn)行設(shè)計(jì),主要用于存儲(chǔ)海量小文件。FastDFS主要功能文件存儲(chǔ)文件刪除文件上傳下載…FastDFS應(yīng)用場(chǎng)景圖片網(wǎng)站視頻網(wǎng)站…常見(jiàn)的分布式文件系統(tǒng)——FastDFS的系統(tǒng)架構(gòu)FastDFS包含3個(gè)角色??蛻舳耍–lient);跟蹤服務(wù)器(Tracker);存儲(chǔ)服務(wù)器(StorageServer)。常見(jiàn)的分布式文件系統(tǒng)——FastDFS的系統(tǒng)架構(gòu)FastDFS支持動(dòng)態(tài)擴(kuò)容Tracker和StorageServer都至少包含一臺(tái)服務(wù)器。在系統(tǒng)運(yùn)行過(guò)程中服務(wù)器可以隨時(shí)加入Tracker或StorageServer所在的集群,而不影響系統(tǒng)中其他原有服務(wù)器的正常運(yùn)行。常見(jiàn)的分布式文件系統(tǒng)——FastDFS的系統(tǒng)架構(gòu)在FastDFS中,存儲(chǔ)服務(wù)器被劃分為多個(gè)分組(Group)不同分組中存儲(chǔ)的文件相互獨(dú)立,所有分組一起對(duì)外提供完整的文件存取服務(wù)。每個(gè)分組由一臺(tái)或多臺(tái)存儲(chǔ)服務(wù)器構(gòu)成,同一分組中的存儲(chǔ)服務(wù)器之間為對(duì)等關(guān)系,存儲(chǔ)的文件是相同的,它們互為冗余備份并可以分擔(dān)負(fù)載。當(dāng)有新的存儲(chǔ)服務(wù)器加入分組時(shí),分組中原有的存儲(chǔ)服務(wù)器會(huì)將已經(jīng)存在的文件同步至新加入的服務(wù)器,同步完成后系統(tǒng)會(huì)將該服務(wù)器的狀態(tài)改為在線,此時(shí)新加入的服務(wù)器便可對(duì)外提供存儲(chǔ)服務(wù)了。常見(jiàn)的分布式文件系統(tǒng)——FastDFS的系統(tǒng)架構(gòu)FastDFS系統(tǒng)容量FastDFS系統(tǒng)的整體容量等于各分組容量之和。由于分組中的各個(gè)存儲(chǔ)服務(wù)器互為全冗余,因此單個(gè)分組的容量等于該分組中存儲(chǔ)空間最小的那臺(tái)存儲(chǔ)服務(wù)器的容量。在FastDFS中,當(dāng)系統(tǒng)存儲(chǔ)容量不足時(shí),可以通過(guò)增加分組的方式進(jìn)行橫向擴(kuò)容。常見(jiàn)的分布式文件系統(tǒng)——FastDFS的系統(tǒng)架構(gòu)文件上傳過(guò)程常見(jiàn)的分布式文件系統(tǒng)——FastDFS的系統(tǒng)架構(gòu)文件上傳過(guò)程客戶端將上傳請(qǐng)求發(fā)送至TrackerTracker選取可用的存儲(chǔ)服務(wù)器Tracker將相應(yīng)信息返回給客戶端客戶端收到信息后直接與相應(yīng)的存儲(chǔ)服務(wù)器建立連接,進(jìn)行文件上傳上傳完成后存儲(chǔ)服務(wù)器會(huì)生成一個(gè)文件標(biāo)識(shí)符并返回給客戶端Tracker通過(guò)查詢各StorageServer的狀態(tài)信息并根據(jù)一定的負(fù)載均衡策略選取可用的存儲(chǔ)服務(wù)器。之后執(zhí)行下載操作時(shí)需要使

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論