大數(shù)據(jù)技術(shù)原理與應(yīng)用（第3版）-第3章-分布式文件系統(tǒng)HDFS

上傳人：K*** IP屬地：浙江上傳時間：2023-09-11 格式：PPT 頁數(shù)：71 大?。?.71MB 積分：20 舉報 版權(quán)申訴

大數(shù)據(jù)技術(shù)原理與應(yīng)用（第3版）-第3章-分布式文件系統(tǒng)HDFS_第2頁

大數(shù)據(jù)技術(shù)原理與應(yīng)用（第3版）-第3章-分布式文件系統(tǒng)HDFS_第3頁

大數(shù)據(jù)技術(shù)原理與應(yīng)用（第3版）-第3章-分布式文件系統(tǒng)HDFS_第4頁

大數(shù)據(jù)技術(shù)原理與應(yīng)用（第3版）-第3章-分布式文件系統(tǒng)HDFS_第5頁

已閱讀5頁，還剩66頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

第3章分布式文件系統(tǒng)HDFS

提綱3.1分布式文件系統(tǒng)3.2HDFS簡介3.3HDFS相關(guān)概念3.4HDFS體系結(jié)構(gòu)3.5HDFS存儲原理3.6HDFS數(shù)據(jù)讀寫過程3.7 HDFS編程實踐本PPT是如下教材的配套講義：《大數(shù)據(jù)技術(shù)原理與應(yīng)用——概念、存儲、處理、分析與應(yīng)用》3.1 分布式文件系統(tǒng)3.1.1 計算機集群結(jié)構(gòu)3.1.2 分布式文件系統(tǒng)的結(jié)構(gòu)3.1.1 計算機集群結(jié)構(gòu)分布式文件系統(tǒng)把文件分布存儲到多個計算機節(jié)點上，成千上萬的計算機節(jié)點構(gòu)成計算機集群與之前使用多個處理器和專用高級硬件的并行化處理裝置不同的是，目前的分布式文件系統(tǒng)所采用的計算機集群，都是由普通硬件構(gòu)成的，這就大大降低了硬件上的開銷圖3-1計算機集群的基本架構(gòu)3.1.2 分布式文件系統(tǒng)的結(jié)構(gòu)分布式文件系統(tǒng)在物理結(jié)構(gòu)上是由計算機集群中的多個節(jié)點構(gòu)成的，這些節(jié)點分為兩類，一類叫“主節(jié)點”(MasterNode)或者也被稱為“名稱結(jié)點”(NameNode)，另一類叫“從節(jié)點”（SlaveNode）或者也被稱為“數(shù)據(jù)節(jié)點”(DataNode)圖3-2大規(guī)模文件系統(tǒng)的整體結(jié)構(gòu)3.2 HDFS簡介總體而言，HDFS要實現(xiàn)以下目標(biāo)：●兼容廉價的硬件設(shè)備●流數(shù)據(jù)讀寫●大數(shù)據(jù)集●簡單的文件模型●強大的跨平臺兼容性HDFS特殊的設(shè)計，在實現(xiàn)上述優(yōu)良特性的同時，也使得自身具有一些應(yīng)用局限性，主要包括以下幾個方面：●不適合低延遲數(shù)據(jù)訪問●無法高效存儲大量小文件●不支持多用戶寫入及任意修改文件3.3.1 塊HDFS默認一個塊64MB，一個文件被分成多個塊，以塊作為存儲單位塊的大小遠遠大于普通文件系統(tǒng)，可以最小化尋址開銷HDFS采用抽象的塊概念可以帶來以下幾個明顯的好處：●支持大規(guī)模文件存儲：文件以塊為單位進行存儲，一個大規(guī)模文件可以被分拆成若干個文件塊，不同的文件塊可以被分發(fā)到不同的節(jié)點上，因此，一個文件的大小不會受到單個節(jié)點的存儲容量的限制，可以遠遠大于網(wǎng)絡(luò)中任意節(jié)點的存儲容量●簡化系統(tǒng)設(shè)計：首先，大大簡化了存儲管理，因為文件塊大小是固定的，這樣就可以很容易計算出一個節(jié)點可以存儲多少文件塊；其次，方便了元數(shù)據(jù)的管理，元數(shù)據(jù)不需要和文件塊一起存儲，可以由其他系統(tǒng)負責(zé)管理元數(shù)據(jù)●適合數(shù)據(jù)備份：每個文件塊都可以冗余存儲到多個節(jié)點上，大大提高了系統(tǒng)的容錯性和可用性3.3.2 名稱節(jié)點和數(shù)據(jù)節(jié)點3.3.2 名稱節(jié)點和數(shù)據(jù)節(jié)點在HDFS中，名稱節(jié)點（NameNode）負責(zé)管理分布式文件系統(tǒng)的命名空間（Namespace），保存了兩個核心的數(shù)據(jù)結(jié)構(gòu)，即FsImage和EditLogFsImage用于維護文件系統(tǒng)樹以及文件樹中所有的文件和文件夾的元數(shù)據(jù)操作日志文件EditLog中記錄了所有針對文件的創(chuàng)建、刪除、重命名等操作名稱節(jié)點記錄了每個文件中各個塊所在的數(shù)據(jù)節(jié)點的位置信息圖3-3名稱節(jié)點的數(shù)據(jù)結(jié)構(gòu)名稱節(jié)點的數(shù)據(jù)結(jié)構(gòu)3.3.2 名稱節(jié)點和數(shù)據(jù)節(jié)點FsImage文件包含文件系統(tǒng)中所有目錄和文件inode的序列化形式。每個inode是一個文件或目錄的元數(shù)據(jù)的內(nèi)部表示，并包含此類信息：文件的復(fù)制等級、修改和訪問時間、訪問權(quán)限、塊大小以及組成文件的塊。對于目錄，則存儲修改時間、權(quán)限和配額元數(shù)據(jù)FsImage文件沒有記錄每個塊存儲在哪個數(shù)據(jù)節(jié)點。而是由名稱節(jié)點把這些映射信息保留在內(nèi)存中，當(dāng)數(shù)據(jù)節(jié)點加入HDFS集群時，數(shù)據(jù)節(jié)點會把自己所包含的塊列表告知給名稱節(jié)點，此后會定期執(zhí)行這種告知操作，以確保名稱節(jié)點的塊映射是最新的。FsImage文件3.3.2 名稱節(jié)點和數(shù)據(jù)節(jié)點在名稱節(jié)點啟動的時候，它會將FsImage文件中的內(nèi)容加載到內(nèi)存中，之后再執(zhí)行EditLog文件中的各項操作，使得內(nèi)存中的元數(shù)據(jù)和實際的同步，存在內(nèi)存中的元數(shù)據(jù)支持客戶端的讀操作。一旦在內(nèi)存中成功建立文件系統(tǒng)元數(shù)據(jù)的映射，則創(chuàng)建一個新的FsImage文件和一個空的EditLog文件名稱節(jié)點起來之后，HDFS中的更新操作會重新寫到EditLog文件中，因為FsImage文件一般都很大（GB級別的很常見），如果所有的更新操作都往FsImage文件中添加，這樣會導(dǎo)致系統(tǒng)運行的十分緩慢，但是，如果往EditLog文件里面寫就不會這樣，因為EditLog要小很多。每次執(zhí)行寫操作之后，且在向客戶端發(fā)送成功代碼之前，edits文件都需要同步更新名稱節(jié)點的啟動3.3.2 名稱節(jié)點和數(shù)據(jù)節(jié)點在名稱節(jié)點運行期間，HDFS的所有更新操作都是直接寫到EditLog中，久而久之，EditLog文件將會變得很大雖然這對名稱節(jié)點運行時候是沒有什么明顯影響的，但是，當(dāng)名稱節(jié)點重啟的時候，名稱節(jié)點需要先將FsImage里面的所有內(nèi)容映像到內(nèi)存中，然后再一條一條地執(zhí)行EditLog中的記錄，當(dāng)EditLog文件非常大的時候，會導(dǎo)致名稱節(jié)點啟動操作非常慢，而在這段時間內(nèi)HDFS系統(tǒng)處于安全模式，一直無法對外提供寫操作，影響了用戶的使用名稱節(jié)點運行期間EditLog不斷變大的問題如何解決？答案是：SecondaryNameNode第二名稱節(jié)點第二名稱節(jié)點是HDFS架構(gòu)中的一個組成部分，它是用來保存名稱節(jié)點中對HDFS元數(shù)據(jù)信息的備份，并減少名稱節(jié)點重啟的時間。SecondaryNameNode一般是單獨運行在一臺機器上3.3.2 名稱節(jié)點和數(shù)據(jù)節(jié)點SecondaryNameNode的工作情況：（1）SecondaryNameNode會定期和NameNode通信，請求其停止使用EditLog文件，暫時將新的寫操作寫到一個新的文件edit.new上來，這個操作是瞬間完成，上層寫日志的函數(shù)完全感覺不到差別；（2）SecondaryNameNode通過HTTPGET方式從NameNode上獲取到FsImage和EditLog文件，并下載到本地的相應(yīng)目錄下；（3）SecondaryNameNode將下載下來的FsImage載入到內(nèi)存，然后一條一條地執(zhí)行EditLog文件中的各項更新操作，使得內(nèi)存中的FsImage保持最新；這個過程就是EditLog和FsImage文件合并；（4）SecondaryNameNode執(zhí)行完（3）操作之后，會通過post方式將新的FsImage文件發(fā)送到NameNode節(jié)點上（5）NameNode將從SecondaryNameNode接收到的新的FsImage替換舊的FsImage文件，同時將edit.new替換EditLog文件，通過這個過程EditLog就變小了3.3.2 名稱節(jié)點和數(shù)據(jù)節(jié)點數(shù)據(jù)節(jié)點是分布式文件系統(tǒng)HDFS的工作節(jié)點，負責(zé)數(shù)據(jù)的存儲和讀取，會根據(jù)客戶端或者是名稱節(jié)點的調(diào)度來進行數(shù)據(jù)的存儲和檢索，并且向名稱節(jié)點定期發(fā)送自己所存儲的塊的列表每個數(shù)據(jù)節(jié)點中的數(shù)據(jù)會被保存在各自節(jié)點的本地Linux文件系統(tǒng)中數(shù)據(jù)節(jié)點（DataNode）3.4 HDFS體系結(jié)構(gòu)3.4.1 HDFS體系結(jié)構(gòu)概述3.4.2 HDFS命名空間管理3.4.3 通信協(xié)議3.4.4 客戶端3.4.5 HDFS體系結(jié)構(gòu)的局限性3.4.1 HDFS體系結(jié)構(gòu)概述HDFS采用了主從（Master/Slave）結(jié)構(gòu)模型，一個HDFS集群包括一個名稱節(jié)點（NameNode）和若干個數(shù)據(jù)節(jié)點（DataNode）（如圖3-4所示）。名稱節(jié)點作為中心服務(wù)器，負責(zé)管理文件系統(tǒng)的命名空間及客戶端對文件的訪問。集群中的數(shù)據(jù)節(jié)點一般是一個節(jié)點運行一個數(shù)據(jù)節(jié)點進程，負責(zé)處理文件系統(tǒng)客戶端的讀/寫請求，在名稱節(jié)點的統(tǒng)一調(diào)度下進行數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制等操作。每個數(shù)據(jù)節(jié)點的數(shù)據(jù)實際上是保存在本地Linux文件系統(tǒng)中的圖3-4HDFS體系結(jié)構(gòu)3.4.2 HDFS命名空間管理HDFS的命名空間包含目錄、文件和塊在HDFS1.0體系結(jié)構(gòu)中，在整個HDFS集群中只有一個命名空間，并且只有唯一一個名稱節(jié)點，該節(jié)點負責(zé)對這個命名空間進行管理HDFS使用的是傳統(tǒng)的分級文件體系，因此，用戶可以像使用普通文件系統(tǒng)一樣，創(chuàng)建、刪除目錄和文件，在目錄間轉(zhuǎn)移文件，重命名文件等3.4.3 通信協(xié)議HDFS是一個部署在集群上的分布式文件系統(tǒng)，因此，很多數(shù)據(jù)需要通過網(wǎng)絡(luò)進行傳輸所有的HDFS通信協(xié)議都是構(gòu)建在TCP/IP協(xié)議基礎(chǔ)之上的客戶端通過一個可配置的端口向名稱節(jié)點主動發(fā)起TCP連接，并使用客戶端協(xié)議與名稱節(jié)點進行交互名稱節(jié)點和數(shù)據(jù)節(jié)點之間則使用數(shù)據(jù)節(jié)點協(xié)議進行交互客戶端與數(shù)據(jù)節(jié)點的交互是通過RPC（RemoteProcedureCall）來實現(xiàn)的。在設(shè)計上，名稱節(jié)點不會主動發(fā)起RPC，而是響應(yīng)來自客戶端和數(shù)據(jù)節(jié)點的RPC請求3.4.4 客戶端客戶端是用戶操作HDFS最常用的方式，HDFS在部署時都提供了客戶端HDFS客戶端是一個庫，暴露了HDFS文件系統(tǒng)接口，這些接口隱藏了HDFS實現(xiàn)中的大部分復(fù)雜性嚴(yán)格來說，客戶端并不算是HDFS的一部分客戶端可以支持打開、讀取、寫入等常見的操作，并且提供了類似Shell的命令行方式來訪問HDFS中的數(shù)據(jù)此外，HDFS也提供了JavaAPI，作為應(yīng)用程序訪問文件系統(tǒng)的客戶端編程接口3.4.5 HDFS體系結(jié)構(gòu)的局限性HDFS只設(shè)置唯一一個名稱節(jié)點，這樣做雖然大大簡化了系統(tǒng)設(shè)計，但也帶來了一些明顯的局限性，具體如下：（1）命名空間的限制：名稱節(jié)點是保存在內(nèi)存中的，因此，名稱節(jié)點能夠容納的對象（文件、塊）的個數(shù)會受到內(nèi)存空間大小的限制。（2）性能的瓶頸：整個分布式文件系統(tǒng)的吞吐量，受限于單個名稱節(jié)點的吞吐量。（3）隔離問題：由于集群中只有一個名稱節(jié)點，只有一個命名空間，因此，無法對不同應(yīng)用程序進行隔離。（4）集群的可用性：一旦這個唯一的名稱節(jié)點發(fā)生故障，會導(dǎo)致整個集群變得不可用。3.5 HDFS存儲原理3.5.1 冗余數(shù)據(jù)保存3.5.2 數(shù)據(jù)存取策略3.5.3 數(shù)據(jù)錯誤與恢復(fù)3.5.1 冗余數(shù)據(jù)保存

作為一個分布式文件系統(tǒng)，為了保證系統(tǒng)的容錯性和可用性，HDFS采用了多副本方式對數(shù)據(jù)進行冗余存儲，通常一個數(shù)據(jù)塊的多個副本會被分布到不同的數(shù)據(jù)節(jié)點上，如圖3-5所示，數(shù)據(jù)塊1被分別存放到數(shù)據(jù)節(jié)點A和C上，數(shù)據(jù)塊2被存放在數(shù)據(jù)節(jié)點A和B上。這種多副本方式具有以下幾個優(yōu)點：（1）加快數(shù)據(jù)傳輸速度（2）容易檢查數(shù)據(jù)錯誤（3）保證數(shù)據(jù)可靠性圖3-5HDFS數(shù)據(jù)塊多副本存儲3.5.2 數(shù)據(jù)存取策略1.數(shù)據(jù)存放Block的副本放置策略第一個副本：放置在上傳文件的數(shù)據(jù)節(jié)點；如果是集群外提交，則隨機挑選一臺磁盤不太滿、CPU不太忙的節(jié)點第二個副本：放置在與第一個副本不同的機架的節(jié)點上第三個副本：與第一個副本相同機架的其他節(jié)點上更多副本：隨機節(jié)點3.5.2 數(shù)據(jù)存取策略2.數(shù)據(jù)讀取HDFS提供了一個API可以確定一個數(shù)據(jù)節(jié)點所屬的機架ID，客戶端也可以調(diào)用API獲取自己所屬的機架ID當(dāng)客戶端讀取數(shù)據(jù)時，從名稱節(jié)點獲得數(shù)據(jù)塊不同副本的存放位置列表，列表中包含了副本所在的數(shù)據(jù)節(jié)點，可以調(diào)用API來確定客戶端和這些數(shù)據(jù)節(jié)點所屬的機架ID，當(dāng)發(fā)現(xiàn)某個數(shù)據(jù)塊副本對應(yīng)的機架ID和客戶端對應(yīng)的機架ID相同時，就優(yōu)先選擇該副本讀取數(shù)據(jù)，如果沒有發(fā)現(xiàn)，就隨機選擇一個副本讀取數(shù)據(jù)3.5.3 數(shù)據(jù)錯誤與恢復(fù)HDFS具有較高的容錯性，可以兼容廉價的硬件，它把硬件出錯看作一種常態(tài)，而不是異常，并設(shè)計了相應(yīng)的機制檢測數(shù)據(jù)錯誤和進行自動恢復(fù)，主要包括以下幾種情形：名稱節(jié)點出錯、數(shù)據(jù)節(jié)點出錯和數(shù)據(jù)出錯。1.名稱節(jié)點出錯名稱節(jié)點保存了所有的元數(shù)據(jù)信息，其中，最核心的兩大數(shù)據(jù)結(jié)構(gòu)是FsImage和Editlog，如果這兩個文件發(fā)生損壞，那么整個HDFS實例將失效。因此，HDFS設(shè)置了備份機制，把這些核心文件同步復(fù)制到備份服務(wù)器SecondaryNameNode上。當(dāng)名稱節(jié)點出錯時，就可以根據(jù)備份服務(wù)器SecondaryNameNode中的FsImage和Editlog數(shù)據(jù)進行恢復(fù)。3.5.3 數(shù)據(jù)錯誤與恢復(fù)2.數(shù)據(jù)節(jié)點出錯每個數(shù)據(jù)節(jié)點會定期向名稱節(jié)點發(fā)送“心跳”信息，向名稱節(jié)點報告自己的狀態(tài)當(dāng)數(shù)據(jù)節(jié)點發(fā)生故障，或者網(wǎng)絡(luò)發(fā)生斷網(wǎng)時，名稱節(jié)點就無法收到來自一些數(shù)據(jù)節(jié)點的心跳信息，這時，這些數(shù)據(jù)節(jié)點就會被標(biāo)記為“宕機”，節(jié)點上面的所有數(shù)據(jù)都會被標(biāo)記為“不可讀”，名稱節(jié)點不會再給它們發(fā)送任何I/O請求這時，有可能出現(xiàn)一種情形，即由于一些數(shù)據(jù)節(jié)點的不可用，會導(dǎo)致一些數(shù)據(jù)塊的副本數(shù)量小于冗余因子名稱節(jié)點會定期檢查這種情況，一旦發(fā)現(xiàn)某個數(shù)據(jù)塊的副本數(shù)量小于冗余因子，就會啟動數(shù)據(jù)冗余復(fù)制，為它生成新的副本HDFS和其它分布式文件系統(tǒng)的最大區(qū)別就是可以調(diào)整冗余數(shù)據(jù)的位置3.5.3 數(shù)據(jù)錯誤與恢復(fù)3.數(shù)據(jù)出錯網(wǎng)絡(luò)傳輸和磁盤錯誤等因素，都會造成數(shù)據(jù)錯誤客戶端在讀取到數(shù)據(jù)后，會采用md5和sha1對數(shù)據(jù)塊進行校驗，以確定讀取到正確的數(shù)據(jù)在文件被創(chuàng)建時，客戶端就會對每一個文件塊進行信息摘錄，并把這些信息寫入到同一個路徑的隱藏文件里面當(dāng)客戶端讀取文件的時候，會先讀取該信息文件，然后，利用該信息文件對每個讀取的數(shù)據(jù)塊進行校驗，如果校驗出錯，客戶端就會請求到另外一個數(shù)據(jù)節(jié)點讀取該文件塊，并且向名稱節(jié)點報告這個文件塊有錯誤，名稱節(jié)點會定期檢查并且重新復(fù)制這個塊3.6 HDFS數(shù)據(jù)讀寫過程3.6.1 讀數(shù)據(jù)的過程3.6.2 寫數(shù)據(jù)的過程3.6 HDFS數(shù)據(jù)讀寫過程讀取文件importjava.io.BufferedReader;importjava.io.InputStreamReader;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.fs.FSDataInputStream;

publicclassChapter3{publicstaticvoidmain(String[]args){try{Configurationconf=newConfiguration();conf.set("fs.defaultFS","hdfs://localhost:9000");

conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");FileSystemfs=FileSystem.get(conf);Pathfile=newPath("test");FSDataInputStreamgetIt=fs.open(file);BufferedReaderd=newBufferedReader(newInputStreamReader(getIt));Stringcontent=d.readLine();//讀取文件一行

System.out.println(content);d.close();//關(guān)閉文件

fs.close();//關(guān)閉hdfs}catch(Exceptione){e.printStackTrace();}}}

}3.6 HDFS數(shù)據(jù)讀寫過程寫入文件importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.FSDataOutputStream;importorg.apache.hadoop.fs.Path;publicclassChapter3{publicstaticvoidmain(String[]args){try{Configurationconf=newConfiguration();conf.set("fs.defaultFS","hdfs://localhost:9000");conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");FileSystemfs=FileSystem.get(conf);byte[]buff="Helloworld".getBytes();//要寫入的內(nèi)容

Stringfilename="test";//要寫入的文件名

FSDataOutputStreamos=fs.create(newPath(filename));os.write(buff,0,buff.length);System.out.println("Create:"+filename);os.close();fs.close();}catch(Exceptione){e.printStackTrace();}}}3.6 HDFS數(shù)據(jù)讀寫過程FileSystem是一個通用文件系統(tǒng)的抽象基類，可以被分布式文件系統(tǒng)繼承，所有可能使用Hadoop文件系統(tǒng)的代碼，都要使用這個類Hadoop為FileSystem這個抽象類提供了多種具體實現(xiàn)DistributedFileSystem就是FileSystem在HDFS文件系統(tǒng)中的具體實現(xiàn)FileSystem的open()方法返回的是一個輸入流FSDataInputStream對象，在HDFS文件系統(tǒng)中，具體的輸入流就是DFSInputStream；FileSystem中的create()方法返回的是一個輸出流FSDataOutputStream對象，在HDFS文件系統(tǒng)中，具體的輸出流就是DFSOutputStream。Configurationconf=newConfiguration();conf.set("fs.defaultFS","hdfs://localhost:9000");conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem");FileSystem

fs=FileSystem.get(conf);FSDataInputStreamin=fs.open(newPath(uri));FSDataOutputStreamout=fs.create(newPath(uri));3.6.1 讀數(shù)據(jù)的過程FSDataInputStream封裝了DFSInputStreamFileSystemfs=FileSystem.get(conf);FSDataInputStreamin=fs.open(newPath(uri));Configurationconf=newConfiguration();importorg.apache.hadoop.fs.FileSystem通過ClientProtocal.getBlockLocations()遠程調(diào)用名稱節(jié)點，獲得文件開始部分數(shù)據(jù)塊的位置對于該數(shù)據(jù)塊，名稱節(jié)點返回保存該數(shù)據(jù)塊的所有數(shù)據(jù)節(jié)點的地址并根據(jù)距離客戶端遠近進行排序客戶端獲得輸入流FSDataInputStream以后調(diào)用read()函數(shù)開始讀取數(shù)據(jù)輸入流根據(jù)前面的排序結(jié)果選擇距離客戶端最近的數(shù)據(jù)節(jié)點建立連接并讀取數(shù)據(jù)數(shù)據(jù)從數(shù)據(jù)節(jié)點讀到客戶端，當(dāng)該數(shù)據(jù)塊讀取完畢時FSDataInputStream關(guān)閉和該數(shù)據(jù)節(jié)點的連接通過ClientProtocal.getBlockLocations()查找下一個數(shù)據(jù)塊3.6.2 寫數(shù)據(jù)的過程FileSystemfs=FileSystem.get(conf);FSDataOutputStreamout=fs.create(newPath(uri));Configurationconf=newConfiguration();importorg.apache.hadoop.fs.FileSystemRPC遠程調(diào)用名稱節(jié)點在文件系統(tǒng)的命名空間中新建一個文件名稱節(jié)點會執(zhí)行一些檢查（文件是否存在，客戶端權(quán)限）FSDataOutputStream封裝了DFSOutputStream數(shù)據(jù)被分成一個個分包分包被放入DFSOutputStream對象的內(nèi)部隊列DFSOutputStream向名稱節(jié)點申請保存數(shù)據(jù)塊的若干數(shù)據(jù)節(jié)點這些數(shù)據(jù)節(jié)點形成一個數(shù)據(jù)流管道隊列中的分包最后被打包成數(shù)據(jù)包發(fā)往數(shù)據(jù)流管道中的第一個數(shù)據(jù)節(jié)點第一個數(shù)據(jù)節(jié)點將數(shù)據(jù)包發(fā)送到第二個節(jié)點依此類推，形成“流水線復(fù)制”為了保證節(jié)點數(shù)據(jù)準(zhǔn)確，接收到數(shù)據(jù)的數(shù)據(jù)節(jié)點要向發(fā)送者發(fā)送“確認包”確認包沿著數(shù)據(jù)流管道逆流而上，經(jīng)過各個節(jié)點最終到達客戶端客戶端收到應(yīng)答時，它將對應(yīng)的分包從內(nèi)部隊列移除DFSOutputStream調(diào)用ClientPplete()方法通知名稱節(jié)點關(guān)閉文件3.7HDFS編程實踐學(xué)習(xí)HDFS編程實踐，具體請參見廈門大學(xué)數(shù)據(jù)實驗室建設(shè)的高校大數(shù)據(jù)課程公共服務(wù)平臺上的技術(shù)文章：《大數(shù)據(jù)技術(shù)原理與應(yīng)用（第3版）第三章分布式文件系統(tǒng)HDFS學(xué)習(xí)指南》訪問地址：/blog/2460-2/3.7HDFS編程實踐Hadoop提供了關(guān)于HDFS在Linux操作系統(tǒng)上進行文件操作的常用Shell命令以及JavaAPI。同時還可以利用Web界面查看和管理Hadoop文件系統(tǒng)備注：Hadoop安裝成功后，已經(jīng)包含HDFS和MapReduce，不需要額外安裝。而HBase等其他組件，則需要另外下載安裝。在學(xué)習(xí)HDFS編程實踐前，我們需要啟動Hadoop。執(zhí)行如下命令：3.7.1 HDFS常用命令HDFS有很多shell命令，其中，fs命令可以說是HDFS最常用的命令利用該命令可以查看HDFS文件系統(tǒng)的目錄結(jié)構(gòu)、上傳和下載數(shù)據(jù)、創(chuàng)建文件等。該命令的用法為：hadoopfs[genericOptions][commandOptions]備注：Hadoop中有三種Shell命令方式：hadoopfs適用于任何不同的文件系統(tǒng)，比如本地文件系統(tǒng)和HDFS文件系統(tǒng)

hadoopdfs只能適用于HDFS文件系統(tǒng)

hdfsdfs跟hadoopdfs的命令作用一樣，也只能適用于HDFS文件系統(tǒng)3.7.1 HDFS常用命令實例：hadoopfs-ls<path>:顯示<path>指定的文件的詳細信息hadoopfs-mkdir<path>:創(chuàng)建<path>指定的文件夾3.7.1 HDFS常用命令實例：hadoopfs-cat<path>:將<path>指定的文件的內(nèi)容輸出到標(biāo)準(zhǔn)輸出（stdout）hadoopfs-copyFromLocal<localsrc><dst>:將本地源文件<localsrc>復(fù)制到路徑<dst>指定的文件或文件夾中3.7.2 HDFS的Web界面在配置好Hadoop集群之后，可以通過瀏覽器登錄“http://localhost:9870”訪問HDFS文件系統(tǒng)通過Web界面的”Utilities”菜單下面的“Browsethefilesystem”查看文件3.7.3 HDFS常用JavaAPI及應(yīng)用實例利用JavaAPI與HDFS進行交互實例：文件的過濾與合并準(zhǔn)備工作：在Ubuntu系統(tǒng)中安裝開發(fā)工具Eclipse具體請參見：《大數(shù)據(jù)技術(shù)原理與應(yīng)用（第3版）第三章分布式文件系統(tǒng)HDFS學(xué)習(xí)指南》訪問地址：/blog/2460-2/3.7.3 HDFS常用JavaAPI及應(yīng)用實例現(xiàn)在要執(zhí)行的任務(wù)是：假設(shè)在目錄“hdfs://localhost:9000/user/hadoop”下面有幾個文件，分別是file1.txt、file2.txt、file3.txt、file4.abc和file5.abc，這里需要從該目錄中過濾出所有后綴名不為“.abc”的文件，對過濾之后的文件進行讀取，并將這些文件的內(nèi)容合并到文件“hdfs://localhost:9000/user/hadoop/merge.txt”中。3.7.3 HDFS常用JavaAPI及應(yīng)用實例一、在Eclipse中創(chuàng)建項目啟動Eclipse。當(dāng)Eclipse啟動以后，會彈出如下圖所示界面，提示設(shè)置工作空間（workspace）。3.7.3 HDFS常用JavaAPI及應(yīng)用實例可以直接采用默認的設(shè)置“/home/hadoop/workspace”，點擊“Launch”按鈕?？梢钥闯觯捎诋?dāng)前是采用hadoop用戶登錄了Linux系統(tǒng)，因此，默認的工作空間目錄位于hadoop用戶目錄“/home/hadoop”下。Eclipse啟動以后，會呈現(xiàn)如下圖所示的界面。3.7.3 HDFS常用JavaAPI及應(yīng)用實例選擇“File->New->JavaProject”菜單，開始創(chuàng)建一個Java工程，會彈出如下圖所示界面。3.7.3 HDFS常用JavaAPI及應(yīng)用實例在“Projectname”后面輸入工程名稱“HDFSExample”，選中“Usedefaultlocation”，讓這個Java工程的所有文件都保存到“/home/hadoop/workspace/HDFSExample”目錄下。在“JRE”這個選項卡中，可以選擇當(dāng)前的Linux系統(tǒng)中已經(jīng)安裝好的JDK，比如jdk1.8.0_162。然后，點擊界面底部的“Next>”按鈕，進入下一步的設(shè)置。3.7.3 HDFS常用JavaAPI及應(yīng)用實例二、為項目添加需要用到的JAR包進入下一步的設(shè)置以后，會彈出如下圖所示界面。3.7.3 HDFS常用JavaAPI及應(yīng)用實例需要在這個界面中加載該Java工程所需要用到的JAR包，這些JAR包中包含了可以訪問HDFS的JavaAPI。這些JAR包都位于Linux系統(tǒng)的Hadoop安裝目錄下，對于本教程而言，就是在“/usr/local/hadoop/share/hadoop”目錄下。點擊界面中的“Libraries”選項卡，然后，點擊界面右側(cè)的“AddExternalJARs…”按鈕，會彈出如下圖所示界面。3.7.3 HDFS常用JavaAPI及應(yīng)用實例在該界面中，上面的一排目錄按鈕（即“usr”、“l(fā)ocal”、“hadoop”、“share”、“hadoop”和“common”），當(dāng)點擊某個目錄按鈕時，就會在下面列出該目錄的內(nèi)容。

為了編寫一個能夠與HDFS交互的Java應(yīng)用程序，一般需要向Java工程中添加以下JAR包：l“/usr/local/hadoop/share/hadoop/common”目錄下的所有JAR包，包括hadoop-common-3.1.3.jar、hadoop-common-3.1.3-tests.jar、haoop-nfs-3.1.3.jar和haoop-kms-3.1.3.jar，注意，不包括目錄jdiff、lib、sources和webapps；l“/usr/local/hadoop/share/hadoop/common/lib”目錄下的所有JAR包；l“/usr/local/hadoop/share/hadoop/hdfs”目錄下的所有JAR包，注意，不包括目錄jdiff、lib、sources和webapps；“/usr/local/hadoop/share/hadoop/hdfs/lib”目錄下的所有JAR包。3.7.3 HDFS常用JavaAPI及應(yīng)用實例比如，如果要把“/usr/local/hadoop/share/hadoop/common”目錄下的hadoop-common-3.1.3.jar、hadoop-common-3.1.3-tests.jar、haoop-nfs-3.1.3.jar和haoop-kms-3.1.3.jar添加到當(dāng)前的Java工程中，可以在界面中點擊目錄按鈕，進入到common目錄，然后，界面會顯示出common目錄下的所有內(nèi)容（如下圖所示）。3.7.3 HDFS常用JavaAPI及應(yīng)用實例請在界面中用鼠標(biāo)點擊選中hadoop-common-3.1.3.jar、hadoop-common-3.1.3-tests.jar、haoop-nfs-3.1.3.jar和haoop-kms-3.1.3.jar（不要選中目錄jdiff、lib、sources和webapps），然后點擊界面右下角的“確定”按鈕，就可以把這兩個JAR包增加到當(dāng)前Java工程中，出現(xiàn)的界面如下圖所示。3.7.3 HDFS常用JavaAPI及應(yīng)用實例從這個界面中可以看出，hadoop-common-3.1.3.jar、hadoop-common-3.1.3-tests.jar、haoop-nfs-3.1.3.jar和haoop-kms-3.1.3.jar已經(jīng)被添加到當(dāng)前Java工程中。然后，按照類似的操作方法，可以再次點擊“AddExternalJARs…”按鈕，把剩余的其他JAR包都添加進來。需要注意的是，當(dāng)需要選中某個目錄下的所有JAR包時，可以使用“Ctrl+A”組合鍵進行全選操作。全部添加完畢以后，就可以點擊界面右下角的“Finish”按鈕，完成Java工程HDFSExample的創(chuàng)建。3.7.3 HDFS常用JavaAPI及應(yīng)用實例三、編寫Java應(yīng)用程序下面編寫一個Java應(yīng)用程序，用來檢測HDFS中是否存在一個文件。請在Eclipse工作界面左側(cè)的“PackageExplorer”面板中（如下圖所示），找到剛才創(chuàng)建好的工程名稱“HDFSExample”，然后在該工程名稱上點擊鼠標(biāo)右鍵，在彈出的菜單中選擇“New

Class”菜單。3.7.3 HDFS常用JavaAPI及應(yīng)用實例選擇“New

Class”菜單以后會出現(xiàn)如下圖所示界面。3.7.3 HDFS常用JavaAPI及應(yīng)用實例在該界面中，只需要在“Name”后面輸入新建的Java類文件的名稱，這里采用名稱“MergeFile”，其他都可以采用默認設(shè)置，然后，點擊界面右下角“Finish”按鈕，出現(xiàn)如下圖所示界面。3.7.3 HDFS常用JavaAPI及應(yīng)用實例可以看出，Eclipse自動創(chuàng)建了一個名為“MergeFile.java”的源代碼文件，請在該文件中輸入以下代碼：importjava.io.IOException;importjava.io.PrintStream;import.URI;

importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.*;

/***過濾掉文件名滿足特定條件的文件*/classMyPathFilterimplementsPathFilter{Stringreg=null;MyPathFilter(Stringreg){

this.reg=reg;}

public

booleanaccept(Pathpath){

if(!(path.toString().matches(reg)))

return

true;

return

false; }}/****利用FSDataOutputStream和FSDataInputStream合并HDFS中的文件*/public

classMergeFile{ PathinputPath=null;//待合并的文件所在的目錄的路徑 PathoutputPath=null;//輸出文件的路徑

publicMergeFile(Stringinput,Stringoutput){

this.inputPath=newPath(input);

this.outputPath=newPath(output); }

public

voiddoMerge()throwsIOException{ Configurationconf=newConfiguration(); conf.set("fs.defaultFS","hdfs://localhost:9000");conf.set("fs.hdfs.impl","org.apache.hadoop.hdfs.DistributedFileSystem"); FileSystemfsSource=FileSystem.get(URI.create(inputPath.toString()),conf); FileSystemfsDst=FileSystem.get(URI.create(outputPath.toString()),conf); //下面過濾掉輸入目錄中后綴為.abc的文件 FileStatus[]sourceStatus=fsSource.listStatus(inputPath,

newMyPathFilter(".*\\.abc")); FSDataOutputStreamfsdos=fsDst.create(outputPath); PrintStreamps=newPrintStream(System.out); //下面分別讀取過濾之后的每個文件的內(nèi)容，并輸出到同一個文件中

for(FileStatussta:sourceStatus){ //下面打印后綴不為.abc的文件的路徑、文件大小 System.out.print("路徑："+sta.getPath()+"文件大小："+sta.getLen() +"權(quán)限："+sta.getPermission()+"內(nèi)容："); FSDataInputStreamfsdis=fsSource.open(sta.getPath());

byte[]data=new

byte[1024];

intread=-1;

while((read=fsdis.read(data))>0){ ps.write(data,0,read); fsdos.write(data,0,read); } fsdis.close(); } ps.close(); fsdos.close(); }

public

static

voidmain(String[]args)throwsIOException{ MergeFilemerge=newMergeFile( "hdfs://localhost:9000/user/hadoop/", "hdfs://localhost:9000/user/hadoop/merge.txt"); merge.doMerge(); }}3.7.3 HDFS常用JavaAPI及應(yīng)用實例四、編譯運行程序在開始編譯運行程序之前，請一定確保Hadoop已經(jīng)啟動運行然后，要確保HDFS的“/user/hadoop”目錄下已經(jīng)存在file1.txt、file2.txt、file3.txt、file4.abc和file5.abc，每個文件里面有內(nèi)容。這里，假設(shè)文件內(nèi)容如下表所示。文件名稱文件內(nèi)容file1.txtthisisfile1.txtfile2.txtthisisfile2.txtfile3.txtthisisfile3.txtfile4.abcthisisfile4.abcfile5.abcthisisfile5.abc3.7.3 HDFS常用JavaAPI及應(yīng)用實例現(xiàn)在就可以編譯運行上面編寫的代碼?？梢灾苯狱c擊Eclipse工作界面上部的運行程序的快捷按鈕，當(dāng)把鼠標(biāo)移動到該按鈕上時，在彈出的菜單中選擇“RunAs”，繼續(xù)在彈出來的菜單中選擇“JavaApplication”，如下圖所示。3.7.3 HDFS常用JavaAPI及應(yīng)用實例然后，會彈出如下圖所示界面。3.7.3 HDFS常用JavaAPI及應(yīng)用實例在該界面中，點擊界面右下角的“OK”按鈕，開始運行程序。程序運行結(jié)束后，會在底部的“Console”面板中顯示運行結(jié)果信息（如下圖所示）。同時，“Console”面板中還會顯示一些類似“l(fā)og4j:WARN…”的警告信息，可以不用理會。3.7.3 HDFS常用JavaAPI及應(yīng)用實例如果程序運行成功，這時，可以到HDFS中查看生成的merge.txt文件，比如，可以在Linux終端中執(zhí)行如下命令：$cd/usr/local/hadoop$./bin/hdfsdfs-ls/user/hadoop$./bin/hdfsdfs-cat/user/hadoop/merge.txt可以看到如下結(jié)果：thisisfile1.txtthisisfile2.txtthisisfile3.txt3.7.3 HDFS常用JavaAPI及應(yīng)用實例四、應(yīng)用程序的部署下面介紹如何把Java應(yīng)用程序生成JAR包，部署到Hadoop平臺上運行。首先，在Hadoop安裝目錄下新建一個名稱為myapp的目錄，用來存放我們自己編寫的Hadoop應(yīng)用程序，可以在Linux的終端中執(zhí)行如下命令：$cd/usr/local/hadoop$mkdi

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)技術(shù)原理與應(yīng)用（第3版）-第3章-分布式文件系統(tǒng)HDFS

文檔簡介

溫馨提示

最新文檔

評論

大數(shù)據(jù)技術(shù)原理與應(yīng)用（第3版）-第3章-分布式文件系統(tǒng)HDFS

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔