《Hadoop技術(shù)原理》課件-3.HDFS分布式文件系統(tǒng)_第1頁
《Hadoop技術(shù)原理》課件-3.HDFS分布式文件系統(tǒng)_第2頁
《Hadoop技術(shù)原理》課件-3.HDFS分布式文件系統(tǒng)_第3頁
《Hadoop技術(shù)原理》課件-3.HDFS分布式文件系統(tǒng)_第4頁
《Hadoop技術(shù)原理》課件-3.HDFS分布式文件系統(tǒng)_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

Hadoop技術(shù)原理HDFS分布式文件系統(tǒng)HDFS簡介01Hadoop的核心模塊01hadoop的核心模塊Common:封裝大量的API,為其他模塊做技術(shù)支持HDFS:hadoop的分布式文件系統(tǒng),功能是存儲海量數(shù)據(jù)YARN:分布式計(jì)算平臺MapReduce:分布式計(jì)算框架HDFS簡介02HDFS:HadoopDistributedFileSystem,是Hadoop項(xiàng)目的核心子項(xiàng)目,是分布式計(jì)算中數(shù)據(jù)存儲管理的基礎(chǔ)。支持海量數(shù)據(jù)的存儲,成百上千的計(jì)算機(jī)組成存儲集群,HDFS可以運(yùn)行在低成本的硬件之上,具有的高容錯(cuò)、高可靠性、高可擴(kuò)展性、高吞吐率等特征,非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。概念HDFS簡介03分布式文件系統(tǒng)基于廉價(jià)的普通硬件,可以容忍硬件出錯(cuò)當(dāng)系統(tǒng)中的某一臺或幾臺服務(wù)器出現(xiàn)故障的時(shí)候,系統(tǒng)仍可用且數(shù)據(jù)保持完整大數(shù)據(jù)集(大文件)HDFS適合存儲大量文件,總存儲量可以達(dá)到PB,EB級HDFS適合存儲大文件,單個(gè)文件大小一般在百M(fèi)B級之上文件數(shù)目適中大型分布式計(jì)算的底層存儲特征HDFS簡介04優(yōu)點(diǎn)高容錯(cuò)性數(shù)據(jù)自動(dòng)保存多個(gè)副本副本丟失后,自動(dòng)恢復(fù)適合批處理移動(dòng)計(jì)算而非移動(dòng)數(shù)據(jù)數(shù)據(jù)位置暴露給計(jì)算框架適合大數(shù)據(jù)處理GB、TB、甚至PB級數(shù)據(jù)百萬規(guī)模以上的文件數(shù)量10K+節(jié)點(diǎn)流式文件訪問一次性寫入,多次讀取保證數(shù)據(jù)一致性可構(gòu)建在廉價(jià)機(jī)器上通過多副本提高可靠性提供了容錯(cuò)和恢復(fù)機(jī)制HDFS簡介05缺點(diǎn)不適合低延遲數(shù)據(jù)訪問比如毫秒級低延遲與高吞吐率不適合小文件存取占用NameNode大量內(nèi)存尋道時(shí)間超過讀取時(shí)間不適合并發(fā)寫入、文件隨機(jī)修改一個(gè)文件只能有一個(gè)寫入者僅支持append(追加)HDFS基本架構(gòu)02HDFS基本架構(gòu)HDFS的組成01HDFS基本架構(gòu)02NameNode的職責(zé)管理維護(hù)HDFS(管理DataNode上文件Block的均衡,維持副本數(shù)量)接收客戶端的請求:上傳、下載、刪除文件等維護(hù)了兩個(gè)非常重要的文件:edits文件(操作日志文件)-->記錄操作日志(editlog)主要是在NameNode已經(jīng)啟動(dòng)情況下對HDFS進(jìn)行的各種更新操作進(jìn)行記錄,HDFS客戶端執(zhí)行所有的寫操作都會被記錄到editlog中fsimage文件-->HDFS的元信息(1)包含HDFS中的所有目錄和文件信息(二進(jìn)制格式)(2)對于目錄來說,包含的信息主要有修改時(shí)間、訪問控制權(quán)限等信息。(3)對于文件來說,包含的信息有修改時(shí)間、訪問時(shí)間、訪問控制、塊大小和組成一個(gè)文件塊信息等;HDFS基本架構(gòu)03NameNode的職責(zé)查看Editsedits記錄了HDFS的操作日志最新的操作日志:edits_inprogress****都是二進(jìn)制HDFS提供一個(gè)工具:editsviewer日志查看器---->XMLHDFS基本架構(gòu)04NameNode的職責(zé)查看FsimageHDFS的元信息:存在fsimage文件就跟edits文件在一起記錄:數(shù)據(jù)塊的位置、冗余信息、文件屬性等也是一個(gè)二進(jìn)制HDFS提供一個(gè)imageviewer---->文本或者xmlHDFS基本架構(gòu)05DataNode的職責(zé)存儲數(shù)據(jù)塊負(fù)責(zé)客戶端對數(shù)據(jù)塊的IO請求DataNode定時(shí)和NameNode進(jìn)行心跳通信,接受NameNode的指令。DataNode的數(shù)據(jù)塊數(shù)據(jù)塊大?。篐adoop1.x默認(rèn)64MB,Hadoop2.x默認(rèn)128MB查看數(shù)據(jù)塊的大小上傳數(shù)據(jù),打印文件的Block報(bào)告:[root@single~]#hdfsfsck/user/hadoop/hadoop-2.7.3.tar.gz-files-blocksHDFS基本架構(gòu)06網(wǎng)絡(luò)拓?fù)渚W(wǎng)絡(luò)拓?fù)溆脕砻枋隹缇W(wǎng)絡(luò)傳輸數(shù)據(jù)速度快慢用距離概念來描述,距離越小,傳輸速度越快結(jié)論:

同機(jī)架上的任意2個(gè)節(jié)點(diǎn)之間的傳輸距離都是2

跨機(jī)架.上的任意2個(gè)節(jié)點(diǎn)之間的傳輸距離都是4

跨數(shù)據(jù)中心上的任意2個(gè)節(jié)點(diǎn)之間的傳輸距離都是6HDFS基本架構(gòu)07機(jī)架感知與副本冗余存儲策略HDFS基本架構(gòu)08副本備份副本放置策略(HDFS的副本數(shù)默認(rèn)是3個(gè))1.第-塊副本,如果數(shù)據(jù)在遠(yuǎn)程客戶端上,那么選擇距離最近的節(jié)點(diǎn)上傳;數(shù)據(jù)已經(jīng)在集群的某-一臺服務(wù)器節(jié)點(diǎn)上了,那么就上傳到這臺節(jié)點(diǎn)上2.第二塊副本,相對于第一塊副本所在節(jié)點(diǎn)而言,選擇跨機(jī)架上的任意-一個(gè)節(jié)點(diǎn)上傳(從安全性考慮)3.第三塊副本,相對于第二塊副本所在節(jié)點(diǎn)而言,選擇同機(jī)架上的任意-一個(gè)節(jié)點(diǎn)上傳(從效率性考慮)4.假如副本數(shù)超過了3個(gè),那第四塊副本開始就沒有任何放置策略可言了,完全隨機(jī)HDFS基本架構(gòu)09SecondaryNameNode的職責(zé)

定期地創(chuàng)建命名空間的檢查點(diǎn)(CheckPoint)操作:把edits中最新的狀態(tài)信息合并到fsimage文件中,防止edits過大。也可以做冷備,對一定范圍內(nèi)數(shù)據(jù)做快照性備份。HDFS基本架構(gòu)10CheckPoint過程HDFS基本架構(gòu)11SecondaryNameNode的工作條件只要達(dá)到以下兩個(gè)條件之一就可以觸發(fā)檢查點(diǎn)操作每隔60分鐘(node.checkpoint.period)當(dāng)edits文件達(dá)到100萬條事務(wù)(node.checkpoint.txns)HDFS基本架構(gòu)12SecondaryNameNode檢查點(diǎn)的作用SecondaryNameNode的主要作用是定期通過編輯日志文件合并命名空間鏡像,以防止編輯日志文件過大,減少NameNode的啟動(dòng)的時(shí)間SecondaryNameNode一般要在另一臺機(jī)器上運(yùn)行,因?yàn)樗枰加么罅康腃PU時(shí)間與namenode相同容量的內(nèi)存才可以進(jìn)行合并操作。它會保存合并后的命名空間鏡像的副本,并在namenode發(fā)生故障時(shí)啟用。(冷備份)HDFS基本架構(gòu)13HDFS啟動(dòng)過程HDFS訪問方式03HDFS訪問方式01通過WebConsoleNameNodeweb管理端口50070,可以查看文件系統(tǒng)概況,數(shù)據(jù)節(jié)點(diǎn)信息,快照,目錄結(jié)構(gòu)及文件屬性等。HDFS訪問方式02通過WebConsoleSecondaryNameNode端口為50090。NameNode入口地址,以及Checkpoint等信息。HDFS訪問方式03通過Shell命令

查看操作命令詳情[root@single~]#hdfsdfs查看管理命令詳情[root@single~]#hdfsdfsadminHDFS訪問方式04通過JavaAPI訪問HDFS涉及到的Java類和包Configuration類該類的對象封裝了配置信息FileSystem類文件系統(tǒng)類,可使用該類的方法樹對文件/目錄進(jìn)行操作,一般通過FileSystem的靜態(tài)方法get獲得一個(gè)文件系統(tǒng)對象FSDataInputStream和FSDataOutputStream類HDFS中的輸入輸出流。分別通過FileSystem的open方法和create方法獲得以上類均來自java包:org.apache.hadoop.fsHDFS訪問方式05通過JavaAPI訪問HDFS添

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論