版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
Hadoop技術(shù)原理HDFS分布式文件系統(tǒng)HDFS簡介01Hadoop的核心模塊01hadoop的核心模塊Common:封裝大量的API,為其他模塊做技術(shù)支持HDFS:hadoop的分布式文件系統(tǒng),功能是存儲海量數(shù)據(jù)YARN:分布式計(jì)算平臺MapReduce:分布式計(jì)算框架HDFS簡介02HDFS:HadoopDistributedFileSystem,是Hadoop項(xiàng)目的核心子項(xiàng)目,是分布式計(jì)算中數(shù)據(jù)存儲管理的基礎(chǔ)。支持海量數(shù)據(jù)的存儲,成百上千的計(jì)算機(jī)組成存儲集群,HDFS可以運(yùn)行在低成本的硬件之上,具有的高容錯(cuò)、高可靠性、高可擴(kuò)展性、高吞吐率等特征,非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用。概念HDFS簡介03分布式文件系統(tǒng)基于廉價(jià)的普通硬件,可以容忍硬件出錯(cuò)當(dāng)系統(tǒng)中的某一臺或幾臺服務(wù)器出現(xiàn)故障的時(shí)候,系統(tǒng)仍可用且數(shù)據(jù)保持完整大數(shù)據(jù)集(大文件)HDFS適合存儲大量文件,總存儲量可以達(dá)到PB,EB級HDFS適合存儲大文件,單個(gè)文件大小一般在百M(fèi)B級之上文件數(shù)目適中大型分布式計(jì)算的底層存儲特征HDFS簡介04優(yōu)點(diǎn)高容錯(cuò)性數(shù)據(jù)自動(dòng)保存多個(gè)副本副本丟失后,自動(dòng)恢復(fù)適合批處理移動(dòng)計(jì)算而非移動(dòng)數(shù)據(jù)數(shù)據(jù)位置暴露給計(jì)算框架適合大數(shù)據(jù)處理GB、TB、甚至PB級數(shù)據(jù)百萬規(guī)模以上的文件數(shù)量10K+節(jié)點(diǎn)流式文件訪問一次性寫入,多次讀取保證數(shù)據(jù)一致性可構(gòu)建在廉價(jià)機(jī)器上通過多副本提高可靠性提供了容錯(cuò)和恢復(fù)機(jī)制HDFS簡介05缺點(diǎn)不適合低延遲數(shù)據(jù)訪問比如毫秒級低延遲與高吞吐率不適合小文件存取占用NameNode大量內(nèi)存尋道時(shí)間超過讀取時(shí)間不適合并發(fā)寫入、文件隨機(jī)修改一個(gè)文件只能有一個(gè)寫入者僅支持append(追加)HDFS基本架構(gòu)02HDFS基本架構(gòu)HDFS的組成01HDFS基本架構(gòu)02NameNode的職責(zé)管理維護(hù)HDFS(管理DataNode上文件Block的均衡,維持副本數(shù)量)接收客戶端的請求:上傳、下載、刪除文件等維護(hù)了兩個(gè)非常重要的文件:edits文件(操作日志文件)-->記錄操作日志(editlog)主要是在NameNode已經(jīng)啟動(dòng)情況下對HDFS進(jìn)行的各種更新操作進(jìn)行記錄,HDFS客戶端執(zhí)行所有的寫操作都會被記錄到editlog中fsimage文件-->HDFS的元信息(1)包含HDFS中的所有目錄和文件信息(二進(jìn)制格式)(2)對于目錄來說,包含的信息主要有修改時(shí)間、訪問控制權(quán)限等信息。(3)對于文件來說,包含的信息有修改時(shí)間、訪問時(shí)間、訪問控制、塊大小和組成一個(gè)文件塊信息等;HDFS基本架構(gòu)03NameNode的職責(zé)查看Editsedits記錄了HDFS的操作日志最新的操作日志:edits_inprogress****都是二進(jìn)制HDFS提供一個(gè)工具:editsviewer日志查看器---->XMLHDFS基本架構(gòu)04NameNode的職責(zé)查看FsimageHDFS的元信息:存在fsimage文件就跟edits文件在一起記錄:數(shù)據(jù)塊的位置、冗余信息、文件屬性等也是一個(gè)二進(jìn)制HDFS提供一個(gè)imageviewer---->文本或者xmlHDFS基本架構(gòu)05DataNode的職責(zé)存儲數(shù)據(jù)塊負(fù)責(zé)客戶端對數(shù)據(jù)塊的IO請求DataNode定時(shí)和NameNode進(jìn)行心跳通信,接受NameNode的指令。DataNode的數(shù)據(jù)塊數(shù)據(jù)塊大?。篐adoop1.x默認(rèn)64MB,Hadoop2.x默認(rèn)128MB查看數(shù)據(jù)塊的大小上傳數(shù)據(jù),打印文件的Block報(bào)告:[root@single~]#hdfsfsck/user/hadoop/hadoop-2.7.3.tar.gz-files-blocksHDFS基本架構(gòu)06網(wǎng)絡(luò)拓?fù)渚W(wǎng)絡(luò)拓?fù)溆脕砻枋隹缇W(wǎng)絡(luò)傳輸數(shù)據(jù)速度快慢用距離概念來描述,距離越小,傳輸速度越快結(jié)論:
同機(jī)架上的任意2個(gè)節(jié)點(diǎn)之間的傳輸距離都是2
跨機(jī)架.上的任意2個(gè)節(jié)點(diǎn)之間的傳輸距離都是4
跨數(shù)據(jù)中心上的任意2個(gè)節(jié)點(diǎn)之間的傳輸距離都是6HDFS基本架構(gòu)07機(jī)架感知與副本冗余存儲策略HDFS基本架構(gòu)08副本備份副本放置策略(HDFS的副本數(shù)默認(rèn)是3個(gè))1.第-塊副本,如果數(shù)據(jù)在遠(yuǎn)程客戶端上,那么選擇距離最近的節(jié)點(diǎn)上傳;數(shù)據(jù)已經(jīng)在集群的某-一臺服務(wù)器節(jié)點(diǎn)上了,那么就上傳到這臺節(jié)點(diǎn)上2.第二塊副本,相對于第一塊副本所在節(jié)點(diǎn)而言,選擇跨機(jī)架上的任意-一個(gè)節(jié)點(diǎn)上傳(從安全性考慮)3.第三塊副本,相對于第二塊副本所在節(jié)點(diǎn)而言,選擇同機(jī)架上的任意-一個(gè)節(jié)點(diǎn)上傳(從效率性考慮)4.假如副本數(shù)超過了3個(gè),那第四塊副本開始就沒有任何放置策略可言了,完全隨機(jī)HDFS基本架構(gòu)09SecondaryNameNode的職責(zé)
定期地創(chuàng)建命名空間的檢查點(diǎn)(CheckPoint)操作:把edits中最新的狀態(tài)信息合并到fsimage文件中,防止edits過大。也可以做冷備,對一定范圍內(nèi)數(shù)據(jù)做快照性備份。HDFS基本架構(gòu)10CheckPoint過程HDFS基本架構(gòu)11SecondaryNameNode的工作條件只要達(dá)到以下兩個(gè)條件之一就可以觸發(fā)檢查點(diǎn)操作每隔60分鐘(node.checkpoint.period)當(dāng)edits文件達(dá)到100萬條事務(wù)(node.checkpoint.txns)HDFS基本架構(gòu)12SecondaryNameNode檢查點(diǎn)的作用SecondaryNameNode的主要作用是定期通過編輯日志文件合并命名空間鏡像,以防止編輯日志文件過大,減少NameNode的啟動(dòng)的時(shí)間SecondaryNameNode一般要在另一臺機(jī)器上運(yùn)行,因?yàn)樗枰加么罅康腃PU時(shí)間與namenode相同容量的內(nèi)存才可以進(jìn)行合并操作。它會保存合并后的命名空間鏡像的副本,并在namenode發(fā)生故障時(shí)啟用。(冷備份)HDFS基本架構(gòu)13HDFS啟動(dòng)過程HDFS訪問方式03HDFS訪問方式01通過WebConsoleNameNodeweb管理端口50070,可以查看文件系統(tǒng)概況,數(shù)據(jù)節(jié)點(diǎn)信息,快照,目錄結(jié)構(gòu)及文件屬性等。HDFS訪問方式02通過WebConsoleSecondaryNameNode端口為50090。NameNode入口地址,以及Checkpoint等信息。HDFS訪問方式03通過Shell命令
查看操作命令詳情[root@single~]#hdfsdfs查看管理命令詳情[root@single~]#hdfsdfsadminHDFS訪問方式04通過JavaAPI訪問HDFS涉及到的Java類和包Configuration類該類的對象封裝了配置信息FileSystem類文件系統(tǒng)類,可使用該類的方法樹對文件/目錄進(jìn)行操作,一般通過FileSystem的靜態(tài)方法get獲得一個(gè)文件系統(tǒng)對象FSDataInputStream和FSDataOutputStream類HDFS中的輸入輸出流。分別通過FileSystem的open方法和create方法獲得以上類均來自java包:org.apache.hadoop.fsHDFS訪問方式05通過JavaAPI訪問HDFS添
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 個(gè)人財(cái)產(chǎn)抵押借款簡易協(xié)議文本版A版
- 二零二四全新石灰石環(huán)保綜合利用合同3篇
- 2024版特種設(shè)備吊裝運(yùn)輸合同3篇
- 個(gè)人房產(chǎn)買賣規(guī)范協(xié)議2024版A版
- 2024年04月中國建設(shè)銀行北京市分行度社會招考專業(yè)人才筆試歷年參考題庫附帶答案詳解
- 2025年農(nóng)業(yè)科技推廣合同會簽紀(jì)要3篇
- 2024版輪胎承包合同協(xié)議書
- 二零二五年度物流并購保密及市場共享協(xié)議2篇
- 專業(yè)節(jié)電器產(chǎn)品銷售協(xié)議規(guī)范2024版A版
- 2024年03月貴州貴州銀行六盤水分行招考筆試歷年參考題庫附帶答案詳解
- GB/T 12914-2008紙和紙板抗張強(qiáng)度的測定
- GB/T 1185-2006光學(xué)零件表面疵病
- ps6000自動(dòng)化系統(tǒng)用戶操作及問題處理培訓(xùn)
- 家庭教養(yǎng)方式問卷(含評分標(biāo)準(zhǔn))
- 城市軌道交通安全管理課件(完整版)
- 線纜包覆擠塑模設(shè)計(jì)和原理
- TSG ZF001-2006 安全閥安全技術(shù)監(jiān)察規(guī)程
- 部編版二年級語文下冊《蜘蛛開店》
- 鍋爐升降平臺管理
- 200m3╱h凈化水處理站設(shè)計(jì)方案
- 個(gè)體化健康教育記錄表格模板1
評論
0/150
提交評論