版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、文件系統(tǒng)定義:文件系統(tǒng)是一種找變得容易。和組織計算機數(shù)據(jù)的方法,它使得對其和查文件名:在文件系統(tǒng)中,文件名是用于定位位臵。元數(shù)據(jù)(Metadata):保存文件屬性的數(shù)據(jù),如文件名,文件長度,文件所屬用戶組,文件位臵等。數(shù)據(jù)塊(Block):些區(qū)域分配使用。文件的最小單元。對介質(zhì)劃分了固定的區(qū)域,使用時按這不適用場景:1 低時間延遲數(shù)據(jù)的應用,例如幾十毫秒范圍。原因:HDFS是為高數(shù)據(jù)吞吐量應用優(yōu)化的,這樣就會造成以高時間延遲為代價。2 大量小文件 。原因:NameNode啟動時,將文件系統(tǒng)的元數(shù)據(jù)加載到內(nèi)存,因此文件系統(tǒng)所能存儲的文件總數(shù)受限于NameNode內(nèi)存容量。根據(jù)經(jīng)驗,每個文件,目錄
2、和數(shù)據(jù)塊的信息大約占150字節(jié),如果一百萬個文件,且每個文件占一個數(shù)據(jù)塊,那至少需要300MB的內(nèi)存空間,但是如果十億個文件,那么需要的內(nèi)存空間將是非常大的。3 多用戶寫入,任意修改文件。原因:現(xiàn)在HDFS文件只有一個writer,而且寫操作總是寫在文件的末尾。流式數(shù)據(jù):“一次寫入、多次”的文件模型,這種高效的文件策略是HDFS的設計。一個文件經(jīng)過創(chuàng)建、寫入和關(guān)閉之后就不需要改變。這一假設簡化了數(shù)據(jù)一致性問題,并且使高吞吐量的數(shù)據(jù)成為可能。被創(chuàng)建和寫入的文件,將長時間在HDFS中,用來做數(shù)據(jù)分析計算。通常以流式整個文件或者文件的一部分。IX 表示可移植操作系統(tǒng)接口(Portable Opera
3、ting Systemerface of Unix,縮寫為IX ),IX標準定義了操作系統(tǒng)應該為應用程序提供的接口標準,是IEEE為要在各種UNIX操作系統(tǒng)上運行的而定義的一系列API標準的總稱。IX標準意在期望獲得源代碼級別的可移植性。換句話說,為一個IX兼容的操作系統(tǒng)編寫的程序,應該可以在任何其它的廠商)上編譯執(zhí)行。IX操作系統(tǒng)(即使是來自另一個流式數(shù)據(jù):“一次寫入、多次”的文件模型,這種高效的文件策略是HDFS的設計。一個文件經(jīng)過創(chuàng)建、寫入和關(guān)閉之后就不需要改變。這一假設簡化了數(shù)據(jù)一致性問題,并且使高吞吐量的數(shù)據(jù)成為可能。被創(chuàng)建和寫入的文件,將長時間在HDFS中,用來做數(shù)據(jù)分析計算。通常
4、以流式整個文件或者文件的一部分。IX 表示可移植操作系統(tǒng)接口(Portable Operating Systemerface of Unix,縮寫為IX ),IX標準定義了操作系統(tǒng)應該為應用程序提供的接口標準,是IEEE為要在各種UNIX操作系統(tǒng)上運行的而定義的一系列API標準的總稱。IX標準意在期望獲得源代碼級別的可移植性。換句話說,為一個IX兼容的操作系統(tǒng)編寫的程序,應該可以在任何其它的廠商)上編譯執(zhí)行。IX操作系統(tǒng)(即使是來自另一個控制 ameNode主備仲裁ZKFC作為一個精簡的仲裁再通過命令通道,控制1.,其利用zookeeper的分布式鎖功能,實現(xiàn)主備仲裁,的主備狀態(tài)。與 N部署在
5、一起,兩者個數(shù)相同。2. 采用共享同步日志主用NameNode對外提供服務,同時對元數(shù)據(jù)的修改采用寫日志的方式寫入共享同時修改內(nèi)存中的元數(shù)據(jù)。,備用NameNode周期同時回傳給主NameNode。共享中的日志,并生成新的元數(shù)據(jù)文件,持久化到硬盤,Rack1:表示機架1;D1:表示DataNode節(jié)點1; B1:表示節(jié)點上的block塊1。EditLog:用戶的操作日志,用以在FSImage的基礎上生成新的文件系統(tǒng)鏡像。FSImage:用以階段性保存文件鏡像。FSImage.ckpt:在內(nèi)存中對fsimage文件和EditLog文件合并(merge)后產(chǎn)生新的fsimage,寫到磁盤上,這個過
6、程叫checkpo.。備用NameNode加載完fsimage和EditLog文件后,會將merge后的結(jié)果同時寫到本地磁盤和NFS。此時磁盤上有一份原始的fsimage文件和一份新生成的checkpo 文件:fsimage.ckpt. 而后將fsimage.ckpt改名為fsimage(覆蓋原有的fsimage)。EditLog.new: NameNode 每隔1 小時或Editlog 滿64MB 就觸發(fā)合并,合并時,將數(shù)據(jù)傳到 Standby NameNode時,因數(shù)據(jù)讀寫不能同步進行,此時NameNode產(chǎn)生一個新的日志文件 Editlog.new用來存放這段時間的操作日志。Standb
7、y NameNode合并成fsimage后回傳給主 NameNode替換掉原有fsimage,并將Editlog.new 命名為Editlog。重建失效數(shù)據(jù)盤的副本數(shù)據(jù):DataNode與NameNode之間通過心跳周期匯報數(shù)據(jù)狀態(tài),NameNode管理數(shù)據(jù)塊是否上報完整,如果DataNode因硬盤損壞未上報數(shù)據(jù)塊,NameNode將發(fā)起副本重建動作以恢復丟失的副本。數(shù)據(jù)有效性保證:在硬盤上的數(shù)據(jù)塊, 都有一個校驗文件與之對應, 在數(shù)據(jù)時,數(shù)據(jù),并DataNodeDataNode會校驗其有效性,若校驗失敗,則HDFS客戶端將從其他數(shù)據(jù)節(jié)點通知NameNode,發(fā)起副本恢復。安全模式防止故障擴散
8、:當節(jié)點硬盤故障時,進入安全模式,HDFS只支持元數(shù)據(jù),此時HDFS上的數(shù)據(jù)是只讀的,其他的操作如創(chuàng)建、刪除文件等操作都會導致失敗。待硬盤問題解決、數(shù)據(jù)恢復后,再退出安全模式。DistributedFileSystem對象:HDFS客戶端通過調(diào)用DistributedFileSystem的Create()方法來請求創(chuàng)建文件;FSDataOutputStream對象:DistributedFileSystem通過對NameNode發(fā)出RPC請求,在NameNode的Namespace里面創(chuàng)建一個新的文件信息。DistributedFileSystem返回一個FSDataOutputStream
9、給客戶端, 讓它從FSDataOutputStream 中寫入數(shù)據(jù), FSDataOutputStream 接 著 包 裝 一 個 DFSOutputStream , 用 來 與 DataNode 及 NameNode的I/O 通信。DistributedFileSystem對象:HDFS客戶端通過調(diào)用DistributedFileSystem的Create()方法來請求創(chuàng)建文件;FSDataOutputStream對象:DistributedFileSystem通過對NameNode發(fā)出RPC請求,在NameNode的Namespace里面創(chuàng)建一個新的文件信息。DistributedFile
10、System返回一個FSDataOutputStream 給客戶端, 讓它從FSDataOutputStream 中寫入數(shù)據(jù), FSDataOutputStream 接 著 包 裝 一 個 DFSOutputStream , 用 來 與 DataNode 及 NameNode的I/O 通信。Flush:在返回寫完成功后,更新當前狀態(tài)。DistributedFileSystem 對象: HDFS 客戶端通過調(diào)用DistributedFileSystem 對象的open()方法打開需要的文件。FSDataInputStream對象:DistributedFileSystem通過對NameNode發(fā)
11、出RPC請求,確定要文件的block的位臵。DistributedFileSystem返回一個FSDataInputStream給HDFS客戶端,讓它從FSDataInputStream中數(shù)據(jù)。FSDataInputStream接著包裝一個DFSInputStream,用來與DataNode及NameNode的I/O 通信。應用場景Federation支持上層應用使用多個獨立的基于NameNode/Namespace的文件系統(tǒng)。這些 NameNode之間相互獨立且不需要互相協(xié)調(diào),各自分工管理自己的區(qū)域。解決方案一個Namespace使用一個block pool管理數(shù)據(jù)塊,每個block poo
12、l會與其他block pool交流 。自治,不命名空間管理:Federation中存在多個命名空間,可以使用Cnt Side MountTable對命名空間劃分和管理。用戶價值擴展性:支持NameNode/Namespace水平擴展,后向兼容,結(jié)構(gòu)簡單。性能: 文件操作的性能不再制約于單個NameNode 的吞吐量, 支持多個NameNode。性:可按照應用程序的用戶和種類分離Namespace volume,進而增強了隔離性。NameSpace(NS):命名空間。 HDFS名空間包含目錄、文件和塊。Pool:block pool. Federation HDFS中有多個獨立名空間(Names
13、pace),并且每一個命名空間使用一個塊池(block pool)。Block pool(塊池)是屬于單個命名空間的一組block(塊),每一個DataNode為所有的block pool 塊。DataNode是一個物理概念,而block pool是一個重新將block劃分的邏輯概念。同一個DataNode中可以存著屬于多個block pool的多個塊。Block pool允許一個命名空間在不通知其名空間的情況下為一個新的block 創(chuàng)建Block ID。同時, 一個NameNode 失效不會影響其下的DataNode為其他NameNode的服務。以策略“15-LAZY_PERSIST”為例,
14、如果Block副本數(shù)為3,配臵了該策略的文件第1個Block副本將寫入RAM_DISK,其余副本寫入DISK。作為后備方案,如果第一個Block副本寫入RAM_DISK類型介質(zhì)失敗,則嘗試寫入“備選策略”指定的類型;如果是第一個副本之外的其它副本寫入失敗,則嘗試寫入“副本的備選策略”指定的類型。1.對目錄配臵表達式:/HBase= T1/Hive = T1 | T3/Spark = T2/Flume = T32.對DataNode配臵信息:DataNode A = T1, T3 DataNode B = T1 DataNode C = T2DataNode D = T1, T2DataNode E = T3DataNode F = T2, T33.策略實現(xiàn)結(jié)果:/HBase下的數(shù)據(jù)/Hive下的數(shù)據(jù)/Spark下的數(shù)據(jù)/Flume下的數(shù)據(jù)在
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版美容美發(fā)行業(yè)員工社會保險合同4篇
- 2025年度個人品牌重型機械抵押借款合同范本4篇
- 2025版企業(yè)新媒體營銷策略執(zhí)行合同3篇
- 2025年度美容院美容院店務管理與顧客服務合同4篇
- 2025年香港勞務派遣與人力資源共享服務合同3篇
- 基于物聯(lián)網(wǎng)的智能農(nóng)業(yè)管理系統(tǒng)2025年度委托開發(fā)合同
- 2025版停車場設施設備更新與改造合同范本2篇
- 2025年度餐飲業(yè)消防安全責任合同書3篇
- 退房時2025年度房屋損害賠償協(xié)議3篇
- 2024版快遞物流服務合同書
- 化學-河南省TOP二十名校2025屆高三調(diào)研考試(三)試題和答案
- 智慧農(nóng)貿(mào)批發(fā)市場平臺規(guī)劃建設方案
- 林下野雞養(yǎng)殖建設項目可行性研究報告
- 2023年水利部黃河水利委員會招聘考試真題
- Python編程基礎(項目式微課版)教案22
- 建筑施工中常見的安全問題及解決方法
- 近五年重慶中考物理試題及答案2023
- 乳腺導管原位癌
- 冷庫管道應急預案
- 《學習教育重要論述》考試復習題庫(共250余題)
- 網(wǎng)易云音樂用戶情感畫像研究
評論
0/150
提交評論