內(nèi)容講義講稿_第1頁
內(nèi)容講義講稿_第2頁
內(nèi)容講義講稿_第3頁
內(nèi)容講義講稿_第4頁
內(nèi)容講義講稿_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

分布式文件系統(tǒng)HDF|2018年9

121233441什么是概Hadoop分布式文件系統(tǒng)(HadoopDistributedFile2003年10 了 FileHDFS是GFS的開源實HDFS是ApacheHadoop 子項在開源大數(shù)據(jù)技術體設計目運行在大量廉 機器上:硬件錯誤是常態(tài),提供容錯機簡單一致性模型:一次寫入多 ,支持追加,不允許修改,保證數(shù)據(jù)一致流式數(shù) :批量讀而非隨機讀,關注吞吐量而非時大規(guī)模數(shù)據(jù)集:典型文件大小GB~TB

HDFS簡 優(yōu)高容錯、高可用、高擴海量數(shù)

HDFS簡缺不適合低延遲數(shù)不適合大量小文-元數(shù)據(jù)占用NameNode大量內(nèi)存-磁盤尋道時間超 時不支持并發(fā)寫-典型文件大小GB~TB,百萬以上文件數(shù)量,PB以上數(shù)據(jù)規(guī)構建成本低、安全可-構建在廉價 服務器-適合大規(guī)模離線批處-

-不支持文件隨機修- 2系統(tǒng)架構圖

Namespace/MetadataNamespace/Metadata

HDFS原Heartbeats,Heartbeats,Balancing,ReplicationHDFSNodesWritetoLocalNodesWritetoLocal系統(tǒng)架構圖

HDFS原 Active活動Master管理節(jié)點(集群中唯一管理命名空管理元數(shù)據(jù):文件的位置、所有者、權限、數(shù)據(jù)塊管理Block副本策略:默認3個副處理客戶端讀寫請求,為DataNode分配任Standby熱備Master管理節(jié)點(ActiveNameNode的熱備節(jié)點-Hadoop3.0允許配置多個StandbyActiveNameNode宕機后,快速升級為新的周期性同步edits編輯日志,定期合并fsimage與edits到本地磁

HDFS原

HDFS原NameNode元數(shù)據(jù)文edits(編輯日志文件):保存了 檢查點(Checkpoint)之后的所有文件更新操fsimage(元數(shù)據(jù)檢查點鏡像文件):保存了文件系統(tǒng)中所有 和文件信息,如:某個錄下有哪些 和文件,以及文件名、文件副本數(shù)、文件由哪些Block組成ActiveNameNode內(nèi)存中有一 的元數(shù)據(jù)(=fsimage+StandbyNameNode在檢查點定期將內(nèi)存中的元數(shù)據(jù)保存到fsimage文件Slave工作節(jié)點(可大規(guī)模擴展Block和數(shù)據(jù)校驗執(zhí)行客戶端發(fā)送的讀寫操通過心跳機制定期(默認3秒)向NameNode匯報運行狀態(tài)和Block列表信集群啟動時,DataNode向NameNode提供Block列表信 Block數(shù)據(jù)HDFS最 單文件寫入HDFS會被切分成若干個Block大小固定,默認為128MB,可自定若一個Block的大小小于設定值,不會占用整個塊空默認情況下每個Block有3個副將文件切分為與NameNode交互,獲取文件元數(shù)與DataNode交互 或?qū)懭霐?shù)管理

HDFS原 Block是HDFS的最 單如何設置Block大-塊太大:Map任務數(shù)太少,作業(yè)執(zhí)行Block和元數(shù)據(jù)分 于DataNode,元數(shù) 于Block多副-以DataNode節(jié)點為備份對

HDFS原 Block副本放置策副本1:放在Client所在節(jié)-對 副本2:放在不同的機架節(jié)點副本N:隨機選節(jié)點選

HDFS原

HDFS原Block文Block文件是DataNode本地磁盤中名為“blk_blockId”的Linux文 -DataNode的 │├──│├── ││└──││├──││├──││ ├──││ ├── ││ ├──││ └──- ││└──│└──

├├── ├── ├── ├── ├── ├── ├── └──└──元數(shù)據(jù)的兩 形內(nèi)存元數(shù)據(jù)文件元數(shù)據(jù)(editsedits(編輯日志文件Client請求變更操作時,操作首先被寫入再寫入內(nèi)TransactionIdfsimage(元數(shù)據(jù)鏡像檢查點文件fsimage文件名會標記對應的Transaction

HDFS原 edits與fsimage的合并機

HDFS原上傳

HDFS原

HDFS原

HDFS原什么是安全模安全模式是HDFHDFS安全模式是HDFS確保Block數(shù)據(jù)安全的一種保護機ActiveNameNode啟動時,HDFS會進入安全模式,DataNode NameNode匯報可用列表等信息,在系統(tǒng)達到安全標準前,HDFS一直處于“只讀”狀何時正常離開安全模Block上報率:DataNode上報的可用Block個數(shù)/NameNode元數(shù)據(jù)記錄的Block個當Block上報率>=閾值時,HDFS才能離開安全模式,默認閾值為不建議手動強制退出安全模 觸發(fā)安全模式的原NameNode重NameNode磁盤空間不Block上報率低于閾DataNode無法正常啟日志中出現(xiàn)嚴重異用戶操作不當,如:強制關機(特別注意故障排找到DataNode不能正常啟動的原因,重啟清理NameNode磁謹慎操

HDFS原

HDFS原ActiveNN與StandbyNN的主備切利用QJM實現(xiàn)元數(shù)據(jù)高可QJM機制(QuorumJournal-只要保證Quorum(法定人數(shù))數(shù)量的QJM共 系-部署奇數(shù)(2N+1)個 -寫edits的時候,只要超過半數(shù)(N+1)JournalNode返回成功,就代表本次寫入成-最多 N個JournalNode宕-基于Paxos算法實利用ZooKeeper實現(xiàn)Active節(jié)

上傳

HDFS原ZooKeeper

JournalNode

MonitorOf

SharedNNstatesinglewriter

MonitorOfBlockReportstoActive&StandbyDNfencing:Updatecmdsfromone 3 REST3.1語hadoopfs<args>(使用面最廣,可以操作任何文件系統(tǒng)< 類似,可通過help查看幫HDFS格式示例:HDFS上的一個文件-URI簡寫

HDFS文件管 S

HDFS文件管hadoopfs-hadoopfs-Returnusagehadoopfs-usageReturnthehelpforanindividualhadoopfs-ls[-d][-h][-R]-d:Directoriesarelistedasplain-h:Formatfilesizesinahuman-readablefashion(eg64.0minstead -R:Recursivelylistsubdirectorieshadoopfs-get[-ignorecrc][-crc]Copyfilestothelocalfilesystem.FilesthatfailtheCRCcheckmaybecopiedthe-ignorecrcoption.FilesandCRCsmaybecopiedusingthe-crchadoopfs-get/user/hadoop/filehadoopfs-get /user/hadoop/filehadoopfs-put<localsrc>...Copysinglesrc,ormultiplesrcsfromlocalfilesystemtothedestinationfileAlsoreadsinputfromstdinandwritestodestinationfileS

HDFS文件管hadoopfs-cp[-f]hadoopfs-cp[-f][-p|-p[topax]]URI[URI...]<dest>Copyfilesfromsourcetodestination.Thiscommandallowsmultiplesourcesasinwhichcasethedestinationmustbeadirectory.-f:Overwritethedestinationifitalready-p:Preservefileattributes[topx](timestamps,ownership,permission,ACL,hadoopfs-mvURI[URI...]Movesfilesfromsourcetodestination.Thiscommandallowsmultiplesourcesaswellinwhichcasethedestinationneedstobeadirectory.Movingfilesacrossfilesystemsisnotpermitted.hadoopfs-rm[-f][-r|-R][-skipTrash]URI[URI...]Deletefilesspecifiedasargs.-f:theoptionwillnotdisplayadiagnosticmessageormodifytheexitstatustoreflectanerrorifthefiledoesnotexist.-R:theoptiondeletesthedirectoryandanycontentunderit-r:theoptionisequivalentto--skipTrash:theoptionwillbypasstrash,ifenabled,anddeletethespecifiedfile(s)immediay.Thiscanbeusefulwhenitisnecessarytodeletefilesfromanover-quotadirectory.REST

HDFS文件管HDFS的所有接口都支持RESTHDFSURI與HTTP寫入文Step1:提交一個HTTPPUT請求,這個階段不會傳輸數(shù)|false>][&blocksize=<LONG>][&replication=<SHORT>]Step2:提交另一個HTTPPUT請求,并提供本地的文件路-curl-i-XPUT-T<LOCAL_FILE> REST

HDFS文件管獲取文提交HTTPGET請[&length=<LONG>]刪除文提交HTTPDELETE請 4

HDFS系統(tǒng)管配置文core-site.xml:Hadoop全局配hdfs-site.xml:HDFS局部配示例:NameNodeURI配置(core-環(huán)境變量文Hadoop-env.sh:設置了HDFS運行所需的環(huán)境

HDFS系統(tǒng)管hdfs- DetermineswhereonthelocalfilesystemtheDFSnamenodeshouldstorethenametable(fsimage).Ifthisisacomma-delimitedlistofdirectoriesthenthenametableisreplicatedinallofthedirectories,forredundancy.DetermineswhereonthelocalfilesystemanDFSdatanodeshouldstoreitsblocks.Ifthisisacomma-

listofdirectories,thendatawillbestoredinallnameddirectories,typicallyondifferentdevices.Directoriesthatdonotexistareignored.Thedefaultblocksizefornewfiles,inbytes.Youcanusethefollowingsuffix(caseinsensitive):k(kilo),m(mega),g(giga),t(tera),p(peta),e(exa)tospecifythesize(suchas128k,512m,1g,etc.),Orprovidecompletesizeinbytes(suchas for128MB).spaceinbytespervolume.AlwaysleavethismuchspacefreefornonhdfsDefaultblockreplication.Theactualnumberofreplicationscanbespecifiedwhenthefileiscreated.defaultisusedifreplicationisnotspecifiedincreateNumberofminutesafterwhichthecheckpointgetsdeleted.Ifzero,thetrashfeatureisdisabled.Thisoptionmaybeconfiguredbothontheserverandtheclient.Iftrashisdisabledserversidethentheclientsideconfigurationischecked.Iftrashisenabledontheserversidethenthevalueconfiguredontheserverisusedandtheclientconfigurationvalueisignored. /etc/init.d/hadoop-hdfs-namenode/etc/init.d/hadoop-hdfs-namenode-/etc/init.d/hadoop-hdfs-datanode-/etc/init.d/hadoop-hdfs-journalnode-

HDFS系統(tǒng)管 SNameNode(格式化或恢復

HDFS系統(tǒng)管#hdfsnamenode[-format[-clustered#hdfsnamenode[-format[-clusteredcid][-force][-nonInteractive]]|[-recover[-force]Command-format[-clusteridcid][-[-FormatsthespecifiedNameNode.ItstartstheNameNode,formatsitandthenshutitdown.-forceoptionformatsifthenamedirectoryexists.-nonInteractiveoptionabortsifthenamedirectoryexists,unless-forceoptionisspecified.-recover[-RecoverlostmetadataonacorruptSReport(報告文件系統(tǒng)信息

HDFS系統(tǒng)管##hdfsdfsadmin[generic_options][-report[-live][-dead] Command-report[-live][-dead] Reportsbasicfilesysteminformationandstatistics.OptionalflagsmaybeusedtofilterthelistofdisplayedDataNodes. SFsck(檢查文件系統(tǒng)健康狀況

HDFS系統(tǒng)管#hdfsfsck<path>[-move#hdfsfsck<path>[-move|-delete]|[-files[-blocks[-locations|-racks]]CommandStartcheckingfromthis-Deletecorrupted-Printoutfilesbeing-files-Printouttheblock-files-blocks-Printoutlocationsforevery-files-blocks-Printoutnetworktopologyfordata-nodeMovecorruptedfilesto4.2Fsck(檢查文件系統(tǒng)健康狀況

HDFS系統(tǒng)管 4.2

HDFS系統(tǒng)管Safemode(安全模式 自動進入安全模式(也支持手動進入),該模式下只支持讀操檢測Block上報率超過閾值,才會離開安全模在TDH慎用hdfsdfsadminleave,想了解變量設置,請聯(lián) ##hdfsdfsadmin[generic_options][-safemodeenter|leave|get|Note:Safemodemaintenancecommand.SafemodeisaNamenodestateinwhichdoesnotacceptchangestothenamespace(read-doesnotreplicateordeleteSafemodeisenteredautomaticallyatNamenodestartup,andleavessafemodeautomaticallywhentheconfiguredminimumpercentageofblockssatisfiestheminimumreplicationcondition.Safemodecanalsobeenteredmanually,butthenitcanonlybeturnedoffmanuallyaswell. 4.2NameNodeHA(主備切換

HDFS系統(tǒng)管#hdfshaadmin-failover[--forcefence]#hdfshaadmin-failover[--forcefence][--forceactive]<serviceId>#hdfshaadmin-getServiceStateCommandinitiateafailoverbetweentwo-determinewhetherthegivenNameNodeisActiveortransitionthestateofthegivenNameNodeto-transitionthestateofthegivenNameNodeto4.2mission mission(DataNode退役和服役

HDFS系統(tǒng)管##hdfsdfsadmin[generic_options]-Notes:Re-readthehostsandexcludefilestoupdatethesetofDatanodesthatareallowedtoconnecttoNamenodeandthosethatshould missioned CommandNamesafilethatcontainsalistofhoststhatarepermittedtoconnecttonamenode.Thefullpathnameofthefilemustbespecified.IfthevalueisallhostsareNamesafilethatcontainsalistofhoststhatarenotpermittedtoconnecttonamenode.Thefullpathnameofthefilemustbespecified.Ifthevalueisempty,nohostsareexcluded.將計劃退役的DataNode列表加入dfs.hosts.exclude文hadoopdfsadmin- 的狀態(tài) 變 將這組DataNode從dfs.hosts文件中刪hadoopdfsadmin-

4.2mission mission(DataNode退役和服役退役和服役

HDFS系統(tǒng)管刪除DataNode(先退役再刪除 4.2Balancer(數(shù)據(jù)重分布

HDFS系統(tǒng)管#hdfsbalancer[-threshold#hdfsbalancer[-threshold[-exclude[-f<hosts-file>|<comma-separatedlistofhosts>][-include[-f<hosts-file>|<comma-separatedlistofhosts>]Command-thresholdPercentageofdiskcapacity.Thisoverwritesthedefault-exclude-f<hosts-file><comma-separatedlistofExcludesthespecifieddatanodesfrombeingbalancedbythe-include-f<hosts-file><comma-separatedlistofIncludesonlythespecifieddatanodestobebalancedbythe4.2Balancer(數(shù)據(jù)重分布集群平衡的標準:每個DataNode 使用率和集群 使用率的差值均小于閥默認閾值為10,設置值為

HDFS系統(tǒng)管 4.2默認帶寬為1M/s,主要為了Balance的同時不影響HDFS操建議Balance的時候,帶寬設為10M/s,并且停止操作

HDFS系統(tǒng)管##hdfsdfsadmin[generic_options][-setBalancerBandwidth<bandwidthinbytesperCommand-<bandwidthinbytesperChangesthenetworkbandwidthusedbyeachdatanodeduringHDFSblockbalancing.<bandwidth>istheumnumberofbytespersecondthatwillbeusedbyeachdatanode.Thisvalueoverridesthedfs.balance.bandwidthPerSecparameter.NOTE:ThenewvalueisnotpersistentontheDataNode. 4.2Distcp(分布式拷貝大規(guī)模集群內(nèi)部和集使用MapReduce實現(xiàn)文件分發(fā)、錯誤處理恢復,以及報告生

HDFS系統(tǒng)管#hadoopdistcpoptions[source_path...]#hadoopdistcpoptions[source_path...]Notes:distcp(distributedcopy)isatoolusedforlargeinter/intra-clustercopying.ItusesMapReducetoeffectitsdistribution,errorhandlingandrecovery,andreporting.Command-mumnumberofsimultaneousOverwrite-Specifybandwidthpermap,in4.2

HDFS系統(tǒng)管 限制HDFS允許管理員對用戶 設置Quota,主要從兩個維度:文件數(shù)量和文件大限制指 及 中的文件總限制指 中的所有文件的容量大小,需要考慮副本#hdfsdfsadmin-setSpaceQuota<N>Notes:SetthespacequotatobeNbytesforeach#hdfsdfsadmin-clrSpaceQuotaNotes:Removeanyspacequotaforeach#hadoopfs-count-q[-h][-v]Notes:Withthe-qoption,alsoreportthenamequotavaluesetforea

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論