hadoop常見(jiàn)筆試題答案_第1頁(yè)
hadoop常見(jiàn)筆試題答案_第2頁(yè)
hadoop常見(jiàn)筆試題答案_第3頁(yè)
hadoop常見(jiàn)筆試題答案_第4頁(yè)
hadoop常見(jiàn)筆試題答案_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上Hadoop測(cè)試題一填空題,1分(41空),2分(42空)共125分1. (每空1分) datanode 負(fù)責(zé)HDFS數(shù)據(jù)存儲(chǔ)。2. (每空1分)HDFS中的block默認(rèn)保存 3 份。3. (每空1分) ResourceManager 程序通常與 NameNode 在一個(gè)節(jié)點(diǎn)啟動(dòng)。4. (每空1分)hadoop運(yùn)行的模式有: 單機(jī)模式 、 偽分布模式 、 完全分布式 。5. (每空1分)Hadoop集群搭建中常用的4個(gè)配置文件為: 、 、 、 。6. (每空2分)HDFS將要存儲(chǔ)的大文件進(jìn)行 分割 , 分割 后存放在既定的存儲(chǔ)塊 中,并通過(guò)預(yù)先設(shè)定的優(yōu)化處理,模式對(duì)

2、存儲(chǔ)的數(shù)據(jù)進(jìn)行預(yù)處理,從而解決了大文件儲(chǔ)存與計(jì)算的需求。7. (每空2分)一個(gè)HDFS集群包括兩大部分,即 namenode 與 datanode 。一般來(lái)說(shuō),一個(gè)集群中會(huì)有一個(gè) namenode 和多個(gè) datanode 共同工作。8. (每空2分) namenode 是集群的主服務(wù)器,主要是用于對(duì)HDFS中所有的文件及內(nèi)容數(shù)據(jù)進(jìn)行維護(hù),并不斷讀取記錄集群中 datanode 主機(jī)情況與工作狀態(tài),并通過(guò)讀取與寫(xiě)入鏡像日志文件的方式進(jìn)行存儲(chǔ)。9. (每空2分) datanode 在HDFS集群中擔(dān)任任務(wù)具體執(zhí)行角色,是集群的工作節(jié)點(diǎn)。文件被分成若干個(gè)相同大小的數(shù)據(jù)塊,分別存儲(chǔ)在若干個(gè) data

3、node 上, datanode 會(huì)定期向集群內(nèi) namenode 發(fā)送自己的運(yùn)行狀態(tài)與存儲(chǔ)內(nèi)容,并根據(jù) namnode 發(fā)送的指令進(jìn)行工作。10. (每空2分) namenode 負(fù)責(zé)接受客戶(hù)端發(fā)送過(guò)來(lái)的信息,然后將文件存儲(chǔ)位置信息發(fā)送給 client ,由 client 直接與 datanode 進(jìn)行聯(lián)系,從而進(jìn)行部分文件的運(yùn)算與操作。11. (每空1分) block 是HDFS的基本存儲(chǔ)單元,默認(rèn)大小是 128M 。12. (每空1分)HDFS還可以對(duì)已經(jīng)存儲(chǔ)的Block進(jìn)行多副本備份,將每個(gè)Block至少?gòu)?fù)制到 3 個(gè)相互獨(dú)立的硬件上,這樣可以快速恢復(fù)損壞的數(shù)據(jù)。 13. (每空2分)

4、當(dāng)客戶(hù)端的讀取操作發(fā)生錯(cuò)誤的時(shí)候,客戶(hù)端會(huì)向 namenode 報(bào)告錯(cuò)誤,并請(qǐng)求 namenode 排除錯(cuò)誤的 datanode 后,重新根據(jù)距離排序,從而獲得一個(gè)新的 的讀取路徑。如果所有的 datanode 都報(bào)告讀取失敗,那么整個(gè)任務(wù)就讀取失敗。14. (每空2分)對(duì)于寫(xiě)出操作過(guò)程中出現(xiàn)的問(wèn)題, FSDataOutputStream 并不會(huì)立即關(guān)閉??蛻?hù)端向Namenode報(bào)告錯(cuò)誤信息,并直接向提供備份的 datanode 中寫(xiě)入數(shù)據(jù)。備份 datanode 被升級(jí)為首選 datanode ,并在其余2個(gè) datanode 中備份復(fù)制數(shù)據(jù)。NameNode對(duì)錯(cuò)誤的DataNode進(jìn)行標(biāo)記

5、以便后續(xù)對(duì)其進(jìn)行處理。15. (每空1分)格式化HDFS系統(tǒng)的命令為: hdfs namenode format 。 16. (每空1分)啟動(dòng)hdfs的shell腳本為: 。17. (每空1分)啟動(dòng)yarn的shell腳本為: 。18. (每空1分)停止hdfs的shell腳本為: 。19. (每空1分)hadoop創(chuàng)建多級(jí)目錄(如:/a/b/c)的命令為: hadoop fs mkdir p /a/b/c 。20. (每空1分)hadoop顯示根目錄命令為: hadoop fs lsr 。21. (每空1分)hadoop包含的四大模塊分別是: Hadoop common 、 HDFS 、 M

6、apreduce 、 yarn 。22. (每空1分)namenode默認(rèn)的WebUI訪(fǎng)問(wèn)端口號(hào)為: 50070 。23. (每空1分)ResourceManager默認(rèn)的WebUI訪(fǎng)問(wèn)端口號(hào)為: 8088 。24. (每空1分)historyServer默認(rèn)的WebUI訪(fǎng)問(wèn)端口號(hào)為: 19888 。25. (每空1分)修改blocksize大小的屬性是: ,在 配置文件里。26. (每空1分)HDFS中namenode的RPC端口號(hào)為: 8021 ,其作用是: 接收Client連接的RPC端口,用于獲取文件系統(tǒng)metadata信息 。27. (每空2分)Mapper類(lèi)中有 4 個(gè)函數(shù)。28.

7、 (每空1分)默認(rèn)NameNode周期性從DataNode接收心跳信號(hào)的時(shí)間間隔為: 3s 。29. (每空1分)hadoop集群默認(rèn)機(jī)架感知是啟用的。是否正確: 錯(cuò)誤 。30. (每空2分)Hadoop Map/Reduce Shuffle過(guò)程: inputsplit->map函數(shù)>內(nèi)存緩沖區(qū)à Partitionàsortàcombineàspill-> map端merge ->reduce端copy>mergeàreduce函數(shù)。31. (每空2分)一個(gè)NodeManager能夠同時(shí)運(yùn)行最大reduce任務(wù)數(shù)

8、(默認(rèn)): 2 。32. (每空2分)默認(rèn)情況下,一個(gè)同時(shí)運(yùn)行了namenode,secondarynamenode和ResourceManager的主節(jié)點(diǎn),所使用的內(nèi)存容量為 3000 M。33. (每空2分)Hadoop集群中有三種作業(yè)調(diào)度算法,分別為 FIFO調(diào)度 , 計(jì)算能力調(diào)度 和 公平調(diào)度 。34. (每空1分)HA產(chǎn)生的背景是: 為了解決單NN可能出現(xiàn)宕機(jī)導(dǎo)致集群不可用或數(shù)據(jù)丟失的問(wèn)題 。35. (每空1分)通過(guò) Zookeeper 管理兩個(gè)或者多個(gè)NameNode,使一個(gè)NameNode為 active 狀態(tài),并且同步每個(gè)NN的元數(shù)據(jù),如果 active 狀態(tài)的NN宕機(jī)后馬上啟

9、用狀態(tài)為 standby 狀態(tài)的備用節(jié)點(diǎn)。36. (每空1分) job 是客戶(hù)端需要執(zhí)行的一個(gè)工作單元。37. (每空1分)Hadoop將作業(yè)分成若干個(gè) task 來(lái)執(zhí)行,其中包括: maptask 和 reducetask 。38. (每空2分)combiner是通過(guò) Reducer 類(lèi)來(lái)定義的。39. (每空2分)map任務(wù)將其輸出寫(xiě)入到 本地磁盤(pán) 。40. (每空2分)reduce的輸出通常存儲(chǔ)在 HDFS 中以實(shí)現(xiàn)可靠存儲(chǔ)。41. (每空2分)HDFS會(huì)對(duì)寫(xiě)入的所有數(shù)據(jù)計(jì)算 校驗(yàn)和 ,并在讀取數(shù)據(jù)時(shí)驗(yàn)證 校驗(yàn)和 。42. (每空2分)序列化用于分布式數(shù)據(jù)處理的兩大領(lǐng)域?yàn)椋?進(jìn)程間通信

10、和 永久存儲(chǔ) 。43. (每空2分)hadoop使用自己的序列化格式為: Writable 。二簡(jiǎn)答題,3分(17題),5分(5題)共75分1. (3分)簡(jiǎn)要描述如何安裝配置apache的一個(gè)開(kāi)源hadoop,只描述即可,無(wú)需列出具體步驟,列出具體步驟更好。答:1使用root賬戶(hù)登錄2 修改IP3 修改host主機(jī)名4 配置SSH免密碼登錄5 關(guān)閉防火墻6 安裝JDK7 解壓hadoop安裝包8 配置hadoop的核心文件 , , , 9 配置hadoop環(huán)境變量10 格式化 hadoop namenode -format11 啟動(dòng)節(jié)點(diǎn) 2. (3分)請(qǐng)列出正常的hadoop集群中hadoop

11、都分別需要啟動(dòng)哪些進(jìn)程,他們的作用分別都是什么,請(qǐng)盡量列的詳細(xì)一些。答:namenode:管理集群,存儲(chǔ)數(shù)據(jù)的原信息,并管理記錄datanode中的文件信息。 secondarynamenode:它是namenode的一個(gè)快照,會(huì)根據(jù)configuration中設(shè)置的值來(lái)    決定多少時(shí)間周期性的去cp一下namenode,記錄namenode中的metadata及其它數(shù)據(jù)。Datanode:存儲(chǔ)數(shù)據(jù)ResourceManager:ResourceManager負(fù)責(zé)集群中所有資源的統(tǒng)一管理和分配,它接收來(lái)自各個(gè)節(jié)點(diǎn)(NodeManager)的資源匯報(bào)信息,并把這

12、些信息按照一定的策略分配給各個(gè)應(yīng)用程序(實(shí)際上是ApplicationManager)NodeManager:是YARN中每個(gè)節(jié)點(diǎn)上的代理,它管理Hadoop集群中單個(gè)計(jì)算節(jié)點(diǎn) (3分)請(qǐng)寫(xiě)出以下的shell命令(1)殺死一個(gè)job(2)刪除hdfs上的 /tmp/aaa目錄(3)加入一個(gè)新的存儲(chǔ)節(jié)點(diǎn)和刪除一個(gè)節(jié)點(diǎn)需要執(zhí)行的命令答:(1)mapred job -list得到j(luò)ob的id,然后執(zhí)行mapred job kill jobId就可以殺死一個(gè)指定jobId的job工作了。(2)hadoop fs -rmr /tmp/aaa或者h(yuǎn)dfs dfs rmr /tmp/aaa(3)增加一個(gè)新的

13、節(jié)點(diǎn)在新的節(jié)點(diǎn)上執(zhí)行 start datanode 然后在主節(jié)點(diǎn)中執(zhí)行 hdfs dfsadmin -refreshNodes刪除一個(gè)節(jié)點(diǎn)的時(shí)候,只需要在主節(jié)點(diǎn)執(zhí)行 hdfs dfsadmin refreshnodes3. (3分)請(qǐng)簡(jiǎn)述mapreduce中的combine和partition的作用答:combiner是發(fā)生在map的最后一個(gè)階段,其原理也是一個(gè)小型的reducer,主要作用是減少輸出到reduce的個(gè)數(shù),減少reducer的輸入,提高reducer的執(zhí)行效率。Partition的主要作用就是指定輸出到reduce的個(gè)數(shù)的。4. (3分)hdfs的體系結(jié)構(gòu)答:HDFS采用了主從

14、(Master/Slave)結(jié)構(gòu)模型,一個(gè)HDFS集群是由一個(gè)NameNode和若干個(gè)DataNode組成的。其中NameNode作為主服務(wù)器,管理文件系統(tǒng)的命名空間和客戶(hù)端對(duì)文件的訪(fǎng)問(wèn)操作;集群中的DataNode管理存儲(chǔ)的數(shù)據(jù)5. (3分)三個(gè)datanode中當(dāng)有一個(gè)datanode出現(xiàn)錯(cuò)誤時(shí)會(huì)怎樣?答:當(dāng)有一個(gè)datanode出現(xiàn)錯(cuò)誤的時(shí)候,namenode會(huì)將那個(gè)datanode上的數(shù)據(jù)拷貝到其他的節(jié)點(diǎn)去進(jìn)行存儲(chǔ)。6. (3分)文件大小默認(rèn)為 64M,改為 128M 有什么影響?答:更改文件的block塊大小,需要根據(jù)我們的實(shí)際生產(chǎn)中來(lái)更改block的大小,如果block定義的太小,

15、大的文件都會(huì)被切分成太多的小文件,減慢用戶(hù)上傳效率,如果block定義的太大,那么太多的小文件可能都會(huì)存到一個(gè)block塊中,雖然不浪費(fèi)硬盤(pán)資源,可是還是會(huì)增加namenode的管理內(nèi)存壓力。7. (3分)NameNode與SecondaryNameNode的區(qū)別與聯(lián)系?答:secondaryNameNode更像是Namenode的一個(gè)冷備份,當(dāng)namenode宕機(jī)之后,可以從SecondaryNamenode上面恢復(fù)部分?jǐn)?shù)據(jù)。8. (5分)在一個(gè)運(yùn)行的hadoop任務(wù)中,什么是InputSplit?答: InputSplit是MapReduce對(duì)文件進(jìn)行處理和運(yùn)算的輸入單位,只是一個(gè)邏輯概念

16、,每個(gè)InputSplit并沒(méi)有對(duì)文件實(shí)際的切割,只是記錄了要處理的數(shù)據(jù)的位置(包括文件的path和hosts)和長(zhǎng)度(由start和length決定),默認(rèn)情況下與block一樣大。9. (3分)參考下列M/R系統(tǒng)的場(chǎng)景:hdfs塊大小為64MB,輸入類(lèi)為FileInputFormat,有3個(gè)文件的大小分別為64KB, 65MB, 127MB,Hadoop框架會(huì)把這些文件拆分為多少塊?答:64k->一個(gè)block65MB->兩個(gè)文件:64MB是一個(gè)block,1MB是一個(gè)block127MB->兩個(gè)文件:64MB是一個(gè)block,63MB是一個(gè)block10. (5分)ha

17、doop中RecordReader的作用是什么?答:RecorderReader是一個(gè)接口,主要是用來(lái)讀取文件的輸入鍵值對(duì)的,我們也可以自定義輸入的key,value對(duì)的讀取規(guī)則。屬于split和mapper之間的一個(gè)過(guò)程,將inputsplit輸出的行為一個(gè)轉(zhuǎn)換記錄,成為key-value的記錄形式提供給mapper11. (3分)Map階段結(jié)束后,Hadoop框架會(huì)處理:Partitioning, Shuffle和Sort,在這幾個(gè)階段都發(fā)生了什么?答:Partition是對(duì)輸出的key,value進(jìn)行分區(qū),可以自定義分區(qū),按照業(yè)務(wù)需求,將map的輸出歸分到多個(gè)不同的文件中將map的輸出作

18、為輸入傳給reducer 稱(chēng)為shufflesort是排序的過(guò)程,將map的輸出,作為reduce的輸入之前,我們可以自定義排序,按照key來(lái)對(duì)map的輸出進(jìn)行排序12. (5分)如果沒(méi)有定義partitioner,那數(shù)據(jù)在被送達(dá)reducer前是如何被分區(qū)的?答:Partitioner是在map函數(shù)執(zhí)行()時(shí)被調(diào)用。用戶(hù)可以通過(guò)實(shí)現(xiàn)自定義的Partitioner來(lái)控制哪個(gè)key被分配給哪個(gè)Reducer。 hadoop有一個(gè)默認(rèn)的分區(qū)類(lèi),HashPartioer類(lèi),通過(guò)對(duì)輸入的k2去hash值來(lái)確認(rèn)map輸出的k2,v2送到哪一個(gè)reduce中去執(zhí)行。13. (3分)什么是combiner?

19、答:combiner就是規(guī)約操作,通過(guò)對(duì)map輸出的數(shù)量進(jìn)行規(guī)約,可以減少reduce的數(shù)量,提高執(zhí)行效率。combiner的輸入輸出類(lèi)型必須和mapper的輸出以及reducer的輸入類(lèi)型一致14. (3分)分別舉例什么情況要使用 combiner,什么情況不使用?答:求平均數(shù)的時(shí)候就不需要用combiner,因?yàn)椴粫?huì)減少reduce執(zhí)行數(shù)量。在其他的時(shí)候,可以依據(jù)情況,使用combiner,來(lái)減少map的輸出數(shù)量,減少拷貝到reduce的文件,從而減輕reduce的壓力,節(jié)省網(wǎng)絡(luò)開(kāi)銷(xiāo),提升執(zhí)行效率15. (5分)簡(jiǎn)述Hadoop中replication(復(fù)本)放置策略?答:Hadoop的默

20、認(rèn)布局策略是在運(yùn)行客戶(hù)端的節(jié)點(diǎn)上放第一個(gè)復(fù)本;第二個(gè)復(fù)本放在與第一個(gè)不同且隨機(jī)另外選擇的機(jī)架中的節(jié)點(diǎn)上(離架);第三個(gè)復(fù)本與第二個(gè)復(fù)本放在同一個(gè)機(jī)架上,且隨機(jī)選擇另一個(gè)節(jié)點(diǎn)。16. (5分)如何為一個(gè)hadoop任務(wù)設(shè)置mappers的數(shù)量?答:map的數(shù)量通常是由hadoop集群的DFS塊大小確定的,也就是輸入文件的總塊數(shù),正常的map數(shù)量的并行規(guī)模大致是每一個(gè)Node是10100個(gè),對(duì)于CPU消耗較小的作業(yè)可以設(shè)置Map數(shù)量為300個(gè)左右,但是由于hadoop的沒(méi)一個(gè)任務(wù)在初始化時(shí)需要一定的時(shí)間,因此比較合理的情況是每個(gè)map執(zhí)行的時(shí)間至少超過(guò)1分鐘。具體的數(shù)據(jù)分片是這樣的,InputFo

21、rmat在默認(rèn)情況下會(huì)根據(jù)hadoop集群的DFS塊大小進(jìn)行分片,每一個(gè)分片會(huì)由一個(gè)map任務(wù)來(lái)進(jìn)行處理,當(dāng)然用戶(hù)還是可以通過(guò)參數(shù)參數(shù)在作業(yè)提交客戶(hù)端進(jìn)行自定義設(shè)置。還有一個(gè)重要參數(shù)就是,這個(gè)參數(shù)設(shè)置的map數(shù)量?jī)H僅是一個(gè)提示,只有當(dāng)InputFormat 決定了map任務(wù)的個(gè)數(shù)比值小時(shí)才起作用。同樣,Map任務(wù)的個(gè)數(shù)也能通過(guò)使用JobConf 的(int num)方法來(lái)手動(dòng)地設(shè)置。這個(gè)方法能夠用來(lái)增加map任務(wù)的個(gè)數(shù),但是不能設(shè)定任務(wù)的個(gè)數(shù)小于Hadoop系統(tǒng)通過(guò)分割輸入數(shù)據(jù)得到的值。當(dāng)然為了提高集群的并發(fā)效率,可以設(shè)置一個(gè)默認(rèn)的map數(shù)量,當(dāng)用戶(hù)的map數(shù)量較小或者比本身自動(dòng)分割的值還小時(shí)可以使用一個(gè)相對(duì)交大的默認(rèn)值,從而提高整體hadoop集群的效率。17. (3分)hdfs文件寫(xiě)入的流程? 答:1) Client向NameNode發(fā)起文件寫(xiě)入的請(qǐng)求。 2) NameN

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論