大數(shù)據(jù)面試題_第1頁
大數(shù)據(jù)面試題_第2頁
大數(shù)據(jù)面試題_第3頁
大數(shù)據(jù)面試題_第4頁
大數(shù)據(jù)面試題_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、單項選擇題1.下面哪個程序負責 HDFS 數(shù)據(jù)存儲。a)NameNodeb)Jobtrackerc)Datanoded)secondaryNameNodee)tasktracker2. HDfS 中的 block 默認保存幾份 ?a)3 份b)2 份c)1 份d) 不確定3.下列哪個程序通常與 NameNode 在一個節(jié)點啟動 ?a)SecondaryNameNodeb)DataNodec)TaskTrackerd)Jobtracker4. Hadoop 作者a)Martin Fowlerb)Kent Beckc)Doug cutting5. HDFS 默認 Block Sizea)32MBb

2、)64MBc)128MB6.下列哪項通常是集群的最主要瓶頸a)CPUb) 網(wǎng)絡(luò)c) 磁盤d) 內(nèi)存7.關(guān)于 SecondaryNameNode 哪項是正確的 ?a) 它是 NameNode 的熱備b) 它對內(nèi)存沒有要求c) 它的目的是幫助 NameNode 合并編輯日志,減少 NameNode 啟動 時間d)Seco ndaryNameNode 應(yīng)與 NameNode 部署到一個節(jié)點多選題8.下列哪項可以作為集群的管理工具a) Puppetb) Pdshc)Cloudera Managerd)d)Zookeeper9.配置機架感知的下面哪項正確a) 如果一個機架出問題,不會影響數(shù)據(jù)讀寫b) 寫

3、入數(shù)據(jù)的時候會寫到不同機架的 DataNode 中c)MapReduce 會根據(jù)機架獲取離自己比較近的網(wǎng)絡(luò)數(shù)據(jù)10. Client 端上傳文件的時候下列哪項正確a) 數(shù)據(jù)經(jīng)過 NameNode 傳遞給 DataNodeb)Client 端將文件切分為 Block ,依次上傳c)Client 只上傳數(shù)據(jù)到一臺 DataNode ,然后由 NameNode 負責 Block復(fù)制工作11.下列哪個是 Hadoop 運行的模式a) 單機版b) 偽分布式c) 分布式12. Cloudera 提供哪幾種安裝 CDH 的方法a)Cloudera managerb)Tar ballc)Yum d)Rpm判斷題

4、13. Ganglia 不僅可以進行監(jiān)控,也可以進行告警。 ( )14. Block Size 是不可以修改的。 ( )15. Nagios 不可以監(jiān)控 Hadoop 集群,因為它不提供 Hadoop 支持。 ( )16.如果 NameNode 意外終止,SecondaryNameNode 會接替它使集群繼 續(xù)工作。 ( )17. Cloudera CDH 是需要付費使用的。 ( )18. Hadoop 是 Java 開發(fā)的,所以 MapReduce 只支持 Java 語言編 寫。( )19. Hadoop 支持數(shù)據(jù)的隨機讀寫。 ( )20. NameNode 負責管理 metadata ,

5、client 端每次讀寫請求,它都會從 磁盤中讀取或則會寫入 metadata 信息并反饋 client 端。( )21. NameNode 本地磁盤保存了 Block 的位置信息。 ( )22. DataNode 通過長連接與 NameNode 保持通信。()23. Hadoop 自身具有嚴格的權(quán)限管理和安全措施保障集群正常運行。 ( )24. Slave 節(jié)點要存儲數(shù)據(jù),所以它的磁盤越大越好。 ( )25. hadoop dfsadmin- report 命令用于檢測 HDFS 損壞塊。()26. Hadoop 默認調(diào)度器策略為 FIFO( )27.集群內(nèi)每個節(jié)點都應(yīng)該配 RAID,這樣避

6、免單磁盤損壞,影響整個節(jié) 點運行。 ( )28.因為 HDFS 有多個副本,所以 NameNode 是不存在單點問題的。 ( )29.每個 map 槽就是一個線程。 ( )30. Mapreduce 的 input split 就是一個 block 。 ( )31. NameNode 的 Web UI 端口是 50030 ,它通過 jetty 啟動的 Web 服 務(wù)。( )32. Hadoop 環(huán)境變量中的 HADOOP_HEAPSIZ 用于設(shè)置所有 Hadoop 守 護線程的內(nèi)存。它默認是 200 GB。()33. DataNode 首次加入 cluster 的時候,如果 log 中報告不兼

7、容文件 版本,那需要 NameNode 執(zhí)行“ Hadoop namenode -format ”操作格式化磁 盤。 ( )別走開,答案在后面哦 !答案單選題1.下面哪個程序負責 HDFS 數(shù)據(jù)存儲。答案 C datanodea) NameNodeb) Jobtrackerc) Datanoded) secondaryNameNodee) tasktracker2. HDfS 中的 block 默認保存幾份?答案 A 默認 3 分a)3 份b)2 份c)1 份d) 不確定3.下列哪個程序通常與 NameNode 在一個節(jié)點啟動 ?答案 Da)SecondaryNameNodeb)DataNod

8、ec)TaskTrackerd)Jobtracker此題分析:hadoop 的集群是基于 master/slave 模式,n ame no de 和 jobtracker 屬于master , datanode 和 tasktracker 屬于 slave , master 只有一個,而 slave 有多個 SecondaryNameNode存需求和 NameNode個數(shù)量級上, 所以通常 secondaryNameNode(運行在單獨的物理機器上)和 NameNode 運行在不同的機 器上。JobTracker 和 TaskTrackerJobTracker 對應(yīng)于 NameNodeTask

9、Tracker 對應(yīng)于 DataNodeDataNode 和 NameNode 是針對數(shù)據(jù)存放來而言的JobTracker 和 TaskTracker 是對于 MapReduce 執(zhí)行而言的mapreduce 中幾個主要概念, mapreduce 整體上可以分為這么幾條執(zhí)行線 索:obclient ,JobTracker 與 TaskTracker 。1、 JobClient 會在用戶端通過 JobClient 類將應(yīng)用已經(jīng)配置參數(shù)打包成 jar 文件存儲到 hdfs , 并把路徑提交到 Jobtracker, 然后由 JobTracker 創(chuàng)建 每一個 Task(即MapTask 和 Red

10、uceTask)并將它們分發(fā)到各個 TaskTracker 服 務(wù)中去執(zhí)行。2、 JobTracker 是一個 master 服務(wù),軟件啟動之后 JobTracker 接收 Job,負責調(diào)度 Job 的每一個子任務(wù) task 運行于 TaskTracker 上,并監(jiān)控它 們,如果發(fā)現(xiàn)有失敗的 task 就重新運行它。一般情況應(yīng)該把 JobTracker 部 署在單獨的機器上。3、 TaskTracker 是運行在多個節(jié)點上的 slaver 服務(wù)。 TaskTracker 主動 與JobTracker 通信,接收作業(yè),并負責直接執(zhí)行每一個任務(wù)。 TaskTracker 都需要運行在 HDFS 的

11、 DataNode 上。4.Hadoop 作者 答案 C Doug cuttinga) Martin Fowlerb) Kent Beckc) Doug cutting5. HDFS 默認 Block Size 答案:Ba)32MBb)64MBc)128MB (因為版本更換較快,這里答案只供參考6. 下列哪項通常是集群的最主要瓶頸:答案: C 磁盤a) CPUb) 網(wǎng)絡(luò)c) 磁盤 IOd) 內(nèi)存該題解析:首先集群的目的是為了節(jié)省成本,用廉價的 機。小型機和大型機有什么特點 ?1. cpu 處理能力強2. 內(nèi)存夠大所以集群的瓶頸不可能是 a 和 d3. 網(wǎng)絡(luò)是一種稀缺資源,但是并不是瓶頸。4.

12、由于大數(shù)據(jù)面臨海量數(shù)據(jù),讀寫數(shù)據(jù)都需要hadoop 般備 3 份數(shù)據(jù),所以 10 就會打折扣。7.關(guān)于 SecondaryNameNode 哪項是正確的 ?答案 Ca) 它是 NameNode 的熱備pc 機,取代小型機及大型io ,然后還要冗余數(shù)據(jù),b) 它對內(nèi)存沒有要求c) 它的目的是幫助 NameNode 合并編輯日志,減少 NameNode 啟動時間d)Seco ndaryNameNode 應(yīng)與 NameNode 部署到一個節(jié)點。多選題8.下列哪項可以作為集群的管理 ?答案: ABDa) Puppetb) Pdshc) Cloudera Managerd) Zookeeper9.配置機

13、架感知的下面哪項正確:答案 ABCa) 如果一個機架出問題,不會影響數(shù)據(jù)讀寫b) 寫入數(shù)據(jù)的時候會寫到不同機架的 DataNode 中c) MapReduce 會根據(jù)機架獲取離自己比較近的網(wǎng)絡(luò)數(shù)據(jù)10. Client端上傳文件的時候下列哪項正確 ?答案 Ba) 數(shù)據(jù)經(jīng)過 NameNode 傳遞給 DataNodeb) Client 端將文件切分為 Block ,依次上傳c) Client 只上傳數(shù)據(jù)到一臺 DataNode ,然后由 NameNode 負責Block 復(fù)制工作該題分析:Client 向 NameNod 發(fā)起文件寫入的請求。NameNode 艮據(jù)文件大小和文件塊配置情況,返回給C

14、lie nt 它所管理部分DataNode 的信息。Client 將文件劃分為多個 Block,根據(jù) DataNode 的地址信息,按順序?qū)?入到每一個 DataNode 塊中。11.下列哪個是 Hadoop 運行的模式:答案 ABCa) 單機版b) 偽分布式c) 分布式12. Cloudera 提供哪幾種安裝 CDH 的方法?答案:ABCDa) Cloudera managerb) Tarballc) Yumd) Rpm判斷題13. Ganglia 不僅可以進行監(jiān)控,也可以進行告警。 ( 正確 ) 分析:此題的目的是考 Ganglia 的了解。嚴格意義上來講是正確。ganglia 作為一款最

15、常用的 Linux 環(huán)境中的監(jiān)控軟件,它擅長的的是從節(jié)點中 按照用戶的需求以較低的代價采集數(shù)據(jù)。但是 ganglia 在預(yù)警以及發(fā)生事件 后通知用戶上并不擅長。最新的 ganglia 已經(jīng)有了部分這方面的功能。但是 更擅長做警告的還有Nagios。Nagios,就是一款精于預(yù)警、通知的軟件。通過將 Ganglia 和 Nagios 組合起來,把 Ganglia 采集的數(shù)據(jù)作為 Nagios 的數(shù) 據(jù)源,然后利用 Nagios 來發(fā)送預(yù)警通知,可以完美的實現(xiàn)一整套監(jiān)控管理的 系統(tǒng)。14. Block Size 是不可以修改的。 ( 錯誤 )分 析 : 它 是 可 以 被 修 改 的 Hadoop

16、 的 基 礎(chǔ) 配 置 文 件 是 hadoop-default.xml ,默認建立一個 Job 的時候會建立 Job 的 Config ,Config 首先 讀入hadoop-default.xml 的配置,然后再讀入 hadoop-site.xml 的配置( 這 個文件初始的時候配置為空 ), hadoop-site.xml 中主要配置需要覆蓋的 hadoop-default.xml 的系統(tǒng)級配置。15. Nagios 不可以監(jiān)控 Hadoop 集群,因為它不提供 Hadoop 支持。 ( 錯誤 )分析: Nagios 是集群監(jiān)控工具,而且是云計算三大利器之一16.如果 NameNode 意

17、外終止,SecondaryNameNode 會接替它使集群繼 續(xù)工作。 ( 錯誤 )分析:SecondaryNameNode 是幫助恢復(fù),而不是替代,如何恢復(fù),可以查看17. Cloudera CDH 是需要付費使用的。 ( 錯誤 ) 分析:第一套付費產(chǎn)品是Cloudera Enterpris , Cloudera Enterprise在美國加州舉行的 Hadoop 大會 (Hadoop Summit) 上公開,以若干私有管理、監(jiān)控、運作工具加強 Hadoop 的功能。收費采取合約訂購方式,價格隨 用的Hadoop 叢集大小變動。18. Hadoop 是 Java 開發(fā)的,所以 MapRedu

18、ce 只支持 Java 語言編 寫。(錯誤 )分析:rhadoop 是用 R 語言開發(fā)的,MapReduce 是一個框架,可以理解是 一種思想,可以使用其他語言開發(fā)。19. Hadoop 支持數(shù)據(jù)的隨機讀寫。 (錯 )分析:lucene 是支持隨機讀寫的,而 hdfs 只支持隨機讀。但是 HBase 可 以來補救。HBase 提供隨機讀寫,來解決 Hadoop 不能處理的問題。HBase 自 底層設(shè)計開始即聚焦于各種可伸縮性問題:表可以很“高”,有數(shù)十億個數(shù) 據(jù)行; 也可以很“寬”,有數(shù)百萬個列 ;水平分區(qū)并在上千個普通商用機節(jié)點 上自動復(fù)制。表的模式是物理存儲的直接反映,使系統(tǒng)有可能提高高效

19、的數(shù) 據(jù)結(jié)構(gòu)的序列化、存儲和檢索。20. NameNode 負責管理 metadata , client 端每次讀寫請求,它都會從 磁盤中讀取或則會寫入 metadata 信息并反饋 client 端。 ( 錯誤)此題分析:NameNode 不需要從磁盤讀取 metadata,所有數(shù)據(jù)都在內(nèi)存中,硬盤上 的只是序列化的結(jié)果,只有每次 namenode 啟動的時候才會讀取。1) 文件寫入Client 向 NameNode起文件寫入的請求。NameNode 艮據(jù)文件大小和文件塊配置情況,返回給Clie nt 它所管理部分DataNode 的信息。Client 將文件劃分為多個 Block ,根據(jù)

20、DataNode 的地址信息,按順序?qū)?入到每一個 DataNode 塊中。2)文件讀取 Client 向 NameNod 發(fā)起文件讀取的請求。21. NameNode 本地磁盤保存了 Block 的位置信息。 ( 個人認為 正 確 ,歡迎提出其它意見 )分析: DataNode 是文件存儲的基本單元,它將 Block 存儲在本地文件系 統(tǒng)中,保存了 Block 的 Meta-data ,同時周期性地將所有存在的 Block 信息發(fā) 送給NameNod。NameNode 返回文件存儲的 DataNode 的信息。Client 讀取文 件信息。22. DataNode 通過長連接與 NameNo

21、de 保持通信。()這個有分歧:具體正在找這方面的有利資料。下面提供資料可參考。首先明確一下概念:(1) . 長連接 Client 方與 Server 方先建立通訊連接,連接建立后不斷 開,然后再進行報文發(fā)送和接收。這種方式下由于通訊連接一直存在,此種 方式常用于點對點通訊。(2) . 短連接 Client 方與 Server 每進行一次報文收發(fā)交易時才進行通訊 連接,交易完畢后立即斷開連接。此種方式常用于一點對多點通訊,比如多個 Client 連接一個 Server.23. Hadoop 自身具有嚴格的權(quán)限管理和安全措施保障集群正常運行。( 錯誤 )hadoop 只能阻止好人犯錯,但是不能阻止壞人干壞事24. Slave 節(jié)點要存儲數(shù)據(jù),所以它的磁盤越大越好。 ( 錯誤)分析:一旦 Slave 節(jié)點宕機,數(shù)據(jù)恢復(fù)是一個難題25. hadoop dfsadmin - report 命令用于檢測 HDFS 損壞塊。(錯誤)26. Hadoop 默認調(diào)度器策略為 FIFO( 正確 )27. 集群內(nèi)每個節(jié)點都應(yīng)該配 RAID,這樣避免單磁盤損壞,影響整個節(jié) 點運行。 ( 錯誤 )分析:首先明白什么是RAID,可以參考百科磁盤陣列。這句話錯誤的地方在于太絕對, 具體情況具體分析。 題目不是重點, 知識才是最重要的。 因 為 hadoop本身就具有冗余能力,所以如果不是很嚴格不需要都配

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論