Hadoop試題題庫.doc_第1頁
Hadoop試題題庫.doc_第2頁
Hadoop試題題庫.doc_第3頁
Hadoop試題題庫.doc_第4頁
Hadoop試題題庫.doc_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

學習資料收集于網(wǎng)絡,僅供參考1. 以下哪一項不屬于Hadoop可以運行的模式_C_。 A. 單機(本地)模式 B. 偽分布式模式 C. 互聯(lián)模式 D. 分布式模式 2. Hadoop的作者是下面哪一位_B_。A. Martin Fowler B. Doug cutting C. Kent Beck D. Grace Hopper 3. 下列哪個程序通常與 NameNode 在同一個節(jié)點啟動_D_。A. TaskTracker B. DataNode C. SecondaryNameNode D. Jobtracker 4. HDFS 默認 Block Size的大小是_B_。A.32MB B.64MBC.128MB D.256M 5. 下列哪項通常是集群的最主要瓶頸_C_。 A. CPU B. 網(wǎng)絡 C. 磁盤IO D. 內(nèi)存 6. 下列關(guān)于MapReduce說法不正確的是_C_。 A. MapReduce是一種計算框架B. MapReduce來源于google的學術(shù)論文 C. MapReduce程序只能用java語言編寫 D. MapReduce隱藏了并行計算的細節(jié),方便使用8. HDFS是基于流數(shù)據(jù)模式訪問和處理超大文件的需求而開發(fā)的,具有高容錯、高可靠性、高可擴展性、高吞吐率等特征,適合的讀寫任務是 _D_。 A一次寫入,少次讀 B多次寫入,少次讀 C多次寫入,多次讀 D一次寫入,多次讀9. HBase依靠_A_存儲底層數(shù)據(jù)。A. HDFSB. Hadoop C. Memory D. MapReduce 10. HBase依賴_D_提供強大的計算能力。A. Zookeeper B. Chubby C. RPC D. MapReduce 11. HBase依賴_A_提供消息通信機制A. Zookeeper B. Chubby C. RPC D. Socket 12. 下面與HDFS類似的框架是_C_? A. NTFS B. FAT32 C. GFS D. EXT313. 關(guān)于 SecondaryNameNode 下面哪項是正確的_C_。 A. 它是 NameNode 的熱備 B. 它對內(nèi)存沒有要求C. 它的目的是幫助 NameNode 合并編輯日志,減少 NameNode 啟動時間 D. SecondaryNameNode 應與 NameNode 部署到一個節(jié)點 14. 大數(shù)據(jù)的特點不包括下面哪一項_D_。 A. 巨大的數(shù)據(jù)量 B. 多結(jié)構(gòu)化數(shù)據(jù) C. 增長速度快 D. 價值密度高 HBase測試題1. HBase來源于哪一項? CA The Google File SystemB MapReduceC BigTableD Chubby2. 下面對HBase的描述哪些是正確的? B、C、DA 不是開源的B 是面向列的C 是分布式的D 是一種NoSQL數(shù)據(jù)庫3. HBase依靠()存儲底層數(shù)據(jù) AA HDFSB HadoopC MemoryD MapReduce4. HBase依賴()提供消息通信機制 AA ZookeeperB ChubbyC RPCD Socket5. HBase依賴()提供強大的計算能力 DA ZookeeperB ChubbyC RPCD MapReduce6. MapReduce與HBase的關(guān)系,哪些描述是正確的? B、CA 兩者不可或缺,MapReduce是HBase可以正常運行的保證B 兩者不是強關(guān)聯(lián)關(guān)系,沒有MapReduce,HBase可以正常運行C MapReduce可以直接訪問HBaseD 它們之間沒有任何關(guān)系7. 下面哪些選項正確描述了HBase的特性? A、B、C、DA 高可靠性B 高性能C 面向列D可伸縮8. 下面與Zookeeper類似的框架是?DA ProtobufB JavaC KafkaD Chubby9. 下面與HDFS類似的框架是?CA NTFSB FAT32C GFSD EXT310. 下面哪些概念是HBase框架中使用的?A、CA HDFSB GridFSC ZookeeperD EXT3第二部分:HBase核心知識點11. LSM含義是?AA 日志結(jié)構(gòu)合并樹B 二叉樹C 平衡二叉樹D 基于日志結(jié)構(gòu)的合并樹12. 下面對LSM結(jié)構(gòu)描述正確的是? A、CA 順序存儲B 直接寫硬盤C 需要將數(shù)據(jù)Flush到磁盤D 是一種搜索平衡樹13. LSM更能保證哪種操作的性能?BA 讀B 寫C 隨機讀D 合并14. LSM的讀操作和寫操作是獨立的?AA 是。B 否。C LSM并不區(qū)分讀和寫D LSM中讀寫是同一種操作15. LSM結(jié)構(gòu)的數(shù)據(jù)首先存儲在()。 BA 硬盤上B 內(nèi)存中C 磁盤陣列中D 閃存中16 HFile數(shù)據(jù)格式中的Data字段用于()。AA 存儲實際的KeyValue數(shù)據(jù)B 存儲數(shù)據(jù)的起點C 指定字段的長度D 存儲數(shù)據(jù)塊的起點17 HFile數(shù)據(jù)格式中的MetaIndex字段用于()。DA Meta塊的長度B Meta塊的結(jié)束點C Meta塊數(shù)據(jù)內(nèi)容D Meta塊的起始點18 HFile數(shù)據(jù)格式中的Magic字段用于()。AA 存儲隨機數(shù),防止數(shù)據(jù)損壞B 存儲數(shù)據(jù)的起點C 存儲數(shù)據(jù)塊的起點D 指定字段的長度19 HFile數(shù)據(jù)格式中的KeyValue數(shù)據(jù)格式,下列選項描述正確的是()。A、DA 是byte數(shù)組B 沒有固定的結(jié)構(gòu)C 數(shù)據(jù)的大小是定長的D 有固定的結(jié)構(gòu)20 HFile數(shù)據(jù)格式中的KeyValue數(shù)據(jù)格式中Value部分是()。CA 擁有復雜結(jié)構(gòu)的字符串B 字符串C 二進制數(shù)據(jù)D 壓縮數(shù)據(jù)第三部分:HBase高級應用介紹31 HBase中的批量加載底層使用()實現(xiàn)。AA MapReduceB HiveC CoprocessorD Bloom Filter32. HBase性能優(yōu)化包含下面的哪些選項?A、B、C、DA 讀優(yōu)化B 寫優(yōu)化C 配置優(yōu)化D JVM優(yōu)化33. Rowkey設計的原則,下列哪些選項的描述是正確的?A、B、CA 盡量保證越短越好B 可以使用漢字C 可以使用字符串D 本身是無序的34. HBase構(gòu)建二級索引的實現(xiàn)方式有哪些? A、BA MapReduceB CoprocessorC Bloom FilterD Filter35. 關(guān)于HBase二級索引的描述,哪些是正確的?A、BA 核心是倒排表B 二級索引概念是對應Rowkey這個“一級”索引C 二級索引使用平衡二叉樹D 二級索引使用LSM結(jié)構(gòu)36. 下列關(guān)于Bloom Filter的描述正確的是?A、CA 是一個很長的二進制向量和一系列隨機映射函數(shù)B 沒有誤算率C 有一定的誤算率D 可以在Bloom Filter中刪除元素第四部分:HBase安裝、部署、啟動37. HBase官方版本可以安裝在什么操作系統(tǒng)上?A、B、CA CentOSB UbuntuC RedHatD Windows38. HBase虛擬分布式模式需要()個節(jié)點?AA 1B 2C 3D 最少3個39. HBase分布式模式最好需要()個節(jié)點?CA 1B 2C 3D 最少關(guān)于hadoop的選擇題1、Doug Cutting所創(chuàng)立的項目的名稱都受到其家人的啟發(fā),以下項目不是由他創(chuàng)立的項目是 A Hadoop B Nutch C Lucene D Solr 答案:D 2、配置Hadoop時,JAVA_HOME包含在哪一個配置文件中 A hadoop-default.xml B hadoop-env.sh C hadoop-site.xml D configuration.xsl 答案:B 知識點:hadoop配置 3、Hadoop配置文件中,hadoop-site.xml顯示覆蓋hadoop-default.xml里的內(nèi)容。在版本0.20中,hadoop-site.xml被分離成三個XML文件,不包括 A conf-site.xml B mapred-site.xml C core-site.xml D hdfs-site.xml 答案:A 知識點:hadoop配置 4、HDFS默認的當前工作目錄是/user/$USER,的值需要在哪個配置文件內(nèi)說明 A. mapred-site.xml B. core-site.xml C. hdfs-site.xml D. 以上均不是 答案:B 知識點:hadoop配置 5、關(guān)于Hadoop單機模式和偽分布式模式的說法,正確的是 A 兩者都起守護進程,且守護進程運行在一臺機器上 B 單機模式不使用HDFS,但加載守護進程 C 兩者都不與守護進程交互,避免復雜性 D 后者比前者增加了HDFS輸入輸出以及可檢查內(nèi)存使用情況 答案:D 知識點:hadoop配置 6、下列關(guān)于Hadoop API的說法錯誤的是 A Hadoop的文件API不是通用的,只用于HDFS文件系統(tǒng) B Configuration類的默認實例化方法是以HDFS系統(tǒng)的資源配置為基礎的 C FileStatus對象存儲文件和目錄的元數(shù)據(jù) D FSDataInputStream是java.io.DataInputStream的子類 答案:A /HDFS 7、HDFS的NameNode負責管理文件系統(tǒng)的命名空間,將所有的文件和文件夾的元數(shù)據(jù)保存在一個文件系統(tǒng)樹中,這些信息也會在硬盤上保存成以下文件: A日志 B命名空間鏡像 C兩者都是 答案:C 知識點: 8、HDFS的namenode保存了一個文件包括哪些數(shù)據(jù)塊,分布在哪些數(shù)據(jù)節(jié)點上,這些信息也存儲在硬盤上。 A正確 B錯誤 答案:B 知識點:在系統(tǒng)啟動的時候從數(shù)據(jù)節(jié)點收集而成的 9、Secondary namenode就是namenode出現(xiàn)問題時的備用節(jié)點 A正確 B錯誤 答案:B 知識點:它和元數(shù)據(jù)節(jié)點負責不同的事情。其主要功能就是周期性將元數(shù)據(jù)節(jié)點的命名空間鏡像文件和修改日志合并,以防日志文件過大。合并過后的命名空間鏡像文件也在Secondary namenode保存了一份,以防namenode失敗的時候,可以恢復。 10、出現(xiàn)在datanode的VERSION文件格式中但不出現(xiàn)在namenode的VERSION文件格式中的是 A. namespaceID B. storageID C. storageType D. layoutVersion 答案:B 知識點:其他三項是公有的。layoutVersion是一個負整數(shù),保存了HDFS的持續(xù)化在硬盤上的數(shù)據(jù)結(jié)構(gòu)的格式版本號;namespaceID是文件系統(tǒng)的唯一標識符,是在文件系統(tǒng)初次格式化時生成的;storageType表示此文件夾中保存的是數(shù)據(jù)節(jié)點的類型 11、Client在HDFS上進行文件寫入時,namenode根據(jù)文件大小和配置情況,返回部分datanode信息,誰負責將文件劃分為多個Block,根據(jù)DataNode的地址信息,按順序?qū)懭氲矫恳粋€DataNode塊 A Client B Namenode C Datanode D Secondary namenode 答案:A 知識點:HDFS文件寫入 12、HDFS的是基于流數(shù)據(jù)模式訪問和處理超大文件的需求而開發(fā)的,默認的最基本的存儲單位是64M,具有高容錯、高可靠性、高可擴展性、高吞吐率等特征,適合的讀寫任務是 A一次寫入,少次讀寫 B多次寫入,少次讀寫 C一次寫入,多次讀寫 D多次寫入,多次讀寫 答案:C 知識點:HDFS特性 13、HDFS無法高效存儲大量小文件,想讓它能處理好小文件,比較可行的改進策略不包括 A 利用SequenceFile、MapFile、Har等方式歸檔小文件 B 多Master設計 C Block大小適當調(diào)小 D 調(diào)大namenode內(nèi)存或?qū)⑽募到y(tǒng)元數(shù)據(jù)存到硬盤里 答案:D 知識點:HDFS特性 14、關(guān)于HDFS的文件寫入,正確的是 A 支持多用戶對同一文件的寫操作 B 用戶可以在文件任意位置進行修改 C 默認將文件塊復制成三份存放 D 復制的文件塊默認都存在同一機架上 答案:C 知識點:在HDFS的一個文件中只有一個寫入者,而且寫操作只能在文件末尾完成,即只能執(zhí)行追加操作。默認三份文件塊兩塊在同一機架上,另一份存放在其他機架上。 15、Hadoop fs中的-get和-put命令操作對象是 A 文件 B 目錄 C 兩者都是 答案:C 知識點:HDFS命令 16、Namenode在啟動時自動進入安全模式,在安全模式階段,說法錯誤的是 A 安全模式目的是在系統(tǒng)啟動時檢查各個DataNode上數(shù)據(jù)塊的有效性 B 根據(jù)策略對數(shù)據(jù)塊進行必要的復制或刪除 C 當數(shù)據(jù)塊最小百分比數(shù)滿足的最小副本數(shù)條件時,會自動退出安全模式 D 文件系統(tǒng)允許有修改 答案:D 知識點:HDFS安全模式 /MapReduce 17、MapReduce框架提供了一種序列化鍵/值對的方法,支持這種序列化的類能夠在Map和Reduce過程中充當鍵或值,以下說法錯誤的是 A 實現(xiàn)Writable接口的類是值 B 實現(xiàn)WritableComparable接口的類可以是值或鍵 C Hadoop的基本類型Text并不實現(xiàn)WritableComparable接口 D 鍵和值的數(shù)據(jù)類型可以超出Hadoop自身支持的基本類型 答案:C 18、以下四個Hadoop預定義的Mapper實現(xiàn)類的描述錯誤的是 A IdentityMapper實現(xiàn)Mapper,將輸入直接映射到輸出 B InverseMapper實現(xiàn)Mapper,反轉(zhuǎn)鍵/值對 C RegexMapper實現(xiàn)Mapper,為每個常規(guī)表達式的匹配項生成一個(match, 1)對 D TokenCountMapper實現(xiàn)Mapper,當輸入的值為分詞時,生成(taken, 1)對 答案:B 知識點:InverseMapper實現(xiàn)Mapper 19、下列關(guān)于HDFS為存儲MapReduce并行切分和處理的數(shù)據(jù)做的設計,錯誤的是 A FSDataInputStream擴展了DataInputStream以支持隨機讀 B 為實現(xiàn)細粒度并行,輸入分片(Input Split)應該越小越好 C 一臺機器可能被指派從輸入文件的任意位置開始處理一個分片 D 輸入分片是一種記錄的邏輯劃分,而HDFS數(shù)據(jù)塊是對輸入數(shù)據(jù)的物理分割 答案:B 知識點:每個分片不能太小,否則啟動與停止各個分片處理所需的開銷將占很大一部分執(zhí)行時間 20、針對每行數(shù)據(jù)內(nèi)容為”Timestamp Url”的數(shù)據(jù)文件,在用JobConf對象conf設置conf.setInputFormat(WhichInputFormat.class)來讀取這個文件時,WhichInputFormat應該為以下的 A TextInputFormat B KeyValueTextInputFormat C SequenceFileInputFormat D NLineInputFormat 答案:B 知識點:四項主要的InputFormat類。KeyValueTextInputFormat以每行第一個分隔符為界,分隔符前為key,之后為value,默認制表符為t 21、有關(guān)MapReduce的輸入輸出,說法錯誤的是 A 鏈接多個MapReduce作業(yè)時,序列文件是首選格式 B FileInputFormat中實現(xiàn)的getSplits()可以把輸入數(shù)據(jù)劃分為分片,分片數(shù)目和大小任意定義 C 想完全禁止輸出,可以使用NullOutputFormat D 每個reduce需將它的輸出寫入自己的文件中,輸出無需分片 答案:B 知識點:分片數(shù)目在numSplits中限定,分片大小必須大于mapred.min.size個字節(jié),但小于文件系統(tǒng)的塊 22、Hadoop Streaming支持腳本語言編寫簡單MapReduce程序,以下是一個例子: bin/hadoop jar contrib/streaming/hadoop-0.20-streaming.jar input input/filename output output mapper dosth.py 5 file dosth.py D mapred.reduce.tasks=1 23、以下說法不正確的是 A Hadoop Streaming使用Unix中的流與程序交互 B Hadoop Streaming允許我們使用任何可執(zhí)行腳本語言處理數(shù)據(jù)流 C 采用腳本語言時必須遵從UNIX的標準輸入STDIN,并輸出到STDOUT D Reduce沒有設定,上述命令運行會出現(xiàn)問題 答案:D 知識點:沒有設定特殊的reducer,默認使用IdentityReducer 24、在高階數(shù)據(jù)處理中,往往無法把整個流程寫在單個MapReduce作業(yè)中,下列關(guān)于鏈接MapReduce作業(yè)的說法,不正確的是 AJob和JobControl類可以管理非線性作業(yè)之間的依賴 BChainMapper和ChainReducer類可以用來簡化數(shù)據(jù)預處理和后處理的構(gòu)成 C使用ChainReducer時,每個mapper和reducer對象都有一個本地JobConf對象 DChainReducer.addMapper()方法中,一般對鍵/值對發(fā)送設置成值傳遞,性能好且安全性高 答案:D 知識點:ChainReducer.addMapper()方法中,值傳遞安全性高,引用傳遞性能高 25、下面哪個程序負責 HDFS 數(shù)據(jù)存儲。答案C datanodea)NameNodeb)Jobtrackerc)Datanode d)secondaryNameNodee)tasktracker26. HDfS 中的 block 默認保存幾份? 答案A默認3分a)3 份b)2 份c)1 份d)不確定27. 下列哪個程序通常與 NameNode 在一個節(jié)點啟動?答案Da)SecondaryNameNodeb)DataNodec)TaskTrackerd)Jobtracker28. Hadoop 作者 答案C Doug cuttinga)Martin Fowlerb)Kent Beckc)Doug cutting29. HDFS 默認 Block Size 答案:Ba)32MBb)64MB c)128MB30、下列哪項通常是集群的最主要瓶頸:答案:C磁盤a)CPUb)網(wǎng)絡c)磁盤IO d)內(nèi)存31. 關(guān)于 SecondaryNameNode 哪項是正確的?答案Ca)它是 NameNode 的熱備b)它對內(nèi)存沒有要求c)它的目的是幫助 NameNode 合并編輯日志,減少 NameNode 啟動時間d)SecondaryNameNode 應與 NameNode 部署到一個節(jié)點。多選題:1. 下列哪項可以作為集群的管理?答案:ABDa)Puppet b)Pdsh c)Cloudera Managerd)Zookeeper2. 配置機架感知的下面哪項正確:答案ABCa)如果一個機架出問題,不會影響數(shù)據(jù)讀寫b)寫入數(shù)據(jù)的時候會寫到不同機架的 DataNode 中c)MapReduce 會根據(jù)機架獲取離自己比較近的網(wǎng)絡數(shù)據(jù)3. Client 端上傳文件的時候下列哪項正確?答案Ba)數(shù)據(jù)經(jīng)過 NameNode 傳遞給 DataNodeb)Client 端將文件切分為 Block,依次上傳c)Client 只上傳數(shù)據(jù)到一臺 DataNode,然后由 NameNode 負責 Block 復制工作4. 下列哪個是 Hadoop 運行的模式:答案ABCa)單機版 b)偽分布式 c)分布式5. Cloudera 提供哪幾種安裝 CDH 的方法?答案:ABCDa)Cloudera manager b)Tarball c)Y

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論