大數(shù)據(jù)題庫(kù)-大數(shù)據(jù)技術(shù)與工具練習(xí)試題及答案

上傳人：啊*** IP屬地：浙江上傳時(shí)間：2023-12-27 格式：DOC 頁(yè)數(shù)：44 大?。?8.24KB 積分：20 舉報(bào) 版權(quán)申訴

大數(shù)據(jù)題庫(kù)-大數(shù)據(jù)技術(shù)與工具練習(xí)試題及答案_第2頁(yè)

大數(shù)據(jù)題庫(kù)-大數(shù)據(jù)技術(shù)與工具練習(xí)試題及答案_第3頁(yè)

大數(shù)據(jù)題庫(kù)-大數(shù)據(jù)技術(shù)與工具練習(xí)試題及答案_第4頁(yè)

大數(shù)據(jù)題庫(kù)-大數(shù)據(jù)技術(shù)與工具練習(xí)試題及答案_第5頁(yè)

已閱讀5頁(yè)，還剩39頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第頁(yè)大數(shù)據(jù)題庫(kù)-大數(shù)據(jù)技術(shù)與工具練習(xí)試題及答案1.下列關(guān)于ZooKecper特點(diǎn)的描述錯(cuò)誤的是（）。A、復(fù)雜性B、自我復(fù)制C、順序訪問D、高速讀取【正確答案】：A解析：

ZooKeeper的設(shè)計(jì)回標(biāo)和特點(diǎn)包括簡(jiǎn)單性、自我復(fù)制、順序訪問和高速讀取。2.下列組件中MapReduce編程模型中最后執(zhí)行的是（）。A、MapperB、PartitionerC、ReducerD、RecordReader【正確答案】：C解析：

MapReduce編程模型中四個(gè)組件的執(zhí)行順序是RecordReader→MapperPartitioner→Reducer。3.MapReduce任務(wù)Map輸出結(jié)果將被寫入（）。A、HDFS文件系統(tǒng)B、新的記錄文件C、磁盤（Linux文件系統(tǒng)）D、主數(shù)據(jù)庫(kù)【正確答案】：C解析：

MapReduce中的Map輸出結(jié)果會(huì)被寫入對(duì)應(yīng)的磁盤中。4.在MapReduce中，通常將Map拆分成M個(gè)片段、Reduce拆分成R個(gè)片段，下列描述錯(cuò)誤的是（）。A、MapReduce中單臺(tái)機(jī)器上執(zhí)行大量不同的任務(wù)可以提高集群的負(fù)載均衡能力B、Master必須執(zhí)行O（M＋R）次調(diào)度C、Master在內(nèi)存中保存O（M＋R）個(gè)狀態(tài)D、M和R要比集群中Worker數(shù)量多【正確答案】：C解析：

master必須執(zhí)行O（M＋R）次調(diào)度，并且在內(nèi)存中保存O（MXR）個(gè)狀態(tài)，故C錯(cuò)。5.SparkJob默認(rèn)的調(diào)度模式是（）。A、FIFOB、FAIRC、無D、運(yùn)行時(shí)指定【正確答案】：A解析：

默認(rèn)情況下Spark的調(diào)度模式是FIFO（先進(jìn)先出）。6.執(zhí)行一個(gè)job，如果這個(gè)job的輸出路徑已經(jīng)存在，那么程序會(huì)（）。A、覆蓋這個(gè)輸出路徑B、拋出警告，但是能夠繼續(xù)執(zhí)行C、拋出一個(gè)異常，然后退出D、創(chuàng)建一個(gè)新的輸出路徑【正確答案】：C解析：

MapReduce編程模型中的輸出目錄必須是不存在的目錄，否則程序拋出異常并且退出運(yùn)行。7.MapReduce對(duì)map（）函數(shù)的返回值進(jìn)行處理后再返回給reduce（）函數(shù)的目的是()。A、減少map（）函數(shù)和reduce（）函數(shù)之間的數(shù)據(jù)傳輸B、優(yōu)化map（）函數(shù)C、優(yōu)化reduce（）函數(shù)D、這一步驟并無必要【正確答案】：A解析：

為了降低map（）函數(shù)與reduce（）函數(shù)之間的數(shù)據(jù)傳輸量，一般先對(duì)map（）函數(shù)的輸出結(jié)果進(jìn)行處理。8.Hadoop生態(tài)系統(tǒng)中，HBase是一種（）。A、分布式文件系統(tǒng)B、數(shù)據(jù)倉(cāng)庫(kù)C、實(shí)時(shí)分布式數(shù)據(jù)庫(kù)D、分布式計(jì)算系統(tǒng)【正確答案】：C解析：

HBase是一個(gè)面向列的實(shí)時(shí)分布式數(shù)據(jù)庫(kù)。9.下列關(guān)于DataNode的描述錯(cuò)誤的是（）。A、DataNode負(fù)責(zé)處理文件系統(tǒng)客戶端的文件讀寫請(qǐng)求B、DataNode進(jìn)行數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制工作C、集群中的DataNode一般是一個(gè)節(jié)點(diǎn)一個(gè)D、文件的副本系數(shù)由DataNode儲(chǔ)存【正確答案】：D解析：

文件副本的數(shù)目稱為文件的副本系數(shù)，這個(gè)信息是由NameNode保存的。10.大數(shù)據(jù)平臺(tái)構(gòu)建分布式文件系統(tǒng)、分布式數(shù)據(jù)倉(cāng)庫(kù)、非關(guān)系型數(shù)據(jù)庫(kù)、關(guān)系型數(shù)據(jù)庫(kù)，實(shí)現(xiàn)各類數(shù)據(jù)的集中存儲(chǔ)與統(tǒng)一管理，滿足（）存儲(chǔ)需求。A、歷史數(shù)據(jù)B、離線數(shù)據(jù)C、實(shí)時(shí)數(shù)據(jù)D、多樣化數(shù)據(jù)【正確答案】：D解析：

大數(shù)據(jù)平臺(tái)構(gòu)建分布式文件系統(tǒng)、分布式數(shù)據(jù)倉(cāng)庫(kù)、非關(guān)系型數(shù)據(jù)庫(kù)、關(guān)系型數(shù)據(jù)庫(kù)、實(shí)現(xiàn)各類數(shù)據(jù)的集中存儲(chǔ)與統(tǒng)一管理，滿足多樣化數(shù)據(jù)存儲(chǔ)需求。11.Spark中引人RDD概念的目的是（）。A、數(shù)據(jù)存儲(chǔ)B、數(shù)據(jù)查重C、提升容錯(cuò)能力D、增強(qiáng)數(shù)據(jù)一致性【正確答案】：C解析：

在Spark中引入RDD概念的目的是實(shí)現(xiàn)Spark的并行操作和靈活的容錯(cuò)能力。12.通常落伍者是影響MapReduce總執(zhí)行時(shí)間的主要影響因素之一，為此MapReduce采用（）機(jī)制來解決。A、分布式計(jì)算B、惰性計(jì)算C、推測(cè)性執(zhí)行的任務(wù)備份D、先進(jìn)先出【正確答案】：C解析：

MapReduce采用推測(cè)性執(zhí)行的任務(wù)備份機(jī)制，當(dāng)作業(yè)中大多數(shù)的任務(wù)都已經(jīng)完成時(shí)，系統(tǒng)在幾個(gè)空閑的節(jié)點(diǎn)上調(diào)度執(zhí)行剩余任務(wù)的備份，并在多個(gè)Worker上同時(shí)進(jìn)行相同的剩余任務(wù)。13.一個(gè)MapReduce程序中的MapTask的個(gè)數(shù)由（）決定。A、輸入的總文件數(shù)B、客戶端程序設(shè)置的mapTask的個(gè)數(shù)C、FileInputFormat.getSplits（JobContextjob）計(jì)算出的邏輯切片的數(shù)量D、輸入的總文件大?。瘮?shù)據(jù)塊大小【正確答案】：C解析：

MapReduce編程模型中的MapTask的并行度決定機(jī)制是由FilelnputFormat.getSplits（JobContextjob）決定的。該方法的返回值是List＜InputSplit＞splits，這個(gè)結(jié)果集合中的每個(gè)InputSplit就是一個(gè)邏輯輸入切片，每個(gè)邏輯輸入切片在默認(rèn)情況下是會(huì)要啟動(dòng)一個(gè)MapTask任務(wù)進(jìn)行計(jì)算的，因此C對(duì)。14.在HDFS中，（）是文件系統(tǒng)的工作節(jié)點(diǎn)。A、DataNodeB、ClientC、NameNodeD、Flume【正確答案】：A解析：

數(shù)據(jù)節(jié)點(diǎn)（DataNode）是分布式文件系統(tǒng)HDFS的工作節(jié)點(diǎn)，負(fù)責(zé)數(shù)據(jù)的存儲(chǔ)讀取，會(huì)根據(jù)客戶端或者是名稱節(jié)點(diǎn)的調(diào)度來進(jìn)行數(shù)據(jù)的存儲(chǔ)和檢索，并且向名稱節(jié)點(diǎn)定發(fā)送自己所存儲(chǔ)的塊的列表，每個(gè)數(shù)據(jù)節(jié)點(diǎn)中的數(shù)據(jù)會(huì)被保存在各自節(jié)點(diǎn)本地Linux文件統(tǒng)中。15.解決Master故障的方法是設(shè)置檢查點(diǎn)，當(dāng)Master失效時(shí)，從（）檢查點(diǎn)開)動(dòng)另一個(gè)Master進(jìn)程。A、第一個(gè)B、中間一個(gè)C、最后一個(gè)D、隨機(jī)選擇一個(gè)【正確答案】：C解析：

從最后一個(gè)檢查點(diǎn)開始啟動(dòng)另-Master進(jìn)程使得因故障產(chǎn)生的影響更小。16.（）不是HDFS的設(shè)計(jì)目標(biāo)。A、流式數(shù)據(jù)訪問B、大規(guī)模數(shù)據(jù)集C、移動(dòng)計(jì)算D、多次寫入，多次讀取的文件訪問模型【正確答案】：D解析：

HDFS的設(shè)計(jì)以一次寫入，多次讀取為主要應(yīng)用場(chǎng)景，因此D錯(cuò)。17.MapReduce使用（）來記錄不同事件的發(fā)生次數(shù)。A、日志B、事件觸發(fā)器C、狀態(tài)列表D、計(jì)數(shù)器【正確答案】：D解析：

MapReduce使用計(jì)數(shù)器來記錄不同事件的發(fā)生次數(shù)。18.下列關(guān)于HDFS的描述正確的是（）。A、如果NameNode宕機(jī)，SecondaryNamcNode會(huì)接替它使集群繼續(xù)工作B、HDFS集群支持?jǐn)?shù)據(jù)的隨機(jī)讀寫C、NameNode磁盤元數(shù)據(jù)不保存Block的位置信息DataNode通過長(zhǎng)連接與NameNode保持通信【正確答案】：C解析：

SccondaryNameNode并不是NameNode節(jié)點(diǎn)的備份，所以A錯(cuò)；存儲(chǔ)在HD集群上的數(shù)據(jù)是不支持隨機(jī)修改和刪除的，只支持追加，所以B錯(cuò)；NanNode和DataNo之間的通信是基于一種心跳機(jī)制，該機(jī)制不是長(zhǎng)連接是短連接形式，每次發(fā)送一個(gè)數(shù)據(jù)（自身狀態(tài)信息＋數(shù)據(jù)塊信息）即可，所以D錯(cuò)。19.Hadoop中，Reducer的三個(gè)步驟是（）。A、Shuffle-Sort-ReduceB、Shuffle-Reduce-SortC、Reduce-Shuffle-SortD、Sort--Shuffle-Reduce【正確答案】：A解析：

Reducer主要分為Shuffle洗牌、Sort排序和Reduce三個(gè)步驟。20.Spark中Job的劃分依據(jù)是（）。A、依賴B、Action算子C、Transformation算子【正確答案】：B解析：

Action的觸發(fā)會(huì)生成一個(gè)Job，Job會(huì)提交給DAGScheduler分解成Stage。因Job是由Action算子劃分的，B正確。21.分布式應(yīng)用程序可以基于分布式應(yīng)用程序協(xié)調(diào)服務(wù)實(shí)現(xiàn)同步服務(wù)，配置維護(hù)和命名服務(wù)等的工具是（）。A、FlumeB、ZookeeperC、StormD、SparkStreaming【正確答案】：B解析：

Zookeeper和Chubby均是分布式協(xié)調(diào)服務(wù)。22.相對(duì)于HadoopMapRcducel．0，Spark的特點(diǎn)不包括（)。A、速度快B、并發(fā)多C、通用性D、易用性【正確答案】：B解析：

相較于HadoopMapReduce，Spark的特點(diǎn)為速度快、通用性和易用性。23.RDD中的數(shù)據(jù)被（）在集群中，使得任務(wù)可以并行執(zhí)行。A、順序存儲(chǔ)B、連續(xù)存儲(chǔ)C、分塊存儲(chǔ)D、分區(qū)存儲(chǔ)【正確答案】：D解析：

RDD為分區(qū)存儲(chǔ)。24.（）的主要目標(biāo)是提供可擴(kuò)展的機(jī)器學(xué)習(xí)算法及其實(shí)現(xiàn)，旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。A、MahoutB、FlumeC、SqoopD、HBase【正確答案】：A解析：

Mahout是ApacheSoftwareFoundation（ASF）旗下的一個(gè)開源項(xiàng)目，提供一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實(shí)現(xiàn)，旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。Mahout包含許多實(shí)現(xiàn)，如聚類、分類、推薦過濾、頻繁子項(xiàng)挖掘等。25.在MapReduce中，為了發(fā)現(xiàn)Worker故障，Master周期性進(jìn)行的操作是（）。A、JoinB、PingCheckD、Connect【正確答案】：B解析：

為了發(fā)現(xiàn)Worker故障，Master周期性進(jìn)行Ping操作。26.下列進(jìn)程中不是HDFS的守護(hù)進(jìn)程的是（）。A、SecondaryNameNodeB、DataNodeC、MRAppMaster/YamChildD、NameNode【正確答案】：C解析：

NameNode是HDFS集群的主節(jié)點(diǎn)，DataNode是HDFS集群的從節(jié)點(diǎn)，SecondaryNameNode是HDFS集群?jiǎn)?dòng)的用來給NameNode節(jié)點(diǎn)分擔(dān)壓力的角色，這個(gè)三個(gè)服務(wù)進(jìn)程會(huì)一直啟動(dòng)著。MRAppMaster／YarnChild進(jìn)程是只有在YARN集群運(yùn)行了MapReduce程序之后才會(huì)啟動(dòng)的程序。27.下列描述中不屬于HDFS集群中的NameNode職責(zé)的是（）。A、維護(hù)HDFS集群的目錄樹結(jié)構(gòu)B、維護(hù)HDFS集群的所有數(shù)據(jù)塊的分布、副本數(shù)和負(fù)載均衡C、負(fù)責(zé)保存客戶端上傳的數(shù)據(jù)D、響應(yīng)客戶端的所有讀寫數(shù)據(jù)請(qǐng)求【正確答案】：C解析：

NameNode是HDFS的管理節(jié)點(diǎn)，DataNode是HDFS集群的工作節(jié)點(diǎn)。所以用戶上傳的數(shù)據(jù)是由DataNode進(jìn)行保存的；NameNode負(fù)責(zé)保存用戶上傳的數(shù)據(jù)的元數(shù)據(jù)和維護(hù)HDFS的抽象目錄樹結(jié)構(gòu)，也會(huì)響應(yīng)客戶端的所有讀寫請(qǐng)求。28.在Spark中，（）是指RDD的每個(gè)分區(qū)都只被子RDD的一個(gè)分區(qū)所依賴。A、子分區(qū)B、父分區(qū)C、寬依賴D、窄依賴【正確答案】：D解析：

窄依賴定義。29.（）肯定是寬依賴操作。A、mapB、flatMapC、reduceByKeyD、sample【正確答案】：C解析：

Spark中常見的窄依賴操作包括map、filer、union、sample等，寬依賴操作包括reduceByKey、groupByKey、join等。30.（）主要提供內(nèi)存計(jì)算框架。A、Spark核心層B、資源管理層C、服務(wù)層D、Spark層【正確答案】：A解析：

Spark的技術(shù)架構(gòu)可以分為資源管理層、Spark核心層和服務(wù)層三層。資源管理層主要提供資源管理功能；Spark核心層主要提供內(nèi)存計(jì)算恒架；服務(wù)層主要提供面向特定類型的計(jì)算服務(wù)。31.DataFrame和RDD最大的區(qū)別是（）。A、科學(xué)統(tǒng)計(jì)支持B、DataFrame多了schemaC、存儲(chǔ)方式不一樣D、外部數(shù)據(jù)源支持【正確答案】：B解析：

相比于RDD，DataFrame多了數(shù)據(jù)的結(jié)構(gòu)信息，即schema。32.HBase依靠（）提供強(qiáng)大的計(jì)算能力。A、ZooKeeperB、ChubbyC、RPCD、MapReduce【正確答案】：D解析：

Chubby是分布式協(xié)調(diào)系統(tǒng)，類似于ZooKecper。RPC（RemoteProcedureCall）是遠(yuǎn)程過程調(diào)用，它是一種通過網(wǎng)絡(luò)從遠(yuǎn)程計(jì)算機(jī)程序上請(qǐng)求服務(wù)，而不需要了解底層網(wǎng)絡(luò)技術(shù)的協(xié)議。HBase依靠MapReduce提供強(qiáng)大的計(jì)算能力。33.（）負(fù)責(zé)HDFS數(shù)據(jù)存儲(chǔ)。A、NameNodeB、JobTrackerC、DataNodeD、SccondaryNameNode【正確答案】：C解析：

DataNode負(fù)責(zé)HDFS的數(shù)據(jù)塊存儲(chǔ)。34.（）用于對(duì)RDD中的數(shù)據(jù)進(jìn)行計(jì)算。A、分區(qū)B、算子C、日志D、數(shù)據(jù)塊【正確答案】：B解析：

算子是Spark中定義的函數(shù)，用于對(duì)RDD中的數(shù)據(jù)進(jìn)行操作、轉(zhuǎn)換和計(jì)算。35.（）不是Spark服務(wù)層的功能。A、SQL查詢B、實(shí)時(shí)處理C、機(jī)器學(xué)習(xí)D、內(nèi)存計(jì)算【正確答案】：D解析：

Spark服務(wù)層主要提供面向特定類型的計(jì)算服務(wù)。如SQL金詢、實(shí)時(shí)處理、機(jī)器學(xué)習(xí)以及圖計(jì)算。36.在MapReduce計(jì)算架構(gòu)中，（）組件運(yùn)行在DataNode上，具體管理本節(jié)點(diǎn)計(jì)算任務(wù)的執(zhí)行。A、ClientB、JobTrackerC、TaskTrackerD、Task【正確答案】：C解析：

TaskTracker組件運(yùn)行在DataNode上，具體管理本節(jié)點(diǎn)計(jì)算任務(wù)的執(zhí)行。37.下列操作中MapReduce的Shuffle階段最后做的是（）。A、溢寫B(tài)、分區(qū)C、排序D、合并【正確答案】：D解析：

MapReduce編程模型分為Mapper和Reducer階段，在Mapper和Reducer的中間還有一個(gè)Shuffle階段。Shuflle中的執(zhí)行順序是先分區(qū)，然后在溢寫之前進(jìn)行排序，最后治出的多個(gè)磁盤文件會(huì)進(jìn)行合并成一個(gè)大文件。38.（）不是RDD的緩存方法。A、persistB、cacheC、memoryD、以上答案都正確【正確答案】：C解析：

RDD的緩存方法包括persist和cache.其中cache方法默認(rèn)存儲(chǔ)到內(nèi)存中。39.（）是Spark的核心數(shù)據(jù)結(jié)構(gòu)。A、彈性分布式數(shù)據(jù)集B、列表C、元組D、字典【正確答案】：A解析：

彈性分布式數(shù)據(jù)集（RDD）是Spark的核心數(shù)據(jù)結(jié)構(gòu)。40.為了降低MapRcduce兩個(gè)階段之間的數(shù)據(jù)傳遞量，一般采用（）函數(shù)對(duì)map階段的輸出進(jìn)行處理。A、sort()B、combiner()C、join()D、gather()【正確答案】：B解析：

為了降低數(shù)據(jù)傳遞量，采用combiner（）函數(shù)對(duì)map（）函數(shù)的數(shù)據(jù)結(jié)果進(jìn)行合并處理。41.下列數(shù)據(jù)類型Hive不支持的是（）。A、StructB、IntC、MapD、Long【正確答案】：D解析：

Hive支持原生數(shù)據(jù)類型（TinyInt、Smalllnt、Int、BigInt、Boolean、Float、Double、String），也支持復(fù)雜數(shù)據(jù)類型（Map、Array、Struct、Union），不支持Long。42.HBase依靠（）存儲(chǔ)底層數(shù)據(jù)。A、HDFSB、HadoopC、MemoryD、MapReducc【正確答案】：A解析：

HBase位于結(jié)構(gòu)化存儲(chǔ)層，HDFS為HBase提供了高可靠性的底層存儲(chǔ)支持。43.（）通常與NameNode在一個(gè)節(jié)點(diǎn)啟動(dòng)。A、SecondaryNameNodeB、DataNodeC、TaskTrackerD、JobTracker【正確答案】：D解析：

Hadoop的集群是基于master／slave模式，NameNode和JobTracker屬于master，DataNode和TaskTracker屬于slave，master只有一個(gè)，而slave有多個(gè)。SecondaryNameNode內(nèi)存需求和NameNode在一個(gè)數(shù)量級(jí)上，所以通常SecondaryNameNode（運(yùn)行在單獨(dú)的物理機(jī)器上）和NameNode運(yùn)行在不同的機(jī)器上。JobTracker對(duì)應(yīng)于NameNode，TaskTracker對(duì)應(yīng)于DataNode。DataNode和NameNode是針對(duì)數(shù)據(jù)存放來而言的，JobTracker和TaskTracker是對(duì)于MapRcduce執(zhí)行而言的。44.在Hadoop中，（）是默認(rèn)的InputFormat類型，它將每行內(nèi)容作為新值，而將字節(jié)偏移量作為key。A、FilelnputFormatB、TextlnputFormatC、KeyValueTextInputFormatD、CombineTextInputFormat【正確答案】：B解析：

TextInputFormat是默認(rèn)的InputFormat。每條記錄是一行輸入，鍵Key是LongWritable類型，存儲(chǔ)該行在整個(gè)文件中的字節(jié)偏移量。45.MapReduce計(jì)算框架的輸入數(shù)據(jù)結(jié)構(gòu)是（)。A、kcy-valucB、input-outputC、map-reduceD、key-column【正確答案】：A解析：

MapReduce計(jì)算框架的輸入是鍵值對(duì)，即key-value。46.依托（），結(jié)合應(yīng)用推進(jìn)數(shù)據(jù)歸集，形成統(tǒng)一的數(shù)據(jù)資源中心。A、全業(yè)務(wù)數(shù)據(jù)中心和數(shù)據(jù)平臺(tái)B、營(yíng)銷基礎(chǔ)數(shù)據(jù)平臺(tái)和大數(shù)據(jù)平臺(tái)C、全業(yè)務(wù)中心和營(yíng)銷基礎(chǔ)數(shù)據(jù)平臺(tái)D、全業(yè)務(wù)數(shù)據(jù)中心和大數(shù)據(jù)平臺(tái)【正確答案】：A解析：

詳見《國(guó)網(wǎng)互聯(lián)網(wǎng)部關(guān)于加強(qiáng)數(shù)據(jù)管理的通知》（互聯(lián)數(shù)據(jù)［2019］14號(hào)）。47.DAGScheduler的作用是（)。A、負(fù)責(zé)分配任務(wù)B、負(fù)責(zé)調(diào)度Worker的運(yùn)行C、負(fù)責(zé)創(chuàng)建執(zhí)行計(jì)劃D、負(fù)責(zé)清理執(zhí)行完畢的任務(wù)【正確答案】：C解析：

Scheduler模塊分為DAGScheduler和TaskScheduler兩個(gè)部分。DAGScheduler負(fù)責(zé)創(chuàng)建執(zhí)行計(jì)劃；TaskScheduler負(fù)責(zé)分配任務(wù)并調(diào)度Worker的運(yùn)行。48.Hive的數(shù)據(jù)最終存儲(chǔ)在（）中。A、HDFSB、HBaseC、RDBMSD、MctaStore【正確答案】：A解析：

Hive是基于Hadoop分布式文件系統(tǒng)的，它的數(shù)據(jù)存儲(chǔ)在Hadoop分布式文件系統(tǒng)HDFS中。49.下列關(guān)于MapReduce計(jì)算框架中生成鍵值對(duì)的說法正確的是（）。A、可以有相同的鍵，值必須唯一B、可以有相同的值，鍵必須唯一C、可以有相同的鍵，也可以有相同的值D、鍵和值都必須唯一【正確答案】：C解析：

鍵值對(duì)中的鍵和值并沒有必然的聯(lián)系，兩者可以相同。50.當(dāng)（）時(shí)，可以不考慮RDD序列化處理。A、完成成本比較高的操作后B、執(zhí)行容易失敗的操作之前C、RDD被重復(fù)使用D、實(shí)時(shí)性要求高【正確答案】：D解析：

RDD的序列化處理主要在完成成本比較高的操作之后、執(zhí)行容易失敗的操作之前、當(dāng)RDD被重復(fù)使用或者計(jì)算其代價(jià)很高時(shí)進(jìn)行。51.在Hadoop中，（）執(zhí)行文件系統(tǒng)命名空間操作。A、DataNodeB、NameNodeC、JobTrackerD、TaskTracker【正確答案】：B解析：

NameNode在HDFS這種文件系統(tǒng)中充當(dāng)著Master的角色，負(fù)責(zé)的功能有很多，比如文件系統(tǒng)目錄管理（命名空間管理）、數(shù)據(jù)塊管理、數(shù)據(jù)節(jié)點(diǎn)管理、租約管理、緩存管理等。52.Hadoop環(huán)境下HDFS系統(tǒng)中的NameNode實(shí)現(xiàn)的功能是（）。A、管理文件系統(tǒng)的命名空間B、管理存儲(chǔ)空間C、分配算力D、調(diào)控算法【正確答案】：A解析：

NameNode負(fù)責(zé)管理文件系統(tǒng)的命名空間。53.HBase是一種可伸縮、高可靠、高性能、分布式和面向（）的動(dòng)態(tài)模式數(shù)據(jù)庫(kù)。A、列B、行C、行和列D、元組【正確答案】：A解析：

HBase支持的是列式存儲(chǔ)。54.在Hadoop的分區(qū)階段，默認(rèn)的Partitioner是（）。A、RangePartitionerB、PartitionerC、HashPartitionerD、用戶自定義的Partitioner【正確答案】：C解析：

Hadoop中默認(rèn)的Partitioner是HashPartitioner。55.Spark可以處理的數(shù)據(jù)任務(wù)包括（）。A、數(shù)據(jù)流處理B、交互式處理C、圖數(shù)據(jù)處理D、以上都是【正確答案】：D解析：

Spark可以很好地支持?jǐn)?shù)據(jù)流計(jì)算、交互式處理、圖計(jì)算等多種計(jì)算模式。56.在MapReduce中，reduce（）函數(shù)可以將（）值相同的輸入進(jìn)行合并處理A、inputB、keyC、valueD、number【正確答案】：B解析：

rcduce（）函數(shù)根據(jù)key值合并value值。57.HDFS是Hadoop平臺(tái)上的分布式文件系統(tǒng)，它是由（）組成的。A、一個(gè)NameNode、一個(gè)SecondaryNamcNode和多個(gè)DataNodeB、一個(gè)DataNode、--個(gè)SecondaryNameNode和多個(gè)NameNodeC、多個(gè)NameNode、一個(gè)SecondaryNameNode和多個(gè)DataNodeD、一個(gè)NameNode、一個(gè)SecondaryNameNode和一個(gè)DataNode【正確答案】：A解析：

HDFS由一個(gè)NameNodc、一個(gè)SecondaryNamcNode和多個(gè)DataNode組成。58.下列關(guān)于Hadoop的說法錯(cuò)誤的是（）。A、它運(yùn)行在通用硬件上B、它是Apache軟件基金會(huì)（ASF）下的項(xiàng)目C、它是最好的實(shí)時(shí)流式數(shù)據(jù)處理框架D、Hadoop對(duì)數(shù)據(jù)的處理是有延遲的【正確答案】：C解析：

Hadoop不善于處理除批處理計(jì)算模式之外的其他計(jì)算模式，如流計(jì)算等。故C錯(cuò)。59.Spark比MapReduce快的原因不包括（）。A、Spark基于內(nèi)存迭代，而MapReduce基于磁盤迭代B、DAG計(jì)算模型比MapReduce更有效率C、Spark是粗粒度的資源調(diào)度，而MapReduce是細(xì)粒度的資源調(diào)度D、Spark支持交互式處理，MapReduce善于處理流計(jì)算【正確答案】：D解析：

A、B、C是Spark比MapReduce快的原因。MapReduce不善于處理除批處理算模式之外的其他計(jì)算模式，如流計(jì)算、交互式計(jì)算和圖計(jì)算等。60.HBase使用一個(gè)（）節(jié)點(diǎn)協(xié)調(diào)管理一個(gè)或多個(gè)RegionServer從屬機(jī)。A、NameNodeB、DataNodeC、JobTrackerD、Master【正確答案】：D解析：

HBase中由一個(gè)Master節(jié)點(diǎn)負(fù)責(zé)協(xié)調(diào)管理一個(gè)或多個(gè)RegionServer從屬機(jī)。61.為了提高系統(tǒng)性能，Spark采取惰性計(jì)算模式。下列關(guān)于惰性計(jì)算模式的描述正確的是（）。A、執(zhí)行Transformation操作時(shí)不會(huì)提交，只有執(zhí)行Action操作時(shí)才會(huì)被提交到集群中開始被執(zhí)行B、執(zhí)行Action操作時(shí)不會(huì)提交，只有執(zhí)行Transformation操作時(shí)才會(huì)被提交到集群中開始被執(zhí)行C、只有執(zhí)行完Action操作和Transformation操作時(shí)，所有操作才會(huì)被提交到集群中開始被執(zhí)行D、執(zhí)行完Action操作或Transformation操作時(shí)都不會(huì)提交到集群【正確答案】：A解析：

Spark惰性計(jì)算模式定義。62.下列關(guān)于Spark的說法錯(cuò)誤的是（）。A、采用內(nèi)存計(jì)算模式B、可利用多種語言編程C、主要用于批處理D、可進(jìn)行map（）操作【正確答案】：C解析：

HadoopMapReduce主要用于批處理，與Hadoop不同的是，Spark更為通用--些，可以很好地支持流計(jì)算、交互式處理、圖計(jì)算等多種計(jì)算模式。63.Hadoop中partition（）函數(shù)代表的是（）。A、分區(qū)函數(shù)B、特征函數(shù)C、算法函數(shù)D、排序函數(shù)【正確答案】：A解析：

partition（）代表分區(qū)函數(shù)。64.大數(shù)據(jù)平臺(tái)核心分布式存儲(chǔ)與計(jì)算組件采用Hadoop技術(shù)體系中的分布式存儲(chǔ)、分布式計(jì)算框架及Spark等開源產(chǎn)品和技術(shù)，實(shí)現(xiàn)對(duì)數(shù)據(jù)的安全控制和管理功能，其中分布式存儲(chǔ)不包括（）。A、HDFSB、PostgresqC、HiveD、HBase【正確答案】：B解析：

Postgresql并非分布式存儲(chǔ)。65.下列關(guān)于Sqoop的說法不正確的是（）。A、主要設(shè)計(jì)目的是在Hadoop與傳統(tǒng)數(shù)據(jù)庫(kù)之間進(jìn)行數(shù)據(jù)的ETL操作B、數(shù)據(jù)導(dǎo)入導(dǎo)出通過MapReduce完成C、Sqoop具備MapReduce的并行化和容錯(cuò)性D、Sqoop的Reduce操作速度更快【正確答案】：D解析：

Sqoop是一個(gè)強(qiáng)大的工具，主要用來處理大量的數(shù)據(jù)傳輸，并不會(huì)影響Rey的操作速度。66.HDFS是基于流數(shù)據(jù)模式訪問和處理超大文件的需求而開發(fā)的，具有高容錯(cuò)、高可靠性、高可擴(kuò)展性、高吞吐率等特征，適合的讀寫任務(wù)是（）。A、一次寫入、少次讀取B、多次寫入、少次讀取C、多次寫入、多次讀取D、一次寫入、多次讀取【正確答案】：D解析：

HDFS的設(shè)計(jì)以一次寫入、多次讀取為主要應(yīng)用場(chǎng)景。67.Spark的特點(diǎn)不包括（）。A、速度快B、通用性C、易用性D、單一操作性【正確答案】：D解析：

Spark是一個(gè)快速、通用和易于使用的計(jì)算平臺(tái)。68.在MapReduce中，下列組件中用戶不指定也不會(huì)有默認(rèn)的是（）。A、CombinerB、OutputFormatC、PartitionerD、InputFormat【正確答案】：A解析：

在MapReduce編程模型中，Combiner是可有可無的組件，它的作用是給MapTask的結(jié)果數(shù)據(jù)做局部合并以減少ReduceTask接收的數(shù)據(jù)量，以減少網(wǎng)絡(luò)數(shù)據(jù)傳輸；OutputFormat的默認(rèn)組件是TextOutputFormat；InputFormat的默認(rèn)組件是TextInputFormat；Partitioner的默認(rèn)實(shí)現(xiàn)是HashPartitioner。69.MapReduce編程模型，鍵值對(duì)＜key，value＞的kcy必須實(shí)現(xiàn)（）接口。A、WritableComparableB、ComparableC、WritableD、LongWritable【正確答案】：A解析：

Hadoop為Key的數(shù)據(jù)類型，必須實(shí)現(xiàn)WritableComparable，而Value的數(shù)據(jù)類型只需要實(shí)現(xiàn)Writable即可。70.在Hadoop生態(tài)系統(tǒng)中，（）建立在MapReduce之上，主要用來彌補(bǔ)MapReduce編程的復(fù)雜性。A、HbaseB、FlumeC、PigD、Sqoop【正確答案】：C解析：

Pig是對(duì)MapReduce編程復(fù)雜性的抽象，Pig平臺(tái)包含用于分析Hadoop數(shù)據(jù)集的執(zhí)行環(huán)境和腳本語言（PigLatin）。71.（）是窄依賴操作。A、joinB、filterC、groupD、sort【正確答案】：B解析：

spark中常見的窄依賴操作包括map、filer、union、sample等，寬依賴的操作包括reduceByKey、groupByKey、join等。72.MapReduce默認(rèn)的分區(qū)函數(shù)是（）。A、hashB、diskC、reduceD、map【正確答案】：A解析：

MapReduce默認(rèn)的分區(qū)函數(shù)是hash。73.HBase依靠（）提供消息通信機(jī)制。A、ZooKeeperB、ChubbyC、RPCD、Socket【正確答案】：A解析：

ZooKeeper是一個(gè)高可用、高性能的分布式協(xié)調(diào)服務(wù)，為HBasc提供消息通借機(jī)制。74.RDD默認(rèn)的存儲(chǔ)級(jí)別是（)。A、MEMORY_ONLYB、MEMORY_ONLY_SERC、MEMORY_ANDISKE、MEMORY_AND_DISK_SER【正確答案】：A解析：

RDD存儲(chǔ)級(jí)別定義。75.MapReduce適用于（）。A、任意應(yīng)用程序B、任意可在WindowsServet2008上運(yùn)行的程序C、可以串行處理的應(yīng)用程序D、可以并行處理的應(yīng)用程序【正確答案】：D解析：

MapReduce適用于并行處理的應(yīng)用程序。

76.在HadoopMapReduce中，（）是客戶端需要執(zhí)行的一個(gè)工作單元。A、InputB、JobClientD、Task【正確答案】：B解析：

MapReduce作業(yè)（Job）是客戶端需要執(zhí)行的一個(gè)工作單元，它包括輸入數(shù)據(jù)、MapReduce程序和配置信息。77.在MapReduce中，下列描述錯(cuò)誤的是（）。A、Worker故障和Master故障的處理方法不相同B、Map和Reduce的處理結(jié)果都存儲(chǔ)在本地文件系統(tǒng)C、一個(gè)Worker發(fā)生故障時(shí)，該節(jié)點(diǎn)上執(zhí)行完的Map任務(wù)需要再次執(zhí)行D、MapReduce具有很強(qiáng)的容錯(cuò)機(jī)制【正確答案】：B解析：

已經(jīng)完成的Map任務(wù)的輸出存儲(chǔ)在本臺(tái)機(jī)器上，Reduce任務(wù)的輸出存儲(chǔ)在全局文件系統(tǒng)上，故B錯(cuò)。78.HBase作為數(shù)據(jù)存儲(chǔ)組件封裝于大數(shù)據(jù)平臺(tái)，用于（）。A、關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)B、分布式文件存儲(chǔ)C、非關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)D、列式存儲(chǔ)【正確答案】：C解析：

HBase是列式存儲(chǔ)，以流的方式在列中存儲(chǔ)所有的數(shù)據(jù)。對(duì)于任何記錄，索引者可以快速地獲取列上的數(shù)據(jù)。列式存儲(chǔ)主要用于非關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)。79.為提高計(jì)算性能，Spark中Transformation操作采用的計(jì)算模式是（）。A、活性計(jì)算模式B、惰性計(jì)算模式C、實(shí)時(shí)計(jì)算模式D、非實(shí)時(shí)計(jì)算模式【正確答案】：B解析：

Spark的所有Transformation操作采取的都是惰性計(jì)算模式。80.HBase的一個(gè)典型應(yīng)用是Webtable，它是一個(gè)以網(wǎng)頁(yè)（）為主鍵的表。A、標(biāo)題B、URLC、內(nèi)容D、類別【正確答案】：B解析：

Webtable中，以網(wǎng)頁(yè)URL為主鍵。81.下列關(guān)于Hadoop中MapReduce的說法正確的是（)。A、可以沒有Reduce任務(wù)B、Reducer輸入為隨機(jī)輸入C、Shuffle主要實(shí)現(xiàn)數(shù)據(jù)可視化功能D、一個(gè)Reducer只能從一個(gè)Map復(fù)制所需要的partition【正確答案】：A解析：

MapReduce中的Reduce并不是必須存在的。82.在MapReduce中，下列描述錯(cuò)誤的是（）。A、經(jīng)過map（）函數(shù)的計(jì)算可以得出一個(gè)中間數(shù)據(jù)集B、map（）函數(shù)是確定的，用戶不可自定義C、對(duì)map（）函數(shù)的返回值，進(jìn)行--定的處理后才進(jìn)入下個(gè)階段D、map（）函數(shù)的輸入輸出都是同一數(shù)據(jù)結(jié)構(gòu)【正確答案】：B解析：

map（）函數(shù)是由用戶所自定義的。83.下列業(yè)務(wù)場(chǎng)景中，不能直接使用Reducer充當(dāng)Combiner的是（)。A、sum求和B、max求最大值C、count求計(jì)數(shù)D、avg求平均【正確答案】：D解析：

求平均需要對(duì)全部數(shù)據(jù)進(jìn)行計(jì)算而非部分?jǐn)?shù)據(jù)，在不更改業(yè)務(wù)邏輯的情況，使用Reducer充當(dāng)Combiner，最終會(huì)造成業(yè)務(wù)結(jié)果不正確。84.客戶端從HDFS上讀取數(shù)據(jù)時(shí)會(huì)（）。A、從NameNode上獲取數(shù)據(jù)B、從DataNode上獲取Block位置C、從NameNode上獲取Block位置D、從NameNode上獲取數(shù)據(jù)和Block位置【正確答案】：C解析：

NameNode保存數(shù)據(jù)Block的位置，DataNode保存數(shù)據(jù)。85.Spark的劣勢(shì)是（）。A、運(yùn)算速度快B、業(yè)務(wù)實(shí)現(xiàn)需要較少代碼C、提供很多現(xiàn)成函數(shù)D、需要更多機(jī)器內(nèi)存【正確答案】：D解析：

Spark采用的是內(nèi)存計(jì)算模式，需要的內(nèi)存較多。86.下列關(guān)于新舊MapReduccAPI的描述錯(cuò)誤的是（）。A、新API放在org.apachB、hadoop.mapreduce包中，而舊API則是放在org.apachC、hadoop.mapred中D、新AP1傾向于使用接口方式，而舊API傾向于使用抽象類E、新API使用Configuration，而舊API使用JobConf來傳遞配置信息F、新API可以使用Job對(duì)象來提交作業(yè)【正確答案】：B解析：

在新API中，原來的大量接口都被改成了抽象類。所以使用新API編寫MapReduce程序時(shí)，都是由實(shí)現(xiàn)接口變成抽象類，因此B錯(cuò)。87.在Hadoop生態(tài)系統(tǒng)中，（）的主要設(shè)計(jì)目的是在Hadoop與傳統(tǒng)數(shù)據(jù)庫(kù)之間進(jìn)行數(shù)據(jù)的ETL操作。A、HDFSB、FlumeC、HiveD、Sqoop【正確答案】：D解析：

Sqoop主要用于在Hadoop與傳統(tǒng)的數(shù)據(jù)庫(kù)問進(jìn)行數(shù)據(jù)的傳遞，可以將一個(gè)關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)導(dǎo)進(jìn)到Hadoop的HDFS中，也可以將HDFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫(kù)中。88.下列關(guān)于SecondaryNameNode的說法正確的是（)。A、它是NameNode的熱備B、它對(duì)內(nèi)存沒有要求C、它的目的是幫助NameNode合并編輯日志，減少NameNode的負(fù)擔(dān)和冷啟動(dòng)時(shí)的加載時(shí)間D、SecondaryNameNode應(yīng)與NameNode部署到一個(gè)節(jié)點(diǎn)【正確答案】：C解析：

SccondaryNameNodc是給NamcNode減輕壓力的角色，工作職責(zé)就是定期合并磁盤元數(shù)據(jù)文件為序列化的鏡像文件，即幫助NameNode合并編輯日志以減少NameNode冷啟動(dòng)時(shí)需要加載元數(shù)據(jù)的時(shí)間。在合并的時(shí)候也需要把之前的元數(shù)據(jù)都加載到內(nèi)存，所以對(duì)內(nèi)存也有一定的依賴，即不能和NamcNodc啟動(dòng)在同--個(gè)節(jié)點(diǎn)，否則就起不到任何減輕壓力的作用。89.（）計(jì)算框架源自--種分布式計(jì)算模型，其輸入和輸出值均為鍵值對(duì)結(jié)構(gòu)。A、MahoutB、MapReduceC、SparkD、Sqoop【正確答案】：B解析：

MapReduce定義。90.下列不屬于Transformation操作的是（）。A、mapB、filterC、sampleD、count【正確答案】：D解析：

Transformation常用函數(shù)為map、filter、flatMap、sample、union、join等。91.下列關(guān)于MapReduce說法不正確的是（）。A、MapReduce是一種計(jì)算框架B、MapRcduce來源于Google的學(xué)術(shù)論文C、MapReduce程序只能用java語言編寫D、MapReduce隱藏了并行計(jì)算的細(xì)節(jié)，方便使用【正確答案】：C解析：

MapReduce程序可用多種語言編寫，如Ruby、Python、Java等。92.Spark核心層主要關(guān)注的問題是（）．A、存儲(chǔ)B、計(jì)算C、傳輸D、連接【正確答案】：B解析：

Spark核心層定義，Spark核心層主要關(guān)注計(jì)算問題。93.（）負(fù)責(zé)MapReduce任務(wù)調(diào)度。A、NameNodeB、JobtrackerC、TaskTrackerD、SecondaryNameNode【正確答案】：B解析：

Jobtracker負(fù)責(zé)MapRcduce任務(wù)調(diào)度，TaskTracker負(fù)責(zé)任務(wù)執(zhí)行。94.Spark的集群管理模式不包含（）。A、Standalone模式B、Message模式C、YARN模式D、Mesos模式【正確答案】：B解析：

Spark的集群管理主要有Standalone模式、YARN模式和Mesos模式三種。95.下列不屬于Action操作的是（）。A、collectB、filterC、reduceD、count【正確答案】：B解析：

Action常用的函數(shù)為reduce、collect、count、take、first、foreach等。96.HadoopMapReducc2.0中，（）負(fù)資資源的管理和調(diào)度。A、JobTrackerB、YARNC、TaskTrackerD、ApplicationMaster【正確答案】：B解析：

Hadoop2.0比起Hadoop1.0來說，最大的改進(jìn)是加入了資源調(diào)度框架YARN，負(fù)貴資源的管理和調(diào)度。97.下列關(guān)于HDFS特征的說法錯(cuò)誤的是（）。A、支持超大文件B、基于商用硬件C、流式數(shù)據(jù)訪問D、低吞吐量【正確答案】：D解析：

HDFS設(shè)計(jì)中重視數(shù)據(jù)的高吞吐量，因此其數(shù)據(jù)吞吐量高，但也造成了其數(shù)據(jù)延遲訪問的特征。98.Spark的（）組件用于支持實(shí)時(shí)計(jì)算需求。A、SparkSQLB、SparkStreamingC、SparkGraphXD、SparkMLLib【正確答案】：B解析：

SparkStreaming組件用于實(shí)時(shí)處理。99.下列關(guān)于Hive說法正確的是（）。A、一種數(shù)據(jù)倉(cāng)庫(kù)工具B、一種數(shù)據(jù)處理工具C、一種可視化工具D、一種分析算法【正確答案】：A解析：

Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具，用來進(jìn)行數(shù)據(jù)提取、轉(zhuǎn)化、加載，這是一種可以存儲(chǔ)、查詢和分析存儲(chǔ)在Hadoop中的大規(guī)模數(shù)據(jù)的機(jī)制。100.大數(shù)據(jù)平臺(tái)技術(shù)架構(gòu)不包含（）。A、數(shù)據(jù)整合B、數(shù)據(jù)存儲(chǔ)C、數(shù)據(jù)計(jì)算D、數(shù)據(jù)溯源【正確答案】：D解析：

利用大數(shù)據(jù)平臺(tái)可以實(shí)現(xiàn)數(shù)據(jù)整合、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)計(jì)算等技術(shù)，無法實(shí)現(xiàn)數(shù)溯源。1.ApacheFlume主要解決的是日志數(shù)據(jù)的收集和處理問題，F(xiàn)lume的主要設(shè)計(jì)目的和特征包括（）。A、高可靠性B、可擴(kuò)展性C、管理復(fù)雜D、不支持用戶自定義【正確答案】：AB解析：

Flume的主要設(shè)計(jì)目的和特征包括高可靠性、可擴(kuò)展性、支持方便管理、支持用

戶自定義2.在Hive架構(gòu)中，支持的數(shù)據(jù)操作有（）。A、插入B、查詢C、刪除D、分析【正確答案】：BD解析：

Hive提供簡(jiǎn)單的HiveQL查詢、分析功能，可以較好地滿足基于數(shù)據(jù)倉(cāng)庫(kù)的統(tǒng)計(jì)分析需要。3.基于Hadoop開源大數(shù)據(jù)平臺(tái)主要提供了針對(duì)數(shù)據(jù)分布式計(jì)算和存儲(chǔ)能力，如下感于分布式存儲(chǔ)組件的有（)。A、MapReduceB、SparkC、HDFSD、HBasc【正確答案】：CD解析：

MapRcduce和Spark的核心功能是分布式計(jì)算。4.Spark的組件包括（）。A、SparkStreamingB、MLibC、GraphXD、SparkR【正確答案】：ABC解析：

Spark的組件包括SparkSQL、SparkStreaming、MLid、GraphX。5.Spark容錯(cuò)性的方式有（）。A、數(shù)據(jù)檢查點(diǎn)B、存儲(chǔ)原始數(shù)據(jù)C、記錄數(shù)據(jù)的更新D、自建數(shù)據(jù)版本【正確答案】：AC解析：

Spark容錯(cuò)性有數(shù)據(jù)檢查點(diǎn)和記錄數(shù)據(jù)的更新兩種方式。6.MapReduce中運(yùn)行程序副本程序的機(jī)器有（）。A、Map服務(wù)器B、Master服務(wù)器C、Worker服務(wù)器D、Reduce服務(wù)器【正確答案】：BC解析：

MapRcduce中，運(yùn)行程序副本程序的機(jī)器分為Master服務(wù)器和若干個(gè)Worker服務(wù)器兩類。7.下列關(guān)于HBase的說法正確的有（）。A、面向列的數(shù)據(jù)庫(kù)B、非結(jié)構(gòu)化的數(shù)據(jù)庫(kù)C、支持大規(guī)模的隨機(jī)、實(shí)時(shí)讀寫D、采用松散數(shù)據(jù)模型【正確答案】：ABCD解析：

HBase是非結(jié)構(gòu)化的、多版本的、面向列和開源的數(shù)據(jù)庫(kù)；HBase提供了對(duì)大模數(shù)據(jù)的隨機(jī)、實(shí)時(shí)讀寫訪問；從存儲(chǔ)模型看，HBase采用的是松散數(shù)據(jù)模型。8.相對(duì)于HadoopMapReduce，Spark的特點(diǎn)有（）。A、通用性B、易用性C、速度快D、容錯(cuò)性【正確答案】：ABC解析：

相對(duì)于HadoopMapReduce，Spark的特點(diǎn)包括速度快、通用性和易用性。9.Hadoop組件Zookeeper的設(shè)計(jì)目標(biāo)和主要特點(diǎn)包括（）。A、簡(jiǎn)單性B、自我復(fù)制C、順序訪問D、高速讀取【正確答案】：ABCD解析：

ZooKeeper的設(shè)計(jì)目標(biāo)和特點(diǎn)包括簡(jiǎn)單性、自我復(fù)制、順序訪問和高速讀取。10.下列服務(wù)中可以用于存儲(chǔ)數(shù)據(jù)的有（）。A、MapReduceB、YARNC、HBaseD、HDFS【正確答案】：CD解析：

MapReduce是計(jì)算模型；YARN是通用資源管理系統(tǒng)；HBase是動(dòng)態(tài)模式數(shù)據(jù)庫(kù)；HDFS是Hadoop分布式文件系統(tǒng)，是數(shù)據(jù)存儲(chǔ)的基礎(chǔ)。11.下列關(guān)于MapReduce1.0版本的說法正確的有（）。A、擴(kuò)展性差B、可靠性差C、資源利用率低D、無法支持多種計(jì)算框架【正確答案】：ABCD解析：

MapReducel．0存在的局限性包括擴(kuò)展性差、可靠性差、資源利用率低、無法支持多種計(jì)算框架。12.Hadoop的HDFS是一種分布式文件系統(tǒng)，其適合（）的數(shù)據(jù)存儲(chǔ)和管理。A、大量小文件存儲(chǔ)B、高容錯(cuò)、高吞吐量C、低延遲讀取D、流式數(shù)據(jù)訪問【正確答案】：BD解析：

HDFS不適合小文件存儲(chǔ)，HDFS的讀取操作相比于傳統(tǒng)的數(shù)據(jù)庫(kù)延遲較高，不適合低延遲讀取。13.Hadoop的優(yōu)點(diǎn)包括（）。A、可其性B、高效性C、可伸煽性D、成本低【正確答案】：ABCD解析：

Hadoop的優(yōu)點(diǎn)包括可靠性、高效性、可伸縮性和成本低。14.下列關(guān)于Pig的說法正確的有（）。A、Pig的主要目的是彌補(bǔ)MapReduce編程的復(fù)雜性B、Pig的核心是一種數(shù)據(jù)分析語言C、Pig程序的結(jié)構(gòu)適合串行處理D、Pig主要包含PigLatin和Pig執(zhí)行環(huán)境兩部分【正確答案】：ABD解析：

Pig程序的結(jié)構(gòu)適合并行處理。15.下列有關(guān)MapReduce計(jì)算框架的描述正確的有（）。A、MapReduce可以計(jì)算任務(wù)的劃分和調(diào)度B、MapReduce可完成數(shù)據(jù)的分布存儲(chǔ)和劃分C、MapReduce可以實(shí)現(xiàn)處理系統(tǒng)節(jié)點(diǎn)出錯(cuò)檢測(cè)和失效恢復(fù)D、MapReduce可實(shí)現(xiàn)處理數(shù)據(jù)與計(jì)算任務(wù)的同步【正確答案】：ABCD解析：

根據(jù)MapReduce定義可得，A、B、C、D都可以實(shí)現(xiàn)。16.Spark的技術(shù)架構(gòu)可以分為（）。A、資源管理層B、Spark核心層C、應(yīng)用層D、服務(wù)層【正確答案】：ABD解析：

Spark的技術(shù)架構(gòu)可以分為資源管理層、Spark核心層和服務(wù)層三層。17.Hadoop運(yùn)行的模式包括（）。A、單機(jī)版B、偽分布式C、分布式D、全分布式【正確答案】：ABC解析：

Hadoop運(yùn)行模式包括單機(jī)版、偽分布式和分布式。18.下列關(guān)于Pig的說法正確的有（）。A、彌補(bǔ)MapReduce編程復(fù)雜性B、封裝MapReduce處理過程C、PigLatin是一種數(shù)據(jù)分析語言D、適用于并行處理【正確答案】：ABCD解析：

Pig建立在MapRcduce之上，主要目的是彌補(bǔ)MapRcduce編程的復(fù)雜性；Pig較好地封裝了MapReduce的處理過程；PigLatin是數(shù)據(jù)分析的描述語言；Pig的結(jié)構(gòu)適用于并行處理。19.Spark中的Scheduler模塊可以分為（）。A、DAGSchcdulerB、ResourceSchedulerC、TaskSchedulerD、JobScheduler【正確答案】：AC解析：

Scheduler模塊分為DAGScheduler和TaskScheduler兩個(gè)部分。20.下列關(guān)于Hive的說法正確的有（）。A、Hive是基于Hadoop的數(shù)據(jù)倉(cāng)庫(kù)工具B、Hive可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表C、最初，Hive由Google開源，用于解決海量結(jié)構(gòu)化日志數(shù)據(jù)統(tǒng)計(jì)問題D、Hive的主要應(yīng)用場(chǎng)景是離線分析【正確答案】：ABD解析：

Hive不是由谷歌提出和開源的，谷歌提出的三大核心技術(shù)是GFS、BigTable、MapReduce。21.MapReduce對(duì)map（）函數(shù)的返回值處理后才傳給reduce（）函數(shù)，其中涉及的操作有（）。A、合并B、排序C、分區(qū)D、抽樣【正確答案】：ABC解析：

分別涉及Shuffle（排序）、Combiner（合并）和Partition（分區(qū)）操作。22.在數(shù)據(jù)科學(xué)中，計(jì)算模式發(fā)生了根本性的變化-從集中式計(jì)算、分布式計(jì)算、網(wǎng)格計(jì)算等傳統(tǒng)計(jì)算過渡至云計(jì)算，有一定的代表性的是Google云計(jì)算三大技術(shù)，這三大技術(shù)包括（）。A、HadoopYARN資源管理器B、GFS分布式存儲(chǔ)系統(tǒng)C、MapReduce分布式處理技術(shù)D、BigTable分布式數(shù)據(jù)庫(kù)【正確答案】：BCD解析：

Google云計(jì)算的三大核心技術(shù)為GFS、MapReduce和BigTable。HadoopYARN資源管理器屬于Hadoopo23.Spark2.0提供的應(yīng)用庫(kù)包括（）。A、SparkSQLB、SparkStreamingC、MLibD、GraphX【正確答案】：ABCD解析：

Spark2.0提供的應(yīng)用庫(kù)包括SparkSQL、SparkStreaming、MLib、GraphX。24.Spark的基本流程主要涉及（）等角色。A、DriverProgramB、ClusterManagerC、WorkerNodeD、Executor【正確答案】：ABCD解析：

Spark的基本流程主要涉及DriverProgram（驅(qū)動(dòng)程序）、Spark-Context、ClusterManage（集群管理器）、WorkerNode（工作節(jié)點(diǎn)）、Executor（執(zhí)行器）和Cache（緩存）等角色。

-.25.HadoopMapReduce是MapReduce的具體實(shí)現(xiàn)之一。HadoopMapReduce數(shù)據(jù)處理過程涉及四個(gè)獨(dú)立的實(shí)體，包括（）。A、ClientB、JobTrackerC、TaskTrackerD、HDFS【正確答案】：ABCD解析：

可以將MapReducc的工作流程概括為4個(gè)獨(dú)立的實(shí)體。4個(gè)實(shí)體分別為：①Client，用來提交MapRcduce的作業(yè)。編寫MapRcducc程序，配置作業(yè)，提交作業(yè)，即需程序員完成的工作。②JobTracker，用來協(xié)調(diào)作業(yè)的運(yùn)行。與TaskTracker通信，協(xié)調(diào)整個(gè)作業(yè)的執(zhí)行。③TaskTracker，用來處理作業(yè)劃分后的任務(wù)。保持與JobTracker的通信，在分配的數(shù)據(jù)片段上執(zhí)行Map或Reduce任務(wù)，TaskTracker和JobTracker的不同有個(gè)很重要方面，就是在執(zhí)行任務(wù)的時(shí)候TaskTracker可以有n個(gè)，JobTracker則只會(huì)有一個(gè)。④HDFS，用來在其他實(shí)體間共享作業(yè)文件。保存作業(yè)的數(shù)據(jù)、配置信息等，最后的結(jié)果也是保存在HDFS上面。26.在Spark中，彈性分布式數(shù)據(jù)集的特點(diǎn)包括（）。A、可分區(qū)B、可序列化C、可直接修改D、可持久化【正確答案】：ABD解析：

RDD不可修改。27.Hadoop框架的缺點(diǎn)有（）。A、MapReduce編程框架的限制B、過多的磁盤操作，缺乏對(duì)分布式內(nèi)存的支持C、無法高效支持迭代式計(jì)算D、不支持多用戶寫入和任意修改文件【正確答案】：ABCD解析：

以上四項(xiàng)都為Hadoop的缺點(diǎn)。28.Spark支持的計(jì)算模型有（）。A、批處理B、實(shí)時(shí)計(jì)算C、機(jī)器學(xué)習(xí)模型D、交互式查詢【正確答案】：ABCD解析：

Spark支持的計(jì)算模型有批處理、實(shí)時(shí)計(jì)算、機(jī)器學(xué)習(xí)模型、交互式查詢。29.HBase中KeyValue數(shù)據(jù)的存儲(chǔ)格式是（）。A、HFileB、HLogFileC、SequenceFileD、TXT【正確答案】：A解析：

HBase中KeyValue數(shù)據(jù)的存儲(chǔ)格式是HFile。30.下列屬于HBasc性能優(yōu)化的有（）。A、讀優(yōu)化B、寫優(yōu)化C、配置優(yōu)化D、JVM優(yōu)化【正確答案】：ABCD解析：

HHBase性能優(yōu)化包含讀優(yōu)化、寫優(yōu)化、配置優(yōu)化、JVM優(yōu)化。31.下列關(guān)于HadoopMapReduce的描述正確的有（）。A、reduce（）函數(shù)的輸入是value集B、reduce（）函數(shù)將最終結(jié)果寫到HDFS系統(tǒng)中C、用戶可以自己定義reduce（）函數(shù)D、reduce（）函數(shù)的輸入數(shù)據(jù)是經(jīng)過map（）函數(shù)處理之后的數(shù)據(jù)【正確答案】：BCD解析：

reduce（）函數(shù)的輸入是key-value集。32.Spark的部署模式包括（）。A、本地模式B、Standalone模式C、SparkonYARN模式D、SparkonMesos模式【正確答案】：ABCD解析：

Spark支持上述四種運(yùn)行模式，在實(shí)驗(yàn)中為了充分利用資源，一般配置Standalou模式運(yùn)行。33.下列關(guān)于Hadoop中map輸出結(jié)果的說法正確的有（）。A、＜key，value＞鍵值對(duì)B、輸出中間臨時(shí)結(jié)果C、輸出最終計(jì)算結(jié)果D、輸出結(jié)果永久保留【正確答案】：AB解析：

map輸出結(jié)果并非是最終結(jié)果且只暫時(shí)保留。34.下列關(guān)于Flume的描述正確的有（）。A、Flume具有一定的容錯(cuò)性B、Flume使用Java編寫C、Flume不支持failoverD、Flume是一個(gè)分布式的輕量級(jí)工具，適應(yīng)各種方式的數(shù)據(jù)收集【正確答案】：ABD解析：

Flume本身提供了failover機(jī)制，可以自動(dòng)切換和恢復(fù)。35.下列關(guān)于HDFS文件寫人的描述正確的有（）。A、不支持多用戶對(duì)同一文件的寫操作B、用戶不可以在文件任意位置進(jìn)行修改C、默認(rèn)將文件復(fù)制成三份存放D、復(fù)制的文件塊默認(rèn)不存在同一機(jī)架上【正確答案】：ABCD解析：

根據(jù)HDFS定義。36.Flume的特點(diǎn)包括（)。A、分布式B、高可靠C、高容錯(cuò)D、易于定制和擴(kuò)展【正確答案】：ABCD解析：

Flume的特點(diǎn)包括分布式、高可靠、高容錯(cuò)、易于定制和擴(kuò)展。37.下列關(guān)于MapReduce與HBase關(guān)系的描述正確的有（）。A、兩者不可或缺，MapReduce是HBase可以正常運(yùn)行的保證B、兩者不是強(qiáng)關(guān)聯(lián)關(guān)系，沒有MapReduce，HBasc可以正常運(yùn)行C、MapReduce可以直接訪問HBaseD、它們之間沒有任何關(guān)系【正確答案】：BC解析：

HBase是Hadoop數(shù)據(jù)庫(kù)。它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù)，與MapReduce并無強(qiáng)關(guān)聯(lián)關(guān)系，HadoopMapReduce為HBase提供了高性能的計(jì)算能力，可直接訪問HBase。38.大數(shù)據(jù)平臺(tái)的計(jì)算組件主要有（）。A、StormB、SparkC、MapReduceD、Sqoop【正確答案】：ABC解析：

Storm是Twitter開源的分布式實(shí)時(shí)大數(shù)據(jù)處理框架；Spark是專為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的快速通用的計(jì)算引擎；MapReduce是一種編程模型，用于大規(guī)模數(shù)據(jù)集（大于1TB）的并行運(yùn)算；Sqoop是一款開源的工具，主要用于在Hadoop（Hive）與傳統(tǒng)的數(shù)據(jù)庫(kù)間進(jìn)行數(shù)據(jù)的傳遞；因此A、B、C正確。39.ETL技術(shù)主要涉及操作有（）。A、抽取B、轉(zhuǎn)換C、加載D、分析【正確答案】：ABC解析：

ETL技術(shù)主要涉及抽?。╡xtract）、轉(zhuǎn)換（transform）、加載（load）。40.RDD的特征有（）。A、可容錯(cuò)性B、簡(jiǎn)潔性C、并行數(shù)據(jù)結(jié)構(gòu)D、結(jié)構(gòu)化【正確答案】：AC解析：

RDD是一個(gè)容錯(cuò)的、并行的數(shù)據(jù)結(jié)構(gòu)。41.下列關(guān)于Zookecper的描述正確的有（）。A、Zookccper維護(hù)著一個(gè)樹形的層次結(jié)構(gòu)B、Zookeeper的數(shù)據(jù)訪問具有原子性C、Zookecper被設(shè)計(jì)用來實(shí)現(xiàn)協(xié)調(diào)服務(wù)D、Zookceper被設(shè)計(jì)用來實(shí)現(xiàn)大容量數(shù)據(jù)存儲(chǔ)【正確答案】：ABC解析：

Zookeeper無法用來存儲(chǔ)數(shù)據(jù)。42.Spark提交工作的方式有（）。A、ClientB、ClusterC、StandaloneD、YARN【正確答案】：AB解析：

Spark提交作業(yè)的方式是Client和Clustero43.從Hadoop實(shí)現(xiàn)角度看，HadoopMapReducel．0主要由（）組成。A、編程模型B、數(shù)據(jù)處理引擎C、運(yùn)行時(shí)環(huán)境D、算法庫(kù)【正確答案】：ABC解析：

HadoopMapReduce1.0計(jì)算框架主要由編程模型、數(shù)據(jù)處理引擎和運(yùn)行時(shí)環(huán)境組成。

國(guó)家電網(wǎng)有限公司大數(shù)據(jù)應(yīng)用習(xí)題集44.下列關(guān)于Spark中RDD的描述正確的有（）。A、RDD（ResilientDistributedDataset）叫作彈性分布式數(shù)據(jù)集，是Spark中最基本的數(shù)據(jù)抽象B、Resilient：表示彈性的C、Destributed：分布式，可以并行在集群計(jì)算Dataset：就是一個(gè)集合，用于存放數(shù)據(jù)【正確答案】：ABCD解析：

A、B、C、D全部正確。45.Spark比MapReduce計(jì)算快的原因有（）。A、基于內(nèi)存的計(jì)算B、基于DAG的調(diào)度框架C、基于Lineage的容錯(cuò)機(jī)制D、基于分布式計(jì)算的框架【正確答案】：ABC解析：

Spark比MapReduce計(jì)算快的原因包括基于內(nèi)存計(jì)算、使用基于Lineage的容錯(cuò)機(jī)制和基于DAG的調(diào)度框架。46.Spark的關(guān)鍵技術(shù)包括（)。A、RDDB、SchedulerC、StorageD、Shuffle【正確答案】：ABCD解析：

Spark的關(guān)鍵技術(shù)包括RDD、Schedulcr、Storagc、Shuffc。47.下列中屬于MapReduce特征的有（）。A、以主從結(jié)構(gòu)的形式運(yùn)行B、容錯(cuò)機(jī)制的復(fù)雜性C、任務(wù)備份機(jī)制的必要性D、數(shù)據(jù)存儲(chǔ)位置固定【正確答案】：ABC解析：

數(shù)據(jù)存儲(chǔ)位置具有多樣性，并非固定，所以D錯(cuò)。48.在MapReducel．0版本中，JobTracker功能有（）。A、資源管理B、作業(yè)控制C、作業(yè)存儲(chǔ)D、作業(yè)審核【正確答案】：AB解析：

在MapReducel．0中，JobTracker同時(shí)兼?zhèn)淞速Y源管理和作業(yè)控制兩個(gè)功能。49.Spark組件包含（）兩個(gè)算子。A、MapB、ActionC、TransformationD、Reduce【正確答案】：BC解析：

Spark針對(duì)RDD提供了多種基礎(chǔ)操作，可以大致分為Action和Transformation兩種。50.SparkRDD的依賴機(jī)制包括（）。A、寬依賴B、深度依賴C、廣度依賴D、窄依賴【正確答案】：AD解析：

RDD之間的依賴關(guān)系可以分為窄依賴和寬依賴兩種。1.用戶自定義的reduce（）函數(shù)接受一個(gè)中間key值和一個(gè)相關(guān)的value值的集合。（）A、正確B、錯(cuò)誤【正確答案】：A解析：

略2.Shuffle橫跨Map端和Reduce端，在Map端包括Spill過程，在Reduce端包括copy和sort過程。（）A、正確B、錯(cuò)誤【正確答案】：A解析：

MapReduce的Shuffle過程介紹。3.為了降低map（）函數(shù)與reduce（）函數(shù)之間的數(shù)據(jù)傳遞量，一般采用combiner（）函數(shù)對(duì)map（）函數(shù)的輸出結(jié)果進(jìn)行合并處理。（）A、正確B、錯(cuò)誤【正確答案】：A解析：

略4.Combiner運(yùn)行0次、1次或多次，Reducer都會(huì)產(chǎn)生相同的輸出結(jié)果。（）A、正確B、錯(cuò)誤【正確答案】：A解析：

Combiner多次運(yùn)行，并不影響輸出結(jié)果，運(yùn)行Combiner的意義在于使Map輸出的中間結(jié)果更緊湊，使得寫到本地磁盤和傳給Reducer的數(shù)據(jù)更少。5.MapReduce在中間key值采用

人人文庫(kù)> 全部分類> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)題庫(kù)-大數(shù)據(jù)技術(shù)與工具練習(xí)試題及答案

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

大數(shù)據(jù)題庫(kù)-大數(shù)據(jù)技術(shù)與工具練習(xí)試題及答案

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔