大數(shù)據(jù)題庫-大數(shù)據(jù)技術(shù)與工具復(fù)習(xí)測試卷含答案_第1頁
大數(shù)據(jù)題庫-大數(shù)據(jù)技術(shù)與工具復(fù)習(xí)測試卷含答案_第2頁
大數(shù)據(jù)題庫-大數(shù)據(jù)技術(shù)與工具復(fù)習(xí)測試卷含答案_第3頁
大數(shù)據(jù)題庫-大數(shù)據(jù)技術(shù)與工具復(fù)習(xí)測試卷含答案_第4頁
大數(shù)據(jù)題庫-大數(shù)據(jù)技術(shù)與工具復(fù)習(xí)測試卷含答案_第5頁
已閱讀5頁,還剩39頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第頁大數(shù)據(jù)題庫-大數(shù)據(jù)技術(shù)與工具復(fù)習(xí)測試卷含答案1.下列關(guān)于新舊MapReduccAPI的描述錯誤的是()。A、新API放在org.apachB、hadoop.mapreduce包中,而舊API則是放在org.apachC、hadoop.mapred中D、新AP1傾向于使用接口方式,而舊API傾向于使用抽象類E、新API使用Configuration,而舊API使用JobConf來傳遞配置信息F、新API可以使用Job對象來提交作業(yè)【正確答案】:B解析:

在新API中,原來的大量接口都被改成了抽象類。所以使用新API編寫MapReduce程序時,都是由實現(xiàn)接口變成抽象類,因此B錯。2.()不是RDD的緩存方法。A、persistB、cacheC、memoryD、以上答案都正確【正確答案】:C解析:

RDD的緩存方法包括persist和cache.其中cache方法默認(rèn)存儲到內(nèi)存中。3.Spark比MapReduce快的原因不包括()。A、Spark基于內(nèi)存迭代,而MapReduce基于磁盤迭代B、DAG計算模型比MapReduce更有效率C、Spark是粗粒度的資源調(diào)度,而MapReduce是細(xì)粒度的資源調(diào)度D、Spark支持交互式處理,MapReduce善于處理流計算【正確答案】:D解析:

A、B、C是Spark比MapReduce快的原因。MapReduce不善于處理除批處理算模式之外的其他計算模式,如流計算、交互式計算和圖計算等。4.在MapReduce中,通常將Map拆分成M個片段、Reduce拆分成R個片段,下列描述錯誤的是()。A、MapReduce中單臺機(jī)器上執(zhí)行大量不同的任務(wù)可以提高集群的負(fù)載均衡能力B、Master必須執(zhí)行O(M+R)次調(diào)度C、Master在內(nèi)存中保存O(M+R)個狀態(tài)D、M和R要比集群中Worker數(shù)量多【正確答案】:C解析:

master必須執(zhí)行O(M+R)次調(diào)度,并且在內(nèi)存中保存O(MXR)個狀態(tài),故C錯。5.Hadoop環(huán)境下HDFS系統(tǒng)中的NameNode實現(xiàn)的功能是()。A、管理文件系統(tǒng)的命名空間B、管理存儲空間C、分配算力D、調(diào)控算法【正確答案】:A解析:

NameNode負(fù)責(zé)管理文件系統(tǒng)的命名空間。6.HBase使用一個()節(jié)點協(xié)調(diào)管理一個或多個RegionServer從屬機(jī)。A、NameNodeB、DataNodeC、JobTrackerD、Master【正確答案】:D解析:

HBase中由一個Master節(jié)點負(fù)責(zé)協(xié)調(diào)管理一個或多個RegionServer從屬機(jī)。7.()與HDFS類似,均為分布式文件系統(tǒng)。A、NTFSB、FAT32C、GFSD、EXT3【正確答案】:C解析:

GFS也是分布式文件系統(tǒng)。8.如果我們現(xiàn)有-一個安裝2.6.5版本的Hadoop集群,在不修改默認(rèn)配置的情況下存儲200個200M的文本文件,那么最終會在集群中產(chǎn)生()個數(shù)據(jù)塊(包括副本)。A、200B、40000C、400D、1200【正確答案】:D解析:

在默認(rèn)情況下,HDFS集群默認(rèn)存儲文件3份,并且大文件會按照128M的數(shù)授塊大?。℉adoop2.x版本以前的默認(rèn)數(shù)據(jù)塊的大小是64M,到了Hadoop2.x版本以后,默認(rèn)的數(shù)據(jù)塊大小就變成了128M)進(jìn)行切割分散存儲。所以題目中的總數(shù)據(jù)塊有20個,再加上會存儲三份,共有400x3=1200個。9.RDD的特點不包括()。A、RDD之間有依賴關(guān)系,可溯源B、RDD由很多partition構(gòu)成C、對RDD的每個split或partition做計算D、RDD可以增量更新【正確答案】:D解析:

RDD具有以下五大特點:①RDD由很多partition構(gòu)成;②對RDD做計算,相當(dāng)于對RDD的每個split或partition做計算;③RDD之間有依賴關(guān)系,可溯源;④如果RDD里面存的數(shù)據(jù)是key-value形式,則可以傳遞一個自定義的partitioner進(jìn)行重新分區(qū)比如可以按key的hash值分區(qū);⑤最優(yōu)的位置去計算,即數(shù)據(jù)的本地性。10.MapReducc里面的query、sort和limit等都是針對()的操作。A、map()之前B、reduce()之前C、reduce()之后D、finalize()之后【正確答案】:A解析:

query是一個篩選條件,只有滿足條件的文檔才會調(diào)用map函數(shù);sort是在發(fā)往map()函數(shù)之前給文檔排序;limit是發(fā)往map()函數(shù)的文檔數(shù)量的上限,所以它們都是在map()之前。11.下列關(guān)于HDFS特征的說法錯誤的是()。A、支持超大文件B、基于商用硬件C、流式數(shù)據(jù)訪問D、低吞吐量【正確答案】:D解析:

HDFS設(shè)計中重視數(shù)據(jù)的高吞吐量,因此其數(shù)據(jù)吞吐量高,但也造成了其數(shù)據(jù)延遲訪問的特征。12.RDD中的數(shù)據(jù)被()在集群中,使得任務(wù)可以并行執(zhí)行。A、順序存儲B、連續(xù)存儲C、分塊存儲D、分區(qū)存儲【正確答案】:D解析:

RDD為分區(qū)存儲。13.HBase的一個典型應(yīng)用是Webtable,它是一個以網(wǎng)頁()為主鍵的表。A、標(biāo)題B、URLC、內(nèi)容D、類別【正確答案】:B解析:

Webtable中,以網(wǎng)頁URL為主鍵。14.依托(),結(jié)合應(yīng)用推進(jìn)數(shù)據(jù)歸集,形成統(tǒng)一的數(shù)據(jù)資源中心。A、全業(yè)務(wù)數(shù)據(jù)中心和數(shù)據(jù)平臺B、營銷基礎(chǔ)數(shù)據(jù)平臺和大數(shù)據(jù)平臺C、全業(yè)務(wù)中心和營銷基礎(chǔ)數(shù)據(jù)平臺D、全業(yè)務(wù)數(shù)據(jù)中心和大數(shù)據(jù)平臺【正確答案】:A解析:

詳見《國網(wǎng)互聯(lián)網(wǎng)部關(guān)于加強(qiáng)數(shù)據(jù)管理的通知》(互聯(lián)數(shù)據(jù)[2019]14號)。15.下列關(guān)于MapReduce計算框架中生成鍵值對的說法正確的是()。A、可以有相同的鍵,值必須唯一B、可以有相同的值,鍵必須唯一C、可以有相同的鍵,也可以有相同的值D、鍵和值都必須唯一【正確答案】:C解析:

鍵值對中的鍵和值并沒有必然的聯(lián)系,兩者可以相同。16.在HadoopMapReduce中,()是客戶端需要執(zhí)行的一個工作單元。A、InputB、JobClientD、Task【正確答案】:B解析:

MapReduce作業(yè)(Job)是客戶端需要執(zhí)行的一個工作單元,它包括輸入數(shù)據(jù)、MapReduce程序和配置信息。17.Spark中Job的劃分依據(jù)是()。A、依賴B、Action算子C、Transformation算子【正確答案】:B解析:

Action的觸發(fā)會生成一個Job,Job會提交給DAGScheduler分解成Stage。因Job是由Action算子劃分的,B正確。18.下列關(guān)于Spark的說法錯誤的是()。A、采用內(nèi)存計算模式B、可利用多種語言編程C、主要用于批處理D、可進(jìn)行map()操作【正確答案】:C解析:

HadoopMapReduce主要用于批處理,與Hadoop不同的是,Spark更為通用--些,可以很好地支持流計算、交互式處理、圖計算等多種計算模式。19.SparkJob默認(rèn)的調(diào)度模式是()。A、FIFOB、FAIRC、無D、運(yùn)行時指定【正確答案】:A解析:

默認(rèn)情況下Spark的調(diào)度模式是FIFO(先進(jìn)先出)。20.HadoopMapReducc2.0中,()負(fù)資資源的管理和調(diào)度。A、JobTrackerB、YARNC、TaskTrackerD、ApplicationMaster【正確答案】:B解析:

Hadoop2.0比起Hadoop1.0來說,最大的改進(jìn)是加入了資源調(diào)度框架YARN,負(fù)貴資源的管理和調(diào)度。21.Hive的數(shù)據(jù)最終存儲在()中。A、HDFSB、HBaseC、RDBMSD、MctaStore【正確答案】:A解析:

Hive是基于Hadoop分布式文件系統(tǒng)的,它的數(shù)據(jù)存儲在Hadoop分布式文件系統(tǒng)HDFS中。22.為了提高系統(tǒng)性能,Spark采取惰性計算模式。下列關(guān)于惰性計算模式的描述正確的是()。A、執(zhí)行Transformation操作時不會提交,只有執(zhí)行Action操作時才會被提交到集群中開始被執(zhí)行B、執(zhí)行Action操作時不會提交,只有執(zhí)行Transformation操作時才會被提交到集群中開始被執(zhí)行C、只有執(zhí)行完Action操作和Transformation操作時,所有操作才會被提交到集群中開始被執(zhí)行D、執(zhí)行完Action操作或Transformation操作時都不會提交到集群【正確答案】:A解析:

Spark惰性計算模式定義。23.在MapReduce中,reduce()函數(shù)可以將()值相同的輸入進(jìn)行合并處理A、inputB、keyC、valueD、number【正確答案】:B解析:

rcduce()函數(shù)根據(jù)key值合并value值。24.解決Master故障的方法是設(shè)置檢查點,當(dāng)Master失效時,從()檢查點開)動另一個Master進(jìn)程。A、第一個B、中間一個C、最后一個D、隨機(jī)選擇一個【正確答案】:C解析:

從最后一個檢查點開始啟動另-Master進(jìn)程使得因故障產(chǎn)生的影響更小。25.DataFrame和RDD最大的區(qū)別是()。A、科學(xué)統(tǒng)計支持B、DataFrame多了schemaC、存儲方式不一樣D、外部數(shù)據(jù)源支持【正確答案】:B解析:

相比于RDD,DataFrame多了數(shù)據(jù)的結(jié)構(gòu)信息,即schema。26.Spark中Stagc下Task的數(shù)量由()決定。A、PartitionB、JobC、StageD、TaskScheduler【正確答案】:A解析:

Task是Stagc下的一個任務(wù)執(zhí)行單元,一般來說,一個RDD中柯多少個Partition就有多少個Task。27.下列描述中不屬于HDFS集群中的NameNode職責(zé)的是()。A、維護(hù)HDFS集群的目錄樹結(jié)構(gòu)B、維護(hù)HDFS集群的所有數(shù)據(jù)塊的分布、副本數(shù)和負(fù)載均衡C、負(fù)責(zé)保存客戶端上傳的數(shù)據(jù)D、響應(yīng)客戶端的所有讀寫數(shù)據(jù)請求【正確答案】:C解析:

NameNode是HDFS的管理節(jié)點,DataNode是HDFS集群的工作節(jié)點。所以用戶上傳的數(shù)據(jù)是由DataNode進(jìn)行保存的;NameNode負(fù)責(zé)保存用戶上傳的數(shù)據(jù)的元數(shù)據(jù)和維護(hù)HDFS的抽象目錄樹結(jié)構(gòu),也會響應(yīng)客戶端的所有讀寫請求。28.在Hadoop生態(tài)系統(tǒng)中,()主要解決的是日志類數(shù)據(jù)的收集和處理問題。A、MahoutB、FlumeC、SqoopD、HBase【正確答案】:B解析:

Flume主要用于日志采集。29.MapReduce對map()函數(shù)的返回值進(jìn)行處理后再返回給reduce()函數(shù)的目的是()。A、減少map()函數(shù)和reduce()函數(shù)之間的數(shù)據(jù)傳輸B、優(yōu)化map()函數(shù)C、優(yōu)化reduce()函數(shù)D、這一步驟并無必要【正確答案】:A解析:

為了降低map()函數(shù)與reduce()函數(shù)之間的數(shù)據(jù)傳輸量,一般先對map()函數(shù)的輸出結(jié)果進(jìn)行處理。30.Spark的集群管理模式不包含()。A、Standalone模式B、Message模式C、YARN模式D、Mesos模式【正確答案】:B解析:

Spark的集群管理主要有Standalone模式、YARN模式和Mesos模式三種。31.在Hadoop生態(tài)系統(tǒng)中,()的主要設(shè)計目的是在Hadoop與傳統(tǒng)數(shù)據(jù)庫之間進(jìn)行數(shù)據(jù)的ETL操作。A、HDFSB、FlumeC、HiveD、Sqoop【正確答案】:D解析:

Sqoop主要用于在Hadoop與傳統(tǒng)的數(shù)據(jù)庫問進(jìn)行數(shù)據(jù)的傳遞,可以將一個關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)導(dǎo)進(jìn)到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫中。32.下列數(shù)據(jù)類型Hive不支持的是()。A、StructB、IntC、MapD、Long【正確答案】:D解析:

Hive支持原生數(shù)據(jù)類型(TinyInt、Smalllnt、Int、BigInt、Boolean、Float、Double、String),也支持復(fù)雜數(shù)據(jù)類型(Map、Array、Struct、Union),不支持Long。33.Hadoop中,Reducer的三個步驟是()。A、Shuffle-Sort-ReduceB、Shuffle-Reduce-SortC、Reduce-Shuffle-SortD、Sort--Shuffle-Reduce【正確答案】:A解析:

Reducer主要分為Shuffle洗牌、Sort排序和Reduce三個步驟。34.MapReduce使用()來記錄不同事件的發(fā)生次數(shù)。A、日志B、事件觸發(fā)器C、狀態(tài)列表D、計數(shù)器【正確答案】:D解析:

MapReduce使用計數(shù)器來記錄不同事件的發(fā)生次數(shù)。35.為了降低MapRcduce兩個階段之間的數(shù)據(jù)傳遞量,一般采用()函數(shù)對map階段的輸出進(jìn)行處理。A、sort()B、combiner()C、join()D、gather()【正確答案】:B解析:

為了降低數(shù)據(jù)傳遞量,采用combiner()函數(shù)對map()函數(shù)的數(shù)據(jù)結(jié)果進(jìn)行合并處理。36.在Hadoop中,()是默認(rèn)的InputFormat類型,它將每行內(nèi)容作為新值,而將字節(jié)偏移量作為key。A、FilelnputFormatB、TextlnputFormatC、KeyValueTextInputFormatD、CombineTextInputFormat【正確答案】:B解析:

TextInputFormat是默認(rèn)的InputFormat。每條記錄是一行輸入,鍵Key是LongWritable類型,存儲該行在整個文件中的字節(jié)偏移量。37.下列關(guān)于HDFS的描述正確的是()。A、如果NameNode宕機(jī),SecondaryNamcNode會接替它使集群繼續(xù)工作B、HDFS集群支持?jǐn)?shù)據(jù)的隨機(jī)讀寫C、NameNode磁盤元數(shù)據(jù)不保存Block的位置信息DataNode通過長連接與NameNode保持通信【正確答案】:C解析:

SccondaryNameNode并不是NameNode節(jié)點的備份,所以A錯;存儲在HD集群上的數(shù)據(jù)是不支持隨機(jī)修改和刪除的,只支持追加,所以B錯;NanNode和DataNo之間的通信是基于一種心跳機(jī)制,該機(jī)制不是長連接是短連接形式,每次發(fā)送一個數(shù)據(jù)(自身狀態(tài)信息+數(shù)據(jù)塊信息)即可,所以D錯。38.下列關(guān)于MapReduce說法不正確的是()。A、MapReduce是一種計算框架B、MapRcduce來源于Google的學(xué)術(shù)論文C、MapReduce程序只能用java語言編寫D、MapReduce隱藏了并行計算的細(xì)節(jié),方便使用【正確答案】:C解析:

MapReduce程序可用多種語言編寫,如Ruby、Python、Java等。39.在MapReduce中,為了發(fā)現(xiàn)Worker故障,Master周期性進(jìn)行的操作是()。A、JoinB、PingCheckD、Connect【正確答案】:B解析:

為了發(fā)現(xiàn)Worker故障,Master周期性進(jìn)行Ping操作。40.下列關(guān)于ZooKecper特點的描述錯誤的是()。A、復(fù)雜性B、自我復(fù)制C、順序訪問D、高速讀取【正確答案】:A解析:

ZooKeeper的設(shè)計回標(biāo)和特點包括簡單性、自我復(fù)制、順序訪問和高速讀取。41.下列不屬于Transformation操作的是()。A、mapB、filterC、sampleD、count【正確答案】:D解析:

Transformation常用函數(shù)為map、filter、flatMap、sample、union、join等。42.當(dāng)()時,可以不考慮RDD序列化處理。A、完成成本比較高的操作后B、執(zhí)行容易失敗的操作之前C、RDD被重復(fù)使用D、實時性要求高【正確答案】:D解析:

RDD的序列化處理主要在完成成本比較高的操作之后、執(zhí)行容易失敗的操作之前、當(dāng)RDD被重復(fù)使用或者計算其代價很高時進(jìn)行。43.()負(fù)責(zé)HDFS數(shù)據(jù)存儲。A、NameNodeB、JobTrackerC、DataNodeD、SccondaryNameNode【正確答案】:C解析:

Hadoop中NameNode節(jié)點作為Master節(jié)點,對集群進(jìn)行管理;SecondaryNameNode節(jié)點在于分擔(dān)NameNode的壓力而設(shè)置;JobTracker是為了跟蹤作業(yè)運(yùn)行的情況而設(shè)置的節(jié)點。44.HBase依靠()存儲底層數(shù)據(jù)。A、HDFSB、HadoopC、MemoryD、MapReducc【正確答案】:A解析:

HBase位于結(jié)構(gòu)化存儲層,HDFS為HBase提供了高可靠性的底層存儲支持。45.()通常與NameNode在一個節(jié)點啟動。A、SecondaryNameNodeB、DataNodeC、TaskTrackerD、JobTracker【正確答案】:D解析:

Hadoop的集群是基于master/slave模式,NameNode和JobTracker屬于master,DataNode和TaskTracker屬于slave,master只有一個,而slave有多個。SecondaryNameNode內(nèi)存需求和NameNode在一個數(shù)量級上,所以通常SecondaryNameNode(運(yùn)行在單獨(dú)的物理機(jī)器上)和NameNode運(yùn)行在不同的機(jī)器上。JobTracker對應(yīng)于NameNode,TaskTracker對應(yīng)于DataNode。DataNode和NameNode是針對數(shù)據(jù)存放來而言的,JobTracker和TaskTracker是對于MapRcduce執(zhí)行而言的。46.Hadoop生態(tài)系統(tǒng)中,HBase是一種()。A、分布式文件系統(tǒng)B、數(shù)據(jù)倉庫C、實時分布式數(shù)據(jù)庫D、分布式計算系統(tǒng)【正確答案】:C解析:

HBase是一個面向列的實時分布式數(shù)據(jù)庫。47.HBase作為數(shù)據(jù)存儲組件封裝于大數(shù)據(jù)平臺,用于()。A、關(guān)系型數(shù)據(jù)庫存儲B、分布式文件存儲C、非關(guān)系型數(shù)據(jù)庫存儲D、列式存儲【正確答案】:C解析:

HBase是列式存儲,以流的方式在列中存儲所有的數(shù)據(jù)。對于任何記錄,索引者可以快速地獲取列上的數(shù)據(jù)。列式存儲主要用于非關(guān)系型數(shù)據(jù)庫存儲。48.分布式應(yīng)用程序可以基于分布式應(yīng)用程序協(xié)調(diào)服務(wù)實現(xiàn)同步服務(wù),配置維護(hù)和命名服務(wù)等的工具是()。A、FlumeB、ZookeeperC、StormD、SparkStreaming【正確答案】:B解析:

Zookeeper和Chubby均是分布式協(xié)調(diào)服務(wù)。49.Spark的()組件用于支持實時計算需求。A、SparkSQLB、SparkStreamingC、SparkGraphXD、SparkMLLib【正確答案】:B解析:

SparkStreaming組件用于實時處理。50.下列業(yè)務(wù)場景中,不能直接使用Reducer充當(dāng)Combiner的是()。A、sum求和B、max求最大值C、count求計數(shù)D、avg求平均【正確答案】:D解析:

求平均需要對全部數(shù)據(jù)進(jìn)行計算而非部分?jǐn)?shù)據(jù),在不更改業(yè)務(wù)邏輯的情況,使用Reducer充當(dāng)Combiner,最終會造成業(yè)務(wù)結(jié)果不正確。51.大數(shù)據(jù)平臺技術(shù)架構(gòu)不包含()。A、數(shù)據(jù)整合B、數(shù)據(jù)存儲C、數(shù)據(jù)計算D、數(shù)據(jù)溯源【正確答案】:D解析:

利用大數(shù)據(jù)平臺可以實現(xiàn)數(shù)據(jù)整合、數(shù)據(jù)存儲、數(shù)據(jù)計算等技術(shù),無法實現(xiàn)數(shù)溯源。52.在Hadoop中,()執(zhí)行文件系統(tǒng)命名空間操作。A、DataNodeB、NameNodeC、JobTrackerD、TaskTracker【正確答案】:B解析:

NameNode在HDFS這種文件系統(tǒng)中充當(dāng)著Master的角色,負(fù)責(zé)的功能有很多,比如文件系統(tǒng)目錄管理(命名空間管理)、數(shù)據(jù)塊管理、數(shù)據(jù)節(jié)點管理、租約管理、緩存管理等。53.相對于HadoopMapRcducel.0,Spark的特點不包括()。A、速度快B、并發(fā)多C、通用性D、易用性【正確答案】:B解析:

相較于HadoopMapReduce,Spark的特點為速度快、通用性和易用性。54.()不是Spark服務(wù)層的功能。A、SQL查詢B、實時處理C、機(jī)器學(xué)習(xí)D、內(nèi)存計算【正確答案】:D解析:

Spark服務(wù)層主要提供面向特定類型的計算服務(wù)。如SQL金詢、實時處理、機(jī)器學(xué)習(xí)以及圖計算。55.下列操作中MapReduce的Shuffle階段最后做的是()。A、溢寫B(tài)、分區(qū)C、排序D、合并【正確答案】:D解析:

MapReduce編程模型分為Mapper和Reducer階段,在Mapper和Reducer的中間還有一個Shuffle階段。Shuflle中的執(zhí)行順序是先分區(qū),然后在溢寫之前進(jìn)行排序,最后治出的多個磁盤文件會進(jìn)行合并成一個大文件。56.RDD默認(rèn)的存儲級別是()。A、MEMORY_ONLYB、MEMORY_ONLY_SERC、MEMORY_ANDISKE、MEMORY_AND_DISK_SER【正確答案】:A解析:

RDD存儲級別定義。57.MapReduce計算框架的輸入數(shù)據(jù)結(jié)構(gòu)是()。A、kcy-valucB、input-outputC、map-reduceD、key-column【正確答案】:A解析:

MapReduce計算框架的輸入是鍵值對,即key-value。58.Spark中引人RDD概念的目的是()。A、數(shù)據(jù)存儲B、數(shù)據(jù)查重C、提升容錯能力D、增強(qiáng)數(shù)據(jù)一致性【正確答案】:C解析:

在Spark中引入RDD概念的目的是實現(xiàn)Spark的并行操作和靈活的容錯能力。59.Spark的特點不包括()。A、速度快B、通用性C、易用性D、單一操作性【正確答案】:D解析:

Spark是一個快速、通用和易于使用的計算平臺。60.在Hadoop生態(tài)系統(tǒng)中,()可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射成一張數(shù)據(jù)庫表,并提供簡單的查詢語言。A、PigB、HBascC、HiveD、MapReduce【正確答案】:C解析:

在Hadoop生態(tài)系統(tǒng)中,Hive可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射成一張數(shù)據(jù)庫表,并提供簡單的查詢語言。61.大數(shù)據(jù)平臺核心分布式存儲與計算組件采用Hadoop技術(shù)體系中的分布式存儲、分布式計算框架及Spark等開源產(chǎn)品和技術(shù),實現(xiàn)對數(shù)據(jù)的安全控制和管理功能,其中分布式存儲不包括()。A、HDFSB、PostgresqC、HiveD、HBase【正確答案】:B解析:

Postgresql并非分布式存儲。62.在HDFS中,()是文件系統(tǒng)的工作節(jié)點。A、DataNodeB、ClientC、NameNodeD、Flume【正確答案】:A解析:

數(shù)據(jù)節(jié)點(DataNode)是分布式文件系統(tǒng)HDFS的工作節(jié)點,負(fù)責(zé)數(shù)據(jù)的存儲讀取,會根據(jù)客戶端或者是名稱節(jié)點的調(diào)度來進(jìn)行數(shù)據(jù)的存儲和檢索,并且向名稱節(jié)點定發(fā)送自己所存儲的塊的列表,每個數(shù)據(jù)節(jié)點中的數(shù)據(jù)會被保存在各自節(jié)點本地Linux文件統(tǒng)中。63.在MapReduce中,下列描述錯誤的是()。A、Worker故障和Master故障的處理方法不相同B、Map和Reduce的處理結(jié)果都存儲在本地文件系統(tǒng)C、一個Worker發(fā)生故障時,該節(jié)點上執(zhí)行完的Map任務(wù)需要再次執(zhí)行D、MapReduce具有很強(qiáng)的容錯機(jī)制【正確答案】:B解析:

已經(jīng)完成的Map任務(wù)的輸出存儲在本臺機(jī)器上,Reduce任務(wù)的輸出存儲在全局文件系統(tǒng)上,故B錯。64.()不是HDFS的設(shè)計目標(biāo)。A、流式數(shù)據(jù)訪問B、大規(guī)模數(shù)據(jù)集C、移動計算D、多次寫入,多次讀取的文件訪問模型【正確答案】:D解析:

HDFS的設(shè)計以一次寫入,多次讀取為主要應(yīng)用場景,因此D錯。65.大數(shù)據(jù)平臺構(gòu)建分布式文件系統(tǒng)、分布式數(shù)據(jù)倉庫、非關(guān)系型數(shù)據(jù)庫、關(guān)系型數(shù)據(jù)庫,實現(xiàn)各類數(shù)據(jù)的集中存儲與統(tǒng)一管理,滿足()存儲需求。A、歷史數(shù)據(jù)B、離線數(shù)據(jù)C、實時數(shù)據(jù)D、多樣化數(shù)據(jù)【正確答案】:D解析:

大數(shù)據(jù)平臺構(gòu)建分布式文件系統(tǒng)、分布式數(shù)據(jù)倉庫、非關(guān)系型數(shù)據(jù)庫、關(guān)系型數(shù)據(jù)庫、實現(xiàn)各類數(shù)據(jù)的集中存儲與統(tǒng)一管理,滿足多樣化數(shù)據(jù)存儲需求。66.在MapReduce中,下列組件中用戶不指定也不會有默認(rèn)的是()。A、CombinerB、OutputFormatC、PartitionerD、InputFormat【正確答案】:A解析:

在MapReduce編程模型中,Combiner是可有可無的組件,它的作用是給MapTask的結(jié)果數(shù)據(jù)做局部合并以減少ReduceTask接收的數(shù)據(jù)量,以減少網(wǎng)絡(luò)數(shù)據(jù)傳輸;OutputFormat的默認(rèn)組件是TextOutputFormat;InputFormat的默認(rèn)組件是TextInputFormat;Partitioner的默認(rèn)實現(xiàn)是HashPartitioner。67.在Hadoop生態(tài)系統(tǒng)中,()建立在MapReduce之上,主要用來彌補(bǔ)MapReduce編程的復(fù)雜性。A、HbaseB、FlumeC、PigD、Sqoop【正確答案】:C解析:

Pig是對MapReduce編程復(fù)雜性的抽象,Pig平臺包含用于分析Hadoop數(shù)據(jù)集的執(zhí)行環(huán)境和腳本語言(PigLatin)。68.客戶端從HDFS上讀取數(shù)據(jù)時會()。A、從NameNode上獲取數(shù)據(jù)B、從DataNode上獲取Block位置C、從NameNode上獲取Block位置D、從NameNode上獲取數(shù)據(jù)和Block位置【正確答案】:C解析:

NameNode保存數(shù)據(jù)Block的位置,DataNode保存數(shù)據(jù)。69.一個MapReduce程序中的MapTask的個數(shù)由()決定。A、輸入的總文件數(shù)B、客戶端程序設(shè)置的mapTask的個數(shù)C、FileInputFormat.getSplits(JobContextjob)計算出的邏輯切片的數(shù)量D、輸入的總文件大?。瘮?shù)據(jù)塊大小【正確答案】:C解析:

MapReduce編程模型中的MapTask的并行度決定機(jī)制是由FilelnputFormat.getSplits(JobContextjob)決定的。該方法的返回值是List<InputSplit>splits,這個結(jié)果集合中的每個InputSplit就是一個邏輯輸入切片,每個邏輯輸入切片在默認(rèn)情況下是會要啟動一個MapTask任務(wù)進(jìn)行計算的,因此C對。70.MapReduce默認(rèn)的分區(qū)函數(shù)是()。A、hashB、diskC、reduceD、map【正確答案】:A解析:

MapReduce默認(rèn)的分區(qū)函數(shù)是hash。71.下列組件中MapReduce編程模型中最后執(zhí)行的是()。A、MapperB、PartitionerC、ReducerD、RecordReader【正確答案】:C解析:

MapReduce編程模型中四個組件的執(zhí)行順序是RecordReader→MapperPartitioner→Reducer。72.下列關(guān)于Hadoop中MapReduce的說法正確的是()。A、可以沒有Reduce任務(wù)B、Reducer輸入為隨機(jī)輸入C、Shuffle主要實現(xiàn)數(shù)據(jù)可視化功能D、一個Reducer只能從一個Map復(fù)制所需要的partition【正確答案】:A解析:

MapReduce中的Reduce并不是必須存在的。73.下列關(guān)于SecondaryNameNode的說法正確的是()。A、它是NameNode的熱備B、它對內(nèi)存沒有要求C、它的目的是幫助NameNode合并編輯日志,減少NameNode的負(fù)擔(dān)和冷啟動時的加載時間D、SecondaryNameNode應(yīng)與NameNode部署到一個節(jié)點【正確答案】:C解析:

SccondaryNameNodc是給NamcNode減輕壓力的角色,工作職責(zé)就是定期合并磁盤元數(shù)據(jù)文件為序列化的鏡像文件,即幫助NameNode合并編輯日志以減少NameNode冷啟動時需要加載元數(shù)據(jù)的時間。在合并的時候也需要把之前的元數(shù)據(jù)都加載到內(nèi)存,所以對內(nèi)存也有一定的依賴,即不能和NamcNodc啟動在同--個節(jié)點,否則就起不到任何減輕壓力的作用。74.下列進(jìn)程中不是HDFS的守護(hù)進(jìn)程的是()。A、SecondaryNameNodeB、DataNodeC、MRAppMaster/YamChildD、NameNode【正確答案】:C解析:

NameNode是HDFS集群的主節(jié)點,DataNode是HDFS集群的從節(jié)點,SecondaryNameNode是HDFS集群啟動的用來給NameNode節(jié)點分擔(dān)壓力的角色,這個三個服務(wù)進(jìn)程會一直啟動著。MRAppMaster/YarnChild進(jìn)程是只有在YARN集群運(yùn)行了MapReduce程序之后才會啟動的程序。75.在Hadoop的分區(qū)階段,默認(rèn)的Partitioner是()。A、RangePartitionerB、PartitionerC、HashPartitionerD、用戶自定義的Partitioner【正確答案】:C解析:

Hadoop中默認(rèn)的Partitioner是HashPartitioner。76.HBase依靠()提供消息通信機(jī)制。A、ZooKeeperB、ChubbyC、RPCD、Socket【正確答案】:A解析:

ZooKeeper是一個高可用、高性能的分布式協(xié)調(diào)服務(wù),為HBasc提供消息通借機(jī)制。77.Spark可以處理的數(shù)據(jù)任務(wù)包括()。A、數(shù)據(jù)流處理B、交互式處理C、圖數(shù)據(jù)處理D、以上都是【正確答案】:D解析:

Spark可以很好地支持?jǐn)?shù)據(jù)流計算、交互式處理、圖計算等多種計算模式。78.()屬于Spark框架中的可擴(kuò)展機(jī)器學(xué)習(xí)庫。A、MLibB、GraphXC、StreamingD、SparkSQL【正確答案】:A解析:

MLib是可擴(kuò)展機(jī)器學(xué)習(xí)庫。79.Hadoop中partition()函數(shù)代表的是()。A、分區(qū)函數(shù)B、特征函數(shù)C、算法函數(shù)D、排序函數(shù)【正確答案】:A解析:

partition()代表分區(qū)函數(shù)。80.MapReduce編程模型,鍵值對<key,value>的kcy必須實現(xiàn)()接口。A、WritableComparableB、ComparableC、WritableD、LongWritable【正確答案】:A解析:

Hadoop為Key的數(shù)據(jù)類型,必須實現(xiàn)WritableComparable,而Value的數(shù)據(jù)類型只需要實現(xiàn)Writable即可。81.()是Spark的核心數(shù)據(jù)結(jié)構(gòu)。A、彈性分布式數(shù)據(jù)集B、列表C、元組D、字典【正確答案】:A解析:

彈性分布式數(shù)據(jù)集(RDD)是Spark的核心數(shù)據(jù)結(jié)構(gòu)。82.HDFS是基于流數(shù)據(jù)模式訪問和處理超大文件的需求而開發(fā)的,具有高容錯、高可靠性、高可擴(kuò)展性、高吞吐率等特征,適合的讀寫任務(wù)是()。A、一次寫入、少次讀取B、多次寫入、少次讀取C、多次寫入、多次讀取D、一次寫入、多次讀取【正確答案】:D解析:

HDFS的設(shè)計以一次寫入、多次讀取為主要應(yīng)用場景。83.在MapReduce計算架構(gòu)中,()組件運(yùn)行在DataNode上,具體管理本節(jié)點計算任務(wù)的執(zhí)行。A、ClientB、JobTrackerC、TaskTrackerD、Task【正確答案】:C解析:

TaskTracker組件運(yùn)行在DataNode上,具體管理本節(jié)點計算任務(wù)的執(zhí)行。84.為提高計算性能,Spark中Transformation操作采用的計算模式是()。A、活性計算模式B、惰性計算模式C、實時計算模式D、非實時計算模式【正確答案】:B解析:

Spark的所有Transformation操作采取的都是惰性計算模式。85.下列關(guān)于DataNode的描述錯誤的是()。A、DataNode負(fù)責(zé)處理文件系統(tǒng)客戶端的文件讀寫請求B、DataNode進(jìn)行數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制工作C、集群中的DataNode一般是一個節(jié)點一個D、文件的副本系數(shù)由DataNode儲存【正確答案】:D解析:

文件副本的數(shù)目稱為文件的副本系數(shù),這個信息是由NameNode保存的。86.下列不屬于Action操作的是()。A、collectB、filterC、reduceD、count【正確答案】:B解析:

Action常用的函數(shù)為reduce、collect、count、take、first、foreach等。87.下列關(guān)于Sqoop的說法不正確的是()。A、主要設(shè)計目的是在Hadoop與傳統(tǒng)數(shù)據(jù)庫之間進(jìn)行數(shù)據(jù)的ETL操作B、數(shù)據(jù)導(dǎo)入導(dǎo)出通過MapReduce完成C、Sqoop具備MapReduce的并行化和容錯性D、Sqoop的Reduce操作速度更快【正確答案】:D解析:

Sqoop是一個強(qiáng)大的工具,主要用來處理大量的數(shù)據(jù)傳輸,并不會影響Rey的操作速度。88.下列關(guān)于Hadoop的說法錯誤的是()。A、它運(yùn)行在通用硬件上B、它是Apache軟件基金會(ASF)下的項目C、它是最好的實時流式數(shù)據(jù)處理框架D、Hadoop對數(shù)據(jù)的處理是有延遲的【正確答案】:C解析:

Hadoop不善于處理除批處理計算模式之外的其他計算模式,如流計算等。故C錯。89.MapReduce中,Shuffle操作的作用是()。A、合并B、排序C、降維D、分區(qū)【正確答案】:B解析:

Shuffc-確保每個reducc()函數(shù)的輸入都按鍵排序。90.執(zhí)行一個job,如果這個job的輸出路徑已經(jīng)存在,那么程序會()。A、覆蓋這個輸出路徑B、拋出警告,但是能夠繼續(xù)執(zhí)行C、拋出一個異常,然后退出D、創(chuàng)建一個新的輸出路徑【正確答案】:C解析:

MapReduce編程模型中的輸出目錄必須是不存在的目錄,否則程序拋出異常并且退出運(yùn)行。91.Spark核心層主要關(guān)注的問題是().A、存儲B、計算C、傳輸D、連接【正確答案】:B解析:

Spark核心層定義,Spark核心層主要關(guān)注計算問題。92.()負(fù)責(zé)HDFS數(shù)據(jù)存儲。A、NameNodeB、JobTrackerC、DataNodeD、SccondaryNameNode【正確答案】:C解析:

DataNode負(fù)責(zé)HDFS的數(shù)據(jù)塊存儲。93.DAGScheduler的作用是()。A、負(fù)責(zé)分配任務(wù)B、負(fù)責(zé)調(diào)度Worker的運(yùn)行C、負(fù)責(zé)創(chuàng)建執(zhí)行計劃D、負(fù)責(zé)清理執(zhí)行完畢的任務(wù)【正確答案】:C解析:

Scheduler模塊分為DAGScheduler和TaskScheduler兩個部分。DAGScheduler負(fù)責(zé)創(chuàng)建執(zhí)行計劃;TaskScheduler負(fù)責(zé)分配任務(wù)并調(diào)度Worker的運(yùn)行。94.Spark的劣勢是()。A、運(yùn)算速度快B、業(yè)務(wù)實現(xiàn)需要較少代碼C、提供很多現(xiàn)成函數(shù)D、需要更多機(jī)器內(nèi)存【正確答案】:D解析:

Spark采用的是內(nèi)存計算模式,需要的內(nèi)存較多。95.HDFS是Hadoop平臺上的分布式文件系統(tǒng),它是由()組成的。A、一個NameNode、一個SecondaryNamcNode和多個DataNodeB、一個DataNode、--個SecondaryNameNode和多個NameNodeC、多個NameNode、一個SecondaryNameNode和多個DataNodeD、一個NameNode、一個SecondaryNameNode和一個DataNode【正確答案】:A解析:

HDFS由一個NameNodc、一個SecondaryNamcNode和多個DataNode組成。96.下列關(guān)于Hive說法正確的是()。A、一種數(shù)據(jù)倉庫工具B、一種數(shù)據(jù)處理工具C、一種可視化工具D、一種分析算法【正確答案】:A解析:

Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,用來進(jìn)行數(shù)據(jù)提取、轉(zhuǎn)化、加載,這是一種可以存儲、查詢和分析存儲在Hadoop中的大規(guī)模數(shù)據(jù)的機(jī)制。97.在Spark中,()是指RDD的每個分區(qū)都只被子RDD的一個分區(qū)所依賴。A、子分區(qū)B、父分區(qū)C、寬依賴D、窄依賴【正確答案】:D解析:

窄依賴定義。98.MapReduce適用于()。A、任意應(yīng)用程序B、任意可在WindowsServet2008上運(yùn)行的程序C、可以串行處理的應(yīng)用程序D、可以并行處理的應(yīng)用程序【正確答案】:D解析:

MapReduce適用于并行處理的應(yīng)用程序。

68

99.()肯定是寬依賴操作。A、mapB、flatMapC、reduceByKeyD、sample【正確答案】:C解析:

Spark中常見的窄依賴操作包括map、filer、union、sample等,寬依賴操作包括reduceByKey、groupByKey、join等。100.HBase是一種可伸縮、高可靠、高性能、分布式和面向()的動態(tài)模式數(shù)據(jù)庫。A、列B、行C、行和列D、元組【正確答案】:A解析:

HBase支持的是列式存儲。1.下列關(guān)于HadoopMapReduce的描述正確的有()。A、reduce()函數(shù)的輸入是value集B、reduce()函數(shù)將最終結(jié)果寫到HDFS系統(tǒng)中C、用戶可以自己定義reduce()函數(shù)D、reduce()函數(shù)的輸入數(shù)據(jù)是經(jīng)過map()函數(shù)處理之后的數(shù)據(jù)【正確答案】:BCD解析:

reduce()函數(shù)的輸入是key-value集。2.SparkRDD的依賴機(jī)制包括()。A、寬依賴B、深度依賴C、廣度依賴D、窄依賴【正確答案】:AD解析:

RDD之間的依賴關(guān)系可以分為窄依賴和寬依賴兩種。3.Spark組件包含()兩個算子。A、MapB、ActionC、TransformationD、Reduce【正確答案】:BC解析:

Spark針對RDD提供了多種基礎(chǔ)操作,可以大致分為Action和Transformation兩種。4.下列關(guān)于MapReduce與HBase關(guān)系的描述正確的有()。A、兩者不可或缺,MapReduce是HBase可以正常運(yùn)行的保證B、兩者不是強(qiáng)關(guān)聯(lián)關(guān)系,沒有MapReduce,HBasc可以正常運(yùn)行C、MapReduce可以直接訪問HBaseD、它們之間沒有任何關(guān)系【正確答案】:BC解析:

HBase是Hadoop數(shù)據(jù)庫。它是一個適合于非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫,與MapReduce并無強(qiáng)關(guān)聯(lián)關(guān)系,HadoopMapReduce為HBase提供了高性能的計算能力,可直接訪問HBase。5.下列中屬于MapReduce特征的有()。A、以主從結(jié)構(gòu)的形式運(yùn)行B、容錯機(jī)制的復(fù)雜性C、任務(wù)備份機(jī)制的必要性D、數(shù)據(jù)存儲位置固定【正確答案】:ABC解析:

數(shù)據(jù)存儲位置具有多樣性,并非固定,所以D錯。6.下列關(guān)于Pig的說法正確的有()。A、Pig的主要目的是彌補(bǔ)MapReduce編程的復(fù)雜性B、Pig的核心是一種數(shù)據(jù)分析語言C、Pig程序的結(jié)構(gòu)適合串行處理D、Pig主要包含PigLatin和Pig執(zhí)行環(huán)境兩部分【正確答案】:ABD解析:

Pig程序的結(jié)構(gòu)適合并行處理。7.下列有關(guān)MapReduce計算框架的描述正確的有()。A、MapReduce可以計算任務(wù)的劃分和調(diào)度B、MapReduce可完成數(shù)據(jù)的分布存儲和劃分C、MapReduce可以實現(xiàn)處理系統(tǒng)節(jié)點出錯檢測和失效恢復(fù)D、MapReduce可實現(xiàn)處理數(shù)據(jù)與計算任務(wù)的同步【正確答案】:ABCD解析:

根據(jù)MapReduce定義可得,A、B、C、D都可以實現(xiàn)。8.下列關(guān)于Zookecper的描述正確的有()。A、Zookccper維護(hù)著一個樹形的層次結(jié)構(gòu)B、Zookeeper的數(shù)據(jù)訪問具有原子性C、Zookecper被設(shè)計用來實現(xiàn)協(xié)調(diào)服務(wù)D、Zookceper被設(shè)計用來實現(xiàn)大容量數(shù)據(jù)存儲【正確答案】:ABC解析:

Zookeeper無法用來存儲數(shù)據(jù)。9.下列關(guān)于Spark中RDD的描述正確的有()。A、RDD(ResilientDistributedDataset)叫作彈性分布式數(shù)據(jù)集,是Spark中最基本的數(shù)據(jù)抽象B、Resilient:表示彈性的C、Destributed:分布式,可以并行在集群計算Dataset:就是一個集合,用于存放數(shù)據(jù)【正確答案】:ABCD解析:

A、B、C、D全部正確。10.下列關(guān)于MapReduce1.0版本的說法正確的有()。A、擴(kuò)展性差B、可靠性差C、資源利用率低D、無法支持多種計算框架【正確答案】:ABCD解析:

MapReducel.0存在的局限性包括擴(kuò)展性差、可靠性差、資源利用率低、無法支持多種計算框架。11.基于Hadoop開源大數(shù)據(jù)平臺主要提供了針對數(shù)據(jù)分布式計算和存儲能力,如下感于分布式存儲組件的有()。A、MapReduceB、SparkC、HDFSD、HBasc【正確答案】:CD解析:

MapRcduce和Spark的核心功能是分布式計算。12.在Spark中,彈性分布式數(shù)據(jù)集的特點包括()。A、可分區(qū)B、可序列化C、可直接修改D、可持久化【正確答案】:ABD解析:

RDD不可修改。13.下列關(guān)于Pig的說法正確的有()。A、彌補(bǔ)MapReduce編程復(fù)雜性B、封裝MapReduce處理過程C、PigLatin是一種數(shù)據(jù)分析語言D、適用于并行處理【正確答案】:ABCD解析:

Pig建立在MapRcduce之上,主要目的是彌補(bǔ)MapRcduce編程的復(fù)雜性;Pig較好地封裝了MapReduce的處理過程;PigLatin是數(shù)據(jù)分析的描述語言;Pig的結(jié)構(gòu)適用于并行處理。14.MapReduce中運(yùn)行程序副本程序的機(jī)器有()。A、Map服務(wù)器B、Master服務(wù)器C、Worker服務(wù)器D、Reduce服務(wù)器【正確答案】:BC解析:

MapRcduce中,運(yùn)行程序副本程序的機(jī)器分為Master服務(wù)器和若干個Worker服務(wù)器兩類。15.Hadoop框架的缺點有()。A、MapReduce編程框架的限制B、過多的磁盤操作,缺乏對分布式內(nèi)存的支持C、無法高效支持迭代式計算D、不支持多用戶寫入和任意修改文件【正確答案】:ABCD解析:

以上四項都為Hadoop的缺點。16.Spark提交工作的方式有()。A、ClientB、ClusterC、StandaloneD、YARN【正確答案】:AB解析:

Spark提交作業(yè)的方式是Client和Clustero17.下列屬于HBasc性能優(yōu)化的有()。A、讀優(yōu)化B、寫優(yōu)化C、配置優(yōu)化D、JVM優(yōu)化【正確答案】:ABCD解析:

HHBase性能優(yōu)化包含讀優(yōu)化、寫優(yōu)化、配置優(yōu)化、JVM優(yōu)化。18.在Hive架構(gòu)中,支持的數(shù)據(jù)操作有()。A、插入B、查詢C、刪除D、分析【正確答案】:BD解析:

Hive提供簡單的HiveQL查詢、分析功能,可以較好地滿足基于數(shù)據(jù)倉庫的統(tǒng)計分析需要。19.下列關(guān)于Hive的說法正確的有()。A、Hive是基于Hadoop的數(shù)據(jù)倉庫工具B、Hive可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表C、最初,Hive由Google開源,用于解決海量結(jié)構(gòu)化日志數(shù)據(jù)統(tǒng)計問題D、Hive的主要應(yīng)用場景是離線分析【正確答案】:ABD解析:

Hive不是由谷歌提出和開源的,谷歌提出的三大核心技術(shù)是GFS、BigTable、MapReduce。20.Spark2.0提供的應(yīng)用庫包括()。A、SparkSQLB、SparkStreamingC、MLibD、GraphX【正確答案】:ABCD解析:

Spark2.0提供的應(yīng)用庫包括SparkSQL、SparkStreaming、MLib、GraphX。21.Spark中的Scheduler模塊可以分為()。A、DAGSchcdulerB、ResourceSchedulerC、TaskSchedulerD、JobScheduler【正確答案】:AC解析:

Scheduler模塊分為DAGScheduler和TaskScheduler兩個部分。22.下列關(guān)于HDFS文件寫人的描述正確的有()。A、不支持多用戶對同一文件的寫操作B、用戶不可以在文件任意位置進(jìn)行修改C、默認(rèn)將文件復(fù)制成三份存放D、復(fù)制的文件塊默認(rèn)不存在同一機(jī)架上【正確答案】:ABCD解析:

根據(jù)HDFS定義。23.Spark的技術(shù)架構(gòu)可以分為()。A、資源管理層B、Spark核心層C、應(yīng)用層D、服務(wù)層【正確答案】:ABD解析:

Spark的技術(shù)架構(gòu)可以分為資源管理層、Spark核心層和服務(wù)層三層。24.ApacheFlume主要解決的是日志數(shù)據(jù)的收集和處理問題,F(xiàn)lume的主要設(shè)計目的和特征包括()。A、高可靠性B、可擴(kuò)展性C、管理復(fù)雜D、不支持用戶自定義【正確答案】:AB解析:

Flume的主要設(shè)計目的和特征包括高可靠性、可擴(kuò)展性、支持方便管理、支持用

戶自定義25.在MapReducel.0版本中,JobTracker功能有()。A、資源管理B、作業(yè)控制C、作業(yè)存儲D、作業(yè)審核【正確答案】:AB解析:

在MapReducel.0中,JobTracker同時兼?zhèn)淞速Y源管理和作業(yè)控制兩個功能。26.Hadoop運(yùn)行的模式包括()。A、單機(jī)版B、偽分布式C、分布式D、全分布式【正確答案】:ABC解析:

Hadoop運(yùn)行模式包括單機(jī)版、偽分布式和分布式。27.Spark的關(guān)鍵技術(shù)包括()。A、RDDB、SchedulerC、StorageD、Shuffle【正確答案】:ABCD解析:

Spark的關(guān)鍵技術(shù)包括RDD、Schedulcr、Storagc、Shuffc。28.Spark的基本流程主要涉及()等角色。A、DriverProgramB、ClusterManagerC、WorkerNodeD、Executor【正確答案】:ABCD解析:

Spark的基本流程主要涉及DriverProgram(驅(qū)動程序)、Spark-Context、ClusterManage(集群管理器)、WorkerNode(工作節(jié)點)、Executor(執(zhí)行器)和Cache(緩存)等角色。

-.29.Hadoop組件Zookeeper的設(shè)計目標(biāo)和主要特點包括()。A、簡單性B、自我復(fù)制C、順序訪問D、高速讀取【正確答案】:ABCD解析:

ZooKeeper的設(shè)計目標(biāo)和特點包括簡單性、自我復(fù)制、順序訪問和高速讀取。30.Spark的部署模式包括()。A、本地模式B、Standalone模式C、SparkonYARN模式D、SparkonMesos模式【正確答案】:ABCD解析:

Spark支持上述四種運(yùn)行模式,在實驗中為了充分利用資源,一般配置Standalou模式運(yùn)行。31.HBase中KeyValue數(shù)據(jù)的存儲格式是()。A、HFileB、HLogFileC、SequenceFileD、TXT【正確答案】:A解析:

HBase中KeyValue數(shù)據(jù)的存儲格式是HFile。32.下列服務(wù)中可以用于存儲數(shù)據(jù)的有()。A、MapReduceB、YARNC、HBaseD、HDFS【正確答案】:CD解析:

MapReduce是計算模型;YARN是通用資源管理系統(tǒng);HBase是動態(tài)模式數(shù)據(jù)庫;HDFS是Hadoop分布式文件系統(tǒng),是數(shù)據(jù)存儲的基礎(chǔ)。33.ETL技術(shù)主要涉及操作有()。A、抽取B、轉(zhuǎn)換C、加載D、分析【正確答案】:ABC解析:

ETL技術(shù)主要涉及抽取(extract)、轉(zhuǎn)換(transform)、加載(load)。34.相對于HadoopMapReduce,Spark的特點有()。A、通用性B、易用性C、速度快D、容錯性【正確答案】:ABC解析:

相對于HadoopMapReduce,Spark的特點包括速度快、通用性和易用性。35.RDD的特征有()。A、可容錯性B、簡潔性C、并行數(shù)據(jù)結(jié)構(gòu)D、結(jié)構(gòu)化【正確答案】:AC解析:

RDD是一個容錯的、并行的數(shù)據(jù)結(jié)構(gòu)。36.Flume的特點包括()。A、分布式B、高可靠C、高容錯D、易于定制和擴(kuò)展【正確答案】:ABCD解析:

Flume的特點包括分布式、高可靠、高容錯、易于定制和擴(kuò)展。37.Hadoop的優(yōu)點包括()。A、可其性B、高效性C、可伸煽性D、成本低【正確答案】:ABCD解析:

Hadoop的優(yōu)點包括可靠性、高效性、可伸縮性和成本低。38.Spark比MapReduce計算快的原因有()。A、基于內(nèi)存的計算B、基于DAG的調(diào)度框架C、基于Lineage的容錯機(jī)制D、基于分布式計算的框架【正確答案】:ABC解析:

Spark比MapReduce計算快的原因包括基于內(nèi)存計算、使用基于Lineage的容錯機(jī)制和基于DAG的調(diào)度框架。39.從Hadoop實現(xiàn)角度看,HadoopMapReducel.0主要由()組成。A、編程模型B、數(shù)據(jù)處理引擎C、運(yùn)行時環(huán)境D、算法庫【正確答案】:ABC解析:

HadoopMapReduce1.0計算框架主要由編程模型、數(shù)據(jù)處理引擎和運(yùn)行時環(huán)境組成。

國家電網(wǎng)有限公司大數(shù)據(jù)應(yīng)用習(xí)題集40.大數(shù)據(jù)平臺的計算組件主要有()。A、StormB、SparkC、MapReduceD、Sqoop【正確答案】:ABC解析:

Storm是Twitter開源的分布式實時大數(shù)據(jù)處理框架;Spark是專為大規(guī)模數(shù)據(jù)處理而設(shè)計的快速通用的計算引擎;MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算;Sqoop是一款開源的工具,主要用于在Hadoop(Hive)與傳統(tǒng)的數(shù)據(jù)庫間進(jìn)行數(shù)據(jù)的傳遞;因此A、B、C正確。41.Spark支持的計算模型有()。A、批處理B、實時計算C、機(jī)器學(xué)習(xí)模型D、交互式查詢【正確答案】:ABCD解析:

Spark支持的計算模型有批處理、實時計算、機(jī)器學(xué)習(xí)模型、交互式查詢。42.Spark容錯性的方式有()。A、數(shù)據(jù)檢查點B、存儲原始數(shù)據(jù)C、記錄數(shù)據(jù)的更新D、自建數(shù)據(jù)版本【正確答案】:AC解析:

Spark容錯性有數(shù)據(jù)檢查點和記錄數(shù)據(jù)的更新兩種方式。43.MapReduce對map()函數(shù)的返回值處理后才傳給reduce()函數(shù),其中涉及的操作有()。A、合并B、排序C、分區(qū)D、抽樣【正確答案】:ABC解析:

分別涉及Shuffle(排序)、Combiner(合并)和Partition(分區(qū))操作。44.HadoopMapReduce是MapReduce的具體實現(xiàn)之一。HadoopMapReduce數(shù)據(jù)處理過程涉及四個獨(dú)立的實體,包括()。A、ClientB、JobTrackerC、TaskTrackerD、HDFS【正確答案】:ABCD解析:

可以將MapReducc的工作流程概括為4個獨(dú)立的實體。4個實體分別為:①Client,用來提交MapRcduce的作業(yè)。編寫MapRcducc程序,配置作業(yè),提交作業(yè),即需程序員完成的工作。②JobTracker,用來協(xié)調(diào)作業(yè)的運(yùn)行。與TaskTracker通信,協(xié)調(diào)整個作業(yè)的執(zhí)行。③TaskTracker,用來處理作業(yè)劃分后的任務(wù)。保持與JobTracker的通信,在分配的數(shù)據(jù)片段上執(zhí)行Map或Reduce任務(wù),TaskTracker和JobTracker的不同有個很重要方面,就是在執(zhí)行任務(wù)的時候TaskTracker可以有n個,JobTracker則只會有一個。④HDFS,用來在其他實體間共享作業(yè)文件。保存作業(yè)的數(shù)據(jù)、配置信息等,最后的結(jié)果也是保存在HDFS上面。45.下列關(guān)于Hadoop中map輸出結(jié)果的說法正確的有()。A、<key,value>鍵值對B、輸出中間臨時結(jié)果C、輸出最終計算結(jié)果D、輸出結(jié)果永久保留【正確答案】:AB解析:

map輸出結(jié)果并非是最終結(jié)果且只暫時保留。46.Hadoop的HDFS是一種分布式文件系統(tǒng),其適合()的數(shù)據(jù)存儲和管理。A、大量小文件存儲B、高容錯、高吞吐量C、低延遲讀取D、流式數(shù)據(jù)訪問【正確答案】:BD解析:

HDFS不適合小文件存儲,HDFS的讀取操作相比于傳統(tǒng)的數(shù)據(jù)庫延遲較高,不適合低延遲讀取。47.下列關(guān)于HBase的說法正確的有()。A、面向列的數(shù)據(jù)庫B、非結(jié)構(gòu)化的數(shù)據(jù)庫C、支持大規(guī)模的隨機(jī)、實時讀寫D、采用松散數(shù)據(jù)模型【正確答案】:ABCD解析:

HBase是非結(jié)構(gòu)化的、多版本的、面向列和開源的數(shù)據(jù)庫;HBase提供了對大模數(shù)據(jù)的隨機(jī)、實時讀寫訪問;從存儲模型看,HBase采用的是松散數(shù)據(jù)模型。48.Spark的組件包括()。A、SparkStreamingB、MLibC、GraphXD、SparkR【正確答案】:ABC解析:

Spark的組件包括SparkSQL、SparkStreaming、MLid、GraphX。49.下列關(guān)于Flume的描述正確的有()。A、Flume具有一定的容錯性B、Flume使用Java編寫C、Flume不支持failoverD、Flume是一個分布式的輕量級工具,適應(yīng)各種方式的數(shù)據(jù)收集【正確答案】:ABD解析:

Flume本身提供了failover機(jī)制,可以自動切換和恢復(fù)。50.在數(shù)據(jù)科學(xué)中,計算模式發(fā)生了根本性的變化-從集中式計算、分布式計算、網(wǎng)格計算等傳統(tǒng)計算過渡至云計算,有一定的代表性的是Google云計算三大技術(shù),這三大技術(shù)包括()。A、HadoopYARN資源管理器B、GFS分布式存儲系統(tǒng)C、MapReduce分布式處理技術(shù)D、BigTable分布式數(shù)據(jù)庫【正確答案】:BCD解析:

Google云計算的三大核心技術(shù)為GFS、MapReduce和BigTable。HadoopYARN資源管理器屬于Hadoopo1.對Master故障,一個簡單的解決辦法是讓Master周期性地將輸出結(jié)果寫入磁盤,并設(shè)置檢查點。當(dāng)Master任務(wù)失效時,可以從最后一個檢查點開始啟動另一個Master進(jìn)程。()A、正確B、錯誤【正確答案】:A解析:

略2.Hadoop是Java開發(fā)的,所以MapReduce只支持Java編寫。()A、正確B、錯誤【正確答案】:B解析:

MapReduce可用多種編程語言編寫。3.Hive定義了一種類似SQL的查詢語言(HQL),將HQL轉(zhuǎn)化為MapReduce任務(wù)在Hadoop上執(zhí)行,通常用于在線分析。()A、正確B、錯誤【正確答案】:B解析:

并非是在線分析而是離線分析。4.MapReduce計算過程中,相同的key默認(rèn)會被發(fā)送到同一個ReduceTask處理。()A、正確B、錯誤【正確答案】:A解析:

略5.HBase對于空(NULL)的列,不需要占用存儲空間。()A、正確B、錯誤【正確答案】:A解析:

數(shù)據(jù)表往往是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論