大數(shù)據(jù)題庫(kù)-大數(shù)據(jù)技術(shù)與工具練習(xí)試題及答案_第1頁(yè)
大數(shù)據(jù)題庫(kù)-大數(shù)據(jù)技術(shù)與工具練習(xí)試題及答案_第2頁(yè)
大數(shù)據(jù)題庫(kù)-大數(shù)據(jù)技術(shù)與工具練習(xí)試題及答案_第3頁(yè)
大數(shù)據(jù)題庫(kù)-大數(shù)據(jù)技術(shù)與工具練習(xí)試題及答案_第4頁(yè)
大數(shù)據(jù)題庫(kù)-大數(shù)據(jù)技術(shù)與工具練習(xí)試題及答案_第5頁(yè)
已閱讀5頁(yè),還剩39頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第頁(yè)大數(shù)據(jù)題庫(kù)-大數(shù)據(jù)技術(shù)與工具練習(xí)試題及答案1.下列關(guān)于ZooKecper特點(diǎn)的描述錯(cuò)誤的是()。A、復(fù)雜性B、自我復(fù)制C、順序訪問D、高速讀取【正確答案】:A解析:

ZooKeeper的設(shè)計(jì)回標(biāo)和特點(diǎn)包括簡(jiǎn)單性、自我復(fù)制、順序訪問和高速讀取。2.下列組件中MapReduce編程模型中最后執(zhí)行的是()。A、MapperB、PartitionerC、ReducerD、RecordReader【正確答案】:C解析:

MapReduce編程模型中四個(gè)組件的執(zhí)行順序是RecordReader→MapperPartitioner→Reducer。3.MapReduce任務(wù)Map輸出結(jié)果將被寫入()。A、HDFS文件系統(tǒng)B、新的記錄文件C、磁盤(Linux文件系統(tǒng))D、主數(shù)據(jù)庫(kù)【正確答案】:C解析:

MapReduce中的Map輸出結(jié)果會(huì)被寫入對(duì)應(yīng)的磁盤中。4.在MapReduce中,通常將Map拆分成M個(gè)片段、Reduce拆分成R個(gè)片段,下列描述錯(cuò)誤的是()。A、MapReduce中單臺(tái)機(jī)器上執(zhí)行大量不同的任務(wù)可以提高集群的負(fù)載均衡能力B、Master必須執(zhí)行O(M+R)次調(diào)度C、Master在內(nèi)存中保存O(M+R)個(gè)狀態(tài)D、M和R要比集群中Worker數(shù)量多【正確答案】:C解析:

master必須執(zhí)行O(M+R)次調(diào)度,并且在內(nèi)存中保存O(MXR)個(gè)狀態(tài),故C錯(cuò)。5.SparkJob默認(rèn)的調(diào)度模式是()。A、FIFOB、FAIRC、無D、運(yùn)行時(shí)指定【正確答案】:A解析:

默認(rèn)情況下Spark的調(diào)度模式是FIFO(先進(jìn)先出)。6.執(zhí)行一個(gè)job,如果這個(gè)job的輸出路徑已經(jīng)存在,那么程序會(huì)()。A、覆蓋這個(gè)輸出路徑B、拋出警告,但是能夠繼續(xù)執(zhí)行C、拋出一個(gè)異常,然后退出D、創(chuàng)建一個(gè)新的輸出路徑【正確答案】:C解析:

MapReduce編程模型中的輸出目錄必須是不存在的目錄,否則程序拋出異常并且退出運(yùn)行。7.MapReduce對(duì)map()函數(shù)的返回值進(jìn)行處理后再返回給reduce()函數(shù)的目的是()。A、減少map()函數(shù)和reduce()函數(shù)之間的數(shù)據(jù)傳輸B、優(yōu)化map()函數(shù)C、優(yōu)化reduce()函數(shù)D、這一步驟并無必要【正確答案】:A解析:

為了降低map()函數(shù)與reduce()函數(shù)之間的數(shù)據(jù)傳輸量,一般先對(duì)map()函數(shù)的輸出結(jié)果進(jìn)行處理。8.Hadoop生態(tài)系統(tǒng)中,HBase是一種()。A、分布式文件系統(tǒng)B、數(shù)據(jù)倉(cāng)庫(kù)C、實(shí)時(shí)分布式數(shù)據(jù)庫(kù)D、分布式計(jì)算系統(tǒng)【正確答案】:C解析:

HBase是一個(gè)面向列的實(shí)時(shí)分布式數(shù)據(jù)庫(kù)。9.下列關(guān)于DataNode的描述錯(cuò)誤的是()。A、DataNode負(fù)責(zé)處理文件系統(tǒng)客戶端的文件讀寫請(qǐng)求B、DataNode進(jìn)行數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制工作C、集群中的DataNode一般是一個(gè)節(jié)點(diǎn)一個(gè)D、文件的副本系數(shù)由DataNode儲(chǔ)存【正確答案】:D解析:

文件副本的數(shù)目稱為文件的副本系數(shù),這個(gè)信息是由NameNode保存的。10.大數(shù)據(jù)平臺(tái)構(gòu)建分布式文件系統(tǒng)、分布式數(shù)據(jù)倉(cāng)庫(kù)、非關(guān)系型數(shù)據(jù)庫(kù)、關(guān)系型數(shù)據(jù)庫(kù),實(shí)現(xiàn)各類數(shù)據(jù)的集中存儲(chǔ)與統(tǒng)一管理,滿足()存儲(chǔ)需求。A、歷史數(shù)據(jù)B、離線數(shù)據(jù)C、實(shí)時(shí)數(shù)據(jù)D、多樣化數(shù)據(jù)【正確答案】:D解析:

大數(shù)據(jù)平臺(tái)構(gòu)建分布式文件系統(tǒng)、分布式數(shù)據(jù)倉(cāng)庫(kù)、非關(guān)系型數(shù)據(jù)庫(kù)、關(guān)系型數(shù)據(jù)庫(kù)、實(shí)現(xiàn)各類數(shù)據(jù)的集中存儲(chǔ)與統(tǒng)一管理,滿足多樣化數(shù)據(jù)存儲(chǔ)需求。11.Spark中引人RDD概念的目的是()。A、數(shù)據(jù)存儲(chǔ)B、數(shù)據(jù)查重C、提升容錯(cuò)能力D、增強(qiáng)數(shù)據(jù)一致性【正確答案】:C解析:

在Spark中引入RDD概念的目的是實(shí)現(xiàn)Spark的并行操作和靈活的容錯(cuò)能力。12.通常落伍者是影響MapReduce總執(zhí)行時(shí)間的主要影響因素之一,為此MapReduce采用()機(jī)制來解決。A、分布式計(jì)算B、惰性計(jì)算C、推測(cè)性執(zhí)行的任務(wù)備份D、先進(jìn)先出【正確答案】:C解析:

MapReduce采用推測(cè)性執(zhí)行的任務(wù)備份機(jī)制,當(dāng)作業(yè)中大多數(shù)的任務(wù)都已經(jīng)完成時(shí),系統(tǒng)在幾個(gè)空閑的節(jié)點(diǎn)上調(diào)度執(zhí)行剩余任務(wù)的備份,并在多個(gè)Worker上同時(shí)進(jìn)行相同的剩余任務(wù)。13.一個(gè)MapReduce程序中的MapTask的個(gè)數(shù)由()決定。A、輸入的總文件數(shù)B、客戶端程序設(shè)置的mapTask的個(gè)數(shù)C、FileInputFormat.getSplits(JobContextjob)計(jì)算出的邏輯切片的數(shù)量D、輸入的總文件大?。瘮?shù)據(jù)塊大小【正確答案】:C解析:

MapReduce編程模型中的MapTask的并行度決定機(jī)制是由FilelnputFormat.getSplits(JobContextjob)決定的。該方法的返回值是List<InputSplit>splits,這個(gè)結(jié)果集合中的每個(gè)InputSplit就是一個(gè)邏輯輸入切片,每個(gè)邏輯輸入切片在默認(rèn)情況下是會(huì)要啟動(dòng)一個(gè)MapTask任務(wù)進(jìn)行計(jì)算的,因此C對(duì)。14.在HDFS中,()是文件系統(tǒng)的工作節(jié)點(diǎn)。A、DataNodeB、ClientC、NameNodeD、Flume【正確答案】:A解析:

數(shù)據(jù)節(jié)點(diǎn)(DataNode)是分布式文件系統(tǒng)HDFS的工作節(jié)點(diǎn),負(fù)責(zé)數(shù)據(jù)的存儲(chǔ)讀取,會(huì)根據(jù)客戶端或者是名稱節(jié)點(diǎn)的調(diào)度來進(jìn)行數(shù)據(jù)的存儲(chǔ)和檢索,并且向名稱節(jié)點(diǎn)定發(fā)送自己所存儲(chǔ)的塊的列表,每個(gè)數(shù)據(jù)節(jié)點(diǎn)中的數(shù)據(jù)會(huì)被保存在各自節(jié)點(diǎn)本地Linux文件統(tǒng)中。15.解決Master故障的方法是設(shè)置檢查點(diǎn),當(dāng)Master失效時(shí),從()檢查點(diǎn)開)動(dòng)另一個(gè)Master進(jìn)程。A、第一個(gè)B、中間一個(gè)C、最后一個(gè)D、隨機(jī)選擇一個(gè)【正確答案】:C解析:

從最后一個(gè)檢查點(diǎn)開始啟動(dòng)另-Master進(jìn)程使得因故障產(chǎn)生的影響更小。16.()不是HDFS的設(shè)計(jì)目標(biāo)。A、流式數(shù)據(jù)訪問B、大規(guī)模數(shù)據(jù)集C、移動(dòng)計(jì)算D、多次寫入,多次讀取的文件訪問模型【正確答案】:D解析:

HDFS的設(shè)計(jì)以一次寫入,多次讀取為主要應(yīng)用場(chǎng)景,因此D錯(cuò)。17.MapReduce使用()來記錄不同事件的發(fā)生次數(shù)。A、日志B、事件觸發(fā)器C、狀態(tài)列表D、計(jì)數(shù)器【正確答案】:D解析:

MapReduce使用計(jì)數(shù)器來記錄不同事件的發(fā)生次數(shù)。18.下列關(guān)于HDFS的描述正確的是()。A、如果NameNode宕機(jī),SecondaryNamcNode會(huì)接替它使集群繼續(xù)工作B、HDFS集群支持?jǐn)?shù)據(jù)的隨機(jī)讀寫C、NameNode磁盤元數(shù)據(jù)不保存Block的位置信息DataNode通過長(zhǎng)連接與NameNode保持通信【正確答案】:C解析:

SccondaryNameNode并不是NameNode節(jié)點(diǎn)的備份,所以A錯(cuò);存儲(chǔ)在HD集群上的數(shù)據(jù)是不支持隨機(jī)修改和刪除的,只支持追加,所以B錯(cuò);NanNode和DataNo之間的通信是基于一種心跳機(jī)制,該機(jī)制不是長(zhǎng)連接是短連接形式,每次發(fā)送一個(gè)數(shù)據(jù)(自身狀態(tài)信息+數(shù)據(jù)塊信息)即可,所以D錯(cuò)。19.Hadoop中,Reducer的三個(gè)步驟是()。A、Shuffle-Sort-ReduceB、Shuffle-Reduce-SortC、Reduce-Shuffle-SortD、Sort--Shuffle-Reduce【正確答案】:A解析:

Reducer主要分為Shuffle洗牌、Sort排序和Reduce三個(gè)步驟。20.Spark中Job的劃分依據(jù)是()。A、依賴B、Action算子C、Transformation算子【正確答案】:B解析:

Action的觸發(fā)會(huì)生成一個(gè)Job,Job會(huì)提交給DAGScheduler分解成Stage。因Job是由Action算子劃分的,B正確。21.分布式應(yīng)用程序可以基于分布式應(yīng)用程序協(xié)調(diào)服務(wù)實(shí)現(xiàn)同步服務(wù),配置維護(hù)和命名服務(wù)等的工具是()。A、FlumeB、ZookeeperC、StormD、SparkStreaming【正確答案】:B解析:

Zookeeper和Chubby均是分布式協(xié)調(diào)服務(wù)。22.相對(duì)于HadoopMapRcducel.0,Spark的特點(diǎn)不包括()。A、速度快B、并發(fā)多C、通用性D、易用性【正確答案】:B解析:

相較于HadoopMapReduce,Spark的特點(diǎn)為速度快、通用性和易用性。23.RDD中的數(shù)據(jù)被()在集群中,使得任務(wù)可以并行執(zhí)行。A、順序存儲(chǔ)B、連續(xù)存儲(chǔ)C、分塊存儲(chǔ)D、分區(qū)存儲(chǔ)【正確答案】:D解析:

RDD為分區(qū)存儲(chǔ)。24.()的主要目標(biāo)是提供可擴(kuò)展的機(jī)器學(xué)習(xí)算法及其實(shí)現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。A、MahoutB、FlumeC、SqoopD、HBase【正確答案】:A解析:

Mahout是ApacheSoftwareFoundation(ASF)旗下的一個(gè)開源項(xiàng)目,提供一些可擴(kuò)展的機(jī)器學(xué)習(xí)領(lǐng)域經(jīng)典算法的實(shí)現(xiàn),旨在幫助開發(fā)人員更加方便快捷地創(chuàng)建智能應(yīng)用程序。Mahout包含許多實(shí)現(xiàn),如聚類、分類、推薦過濾、頻繁子項(xiàng)挖掘等。25.在MapReduce中,為了發(fā)現(xiàn)Worker故障,Master周期性進(jìn)行的操作是()。A、JoinB、PingCheckD、Connect【正確答案】:B解析:

為了發(fā)現(xiàn)Worker故障,Master周期性進(jìn)行Ping操作。26.下列進(jìn)程中不是HDFS的守護(hù)進(jìn)程的是()。A、SecondaryNameNodeB、DataNodeC、MRAppMaster/YamChildD、NameNode【正確答案】:C解析:

NameNode是HDFS集群的主節(jié)點(diǎn),DataNode是HDFS集群的從節(jié)點(diǎn),SecondaryNameNode是HDFS集群?jiǎn)?dòng)的用來給NameNode節(jié)點(diǎn)分擔(dān)壓力的角色,這個(gè)三個(gè)服務(wù)進(jìn)程會(huì)一直啟動(dòng)著。MRAppMaster/YarnChild進(jìn)程是只有在YARN集群運(yùn)行了MapReduce程序之后才會(huì)啟動(dòng)的程序。27.下列描述中不屬于HDFS集群中的NameNode職責(zé)的是()。A、維護(hù)HDFS集群的目錄樹結(jié)構(gòu)B、維護(hù)HDFS集群的所有數(shù)據(jù)塊的分布、副本數(shù)和負(fù)載均衡C、負(fù)責(zé)保存客戶端上傳的數(shù)據(jù)D、響應(yīng)客戶端的所有讀寫數(shù)據(jù)請(qǐng)求【正確答案】:C解析:

NameNode是HDFS的管理節(jié)點(diǎn),DataNode是HDFS集群的工作節(jié)點(diǎn)。所以用戶上傳的數(shù)據(jù)是由DataNode進(jìn)行保存的;NameNode負(fù)責(zé)保存用戶上傳的數(shù)據(jù)的元數(shù)據(jù)和維護(hù)HDFS的抽象目錄樹結(jié)構(gòu),也會(huì)響應(yīng)客戶端的所有讀寫請(qǐng)求。28.在Spark中,()是指RDD的每個(gè)分區(qū)都只被子RDD的一個(gè)分區(qū)所依賴。A、子分區(qū)B、父分區(qū)C、寬依賴D、窄依賴【正確答案】:D解析:

窄依賴定義。29.()肯定是寬依賴操作。A、mapB、flatMapC、reduceByKeyD、sample【正確答案】:C解析:

Spark中常見的窄依賴操作包括map、filer、union、sample等,寬依賴操作包括reduceByKey、groupByKey、join等。30.()主要提供內(nèi)存計(jì)算框架。A、Spark核心層B、資源管理層C、服務(wù)層D、Spark層【正確答案】:A解析:

Spark的技術(shù)架構(gòu)可以分為資源管理層、Spark核心層和服務(wù)層三層。資源管理層主要提供資源管理功能;Spark核心層主要提供內(nèi)存計(jì)算恒架;服務(wù)層主要提供面向特定類型的計(jì)算服務(wù)。31.DataFrame和RDD最大的區(qū)別是()。A、科學(xué)統(tǒng)計(jì)支持B、DataFrame多了schemaC、存儲(chǔ)方式不一樣D、外部數(shù)據(jù)源支持【正確答案】:B解析:

相比于RDD,DataFrame多了數(shù)據(jù)的結(jié)構(gòu)信息,即schema。32.HBase依靠()提供強(qiáng)大的計(jì)算能力。A、ZooKeeperB、ChubbyC、RPCD、MapReduce【正確答案】:D解析:

Chubby是分布式協(xié)調(diào)系統(tǒng),類似于ZooKecper。RPC(RemoteProcedureCall)是遠(yuǎn)程過程調(diào)用,它是一種通過網(wǎng)絡(luò)從遠(yuǎn)程計(jì)算機(jī)程序上請(qǐng)求服務(wù),而不需要了解底層網(wǎng)絡(luò)技術(shù)的協(xié)議。HBase依靠MapReduce提供強(qiáng)大的計(jì)算能力。33.()負(fù)責(zé)HDFS數(shù)據(jù)存儲(chǔ)。A、NameNodeB、JobTrackerC、DataNodeD、SccondaryNameNode【正確答案】:C解析:

DataNode負(fù)責(zé)HDFS的數(shù)據(jù)塊存儲(chǔ)。34.()用于對(duì)RDD中的數(shù)據(jù)進(jìn)行計(jì)算。A、分區(qū)B、算子C、日志D、數(shù)據(jù)塊【正確答案】:B解析:

算子是Spark中定義的函數(shù),用于對(duì)RDD中的數(shù)據(jù)進(jìn)行操作、轉(zhuǎn)換和計(jì)算。35.()不是Spark服務(wù)層的功能。A、SQL查詢B、實(shí)時(shí)處理C、機(jī)器學(xué)習(xí)D、內(nèi)存計(jì)算【正確答案】:D解析:

Spark服務(wù)層主要提供面向特定類型的計(jì)算服務(wù)。如SQL金詢、實(shí)時(shí)處理、機(jī)器學(xué)習(xí)以及圖計(jì)算。36.在MapReduce計(jì)算架構(gòu)中,()組件運(yùn)行在DataNode上,具體管理本節(jié)點(diǎn)計(jì)算任務(wù)的執(zhí)行。A、ClientB、JobTrackerC、TaskTrackerD、Task【正確答案】:C解析:

TaskTracker組件運(yùn)行在DataNode上,具體管理本節(jié)點(diǎn)計(jì)算任務(wù)的執(zhí)行。37.下列操作中MapReduce的Shuffle階段最后做的是()。A、溢寫B(tài)、分區(qū)C、排序D、合并【正確答案】:D解析:

MapReduce編程模型分為Mapper和Reducer階段,在Mapper和Reducer的中間還有一個(gè)Shuffle階段。Shuflle中的執(zhí)行順序是先分區(qū),然后在溢寫之前進(jìn)行排序,最后治出的多個(gè)磁盤文件會(huì)進(jìn)行合并成一個(gè)大文件。38.()不是RDD的緩存方法。A、persistB、cacheC、memoryD、以上答案都正確【正確答案】:C解析:

RDD的緩存方法包括persist和cache.其中cache方法默認(rèn)存儲(chǔ)到內(nèi)存中。39.()是Spark的核心數(shù)據(jù)結(jié)構(gòu)。A、彈性分布式數(shù)據(jù)集B、列表C、元組D、字典【正確答案】:A解析:

彈性分布式數(shù)據(jù)集(RDD)是Spark的核心數(shù)據(jù)結(jié)構(gòu)。40.為了降低MapRcduce兩個(gè)階段之間的數(shù)據(jù)傳遞量,一般采用()函數(shù)對(duì)map階段的輸出進(jìn)行處理。A、sort()B、combiner()C、join()D、gather()【正確答案】:B解析:

為了降低數(shù)據(jù)傳遞量,采用combiner()函數(shù)對(duì)map()函數(shù)的數(shù)據(jù)結(jié)果進(jìn)行合并處理。41.下列數(shù)據(jù)類型Hive不支持的是()。A、StructB、IntC、MapD、Long【正確答案】:D解析:

Hive支持原生數(shù)據(jù)類型(TinyInt、Smalllnt、Int、BigInt、Boolean、Float、Double、String),也支持復(fù)雜數(shù)據(jù)類型(Map、Array、Struct、Union),不支持Long。42.HBase依靠()存儲(chǔ)底層數(shù)據(jù)。A、HDFSB、HadoopC、MemoryD、MapReducc【正確答案】:A解析:

HBase位于結(jié)構(gòu)化存儲(chǔ)層,HDFS為HBase提供了高可靠性的底層存儲(chǔ)支持。43.()通常與NameNode在一個(gè)節(jié)點(diǎn)啟動(dòng)。A、SecondaryNameNodeB、DataNodeC、TaskTrackerD、JobTracker【正確答案】:D解析:

Hadoop的集群是基于master/slave模式,NameNode和JobTracker屬于master,DataNode和TaskTracker屬于slave,master只有一個(gè),而slave有多個(gè)。SecondaryNameNode內(nèi)存需求和NameNode在一個(gè)數(shù)量級(jí)上,所以通常SecondaryNameNode(運(yùn)行在單獨(dú)的物理機(jī)器上)和NameNode運(yùn)行在不同的機(jī)器上。JobTracker對(duì)應(yīng)于NameNode,TaskTracker對(duì)應(yīng)于DataNode。DataNode和NameNode是針對(duì)數(shù)據(jù)存放來而言的,JobTracker和TaskTracker是對(duì)于MapRcduce執(zhí)行而言的。44.在Hadoop中,()是默認(rèn)的InputFormat類型,它將每行內(nèi)容作為新值,而將字節(jié)偏移量作為key。A、FilelnputFormatB、TextlnputFormatC、KeyValueTextInputFormatD、CombineTextInputFormat【正確答案】:B解析:

TextInputFormat是默認(rèn)的InputFormat。每條記錄是一行輸入,鍵Key是LongWritable類型,存儲(chǔ)該行在整個(gè)文件中的字節(jié)偏移量。45.MapReduce計(jì)算框架的輸入數(shù)據(jù)結(jié)構(gòu)是()。A、kcy-valucB、input-outputC、map-reduceD、key-column【正確答案】:A解析:

MapReduce計(jì)算框架的輸入是鍵值對(duì),即key-value。46.依托(),結(jié)合應(yīng)用推進(jìn)數(shù)據(jù)歸集,形成統(tǒng)一的數(shù)據(jù)資源中心。A、全業(yè)務(wù)數(shù)據(jù)中心和數(shù)據(jù)平臺(tái)B、營(yíng)銷基礎(chǔ)數(shù)據(jù)平臺(tái)和大數(shù)據(jù)平臺(tái)C、全業(yè)務(wù)中心和營(yíng)銷基礎(chǔ)數(shù)據(jù)平臺(tái)D、全業(yè)務(wù)數(shù)據(jù)中心和大數(shù)據(jù)平臺(tái)【正確答案】:A解析:

詳見《國(guó)網(wǎng)互聯(lián)網(wǎng)部關(guān)于加強(qiáng)數(shù)據(jù)管理的通知》(互聯(lián)數(shù)據(jù)[2019]14號(hào))。47.DAGScheduler的作用是()。A、負(fù)責(zé)分配任務(wù)B、負(fù)責(zé)調(diào)度Worker的運(yùn)行C、負(fù)責(zé)創(chuàng)建執(zhí)行計(jì)劃D、負(fù)責(zé)清理執(zhí)行完畢的任務(wù)【正確答案】:C解析:

Scheduler模塊分為DAGScheduler和TaskScheduler兩個(gè)部分。DAGScheduler負(fù)責(zé)創(chuàng)建執(zhí)行計(jì)劃;TaskScheduler負(fù)責(zé)分配任務(wù)并調(diào)度Worker的運(yùn)行。48.Hive的數(shù)據(jù)最終存儲(chǔ)在()中。A、HDFSB、HBaseC、RDBMSD、MctaStore【正確答案】:A解析:

Hive是基于Hadoop分布式文件系統(tǒng)的,它的數(shù)據(jù)存儲(chǔ)在Hadoop分布式文件系統(tǒng)HDFS中。49.下列關(guān)于MapReduce計(jì)算框架中生成鍵值對(duì)的說法正確的是()。A、可以有相同的鍵,值必須唯一B、可以有相同的值,鍵必須唯一C、可以有相同的鍵,也可以有相同的值D、鍵和值都必須唯一【正確答案】:C解析:

鍵值對(duì)中的鍵和值并沒有必然的聯(lián)系,兩者可以相同。50.當(dāng)()時(shí),可以不考慮RDD序列化處理。A、完成成本比較高的操作后B、執(zhí)行容易失敗的操作之前C、RDD被重復(fù)使用D、實(shí)時(shí)性要求高【正確答案】:D解析:

RDD的序列化處理主要在完成成本比較高的操作之后、執(zhí)行容易失敗的操作之前、當(dāng)RDD被重復(fù)使用或者計(jì)算其代價(jià)很高時(shí)進(jìn)行。51.在Hadoop中,()執(zhí)行文件系統(tǒng)命名空間操作。A、DataNodeB、NameNodeC、JobTrackerD、TaskTracker【正確答案】:B解析:

NameNode在HDFS這種文件系統(tǒng)中充當(dāng)著Master的角色,負(fù)責(zé)的功能有很多,比如文件系統(tǒng)目錄管理(命名空間管理)、數(shù)據(jù)塊管理、數(shù)據(jù)節(jié)點(diǎn)管理、租約管理、緩存管理等。52.Hadoop環(huán)境下HDFS系統(tǒng)中的NameNode實(shí)現(xiàn)的功能是()。A、管理文件系統(tǒng)的命名空間B、管理存儲(chǔ)空間C、分配算力D、調(diào)控算法【正確答案】:A解析:

NameNode負(fù)責(zé)管理文件系統(tǒng)的命名空間。53.HBase是一種可伸縮、高可靠、高性能、分布式和面向()的動(dòng)態(tài)模式數(shù)據(jù)庫(kù)。A、列B、行C、行和列D、元組【正確答案】:A解析:

HBase支持的是列式存儲(chǔ)。54.在Hadoop的分區(qū)階段,默認(rèn)的Partitioner是()。A、RangePartitionerB、PartitionerC、HashPartitionerD、用戶自定義的Partitioner【正確答案】:C解析:

Hadoop中默認(rèn)的Partitioner是HashPartitioner。55.Spark可以處理的數(shù)據(jù)任務(wù)包括()。A、數(shù)據(jù)流處理B、交互式處理C、圖數(shù)據(jù)處理D、以上都是【正確答案】:D解析:

Spark可以很好地支持?jǐn)?shù)據(jù)流計(jì)算、交互式處理、圖計(jì)算等多種計(jì)算模式。56.在MapReduce中,reduce()函數(shù)可以將()值相同的輸入進(jìn)行合并處理A、inputB、keyC、valueD、number【正確答案】:B解析:

rcduce()函數(shù)根據(jù)key值合并value值。57.HDFS是Hadoop平臺(tái)上的分布式文件系統(tǒng),它是由()組成的。A、一個(gè)NameNode、一個(gè)SecondaryNamcNode和多個(gè)DataNodeB、一個(gè)DataNode、--個(gè)SecondaryNameNode和多個(gè)NameNodeC、多個(gè)NameNode、一個(gè)SecondaryNameNode和多個(gè)DataNodeD、一個(gè)NameNode、一個(gè)SecondaryNameNode和一個(gè)DataNode【正確答案】:A解析:

HDFS由一個(gè)NameNodc、一個(gè)SecondaryNamcNode和多個(gè)DataNode組成。58.下列關(guān)于Hadoop的說法錯(cuò)誤的是()。A、它運(yùn)行在通用硬件上B、它是Apache軟件基金會(huì)(ASF)下的項(xiàng)目C、它是最好的實(shí)時(shí)流式數(shù)據(jù)處理框架D、Hadoop對(duì)數(shù)據(jù)的處理是有延遲的【正確答案】:C解析:

Hadoop不善于處理除批處理計(jì)算模式之外的其他計(jì)算模式,如流計(jì)算等。故C錯(cuò)。59.Spark比MapReduce快的原因不包括()。A、Spark基于內(nèi)存迭代,而MapReduce基于磁盤迭代B、DAG計(jì)算模型比MapReduce更有效率C、Spark是粗粒度的資源調(diào)度,而MapReduce是細(xì)粒度的資源調(diào)度D、Spark支持交互式處理,MapReduce善于處理流計(jì)算【正確答案】:D解析:

A、B、C是Spark比MapReduce快的原因。MapReduce不善于處理除批處理算模式之外的其他計(jì)算模式,如流計(jì)算、交互式計(jì)算和圖計(jì)算等。60.HBase使用一個(gè)()節(jié)點(diǎn)協(xié)調(diào)管理一個(gè)或多個(gè)RegionServer從屬機(jī)。A、NameNodeB、DataNodeC、JobTrackerD、Master【正確答案】:D解析:

HBase中由一個(gè)Master節(jié)點(diǎn)負(fù)責(zé)協(xié)調(diào)管理一個(gè)或多個(gè)RegionServer從屬機(jī)。61.為了提高系統(tǒng)性能,Spark采取惰性計(jì)算模式。下列關(guān)于惰性計(jì)算模式的描述正確的是()。A、執(zhí)行Transformation操作時(shí)不會(huì)提交,只有執(zhí)行Action操作時(shí)才會(huì)被提交到集群中開始被執(zhí)行B、執(zhí)行Action操作時(shí)不會(huì)提交,只有執(zhí)行Transformation操作時(shí)才會(huì)被提交到集群中開始被執(zhí)行C、只有執(zhí)行完Action操作和Transformation操作時(shí),所有操作才會(huì)被提交到集群中開始被執(zhí)行D、執(zhí)行完Action操作或Transformation操作時(shí)都不會(huì)提交到集群【正確答案】:A解析:

Spark惰性計(jì)算模式定義。62.下列關(guān)于Spark的說法錯(cuò)誤的是()。A、采用內(nèi)存計(jì)算模式B、可利用多種語言編程C、主要用于批處理D、可進(jìn)行map()操作【正確答案】:C解析:

HadoopMapReduce主要用于批處理,與Hadoop不同的是,Spark更為通用--些,可以很好地支持流計(jì)算、交互式處理、圖計(jì)算等多種計(jì)算模式。63.Hadoop中partition()函數(shù)代表的是()。A、分區(qū)函數(shù)B、特征函數(shù)C、算法函數(shù)D、排序函數(shù)【正確答案】:A解析:

partition()代表分區(qū)函數(shù)。64.大數(shù)據(jù)平臺(tái)核心分布式存儲(chǔ)與計(jì)算組件采用Hadoop技術(shù)體系中的分布式存儲(chǔ)、分布式計(jì)算框架及Spark等開源產(chǎn)品和技術(shù),實(shí)現(xiàn)對(duì)數(shù)據(jù)的安全控制和管理功能,其中分布式存儲(chǔ)不包括()。A、HDFSB、PostgresqC、HiveD、HBase【正確答案】:B解析:

Postgresql并非分布式存儲(chǔ)。65.下列關(guān)于Sqoop的說法不正確的是()。A、主要設(shè)計(jì)目的是在Hadoop與傳統(tǒng)數(shù)據(jù)庫(kù)之間進(jìn)行數(shù)據(jù)的ETL操作B、數(shù)據(jù)導(dǎo)入導(dǎo)出通過MapReduce完成C、Sqoop具備MapReduce的并行化和容錯(cuò)性D、Sqoop的Reduce操作速度更快【正確答案】:D解析:

Sqoop是一個(gè)強(qiáng)大的工具,主要用來處理大量的數(shù)據(jù)傳輸,并不會(huì)影響Rey的操作速度。66.HDFS是基于流數(shù)據(jù)模式訪問和處理超大文件的需求而開發(fā)的,具有高容錯(cuò)、高可靠性、高可擴(kuò)展性、高吞吐率等特征,適合的讀寫任務(wù)是()。A、一次寫入、少次讀取B、多次寫入、少次讀取C、多次寫入、多次讀取D、一次寫入、多次讀取【正確答案】:D解析:

HDFS的設(shè)計(jì)以一次寫入、多次讀取為主要應(yīng)用場(chǎng)景。67.Spark的特點(diǎn)不包括()。A、速度快B、通用性C、易用性D、單一操作性【正確答案】:D解析:

Spark是一個(gè)快速、通用和易于使用的計(jì)算平臺(tái)。68.在MapReduce中,下列組件中用戶不指定也不會(huì)有默認(rèn)的是()。A、CombinerB、OutputFormatC、PartitionerD、InputFormat【正確答案】:A解析:

在MapReduce編程模型中,Combiner是可有可無的組件,它的作用是給MapTask的結(jié)果數(shù)據(jù)做局部合并以減少ReduceTask接收的數(shù)據(jù)量,以減少網(wǎng)絡(luò)數(shù)據(jù)傳輸;OutputFormat的默認(rèn)組件是TextOutputFormat;InputFormat的默認(rèn)組件是TextInputFormat;Partitioner的默認(rèn)實(shí)現(xiàn)是HashPartitioner。69.MapReduce編程模型,鍵值對(duì)<key,value>的kcy必須實(shí)現(xiàn)()接口。A、WritableComparableB、ComparableC、WritableD、LongWritable【正確答案】:A解析:

Hadoop為Key的數(shù)據(jù)類型,必須實(shí)現(xiàn)WritableComparable,而Value的數(shù)據(jù)類型只需要實(shí)現(xiàn)Writable即可。70.在Hadoop生態(tài)系統(tǒng)中,()建立在MapReduce之上,主要用來彌補(bǔ)MapReduce編程的復(fù)雜性。A、HbaseB、FlumeC、PigD、Sqoop【正確答案】:C解析:

Pig是對(duì)MapReduce編程復(fù)雜性的抽象,Pig平臺(tái)包含用于分析Hadoop數(shù)據(jù)集的執(zhí)行環(huán)境和腳本語言(PigLatin)。71.()是窄依賴操作。A、joinB、filterC、groupD、sort【正確答案】:B解析:

spark中常見的窄依賴操作包括map、filer、union、sample等,寬依賴的操作包括reduceByKey、groupByKey、join等。72.MapReduce默認(rèn)的分區(qū)函數(shù)是()。A、hashB、diskC、reduceD、map【正確答案】:A解析:

MapReduce默認(rèn)的分區(qū)函數(shù)是hash。73.HBase依靠()提供消息通信機(jī)制。A、ZooKeeperB、ChubbyC、RPCD、Socket【正確答案】:A解析:

ZooKeeper是一個(gè)高可用、高性能的分布式協(xié)調(diào)服務(wù),為HBasc提供消息通借機(jī)制。74.RDD默認(rèn)的存儲(chǔ)級(jí)別是()。A、MEMORY_ONLYB、MEMORY_ONLY_SERC、MEMORY_ANDISKE、MEMORY_AND_DISK_SER【正確答案】:A解析:

RDD存儲(chǔ)級(jí)別定義。75.MapReduce適用于()。A、任意應(yīng)用程序B、任意可在WindowsServet2008上運(yùn)行的程序C、可以串行處理的應(yīng)用程序D、可以并行處理的應(yīng)用程序【正確答案】:D解析:

MapReduce適用于并行處理的應(yīng)用程序。

68

76.在HadoopMapReduce中,()是客戶端需要執(zhí)行的一個(gè)工作單元。A、InputB、JobClientD、Task【正確答案】:B解析:

MapReduce作業(yè)(Job)是客戶端需要執(zhí)行的一個(gè)工作單元,它包括輸入數(shù)據(jù)、MapReduce程序和配置信息。77.在MapReduce中,下列描述錯(cuò)誤的是()。A、Worker故障和Master故障的處理方法不相同B、Map和Reduce的處理結(jié)果都存儲(chǔ)在本地文件系統(tǒng)C、一個(gè)Worker發(fā)生故障時(shí),該節(jié)點(diǎn)上執(zhí)行完的Map任務(wù)需要再次執(zhí)行D、MapReduce具有很強(qiáng)的容錯(cuò)機(jī)制【正確答案】:B解析:

已經(jīng)完成的Map任務(wù)的輸出存儲(chǔ)在本臺(tái)機(jī)器上,Reduce任務(wù)的輸出存儲(chǔ)在全局文件系統(tǒng)上,故B錯(cuò)。78.HBase作為數(shù)據(jù)存儲(chǔ)組件封裝于大數(shù)據(jù)平臺(tái),用于()。A、關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)B、分布式文件存儲(chǔ)C、非關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)D、列式存儲(chǔ)【正確答案】:C解析:

HBase是列式存儲(chǔ),以流的方式在列中存儲(chǔ)所有的數(shù)據(jù)。對(duì)于任何記錄,索引者可以快速地獲取列上的數(shù)據(jù)。列式存儲(chǔ)主要用于非關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)。79.為提高計(jì)算性能,Spark中Transformation操作采用的計(jì)算模式是()。A、活性計(jì)算模式B、惰性計(jì)算模式C、實(shí)時(shí)計(jì)算模式D、非實(shí)時(shí)計(jì)算模式【正確答案】:B解析:

Spark的所有Transformation操作采取的都是惰性計(jì)算模式。80.HBase的一個(gè)典型應(yīng)用是Webtable,它是一個(gè)以網(wǎng)頁(yè)()為主鍵的表。A、標(biāo)題B、URLC、內(nèi)容D、類別【正確答案】:B解析:

Webtable中,以網(wǎng)頁(yè)URL為主鍵。81.下列關(guān)于Hadoop中MapReduce的說法正確的是()。A、可以沒有Reduce任務(wù)B、Reducer輸入為隨機(jī)輸入C、Shuffle主要實(shí)現(xiàn)數(shù)據(jù)可視化功能D、一個(gè)Reducer只能從一個(gè)Map復(fù)制所需要的partition【正確答案】:A解析:

MapReduce中的Reduce并不是必須存在的。82.在MapReduce中,下列描述錯(cuò)誤的是()。A、經(jīng)過map()函數(shù)的計(jì)算可以得出一個(gè)中間數(shù)據(jù)集B、map()函數(shù)是確定的,用戶不可自定義C、對(duì)map()函數(shù)的返回值,進(jìn)行--定的處理后才進(jìn)入下個(gè)階段D、map()函數(shù)的輸入輸出都是同一數(shù)據(jù)結(jié)構(gòu)【正確答案】:B解析:

map()函數(shù)是由用戶所自定義的。83.下列業(yè)務(wù)場(chǎng)景中,不能直接使用Reducer充當(dāng)Combiner的是()。A、sum求和B、max求最大值C、count求計(jì)數(shù)D、avg求平均【正確答案】:D解析:

求平均需要對(duì)全部數(shù)據(jù)進(jìn)行計(jì)算而非部分?jǐn)?shù)據(jù),在不更改業(yè)務(wù)邏輯的情況,使用Reducer充當(dāng)Combiner,最終會(huì)造成業(yè)務(wù)結(jié)果不正確。84.客戶端從HDFS上讀取數(shù)據(jù)時(shí)會(huì)()。A、從NameNode上獲取數(shù)據(jù)B、從DataNode上獲取Block位置C、從NameNode上獲取Block位置D、從NameNode上獲取數(shù)據(jù)和Block位置【正確答案】:C解析:

NameNode保存數(shù)據(jù)Block的位置,DataNode保存數(shù)據(jù)。85.Spark的劣勢(shì)是()。A、運(yùn)算速度快B、業(yè)務(wù)實(shí)現(xiàn)需要較少代碼C、提供很多現(xiàn)成函數(shù)D、需要更多機(jī)器內(nèi)存【正確答案】:D解析:

Spark采用的是內(nèi)存計(jì)算模式,需要的內(nèi)存較多。86.下列關(guān)于新舊MapReduccAPI的描述錯(cuò)誤的是()。A、新API放在org.apachB、hadoop.mapreduce包中,而舊API則是放在org.apachC、hadoop.mapred中D、新AP1傾向于使用接口方式,而舊API傾向于使用抽象類E、新API使用Configuration,而舊API使用JobConf來傳遞配置信息F、新API可以使用Job對(duì)象來提交作業(yè)【正確答案】:B解析:

在新API中,原來的大量接口都被改成了抽象類。所以使用新API編寫MapReduce程序時(shí),都是由實(shí)現(xiàn)接口變成抽象類,因此B錯(cuò)。87.在Hadoop生態(tài)系統(tǒng)中,()的主要設(shè)計(jì)目的是在Hadoop與傳統(tǒng)數(shù)據(jù)庫(kù)之間進(jìn)行數(shù)據(jù)的ETL操作。A、HDFSB、FlumeC、HiveD、Sqoop【正確答案】:D解析:

Sqoop主要用于在Hadoop與傳統(tǒng)的數(shù)據(jù)庫(kù)問進(jìn)行數(shù)據(jù)的傳遞,可以將一個(gè)關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)導(dǎo)進(jìn)到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫(kù)中。88.下列關(guān)于SecondaryNameNode的說法正確的是()。A、它是NameNode的熱備B、它對(duì)內(nèi)存沒有要求C、它的目的是幫助NameNode合并編輯日志,減少NameNode的負(fù)擔(dān)和冷啟動(dòng)時(shí)的加載時(shí)間D、SecondaryNameNode應(yīng)與NameNode部署到一個(gè)節(jié)點(diǎn)【正確答案】:C解析:

SccondaryNameNodc是給NamcNode減輕壓力的角色,工作職責(zé)就是定期合并磁盤元數(shù)據(jù)文件為序列化的鏡像文件,即幫助NameNode合并編輯日志以減少NameNode冷啟動(dòng)時(shí)需要加載元數(shù)據(jù)的時(shí)間。在合并的時(shí)候也需要把之前的元數(shù)據(jù)都加載到內(nèi)存,所以對(duì)內(nèi)存也有一定的依賴,即不能和NamcNodc啟動(dòng)在同--個(gè)節(jié)點(diǎn),否則就起不到任何減輕壓力的作用。89.()計(jì)算框架源自--種分布式計(jì)算模型,其輸入和輸出值均為鍵值對(duì)結(jié)構(gòu)。A、MahoutB、MapReduceC、SparkD、Sqoop【正確答案】:B解析:

MapReduce定義。90.下列不屬于Transformation操作的是()。A、mapB、filterC、sampleD、count【正確答案】:D解析:

Transformation常用函數(shù)為map、filter、flatMap、sample、union、join等。91.下列關(guān)于MapReduce說法不正確的是()。A、MapReduce是一種計(jì)算框架B、MapRcduce來源于Google的學(xué)術(shù)論文C、MapReduce程序只能用java語言編寫D、MapReduce隱藏了并行計(jì)算的細(xì)節(jié),方便使用【正確答案】:C解析:

MapReduce程序可用多種語言編寫,如Ruby、Python、Java等。92.Spark核心層主要關(guān)注的問題是().A、存儲(chǔ)B、計(jì)算C、傳輸D、連接【正確答案】:B解析:

Spark核心層定義,Spark核心層主要關(guān)注計(jì)算問題。93.()負(fù)責(zé)MapReduce任務(wù)調(diào)度。A、NameNodeB、JobtrackerC、TaskTrackerD、SecondaryNameNode【正確答案】:B解析:

Jobtracker負(fù)責(zé)MapRcduce任務(wù)調(diào)度,TaskTracker負(fù)責(zé)任務(wù)執(zhí)行。94.Spark的集群管理模式不包含()。A、Standalone模式B、Message模式C、YARN模式D、Mesos模式【正確答案】:B解析:

Spark的集群管理主要有Standalone模式、YARN模式和Mesos模式三種。95.下列不屬于Action操作的是()。A、collectB、filterC、reduceD、count【正確答案】:B解析:

Action常用的函數(shù)為reduce、collect、count、take、first、foreach等。96.HadoopMapReducc2.0中,()負(fù)資資源的管理和調(diào)度。A、JobTrackerB、YARNC、TaskTrackerD、ApplicationMaster【正確答案】:B解析:

Hadoop2.0比起Hadoop1.0來說,最大的改進(jìn)是加入了資源調(diào)度框架YARN,負(fù)貴資源的管理和調(diào)度。97.下列關(guān)于HDFS特征的說法錯(cuò)誤的是()。A、支持超大文件B、基于商用硬件C、流式數(shù)據(jù)訪問D、低吞吐量【正確答案】:D解析:

HDFS設(shè)計(jì)中重視數(shù)據(jù)的高吞吐量,因此其數(shù)據(jù)吞吐量高,但也造成了其數(shù)據(jù)延遲訪問的特征。98.Spark的()組件用于支持實(shí)時(shí)計(jì)算需求。A、SparkSQLB、SparkStreamingC、SparkGraphXD、SparkMLLib【正確答案】:B解析:

SparkStreaming組件用于實(shí)時(shí)處理。99.下列關(guān)于Hive說法正確的是()。A、一種數(shù)據(jù)倉(cāng)庫(kù)工具B、一種數(shù)據(jù)處理工具C、一種可視化工具D、一種分析算法【正確答案】:A解析:

Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,用來進(jìn)行數(shù)據(jù)提取、轉(zhuǎn)化、加載,這是一種可以存儲(chǔ)、查詢和分析存儲(chǔ)在Hadoop中的大規(guī)模數(shù)據(jù)的機(jī)制。100.大數(shù)據(jù)平臺(tái)技術(shù)架構(gòu)不包含()。A、數(shù)據(jù)整合B、數(shù)據(jù)存儲(chǔ)C、數(shù)據(jù)計(jì)算D、數(shù)據(jù)溯源【正確答案】:D解析:

利用大數(shù)據(jù)平臺(tái)可以實(shí)現(xiàn)數(shù)據(jù)整合、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)計(jì)算等技術(shù),無法實(shí)現(xiàn)數(shù)溯源。1.ApacheFlume主要解決的是日志數(shù)據(jù)的收集和處理問題,F(xiàn)lume的主要設(shè)計(jì)目的和特征包括()。A、高可靠性B、可擴(kuò)展性C、管理復(fù)雜D、不支持用戶自定義【正確答案】:AB解析:

Flume的主要設(shè)計(jì)目的和特征包括高可靠性、可擴(kuò)展性、支持方便管理、支持用

戶自定義2.在Hive架構(gòu)中,支持的數(shù)據(jù)操作有()。A、插入B、查詢C、刪除D、分析【正確答案】:BD解析:

Hive提供簡(jiǎn)單的HiveQL查詢、分析功能,可以較好地滿足基于數(shù)據(jù)倉(cāng)庫(kù)的統(tǒng)計(jì)分析需要。3.基于Hadoop開源大數(shù)據(jù)平臺(tái)主要提供了針對(duì)數(shù)據(jù)分布式計(jì)算和存儲(chǔ)能力,如下感于分布式存儲(chǔ)組件的有()。A、MapReduceB、SparkC、HDFSD、HBasc【正確答案】:CD解析:

MapRcduce和Spark的核心功能是分布式計(jì)算。4.Spark的組件包括()。A、SparkStreamingB、MLibC、GraphXD、SparkR【正確答案】:ABC解析:

Spark的組件包括SparkSQL、SparkStreaming、MLid、GraphX。5.Spark容錯(cuò)性的方式有()。A、數(shù)據(jù)檢查點(diǎn)B、存儲(chǔ)原始數(shù)據(jù)C、記錄數(shù)據(jù)的更新D、自建數(shù)據(jù)版本【正確答案】:AC解析:

Spark容錯(cuò)性有數(shù)據(jù)檢查點(diǎn)和記錄數(shù)據(jù)的更新兩種方式。6.MapReduce中運(yùn)行程序副本程序的機(jī)器有()。A、Map服務(wù)器B、Master服務(wù)器C、Worker服務(wù)器D、Reduce服務(wù)器【正確答案】:BC解析:

MapRcduce中,運(yùn)行程序副本程序的機(jī)器分為Master服務(wù)器和若干個(gè)Worker服務(wù)器兩類。7.下列關(guān)于HBase的說法正確的有()。A、面向列的數(shù)據(jù)庫(kù)B、非結(jié)構(gòu)化的數(shù)據(jù)庫(kù)C、支持大規(guī)模的隨機(jī)、實(shí)時(shí)讀寫D、采用松散數(shù)據(jù)模型【正確答案】:ABCD解析:

HBase是非結(jié)構(gòu)化的、多版本的、面向列和開源的數(shù)據(jù)庫(kù);HBase提供了對(duì)大模數(shù)據(jù)的隨機(jī)、實(shí)時(shí)讀寫訪問;從存儲(chǔ)模型看,HBase采用的是松散數(shù)據(jù)模型。8.相對(duì)于HadoopMapReduce,Spark的特點(diǎn)有()。A、通用性B、易用性C、速度快D、容錯(cuò)性【正確答案】:ABC解析:

相對(duì)于HadoopMapReduce,Spark的特點(diǎn)包括速度快、通用性和易用性。9.Hadoop組件Zookeeper的設(shè)計(jì)目標(biāo)和主要特點(diǎn)包括()。A、簡(jiǎn)單性B、自我復(fù)制C、順序訪問D、高速讀取【正確答案】:ABCD解析:

ZooKeeper的設(shè)計(jì)目標(biāo)和特點(diǎn)包括簡(jiǎn)單性、自我復(fù)制、順序訪問和高速讀取。10.下列服務(wù)中可以用于存儲(chǔ)數(shù)據(jù)的有()。A、MapReduceB、YARNC、HBaseD、HDFS【正確答案】:CD解析:

MapReduce是計(jì)算模型;YARN是通用資源管理系統(tǒng);HBase是動(dòng)態(tài)模式數(shù)據(jù)庫(kù);HDFS是Hadoop分布式文件系統(tǒng),是數(shù)據(jù)存儲(chǔ)的基礎(chǔ)。11.下列關(guān)于MapReduce1.0版本的說法正確的有()。A、擴(kuò)展性差B、可靠性差C、資源利用率低D、無法支持多種計(jì)算框架【正確答案】:ABCD解析:

MapReducel.0存在的局限性包括擴(kuò)展性差、可靠性差、資源利用率低、無法支持多種計(jì)算框架。12.Hadoop的HDFS是一種分布式文件系統(tǒng),其適合()的數(shù)據(jù)存儲(chǔ)和管理。A、大量小文件存儲(chǔ)B、高容錯(cuò)、高吞吐量C、低延遲讀取D、流式數(shù)據(jù)訪問【正確答案】:BD解析:

HDFS不適合小文件存儲(chǔ),HDFS的讀取操作相比于傳統(tǒng)的數(shù)據(jù)庫(kù)延遲較高,不適合低延遲讀取。13.Hadoop的優(yōu)點(diǎn)包括()。A、可其性B、高效性C、可伸煽性D、成本低【正確答案】:ABCD解析:

Hadoop的優(yōu)點(diǎn)包括可靠性、高效性、可伸縮性和成本低。14.下列關(guān)于Pig的說法正確的有()。A、Pig的主要目的是彌補(bǔ)MapReduce編程的復(fù)雜性B、Pig的核心是一種數(shù)據(jù)分析語言C、Pig程序的結(jié)構(gòu)適合串行處理D、Pig主要包含PigLatin和Pig執(zhí)行環(huán)境兩部分【正確答案】:ABD解析:

Pig程序的結(jié)構(gòu)適合并行處理。15.下列有關(guān)MapReduce計(jì)算框架的描述正確的有()。A、MapReduce可以計(jì)算任務(wù)的劃分和調(diào)度B、MapReduce可完成數(shù)據(jù)的分布存儲(chǔ)和劃分C、MapReduce可以實(shí)現(xiàn)處理系統(tǒng)節(jié)點(diǎn)出錯(cuò)檢測(cè)和失效恢復(fù)D、MapReduce可實(shí)現(xiàn)處理數(shù)據(jù)與計(jì)算任務(wù)的同步【正確答案】:ABCD解析:

根據(jù)MapReduce定義可得,A、B、C、D都可以實(shí)現(xiàn)。16.Spark的技術(shù)架構(gòu)可以分為()。A、資源管理層B、Spark核心層C、應(yīng)用層D、服務(wù)層【正確答案】:ABD解析:

Spark的技術(shù)架構(gòu)可以分為資源管理層、Spark核心層和服務(wù)層三層。17.Hadoop運(yùn)行的模式包括()。A、單機(jī)版B、偽分布式C、分布式D、全分布式【正確答案】:ABC解析:

Hadoop運(yùn)行模式包括單機(jī)版、偽分布式和分布式。18.下列關(guān)于Pig的說法正確的有()。A、彌補(bǔ)MapReduce編程復(fù)雜性B、封裝MapReduce處理過程C、PigLatin是一種數(shù)據(jù)分析語言D、適用于并行處理【正確答案】:ABCD解析:

Pig建立在MapRcduce之上,主要目的是彌補(bǔ)MapRcduce編程的復(fù)雜性;Pig較好地封裝了MapReduce的處理過程;PigLatin是數(shù)據(jù)分析的描述語言;Pig的結(jié)構(gòu)適用于并行處理。19.Spark中的Scheduler模塊可以分為()。A、DAGSchcdulerB、ResourceSchedulerC、TaskSchedulerD、JobScheduler【正確答案】:AC解析:

Scheduler模塊分為DAGScheduler和TaskScheduler兩個(gè)部分。20.下列關(guān)于Hive的說法正確的有()。A、Hive是基于Hadoop的數(shù)據(jù)倉(cāng)庫(kù)工具B、Hive可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表C、最初,Hive由Google開源,用于解決海量結(jié)構(gòu)化日志數(shù)據(jù)統(tǒng)計(jì)問題D、Hive的主要應(yīng)用場(chǎng)景是離線分析【正確答案】:ABD解析:

Hive不是由谷歌提出和開源的,谷歌提出的三大核心技術(shù)是GFS、BigTable、MapReduce。21.MapReduce對(duì)map()函數(shù)的返回值處理后才傳給reduce()函數(shù),其中涉及的操作有()。A、合并B、排序C、分區(qū)D、抽樣【正確答案】:ABC解析:

分別涉及Shuffle(排序)、Combiner(合并)和Partition(分區(qū))操作。22.在數(shù)據(jù)科學(xué)中,計(jì)算模式發(fā)生了根本性的變化-從集中式計(jì)算、分布式計(jì)算、網(wǎng)格計(jì)算等傳統(tǒng)計(jì)算過渡至云計(jì)算,有一定的代表性的是Google云計(jì)算三大技術(shù),這三大技術(shù)包括()。A、HadoopYARN資源管理器B、GFS分布式存儲(chǔ)系統(tǒng)C、MapReduce分布式處理技術(shù)D、BigTable分布式數(shù)據(jù)庫(kù)【正確答案】:BCD解析:

Google云計(jì)算的三大核心技術(shù)為GFS、MapReduce和BigTable。HadoopYARN資源管理器屬于Hadoopo23.Spark2.0提供的應(yīng)用庫(kù)包括()。A、SparkSQLB、SparkStreamingC、MLibD、GraphX【正確答案】:ABCD解析:

Spark2.0提供的應(yīng)用庫(kù)包括SparkSQL、SparkStreaming、MLib、GraphX。24.Spark的基本流程主要涉及()等角色。A、DriverProgramB、ClusterManagerC、WorkerNodeD、Executor【正確答案】:ABCD解析:

Spark的基本流程主要涉及DriverProgram(驅(qū)動(dòng)程序)、Spark-Context、ClusterManage(集群管理器)、WorkerNode(工作節(jié)點(diǎn))、Executor(執(zhí)行器)和Cache(緩存)等角色。

-.25.HadoopMapReduce是MapReduce的具體實(shí)現(xiàn)之一。HadoopMapReduce數(shù)據(jù)處理過程涉及四個(gè)獨(dú)立的實(shí)體,包括()。A、ClientB、JobTrackerC、TaskTrackerD、HDFS【正確答案】:ABCD解析:

可以將MapReducc的工作流程概括為4個(gè)獨(dú)立的實(shí)體。4個(gè)實(shí)體分別為:①Client,用來提交MapRcduce的作業(yè)。編寫MapRcducc程序,配置作業(yè),提交作業(yè),即需程序員完成的工作。②JobTracker,用來協(xié)調(diào)作業(yè)的運(yùn)行。與TaskTracker通信,協(xié)調(diào)整個(gè)作業(yè)的執(zhí)行。③TaskTracker,用來處理作業(yè)劃分后的任務(wù)。保持與JobTracker的通信,在分配的數(shù)據(jù)片段上執(zhí)行Map或Reduce任務(wù),TaskTracker和JobTracker的不同有個(gè)很重要方面,就是在執(zhí)行任務(wù)的時(shí)候TaskTracker可以有n個(gè),JobTracker則只會(huì)有一個(gè)。④HDFS,用來在其他實(shí)體間共享作業(yè)文件。保存作業(yè)的數(shù)據(jù)、配置信息等,最后的結(jié)果也是保存在HDFS上面。26.在Spark中,彈性分布式數(shù)據(jù)集的特點(diǎn)包括()。A、可分區(qū)B、可序列化C、可直接修改D、可持久化【正確答案】:ABD解析:

RDD不可修改。27.Hadoop框架的缺點(diǎn)有()。A、MapReduce編程框架的限制B、過多的磁盤操作,缺乏對(duì)分布式內(nèi)存的支持C、無法高效支持迭代式計(jì)算D、不支持多用戶寫入和任意修改文件【正確答案】:ABCD解析:

以上四項(xiàng)都為Hadoop的缺點(diǎn)。28.Spark支持的計(jì)算模型有()。A、批處理B、實(shí)時(shí)計(jì)算C、機(jī)器學(xué)習(xí)模型D、交互式查詢【正確答案】:ABCD解析:

Spark支持的計(jì)算模型有批處理、實(shí)時(shí)計(jì)算、機(jī)器學(xué)習(xí)模型、交互式查詢。29.HBase中KeyValue數(shù)據(jù)的存儲(chǔ)格式是()。A、HFileB、HLogFileC、SequenceFileD、TXT【正確答案】:A解析:

HBase中KeyValue數(shù)據(jù)的存儲(chǔ)格式是HFile。30.下列屬于HBasc性能優(yōu)化的有()。A、讀優(yōu)化B、寫優(yōu)化C、配置優(yōu)化D、JVM優(yōu)化【正確答案】:ABCD解析:

HHBase性能優(yōu)化包含讀優(yōu)化、寫優(yōu)化、配置優(yōu)化、JVM優(yōu)化。31.下列關(guān)于HadoopMapReduce的描述正確的有()。A、reduce()函數(shù)的輸入是value集B、reduce()函數(shù)將最終結(jié)果寫到HDFS系統(tǒng)中C、用戶可以自己定義reduce()函數(shù)D、reduce()函數(shù)的輸入數(shù)據(jù)是經(jīng)過map()函數(shù)處理之后的數(shù)據(jù)【正確答案】:BCD解析:

reduce()函數(shù)的輸入是key-value集。32.Spark的部署模式包括()。A、本地模式B、Standalone模式C、SparkonYARN模式D、SparkonMesos模式【正確答案】:ABCD解析:

Spark支持上述四種運(yùn)行模式,在實(shí)驗(yàn)中為了充分利用資源,一般配置Standalou模式運(yùn)行。33.下列關(guān)于Hadoop中map輸出結(jié)果的說法正確的有()。A、<key,value>鍵值對(duì)B、輸出中間臨時(shí)結(jié)果C、輸出最終計(jì)算結(jié)果D、輸出結(jié)果永久保留【正確答案】:AB解析:

map輸出結(jié)果并非是最終結(jié)果且只暫時(shí)保留。34.下列關(guān)于Flume的描述正確的有()。A、Flume具有一定的容錯(cuò)性B、Flume使用Java編寫C、Flume不支持failoverD、Flume是一個(gè)分布式的輕量級(jí)工具,適應(yīng)各種方式的數(shù)據(jù)收集【正確答案】:ABD解析:

Flume本身提供了failover機(jī)制,可以自動(dòng)切換和恢復(fù)。35.下列關(guān)于HDFS文件寫人的描述正確的有()。A、不支持多用戶對(duì)同一文件的寫操作B、用戶不可以在文件任意位置進(jìn)行修改C、默認(rèn)將文件復(fù)制成三份存放D、復(fù)制的文件塊默認(rèn)不存在同一機(jī)架上【正確答案】:ABCD解析:

根據(jù)HDFS定義。36.Flume的特點(diǎn)包括()。A、分布式B、高可靠C、高容錯(cuò)D、易于定制和擴(kuò)展【正確答案】:ABCD解析:

Flume的特點(diǎn)包括分布式、高可靠、高容錯(cuò)、易于定制和擴(kuò)展。37.下列關(guān)于MapReduce與HBase關(guān)系的描述正確的有()。A、兩者不可或缺,MapReduce是HBase可以正常運(yùn)行的保證B、兩者不是強(qiáng)關(guān)聯(lián)關(guān)系,沒有MapReduce,HBasc可以正常運(yùn)行C、MapReduce可以直接訪問HBaseD、它們之間沒有任何關(guān)系【正確答案】:BC解析:

HBase是Hadoop數(shù)據(jù)庫(kù)。它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù),與MapReduce并無強(qiáng)關(guān)聯(lián)關(guān)系,HadoopMapReduce為HBase提供了高性能的計(jì)算能力,可直接訪問HBase。38.大數(shù)據(jù)平臺(tái)的計(jì)算組件主要有()。A、StormB、SparkC、MapReduceD、Sqoop【正確答案】:ABC解析:

Storm是Twitter開源的分布式實(shí)時(shí)大數(shù)據(jù)處理框架;Spark是專為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的快速通用的計(jì)算引擎;MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算;Sqoop是一款開源的工具,主要用于在Hadoop(Hive)與傳統(tǒng)的數(shù)據(jù)庫(kù)間進(jìn)行數(shù)據(jù)的傳遞;因此A、B、C正確。39.ETL技術(shù)主要涉及操作有()。A、抽取B、轉(zhuǎn)換C、加載D、分析【正確答案】:ABC解析:

ETL技術(shù)主要涉及抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)。40.RDD的特征有()。A、可容錯(cuò)性B、簡(jiǎn)潔性C、并行數(shù)據(jù)結(jié)構(gòu)D、結(jié)構(gòu)化【正確答案】:AC解析:

RDD是一個(gè)容錯(cuò)的、并行的數(shù)據(jù)結(jié)構(gòu)。41.下列關(guān)于Zookecper的描述正確的有()。A、Zookccper維護(hù)著一個(gè)樹形的層次結(jié)構(gòu)B、Zookeeper的數(shù)據(jù)訪問具有原子性C、Zookecper被設(shè)計(jì)用來實(shí)現(xiàn)協(xié)調(diào)服務(wù)D、Zookceper被設(shè)計(jì)用來實(shí)現(xiàn)大容量數(shù)據(jù)存儲(chǔ)【正確答案】:ABC解析:

Zookeeper無法用來存儲(chǔ)數(shù)據(jù)。42.Spark提交工作的方式有()。A、ClientB、ClusterC、StandaloneD、YARN【正確答案】:AB解析:

Spark提交作業(yè)的方式是Client和Clustero43.從Hadoop實(shí)現(xiàn)角度看,HadoopMapReducel.0主要由()組成。A、編程模型B、數(shù)據(jù)處理引擎C、運(yùn)行時(shí)環(huán)境D、算法庫(kù)【正確答案】:ABC解析:

HadoopMapReduce1.0計(jì)算框架主要由編程模型、數(shù)據(jù)處理引擎和運(yùn)行時(shí)環(huán)境組成。

國(guó)家電網(wǎng)有限公司大數(shù)據(jù)應(yīng)用習(xí)題集44.下列關(guān)于Spark中RDD的描述正確的有()。A、RDD(ResilientDistributedDataset)叫作彈性分布式數(shù)據(jù)集,是Spark中最基本的數(shù)據(jù)抽象B、Resilient:表示彈性的C、Destributed:分布式,可以并行在集群計(jì)算Dataset:就是一個(gè)集合,用于存放數(shù)據(jù)【正確答案】:ABCD解析:

A、B、C、D全部正確。45.Spark比MapReduce計(jì)算快的原因有()。A、基于內(nèi)存的計(jì)算B、基于DAG的調(diào)度框架C、基于Lineage的容錯(cuò)機(jī)制D、基于分布式計(jì)算的框架【正確答案】:ABC解析:

Spark比MapReduce計(jì)算快的原因包括基于內(nèi)存計(jì)算、使用基于Lineage的容錯(cuò)機(jī)制和基于DAG的調(diào)度框架。46.Spark的關(guān)鍵技術(shù)包括()。A、RDDB、SchedulerC、StorageD、Shuffle【正確答案】:ABCD解析:

Spark的關(guān)鍵技術(shù)包括RDD、Schedulcr、Storagc、Shuffc。47.下列中屬于MapReduce特征的有()。A、以主從結(jié)構(gòu)的形式運(yùn)行B、容錯(cuò)機(jī)制的復(fù)雜性C、任務(wù)備份機(jī)制的必要性D、數(shù)據(jù)存儲(chǔ)位置固定【正確答案】:ABC解析:

數(shù)據(jù)存儲(chǔ)位置具有多樣性,并非固定,所以D錯(cuò)。48.在MapReducel.0版本中,JobTracker功能有()。A、資源管理B、作業(yè)控制C、作業(yè)存儲(chǔ)D、作業(yè)審核【正確答案】:AB解析:

在MapReducel.0中,JobTracker同時(shí)兼?zhèn)淞速Y源管理和作業(yè)控制兩個(gè)功能。49.Spark組件包含()兩個(gè)算子。A、MapB、ActionC、TransformationD、Reduce【正確答案】:BC解析:

Spark針對(duì)RDD提供了多種基礎(chǔ)操作,可以大致分為Action和Transformation兩種。50.SparkRDD的依賴機(jī)制包括()。A、寬依賴B、深度依賴C、廣度依賴D、窄依賴【正確答案】:AD解析:

RDD之間的依賴關(guān)系可以分為窄依賴和寬依賴兩種。1.用戶自定義的reduce()函數(shù)接受一個(gè)中間key值和一個(gè)相關(guān)的value值的集合。()A、正確B、錯(cuò)誤【正確答案】:A解析:

略2.Shuffle橫跨Map端和Reduce端,在Map端包括Spill過程,在Reduce端包括copy和sort過程。()A、正確B、錯(cuò)誤【正確答案】:A解析:

MapReduce的Shuffle過程介紹。3.為了降低map()函數(shù)與reduce()函數(shù)之間的數(shù)據(jù)傳遞量,一般采用combiner()函數(shù)對(duì)map()函數(shù)的輸出結(jié)果進(jìn)行合并處理。()A、正確B、錯(cuò)誤【正確答案】:A解析:

略4.Combiner運(yùn)行0次、1次或多次,Reducer都會(huì)產(chǎn)生相同的輸出結(jié)果。()A、正確B、錯(cuò)誤【正確答案】:A解析:

Combiner多次運(yùn)行,并不影響輸出結(jié)果,運(yùn)行Combiner的意義在于使Map輸出的中間結(jié)果更緊湊,使得寫到本地磁盤和傳給Reducer的數(shù)據(jù)更少。5.MapReduce在中間key值采用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論