版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
PAGEPAGE1《大數(shù)據(jù)計算原理與技術(shù)》課程考試復習題庫及答案一、單選題1.關(guān)于大數(shù)據(jù)的主要特征理解和描述錯誤的是A、來源多,格式多B、增長速度快,處理速度快C、存儲量大計算量大D、數(shù)據(jù)價值密度很高答案:D2.關(guān)于checkpoint,說法正確的是A、checkpoint可通過元數(shù)據(jù)文件的大小進行控制B、secondarynamenode會將合并好的元數(shù)據(jù)移動到namenodeC、SecondaryNameNode會將edits文件和fsimage復制到本地(HTTPGET方式)D、合并元數(shù)據(jù)需要大量的磁盤進行文件的合并操作答案:C3.下列說法中,關(guān)于客戶端從HDFS中讀取數(shù)據(jù)的說法錯誤的是A、客戶端會選取排序靠前的DataNode來依次讀取Block塊B、客戶端會把最終讀取出來所有的Block塊合并成一個完整的最終文件C、客戶端會選取排序靠后的DataNode來依讀取Block塊D、如果客戶端本身就是DataNode,那么將從本地直接獲取數(shù)據(jù)答案:C4.下列說法不正確的是?A、數(shù)據(jù)源是數(shù)據(jù)倉庫的基礎,通常包含企業(yè)的各種內(nèi)部信息和外部信息B、數(shù)據(jù)存儲及管理是整個數(shù)據(jù)倉庫的核心。C、OLAP服務器對需要分析的數(shù)據(jù)按照多維數(shù)據(jù)模型進行重組、分析,發(fā)現(xiàn)數(shù)據(jù)規(guī)律和趨勢。D、前端工具主要功能是將數(shù)據(jù)可視化展示在前端頁面中答案:D5.下面哪個是Hadoop組件A、yarnB、hdfsC、mapreduceD、以上都是答案:D6.把本地文件放到集群里,可以使用下面哪個hadoopshell的命令A、hadoopfs-putB、hadoopfs–push/C、hadoopfs–put/D、hadoop-push/答案:C7.下列選項中,用于刪除HDFS上文件夾的方法是A、delete()B、rename()C、mkdirs()D、copyToLocalFile()答案:A8.下列選項中,哪一項是可以進行重啟引導系統(tǒng)A、OKB、CancelC、RebootD、Apply答案:C9.下列關(guān)于HadoopAPI的說法錯誤的是A、Hadoop的文件API不是通用的,只用于HDFS文件系統(tǒng)B、Configuration類的默認實例化方法是以HDFS系統(tǒng)的資源配置為基礎的C、FileStatus對象存儲文件和目錄的元數(shù)據(jù)D、FSDataInputStream是java.io.DataInputStream的子類答案:A10.HDfS中的block默認保存幾份A、3B、2C、1D、不確定答案:A11.下面哪個程序負責HDFS數(shù)據(jù)存儲A、NameNodeB、DatanodeC、secondaryNameNodeD、NodeManager答案:B12.以下關(guān)于NameNode說法正確的是A、NameNode既可以存儲具體的文件數(shù)據(jù),也可以存儲元數(shù)據(jù)B、可以使用NameNode高可用機制來橫向擴展其內(nèi)存空間C、NameNode在工作時,元數(shù)據(jù)都是放在硬盤上D、對于單節(jié)點集群來講,NameNode一旦掛掉,整個HDFS集群將不能工作答案:D13.HDFS的是基于流數(shù)據(jù)模式訪問和處理超大文件的需求而開發(fā)的,具有高容錯、高可靠性、高可擴展性、高吞吐率等特征,適合的讀寫任務是A、一次寫入,少次讀取B、多次寫入,少次讀取C、一次寫入,多次讀取D、多次寫入,多次讀取答案:C14.以下關(guān)于HDFS讀寫操作描述錯誤的是A、HDFS在讀取數(shù)據(jù)時不需要NameNode參與B、HDFS只支持追加寫入,不支持對文件內(nèi)容的隨機修改C、HDFS執(zhí)行具體的寫操作時,需要Client和DataNode之間進行數(shù)據(jù)傳輸D、HDFS在讀取數(shù)據(jù)時,一個文件的多個BLOCK可以并行讀取答案:A15.下面哪個程序負責HDFS數(shù)據(jù)存儲。A、NameNodeB、JobtrackerC、DatanodeD、secondaryNameNode答案:C16.Client在HDFS上進行文件寫入時,namenode根據(jù)文件大小和配置情況,返回部分datanode信息,誰負責將文件劃分為多個Block,根據(jù)DataNode的地址信息,按順序?qū)懭氲矫恳粋€DataNode塊A、ClientB、NamenodeC、DatanodeD、Secondarynamenode答案:A17.Client在HDFS上進行文件寫入時,namenode根據(jù)文件大小和配置情況,返回部分datanode信息,誰負責將文件劃分為多個Block,根據(jù)DataNode的地址信息,按順序?qū)懭氲矫恳粋€DataNode塊A、ClientB、NamenodeC、DatanodeD、Secondarynamenode答案:A18.下列選項中,哪一項是研究大數(shù)據(jù)最重要的意義A、分析B、統(tǒng)計C、測試D、預測答案:D19.以下關(guān)于HDFS描述錯誤是A、HDFS在存儲大文件時會將文件進行切分B、HDFS可以通過副本機制來解決數(shù)據(jù)丟失問題C、HDFS也適合存儲小文件D、HDFS在單節(jié)點模式下,NameNode一旦宕機,則整個HDFS將不能工作答案:C20.安裝Hadoop時,發(fā)現(xiàn)50070對應的頁面無法打開,可以通過下面哪個命令查看某個端口(TCP或UDP)是否在監(jiān)聽A、psB、netstatC、pingD、ifconfig答案:B21.在MapReduce中,下面哪個數(shù)據(jù)流的順序是正確的a.InputFormatb.Mapperc.Combinerd.Reducere.Partitionerf.OutputFormatg.GroupingA、ebcgdfB、abecgdfC、aebcgcfD、abcdegf答案:B解析:在MapReduce編程模型中,數(shù)據(jù)處理流程遵循特定的順序以保證作業(yè)的正確執(zhí)行。首先,InputFormat負責讀取輸入數(shù)據(jù)并將其分割成適合Map任務處理的分片。接著,Map任務接收輸入分片,處理后產(chǎn)生鍵值對。Combiner(可選)對Map輸出的鍵值對進行局部聚合,減少傳輸?shù)絉educer的數(shù)據(jù)量。然后,Reducer接收Mapper的輸出,按鍵進行聚合處理,生成最終結(jié)果。Partitioner根據(jù)鍵值對的鍵進行分區(qū),確保相同鍵的數(shù)據(jù)發(fā)送到同一個Reducer。最后,OutputFormat負責將Reducer的輸出格式化并寫入到指定的存儲位置。22.大數(shù)據(jù)至少為以下哪種存儲量級?A、EBB、PBC、TBD、ZB答案:B23.下面哪個不是Hadoop進程A、NameNodeB、HMasterC、DataNodeD、NodeManager答案:B24.關(guān)于HDFS的文件寫入,正確的是A、支持多用戶對同一文件的寫操作B、用戶可以在文件任意位置進行修改C、默認將文件塊復制成三份存放D、復制的文件塊默認都存在同一機架上答案:C25.Client在HDFS上進行文件寫入時,namenode根據(jù)文件大小和配置情況,返回部分datanode信息,誰負責復制Block塊A、ClientB、NamenodeC、DatanodeD、Secondarynamenode答案:A26.Hadoop作者A、MartinFowlerB、KentBeckC、DougcuttingD、JamesGosling答案:C解析:Hadoop是由DougCutting和MikeCafarella在2005年創(chuàng)建的一個開源分布式計算框架。DougCutting不僅是Hadoop的創(chuàng)始人,還參與了Lucene和Nutch的開發(fā)。他的職業(yè)生涯始于Xerox,后來為了推動搜索技術(shù)的商業(yè)化,開始了Nutch項目,最終演變?yōu)镠adoop。因此,Hadoop的作者是DougCutting,對應選項C。27.下列描述中不符合Map/Reduce的是A、Map結(jié)束后,Partitioner會將相同Key分到同一個組交給Reduce進程B、Map/Reduce是函數(shù)式的設計思想C、Map是將數(shù)據(jù)映射成Key/Value再交給ReduceD、Reduce先運行,然后運行Map答案:D28.在安裝Hadoop集群時,jdk是配置在下面哪個文件中A、mapred-site.xmlB、yarn-site.xmlC、hadoop-env.shD、hdfs-site.xml答案:C29.下列選項中,關(guān)于SSH服務說法正確的是A、SSH服務是一種傳輸協(xié)議B、SSH服務是一種通信協(xié)議C、SSH服務是一種數(shù)據(jù)包協(xié)議D、SSH服務是一種網(wǎng)絡安全協(xié)議答案:D30.Client端上傳文件的時候下列哪項正確?A、數(shù)據(jù)經(jīng)過NameNode傳遞給DataNodeB、Client端將文件切分為Block,依次上傳C、lient只上傳數(shù)據(jù)到一臺DataNode,然后由NameNode負責Block復制工作D、以上都不正確答案:B31.Ubuntu下,采用用戶user1安裝hadoop偽分布式時,解壓hadoop安裝包采用下面命令A、chownuser1:user1hadoop-2.7.5B、chown-Ruser1:user1hadoop-2.7.5C、hmod-R777hadoop-2.7.5D、sudochown-Ruser1:user1hadoop-2.7.5答案:D解析:在Ubuntu系統(tǒng)中,使用`sudochown-Ruser1:user1hadoop-2.7.5`命令可以確保以管理員權(quán)限遞歸地將`hadoop-2.7.5`目錄及其所有子目錄和文件的所有權(quán)賦予用戶`user1`。這種做法不僅能夠有效避免因權(quán)限不足導致的操作失敗,還能在一定程度上保障系統(tǒng)的安全性,因為它不會過度放寬文件權(quán)限,從而減少了潛在的安全風險。32.在Hadoop的解壓目錄下,通過執(zhí)行哪一項指令可以查看Hadoop的目錄結(jié)構(gòu)A、jpsB、llC、tarD、find答案:B33.下面哪個配置是在mapred-site.xml中配置的A、block塊的副本數(shù)B、Java環(huán)境變量C、存儲hdfs文件的目錄名D、運行MapReduce作業(yè)的主機和端口答案:D34.hadoop2.x采用什么技術(shù)構(gòu)建源代碼A、ntB、ivyC、mavenD、makefile答案:C35.SecondaryNamenode的作用是A、監(jiān)控NamenodeB、管理DatanodeC、合并fsimage和editlogsD、支持NamenodeHA答案:C解析:SecondaryNameNode在Hadoop分布式文件系統(tǒng)(HDFS)中的主要作用是合并fsimage和editlogs。它定期從NameNode獲取editlogs并合并到fsimage文件中,生成新的fsimage,有助于減少NameNode啟動時間并提高系統(tǒng)可靠性。通過定期合并操作,SecondaryNameNode能夠減輕NameNode在啟動和運行過程中的負載,并提供故障恢復機制,確保系統(tǒng)的穩(wěn)定運行和高效性能。36.Hadoop完全分布模式配置免密登錄是要A、實現(xiàn)主節(jié)點到其他節(jié)點免密登錄B、實現(xiàn)從節(jié)點到主節(jié)點的免密登錄C、主節(jié)點和從節(jié)點任意兩個節(jié)點之間免密登錄D、以上都不是答案:C37.配置機架感知的下面哪項正確A、MapReduce會根據(jù)機架獲取離自己比較近的網(wǎng)絡數(shù)據(jù)B、寫入數(shù)據(jù)的時候會寫到不同機架的DataNodeC、都正確D、如果一個機架出問題,不會影響數(shù)據(jù)讀寫答案:C38.關(guān)于SecondaryNameNode下面哪項是正確的A、它是NameNode的熱備B、它對內(nèi)存沒有要求C、它的目的是幫助NameNode合并編輯日志,減少NameNode啟動時間D、SecondaryNameNode應與NameNode部署到一個節(jié)點答案:C39.下列哪個屬性是mapred-site.xml中的配置?A、dfs.replicationB、fs.fsdefaultFSC、D、yarn.resourcemanager.address答案:C解析:在Hadoop生態(tài)系統(tǒng)中,各個組件有其專門的配置文件。對于MapReduce組件,其核心配置文件是mapred-site.xml。在這個文件中,主要配置與MapReduce作業(yè)執(zhí)行相關(guān)的參數(shù)。其中,是一個關(guān)鍵屬性,用于指定MapReduce框架的名稱,即是使用經(jīng)典的MapReduce框架還是YARN(YetAnotherResourceNegotiator)上的MapReduce。而dfs.replication是HDFS(HadoopDistributedFileSystem)中的配置,用于設置文件的副本數(shù);fs.defaultFS指定HDFS的默認文件系統(tǒng);yarn.resourcemanager.address則是YARN資源管理器(ResourceManager)的地址配置,與MapReduce框架的直接配置無關(guān)。因此,正確答案是C。40.有關(guān)MapReduce的輸入輸出,說法錯誤的是A、鏈接多個MapReduce作業(yè)時,序列文件是首選格式B、FileInputFormat中實現(xiàn)的getSplits()可以把輸入數(shù)據(jù)劃分為分片,分片數(shù)目和大小任意定義C、想完全禁止輸出,可以使用NullOutputFormatD、每個reduce需將它的輸出寫入自己的文件中,輸出無需分片答案:B41.以下哪個組件負責HDFS元數(shù)據(jù)的存儲和管理A、ClientB、NamenodeC、DatanodeD、Secondarynamenode答案:B42.下列選項中,主要用于決定整個MapReduce程序性能高低的階段是A、MapTaskB、ReduceTaskC、分片、格式化數(shù)據(jù)源D、Shuffle答案:D43.如果想要修改集群的備份數(shù)量,可以修改下面哪個配置文件?A、mapred-site.xmlB、core-site.xmlC、hdfs-site.xmlD、hadoop-env.sh答案:C44.關(guān)于Hadoop單擊模式和偽分布模式的說法正確的是?A、后者比前者增加的HDFS的輸入輸出以及可檢查內(nèi)存的使用情況B、兩者都不與守護進程交互,避免復雜性C、單機模式不使用HDFS,但加載守護進程D、兩者都啟動守護進程,且守護進程運行在一臺機器上答案:A45.Hadoop1.0中,Hadoop內(nèi)核的主要組成是A、HDFS和MapReduceB、HDFS和YarnC、YarnD、MapReduce和Yarn答案:A46.關(guān)于Hadoop單機模式和偽分布式模式的說法,正確的是A、兩者都起守護進程,且守護進程運行在一臺機器上B、單機模式不使用HDFS,但加載守護進程C、兩者都不與守護進程交互,避免復雜性D、后者比前者增加了HDFS輸入輸出以及可檢查內(nèi)存使用情況答案:D47.下列選項中哪一門技術(shù)屬于大數(shù)據(jù)平臺A、TomcatB、HadoopC、ASP.NETD、Apache答案:B48.HDFS是基于流數(shù)據(jù)模式訪問和處理超大文件的需求而開發(fā)的,具有高容錯、高可靠性、高可擴展性、高吞吐率等特征,適合的讀寫任務是A、一次寫入,少次讀B、多次寫入,少次讀C、多次寫入,多次讀D、一次寫入,多次讀答案:D49.針對每行數(shù)據(jù)內(nèi)容為”TimestUrl”的數(shù)據(jù)文件,在用JobConf對象conf設置conf.setInputFormat(WhichInputFormat.class)來讀取這個文件時,WhichInputFormat應該為以下的A、TextInputFormatB、KeyValueTextInputFormatC、SequenceFileInputFormatD、NLineInputFormat答案:B50.使用下面哪個命令可以將HDFS目錄中的文件下載到本地A、hadoopfs-putB、hadoopfs-catC、hadoopfs-getD、hadoopfs-rm答案:C51.下列哪項通常是集群的最主要瓶頸A、CPUB、網(wǎng)絡C、磁盤IOD、內(nèi)存答案:C52.以下關(guān)于NameNode說法正確的是A、NameNode既可以存儲具體的文件數(shù)據(jù),也可以存儲元數(shù)據(jù)B、可以使用NameNode高可用機制來橫向擴展其內(nèi)存空間C、NameNode存儲大文件和小文件的元數(shù)據(jù)所占的空間是不一樣的D、對于單節(jié)點集群來講,NameNode一旦掛掉,整個HDFS集群將不能工作答案:D53.下列哪個shell命令可以用于HDFS系統(tǒng)之間文件的移動A、hadoopfsmvB、hadoopfs-mvC、hadoopfs-cutD、hadoopfs-move答案:B54.在Hadoop中每個應用程序被表示成一個作業(yè),將作業(yè)的名稱設置為zhangyu,用JAVA代碼編寫,以下正確的是A、Job.SetJarName(‘zhangyu’);B、Job.SetMapName(‘zhangyu’);C、Job.SetJobName(‘zhangyu’);D、Job.SetInputName(‘zhangyu’);答案:C55.下列關(guān)于HDFS的描述正確的是?A、NameNode磁盤元數(shù)據(jù)不保存Block的位置信息B、DataNode通過長連接與NameNode保持通信C、HDFS集群支持數(shù)據(jù)的隨機讀寫D、如果NameNode宕機,SecondaryNameNode會接替它使集群繼續(xù)工作答案:A56.下列選項中,關(guān)于HDFS說法錯誤的是A、HDFS是Hadoop的核心之一B、HDFS源于Google的GFS論文C、HDFS用于存儲海量大數(shù)據(jù)D、HDFS是用于計算海量大數(shù)據(jù)答案:D57.Namenode在啟動時自動進入安全模式,在安全模式階段,說法錯誤的是A、安全模式目的是在系統(tǒng)啟動時檢查各個DataNode上數(shù)據(jù)塊的有效性B、根據(jù)策略對數(shù)據(jù)塊進行必要的復制或刪除C、當數(shù)據(jù)塊最小百分比數(shù)滿足的最小副本數(shù)條件時,會自動退出安全模式D、文件系統(tǒng)允許有修改答案:D58.下列語句中,描述錯誤的是A、可以通過CLI方式、JavaAPI方式調(diào)用Sqoop。B、Sqoop底層會將Sqoop命令轉(zhuǎn)換為MapReduce任務,并通過Sqoop連接器進行數(shù)據(jù)的導入導出操作。C、Sqoop是獨立的數(shù)據(jù)遷移工具,可以在任何系統(tǒng)上執(zhí)行。D、如果在Hadoop分布式集群環(huán)境下,連接MySQL服務器參數(shù)不能是localhos或。答案:C59.下列選項中,若是哪個節(jié)點關(guān)閉了,就無法訪問Hadoop集群A、namenodeB、datanodeC、secondarynamenodeD、yarn答案:A60.下列選項中,哪一個可以對hadoop集群進行格式化A、hadoopnamenode-formatB、hadoopnamenode-lsC、hdfsdatanode-lsD、hdfsdatanode-format答案:A61.在Centos7中,如果想要查看本機的主機名可以使用下面哪個命令A、rebootB、hostnameC、pwdD、tail答案:B62.下列選項中,用于存放部署Hadoop集群服務器的是A、namenodeB、datanodeC、rackD、metadata答案:C63.每個Map任務都有一個內(nèi)存緩沖區(qū),默認大小是A、128MB、64MC、100MD、32M答案:C64.以下哪個不屬于大數(shù)據(jù)主要解決的問題A、海量數(shù)據(jù)存儲B、日常業(yè)務數(shù)據(jù)處理C、海量數(shù)據(jù)計算D、通過數(shù)據(jù)分析以提供決策支持答案:B65.下列語句描述錯誤的是()A、可以通過CLI方式、JavaAPI方式調(diào)用SqoopB、Sqoop底層會將Sqoop命令轉(zhuǎn)換為MapReduce任務,并通過Sqoop連接器進行數(shù)據(jù)的導入導出操作。C、Sqoop是獨立的數(shù)據(jù)遷移工具,可以在任何系統(tǒng)上執(zhí)行。D、如果在Hadoop分布式集群環(huán)境下,連接MySQL服務器參數(shù)不能是localhost或。答案:C66.下列哪個shell命令可以用于HDFS系統(tǒng)之間文件的復制A、hadoopfscpB、hadoopfs-copyC、hadoopfs-copyFileD、hdfsfs-cp答案:C67.端口50070默認是Hadoop哪個服務的端口?A、NameNodeB、DataNodeC、SecondaryNameNodeD、Yarn答案:A68.Hadoopfs中的-get和-put命令操作對象是A、文件B、目錄C、兩者都是D、都不是答案:C69.Hadoop2.0集群服務啟動進程中,下列選項不包含的是A、NameNodeB、JobTrackerC、DataNodeD、ResourceManager答案:B70.以下關(guān)于Hadoop框架說法錯誤的是A、Hadoop包含HDFS、MapReduce、Yarn三大核心組件B、Hadoop的版本分為開源社區(qū)版和商業(yè)版C、Hadoop的運行必須依賴JDKD、Hadoop的核心配置文件所在目錄是在$HADOOOP_HOME/conf目錄答案:D71.下列選項中,最早提出“大數(shù)據(jù)”這一概念的是A、貝恩B、麥肯錫C、吉拉德D、杰弗遜答案:B72.下列哪個程序通常與NameNode在同一個節(jié)點啟動A、TaskTrackerB、DataNodeC、SecondaryNameNodeD、ResourceManager答案:D73.HDFS無法高效存儲大量小文件,想讓它能處理好小文件,比較可行的改進策略不包括A、利用SequenceFile、MapFile、Har等方式歸檔小文件B、多Master設計C、Block大小適當調(diào)小D、調(diào)大namenode內(nèi)存或?qū)⑽募到y(tǒng)元數(shù)據(jù)存到硬盤里答案:D74.Client在HDFS上進行文件寫入時,namenode根據(jù)文件大小和配置情況,返回部分datanode信息,誰負責將文件劃分為多個Block,根據(jù)DataNode的地址信息,按順序?qū)懭氲矫恳粋€DataNode塊A、ClientB、NamenodeC、DatanodeD、Secondarynamenode答案:A75.目前,Hadoop的最高版本是哪個A、Hadoop3.xB、Hadoop2.xC、Hadoop1.xD、Hadoop4.x答案:A76.Namenode在啟動時自動進入安全模式,在安全模式階段,說法錯誤的是A、安全模式目的是在系統(tǒng)啟動時檢查各個DataNode上數(shù)據(jù)塊的有效性B、根據(jù)策略對數(shù)據(jù)塊進行必要的復制或刪除C、當數(shù)據(jù)塊最小百分比數(shù)滿足的最小副本數(shù)條件時,會自動退出安全模式D、文件系統(tǒng)允許有修改答案:D77.下列選項中,存放Hadoop配置文件的目錄是A、includeB、inC、libexecD、etc答案:D78.map()函數(shù)接收的數(shù)據(jù)格式是A、字符串B、整型C、LongD、鍵值對答案:D79.一個gzip文件大小75MB,客戶端設置Block大小為64MB,請問其占用幾個BlockA、3B、2C、4D、1答案:B80.下列選項中,Hadoop2.x版本獨有的進程是A、JobTrackerB、TaskTrackerC、NodeManagerD、NameNode答案:C81.關(guān)于HDFS寫數(shù)據(jù)流程,下面說法錯誤的是A、寫數(shù)據(jù)首先需要找NN確定寫的位置B、如果pipeline一個節(jié)點寫失敗則重新申請DN節(jié)點再寫C、寫數(shù)據(jù)是以packet為大小進行的,默認64KD、pipeline反方向會進行數(shù)據(jù)的ack檢驗答案:B82.以下選項中,哪種類型間的轉(zhuǎn)換是不被Hive查詢語言所支持的A、Double—NumberB、igInt—DoubleC、Int—BigIntD、String—Double答案:A83.MapReduce處理數(shù)據(jù)的工作流程大致分為()步A、2B、3C、4D、5答案:D84.下列選項中,關(guān)于HDFS的架構(gòu)說法正確的是A、HDFS采用的是主備架構(gòu)B、HDFS采用的是主從架構(gòu)C、HDFS采用的是從備架構(gòu)D、以上說法均錯誤答案:B85.HDFS默認的當前工作目錄是/user/$USER,的值需要在哪個配置文件內(nèi)說明A、mapred-site.xmlB、core-site.xmlC、hdfs-site.xmlD、以上均不是答案:B86.下列哪些操作可以設置一個監(jiān)聽器Watcher()A、getDataB、getChildrenC、existsD、setData答案:D87.關(guān)于SecondaryNameNode哪項是正確的?A、它目的是幫助NameNode合并編輯日志,減少NameNode的負擔和冷啟動時的加載時間B、它對內(nèi)存沒有要求C、它是NameNode的熱備D、SecondaryNameNode應與NameNode部署到一個節(jié)點答案:A88.下列哪項通常是集群的最主要的性能瓶頸A、CPUB、網(wǎng)絡C、磁盤D、內(nèi)存答案:C89.Hadoop配置文件中,hadoop-site.xml顯示覆蓋hadoop-default.xml里的內(nèi)容。在版本0.20中,hadoop-site.xml被分離成三個XML文件,不包括A、conf-site.xmlB、mapred-site.xmlC、ore-site.xmlD、hdfs-site.xml答案:A90.在Linux系統(tǒng)中,用于關(guān)閉防火墻開機自啟動的指令是A、chkconfigiptablesoffB、serviceiptablesstopC、stop-all.shD、stop-dfs.sh答案:A91.下面哪個目錄保存了Hadoop集群的命令(比如啟動Hadoop)A、binB、sbinC、etcD、share答案:B92.關(guān)于Hadoop單機模式和偽分布式模式的說法,正確的是A、兩者都起守護進程,且守護進程運行在一臺機器上B、單機模式不使用HDFS,但加載守護進程C、兩者都不與守護進程交互,避免復雜性D、后者比前者增加了HDFS輸入輸出以及可檢查內(nèi)存使用情況答案:D93.關(guān)于HadoopFileSystem的說法不正確的是A、FileSystem中有很多方法,跟File中的方法一致,如exists,delete,mkdir,create等等一些常用的文件操作方法B、FileStatus中有一系列的方法,可以得到文件的信息。如:getLen()得到文件的長度,以字節(jié)的形式C、globStatus()方法返回于其路徑匹配的所有文件的FileStatus隊形數(shù)據(jù),并按路徑排序。D、FileStatus對象存儲文件和目錄的元數(shù)據(jù)答案:A解析:HadoopFileSystem的方法雖然包括exists,delete,mkdir,create等,但這些方法在功能和使用上與JavaFile類的方法有所不同,它們更多地關(guān)注于分布式環(huán)境下的文件操作。HadoopFileSystem提供了一系列專門針對分布式文件系統(tǒng)的操作方法,這些方法考慮了分布式存儲的特性,如容錯性、高可用性等,因此在設計和實現(xiàn)上與JavaFile類的方法存在差異。94.安裝Hadoop集群時,是在哪個文件指定哪些機器作為集群的從機?A、datanodeB、slavesC、yarn-site.xmlD、core-site.xml答案:B解析:在安裝Hadoop集群時,指定哪些機器作為集群的從機是通過編輯slaves文件來實現(xiàn)的。slaves文件記錄了所有DataNode的主機名或IP地址,是NameNode識別和管理的依據(jù)。其他配置文件如core-site.xml、hdfs-site.xml、mapred-site.xml和yarn-site.xml分別用于配置Hadoop的核心參數(shù)、HDFS參數(shù)、MapReduce參數(shù)和YARN參數(shù),但不涉及從機節(jié)點的指定。95.下列不是FileSystem的常見方法的是A、getDefaultPort()B、getScheme()C、getStatus()D、Path()答案:D96.下面陳述的內(nèi)容哪些是NameNode節(jié)點的功能A、負責數(shù)據(jù)的計算B、調(diào)度客戶端對文件的訪問C、存儲真實數(shù)據(jù)D、以上均正確答案:B97.以下哪個不是HDFS的守護進程A、SecondaryNameNodeB、NameNodeC、MrappMaster/YarnChildD、ataNode答案:C98.在Hadoop中負責運算的組件是A、HDFSB、YARNC、MapReduceD、以上均是答案:C99.關(guān)于SecondaryNameNode哪項是正確的?A、它是NameNode的熱備B、它對內(nèi)存沒有要求C、它的目的是幫助NameNode合并編輯日志,減少NameNode啟動時間D、SecondaryNameNode應與NameNode部署到一個節(jié)點答案:C100.在配置Linux網(wǎng)絡參數(shù)時,固定IP地址是將路由協(xié)議配置為A、staticB、dynamicC、dhcpD、variable答案:A101.關(guān)于SecondaryNameNode哪項是正確?A、它是NameNode的熱備B、它對內(nèi)存沒有要求C、它的目的是幫助NameNode合并編輯日志,減少NameNode啟動時間D、SecondaryNameNode應與NameNode部署到一個節(jié)點答案:C102.DougCutting所創(chuàng)立的項目的名稱都受到其家人的啟發(fā),以下項目不是由他創(chuàng)立的項目是A、HadoopB、NutchC、LuceneD、Solr答案:D103.關(guān)系型數(shù)據(jù)庫與HDFS之間相互數(shù)據(jù)遷移的工具是A、distcpB、fsckC、fastcopyD、sqoop答案:D104.關(guān)于MapReduce的描述錯的是A、MapReduce默認只能按照Key進行排序B、MapReduce在運行時可以沒有CombinerC、MapReduce在指定多分區(qū)之后一般需要指定Reduce個數(shù)D、MapReduce中自定義的JavaBean可以不用序列化答案:D105.下列描述說法錯誤的是?A、SecureCRT是一款支持SSH的終端仿真程序,它能夠在Windows操作系統(tǒng)上遠程連接Linux服務器執(zhí)行操作。B、Hadoop是一個用于處理大數(shù)據(jù)的分布式集群架構(gòu),支持在GNU/Linux系統(tǒng)以及Windows系統(tǒng)上進行安裝使用。C、VMwareWorkstation是一款虛擬計算機的軟件,用戶可以在單一的桌面上同時操作不同的操作系統(tǒng)。D、SSH是一個軟件,專為遠程登錄會話和其他網(wǎng)絡服務提供安全性功能的軟件。答案:D106.MapReduce的Shuffle過程以下中哪個操作是最后做的?A、排序B、合并C、分區(qū)D、溢寫答案:B107.按粒度大小的順序,Hive數(shù)據(jù)被分為:數(shù)據(jù)庫、數(shù)據(jù)表、()、桶。A、元祖B、欄C、分區(qū)D、行答案:C108.Hadoop2.x版本中的數(shù)據(jù)塊大小默認是多少?A、64MB、128MC、256MD、512M答案:B109.下列選項中,哪項不是Hive系統(tǒng)架構(gòu)的組成部分A、用戶接口B、跨語言服務C、HDFSD、底層驅(qū)動引擎答案:C110.下面哪個是Hadoop配置文件A、core-site.xmlB、hdfs-site.xmlC、yarn-site.xmlD、以上均是答案:D111.關(guān)于HDFS的文件寫入,正確的是A、支持多用戶對同一文件的寫操作B、用戶可以在文件任意位置進行修改C、默認將文件塊復制成三份存放D、復制的文件塊默認都存在同一機架上答案:C112.關(guān)于Haoop體系架構(gòu)說法不正確的是?A、NameNode管理文件系統(tǒng)的命名空間B、HDFS集群有兩類節(jié)點以管理者和工作者模式運行C、HDFS上的文件也被分為塊大小的多個塊文件作為獨立的存儲單元D、NameNode永久保存記錄著每個文件中各個塊所在的數(shù)據(jù)節(jié)點和位置信息答案:D113.下列關(guān)于HadoopAPI的說法錯誤的是A、Hadoop的文件API不是通用的,只用于HDFS文件系統(tǒng)B、Configuration類的默認實例化方法是以HDFS系統(tǒng)的資源配置為基礎的C、FileStatus對象存儲文件和目錄的元數(shù)據(jù)D、FSDataInputStream是java.io.DataInputStream的子類答案:A114.在高階數(shù)據(jù)處理中,往往無法把整個流程寫在單個MapReduce作業(yè)中,下列關(guān)于鏈接MapReduce作業(yè)的說法,不正確的是A、Job和JobControl類可以管理非線性作業(yè)之間的依賴B、ChainMapper和ChainReducer類可以用來簡化數(shù)據(jù)預處理和后處理的構(gòu)成C、使用ChainReducer時,每個mapper和reducer對象都有一個本地JobConf對象D、ChainReducer.addMapper()方法中,一般對鍵/值對發(fā)送設置成值傳遞,性能好且安全性高答案:D115.Namenode在啟動時自動進入安全模式,在安全模式階段,說法錯誤的是A、安全模式目的是在系統(tǒng)啟動時檢查各個DataNode上數(shù)據(jù)塊的有效性B、根據(jù)策略對數(shù)據(jù)塊進行必要的復制或刪除C、當數(shù)據(jù)塊最小百分比數(shù)滿足的最小副本數(shù)條件時,會自動退出安全模式D、文件系統(tǒng)允許有修改答案:D116.Hadoop起始于以下哪個階段A、2004年,Nutch的開發(fā)者開發(fā)了NDFSB、2004年,Google發(fā)表了關(guān)于MapReduce的論文C、2003年,Google發(fā)布了GFS論文D、2002年,Apach項目的Nutch答案:D117.下面與HDFS類似的框架是A、NTFSB、FAT32C、GFSD、EXT3答案:C118.關(guān)于大數(shù)據(jù)的價值密度描述正確的是以下哪個?A、大數(shù)據(jù)由于其數(shù)據(jù)量大,所以其價值密度低。B、大數(shù)據(jù)由于其數(shù)據(jù)量大,所以其價值也大。C、大數(shù)據(jù)的價值密度是指其數(shù)據(jù)類型多且復雜。D、大數(shù)據(jù)由于其數(shù)據(jù)量大,所以其價值密度高答案:A119.hadoop2.X版本默認BlockSize的大小是A、32MB、64MC、128MD、256M答案:C120.Namenode在啟動時自動進入安全模式,在安全模式階段,說法錯誤的是A、安全模式目的是在系統(tǒng)啟動時檢查各個DataNode上數(shù)據(jù)塊的有效性B、根據(jù)策略對數(shù)據(jù)塊進行必要的復制或刪除C、當數(shù)據(jù)塊最小百分比數(shù)滿足的最小副本數(shù)條件時,會自動退出安全模式D、文件系統(tǒng)允許有修改答案:D121.HDFS的NameNode負責管理文件系統(tǒng)的命名空間,將所有的文件和文件夾的元數(shù)據(jù)保存在一個文件系統(tǒng)樹中,這些信息也會在硬盤上保存成以下文件A、日志B、命名空間鏡像C、兩者都是D、都不是答案:C122.hadoop1.X版本默認BlockSize的大小是A、32MB、64MC、128MD、256M答案:B123.生成秘鑰的命令是A、ssh-keygenB、ssh-addC、ssh-copy-idD、ssh答案:A124.MapReduce框架提供了一種序列化鍵/值對的方法,支持這種序列化的類能夠在Map和Reduce過程中充當鍵或值,以下說法錯誤的是A、實現(xiàn)Writable接口的類是值B、實現(xiàn)WritableComparable<T>接口的類可以是值或鍵C、Hadoop的基本類型Text并不實現(xiàn)WritableComparable<T>接口D、鍵和值的數(shù)據(jù)類型可以超出Hadoop自身支持的基本類型答案:C125.在NameNode高可用(HA)中,當活動節(jié)點失效時,哪個節(jié)點將成為活動節(jié)點A、SecondaryNameNodeB、ackupnodeC、StandbynodeD、Checkpointnode答案:C126.以下四個Hadoop預定義的Mapper實現(xiàn)類的描述錯誤的是A、IdentityMapper<K,V>實現(xiàn)Mapper<K,V,K,V>,將輸入直接映射到輸出B、InverseMapper<K,V>實現(xiàn)Mapper<K,V,K,V>,反轉(zhuǎn)鍵/值對C、RegexMapper<K>實現(xiàn)Mapper<K,Text,Text,LongWritable>,為每個常規(guī)表達式的匹配項生成一個(match,1)對D、TokenCountMapper<K>實現(xiàn)Mapper<K,Text,Text,LongWritable>,當輸入的值為分詞時,生成(taken,1)對答案:B多選題1.HadoopMapReduce對外提供了5個可編程組件,以下哪對中的方法或任務不全在這5個編程組件中A、Partitioner和CombinerB、Split和SortC、InputFormat和OutputFormatD、Mapper和Reducer答案:AB2.常用的HDFSAPI有哪些?A、rename()B、copyFromLocalFile()C、mkdirs()D、elete()答案:ABCD3.以下關(guān)于HDFS體系結(jié)構(gòu)的描述正確的有哪幾項?A、以下關(guān)于HDFS體系結(jié)構(gòu)的描述正確的有哪幾項?B、DataNode作為從結(jié)點,用來管理存儲的數(shù)據(jù)。C、HDFS采用主從結(jié)構(gòu)模型。D、一個HDFS集群是由一個NameNode和若干個DataNode組成的。答案:ABCD4.HDFS中常用命令有下面哪些?A、hadoopfs–rmB、hadoopfs–lsC、hadoopfs–putD、hadoopfs–mv答案:ABCD5.以下哪些說法是錯誤的A、Zookeeper集群一般用來實現(xiàn)大數(shù)據(jù)存儲B、HDFS集群在第一次啟動之前必須對NameNode格式化C、MapReduce中map任務的個數(shù)一定是由文件的block數(shù)來決定D、MapReduce的Shuffle階段組件的順序是:Partitioner、Sort、Combiner、Grouping答案:AC6.下列選項中,關(guān)于數(shù)據(jù)塊說法正確的是A、磁盤進行數(shù)據(jù)讀/寫的最大單位B、磁盤進行數(shù)據(jù)讀/寫的最小單位C、數(shù)據(jù)塊是抽象的塊D、ataNode是按block對數(shù)據(jù)進行存儲。答案:BCD7.下列選項中,說法錯誤的是A、在一個Agent中,同一個source可以有多個channelB、在一個Agent中,同一個sink可以有多個channelC、在一個Agent中,同一個source只能多1個channelD、在一個Agent中,同一個sink只能有1個channel答案:AD8.Hadoop提供的自定義配置時編輯的配置文件中,包含A、core-site.xmlB、hdfs-site.xmlC、mapred-site.xmlD、yarn-site.xml答案:ABCD9.Hadoop的三種安裝模式包括以下哪種?A、兩分布式模式B、完全分布式模式C、偽分布模式D、單機模式答案:BCD10.大數(shù)據(jù)的計算模式主要有哪些?A、圖計算模式B、流計算模式C、查詢分析計算模式D、批處理計算模式答案:ABC11.大數(shù)據(jù)采集中面臨的主要問題有以下哪些?A、如何避免重復數(shù)據(jù)B、數(shù)據(jù)源多種多樣,數(shù)據(jù)量大、變化快C、如何保證數(shù)據(jù)的質(zhì)量D、如何保證數(shù)據(jù)采集的可靠性答案:ABCD12.客戶端上傳文件的時候哪項是正確的?A、數(shù)據(jù)經(jīng)過NameNode傳遞給DataNodeB、客戶端端將文件切分為多個Block,依次上傳C、客戶端只上傳數(shù)據(jù)到一臺DataNode,然后由NameNode負責Block復制工作D、客戶端發(fā)起文件上傳請求,通過RPC與NameNode建立通訊。答案:BD13.下列選項中,屬于Google提出的處理大數(shù)據(jù)的技術(shù)手段有A、MapReduceB、MySQLC、BigTableD、GFS答案:ACD14.以下關(guān)于大數(shù)據(jù)特點的描述中,不正確的是()。A、巨大的數(shù)據(jù)量B、多結(jié)構(gòu)化數(shù)據(jù)C、增長速度快D、價值密度高答案:ABC15.下面說法選項錯誤的是A、在一個Agent中,同一個source可以有多個channelB、在一個Agent中,同一個sink可以有多個channelC、在一個Agent中,同一個source只能多1個channelD、在一個Agent中,同一個sink只能有1個channel答案:AD16.下面哪個組件可以在Hadoop集群中代替MR做一些計算?A、SparkB、SqoopC、HiveD、Avro答案:AC17.下列說法中,關(guān)于配置參數(shù)說法錯誤的是A、1.sources.r1.channels=c1B、a1.sinks.k1.channel=c1C、a1.source.r1.channels=c1D、a1.sinks.k1.channels=c1答案:CD18.Hadoop核心組成部份包含A、HDFS存儲系統(tǒng)B、Hive數(shù)據(jù)倉庫C、MapReduce運算框架D、HBase分布式數(shù)據(jù)庫答案:AC19.大數(shù)據(jù)中常見的類型有哪些?A、視頻B、圖片C、音頻D、日志答案:ABCD20.VMware提供了哪幾種工作模式?A、host-only僅主機模式B、NAT模式C、自定義除以上3種其他模式D、橋接(bridged)模式答案:ABD21.大數(shù)據(jù)技術(shù)方案為了簡化并行分布式計算,采用()軟件模塊進行處理A、JavaB、MapC、SQLD、Reduce答案:BD22.Hadoop集群具有以下哪個優(yōu)點?A、高容錯性B、高成本性C、高可靠性D、高擴展性答案:ACD23.以下關(guān)于SSH免密碼配置的描述正確的選項有哪個?A、SSH專為遠程登錄會話和其他網(wǎng)絡服務提供安全性的協(xié)議。B、SSH是SecureShell的縮寫,則IETF的網(wǎng)絡工作小組制定。C、SSH是建立在應用層和傳輸導上的安全協(xié)議。D、使用SSH公鑰登錄可以解決Hadoop集群節(jié)點之前的通信略掉需要輸入密碼才能登錄的步驟。答案:ABCD24.下列說法中,關(guān)于使用JavaAPI操作HDFS說法正確的是A、需要引入hadoop-common依賴B、需要引入hadoop-hdfs依賴C、需要引入hadoop-client依賴D、以上說法均錯誤答案:ABC25.以下關(guān)于文件塊的說法正確的是?A、文件的所有Block為了容錯都會被冗余復制。B、除了最后一個Block,所有的Block都是同樣的大小。C、每個文件的Block大小和復制(Replication)因子都是可配置的。D、HDFS將文件存儲成塊序列。答案:ABCD26.Hive數(shù)據(jù)表插入數(shù)據(jù)時,insert()table……,括號中可使哪些關(guān)鍵字?A、intoB、appendC、overwriteD、add答案:AC27.大數(shù)據(jù)關(guān)鍵技術(shù)包括哪些?A、大數(shù)據(jù)存儲B、大數(shù)據(jù)預處理C、大數(shù)據(jù)采集D、大數(shù)據(jù)分析挖掘答案:ABCD28.以下關(guān)于序列化Writable的說法正確的是?A、反序列化也稱反串行化,它是指將字節(jié)流轉(zhuǎn)回結(jié)構(gòu)化對象的逆過程。B、Hadoop中使用自己開發(fā)的類:IntWritable、FloatWritable、Text等,都是Writable的實現(xiàn)類。C、序列化和反序列化在分布式數(shù)據(jù)處理中,主要于進程間通信和永久存儲兩個領(lǐng)域。D、Writable接口是一個序列化對象的接口,能夠?qū)?shù)據(jù)寫入流或者從流中讀出。答案:ABCD解析:A選項正確,反序列化確實是將字節(jié)流轉(zhuǎn)回結(jié)構(gòu)化對象的逆過程。B選項正確,Hadoop中確實使用了IntWritable、FloatWritable、Text等Writable的實現(xiàn)類。C選項正確,序列化和反序列化在分布式數(shù)據(jù)處理中,主要用于進程間通信和永久存儲。D選項正確,Writable接口確實定義了對象如何被序列化成字節(jié)流和從字節(jié)流中反序列化回來。29.下列選項中,在Reducer類的run()方法中定義的三個方法有A、setup()B、reduce()C、leanup()D、map()答案:ABC30.關(guān)于數(shù)據(jù)副本的存放策略正確的有些?A、第三個副本:與第一個副本相同機架的其他節(jié)點上;B、更多副本:隨機節(jié)點。C、第一個副本,放置在上傳文件的數(shù)據(jù)節(jié)點;D、第二個副本,放置在與第一個副本不同的機架的節(jié)點上;答案:ABCD31.下列說法中,關(guān)于zoo.cfg配置文件中的參數(shù)server.1=hadoop01:2888:3888說法正確的是A、1表示服務器的編號B、hadoop01表示這個服務器的IP地址C、2888表示表示Zookeeper服務器之間的通信心跳號D、3888表示Leader選舉的端口號答案:AB32.下列選項中,關(guān)于Metadata元數(shù)據(jù)說法正確的是A、元數(shù)據(jù)維護HDFS文件系統(tǒng)中文件和目錄的信息B、元數(shù)據(jù)記錄與文件內(nèi)容存儲相關(guān)的信息C、元數(shù)據(jù)用來記錄HDFS中所有DataNode的信息D、元數(shù)據(jù)用于維護文件系統(tǒng)名稱并管理客戶端對文件的訪問答案:ABC33.下列說法中,關(guān)于MapReduce性能調(diào)優(yōu)說法正確的是A、在數(shù)據(jù)輸入階段,采用CombineTextInputFormat來作為輸入,可以解決輸入端大量的小文件場景B、在Map階段,減少溢寫次數(shù),可以減少磁盤IOC、在Map階段,減少合并次數(shù),可以縮短MapReduce處理的時間D、在Shuffle階段,盡量給Shuffle提供更多的內(nèi)存空間,以防止出現(xiàn)內(nèi)存溢出現(xiàn)象答案:ABCD34.MapRecue的優(yōu)點有哪些?A、可擴展性強計算機性能高B、容錯性強C、開發(fā)簡單D、計算機性能高答案:BC35.下列有關(guān)Hadoop的說法正確的是()。A、Hadoop最早起源于NutchB、Hadoop中HDFS的理念來源于谷歌發(fā)表的分布式文件系統(tǒng)(GFS)的論文C、Hadoop中MapReduce的思想來源于谷歌分布式計算框架MapReduce的論文D、Hadoop是在分布式服務器集群上存儲海量數(shù)據(jù)并運行分布式分析應用的一個開源的軟件框架答案:ABCD36.以下哪個不是HDFS的組件A、NameNodeB、ResouceMangerC、NodeManagerD、SecondaryNameNode答案:BC37.配置Hadoop集群時,下列哪個Hadoop配置文件需要進行修改?A、hadoop-env.shB、profileC、ore-site.xmlD、ifcfg-eth0答案:AC38.下列說法中,關(guān)于InputFormat接口定義的getSplits()方法說法正確的是A、用來從分片中讀取數(shù)據(jù)B、負責創(chuàng)建RecordReader對象C、實現(xiàn)了邏輯切片機制D、getSplits()方法的切片大小splitSize是由minSize、maxSize和blockSize的值確定的答案:CD39.Hadoop生態(tài)系統(tǒng)的優(yōu)勢包含A、高擴展B、低成本C、開源工具成熟D、型關(guān)系數(shù)據(jù)庫系統(tǒng)答案:ABC40.以下哪些工具屬于Hadoop生態(tài)系統(tǒng)的開源工具A、HiveB、HBaseC、ZookerperD、Mysql答案:ABC41.下列選項中,關(guān)于Hadoop集群說法正確的是A、Hadoop集群包含Worker節(jié)點B、Hadoop集群包含Master節(jié)點C、Hadoop集群包含Slave節(jié)點D、Hadoop集群包含HMaster節(jié)點答案:BC判斷題1.執(zhí)行“start-all.sh”指令,可以一鍵啟動整個Hadoop集群的服務A、正確B、錯誤答案:A2.鏈式MapReduce計算中,對任意一個MapReduce作業(yè),Map和Reduce階段可以有無限個Mapper,但Reducer只能有一個A、正確B、錯誤答案:A3.每次啟動Hadoop都要格式化文件系統(tǒng)A、正確B、錯誤答案:B4.ReduceTask作為MapReduce工作流程的后半部分,主要經(jīng)歷了Copy階段、Merge階段、Sort階段、Reduce階段和Write階段。A、正確B、錯誤答案:A5.MapReduce的inputsplit一定是一個blockA、正確B、錯誤答案:B6.MapRecue在shuffle階段基于排序的方法會將key相同的數(shù)據(jù)聚集在一起。A、正確B、錯誤答案:A7.再創(chuàng)建外部表的同時要加載數(shù)據(jù)文件,數(shù)據(jù)文件會移動到數(shù)據(jù)倉庫指定的目錄下。A、正確B、錯誤答案:B8.在HDFS中,namenode用于決定數(shù)據(jù)存儲到哪一個datanode節(jié)點上。A、正確B、錯誤答案:A9.對于MapReduce任務來說,一定需要Reduce過程。A、正確B、錯誤答案:B10.設置免密登錄需要先用ssh-keygen生成一對密鑰A、正確B、錯誤答案:A11.ResourceManager負責監(jiān)控ApplicationMaster,并在ApplicationMaster運行失敗的時候重啟它,因此ResouceManager負責ApplicationMaster內(nèi)部任務的容錯A、正確B、錯誤答案:B12.DataNode在客戶端或者NameNode的調(diào)度下,存儲并檢索數(shù)據(jù)塊,對數(shù)據(jù)塊進行創(chuàng)建、刪除等操作。A、正確B、錯誤答案:A13.datanode負責存儲數(shù)據(jù)A、正確B、錯誤答案:A14.非全新集群選舉時是優(yōu)中選優(yōu),保證Leader是Zookeeper集群中數(shù)據(jù)最完整、最可靠的一臺服務器。A、正確B、錯誤答案:A15.Hadoop存在多個副本,且默認備份數(shù)量是3。A、正確B、錯誤答案:A16.Zookeeper提供的getChildren()方法可以用于獲取指定節(jié)點下的所有子節(jié)點列表。A、正確B、錯誤答案:A17.Secondarynamenode就是namenode出現(xiàn)問題時的備用節(jié)點A、正確B、錯誤答案:B18.數(shù)據(jù)倉庫可以作為實時查詢系統(tǒng)的數(shù)據(jù)庫使用,為決策分析提供數(shù)據(jù)。A、正確B、錯誤答案:B19.Hadoop支持數(shù)據(jù)的隨機讀寫A、正確B、錯誤答案:B20.安裝Hadoop時,配置項”dfs.replication”是配置在文件core-site.xmlA、正確B、錯誤答案:B21.簡述ZooKeeper的功能及其在Hadoop高可用中起到的作用。A、正確B、錯誤答案:A22.Hive的復雜數(shù)據(jù)類型中,Map是有序鍵值對類型,Key值必須為原始類型,Value可以為任意類型。A、正確B、錯誤答案:B23.MapReduce任務會根據(jù)機架獲取離自己比較近的網(wǎng)絡數(shù)據(jù)。A、正確B、錯誤答案:A24.HadoopHA是兩臺NameNode同時執(zhí)行NameNode角色的工作。A、正確B、錯誤答案:B25.Combiner組件可以讓Map對Key進行分區(qū),從而可以根據(jù)不同的key分發(fā)到不同的Reduce中去處理。A、正確B、錯誤答案:A26.SecondaryNameNode是NameNode的備份,可以有效解決Hadoop集群單點故障問題。A、正確B、錯誤答案:B27.由于Hive系統(tǒng)架構(gòu)中由跨語言服務ThriftServe組成,它能夠讓不同的編程語言調(diào)用Hive的接口。A、正確B、錯誤答案:A28.使用內(nèi)嵌的Derby數(shù)據(jù)庫存儲元數(shù)據(jù),這種方式是Hive的默認安裝方式,配置簡單,但是一次只能連接一個客戶端,適合用來測試,不適合生產(chǎn)環(huán)境A、正確B、錯誤答案:A29.NameNode本地磁盤保存了數(shù)據(jù)塊的位置信息。A、正確B、錯誤答案:B30.Hadoop是IBM公司開發(fā)的一款商用大數(shù)據(jù)軟件A、正確B、錯誤答案:B31.因為HDFS有多個副本,所以NameNode是不存在單點問題的A、正確B、錯誤答案:B32.在Hadoop2.x版本下,Block數(shù)據(jù)塊的默認大小是64MA、正確B、錯誤答案:B33.創(chuàng)建項目時,創(chuàng)建者將自動在項目上給予admin狀態(tài)。允許創(chuàng)建者查看,上傳,更改作業(yè),運行流程,刪除并向項目添加用戶權(quán)限。A、正確B、錯誤答案:A34.由于Hadoop是使用Java語言編寫的,因此可以使用JavaAPI操作Hadoop文件系統(tǒng)。A、正確B、錯誤答案:A35.HDFS中提供SecondaryNameNode節(jié)點,是為了取代掉NameNode節(jié)點。A、正確B、錯誤答案:B36.Flume采集方案的名稱、位置、以及sources、channels、sinks參數(shù)配置信息可以隨定義。A、正確B、錯誤答案:B37.Hadoop在設計時考慮到數(shù)據(jù)的安全與高效,數(shù)據(jù)文件默認在HDFS上存放一份。A、正確B、錯誤答案:B38.HDFS既適合超大數(shù)據(jù)集存儲,也適合小數(shù)據(jù)集的存儲。A、正確B、錯誤答案:B39.如果沒有指定“–num-mappers1”(或-m1,即map任務個數(shù)為1),那么在指令中必須還要添加“–split-by”參數(shù)A、正確B、錯誤答案:A40.由于Zookeeper集群的運行不需要Java環(huán)境支持,所以不需要提前安裝JDK。A、正確B、錯誤答案:B41.Flume-og與Flume-ng兩個版本基本相同,開發(fā)者可以使用任意一款工具。A、正確B、錯誤答案:B42.當我們完成Hadoop集群的安裝和配置后,就可以直接啟動集群。A、正確B、錯誤答案:B43.Map階段處理數(shù)據(jù)時,是按照Key的哈希值與ReduceTask數(shù)量取模進行分區(qū)的規(guī)則。A、正確B、錯誤答案:A44.啟動Hadoop集群,只能有一種方式啟動,即單節(jié)點逐個啟動A、正確B、錯誤答案:B45.在采集數(shù)據(jù)的過程中,通過在滾動完文件的名稱后添加一個標識的策略,不能避免因日志文件過大而導致上傳效率低的問題。A、正確B、錯誤答案:B46.查看Linuxip的命令是ifconfigA、正確B、錯誤答案:A47.NameNode本地磁盤保存了Block的位置信息A、正確B、錯誤答案:B48.啟動Hadoop集群時,可能出現(xiàn)NodeManager進程無法啟動或者啟動后自動關(guān)閉情況,這是由于系統(tǒng)內(nèi)存和資源分配不足導致的A、正確B、錯誤答案:A49.Hadoop下使用MapRecue。用戶只要繼承MapReduceBase,提供分別實現(xiàn)Map和Reduce的兩個類,并注冊Job即可自動分布式運行。A、正確B、錯誤答案:A50.–append參數(shù)是將數(shù)據(jù)追加到HDFS上一個已存在的數(shù)據(jù)集上A、正確B、錯誤答案:A51.FlumeAgent是一個JVM進程,它承載著數(shù)據(jù)從外部源流向下一個目標的三個核心組件是Source、Channel和Sink。A、正確B、錯誤答案:A52.“–target-dir”參數(shù)是指定HDFS目標目錄地址,因此需要提前創(chuàng)建目標文件。A、正確B、錯誤答案:B53.TaildirSource用于觀察指定的文件,可以實時監(jiān)測到添加到每個文件的新行,如果文件正在寫入新行,則此采集器將重試采集它們以等待寫入完成。A、正確B、錯誤答案:A54.偽分布式模式下的Hadoop功能與完全分布式模式下的Hadoop功能相同A、正確B、錯誤答案:B55.在/etc/hosts文件映射ip和主機名稱A、正確B、錯誤答案:A56.在Linux中,mkdir命令主要用于在指定路徑下創(chuàng)建子目錄。A、正確B、錯誤答案:A57.HDFS適用于低延遲數(shù)據(jù)訪問的場景,例如毫秒級實時查詢。A、正確B、錯誤答案:B58.雪花模型需要關(guān)聯(lián)多層維度表,這與結(jié)構(gòu)簡單的星型模型相比性能較低,所以通常不使用。A、正確B、錯誤答案:A59.Hadoop是Apache頂級的開源項目A、正確B、錯誤答案:A60.由于Combiner組件不允許改變業(yè)務邏輯,所以無論調(diào)用多少次Combiner,Reduce的輸出結(jié)果都是一樣的。A、正確B、錯誤答案:A61.rop內(nèi)部表時,會刪除hdfs上的文件夾和元數(shù)據(jù)。A、正確B、錯誤答案:A62.在Windows平臺開發(fā)HDFS項目時,若不設置Hadoop開發(fā)環(huán)境,也是沒問題的A、正確B、錯誤答案:B63.FlumeAgent是一個JVM進程,它承載著數(shù)據(jù)從外部源流向下一個目標的三個核心組件是Source、Channel和Sink。A、正確B、錯誤答案:A64.MapReduce編程模型借鑒了面向過程的編程語言的設計思想。A、正確B、錯誤答案:B65.當我們配置好虛擬機的主機名和IP映射,就可以正常使用虛擬機。A、正確B、錯誤答案:B66.sortby關(guān)鍵字的作用是保證全局有序A、正確B、錯誤答案:A67.ClouderaCDH是需要付費使用的A、正確B、錯誤答案:B68.HadoopHA集群中,存在SecondaryNameNode進程,協(xié)調(diào)NameNode并保持同步狀態(tài)。A、正確B、錯誤答案:B69.Hadoop1.x版本中,可以搭建高可用集群,解決單點故障問題。A、正確B、錯誤答案:B70.在安裝部署Hadoop集群之前,不需要提前安裝并配置好JDK。A、正確B、錯誤答案:B71.MapTask作為MapReduce工作流程的前半部分,它主要經(jīng)歷Read階段、Map階段、Collect階段、Spill階段和Shuffle階段。A、正確B、錯誤答案:B72.設計Flume采集系統(tǒng)架構(gòu)時,Sink組件數(shù)據(jù)可以流向一個新的Agent的Source組件。A、正確B、錯誤答案:A73.Flume負載均衡接收器處理器能夠在多個Sink上進行均衡流量的功能。A、正確B、錯誤答案:A74.Zookeeper的選舉機制,實際上是采用算法FastLeaderElection,投票數(shù)大于半數(shù)則勝出的機制。A、正確B、錯誤答案:A75.hadoopdfsadmin–report命令用于檢測HDFS損壞塊。A、正確B、錯誤答案:B76.Hadoop自身具有嚴格的權(quán)限管理和安全措施保障集群正常運行。A、正確B、錯誤答案:B77.Hive分區(qū)字段不能與已存在字段重復,且分區(qū)字段是一個虛擬的字段,它不存放任何數(shù)據(jù),該數(shù)據(jù)來源于裝載分區(qū)表時所指定的數(shù)據(jù)文。A、正確B、錯誤答案:A78.NameNode負責管理元數(shù)據(jù)信息metadata,client端每次讀寫請求,它都會從磁盤中讀取或會寫入metadata信息并反饋給client端A、正確B、錯誤答案:B79.如果一個機架出問題,Hadoop集群服務不會影響數(shù)據(jù)讀寫功能A、正確B、錯誤答案:A80.MapReduce計算過程中,相同的key默認會被發(fā)送到同一個reducetask處理A、正確B、錯誤答案:A81.--target-dir參數(shù)是指定HDFS目標目錄地址,因此需要提前創(chuàng)建目標文件。A、正確B、錯誤答案:B82.通過使用虛擬機軟件(如VMwareWorkstation),可以在同一臺電腦上構(gòu)建多個Linux虛擬機環(huán)境A、正確B、錯誤答案:A83.偽分布式模式下的Hadoop功能與完全分布式模式下的Hadoop功能相同。A、正確B、錯誤答案:A84.LoggerSink通常用于調(diào)試,LoggerSink接收器的不同處是它不需要在記錄原始數(shù)據(jù)部分中說明額外的配置。A、正確B、錯誤答案:A85.大數(shù)據(jù)在醫(yī)療行業(yè)中可以有效控制疾病的發(fā)生。A、正確B、錯誤答案:B86.在安裝配置windows平臺hadoop,配置后直接運行是沒有問題的A、正確B、錯誤答案:B87.啟動Zookeeper服務的命令是“zkServer.shstart”A、正確B、錯誤答案:A88.在整個數(shù)據(jù)傳輸?shù)倪^程中,Flume將流動的數(shù)據(jù)封裝到一個event(事件)中,它是Flume內(nèi)部數(shù)據(jù)傳輸?shù)幕締卧、正確B、錯誤答案:A89.Hadoop實現(xiàn)了一個分布式文件系統(tǒng),簡稱HDFS。A、正確B、錯誤答案:A90.大數(shù)據(jù)提供的是一些描述性的信息,而創(chuàng)新還是需要人類自己實現(xiàn)。A、正確B、錯誤答案:A91.DataNode是HDFS集群的主節(jié)點,NameNode是HDFS集群的從節(jié)點。A、正確B、錯誤答案:B92.創(chuàng)建外部表的同時要加載數(shù)據(jù)文件,數(shù)據(jù)文件會移動到數(shù)據(jù)倉庫指定的目錄下。A、正確B、錯誤答案:B93.Hadoop集群執(zhí)行完MapReduce程序后,會輸出_SUCCESS和part-r-00000結(jié)果文件。A、正確B、錯誤答案:A94.“–where“city=‘sec-bad’””指令表示篩選出MySQL數(shù)據(jù)庫表字段為city=sec-bad的數(shù)據(jù)。A、正確B、錯誤答案:A95.Hive默認不支持動態(tài)分區(qū)功能,需要手動設置動態(tài)分區(qū)參數(shù)開啟功能。A、正確B、錯誤答案:A96.Flume將流動的數(shù)據(jù)封裝到一個event(事件)中,它是Flume內(nèi)部數(shù)據(jù)傳輸?shù)幕締卧、正確B、錯誤答案:A97.MapReduce是Hadoop系統(tǒng)核心組件之一,它是一種可用于大數(shù)據(jù)并行處理的計算模型、框架和平臺對A、正確B、錯誤答案:A98.“–query”參數(shù)后的查詢語句中,如果已經(jīng)使用了WHERE關(guān)鍵字,那么在連接CONDITIONS占位符前必須使用AND關(guān)鍵字;否則,就必須使用WHERE關(guān)鍵字連接。A、正確B、錯誤答案:A99.在MapReduce程序中,只有Map階段涉及到Shuffle機制。A、正確B、錯誤答案:B100.NameNode負責管理元數(shù)據(jù),客戶端每次讀寫請求時,都會從磁盤中讀取或?qū)懭朐獢?shù)據(jù)信息并反饋給客戶端。A、正確B、錯誤答案:A101.寫入數(shù)據(jù)的時候會寫到不同機架的DataNode中A、正確B、錯誤答案:A102.Hive使用MySQL作為存儲元數(shù)據(jù)的數(shù)據(jù)庫時,在安裝時需要將MySQL連接驅(qū)動Jar包拷貝到lib目錄中。A、正確B、錯誤答案:A103.Flume采集方案的名稱、位置、以及sources、channels、sinks參數(shù)配置信息可以任意定義A、正確B、錯誤答案:A104.配置Hadoop集群只需要修改core-site.xml配置文件就可以。A、正確B、錯誤答案:B105.關(guān)于hadoopha說法,每一個集群只有一個活躍的NNA、正確B、錯誤答案:A106.SecondaryNameNode可以有效縮短Hadoop集群的啟動時間。A、正確B、錯誤答案:A107.SpoolingDirectorySource對指定磁盤上的文件目錄進行監(jiān)控并提取數(shù)據(jù),但是不能查看新增文件數(shù)據(jù)A、正確B、錯誤答案:B108.HDFS的namenode保存了一個文件包括哪些數(shù)據(jù)塊,分布在哪些數(shù)據(jù)節(jié)點上,這些信息也存儲在硬盤上。A、正確B、錯誤答案:B109.通過擴容的方式,解決不了傳統(tǒng)文件系統(tǒng)遇到存儲瓶頸的問題。A、正確B、錯誤答案:B110.帶有倒排索引的文件我們稱為倒排索引文件,簡稱倒排文件。A、正確B、錯誤答案:A111.HDFS上傳時,數(shù)據(jù)會經(jīng)過NameNode然后再傳遞給DataNode。A、正確B、錯誤答案:B112.臨時節(jié)點允許擁有子節(jié)點。A、正確B、錯誤答案:B113.Hadoop的開源社區(qū)版比較著名的是Cloudera公司的CDH版本。A、正確B、錯誤答案:B114.SecondaryNameNode應與NameNode部署到一個節(jié)點A、正確B、錯誤答案:B115.Hive使用length()函數(shù)可以求出輸出的數(shù)量。A、正確B、錯誤答案:B116.SecureCRT是一款支持SSH的終端仿真程序,它能夠在Windows操作系統(tǒng)上遠程連接Linux服務器執(zhí)行操作。A、正確B、錯誤答案:A117.命名服務是分布式系統(tǒng)中比較常見的一類場景,發(fā)布者將需要全局統(tǒng)一管理的數(shù)據(jù)發(fā)布到Zookeeper節(jié)點上,供訂閱者動態(tài)獲取數(shù)據(jù),實現(xiàn)配置信息的集中式管理和動態(tài)更新。A、正確B、錯誤答案:B118.NodeManager是每個節(jié)點上的資源和任務管理器。A、正確B、錯誤答案:A119.Hive的String類型相當于MySQL數(shù)據(jù)庫的varchar類型,該類型是一個可變長度的字符串,理論上可以存儲2GB的字符數(shù)。A、正確B、錯誤答案:A120.Slave節(jié)點要存儲數(shù)據(jù),所以它的磁盤越大越好。A、正確B、錯誤答案:B121.processor.backoff屬性默認值為true,表示sink處理器會將失敗的sink列入黑名單。A、正確B、錯誤答案:B122.客戶端上傳文件的時候會先將文件切分為多個Block,依次上傳。A、正確B、錯誤答案:A123.Hadoop是一個能夠?qū)Υ罅繑?shù)據(jù)進行分布式處理的軟件框架,能夠處理PB級數(shù)據(jù)A、正確B、錯誤答案:A124.TaildirSource用于觀察指定的文件,可以實時監(jiān)測到添加到每個文件的新行,如果文件正在寫入新行,則此采集器將重試采集它們以等待寫入完成。A、正確B、錯誤答案:A125.NameNode的WebUI端口是50030,它通過jetty啟動的Web服務A、正確B、錯誤答案:B126.Hadoop是Java語言開發(fā)的,因此在搭建Hadoop集群時,需要為集群安裝JDK環(huán)境變量。A、正確B、錯誤答案:A127.NameNode本地磁盤保存了Block的位置信息。A、正確B、錯誤答案:A128.在大數(shù)據(jù)框架中,批處理系統(tǒng)一般不適用于對延時要示較高的場景。A、正確B、錯誤答案:A129.MapReduce適于PB級別以上的海量數(shù)據(jù)在線處理A、正確B、錯誤答案:B130.MapReduce的數(shù)據(jù)流模型可能只有Map過程,由Map產(chǎn)生的數(shù)據(jù)直接被寫入HDFS中。A、正確B、錯誤答案:A131.HadoopHA是集群中啟動兩臺或兩臺以上機器充當NameNode,避免一臺NameNode節(jié)點發(fā)生故障導致整個集群不可用的情況。A、正確B、錯誤答案:A132.使用–create-hive-table指令導入數(shù)據(jù)時,Hive數(shù)據(jù)倉庫中必須存在指定表。A、正確B、錯誤答案:B133.HDFS目前不支持并發(fā)多用戶的寫操作,寫操作只能在文件末尾追加數(shù)據(jù)。A、正確B、錯誤答案:A134.Hadoop的框架最核心的設計就是:HDFS和MapReduceA、正確B、錯誤答案:A135.分區(qū)表時Hive數(shù)據(jù)模型的最小單元,在Hive存儲上的體現(xiàn)就是在表的主目錄下的一個子文件夾。A、正確B、錯誤答案:B136.Channel組件對采集到的數(shù)據(jù)進行緩存,可以
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年生態(tài)園林木制景觀工程設計施工合同3篇
- 2024年度單位二手房買賣合同范本解析3篇
- 2024年民爆物品研發(fā)成果轉(zhuǎn)化與購銷合同3篇
- 大班體育游戲教案及反思
- 2024-2027年中國中間件軟件行業(yè)市場調(diào)查研究及發(fā)展戰(zhàn)略研究報告
- 2025年中國公共圖書館數(shù)字化行業(yè)市場深度評估及投資策略咨詢報告
- 2025年中國少兒編程行業(yè)市場全景評估及發(fā)展戰(zhàn)略規(guī)劃報告
- 2024年粘合劑項目提案報告模板
- 江蘇飛泰電子有限公司介紹企業(yè)發(fā)展分析報告模板
- 智慧市可行性研究報告
- 云計算應用-云服務平臺部署計劃
- 《國有企業(yè)采購操作規(guī)范》【2023修訂版】
- 保密與信息安全培訓
- 砂石料供應、運輸、售后服務方案-1
- 2022-2023學年江蘇省徐州市銅山區(qū)四校聯(lián)考五年級(上)期末科學試卷(人教版)
- 個體工商戶公司章程范本:免修版模板范本
- 2023四川測繪地理信息局直屬事業(yè)單位招考筆試參考題庫(共500題)答案詳解版
- 山東師范大學《古代文學專題(一)》期末復習題
- 【《“雙減”背景下小學數(shù)學創(chuàng)新作業(yè)設計問題研究》(論文)】
- 健康養(yǎng)生管理系統(tǒng)
- 口風琴在小學音樂課堂中的運用與實踐 論文
評論
0/150
提交評論