Hadoop大數(shù)據(jù)平臺構(gòu)建與應(yīng)用（第2版）（微課版）習(xí)題及答案馬榮飛

上傳人：y*** IP屬地：山東上傳時間：2025-02-12 格式：DOCX 頁數(shù)：22 大小：258.29KB 積分：25 舉報 版權(quán)申訴

Hadoop大數(shù)據(jù)平臺構(gòu)建與應(yīng)用（第2版）（微課版）習(xí)題及答案馬榮飛_第2頁

Hadoop大數(shù)據(jù)平臺構(gòu)建與應(yīng)用（第2版）（微課版）習(xí)題及答案馬榮飛_第3頁

Hadoop大數(shù)據(jù)平臺構(gòu)建與應(yīng)用（第2版）（微課版）習(xí)題及答案馬榮飛_第4頁

Hadoop大數(shù)據(jù)平臺構(gòu)建與應(yīng)用（第2版）（微課版）習(xí)題及答案馬榮飛_第5頁

已閱讀5頁，還剩17頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

第1章習(xí)題【單選題】1、數(shù)據(jù)采集工具不包括（C）A、FlumeB、KafkaC、HbaseD、Sqoop2、關(guān)于數(shù)據(jù)的規(guī)范化的錯誤觀點是（A）A、方便存儲B、一般包括數(shù)據(jù)中心化和數(shù)據(jù)標準化C、是為了消除量綱對數(shù)據(jù)結(jié)構(gòu)的影響D、一般是一個無量綱的純數(shù)值3、在ETL三個部分中，花費時間最長的是（B）的部分。A、EB、TC、LD、以上全部4人社的據(jù)生式大經(jīng)了個段不包。A、運營式系統(tǒng)階段B、用戶原創(chuàng)內(nèi)容階段C、互聯(lián)網(wǎng)應(yīng)用階段D、感知式系統(tǒng)階段答案：C2【單選題】以下哪個現(xiàn)象不屬于大數(shù)據(jù)的典型特征：A、數(shù)據(jù)包含噪聲及缺失值B、數(shù)據(jù)量大C、數(shù)據(jù)類型多D、產(chǎn)生速率高答案：A3【單選題】以下哪項不屬于大數(shù)據(jù)思維的涵蓋內(nèi)容：A、從模型驅(qū)動到數(shù)據(jù)驅(qū)動B、通過采樣的手段獲取目標群體的統(tǒng)計特性C、數(shù)據(jù)就是生產(chǎn)資料D、全樣本分析答案：B4【單選題】在思方方，是數(shù)據(jù)著響是。A、樣非樣B、率非確C、儲非算D、關(guān)非果答案：C5【單選題】下列于處計的。A、StormB、HiveC、SqoopD、Spark答案：D6【多選題】數(shù)據(jù)生式致歷三個段包。A、移動互聯(lián)網(wǎng)數(shù)據(jù)階段BD7【多選題】人類會數(shù)產(chǎn)方大致歷三階，包括。A、運營式系統(tǒng)階段B、移動互聯(lián)網(wǎng)時代C、感知式系統(tǒng)階段D、互聯(lián)網(wǎng)應(yīng)用階段答案：BD8【多選題】大數(shù)的征含。A、據(jù)大B、據(jù)型多C、理度快D、價值密度低答案：ABCD9【多選題】大數(shù)對維式影包括。A、全樣而非抽樣B、效率而非精確C、實踐而非理論D、相關(guān)而非因果答案：ABD10【多選題】大數(shù)的算式括。A、批處理計算B、圖計算C、流計算D、查詢分析計算答案：ABCD11【多選題】云計的型務(wù)式括。A、平臺即服務(wù)B、物聯(lián)網(wǎng)即服務(wù)C、基礎(chǔ)設(shè)施即服務(wù)D、軟件即服務(wù)答案：ACD（2.0答案：×MapReduce（2.0答案：×第2章習(xí)題1、簡述Ubuntu與Debian的關(guān)系2、安裝Ubuntu需要哪些分區(qū)。3、簡述apt的基本功能。4、簡述Ubuntu的版本號命名規(guī)則，以Ubuntu16.04說明。前兩位數(shù)字為發(fā)行時的年份年份的最后兩位數(shù)字，后兩位為發(fā)行的月份，中間以一個英文小數(shù)點隔開。例如現(xiàn)在ubuntu的最新版是16.04，則代表了是在2016年4月份發(fā)行的.========================第3章習(xí)題下面哪個Linux命令可以一次顯示一頁內(nèi)容？（C）pausecatmoregrep怎樣更改一個文件的權(quán)限設(shè)置？（B）attribchmodchangefile．下面哪條命令可以把f1.txt復(fù)制為f2.txt?（C）cpf1.txt|f2.txtcatf1.txt|f2.txtcatf1.txt>f2.txtcopyf1.txt|f2.txt5．BA.tac B.tail C.rear D.last7.如何在文件中查找顯示所有以"*"打頭的行？（D）find*filewc-l*<filegrep-n*filegrep‘^*’file7.在ps命令中什么參數(shù)是用來顯示所有用戶的進程的？（A）A.a B.b C.u x8./tmp？（B）A.del/tmp/* B.rm-rf/tmprm-Ra/tmp/* rm-rf/tmp/*二、多選題1、下命中,顯文本件容命是ABCA.more B.less C.tail D.join2、給文中找定條相字串命不能用命（BC）A.grep B.gzip C.find D.sort3、vi編器有工模式要（BD）A.檢模B.令式 C.讀模D.入式4、法除件命（ABC）A.mkdir B.rmdir C.mv D.rm5BDA.tar-dzvffilename.tgzB.tar-tzvffilename.tgzC.tar-czvffilename.tgzD.tar-xzvffilename.tgz6（BD）A.grepB.locateC.moreD.find1、什么是shell，它有什么作用？2、管道有什么作用？在一條語句是否可連續(xù)使用管道。在一條語句中是可以連續(xù)使用管道，即“|”可在一條語句中出現(xiàn)多次。4章一、單選題1、hadoop是用以下哪一種語言編寫的（C）C B.C++ C.ScalaHDFSA.次入少讀多寫，次讀C.多寫，次讀一寫，次讀HDFS_(C)。A.NTFS EXT3SeURtUaltae（mapred-site.xmlB.core-site.xml Chdfs-site.xml5pE（A．hadoop-default.xml B．C．hadoop-site.xml D．configuration.xsl二、多選題1、Hadoop分布式平臺技術(shù)核心架構(gòu)包括的元素有（ABCD）A.Hive B.Zookeeper C.MapReduce 2、Hadoop的主要應(yīng)用場景包括（ABD）A.像理 B.IT安全 C.銀存儲詐檢測三、判斷題1HadoopIBM（X）解析：Hadoop是Apache公司旗下的分布式計算平臺。2、Hadoop是基于Java語言開發(fā)的，具有很好的跨平臺特性。（√）3HadoopHadoopJDK（X）四、簡述題1、請描述一下hadoop適合與不適合的應(yīng)用場景的基本特點。適合的場景包括的基本特點是：大文件；流數(shù)據(jù)訪問，一次寫操作，多次讀操作；使用通用硬件，降低成本不適合的場景的基本特點是：低延遲數(shù)據(jù)訪問；大量小文件存儲；頻繁的文件讀寫2、Hadoop是一個開源分布式計算平臺架構(gòu)，基于apache協(xié)議發(fā)布，由java語言開發(fā)，主要包括哪些生態(tài)技術(shù)。HDFS(分布式文件管理系統(tǒng))MapReduce(分布式計算框架)Hive(基于Hadoop的數(shù)據(jù)倉庫)Pig(基于Hadoop的數(shù)據(jù)流系統(tǒng))HBase(一個分布式面向列的數(shù)據(jù)庫)Spark(快速和通用計算的Hadoop數(shù)據(jù)引擎)ZooKeeper(分布式協(xié)作服務(wù))MahoutFlumeSqoopAmbari5章一、單選題1BlockDataNodeNoe塊（A．Client B．Namenode C．Datanode D．Secondarynamenode2S（（知識點：在HDFS的一個文件中只有一個寫入者，而且寫操作只能在文件末尾完成，即只能執(zhí)行追加操作。默認三份文件塊兩塊在同一機架上，另一份存放在其他機架上。）A．支多戶同件的操作 B．用可在件位置行改C．默將件復(fù)制三份放 D．制文塊認存在一架上3Naene（A．安全模式目的是在系統(tǒng)啟動時檢查各個DataNode上數(shù)據(jù)塊的有效性B．根據(jù)策略對數(shù)據(jù)塊進行必要的復(fù)制或刪除C．當(dāng)數(shù)據(jù)塊最小百分比數(shù)滿足的最小副本數(shù)條件時，會自動退出安全模式D．文件系統(tǒng)允許有修改4下哪程通不與NaNoe在個點動？（AA.SecondaryNameNode B.DataNodeC.resourcemanager D.nodemanager5SCA.NameNode B.C.DataNode secondaryNameNode6276S默認Blckie（CA.32MB B.64MB C.128MB 256MB二、多選題1、HDFS無法高效存儲大量小文件，想讓它能處理好小文件，比較可行的改進策略不ACA.用SequenceFile、MapFile、Har方歸小件 B．多Master設(shè)計C．Block大小適當(dāng)調(diào)小D．調(diào)大NameNode內(nèi)存或?qū)⑽募到y(tǒng)元數(shù)據(jù)存到硬盤里2、關(guān)于SecondaryNameNode哪項是不正確的?（ABD）NameNodeNameNodeNameNodeSecondaryNameNodeNameNode3pADA.DataNode B.NameNode C.4pAB。A.單（地模式 B.分式式 C.聯(lián)式布模式三、答題1、HDFS是如何實現(xiàn)容錯機制的？如果DataNode出現(xiàn)故障會怎么樣？HDFSHDFS時，HDFS下，HDFS3DataNode掛了NaNoeNoe（ae運行常。塊報告包含DataNode上所有塊的列表。如果一個DataNode發(fā)送心跳消息失敗，則在特定時間段后將其標記為死亡。NameNode使用之前創(chuàng)建的副本將死節(jié)點的塊復(fù)制到另一個DataNode2、簡述Hadoopfs和Hadoopdfs的區(qū)別其一，fs是文件系統(tǒng)，dfs是分布式文件系統(tǒng)；其二，fs>dfs：分布式環(huán)境情況下，fs與dfs無區(qū)別，可以通用；但僅有本地環(huán)境的情況下，fs就是本地文件，dfs就不能用了。6章一、單選題1、HBase依靠（A）存儲底層數(shù)據(jù)。A.HDFS B.Hadoop C.Memory MapReduce2、HBase來源于哪一項（C）？A.TheGoogleFileB.MapReduce C.Chubby3、解壓.tar.gz結(jié)尾的HBase壓縮包使用的Linux命令是？AA.tar-zxvf B.tar-zx C.tar-s tar-nf4Baes是表名（。A.updatexiaoming’setinfo.age=1 B.updateC.putput5BaelA.deletefromB.deletetablefrom‘xiaoming’C.deletealldeleteall‘xiaoming’6BaelA.selectcount(0)from‘users’ B.sum‘users’C.count‘users’ ‘users’7、下面對HBase的描述哪些是不正確的（A）？A.是源的 B.面列的 C.是布的是種NoSQL據(jù)庫8、下列哪些選項是安裝HBase前所必須安裝的（B）？A.Scala B.JDK C.ShellScript JavaCode二、判斷題1、HBase是一套高性能的分布式數(shù)據(jù)集群，必須在大型機或者高性能的服務(wù)器上進行搭建。（正確）A.正確B.錯誤2、HBase是Apache的Hadoop項目的子項目，利用HadoopHDFS作為其文件存儲系統(tǒng)，適合于非結(jié)構(gòu)化數(shù)據(jù)存儲。（A）A.正確B.錯誤3、MapReduce程序可以直接讀取HBase內(nèi)存儲的數(shù)據(jù)內(nèi)容。（A）A.正確B.錯誤4deleteHBase（B）A.正確B.錯誤5、使用Shell命令insert對HBase中的一張表進行數(shù)據(jù)添加操作。（B）A.正確B.錯誤6ShellHBase（A）A.正確B.錯誤7、HBase系統(tǒng)適合進行多表聯(lián)合查詢以及復(fù)雜性讀寫操作。（B）A.正確B.錯誤8、HBase允許創(chuàng)建空表，不需要建立列簇。（B）A.正確B.錯誤三、簡答題1、試述HBase主服務(wù)器Master和Region服務(wù)器的功能組建及其作用。HBase由一個主服務(wù)器Master和許多Region服務(wù)器支持實現(xiàn)。主服務(wù)器Master主要負責(zé)表和Region的管理工作：管理用戶對表的增加、刪除、修改、查詢等操作；實現(xiàn)不同Region服務(wù)器之間的負載均衡；在Region分裂或合并后，負責(zé)重新調(diào)整Region的分布；對發(fā)生故障失效的Region服務(wù)器上的Region進行遷移。Region服務(wù)器是HBase中最核心的模塊，負責(zé)維護分配給自己的Region，并響應(yīng)用戶的讀寫請求。2、請闡述HBase的數(shù)據(jù)分區(qū)機制，說明分區(qū)是如何定位的。HBaseRegionRegionRegiondeRegionRegionRegionRegionRegion7章一、單選題1下說錯的。A．Map函數(shù)將輸入的元素轉(zhuǎn)換成<key,value>形式的鍵值對B．Hadoop框架是用Java實現(xiàn)的，MapReduce應(yīng)用程序則一定要用Java來寫C．不同的Map任務(wù)之間不能互相通信D．MapReduce框架采用了Master/Slave架構(gòu)，包括一個Master和若干個Slave2、HBase依賴(D)提供強大的計算能力。A.B.Chubby C.RPC MapReduce3、在使用MapReduce程序進行詞頻統(tǒng)計時，對于文本行“goodbookdatMpA。A、<“good”,1>、<“good”,1>、<“book”,1>和<“man”,1>B、<“good”,1,1>、<“book”,1>和<“man”,1>C、<“good”,<1,1>>、<“book”,1>和<“man”,1>D、<“good”,2>、<“book”,1>和<“man”,1>4在頻計，于本行"goodbookgoodman"，過的Reduce函數(shù)處后結(jié)是 B 。A、<“good”,2><“book”,1><“man”,1>B、<“book”,1><“good”,2><“man”,1>C、<“good”,1,1><“book”,1><“man”,1>D、<“book”,1><“good”,1><“good”,1><“man”,1>5關(guān)于HadoopMapReduce敘錯的D 。A、MapReduce采用“分而治之”的思想B、MapReduce的輸入和輸出都是鍵值對的形式C、MapReduce將計算過程劃分為Map任務(wù)和Reduce任務(wù)D、MapReduce的設(shè)計理念是“數(shù)據(jù)向計算靠攏”6HadoopMapReduce算的程A 。A、Map任務(wù)—Shuffle—Reduce任務(wù)B、Map任務(wù)—Reduce任務(wù)—ShuffleC、Reduce任務(wù)—Map任務(wù)—ShuffleD、Shuffle—Map任務(wù)—Reduce任務(wù)7編寫MapReduce時，列述誤是 D 。A、reduce函數(shù)所在的類必須繼承自Reducer類B、map函數(shù)的輸出就是reduce函數(shù)的輸入C、reduce函數(shù)的輸出默認是有序的D、啟動MapReduce進行分布式并行計算的方法是start二、多選題1Medue（AMapReduceMapReducegoogleMapReduceJavaMapReduce2、MapReduce與HBase的關(guān)系，哪些描述是正確的？（B、C）A兩者不可或缺，MapReduce是HBase可以正常運行的保證B兩者不是強關(guān)聯(lián)關(guān)系，沒有MapReduce，HBase可以正常運行CMapReduce可以直接訪問HBaseD它們之間沒有任何關(guān)系3對MapReduce的結(jié)構(gòu)以說正的。A、分布式編程架構(gòu)B、以數(shù)據(jù)為中心，更看重吞吐率C、分而治之的思想D、將一個任務(wù)分解成多個子任務(wù)答案：ABCD4、MapReduce了證務(wù)的常行采用等種錯制。A、重復(fù)執(zhí)行B、重新開始整個任務(wù)C、推測執(zhí)行D、直接丟棄執(zhí)行效率低的作業(yè)答案：AC5關(guān)于MapReduce的shuffle過，敘正的。A、Shuffle分為Map任務(wù)端的Shuffle和Reduce任務(wù)段的ShuffleB、Map任務(wù)的輸出結(jié)果不是立即寫入磁盤，而是首先寫入緩存C、并非所有場合都可以使用合并操作DReduceMap三、簡答題1、MapReduce的Shuffle過程包含了哪幾個階段，分別做了什么工作？Shuffle的數(shù)據(jù)量是由什么決定的？map端shuffle過程如下：splitpartition3）寫入環(huán)形內(nèi)存緩沖區(qū)4）spill，執(zhí)行溢出寫5）歸并reduce端shuffle過程如下：1）復(fù)制copy2）歸并merge3）reduce2、試述Map和Reduce兩部分之間的編程聯(lián)系MapReduce程序主要由Map和Reduce兩部分組成。Reduce階段在Map階段執(zhí)行結(jié)束之后執(zhí)行。Map階段的輸出結(jié)果作為Reduce階段的輸入結(jié)果。Reduce階段的輸入結(jié)果對應(yīng)于多個Map的輸出結(jié)果。Reduce階段計算最終結(jié)果并將結(jié)果輸出。8章一、判斷題1、HiveHDFS（2、Hive有專門的數(shù)據(jù)存儲格式，為數(shù)據(jù)建立專門索引。（錯）3、Hive中包含的數(shù)據(jù)模型有：表(Table)，外部表(ExternalTable)，分區(qū)(Partition(Bucket（4、Hive每一個Table在Hive中都有一個相應(yīng)的目錄存儲數(shù)據(jù)。（對）5、Hive將元數(shù)據(jù)存儲在其自身的數(shù)據(jù)庫中。（錯）6、Hive所有的數(shù)據(jù)查詢由MapReduce完成。（錯）7、HiveQL語句轉(zhuǎn)換為MapReduce作業(yè)提交到Hadoop集群，將執(zhí)行結(jié)果呈現(xiàn)給用戶。（對）8、Hive定義了簡單的類SQL查詢語言，稱為HiveQL(簡稱HQL)，可以通過類SQLMapReduceMapReduce（hiveHivehive-site.xml<property><name>javax.jdo.option.ConnectionURL</name><value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value><description>JDBCconnectstringforaJDBCmetastore</description></property><property><name>javax.jdo.option.ConnectionUserName</name><value>hive123</value></property><property><name>javax.jdo.option.ConnectionPassword</name><value>hive1234567</value></property>HiveHiveMySQLhive123；hive12345679章一、單選題1、Hive數(shù)據(jù)倉默認的存放位置是(A)。A、/user/hive B、/user/hive/warehouseC、/user/hive/default D、/user/default2、查詢表中數(shù)據(jù)時，去除重復(fù)列，使用關(guān)鍵詞(C)。A、limit B、unique C、distinct D、stinct3、selectif(2<1,100,200)fromstudentlimit1的返回值是(B)。A、100 B、200 C、D、提示：if(2<1,100,200)相當(dāng)于一個三目運算。limit1則表示找到一條記錄就不再繼續(xù)掃描。4、對查詢出的數(shù)據(jù)進行排序時，使用關(guān)鍵詞(B)指定為降序。A、asc B、desc C、esc D、des5、創(chuàng)建Hive數(shù)據(jù)庫可以使用(B)hql語句。A、createdatabases B、createdatabaseC、adddatabase D、adddatabases6、在Hive中從一個數(shù)據(jù)庫切換到另一個數(shù)據(jù)庫，使用關(guān)鍵詞(A)。A、use B、change C、get D、uses7、Hive中直接刪除非空數(shù)據(jù)表，可以添加關(guān)鍵詞(C)。A、limited B、terminated C、cascade 8、創(chuàng)建Hive數(shù)據(jù)表時，指定字段之間的分割符號，需要使用(B)。A、fieldsterminatedB、rowformatdelimitedfieldsterminatedbyC、mapkeysterminated D、collectionitemsterminatedby10章一、單選題1、akecr（A.Driverprogram B.sparkmaster C.node Clustermanager2、下面哪個不是RDD的特點（C）A.分區(qū) B.序化 C.可改可久化3、Spark的集群部署模式不包括(D)A.standalone B.sparkonmesos C.sparkonLocal4關(guān)于SparkSQL,以述錯的( )SparkSQLRDDSpark,DataFrameSchemaRDDDataFrameRDDDataFrameRDDA5、DataFrame和RDD最大的區(qū)別（B）schema6關(guān)于的，以描錯的（）SparkDataFrameDataFrameDataFrameRDD參考答案：D7將個RDD換為DataFrame的方是（）A.dataFrame() B.toDataFrame() C.DF() toDF()參考答案：D8、SparkSQL可處的據(jù)源括（）A.Hive表 B.Hive、據(jù)件C.Hive、據(jù)件RDD Hive、據(jù)件RDD、部據(jù)庫參考案：D9下選中針對Spark運的本程個法是誤（）DriverMasterMasterExecutorExecutor啟動會主動連接Driver，通過->從而得到Driver在哪DriverExecutorB10、列法，能建RDD方是?（）A.makeRDD B.parallelize C.textFile testFile參考答案：D11、列項，個屬于換子作?（）A.filter(func) B.map(func) C.reduce(func) reduceByKey(func)參考答案：C二、多選題1、Hadoop框架的缺陷有(ABC)A.表達能力有限，MR編程框架的限制B.過多的磁盤操作，缺乏對分布式內(nèi)存的支持C.無法高效低支持迭代式計算D.海量的數(shù)據(jù)存儲2、可以作為Spark編程語言的有(ABD)：A.Java B.Scala C.Ruby D.Python3、與hadoop相比，Spark主要有以下哪些優(yōu)點（ABCD）A.提供多種數(shù)據(jù)集操作類型而不僅限于MapReduceB.數(shù)據(jù)集中式計算而更加高效C.提供了內(nèi)存計算，帶來了更高的迭代運算效率D.基于DAG的任務(wù)調(diào)度執(zhí)行機制4、YARNYARN（ABCD）A.算源需B.同載用搭群利C.享層儲避據(jù)跨群D.大低運成5、spark的特點包括（ABD）A.B.C.延D.容6、Sparkdriver的功能是什么（ABD）A.作的進B.責(zé)作的C.責(zé)向HDFS申資源 D.責(zé)業(yè)解7、SparkContext可以從哪些位置讀取數(shù)據(jù)（ACD）A.本磁B.web C.hdfs D.內(nèi)8、RDD有哪些缺陷?(AD)A.支細度寫新操(網(wǎng)爬蟲B.于存計C.有schema信息 D.支增迭計9、要讀取people.json文件生成DataFrame，可以使用下列那些命令（AC）A.spark.read.json("people.json")B.spark.read.text("people.json")C.spark.read.format("json").load("people.json")D.spark.read.format("csv").load("people.json")10、SparkSQL支持讀取那些類型的文件（ABC）A.textB.jsonC.parquetD.DOC11、從RDD轉(zhuǎn)換得到DataFrame包含兩種典型的方法，分別是（AB）A.利反機斷RDD模式 B.使編方義RDD模C.利投機斷RDD模D.利互網(wǎng)制斷RDD模式12、關(guān)于DataFrame與RDD在結(jié)構(gòu)上的區(qū)別，以下描述正確的是（ABD）A.DataFrameRowB.RDDJavaC.RDDD.DataFrame提供了比RDD更豐富的算子13、流計算的處理流程（BCD）A.實數(shù)存B.實數(shù)計C.實查服D.實數(shù)采集14、SparkStreaming的基本輸入源有哪幾種（ACD）A.件B.kafka C.接D.RDD列15、MLlib包括（ABCD）A.類B.類C.征D.計16、下面關(guān)于SparkMLlib庫的描述正確的是（AC）A.MLlib1.2spark.mllibspark.mlB.spark.mllibDataFrameAPIC.spark.mllib包含基于RDD的原始算法APID.spark.ml則提供了基于RDD的、高層次的API17（AASparkStreaming BFlink CStorm DSparkSQL18、列于RDD轉(zhuǎn)算子是AgroupByKey() Breduce() CreduceByKey() Dmap()參考答案：ACD19、列于RDD行算子操）是Acount() Bfirst() Ctake() Dfilter()參考答案：ABC三、判斷題1.standalone(集群模式)典型的Mater/slave模式，Spark支持ZooKeeper來實現(xiàn)HA2.構(gòu)造數(shù)據(jù)Schema模式不可以添加數(shù)據(jù)的列名稱。（錯誤）3.SparkStreaming并不支持RDD的所有算子。（錯誤）4.Pipeline被設(shè)計用來管理一系列的階段，每一個階段都由PipelineStage來表示。（正確）5.SparkMLtransformerstransformer（正確四、簡答題1、試述如下Spark的幾個主要概念：RDD、DAG、階段、分區(qū)、窄依賴、寬依賴。答：①RDD：是彈性分布式數(shù)據(jù)集（ResilientDistributedDataset）的英文縮寫，是分布式內(nèi)存的一個抽象概念，提供了一種高度受限的共享內(nèi)存模型。②DAG：DirectedAcyclicGraph（）RDD③階段：是作業(yè)的基本調(diào)度單位，一個作業(yè)會分為多組任務(wù)，每組任務(wù)被稱為“階段”，或者也被稱為“任務(wù)集”。④分區(qū)：一個RDD就是一個分布式對象集合，本質(zhì)上是一個只讀的分區(qū)記錄集合，每個RDD可以分成多個分區(qū)，每個分區(qū)就是一個數(shù)據(jù)集片段。⑤窄依賴：父RDD的一個分區(qū)只被一個子RDD的一個分區(qū)所使用就是窄依賴。⑥寬依賴：父RDD的一個分區(qū)被一個子RDD的多個分區(qū)所使用就是寬依賴。2、SparkRDD行動Acto轉(zhuǎn)換Trasfomaton11章一、單選題1、在Linux虛擬機中獲取計算機網(wǎng)卡名稱可使用（B）A.ipconfig B.ifconfig C.interfaces D.networkingrestart2、在Ubuntu虛擬機機中主機名保存在文件（C）中。A./home/hostname B./etc/name C./etc/hostname D./home/name3、ssh服務(wù)端的進程名為（D）A.openssh B.openssl C.ssh D.sshd4、SSH的默認端口是(C)A.2222 B.33 C.22 D.33335、利用遠程機的用戶登錄正確的方法是（A）A.sshomd@00 B.ssh00C.ssh00::22 D.ssh00@omd二、多選題1、在/etc/hosts文件中建立“04slave1”地址映射后，遠程復(fù)制文件的正確語句是（AD）A.scp~/.ssh/authorized_keysslave1:~/.ssh/authorized_keysB.cp~/.ssh/authorized_keysslave1:~/.ssh/authorized_keysC.cp~/.ssh/authorized_keys04:~/.ssh/authorized_keysD.scp~/.ssh/authorized_keys04:~/.ssh/authorized_keys2、Vmware虛擬機中虛擬網(wǎng)卡有哪些連接方式A.接B.地C.NAT模式 D.主模3、在vmware擬中：vmnet0對(A)；vmnet1應(yīng)(C)；vmnet8對應(yīng)(D)A.接B.地C.NAT模式 D.主模三、簡答題1、簡述橋接模式和NAT模式之間的區(qū)別IPNAT2AB1）使用ssh-keygen-tRSA功能在A、B主機分別創(chuàng)建秘鑰；2）使用mv命令分別修改A、B主機公鑰文件名稱為A.pub和B.pub3）通過scp命令將A.pub和B.pub匯集到A或B主機4）形成許可證文件，通過cat~/.ssh/A.pub>>~/.ssh/authorized_keys和cat~/.ssh/B.pub>>~/.ssh/authorized_keys5）authorized_keys、B6）SSHASSHB12章（一）單選題1、Zookeeper角色分配不包括（B）A.Observer B.protecter C.leader D.follower2、ZookeeperShell命中可顯節(jié)詳信的命是(A)A.getB.setC.create D.stat3、zookeeper配置文件是(B)。A.core-sit.xml B.zoo.cfg C.Hadoop-env.xml D.dfs-sit.xml4、zookeeper集群使用的協(xié)議(C)。A.HTTP/IPB.WEBC.ZABD.ORACLE協(xié)5、zokeeer（CA.B.C.3 D.二、多選題1、zookeeperShell命令有哪些(ABCD)。A.Create B.Delete C.set D.get2、zokeeer集啟在Mater服器入JS命令有些CDA.Namenode B.Datanode C.QuorumPeerMain D.HMaster3、下列屬于zookeeper集群命令有哪些(ABD)A.zkServer.shstart B.zkServer.shstatus C.zkServer.shrestart D.zkServer.shstop4、zookeeper服務(wù)器有哪幾種狀態(tài)(ABCD)。A.競狀B.隨狀C.觀狀D.領(lǐng)者三、簡答題1、根據(jù)自己的理解，回答ZooKeeper是什么，能用來做什么？答：ZooKeeper是一個分布式協(xié)調(diào)系統(tǒng)，為分布式服務(wù)提供一致性?？梢杂脕碜鲎灾行?，分布式鎖，Master選舉，數(shù)據(jù)的發(fā)布與訂閱等，其實質(zhì)是實現(xiàn)了一個具有多層級的節(jié)點znode命名空間，每個節(jié)點都可以存放數(shù)據(jù)文件系統(tǒng)。2、簡述ZooKeeper選舉機制。答：ZooKeeperServiceIdidid；Zxid事務(wù)id，服務(wù)器中存放的最大數(shù)據(jù)id，越大越新；Epoch邏輯時鐘-投票輪數(shù)，遞增的。根據(jù)這個知道是哪一輪的投票；Server選舉狀態(tài)looking選舉中l(wèi)eadingfollowingobserving不參與投票。ZooKeeper1）啟動，先判斷集群是否已經(jīng)有l(wèi)eader了，如果有，就直接作為follower啟動；2）如果處于選舉狀態(tài)，每臺機器都在第一輪會投票給自己，并且獲取其他機器的投票信息；3）收集到投票信息后，每臺機器根據(jù)信息，先判斷epoch，輪次大的勝出，然后選舉zxid最大的，如果zxid一樣大，選舉serviceid最大的，并發(fā)起第二輪投票；4）如果超過半數(shù)的選票決出leader，選舉結(jié)束，各個機器更改自己相應(yīng)的狀態(tài)否則重復(fù)第3步。14章單選題1ActieNaNo(AN和ayNaeN()DN(3s,10m)DNblock匯報DN信息2、關(guān)于JournalNode（JN）描述不正確是（C）QuorumJournalNodeManager（QJM）NameNode;ANNJournalNode;JournalNodeNameNodeSNN（）QJM3、關(guān)于FailoverController(ZKFC：故障轉(zhuǎn)移控制器)說法正確的是（B）A.當(dāng)集群啟動時，主備節(jié)點的概念是很模糊的，當(dāng)ZKFC檢查到任意一個節(jié)點是健康狀態(tài)，直接將其設(shè)置為主節(jié)點。zkfcNNZKFCHANN。4、Hadoop和Hadoop生態(tài)圈的描述中，正確的是（）HadoopHadoopHadoopHadoopHadoopHadoopHadoopZooKeeper、Flume、RedisHive、Flink等HadoopHadoop解析A.錯誤，Hadoop生態(tài)圈是指Hadoop框架及其保證其正常高效運行的其他框架B.正確C.錯誤，Redis、Flink不是D.錯誤，Hadoop生態(tài)圈含義大于Hadoop5、在Hadoop集群的配置文件中有如下兩個配置，請問假如集群中有一個節(jié)點宕機，主節(jié)點namenode需要多長時間才能感知到（）<property><name>erval</name><value>3</value></property><property><name>erval</name><value>2000</value></property>26秒34秒30秒20秒解析erval：datanode會按照此間隙（單位s）向namenode發(fā)送心跳，默認發(fā)送10次。erval：namenode按照此間隙（單位ms）檢查datanode的相關(guān)進程，默認檢查2次。HDFS集群掉線超時時長的計算公式是：timeout=10*erval+2*erval/1000接下來代入?yún)?shù)，套著公式進行計算10*3+2*2000/1000=34秒6eeerN）A.兩臺NN啟動后都會去zk（zookeeper）進行注冊，zk會分配主節(jié)點（Active）和備節(jié)點aB.主NN對外提供服務(wù)，備NN同步主NN元數(shù)據(jù)，以待切換，通過集群JN(JournalNode)。備用NN也會幫助主NN合并editsLog文件和fsimage產(chǎn)生

人人文庫> 全部分類> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

Hadoop大數(shù)據(jù)平臺構(gòu)建與應(yīng)用（第2版）（微課版）習(xí)題及答案馬榮飛

文檔簡介

溫馨提示

最新文檔

評論

Hadoop大數(shù)據(jù)平臺構(gòu)建與應(yīng)用（第2版）（微課版） 習(xí)題及答案 馬榮飛

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

Hadoop大數(shù)據(jù)平臺構(gòu)建與應(yīng)用（第2版）（微課版）習(xí)題及答案馬榮飛