![Hadoop大數(shù)據(jù)平臺構(gòu)建與應(yīng)用(第2版)(微課版) 習(xí)題及答案 馬榮飛_第1頁](http://file4.renrendoc.com/view11/M00/14/0C/wKhkGWeqxLyASZqZAAEWuBm0DKM228.jpg)
![Hadoop大數(shù)據(jù)平臺構(gòu)建與應(yīng)用(第2版)(微課版) 習(xí)題及答案 馬榮飛_第2頁](http://file4.renrendoc.com/view11/M00/14/0C/wKhkGWeqxLyASZqZAAEWuBm0DKM2282.jpg)
![Hadoop大數(shù)據(jù)平臺構(gòu)建與應(yīng)用(第2版)(微課版) 習(xí)題及答案 馬榮飛_第3頁](http://file4.renrendoc.com/view11/M00/14/0C/wKhkGWeqxLyASZqZAAEWuBm0DKM2283.jpg)
![Hadoop大數(shù)據(jù)平臺構(gòu)建與應(yīng)用(第2版)(微課版) 習(xí)題及答案 馬榮飛_第4頁](http://file4.renrendoc.com/view11/M00/14/0C/wKhkGWeqxLyASZqZAAEWuBm0DKM2284.jpg)
![Hadoop大數(shù)據(jù)平臺構(gòu)建與應(yīng)用(第2版)(微課版) 習(xí)題及答案 馬榮飛_第5頁](http://file4.renrendoc.com/view11/M00/14/0C/wKhkGWeqxLyASZqZAAEWuBm0DKM2285.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第1章習(xí)題【單選題】1、數(shù)據(jù)采集工具不包括(C)A、FlumeB、KafkaC、HbaseD、Sqoop2、關(guān)于數(shù)據(jù)的規(guī)范化的錯誤觀點是(A)A、方便存儲B、一般包括數(shù)據(jù)中心化和數(shù)據(jù)標準化C、是為了消除量綱對數(shù)據(jù)結(jié)構(gòu)的影響D、一般是一個無量綱的純數(shù)值3、在ETL三個部分中,花費時間最長的是(B)的部分。A、EB、TC、LD、以上全部4人社的據(jù)生式大經(jīng)了個段不包。A、運營式系統(tǒng)階段B、用戶原創(chuàng)內(nèi)容階段C、互聯(lián)網(wǎng)應(yīng)用階段D、感知式系統(tǒng)階段答案:C2【單選題】以下哪個現(xiàn)象不屬于大數(shù)據(jù)的典型特征:A、數(shù)據(jù)包含噪聲及缺失值B、數(shù)據(jù)量大C、數(shù)據(jù)類型多D、產(chǎn)生速率高答案:A3【單選題】以下哪項不屬于大數(shù)據(jù)思維的涵蓋內(nèi)容:A、從模型驅(qū)動到數(shù)據(jù)驅(qū)動B、通過采樣的手段獲取目標群體的統(tǒng)計特性C、數(shù)據(jù)就是生產(chǎn)資料D、全樣本分析答案:B4【單選題】在思方方,是數(shù)據(jù)著響是 。A、樣非樣B、率非確C、儲非算D、關(guān)非果答案:C5【單選題】下列于處計的。A、StormB、HiveC、SqoopD、Spark答案:D6【多選題】數(shù)據(jù)生式致歷三個段包。A、移動互聯(lián)網(wǎng)數(shù)據(jù)階段BD7【多選題】人類會數(shù)產(chǎn)方大致歷三階,包括 。A、運營式系統(tǒng)階段B、移動互聯(lián)網(wǎng)時代C、感知式系統(tǒng)階段D、互聯(lián)網(wǎng)應(yīng)用階段答案:BD8【多選題】大數(shù)的征含 。A、據(jù)大B、據(jù)型多C、理度快D、價值密度低答案:ABCD9【多選題】大數(shù)對維式影包括 。A、全樣而非抽樣B、效率而非精確C、實踐而非理論D、相關(guān)而非因果答案:ABD10【多選題】大數(shù)的算式括 。A、批處理計算B、圖計算C、流計算D、查詢分析計算答案:ABCD11【多選題】云計的型務(wù)式括 。A、平臺即服務(wù)B、物聯(lián)網(wǎng)即服務(wù)C、基礎(chǔ)設(shè)施即服務(wù)D、軟件即服務(wù)答案:ACD(2.0答案:×MapReduce(2.0答案:×第2章習(xí)題1、簡述Ubuntu與Debian的關(guān)系2、安裝Ubuntu需要哪些分區(qū)。3、簡述apt的基本功能。4、簡述Ubuntu的版本號命名規(guī)則,以Ubuntu16.04說明。前兩位數(shù)字為發(fā)行時的年份年份的最后兩位數(shù)字,后兩位為發(fā)行的月份,中間以一個英文小數(shù)點隔開。例如現(xiàn)在ubuntu的最新版是16.04,則代表了是在2016年4月份發(fā)行的.========================第3章習(xí)題下面哪個Linux命令可以一次顯示一頁內(nèi)容?(C)pausecatmoregrep怎樣更改一個文件的權(quán)限設(shè)置?(B)attribchmodchangefile.下面哪條命令可以把f1.txt復(fù)制為f2.txt?(C)cpf1.txt|f2.txtcatf1.txt|f2.txtcatf1.txt>f2.txtcopyf1.txt|f2.txt5.BA.tac B.tail C.rear D.last7.如何在文件中查找顯示所有以"*"打頭的行?(D)find*filewc-l*<filegrep-n*filegrep‘^*’file7.在ps命令中什么參數(shù)是用來顯示所有用戶的進程的?(A)A.a B.b C.u x8./tmp?(B)A.del/tmp/* B.rm-rf/tmprm-Ra/tmp/* rm-rf/tmp/*二、多選題1、下命中,顯文本件容命是ABCA.more B.less C.tail D.join2、給文中找定條相字串命不能用命(BC)A.grep B.gzip C.find D.sort3、vi編器有工模式要(BD)A.檢模B.令式 C.讀模D.入式4、法除件命(ABC)A.mkdir B.rmdir C.mv D.rm5BDA.tar-dzvffilename.tgzB.tar-tzvffilename.tgzC.tar-czvffilename.tgzD.tar-xzvffilename.tgz6(BD)A.grepB.locateC.moreD.find1、什么是shell,它有什么作用?2、管道有什么作用?在一條語句是否可連續(xù)使用管道。在一條語句中是可以連續(xù)使用管道,即“|”可在一條語句中出現(xiàn)多次。4章一、單選題1、hadoop是用以下哪一種語言編寫的(C)C B.C++ C.ScalaHDFSA.次入少讀 多寫,次讀C.多寫,次讀 一寫,次讀HDFS_(C)。A.NTFS EXT3SeURtUaltae(mapred-site.xmlB.core-site.xml Chdfs-site.xml5pE(A.hadoop-default.xml B.C.hadoop-site.xml D.configuration.xsl二、多選題1、Hadoop分布式平臺技術(shù)核心架構(gòu)包括的元素有(ABCD)A.Hive B.Zookeeper C.MapReduce 2、Hadoop的主要應(yīng)用場景包括(ABD)A.像理 B.IT安全 C.銀存儲 詐檢測三、判斷題1HadoopIBM(X)解析:Hadoop是Apache公司旗下的分布式計算平臺。2、Hadoop是基于Java語言開發(fā)的,具有很好的跨平臺特性。(√)3HadoopHadoopJDK(X)四、簡述題1、請描述一下hadoop適合與不適合的應(yīng)用場景的基本特點。適合的場景包括的基本特點是:大文件;流數(shù)據(jù)訪問,一次寫操作,多次讀操作;使用通用硬件,降低成本不適合的場景的基本特點是:低延遲數(shù)據(jù)訪問;大量小文件存儲;頻繁的文件讀寫2、Hadoop是一個開源分布式計算平臺架構(gòu),基于apache協(xié)議發(fā)布,由java語言開發(fā),主要包括哪些生態(tài)技術(shù)。HDFS(分布式文件管理系統(tǒng))MapReduce(分布式計算框架)Hive(基于Hadoop的數(shù)據(jù)倉庫)Pig(基于Hadoop的數(shù)據(jù)流系統(tǒng))HBase(一個分布式面向列的數(shù)據(jù)庫)Spark(快速和通用計算的Hadoop數(shù)據(jù)引擎)ZooKeeper(分布式協(xié)作服務(wù))MahoutFlumeSqoopAmbari5章一、單選題1BlockDataNodeNoe塊(A.Client B.Namenode C.Datanode D.Secondarynamenode2S((知識點:在HDFS的一個文件中只有一個寫入者,而且寫操作只能在文件末尾完成,即只能執(zhí)行追加操作。默認三份文件塊兩塊在同一機架上,另一份存放在其他機架上。)A.支多戶同件的操作 B.用可在件位置行改C.默將件復(fù)制三份放 D.制文塊認存在一架上3Naene(A.安全模式目的是在系統(tǒng)啟動時檢查各個DataNode上數(shù)據(jù)塊的有效性B.根據(jù)策略對數(shù)據(jù)塊進行必要的復(fù)制或刪除C.當(dāng)數(shù)據(jù)塊最小百分比數(shù)滿足的最小副本數(shù)條件時,會自動退出安全模式D.文件系統(tǒng)允許有修改4下哪程通不與NaNoe在個點動?(AA.SecondaryNameNode B.DataNodeC.resourcemanager D.nodemanager5SCA.NameNode B.C.DataNode secondaryNameNode6276S默認Blckie(CA.32MB B.64MB C.128MB 256MB二、多選題1、HDFS無法高效存儲大量小文件,想讓它能處理好小文件,比較可行的改進策略不ACA.用SequenceFile、MapFile、Har方歸小件 B.多Master設(shè)計C.Block大小適當(dāng)調(diào)小D.調(diào)大NameNode內(nèi)存或?qū)⑽募到y(tǒng)元數(shù)據(jù)存到硬盤里2、關(guān)于SecondaryNameNode哪項是不正確的?(ABD)NameNodeNameNodeNameNodeSecondaryNameNodeNameNode3pADA.DataNode B.NameNode C.4pAB。A.單(地模式 B.分式式 C.聯(lián)式 布模式三、答題1、HDFS是如何實現(xiàn)容錯機制的?如果DataNode出現(xiàn)故障會怎么樣?HDFSHDFS時,HDFS下,HDFS3DataNode掛了NaNoeNoe(ae運行常。塊報告包含DataNode上所有塊的列表。如果一個DataNode發(fā)送心跳消息失敗,則在特定時間段后將其標記為死亡。NameNode使用之前創(chuàng)建的副本將死節(jié)點的塊復(fù)制到另一個DataNode2、簡述Hadoopfs和Hadoopdfs的區(qū)別其一,fs是文件系統(tǒng),dfs是分布式文件系統(tǒng);其二,fs>dfs:分布式環(huán)境情況下,fs與dfs無區(qū)別,可以通用;但僅有本地環(huán)境的情況下,fs就是本地文件,dfs就不能用了。6章一、單選題1、HBase依靠(A)存儲底層數(shù)據(jù)。A.HDFS B.Hadoop C.Memory MapReduce2、HBase來源于哪一項(C)?A.TheGoogleFileB.MapReduce C.Chubby3、解壓.tar.gz結(jié)尾的HBase壓縮包使用的Linux命令是?AA.tar-zxvf B.tar-zx C.tar-s tar-nf4Baes是表名(。A.updatexiaoming’setinfo.age=1 B.updateC.putput5BaelA.deletefromB.deletetablefrom‘xiaoming’C.deletealldeleteall‘xiaoming’6BaelA.selectcount(0)from‘users’ B.sum‘users’C.count‘users’ ‘users’7、下面對HBase的描述哪些是不正確的(A)?A.是源的 B.面列的 C.是布的 是種NoSQL據(jù)庫8、下列哪些選項是安裝HBase前所必須安裝的(B)?A.Scala B.JDK C.ShellScript JavaCode二、判斷題1、HBase是一套高性能的分布式數(shù)據(jù)集群,必須在大型機或者高性能的服務(wù)器上進行搭建。(正確)A.正確B.錯誤2、HBase是Apache的Hadoop項目的子項目,利用HadoopHDFS作為其文件存儲系統(tǒng),適合于非結(jié)構(gòu)化數(shù)據(jù)存儲。(A)A.正確B.錯誤3、MapReduce程序可以直接讀取HBase內(nèi)存儲的數(shù)據(jù)內(nèi)容。(A)A.正確B.錯誤4deleteHBase(B)A.正確B.錯誤5、使用Shell命令insert對HBase中的一張表進行數(shù)據(jù)添加操作。(B)A.正確B.錯誤6ShellHBase(A)A.正確B.錯誤7、HBase系統(tǒng)適合進行多表聯(lián)合查詢以及復(fù)雜性讀寫操作。(B)A.正確B.錯誤8、HBase允許創(chuàng)建空表,不需要建立列簇。(B)A.正確B.錯誤三、簡答題1、試述HBase主服務(wù)器Master和Region服務(wù)器的功能組建及其作用。HBase由一個主服務(wù)器Master和許多Region服務(wù)器支持實現(xiàn)。主服務(wù)器Master主要負責(zé)表和Region的管理工作:管理用戶對表的增加、刪除、修改、查詢等操作;實現(xiàn)不同Region服務(wù)器之間的負載均衡;在Region分裂或合并后,負責(zé)重新調(diào)整Region的分布;對發(fā)生故障失效的Region服務(wù)器上的Region進行遷移。Region服務(wù)器是HBase中最核心的模塊,負責(zé)維護分配給自己的Region,并響應(yīng)用戶的讀寫請求。2、請闡述HBase的數(shù)據(jù)分區(qū)機制,說明分區(qū)是如何定位的。HBaseRegionRegionRegiondeRegionRegionRegionRegionRegion7章一、單選題1下說錯的。A.Map函數(shù)將輸入的元素轉(zhuǎn)換成<key,value>形式的鍵值對B.Hadoop框架是用Java實現(xiàn)的,MapReduce應(yīng)用程序則一定要用Java來寫C.不同的Map任務(wù)之間不能互相通信D.MapReduce框架采用了Master/Slave架構(gòu),包括一個Master和若干個Slave2、HBase依賴(D)提供強大的計算能力。A.B.Chubby C.RPC MapReduce3、在使用MapReduce程序進行詞頻統(tǒng)計時,對于文本行“goodbookdatMpA。A、<“good”,1>、<“good”,1>、<“book”,1>和<“man”,1>B、<“good”,1,1>、<“book”,1>和<“man”,1>C、<“good”,<1,1>>、<“book”,1>和<“man”,1>D、<“good”,2>、<“book”,1>和<“man”,1>4在頻計,于本行"goodbookgoodman",過的Reduce函數(shù)處后結(jié)是 B 。A、<“good”,2><“book”,1><“man”,1>B、<“book”,1><“good”,2><“man”,1>C、<“good”,1,1><“book”,1><“man”,1>D、<“book”,1><“good”,1><“good”,1><“man”,1>5關(guān)于HadoopMapReduce敘錯的D 。A、MapReduce采用“分而治之”的思想B、MapReduce的輸入和輸出都是鍵值對的形式C、MapReduce將計算過程劃分為Map任務(wù)和Reduce任務(wù)D、MapReduce的設(shè)計理念是“數(shù)據(jù)向計算靠攏”6HadoopMapReduce算的程A 。A、Map任務(wù)—Shuffle—Reduce任務(wù)B、Map任務(wù)—Reduce任務(wù)—ShuffleC、Reduce任務(wù)—Map任務(wù)—ShuffleD、Shuffle—Map任務(wù)—Reduce任務(wù)7編寫MapReduce時,列述誤是 D 。A、reduce函數(shù)所在的類必須繼承自Reducer類B、map函數(shù)的輸出就是reduce函數(shù)的輸入C、reduce函數(shù)的輸出默認是有序的D、啟動MapReduce進行分布式并行計算的方法是start二、多選題1Medue(AMapReduceMapReducegoogleMapReduceJavaMapReduce2、MapReduce與HBase的關(guān)系,哪些描述是正確的?(B、C)A兩者不可或缺,MapReduce是HBase可以正常運行的保證B兩者不是強關(guān)聯(lián)關(guān)系,沒有MapReduce,HBase可以正常運行CMapReduce可以直接訪問HBaseD它們之間沒有任何關(guān)系3對MapReduce的結(jié)構(gòu)以說正的。A、分布式編程架構(gòu)B、以數(shù)據(jù)為中心,更看重吞吐率C、分而治之的思想D、將一個任務(wù)分解成多個子任務(wù)答案:ABCD4、MapReduce了證務(wù)的常行采用 等種錯制。A、重復(fù)執(zhí)行B、重新開始整個任務(wù)C、推測執(zhí)行D、直接丟棄執(zhí)行效率低的作業(yè)答案:AC5關(guān)于MapReduce的shuffle過,敘正的。A、Shuffle分為Map任務(wù)端的Shuffle和Reduce任務(wù)段的ShuffleB、Map任務(wù)的輸出結(jié)果不是立即寫入磁盤,而是首先寫入緩存C、并非所有場合都可以使用合并操作DReduceMap三、簡答題1、MapReduce的Shuffle過程包含了哪幾個階段,分別做了什么工作?Shuffle的數(shù)據(jù)量是由什么決定的?map端shuffle過程如下:splitpartition3)寫入環(huán)形內(nèi)存緩沖區(qū)4)spill,執(zhí)行溢出寫5)歸并reduce端shuffle過程如下:1)復(fù)制copy2)歸并merge3)reduce2、試述Map和Reduce兩部分之間的編程聯(lián)系MapReduce程序主要由Map和Reduce兩部分組成。Reduce階段在Map階段執(zhí)行結(jié)束之后執(zhí)行。Map階段的輸出結(jié)果作為Reduce階段的輸入結(jié)果。Reduce階段的輸入結(jié)果對應(yīng)于多個Map的輸出結(jié)果。Reduce階段計算最終結(jié)果并將結(jié)果輸出。8章一、判斷題1、HiveHDFS(2、Hive有專門的數(shù)據(jù)存儲格式,為數(shù)據(jù)建立專門索引。(錯)3、Hive中包含的數(shù)據(jù)模型有:表(Table),外部表(ExternalTable),分區(qū)(Partition(Bucket(4、Hive每一個Table在Hive中都有一個相應(yīng)的目錄存儲數(shù)據(jù)。(對)5、Hive將元數(shù)據(jù)存儲在其自身的數(shù)據(jù)庫中。(錯)6、Hive所有的數(shù)據(jù)查詢由MapReduce完成。(錯)7、HiveQL語句轉(zhuǎn)換為MapReduce作業(yè)提交到Hadoop集群,將執(zhí)行結(jié)果呈現(xiàn)給用戶。(對)8、Hive定義了簡單的類SQL查詢語言,稱為HiveQL(簡稱HQL),可以通過類SQLMapReduceMapReduce(hiveHivehive-site.xml<property><name>javax.jdo.option.ConnectionURL</name><value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value><description>JDBCconnectstringforaJDBCmetastore</description></property><property><name>javax.jdo.option.ConnectionUserName</name><value>hive123</value></property><property><name>javax.jdo.option.ConnectionPassword</name><value>hive1234567</value></property>HiveHiveMySQLhive123;hive12345679章一、單選題1、Hive數(shù)據(jù)倉默認的存放位置是(A)。A、/user/hive B、/user/hive/warehouseC、/user/hive/default D、/user/default2、查詢表中數(shù)據(jù)時,去除重復(fù)列,使用關(guān)鍵詞(C)。A、limit B、unique C、distinct D、stinct3、selectif(2<1,100,200)fromstudentlimit1的返回值是(B)。A、100 B、200 C、D、提示:if(2<1,100,200)相當(dāng)于一個三目運算。limit1則表示找到一條記錄就不再繼續(xù)掃描。4、對查詢出的數(shù)據(jù)進行排序時,使用關(guān)鍵詞(B)指定為降序。A、asc B、desc C、esc D、des5、創(chuàng)建Hive數(shù)據(jù)庫可以使用(B)hql語句。A、createdatabases B、createdatabaseC、adddatabase D、adddatabases6、在Hive中從一個數(shù)據(jù)庫切換到另一個數(shù)據(jù)庫,使用關(guān)鍵詞(A)。A、use B、change C、get D、uses7、Hive中直接刪除非空數(shù)據(jù)表,可以添加關(guān)鍵詞(C)。A、limited B、terminated C、cascade 8、創(chuàng)建Hive數(shù)據(jù)表時,指定字段之間的分割符號,需要使用(B)。A、fieldsterminatedB、rowformatdelimitedfieldsterminatedbyC、mapkeysterminated D、collectionitemsterminatedby10章一、單選題1、akecr(A.Driverprogram B.sparkmaster C.node Clustermanager2、下面哪個不是RDD的特點(C)A.分區(qū) B.序化 C.可改 可久化3、Spark的集群部署模式不包括(D)A.standalone B.sparkonmesos C.sparkonLocal4關(guān)于SparkSQL,以述錯的( )SparkSQLRDDSpark,DataFrameSchemaRDDDataFrameRDDDataFrameRDDA5、DataFrame和RDD最大的區(qū)別(B)schema6關(guān)于的,以描錯的( )SparkDataFrameDataFrameDataFrameRDD參考答案:D7將個RDD換為DataFrame的方是( )A.dataFrame() B.toDataFrame() C.DF() toDF()參考答案:D8、SparkSQL可處的據(jù)源括( )A.Hive表 B.Hive、據(jù)件C.Hive、據(jù)件RDD Hive、據(jù)件RDD、部據(jù)庫參考案:D9下選中針對Spark運的本程個法是誤( )DriverMasterMasterExecutorExecutor啟動會主動連接Driver,通過->從而得到Driver在哪DriverExecutorB10、列法,能建RDD方是?( )A.makeRDD B.parallelize C.textFile testFile參考答案:D11、列項,個屬于換子作?( )A.filter(func) B.map(func) C.reduce(func) reduceByKey(func)參考答案:C二、多選題1、Hadoop框架的缺陷有(ABC)A.表達能力有限,MR編程框架的限制B.過多的磁盤操作,缺乏對分布式內(nèi)存的支持C.無法高效低支持迭代式計算D.海量的數(shù)據(jù)存儲2、可以作為Spark編程語言的有(ABD):A.Java B.Scala C.Ruby D.Python3、與hadoop相比,Spark主要有以下哪些優(yōu)點(ABCD)A.提供多種數(shù)據(jù)集操作類型而不僅限于MapReduceB.數(shù)據(jù)集中式計算而更加高效C.提供了內(nèi)存計算,帶來了更高的迭代運算效率D.基于DAG的任務(wù)調(diào)度執(zhí)行機制4、YARNYARN(ABCD)A.算源需B.同載用搭群利C.享層儲避據(jù)跨群D.大低運成5、spark的特點包括(ABD)A.B.C.延D.容6、Sparkdriver的功能是什么(ABD)A.作的進B.責(zé)作的C.責(zé)向HDFS申資源 D.責(zé)業(yè)解7、SparkContext可以從哪些位置讀取數(shù)據(jù)(ACD)A.本磁B.web C.hdfs D.內(nèi)8、RDD有哪些缺陷?(AD)A.支細度寫新操(網(wǎng)爬蟲B.于存計C.有schema信息 D.支增迭計9、要讀取people.json文件生成DataFrame,可以使用下列那些命令(AC)A.spark.read.json("people.json")B.spark.read.text("people.json")C.spark.read.format("json").load("people.json")D.spark.read.format("csv").load("people.json")10、SparkSQL支持讀取那些類型的文件(ABC)A.textB.jsonC.parquetD.DOC11、從RDD轉(zhuǎn)換得到DataFrame包含兩種典型的方法,分別是(AB)A.利反機斷RDD模式 B.使編方義RDD模C.利投機斷RDD模D.利互網(wǎng)制斷RDD模式12、關(guān)于DataFrame與RDD在結(jié)構(gòu)上的區(qū)別,以下描述正確的是(ABD)A.DataFrameRowB.RDDJavaC.RDDD.DataFrame提供了比RDD更豐富的算子13、流計算的處理流程(BCD)A.實數(shù)存B.實數(shù)計C.實查服D.實數(shù)采集14、SparkStreaming的基本輸入源有哪幾種(ACD)A.件B.kafka C.接D.RDD列15、MLlib包括(ABCD)A.類B.類C.征D.計16、下面關(guān)于SparkMLlib庫的描述正確的是(AC)A.MLlib1.2spark.mllibspark.mlB.spark.mllibDataFrameAPIC.spark.mllib包含基于RDD的原始算法APID.spark.ml則提供了基于RDD的、高層次的API17(AASparkStreaming BFlink CStorm DSparkSQL18、列于RDD轉(zhuǎn)算子是AgroupByKey() Breduce() CreduceByKey() Dmap()參考答案:ACD19、列于RDD行算子操)是Acount() Bfirst() Ctake() Dfilter()參考答案:ABC三、判斷題1.standalone(集群模式)典型的Mater/slave模式,Spark支持ZooKeeper來實現(xiàn)HA2.構(gòu)造數(shù)據(jù)Schema模式不可以添加數(shù)據(jù)的列名稱。(錯誤)3.SparkStreaming并不支持RDD的所有算子。(錯誤)4.Pipeline被設(shè)計用來管理一系列的階段,每一個階段都由PipelineStage來表示。(正確)5.SparkMLtransformerstransformer(正確四、簡答題1、試述如下Spark的幾個主要概念:RDD、DAG、階段、分區(qū)、窄依賴、寬依賴。答:①RDD:是彈性分布式數(shù)據(jù)集(ResilientDistributedDataset)的英文縮寫,是分布式內(nèi)存的一個抽象概念,提供了一種高度受限的共享內(nèi)存模型。②DAG:DirectedAcyclicGraph()RDD③階段:是作業(yè)的基本調(diào)度單位,一個作業(yè)會分為多組任務(wù),每組任務(wù)被稱為“階段”,或者也被稱為“任務(wù)集”。④分區(qū):一個RDD就是一個分布式對象集合,本質(zhì)上是一個只讀的分區(qū)記錄集合,每個RDD可以分成多個分區(qū),每個分區(qū)就是一個數(shù)據(jù)集片段。⑤窄依賴:父RDD的一個分區(qū)只被一個子RDD的一個分區(qū)所使用就是窄依賴。⑥寬依賴:父RDD的一個分區(qū)被一個子RDD的多個分區(qū)所使用就是寬依賴。2、SparkRDD行動Acto轉(zhuǎn)換Trasfomaton11章一、單選題1、在Linux虛擬機中獲取計算機網(wǎng)卡名稱可使用(B)A.ipconfig B.ifconfig C.interfaces D.networkingrestart2、在Ubuntu虛擬機機中主機名保存在文件(C)中。A./home/hostname B./etc/name C./etc/hostname D./home/name3、ssh服務(wù)端的進程名為(D)A.openssh B.openssl C.ssh D.sshd4、SSH的默認端口是(C)A.2222 B.33 C.22 D.33335、利用遠程機的用戶登錄正確的方法是(A)A.sshomd@00 B.ssh00C.ssh00::22 D.ssh00@omd二、多選題1、在/etc/hosts文件中建立“04slave1”地址映射后,遠程復(fù)制文件的正確語句是(AD)A.scp~/.ssh/authorized_keysslave1:~/.ssh/authorized_keysB.cp~/.ssh/authorized_keysslave1:~/.ssh/authorized_keysC.cp~/.ssh/authorized_keys04:~/.ssh/authorized_keysD.scp~/.ssh/authorized_keys04:~/.ssh/authorized_keys2、Vmware虛擬機中虛擬網(wǎng)卡有哪些連接方式A.接B.地C.NAT模式 D.主模3、在vmware擬中:vmnet0對(A);vmnet1應(yīng)(C);vmnet8對應(yīng)(D)A.接B.地C.NAT模式 D.主模三、簡答題1、簡述橋接模式和NAT模式之間的區(qū)別IPNAT2AB1)使用ssh-keygen-tRSA功能在A、B主機分別創(chuàng)建秘鑰;2)使用mv命令分別修改A、B主機公鑰文件名稱為A.pub和B.pub3)通過scp命令將A.pub和B.pub匯集到A或B主機4)形成許可證文件,通過cat~/.ssh/A.pub>>~/.ssh/authorized_keys和cat~/.ssh/B.pub>>~/.ssh/authorized_keys5)authorized_keys、B6)SSHASSHB12章(一)單選題1、Zookeeper角色分配不包括(B)A.Observer B.protecter C.leader D.follower2、ZookeeperShell命中可顯節(jié)詳信的命是(A)A.getB.setC.create D.stat3、zookeeper配置文件是(B)。A.core-sit.xml B.zoo.cfg C.Hadoop-env.xml D.dfs-sit.xml4、zookeeper集群使用的協(xié)議(C)。A.HTTP/IPB.WEBC.ZABD.ORACLE協(xié)5、zokeeer(CA.B.C.3 D.二、多選題1、zookeeperShell命令有哪些(ABCD)。A.Create B.Delete C.set D.get2、zokeeer集啟在Mater服器入JS命令有些CDA.Namenode B.Datanode C.QuorumPeerMain D.HMaster3、下列屬于zookeeper集群命令有哪些(ABD)A.zkServer.shstart B.zkServer.shstatus C.zkServer.shrestart D.zkServer.shstop4、zookeeper服務(wù)器有哪幾種狀態(tài)(ABCD)。A.競狀B.隨狀C.觀狀D.領(lǐng)者三、簡答題1、根據(jù)自己的理解,回答ZooKeeper是什么,能用來做什么?答:ZooKeeper是一個分布式協(xié)調(diào)系統(tǒng),為分布式服務(wù)提供一致性??梢杂脕碜鲎灾行?,分布式鎖,Master選舉,數(shù)據(jù)的發(fā)布與訂閱等,其實質(zhì)是實現(xiàn)了一個具有多層級的節(jié)點znode命名空間,每個節(jié)點都可以存放數(shù)據(jù)文件系統(tǒng)。2、簡述ZooKeeper選舉機制。答:ZooKeeperServiceIdidid;Zxid事務(wù)id,服務(wù)器中存放的最大數(shù)據(jù)id,越大越新;Epoch邏輯時鐘-投票輪數(shù),遞增的。根據(jù)這個知道是哪一輪的投票;Server選舉狀態(tài)looking選舉中l(wèi)eadingfollowingobserving不參與投票。ZooKeeper1)啟動,先判斷集群是否已經(jīng)有l(wèi)eader了,如果有,就直接作為follower啟動;2)如果處于選舉狀態(tài),每臺機器都在第一輪會投票給自己,并且獲取其他機器的投票信息;3)收集到投票信息后,每臺機器根據(jù)信息,先判斷epoch,輪次大的勝出,然后選舉zxid最大的,如果zxid一樣大,選舉serviceid最大的,并發(fā)起第二輪投票;4)如果超過半數(shù)的選票決出leader,選舉結(jié)束,各個機器更改自己相應(yīng)的狀態(tài)否則重復(fù)第3步。14章單選題1ActieNaNo(AN和ayNaeN()DN(3s,10m)DNblock匯報DN信息2、關(guān)于JournalNode(JN)描述不正確是(C)QuorumJournalNodeManager(QJM)NameNode;ANNJournalNode;JournalNodeNameNodeSNN()QJM3、關(guān)于FailoverController(ZKFC:故障轉(zhuǎn)移控制器)說法正確的是(B)A.當(dāng)集群啟動時,主備節(jié)點的概念是很模糊的,當(dāng)ZKFC檢查到任意一個節(jié)點是健康狀態(tài),直接將其設(shè)置為主節(jié)點。zkfcNNZKFCHANN。4、Hadoop和Hadoop生態(tài)圈的描述中,正確的是()HadoopHadoopHadoopHadoopHadoopHadoopHadoopZooKeeper、Flume、RedisHive、Flink等HadoopHadoop解析A.錯誤,Hadoop生態(tài)圈是指Hadoop框架及其保證其正常高效運行的其他框架B.正確C.錯誤,Redis、Flink不是D.錯誤,Hadoop生態(tài)圈含義大于Hadoop5、在Hadoop集群的配置文件中有如下兩個配置,請問假如集群中有一個節(jié)點宕機,主節(jié)點namenode需要多長時間才能感知到()<property><name>erval</name><value>3</value></property><property><name>erval</name><value>2000</value></property>26秒34秒30秒20秒解析erval:datanode會按照此間隙(單位s)向namenode發(fā)送心跳,默認發(fā)送10次。erval:namenode按照此間隙(單位ms)檢查datanode的相關(guān)進程,默認檢查2次。HDFS集群掉線超時時長的計算公式是:timeout=10*erval+2*erval/1000接下來代入?yún)?shù),套著公式進行計算10*3+2*2000/1000=34秒6eeerN)A.兩臺NN啟動后都會去zk(zookeeper)進行注冊,zk會分配主節(jié)點(Active)和備節(jié)點aB.主NN對外提供服務(wù),備NN同步主NN元數(shù)據(jù),以待切換,通過集群JN(JournalNode)。備用NN也會幫助主NN合并editsLog文件和fsimage產(chǎn)生
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 四川2024年12月四川省內(nèi)江市事業(yè)單位公開選調(diào)2名工作人員筆試歷年典型考題(歷年真題考點)解題思路附帶答案詳解
- 2024年12月山東商業(yè)職業(yè)技術(shù)學(xué)院第二批工作人員(55人)筆試歷年典型考題(歷年真題考點)解題思路附帶答案詳解
- 后勤轉(zhuǎn)正申請書
- 財產(chǎn)保全申請書范本
- 農(nóng)村樁基申請書
- 離婚訴訟申請書
- 出口托收申請書
- 大學(xué)進學(xué)習(xí)部申請書
- 關(guān)于大病救助申請書
- 2025年智能多聯(lián)式空調(diào)機組項目可行性研究報告
- 安徽省合肥市廬陽區(qū)評價2023-2024學(xué)年六年級下學(xué)期小升初數(shù)學(xué)模擬試卷+
- 2024年3月山東省直監(jiān)獄類面試題及參考答案全套
- 新產(chǎn)品研發(fā)工作總結(jié)匯報
- pi粉末成型工藝
- Optix-OSN3500智能化光傳輸設(shè)備業(yè)務(wù)配置手冊范本
- swagelok管接頭安裝培訓(xùn)教程
- 公墓管理考核方案
- 把子肉店創(chuàng)業(yè)計劃書
- 綜合樓裝修改造項目 投標方案(技術(shù)方案)
- 冀教版五年級上冊英語全冊單元測試卷(含期中期末試卷及聽力音頻)
- 靜脈用藥安全輸注藥護專家指引
評論
0/150
提交評論