【MOOC】Spark編程基礎-廈門大學 中國大學慕課MOOC答案_第1頁
【MOOC】Spark編程基礎-廈門大學 中國大學慕課MOOC答案_第2頁
【MOOC】Spark編程基礎-廈門大學 中國大學慕課MOOC答案_第3頁
【MOOC】Spark編程基礎-廈門大學 中國大學慕課MOOC答案_第4頁
【MOOC】Spark編程基礎-廈門大學 中國大學慕課MOOC答案_第5頁
已閱讀5頁,還剩14頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

【MOOC】Spark編程基礎-廈門大學中國大學慕課MOOC答案第1章大數(shù)據(jù)技術概述單元測驗1、【單選題】大數(shù)據(jù)計算模式有以下四種,對電子商務網(wǎng)站購物平臺數(shù)據(jù)的實時分析處理過程屬于哪一種?本題答案:【流計算】2、【單選題】大數(shù)據(jù)技術及其代表性的軟件種類很多,不同的技術有其不同應用場景,都對應著不同的大數(shù)據(jù)計算模式,請問軟件產品Pregel主要應用于以下哪種計算模式?本題答案:【圖計算】3、【單選題】經(jīng)過多年的發(fā)展,Hadoop生態(tài)系統(tǒng)不斷完善和成熟,目前已經(jīng)包含多個子項目,其中YARN的主要功能是?本題答案:【負責集群資源調度管理的組件】4、【單選題】Hadoop生態(tài)系統(tǒng)中用于構建數(shù)據(jù)倉庫并允許用戶輸入SQL語句進行查詢的功能組件是?本題答案:【Hive】5、【單選題】MapReduce的一個基本設計思想是?本題答案:【計算向數(shù)據(jù)靠攏】6、【單選題】Hadoop的生態(tài)系統(tǒng)組件之一Sqoop的功能是?本題答案:【用來在Hadoop和關系數(shù)據(jù)庫之間的交換數(shù)據(jù),改進數(shù)據(jù)的互操作性】7、【單選題】以下哪一項不是Hadoop的缺點?本題答案:【數(shù)據(jù)文件被分布存儲到多臺機器上】8、【單選題】網(wǎng)絡中很多數(shù)據(jù)是以圖的形式呈現(xiàn)的,比如社交網(wǎng)絡、交通事故,現(xiàn)場證據(jù)采集等,為了解決大型圖的分布式計算問題,最適合采用以下哪種計算框架:本題答案:【Pregel】9、【單選題】用戶在使用HDFS時,仍然可以像普通文件系統(tǒng)那樣用文件名去訪問文件,以下哪個選項是正確的訪問方式?本題答案:【把文件名發(fā)送給名稱節(jié)點,根據(jù)文件名在名稱節(jié)點上找到數(shù)據(jù)塊的實際存儲信息,客戶端再到數(shù)據(jù)節(jié)點上獲取數(shù)據(jù)】10、【多選題】大數(shù)據(jù)處理的基本流程有以下哪四個步驟?本題答案:【數(shù)據(jù)采集#存儲管理#處理分析#結果呈現(xiàn)】11、【多選題】目前學術界和業(yè)界比較認可的關于大數(shù)據(jù)的四個特點是?本題答案:【數(shù)據(jù)量大#數(shù)據(jù)類型多#處理速度快#價值密度低】12、【多選題】Hadoop兩大核心組成部分是什么?本題答案:【分布式文件系統(tǒng)HDFS#分布式計算框架MapReduce】13、【多選題】與Hadoop相比,Spark主要有以下哪些優(yōu)點?本題答案:【提供多種數(shù)據(jù)集操作類型而不僅限于MapReduce#提供了內存計算,帶來了更高的迭代運算效率#基于DAG的任務調度執(zhí)行機制】14、【多選題】YARN是負責集群資源調度管理的組件。不同的計算框架統(tǒng)一運行在YARN框架之上,具有哪些優(yōu)點:本題答案:【計算資源按需伸縮#不同負載應用混搭,集群利用率高#共享底層存儲,避免數(shù)據(jù)跨集群遷移#大大降低了運維成本】15、【多選題】關于Hadoop生態(tài)系統(tǒng)中HBase與其它部分的關系,以下說法正確的有:本題答案:【HBase利用MapReduce來處理HBase中的海量數(shù)據(jù),實現(xiàn)高性能計算#利用Zookeeper作為協(xié)同服務,實現(xiàn)穩(wěn)定服務和失敗恢復#使用HDFS作為高可靠的底層存儲,利用廉價集群提供海量數(shù)據(jù)存儲能力#利用Pig和Hive為HBase提供了高層語言支持#使用Sqoop為HBase提供了高效便捷的RDBMS數(shù)據(jù)導入功能】16、【多選題】Spark的設計遵循“一個軟件棧滿足不同應用場景”的理念,逐漸形成了一套完整的生態(tài)系統(tǒng),可以支持以下哪些操作計算:本題答案:【SQL即席查詢(SparkSQL)#流式計算(SparkStreaming)#機器學習(MLlib)#圖計算(GraphX)】17、【多選題】Flink和Spark一樣,都是基于內存的計算框架,都支持流計算,在流式處理方面,以下選項是Flink的主要特點的有:本題答案:【Flink是一行一行地處理數(shù)據(jù)#Flink可以支持毫秒級的響應#Flink支持增量迭代,具有對迭代進行自動優(yōu)化的功能】第2章Scala語言基礎單元測驗1、【單選題】以下哪個選項不是Scala的數(shù)據(jù)類型?本題答案:【Integer,Void】2、【單選題】Scala關于變量定義、賦值,錯誤的是?本題答案:【vala:String=3】3、【單選題】下面四個選項中,哪一個選項中a的取值與其他三個選項不同?本題答案:【vala:Double=1+2】4、【單選題】下面輸出與其他不一致的是?本題答案:【valw=World;println(Hello$w)】5、【單選題】關于元組Tuple說法錯誤的是?本題答案:【元組最多只有2個元素】6、【單選題】以下對集合的描述有誤的是?本題答案:【為了顧及安全性問題,Scala僅支持不可變集合而不支持可變集合】7、【單選題】有關操作符優(yōu)先級的描述不正確的是?本題答案:【+的優(yōu)先級高于!】8、【單選題】對集合(Set)進行操作Set(2,0,1)+1+1-1之后的結果為?本題答案:【Set(2,0)】9、【單選題】如果需要使用scala庫中的sqrt函數(shù),如sqrt(2),下列引用包的方式錯誤的是?本題答案:【importsqrt】10、【單選題】關于輔助構造器,以下說法正確的是?本題答案:【輔助構造器的參數(shù)可以是任意多個】11、【單選題】Scala中,類成員的缺省訪問級別是?本題答案:【public】12、【單選題】以下關于閉包描述錯誤的是?本題答案:【對于defmulBy(factor:Double)=(x:Double)=3*x;valtriple=mulBy(3);,函數(shù)triple是一個閉包】13、【單選題】高階函數(shù)是指?本題答案:【函數(shù)參數(shù)為函數(shù)或返回結果為函數(shù)的函數(shù)】14、【單選題】對于以下代碼描述有誤的是?valdata=Map(1-One,2-Two)valres=for((k,v)-data;if(k1))yieldv本題答案:【運行后res的結果為List(One,Two)】15、【單選題】Scala中,下面的哪個類定義是不正確的?本題答案:【classCounter{varcounter:String}】16、【單選題】以下關于類和單例對象的對比說法正確的是?本題答案:【單例對象不可以帶參數(shù),而類可以】17、【單選題】Scala語言中,關于List的定義,不正確的是?本題答案:【vallist=List[String]('A','B','C')】18、【單選題】對于Map(book-5,pen-2).map(m=m._1-m._2*2)的結果,下面哪個是正確的?本題答案:【Map(book-10,pen-4)】19、【單選題】以下單例對象,定義錯誤的是?本題答案:【objectPerson(PID:String){}】20、【單選題】表達式for(i-1to3;j-1to3;ifi!=j){print((10*i+j));print()}輸出結果正確的是?本題答案:【121321233132】21、【單選題】以下程序段的輸出結果是importutil.control.Breaks._valarray=Array(2,6,10,5,4)for(i-array){breakable{if(i5)breakprintln(i)}}本題答案:【2,5,4】22、【單選題】以下選項說法錯誤的是?abstractclassCar{valcarBrand:Stringdefinfo()defgreeting(){println(“welcome”)}}本題答案:【info和greeting都是Car的抽象方法】23、【單選題】類classCounter{varvalue=0},Scala采用類似Java中的getter和setter方法,value字段默認定義的方法是?本題答案:【value,value_=】24、【單選題】defpw(x:Int):Int={if(x==0)1else2*pw(x-1)},求pw(5)?本題答案:【32】25、【多選題】以下哪些選項屬于Scala的基本特性?本題答案:【是一門類Java的多范式語言#運行于Java虛擬機(JVM)之上,并且兼容現(xiàn)有的Java程序#是一門純粹的面向對象的語言#是一門函數(shù)式語言,支持高階函數(shù),允許嵌套多層函數(shù),并支持柯里化(Currying)】26、【多選題】關于主構造器,以下說法正確的是?本題答案:【主構造器的參數(shù)可以直接放在類名后#主構造器會執(zhí)行類定義中的所有語句#主構造器中可以使用默認參數(shù)】27、【多選題】Scala中,關于包的引用正確的是?本題答案:【包和其成員可以用import#可以引用某個文件夾下的特定文件#可以引用某個文件夾下的所有文件】28、【多選題】Scala里的函數(shù)是“頭等公民”,以下哪些說法是正確的?本題答案:【將函數(shù)賦值給變量#將函數(shù)作為參數(shù)傳遞給其他函數(shù)#將函數(shù)作為其他函數(shù)的返回值】29、【多選題】以下關于特質的說法正確的是?本題答案:【類可以實現(xiàn)任意數(shù)量的特質#特質可以要求實現(xiàn)它們的類具備特定的字段、方法或超類#當將多個特質疊加在一起時,順序很重要,其方法先被執(zhí)行的特質排在更后面】30、【多選題】對于元組valt=(1,3.14,Fred)說法正確的是?本題答案:【t的類型為Tuple3[Int,Double,java.lang.String]#val(first,second,_)=t//second等于3.14#t._0無法訪問,會拋出異?!?1、【多選題】Scala語言中,下面描述正確的是?本題答案:【Scala中,F(xiàn)loat是AnyVal的子類#Scala中,Long是AnyVal的子類】32、【多選題】對于valprices=Map(book-5,pen-2,sticker-1)結果說法正確的是?本題答案:【prices(sticker)//等于1#(prices+(shoes-30))(shoes)//等于30#(prices-pen)(book)//等于5】33、【多選題】Scala中,類和它的伴生對象說法正確的是?本題答案:【類和它的伴生對象定義在同一個文件中#類和它的伴生對象可以互相訪問私有特性】34、【多選題】關于數(shù)組vala=Array(1,2,3)下列說法正確的是?本題答案:【valb=a.map(_*2)//b等于Array(2,4,6)#valb=for(elem-a)yield2*elem//b等于Array(2,4,6)#valb=for(elem-aifelem%2==0)yield2*elem//b等于Array(4)】35、【多選題】關于Scala的類層級結構,以下說法正確的是?本題答案:【AnyVal是所有值類型的父類#Nothing是所有其他類型的子類#Null是所有引用類型的子類】36、【多選題】以下關于Scala各種數(shù)據(jù)結構的說法正確的是?本題答案:【集合(Set)是不重復元素的容器#迭代器(Iterator)是一種提供了按順序訪問容器元素的數(shù)據(jù)結構#列表(List)一旦被定義,其值就不能改變】37、【多選題】valbooks=List(“Hadoop”,”Hive”,”Mapreduce”),以下哪些操作能將字符串全部變成大寫?本題答案:【books.map(s=s.toUpperCase)#for(book-books)yieldbook.toUpperCase#books.map(_.toUpperCase)】38、【多選題】在Scala中,關于Nothing,null,Null,Option,Some,None的說法正確的是?本題答案:【Nothing是所有其他類型的子類,沒有實例,主要用于異常處理函數(shù)的返回類型#null表示一個空對象,可以賦值給任何引用類型#類Option是一個抽象類,有一個具體子類Some和一個對象None,分別表示有值和無值的情況#Null是所有引用類型的子類,其唯一的實例是null】第3章Spark的設計與運行原理單元測驗1、【單選題】以下哪個不是Spark的組件?本題答案:【Flink】2、【單選題】下面哪個不是RDD的特點?本題答案:【可修改】3、【單選題】Task是Executor上的工作單元,運行于下面哪個組件上?本題答案:【W(wǎng)orkerNode】4、【單選題】下面哪個操作肯定是寬依賴?本題答案:【reduceByKey】5、【多選題】以下是Spark的主要特點的有?本題答案:【運行速度快#容易使用,簡潔的API設計有助于用戶輕松構建并行程序#通用性,Spark提供了完整而強大的技術棧#運行模式多樣】6、【多選題】Spark的運行架構包括哪些?本題答案:【集群資源管理器(ClusterManager)#執(zhí)行進程(Executor)#WorkerNode#任務控制節(jié)點DriverProgram】7、【多選題】關于RDD之間的依賴分為窄依賴和寬依賴,以下說法正確的是?本題答案:【存在一個父RDD的一個分區(qū)對應一個子RDD的多個分區(qū),則為寬依賴#存在一個父RDD的一個分區(qū)只被一個子RDD的一個分區(qū)所使用,則為窄依賴】8、【多選題】Spark可以采用幾種不同的部署方式,以下正確的部署方式有?本題答案:【Local#Standalone#SparkonMesos#SparkonYARN】9、【多選題】目前的大數(shù)據(jù)處理典型應用場景可分為哪幾個類型?本題答案:【復雜的批量數(shù)據(jù)處理#基于歷史數(shù)據(jù)的交互式查詢#基于實時數(shù)據(jù)流的數(shù)據(jù)處理】10、【多選題】以下選項中哪些是Spark的優(yōu)點?本題答案:【具有高效的容錯性#可以將中間結果持久化到內存】第4章Spark環(huán)境搭建和使用方法單元測驗1、【單選題】判斷HDFS是否啟動成功,可以通過哪個命令?本題答案:【jps】2、【單選題】spark-shell在啟動時,master-url采用local[*]時,它的含義是?本題答案:【使用與邏輯CPU個數(shù)相同數(shù)量的線程來本地化運行Spark】3、【單選題】下面描述正確的是:本題答案:【Spark是一個分布式計算框架,可以和Hadoop組合使用】4、【多選題】Spark部署模式有哪幾種?本題答案:【Local模式(單機模式)#Standalone模式#YARN模式#Mesos模式】5、【多選題】關于Hadoop和Spark的相互關系,以下說法正確的是?本題答案:【Hadoop和Spark可以相互協(xié)作#Hadoop負責數(shù)據(jù)的存儲和管理#Spark負責數(shù)據(jù)的計算#Spark要操作Hadoop中的數(shù)據(jù),需要先啟動HDFS】6、【多選題】HDFS若啟動成功,系統(tǒng)會列出以下哪些進程?本題答案:【NameNode#DataNode#SecondaryNameNode】7、【多選題】spark-shell在啟動時,采用yarn-client模式時,以下說法正確的是?本題答案:【當用戶提交了作業(yè)之后,不能關掉Client#該模式適合運行交互類型的作業(yè)】8、【多選題】spark-shell在啟動時,采用yarn-cluster模式時,以下說法正確的是?本題答案:【當用戶提交了作業(yè)之后,就可以關掉Client#該模式不適合運行交互類型的作業(yè)】9、【多選題】開發(fā)Spark獨立應用程序的基本步驟通常有哪些?本題答案:【安裝編譯打包工具,如sbt,Maven#編寫Spark應用程序代碼#編譯打包#通過spark-submit運行程序】10、【多選題】集群上運行Spark應用程序的方法步驟有哪些?本題答案:【啟動Hadoop集群#啟動Spark的Master節(jié)點和所有Slave節(jié)點#在集群中運行應用程序JAR包#查看集群信息以獲得應用程序運行的相關信息】第5章RDD編程單元測驗1、【單選題】下面哪個方法是用來從文件系統(tǒng)中加載數(shù)據(jù)創(chuàng)建RDD的本題答案:【textFile()】2、【單選題】以下操作中,哪個不是SparkRDD編程中的操作本題答案:【getLastOne()】3、【單選題】valdata=Array(1,2,3,4,5)valrdd1=sc.parallelize(data)valrdd2=rdd1.map(x=x+10)上述語句執(zhí)行以后,rdd2中的元素是本題答案:【11,12,13,14,15】4、【單選題】valarray=Array(“Hadoopisgood”,”Sparkisfast”,”Sparkisbetter”)vallines=sc.papallelize(array)valwords=lines.flatMap(line=line.split(“”))上述語句執(zhí)行以后,words中的元素是本題答案:【”Hadoop”,”is”,”good”,”Spark”,”is”,”fast”,”Spark”,”is”,”better”】5、【單選題】假設有一個RDD的名稱為words,包含9個元素,分別是:(”Hadoop”,1),(”is”,1),(”good”,1),(”Spark”,1),(”is”,1),(”fast”,1),(”Spark”,1),(”is”,1),(”better”,1)。則語句words.groupByKey()的執(zhí)行結果得到的新的RDD中,所包含的元素是本題答案:【(”Hadoop”,1),(”is”,(1,1,1)),(”good”,1),(”Spark”,(1,1)),(”fast”,1),(”better”,1)】6、【單選題】valrdd=sc.parallelize(Array(1,2,3,4,5))rdd.take(3)上述語句執(zhí)行的結果是本題答案:【Array(1,2,3)】7、【單選題】valrdd=sc.parallelize(Array(1,2,3,4,5))rdd.reduce((a,b)=a+b)上述語句執(zhí)行的結果是本題答案:【15】8、【單選題】有一個鍵值對RDD,名稱為pairRDD,它包含4個元素,分別是(“Hadoop”,1)、(“Spark”,1)、(“Hive”,1)和(“Spark”,1),則pairRDD.reduceByKey((a,b)=a+b)執(zhí)行結果得到的RDD,它里面包含的元素是本題答案:【(“Hadoop”,1),(“Spark”,2),(“Hive”,1)】9、【單選題】valwords=Array(one,two,two,three,three,three)valwordPairsRDD=sc.parallelize(words).map(word=(word,1))valwordCountsWithGroup=wordPairsRDD.groupByKey().map(t=(t._1,t._2.sum))上述語句的執(zhí)行結果wordCountsWithGroup中包含的元素是本題答案:【(“one”,1),(“two”,2),(“three”,3)】10、【單選題】valwords=Array(one,two,two,three,three,three)valwordPairsRDD=sc.parallelize(words).map(word=(word,1))wordCountsWithReduce=wordPairsRDD.reduceByKey(_+_)上述語句的執(zhí)行結果wordCountsWithReduce中包含的元素是本題答案:【(“one”,1),(“two”,2),(“three”,3)】11、【單選題】有一個鍵值對RDD,名稱為pairRDD,包含4個元素,分別是(Hadoop,1)、(Spark,1)、(Hive,1)和(Spark,1),則pairRDD.keys操作得到的RDD中所包含的元素是本題答案:【”Hadoop”,”Spark”,”Hive”,”Spark”】12、【單選題】有一個RDD,名稱為pairRDD,包含4個元素,分別是(Hadoop,1)、(Spark,1)、(Hive,1)和(Spark,1),則pairRDD.values操作得到的RDD中所包含的元素是本題答案:【1,1,1,1】13、【單選題】有一個鍵值對RDD,名稱為pairRDD,包含4個元素,分別是(Hadoop,1)、(Spark,1)、(Hive,1)和(Spark,1),則pairRDD.mapValues(x=x+1)操作得到的RDD中所包含的元素是本題答案:【(Hadoop,2)、(Spark,2)、(Hive,2)和(Spark,2)】14、【單選題】valpairRDD1=sc.parallelize(Array((spark,1),(spark,2),(hadoop,3),(hadoop,5)))valpairRDD2=sc.parallelize(Array((spark,fast)))pairRDD1.join(pairRDD2)上述語句執(zhí)行以后,pairRDD1這個RDD中所包含的元素是本題答案:【(“spark”,(1,”fast”)),(“spark”,(2,”fast”))】15、【多選題】RDD操作包括哪兩種類型本題答案:【轉換(Transformation)#行動(Action)】16、【多選題】以下操作中,哪些是轉換(Transformation)操作本題答案:【filter()#reduceByKey(func)】17、【多選題】以下操作中,哪些是行動(Action)操作本題答案:【collect()#reduce()】18、【多選題】以下關于RDD的持久化的描述,正確的是本題答案:【persist(MEMORY_ONLY):表示將RDD作為反序列化的對象存儲于JVM中,如果內存不足,就要按照LRU原則替換緩存中的內容#persist(MEMORY_AND_DISK):表示將RDD作為反序列化的對象存儲在JVM中,如果內存不足,超出的分區(qū)將會被存放在硬盤上#通過持久化(緩存)機制可以避免重復計算的開銷#使用cache()方法時,會調用persist(MEMORY_ONLY)】19、【多選題】關于RDD分區(qū)的作用,下面描述正確的是本題答案:【增加并行度#減少通信開銷】第6章SparkSQL單元測驗1、【單選題】關于Shark,下面描述正確的是:本題答案:【Shark重用了Hive中的HiveQL解析、邏輯執(zhí)行計劃翻譯、執(zhí)行計劃優(yōu)化等邏輯】2、【單選題】下面關于SparkSQL架構的描述錯誤的是:本題答案:【SparkSQL執(zhí)行計劃生成和優(yōu)化需要依賴Hive來完成】3、【單選題】要把一個DataFrame保存到people.json文件中,下面語句哪個是正確的:本題答案:【df.write.json(people.json)】4、【單選題】以下操作中,哪個不是DataFrame的常用操作:本題答案:【sendto()】5、【多選題】Shark的設計導致了兩個問題:本題答案:【執(zhí)行計劃優(yōu)化完全依賴于Hive,不方便添加新的優(yōu)化策略#Spark是線程級并行,而MapReduce是進程級并行,因此,Spark在兼容Hive的實現(xiàn)上存在線程安全問題,導致Shark不得不使用另外一套獨立維護的、打了補丁的Hive源碼分支】6、【多選題】下面關于為什么推出SparkSQL的原因的描述正確的是:本題答案:【SparkSQL可以提供DataFrameAPI,可以對內部和外部各種數(shù)據(jù)源執(zhí)行各種關系操作#可以支持大量的數(shù)據(jù)源和數(shù)據(jù)分析算法,組合使用SparkSQL和SparkMLlib,可以融合傳統(tǒng)關系數(shù)據(jù)庫的結構化數(shù)據(jù)管理能力和機器學習算法的數(shù)據(jù)處理能力】7、【多選題】下面關于DataFrame的描述正確的是:本題答案:【DataFrame的推出,讓Spark具備了處理大規(guī)模結構化數(shù)據(jù)的能力#DataFrame比原有的RDD轉化方式更加簡單易用,而且獲得了更高的計算性能#Spark能夠輕松實現(xiàn)從MySQL到DataFrame的轉化,并且支持SQL查詢#DataFrame是一種以RDD為基礎的分布式數(shù)據(jù)集,提供了詳細的結構信息】8、【多選題】要讀取people.json文件生成DataFrame,可以使用下面哪些命令:本題答案:【spark.read.json(people.json)#spark.read.format(json).load(people.json)】9、【多選題】從RDD轉換得到DataFrame包含兩種典型方法,分別是:本題答案:【利用反射機制推斷RDD模式#使用編程方式定義RDD模式】10、【多選題】使用編程方式定義RDD模式時,主要包括哪三個步驟:本題答案:【制作“表頭”#制作“表中的記錄”#把“表頭”和“表中的記錄”拼裝在一起】第7章SparkStreaming單元測驗1、【單選題】以下流計算框架中,哪個不是開源的:本題答案:【IBMStreamBase】2、【單選題】下面關于SparkStreaming的描述錯誤的是:本題答案:【SparkStreaming的數(shù)據(jù)抽象是DataFrame】3、【單選題】下面關于SparkStreaming和Storm的描述正確的是:本題答案:【SparkStreaming無法實現(xiàn)毫秒級的流計算,而Storm可以實現(xiàn)毫秒級響應】4、【單選題】下面描述錯誤的是:本題答案:【在SparkSQL編程中需要生成一個StreamingContext對象】5、【單選題】下面不屬于SparkStreaming基本輸入源的是:本題答案:【雙向數(shù)據(jù)流】6、【多選題】以下關于流數(shù)據(jù)特征的描述,哪些是正確的:本題答案:【數(shù)據(jù)快速持續(xù)到達,潛在大小也許是無窮無盡的#數(shù)據(jù)來源眾多,格式復雜#數(shù)據(jù)量大,但是不十分關注存儲,一旦流數(shù)據(jù)中的某個元素經(jīng)過處理,要么被丟棄,要么被歸檔存儲#數(shù)據(jù)順序顛倒,或者不完整,系統(tǒng)無法控制將要處理的新到達的數(shù)據(jù)元素的順序】7、【多選題】流計算處理流程一般包括哪三個階段:本題答案:【數(shù)據(jù)實時采集#數(shù)據(jù)實時計算#實時查詢服務】8、【多選題】以下產品哪些屬于日志采集組件:本題答案:【Scribe#Flume】9、【多選題】流處理系統(tǒng)與傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)的不同之處在于:本題答案:【流處理系統(tǒng)處理的是實時的數(shù)據(jù),而傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)處理的是預先存儲好的靜態(tài)數(shù)據(jù)#用戶通過流處理系統(tǒng)獲取的是實時結果,而通過傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)獲取的是過去某一時刻的結果#流處理系統(tǒng)無需用戶主動發(fā)出查詢,實時查詢服務可以主動將實時結果推送給用戶】10、【多選題】編寫SparkStreaming程序的基本步驟包括:本題答案:【通過創(chuàng)建輸入DStream(InputDstream)來定義輸入源#通過對DStream應用轉換操作和輸出操作來定義流計算#調用StreamingContext對象的start()方法來開始接收數(shù)據(jù)和處理流程#通過調用StreamingContext對象的awaitTermination()方法來等待流計算進程結束】11、【多選題】DStream有狀態(tài)轉換操作包括哪兩種:本題答案:【滑動窗口轉換操作#updateStateByKey操作】第8章SparkMLlib單元測驗1、【單選題】下面論述中錯誤的是:本題答案:【機器學習和人工智能是不存在關聯(lián)關系的兩個獨立領域】2、【單選題】下面關于機器學習處理過程的描述,錯誤的是:本題答案:【通過算法構建出的模型不需要評估就可以用于其他數(shù)據(jù)的測試】3、【單選題】下面關于機器學習流水線(PipeLine)的描述,錯誤的是:本題答案:【流水線構建好以后,就是一個轉換器(Transformer)】4、【單選題】下面關于評估器(Estimator)的描述錯誤的是:本題答案:【評估器實現(xiàn)了方法transfrom(),它接受一個DataFrame并產生一個轉換器】5、【單選題】下面關于轉換器(Transformer)的描述錯誤的是:本題答案:【技術上,轉換器實現(xiàn)了一個方法fit(),它通過附加一個或多個列,將一個DataFrame轉換為另一個DataFrame】6、【多選題】下面的論述中,正確的是:本題答案:【傳統(tǒng)的機器學習算法,由于技術和單機存儲的限制,大多只能在少量數(shù)據(jù)上使用#利用MapReduce框架在全量數(shù)據(jù)上進行機器學習,這在一定程度上解決了統(tǒng)計隨機性的問題,提高了機器學習的精度】7、【多選題】下面關于SparkMLlib庫的描述正確的是:本題答案:【MLlib庫從1.2版本以后分為兩個包:spark.mllib和spark.ml#spark.mllib包含基于RDD的原始算法API】8、【多選題】下面論述中正確的是:本題答案:【DataFrame可容納各種數(shù)據(jù)類型,與RDD數(shù)據(jù)集相比,它包含了模式(schema)信息,類似于傳統(tǒng)數(shù)據(jù)庫中的二維表格#流水線用DataFrame來存儲源數(shù)據(jù)#轉換器(Transformer)是一種可以將一個DataFrame轉換為另一個DataFrame的算法】《Spark編程基礎》期末考試1、【單選題】大數(shù)據(jù)技術及其代表性的軟件種類很多,不同的技術有其不同應用場景,都對應著不同的大數(shù)據(jù)計算模式,請問軟件產品Storm主要應用于以下哪種計算模式:本題答案:【流計算】2、【單選題】經(jīng)過多年的發(fā)展,Hadoop生態(tài)系統(tǒng)不斷完善和成熟,目前已經(jīng)包含多個子項目,其中YARN的主要功能是本題答案:【負責集群資源調度管理的組件】3、【單選題】Hadoop生態(tài)系統(tǒng)中用于構建數(shù)據(jù)倉庫并允許用戶輸入SQL語句進行查詢的功能組件是本題答案:【Hive】4、【單選題】Hadoop的生態(tài)系統(tǒng)組件之一Sqoop的功能是本題答案:【用來在Hadoop和關系數(shù)據(jù)庫之間的交換數(shù)據(jù),改進數(shù)據(jù)的互操作性】5、【單選題】下面輸出與其他不一致的是本題答案:【valw=World;println(Hello$w)】6、【單選題】對集合(Set)進行操作Set(2,0,1)+1+1-1之后的結果為本題答案:【Set(2,0)】7、【單選題】關于Map(book-5,pen-2).map(m=m._1-m._2*2)的結果,以下哪個是正確的本題答案:【Map(book-10,pen-4)】8、【單選題】關于元組Tuple說法錯誤的是本題答案:【元組最多只有2個元素】9、【單選題】以下對集合的描述有誤的是本題答案:【為了顧及安全性問題,Scala僅支持不可變集合,而不支持可變集合】10、【單選題】如果需要使用Scala庫中的sqrt函數(shù),如sqrt(2),下列引用包的方式錯誤的是本題答案:【importsqrt】11、【單選題】以下哪個不是Spark的組件?本題答案:【Flink】12、【單選題】Task是Executor上的工作單元,運行于下面哪個組件上?本題答案:【W(wǎng)orkerNode】13、【單選題】下面哪個不是RDD的特點:本題答案:【可修改】14、【單選題】spark-shell在啟動時,master-url采用local[*]時,它的含義是:本題答案:【使用與邏輯CPU個數(shù)相同數(shù)量的線程來本地化運行Spark】15、【單選題】下面描述正確的是本題答案:【Spark是一個分布式計算框架,可以和Hadoop組合使用】16、【單選題】valarray=Array(“Hadoopisgood”,”Sparkisfast”,”Sparkisbetter”)vallines=sc.papallelize(array)valwords=lines.flatMap(line=line.split(“”))上述語句執(zhí)行以后,words中的元素是:本題答案:【”Hadoop”,”is”,”good”,”Spark”,”is”,”fast”,”Spark”,”is”,”better”】17、【單選題】valrdd=sc.parallelize(Array(1,2,3,4,5))rdd.reduce((a,b)=a+b)上述語句執(zhí)行的結果是:本題答案:【15】18、【單選題】下面哪個方法是用來從文件系統(tǒng)中加載數(shù)據(jù)創(chuàng)建RDD的:本題答案:【textFile()】19、【單選題】假設有一個RDD的名稱為words,包含9個元素,分別是:(”Hadoop”,1),(”is”,1),(”good”,1),(”Spark”,1),(”is”,1),(”fast”,1),(”Spark”,1),(”is”,1),(”better”,1)。則語句words.groupByKey()的執(zhí)行結果得到的新的RDD中,所包含的元素是本題答案:【(”Hadoop”,1),(”is”,(1,1,1)),(”good”,1),(”Spark”,(1,1)),(”fast”,1),(”better”,1)】20、【單選題】valrdd=sc.parallelize(Array(1,2,3,4,5))rdd.take(3)上述語句執(zhí)行的結果是:本題答案:【Array(1,2,3)】21、【單選題】valwords=Array(one,two,two,three,three,three)valwordPairsRDD=sc.parallelize(words).map(word=(word,1))valwordCountsWithGroup=wordPairsRDD.groupByKey().map(t=(t._1,t._2.sum))上述語句的執(zhí)行結果wordCountsWithGroup中包含的元素是:本題答案:【(“one”,1),(“two”,2),(“three”,3)】22、【單選題】要把一個DataFrame保存到people.json文件中,下面語句哪個是正確的本題答案:【df.write.json(people.json)】23、【單選題】關于Shark,下面描述正確的是:本題答案:【Shark重用了Hive中的HiveQL解析、邏輯執(zhí)行計劃翻譯、執(zhí)行計劃優(yōu)化等邏輯】24、【單選題】下面關于SparkSQL架構的描述錯誤的是:本題答案:【SparkSQL執(zhí)行計劃生成和優(yōu)化需要依賴Hive來完成】25、【單選題】以下操作中,哪個不是DataFrame的常用操作:本題答案:【sendto()】26、【單選題】下面關于SparkStreaming的描述錯誤的是:本題答案:【SparkStreaming的數(shù)據(jù)抽象是DataFrame.】27、【單選題】下面描述錯誤的是:本題答案:【在SparkSQL編程中需要生成一個StreamingContext對象】28、【單選題】以下流計算框架中,哪個不是開源的:本題答案:【IBMStreamBase】29、【單選題】下面論述中錯誤的是本題答案:【機器學習和人工智能是不存在關聯(lián)關系的兩個獨立領域】

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論