第16章 分布式內(nèi)存計算平臺Spark-習(xí)題答案_第1頁
第16章 分布式內(nèi)存計算平臺Spark-習(xí)題答案_第2頁
第16章 分布式內(nèi)存計算平臺Spark-習(xí)題答案_第3頁
第16章 分布式內(nèi)存計算平臺Spark-習(xí)題答案_第4頁
第16章 分布式內(nèi)存計算平臺Spark-習(xí)題答案_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第16章分布式內(nèi)存計算平臺Spark習(xí)題16.1選擇題Spark是Hadoop生態(tài)(B)組件的替代方案。A.HadoopD.HDFSB.MapReduceC.YamA.HadoopD.HDFS2、以下(DA.Driver)不是Spark的主要組件。B.SparkContextC.ClusterManagerD.ResourceManager3、Spark中的Executor是(A)o2、以下(DA.Driver)不是Spark的主要組件。B.SparkContextC.ClusterManagerD.ResourceManager3、Spark中的Executor是(A)oA.執(zhí)行器B.主節(jié)點C.從節(jié)點D.上下文6、下面(D)不是Spark的四大組件之一。A.SparkStreamingC.SparkGraphXScala屬于哪種編程語言(CA.匯編語言C.函數(shù)式編程語言B.D.B.D.SparkMLlibSparkR機器語言多范式編程語言Spark組件中,SparkContext是應(yīng)用的(C),控制應(yīng)用的生命周期。A.主節(jié)點C.上下文B.D.從節(jié)點

執(zhí)行器以下(D)不是Spark的主要組件。TaskSchedulerMultiSchedulerTaskSchedulerMultiSchedulerC.SparkContext D.Spark組件中,ClusterManager是(B)。A.從節(jié)點 B.主節(jié)點C.執(zhí)行器 D.上下文關(guān)于Spark中的RDD說法不正確的是(B)。A.是彈性分布式數(shù)據(jù)集 B.是可讀可寫分區(qū)的集合C.存在容錯機制 D.是Spark中最基本的數(shù)據(jù)抽象10.GraphX的BSP計算模型中,一個超步中的內(nèi)容不包括(C九A.計算 B.消息傳遞C.緩存 D.整體同步點16.2填空題1、內(nèi)存計算主要用于處理(數(shù)據(jù)密集型)的計算任務(wù),尤其是數(shù)據(jù)量極大且需要實時分析處理的應(yīng)用。2、 Ignite是一個可擴展的、(容飴性好的)分布式內(nèi)存計算平臺。3、 RDD通過一種名為(血統(tǒng))的容錯機制進行錯誤的時的數(shù)據(jù)恢復(fù)。4、 數(shù)據(jù)分析棧BDAS包括(SparkSQL)、(SparkStreaming)、(SparkGraphX)、 (MLlib)四個部分。5、 SparkStreaming是建立在Spark±的( 實時計算)框架,提供了豐富的API、基于內(nèi)存的高速執(zhí)行引擎,用戶可以結(jié)合流式、批處理進行交互式査詢應(yīng)用16.3簡答題1、 在硬件、軟件、應(yīng)用與體系等方面,內(nèi)存計算有哪些主要特性?答:在硬件方面,需要大容量的內(nèi)存,以便盡量將待處理的數(shù)據(jù)全部存放在內(nèi)存中,內(nèi)存可以是單機內(nèi)存或分布式內(nèi)存,且內(nèi)存要足夠大。在軟件方面,需要有良好的編程模型和編程接口。在應(yīng)用方面,主要面向數(shù)據(jù)密集型應(yīng)用,數(shù)據(jù)規(guī)模大、對實時處理性能要求高。?在體系方面,需要支持并行處理數(shù)據(jù)。2、 請與MapReduce相比,Spark的優(yōu)勢有哪些?答:中間結(jié)果可輸出?;贛apReduce的計算模型會將中間結(jié)果序列化到磁盤上,而Spark將執(zhí)行模型抽象為通用的有向無環(huán)圖,可以將中間結(jié)果緩存在內(nèi)存中。數(shù)據(jù)格式和內(nèi)存布局oSpark抽象出分布式內(nèi)存存儲結(jié)構(gòu)RDD,用于進行數(shù)據(jù)存儲。Spark能夠控制數(shù)據(jù)在不同節(jié)點上的分區(qū),用戶可以自定義分區(qū)策略。執(zhí)行策略。MapReduce在數(shù)據(jù)Shuffle之前總是花費大量時間來排序,Spark支持基于Hash的分布式聚合,Spark默認Shuffle已經(jīng)改為基于排序的方式。任務(wù)調(diào)度的開銷。當(dāng)MapReduce上不同的作業(yè)在同一個節(jié)點運行時,會各自啟動?個Java虛擬機(JavaVirtualMachine,JVM);Spark同一節(jié)點的所有任務(wù)都可以在一個JVM上運行。編程模型。MapReduce僅僅提供了Map和Reduce兩個計算原語,需要將數(shù)據(jù)處理操作轉(zhuǎn)化為Map和Reduce操作,在一定程度增加了編程難度;Spark則提供了豐富的輸出處理算子,實現(xiàn)了分布式大數(shù)據(jù)處理的髙層次抽象。統(tǒng)一數(shù)據(jù)處理。Spark框架為批處理(SparkCore)、交互式(SparkSQL)>流式(SparkStreaming).機器學(xué)習(xí)(MLlib)、圖計算(GraphX)等計算任務(wù)提供一個統(tǒng)一■的數(shù)據(jù)處理平臺,各組件間可以共享數(shù)據(jù)。3、 請描述Pregel計算模型的缺點或局限。答:在圖的劃分上,釆用的是簡單的Hash方式,這樣固然能夠滿足負載均衡,但Hash方式并不能根據(jù)圖的連通特性進行劃分,導(dǎo)致超步之間的消息傳遞開銷影響性能。

簡單的Checkpoint機制只能將狀態(tài)恢復(fù)到當(dāng)前超步的幾個超步之前,要到當(dāng)前超步還需要重復(fù)計算。BSP計算模型本身有其局限性,整體同步并行對于計算速度快的Worker,長期等待的問題無法解決。由于Pregel目前的計算狀態(tài)都是常駐內(nèi)存的,對丁?規(guī)模繼續(xù)増大的圖處理可能會導(dǎo)致內(nèi)存不足。4、請簡要描述函數(shù)式編程中尾遞歸的含義。答:尾遞歸是遞歸的一種優(yōu)化方法。遞歸的空間效率很低,當(dāng)遞歸深度很深時,容易產(chǎn)生棧溢出的情況。尾遞歸就是將遞歸語句寫在函數(shù)的最底部,這樣在每次調(diào)用尾遞歸時,就不需要保存當(dāng)前狀態(tài)值,可以直接把當(dāng)前的狀態(tài)值傳遞給下次一次調(diào)用,然后清空當(dāng)前的狀態(tài)。占用的??臻g就是常量值,不會出現(xiàn)棧溢出的情況。16.4解答題1、根據(jù)用戶手機上網(wǎng)的行為記錄,基于Spark設(shè)計程序來分別統(tǒng)計不同設(shè)備的用戶使用的上行總流量以及下行總流量。其中,數(shù)據(jù)記錄的字段描述如下。序號字段字段類型描述0reportTimelong記錄報告時間戳1deviceldString手機號碼2upPackNumlong上行數(shù)據(jù)包數(shù),單位:個3downPackNumlong下行數(shù)據(jù)包總數(shù),單位:個數(shù)據(jù)文件的具體內(nèi)容(一部分)如卜.:145430739116177e3c9e1811d4fb291d0d9bbd456bb4b79976114961454315971161fi)2ecf8e076d44b89f2d070fbIdf7197952918909214543043311613de7d6514f1d4ac790c630fa63d8d0be57029502281454303131161dd382d2a20464a74bbb7414c429ac45220428145430739116177e3c9e1811d4fb291d0d9bbd456bb4b79976114961454315971161fi)2ecf8e076d44b89f2d070fbIdf7197952918909214543043311613de7d6514f1d4ac790c630fa63d8d0be57029502281454303131161dd382d2a20464a74bbb7414c429ac45220428934671454319991161bb2956150d6741df875fbcca76ae9e7c5199457706答:Step!:將SparkConf封裝在一個類中。importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaSparkContext;publicclassCommSparkContext{publicstaticJavaSparkContextgetsc(){newSparkConf sparkConf -newSparkConfO.setAppNameC'CommSparkContext'^.setMasterC'local");returnnewJavaSparkContext(sparkConf);Step2:自定義數(shù)據(jù)類型Loginfoimportjava.io.Serializable;publicclassLoglnfbimplementsSerializable{privatelongtimeStamp;privatelongupTraffic;privatelongdownTraffic;publiclonggetTimeStampO{returntimeStamp;}publicvoidsetTimeStame(longtimeStame){this.timeStamp=timeStame;}publiclonggetUpTrafficO{returnupTraffic;}publicvoidsetUpTraffic(longupTraffic){this.upTraffic=upTraffic;}publiclonggetDownTraffic(){returndownTraffic;}publicvoidsetDownTraffic(longdownTraffic){this.downTraffic=downTraffic;}publicLoglnfo()(publicLoglnfb(longtimeStame,longupTraffic,longdownTraffic){this.timeStamp=timeStame;this.upTraffic=upTraffic;this.downTraffic=downTraffic;Step3:自定義key排序類LogSortimportscala.Serializable;importscala.math.Ordered;publicclassLogSortextendsLoginfoimplementsOrdered<LogSort>,Serializable{privatelongtimeStamp;privatelongupTraffic;privatelongdownTraffic;(?OverridepubliclonggetTimeStampO{returntimeStamp;}publicvoidsetTimeStamp(longtimeStamp)(this.timeStamp=timeStamp;}@OverridepubliclonggetUpTrafficO{returnupTraffic;}@OverridepublicvoidsetUpTraffic(longupTraffic){this.upTraffic=upTraffic;}(?OverridepubliclonggetDownTraffic(){returndownTraffic;}?OverridepublicvoidsetDownTraffic(longdownTraffic){this.downTraffic=downTraffic;}publicLogSort()(}publicLogSort(longtimeStamp,longupTraffic,longdownTraffic){this.timeStamp=timeStamp;this.upTraffic=upTraffic;this.downTraffic=downTraffic;publicintcompare(LogSortthat){intcomp=Long.valueOf(this.getUpTraffic()).compareTb(that.getUpTraffic());if(comp==()){comp=Long.valueOf(this.getDownTraffic()).compareTb(that.getDownTraffic());}if(comp==0)(comp=Long.valueOf(this.getTimeStamp()).compareTo(that.getTimeStamp());}returncomp;}publicboolean$less(LogSortthat){returnfalse;}publicboolean$greater(LogSortthat)(returnfalse;}publicboolean$less$eq(LogSortthat){returnfalse;}publicboolean$greater$eq(LogSortthat){returnfalse;publicintcompareTo(LogSortthat){intcomp=Long.valueOf(this.getUpTraffic()).compareTo(that.getUpTraffic());if(comp==0){comp=Long.valueOf(this.getDownTraffic()).comparelb(that.getDownTraffic());}if(comp==0){comp=Long.valueOf(this.getTimeStamp()).compareTo(that.geiTimeStamp());}returncomp;Siep4:定義主類importmon.CommSparkContext;importorg.apache.spark.api.java.JavaPairRDD;importorg.apache.spark.api.java.JavaRDD;importorg.apache.spark.api.java.JavaSparkContext;importorg.apache.spark.api.java.function.Function?;importorg.apache.spark.api.java.function.PairFunction;importscala/I'uple2;importjava.util.List;publicclassLogApp{publicstaticJavaPairRDD<String,LogInfo>mapToPairValues(JavaRDEXSlring>rdd){JavaPairRDD<String,LogInfo>mapToPairRdd= rdd.mapToPair(newPairFunction<S(ring,String,Loglnfb>(){publicTuple2<String,Loglnfo>call(Stringline)throwsException{longtimeStamp=Long.parseLong(line.split("\t")[0]);Stringdiviceld=String.valueOf(line.split("\t")[1]);longupTraffic=Long.parseLong(line.split("\t")[2]);longdownTraffic=Long.parseLong(line.split("\t")[3]);Loginfologinfb=newLogInfb(limeStamp,upTraffic,downTraffic);returnnewTuple2<String,Loglnfb>(diviceld,loglnfb);}I);returnmapToPairRdd;}public static JavaPairRDD<Slring,LogInfo>reduceByKeyValues(JavaPairRDD<String,LogInfo>mapPairRdd){JavaPairRDD<String,LogInfb>reduceByKeyRdd=m叩PairRdd.reduceByKey(newFunction2<LogInfb,Loginfo,Loglnfo>(){publicLoginfocall(LogInfbvl,Loglnfbv2)throwsException{longtimeStamp=Math.min(v1.getTimeStampO,v2.getTimeStamp());longupTraffic=vl.getUpTraffic()+v2.getUpTraffic();longdownTraffic=vl.geiDownTraffic()+v2.geiDownTraffic();Loglnfbloglnfb=newLoglnfb。;loglnfo.setTimeStame(timeStamp);loglnfo.setUpTraffic(upTraffic);loginfo.setDownTraffic(downTraffic);returnloglnfb;});returnreduceByKeyRdd;public static JavaPairRDEXLogSort,String〉mapToPairSortVaiues(JavaPairRDD<String.LogInfo>aggregateByKeyRdd)(JavaPairRDD<LogSort,String> mapToPairSortRdd =aggregateByKeyRdd.niapTbPair(newPairFunction<Tuple2<String,Loglnfd>,LogSort,String>(){publicTupIe2<LogSort,String>call(Tuple2<String,Loglnfo>stringLoglnfbTuple2)throwsException{Stringdiviceld=stringLogInfoTuple2._l;longtimeStamp=stringLoglnf6Tuple2._2.getTimeStamp();longupTraffic=stringLogInfoTuple2._2.getUpTraffic();longdownTraffic=stringLogInfbTuple2._2.getDownTraffic();LogSortlogSort=newLogSort(limeStamp,upTraffic,downTraffic);returnnewTuple2<LogSort,String>(logSort,diviceld);}I);returnmapToPairSortRdd;}publicstaticvoidmain(String[]args)(JavaSparkContextsc=CommSparkContext.getscO;JavaRDD<String>rdd=sc.textFile("{文件路徑},//rddmap()-><diviceId,LogInfo(timeStamp,upTraffic,downTraffic)>JavaPairRDD<String,LogInfb>mapToPairRdd=mapToPairValues(rdd);TOC\o"1-5"\h\z// mapToPairRdd reduceByKeyO -><diviceId,LogInfo(timeStamp,upTraffic,downTraffic)>JavaPairRDD<String,LogInfo> reduceByKeyRdd =reduceByKeyValues(mapToPairRdd);//reduceByKeyRddmap()-><LogSort(timeStamp,upTraffic.downTraffic),diviceld>JavaPairRDD<LogSort, String> mapToPairSortRdd =mapToPairSortValues(reduceByKeyRdd);//sortByKeyJavaPairRDD<LogSort,String> sortByKeyValues =mapToPairSortRdd.sortByKey(false);//TopNList<ruple2<LogSort,String?sortKeyList=sortByKeyValues.take(10);for(Tuple2<LogSort,String>logSortStringTuple2:sortKeyList){System.out.println(logSortStringTuple2._2+ " :logSortStringTuple2._1.getUpTraffic()+":"+logSortStringTuple2._1.getDownTrafficO);Step5:使用maven將程序打包成jar包S(ep6:將數(shù)據(jù)文件上傳到hdfsStep7:運行jar包,進行SPARK_HOME/bin目錄下,執(zhí)行下面的操作,/spark-submit-classLogApp-masterspark://master:7077{jar包位置}{hdfs文件地址}{結(jié)果輸出的地址}Step8:查看結(jié)果eRle893d9c254e549f740d9613b3421c:1036288:62902584da30d2697042ca9a6835f6ccec6024:930018:73745394055312ellc464d8bbl6f21e4d607c6:827278:897382C2a24d73d77d4984a1d88ea3330aa4c5:826817:9432976e535645436f4926be1ee6e823dfd9d2:806761:61367092f78b79738948bea0d27178bb€c5f3a:761462:5678991cca6591b6aa4033a190154db54a8087:750069:696854f92ecfHe076<J44b89f2d070fbldf7197:740234:779789e6164ce7a908476a94502303328b26e8:722636:513737537ec845bb4b405d9bf13975c4408b41:709045:642202第6章云計算節(jié)能技術(shù)習(xí)題6.1選擇題1、 云數(shù)據(jù)中心的能耗組成包含(D)。①服務(wù)器集群的能耗②網(wǎng)絡(luò)設(shè)施的能耗③存儲設(shè)備的能耗④供電設(shè)備的能耗A.①②③ B. C.??? D.??@?2、 云數(shù)據(jù)中心的主要評價指標(biāo)點不包括(C)。A,可靠性 B.能效C.規(guī)模 D,碳排放3、(A)是國內(nèi)外云數(shù)據(jù)中心普遍接受和釆用的一種衡量云數(shù)據(jù)中心基礎(chǔ)設(shè)施能效的指標(biāo),其值為云數(shù)據(jù)中心的總耗電量除以IT設(shè)備的耗電量。A.PUEB.DCEPC.CUED.WUE4、針對云計算等信息系統(tǒng),下列選項中(D)不是節(jié)能優(yōu)化相關(guān)技術(shù)。A.關(guān)閉技術(shù)B.休眠技術(shù)C.動態(tài)電壓頻率調(diào)節(jié)技術(shù)D.虛擬設(shè)備技術(shù)5、有序數(shù)據(jù)聚集流程步驟不包括(B)。A.數(shù)據(jù)遷移B.數(shù)據(jù)壓縮C.節(jié)點部署D.數(shù)據(jù)備份6、下列選項中,(D)不是典型的重復(fù)數(shù)據(jù)刪除技術(shù)。A.文件切分B.指紋值計算C.數(shù)據(jù)存儲D.數(shù)據(jù)淸洗7、下列選項中,(C)不是重復(fù)數(shù)據(jù)刪除的主要策略。A.分塊方法B.分塊粒度C.數(shù)據(jù)多樣性D.元數(shù)據(jù)處理8、下列選項中,(C)主要承擔(dān)同步備份元數(shù)據(jù)的鏡像文件和操作日志的工作。A.客戶端B.元數(shù)據(jù)服務(wù)器C.二級元數(shù)據(jù)服務(wù)器D.存儲節(jié)點6.2填空題1、 PUE的實際含義是計算在提供給云數(shù)據(jù)中心的總電能中,有多少電能是真正用到了(IT設(shè)備)上。PUE值的取值范圍一般為([1.0,oo))o2、 云數(shù)據(jù)中心必須配備可以調(diào)節(jié)(溫度)和(濕度)的環(huán)境控制設(shè)施,以確保云數(shù)據(jù)中心能正常運行。3、 重復(fù)數(shù)據(jù)刪除技術(shù)通過比對數(shù)據(jù)的指紋值等唯一特征,相同的數(shù)據(jù)僅保留一份,其目的是消除(數(shù)據(jù)冗余)和降低存儲容量需求6.3簡答題1、 目前云數(shù)據(jù)中心的主要評價指標(biāo)點有哪些?答:云數(shù)據(jù)中心的主要評價指標(biāo)點包括:可靠性、能效、碳排放、水資源、土地資源、污染排放、資源回收利用。2、 實現(xiàn)綠色云數(shù)據(jù)中心,可以從哪些方面入手?答:基礎(chǔ)設(shè)施:嘗試不斷引入節(jié)能環(huán)保新技術(shù),采用高能效的基礎(chǔ)設(shè)施來支撐綠色云數(shù)據(jù)中心的部署。IT設(shè)備:降低計算設(shè)備在計算過程中的能耗,可以從源頭上提高IT設(shè)備的能源利用率。能源利用率:利用匯聚技術(shù)和虛擬化技術(shù)提高綠色云數(shù)據(jù)中心的能源利用率,可以有效提高云數(shù)據(jù)中心的整體能效。能耗管理:實時、全面地監(jiān)控整個云數(shù)據(jù)中心乃至網(wǎng)絡(luò)的能耗情況,對每天產(chǎn)生的海量能耗數(shù)據(jù)進行多維度的分析,并給出合理的節(jié)能建議,設(shè)計有針對性的能效優(yōu)化策略。3、針對云計算等信息系統(tǒng),目前主要采用的節(jié)能優(yōu)化技術(shù)包括哪些?答:主要采用的節(jié)能優(yōu)化技術(shù)包括低功耗硬件、關(guān)閉/休眠技術(shù)、動態(tài)電壓頻率調(diào)節(jié)技術(shù)、綠色網(wǎng)絡(luò)通信、溫控節(jié)能技術(shù)、虛擬化技術(shù)、資源配置、節(jié)能調(diào)度技術(shù)、綠色數(shù)據(jù)部署機制。6.4解答題1、請闡述分析綠色計算的技術(shù)內(nèi)涵。答:綠色計算順應(yīng)低碳社會建設(shè)的需求,是推動社會可持續(xù)發(fā)展和科技進步的一個重要方面。本著對環(huán)境負責(zé)的原則使用計算機及相關(guān)資源的行為,綠色計算(GreenComputing)強調(diào)減少資源消耗,妥善處理電子垃圾。綠色計算涉及系統(tǒng)結(jié)構(gòu)、系統(tǒng)軟件、并行分布式計算及計算機網(wǎng)絡(luò),以保證計算系統(tǒng)的高效、可靠及提供普適化服務(wù)為前提,以計算系統(tǒng)的低能耗為目標(biāo),強調(diào)釆用高效節(jié)能的CPU、服務(wù)器和外圍設(shè)備,是面向新型計算機體系結(jié)構(gòu)和包括云計算在內(nèi)的新型計算模型,通過構(gòu)建能耗感知的計算系統(tǒng)、網(wǎng)絡(luò)互聯(lián)環(huán)境和計算服務(wù)體系,為日益普適的個性化、多樣化信息服務(wù)提供低能耗的支撐環(huán)境。2、請闡述用虛擬化技術(shù)來實現(xiàn)云計算節(jié)能的原理以及存在的問題。答:虛擬化技術(shù)是實現(xiàn)云計算節(jié)能的一種重要方式。虛擬化技術(shù)通過將物理資源抽象為虛擬資源的方式,可在一臺物理主機上虛擬出多臺虛擬機,將若干個任務(wù)分配到這些虛擬機上運行,可?通過提高主機資源的利用率來減少所需主機的數(shù)量,從而降低能耗。另外,利用虛擬機遷移技術(shù),可實現(xiàn)虛擬機的聚集,從而為關(guān)閉/休眠技術(shù)提供支持。虛擬化本身要付出較高的能效代價,且虛擬化的層次越深能耗代價越高,因此僅釆用現(xiàn)有的虛擬化技術(shù),在云計算系統(tǒng)性能和能效方面的優(yōu)化效果是有限的?,F(xiàn)有的虛擬機管理器不能與其上層支撐的多操作系統(tǒng)相互傳遞能耗特征,也不能感知上層應(yīng)用的負載和運行狀況,導(dǎo)致在進行任務(wù)調(diào)度時的能效比不能令人滿意。第7章大數(shù)據(jù)概覽習(xí)題7.1選擇題1、下列說法錯誤的是(B數(shù)據(jù)是指對客觀事件進行記錄并可以鑒別的符號信息是數(shù)據(jù)的表現(xiàn)形式和載體數(shù)據(jù)只有在傳遞的過程中才能夠被稱為信息信息的時效性對于信息的使用和傳遞具有重要的意義2、 從數(shù)據(jù)的表現(xiàn)形式看,大數(shù)據(jù)的主要典型特征有(A)o①海量②多樣③快速④價值A(chǔ).①②③④ B.②③④ C.①③④ D.①②④3、 以下(B)不是大數(shù)據(jù)生命周期的主要組成部分。A.數(shù)據(jù)釆集 B.數(shù)據(jù)壓縮 C.數(shù)據(jù)處理 D.結(jié)果可視化4、 目前大數(shù)據(jù)平臺主要包括大數(shù)據(jù)釆集平臺、大數(shù)據(jù)批處理平臺、流數(shù)據(jù)處理平臺、內(nèi)存計算平臺和深度學(xué)習(xí)平臺等;以下(C)屬于流數(shù)據(jù)處理平臺。A.Hadoop B.PytorchC.Storm D.TensorFlow5、 Nutch是釆用(D)語言編寫的具有高可擴展性的搜索引擎。A.PytorchB.C C.BASICD.Java7.2填空題1、 數(shù)據(jù)(可視化)指通過圖形化的方式,以一種直觀、便于理解的形式展示數(shù)據(jù)及分析結(jié)果的方法。2、 ( 深度學(xué)習(xí) )通過建立進行分析學(xué)習(xí)的多層次深度神經(jīng)網(wǎng)絡(luò),組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。3、 Storm平臺中,(Topology/拓撲)是由一系列通過數(shù)據(jù)流相互關(guān)聯(lián)的Spoul和Bolt組成的有向無環(huán)圖。4、 TensorFlow是由(張量/Tensor)和(數(shù)據(jù)流/Flow)兩部分組成。5、 Spark作業(yè)執(zhí)行一般采用(主從式)架構(gòu)。7.3簡答題1、請簡單描述Nutch與Hadoop之間的關(guān)系。答:Nutch為實現(xiàn)基于Hadoop分布式平臺下的多物理主機并行進行數(shù)據(jù)釆集提供了有效支持。在Hadoop分布式平臺下,Nutch采用Hadoop分布式文件系統(tǒng),通過Hadoop的MapReduce計算模型來釆集頁面中與某個主題相關(guān)的數(shù)據(jù),可在短時間內(nèi)采集大量的數(shù)據(jù)。Nutch與Hadoop的關(guān)系如下圖所示。2、 分析相關(guān)數(shù)據(jù)可以幫助企業(yè)降低成本、提高效率、開發(fā)新產(chǎn)品、做出更明智的業(yè)務(wù)決策等。通過大數(shù)據(jù)分析,企業(yè)一般可以實現(xiàn)哪些目標(biāo)?答:(1) 及時解析故障、問題和缺陷的根源,從而降低成本。(2) 為成千上萬的快遞車輛規(guī)劃實時交通路線,避開擁堵。(3) 分析庫存,以利潤最大化為目標(biāo)來定價和清理庫存。(4) 根據(jù)客戶的購買習(xí)慣,推送客戶可能感興趣的優(yōu)惠信息。(5) 從大量客戶中快速識別出金牌客戶。(6) 通過流量分析和數(shù)據(jù)挖掘來規(guī)避欺詐行為。3、 為了保證內(nèi)容的正確性,維基百科在技術(shù)上和運行規(guī)則上制訂了哪些規(guī)范?答:(1) 版本控制。保留詞條每一次更新的版本,即使參與者將整個詞條刪掉,管理者也可以很方便地從記錄中恢復(fù)詞條。(2) 詞條鎖定。采用鎖定技術(shù)將一些主要詞條的內(nèi)容鎖定,其他人就不可再編撰這些詞條。(3) 更新備注。在更新一個詞條時可以在描述欄中備注,以便管理員知道詞條更新的操作細節(jié)。(4) IP禁用。為了防止惡意用戶對系統(tǒng)及內(nèi)容的破壞,維基百科通過識別和禁用IP的方式,防止惡意用戶的后續(xù)破壞行為。(5) 沙盒測試。維基百科的詞條都建有沙盒測試頁而,以便讓初次參與的人先到沙盒頁而來無損害的熟悉系統(tǒng)功能,即使操作失誤也沒有關(guān)系。7.4解答題1、制造業(yè)需要利用數(shù)據(jù)分析技術(shù)、工具或平臺,智能地從大量復(fù)雜的原始生產(chǎn)數(shù)據(jù)中發(fā)現(xiàn)新的模式和知識作為改進生產(chǎn)過程的決策依據(jù)。面向制造業(yè)的數(shù)據(jù)處理平臺架構(gòu)包含哪幾個層次?答:?物理資源層。物理資源層主要包括底層的物理設(shè)備,這些物理設(shè)備能有效地支撐數(shù)據(jù)存儲和擴展。邏輯資源層。邏輯資源層包括存儲資源和計算資源。存儲資源建立在物理設(shè)備的基礎(chǔ)上,包括傳統(tǒng)數(shù)據(jù)庫、本地文件系統(tǒng)、分布式文件系統(tǒng)等。計算資源是邏輯上的計算單元,數(shù)據(jù)處埋平臺的計算能力依賴于計算單元的數(shù)量,通過擴展配置計算單元的數(shù)量能有效地支撐上層的數(shù)據(jù)挖掘任務(wù)。?數(shù)據(jù)分析任務(wù)管理層。該層是數(shù)據(jù)處理平臺的核心,能有效地連接分析功能與后臺集群。合理的數(shù)據(jù)分析平臺設(shè)計需要具備任務(wù)管理能力主要包括易于算法擴展、支持任務(wù)流和任務(wù)間依賴關(guān)系的配置、任務(wù)調(diào)度、計算資源和存儲資源的配置。數(shù)據(jù)分析平臺通過數(shù)據(jù)分析框架來有效支撐數(shù)據(jù)分析任務(wù)管理。數(shù)據(jù)分析層。數(shù)據(jù)分析層提供具體分析任務(wù)的用戶執(zhí)行接口,數(shù)據(jù)分析任務(wù)主要包括數(shù)據(jù)立方、對比分析、時間維分析、數(shù)據(jù)操作、結(jié)果展示和分析報告。第1章云計算概覽習(xí)題1.1選擇題1、 下列關(guān)于云計算的說法錯誤的是(D)??梢蕴峁┌葱枋褂?、按量計費的服務(wù)可以滿足用戶的彈性使用需求用戶可以在任意時間和地點通過網(wǎng)絡(luò)獲取所需的資源主要基于非虛擬化資源池2、 以下不屬于目前典型云計算服務(wù)模型的是(BA.軟件即服務(wù) B.系統(tǒng)即服務(wù) C.平臺即服務(wù)D.基礎(chǔ)設(shè)施即服務(wù)3、以下屬于云計算的基本特性的是(D)。A.效用計算 B.基于網(wǎng)絡(luò)訪問C.用戶可自配置資源D.以上都是4、laaS服務(wù)模型主要提供的資源不包含(CA.計算資源 B.存儲資源 C.應(yīng)用程序D.網(wǎng)絡(luò)資源5、下列云計算平臺不屬于laaS服務(wù)的平臺是(C)。A.AWS B.EC2 C.WindowsAzureD.S36、PaaS服務(wù)模型強調(diào)(A)的概念。A,平臺 B.資源 C.環(huán)境D.軟件7、以下不屬于云計算部署模型的是(C)。A.公有云 B.私有云 C.企業(yè)云D.混合云8、云計算的產(chǎn)生與發(fā)展綜合了許多技術(shù),包括(D)。A.虛擬化技術(shù)B.分布式計算 C.效用計算D.以上都是9、網(wǎng)格計算和公共計算服務(wù)的最主要目的是(A)?

把大量機器整合成一個虛擬的超級機器,供分布在世界各地的人們使用實現(xiàn)計算能力像煤氣、水、電一樣,自由、免費取用實現(xiàn)規(guī)模可根據(jù)用戶的實際需要動態(tài)調(diào)整和伸縮通過節(jié)點互保來保障平臺的可靠性10、云計算的體系架構(gòu)不包括(CA.SOA構(gòu)建層把大量機器整合成一個虛擬的超級機器,供分布在世界各地的人們使用實現(xiàn)計算能力像煤氣、水、電一樣,自由、免費取用實現(xiàn)規(guī)??筛鶕?jù)用戶的實際需要動態(tài)調(diào)整和伸縮通過節(jié)點互保來保障平臺的可靠性10、云計算的體系架構(gòu)不包括(CA.SOA構(gòu)建層B.物理資源層C.網(wǎng)絡(luò)調(diào)度層 D.虛擬化資源池層11、在云計算的管理中間件層中包含對(DA.用戶B.任務(wù) C.)的管理功能。應(yīng)用D.以上都是12、云計算有許多關(guān)鍵技術(shù),其中包含(D)。A.分布式數(shù)據(jù)存儲技術(shù)C.綠色節(jié)能技術(shù)B.分布式并行編程模型技術(shù)D.以上都是13、云計算安全保障技術(shù)包括(C.隔離技術(shù)D.以上都是A.身份認證機制B.訪問控制機制14C.隔離技術(shù)D.以上都是數(shù)據(jù)中心地點只能固定數(shù)據(jù)中心中包括日常行政管理工作人員工作的區(qū)域數(shù)據(jù)中心的PUE值一般情況下不小于1數(shù)據(jù)中心中的服務(wù)器在運行時需要供電和降溫15、區(qū)塊鏈的核心是(D),是區(qū)塊鏈網(wǎng)絡(luò)中各個節(jié)點達成一致的方法。A.數(shù)據(jù)層B.網(wǎng)絡(luò)層C.合約層D.共識層1.2填空題1、 從(云計算的核心服務(wù)層次)角度分類,云計算可以分為laaS、PaaS和SaaS三種服務(wù)模型。2、 相對于私有云,公有云是不同的單位、機構(gòu)和個人共享使用的平臺,容易存在安全隱患,所以強調(diào)(對用戶應(yīng)用的隔離)等模塊。3、 云計算系統(tǒng)的建設(shè)、云計算任務(wù)優(yōu)化調(diào)度、根因溯源可通過(大數(shù)據(jù))分析得到的。4、 區(qū)塊鏈本質(zhì)是一種(點對點網(wǎng)絡(luò)下的不可篡改的分布式數(shù)據(jù)庫),主要應(yīng)用于互聯(lián)網(wǎng)金融、產(chǎn)品供應(yīng)鏈等需要追溯的環(huán)節(jié)和領(lǐng)域。5、 與云計算不同,邊緣計算將計算任務(wù)放在接近(數(shù)據(jù)源)的計算資源上運行,可以有效減小計算系統(tǒng)的延時,減少數(shù)據(jù)傳輸帶寬,緩解云計算數(shù)據(jù)中心的壓力。1.3簡答題1、 請簡述云計算的典型特征。答:?規(guī)模龐大。云計算中心一般都有相當(dāng)大的規(guī)模,如阿里云目前在全球幾十個地區(qū)都部署了數(shù)據(jù)中心,服務(wù)器總規(guī)模達數(shù)百萬臺,通過整合海量的服務(wù)器集群,可提供巨大的計算和存儲能力。資源聚合。云計算將大規(guī)模的分散計算資源和存儲資源聚合起來,共同支撐用戶完成各種計算任務(wù)并滿足存儲需求。虛擬抽象。云計算基于物理服務(wù)器為用戶提供虛擬化的服務(wù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論