版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
模塊一思考與練習(xí)
一、填空題
1.數(shù)據(jù)的類型有很多種,主要分為三種,即—結(jié)構(gòu)化數(shù)據(jù)和_、半結(jié)構(gòu)化
數(shù)據(jù)_和_非結(jié)構(gòu)化數(shù)據(jù)—0
2.大數(shù)據(jù)的三個(gè)明顯特征分別是:―數(shù)據(jù)量大、數(shù)據(jù)實(shí)時(shí)性與數(shù)據(jù)多樣性」
3.魔鏡現(xiàn)在有五個(gè)版本,即企業(yè)基礎(chǔ)版、企業(yè)標(biāo)準(zhǔn)版、企業(yè)高級(jí)版、—云平
臺(tái)版和Hadoop版。
二、簡(jiǎn)答題
1.簡(jiǎn)述大數(shù)據(jù)的定義。
大數(shù)據(jù)(bigdata,megadata),或稱巨量資料,指的是需要新處理模式才
能具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息
資產(chǎn)。
2.大數(shù)據(jù)的價(jià)值表現(xiàn)在哪幾個(gè)方面?
1)大數(shù)據(jù)是新時(shí)代信息技術(shù)的關(guān)鍵支撐
2)大數(shù)據(jù)是促進(jìn)現(xiàn)代社會(huì)經(jīng)濟(jì)發(fā)展的推動(dòng)力
3)大數(shù)據(jù)將成為科技創(chuàng)新的引擎
3.大數(shù)據(jù)的特點(diǎn)有哪些?
大數(shù)據(jù)具有四大特點(diǎn),即volume(容量),代表海量的數(shù)據(jù)規(guī)模;variety
(種類),代表數(shù)據(jù)類型的多樣性;value(價(jià)值),代表深度的數(shù)據(jù)價(jià)值velocity
(速度),代表數(shù)據(jù)流轉(zhuǎn)的迅速與體系的動(dòng)態(tài)性
4.大數(shù)據(jù)的分析工具主要有哪些?
InfoSphereBiginsights;BigQuery;魔鏡
模塊2思考與練習(xí)
一、選擇題
BCBBD
二、簡(jiǎn)答題
1.列舉Hadoop的功能作用,以及Hadoop的優(yōu)勢(shì)是什么?
答:作用:
hadoop是通過(guò)分布式集群技術(shù),將多個(gè)物理機(jī)或虛擬機(jī)當(dāng)作一臺(tái)機(jī)器運(yùn)行,簡(jiǎn)
單說(shuō)就是做大數(shù)據(jù)的分布式計(jì)算。
優(yōu)點(diǎn):
(1)高可靠性。Hadoop按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴;
(2扃擴(kuò)展性。Hadoop是在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的,
這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。
(3)高效性。Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù),并保證各個(gè)節(jié)點(diǎn)的動(dòng)
念平衡,因此處理速度非???。
(4)高容錯(cuò)性。Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并且能夠自動(dòng)將失敗
的任務(wù)重新分配。
2.Hddoop的體系結(jié)構(gòu)是怎樣的,請(qǐng)舉例說(shuō)明。
答:
HDFSSecondary
NameNode
ClientNatneNode
/1二、、
心跳、負(fù)我均衡、發(fā)制等
▼
如上所示,在一個(gè)典型的HDFS集群中,有一個(gè)NameNode、一個(gè)
SecondaryNameNode和至少一個(gè)DataNode而HDFS客戶端數(shù)量并沒有限制。
所有的數(shù)據(jù)均存放在運(yùn)行DataNode進(jìn)程的節(jié)點(diǎn)的塊(block)里。
3.Hadoop與大數(shù)據(jù)、云計(jì)算之間的關(guān)系是什么,主要起什么作用?
答:用一句話概括就是云計(jì)算因大數(shù)據(jù)問(wèn)題而生,大數(shù)據(jù)驅(qū)動(dòng)了云計(jì)算的發(fā)展,
而Hadoop在大數(shù)據(jù)和云計(jì)算之間建起了一座堅(jiān)實(shí)可靠的橋梁。
4.HDFS中數(shù)據(jù)副本的存放策略是什么?
答:在大多數(shù)情況下,副本系數(shù)是3,HDFS的存放策略是將一個(gè)副本存放在本
地機(jī)架節(jié)點(diǎn)上,一個(gè)副本存放在同一個(gè)機(jī)架的另一個(gè)節(jié)點(diǎn)上,最后一個(gè)副本放在
不同機(jī)架的節(jié)點(diǎn)上。這種策略減少了機(jī)架間的數(shù)據(jù)傳輸,提高了寫操作的效率。
機(jī)架的錯(cuò)誤遠(yuǎn)遠(yuǎn)比節(jié)點(diǎn)的錯(cuò)誤少,所以這種策略不會(huì)影響到數(shù)據(jù)的可靠性和可用
性。與此同時(shí),因?yàn)閿?shù)據(jù)塊只存放在兩個(gè)不同的機(jī)架上,所以此策略減少了讀取
數(shù)據(jù)時(shí)需要的網(wǎng)絡(luò)傳輸總帶寬。
5.NameNode和DataNode的功能分別是什么?
答:NameNode是HDFS的大腦,它維護(hù)著整個(gè)文件系統(tǒng)的目錄樹,及
目錄樹里所有的文件和目錄;DataNode被稱為數(shù)據(jù)節(jié)點(diǎn),它是HDFS
的主從架構(gòu)的從角色的扮演者,它在NameNode的指導(dǎo)下完成I/O任
務(wù)。
模塊3思考與練習(xí)
一、選擇題
BCBDDD
二、填空題
1、read()xwrite()
2、硬盤、HA
三、簡(jiǎn)答題
L根據(jù)自己的理解畫出HDFS文件系統(tǒng)中文件讀取的流程,并解釋其中的各個(gè)步
驟。
答:
如上圖所示,HDFS客戶端首先要訪問(wèn)NameNode,并告訴它所要讀取的文
件,在這之前,HDFS會(huì)對(duì)客戶的身份信息進(jìn)行驗(yàn)證。驗(yàn)證的方式有兩種:一種
是通過(guò)信任的客戶端,由其指定用戶名;第二種方式是通過(guò)諸如Kerberos等強(qiáng)
制驗(yàn)證機(jī)制來(lái)完成。接下來(lái)還需要檢查文件的所有者及其設(shè)置的訪問(wèn)權(quán)限。當(dāng)文
件確實(shí)存在,且該用戶對(duì)其有訪問(wèn)權(quán)限時(shí),NameNode會(huì)告訴HDFS客戶端這個(gè)
文件的第一個(gè)數(shù)據(jù)塊的標(biāo)號(hào)及保存有該數(shù)據(jù)塊的DataNode列表。這個(gè)列表是
DataNode與HDFS客戶端間的距離進(jìn)行的排序。有了數(shù)據(jù)塊標(biāo)號(hào)和DataNode
的主機(jī)名,HDFS客戶端便可以直接訪問(wèn)最合適的DataNode,讀取所需要的數(shù)
據(jù)塊。這個(gè)過(guò)程會(huì)一直重復(fù)直到該文件的所有數(shù)據(jù)塊讀取完成或HDFS客戶端主
動(dòng)關(guān)閉了文件流。
2?根據(jù)自己的理解畫出HDFS文件系統(tǒng)中文件寫入的流程,并解釋其中的各個(gè)步
驟。
答:
NaseNode
如上圖所示,首先HDFS客戶端通過(guò)HDFS相關(guān)API發(fā)送請(qǐng)求,打開一個(gè)要
寫入的文件如果該用戶有寫入文件的權(quán)限那么這一請(qǐng)求將被送達(dá)NameNode,
并建立該文件的元數(shù)據(jù)。但此時(shí)新建立的文件元數(shù)據(jù)并未和任何數(shù)據(jù)塊相關(guān)聯(lián),
這時(shí)HDFS客戶端會(huì)收8J〃打開文件成功”的響應(yīng),接著就可以寫入數(shù)據(jù)了。當(dāng)
客戶端將數(shù)據(jù)寫入流時(shí),數(shù)據(jù)會(huì)被自動(dòng)拆分成數(shù)據(jù)包,并將數(shù)據(jù)包保存在內(nèi)存隊(duì)
列中??蛻舳擞幸粋€(gè)獨(dú)立的線程,它從隊(duì)列中讀取數(shù)據(jù)包,并向NameNode請(qǐng)
求一組DataNode列表,以便寫入下一個(gè)數(shù)據(jù)塊的多個(gè)副本。接著,HDFS客戶
端將直接連接到列表中的第一個(gè)DataNode,而該DataNode又連接到第二個(gè)
DataNode,第二個(gè)又連接第三個(gè),如此就建立了數(shù)據(jù)塊的復(fù)制管道。復(fù)制管道
中的每一個(gè)DataNode都會(huì)確認(rèn)所收到的數(shù)據(jù)包已經(jīng)成功寫入磁盤。HDFS客戶
端應(yīng)用程序維護(hù)著一個(gè)列表,記錄著哪些數(shù)據(jù)包尚未收到確認(rèn)信息。每收到一個(gè)
響應(yīng),客戶端便知道數(shù)據(jù)已經(jīng)成功寫入管道中的一個(gè)DataNode.當(dāng)數(shù)據(jù)塊被寫
入列表中的DataNode中時(shí),HDFS客戶端將重新向NameNode申請(qǐng)下一組
DataNode.最終,客戶端將剩余數(shù)據(jù)包寫入全部磁盤,關(guān)閉數(shù)據(jù)管道并通知
NameNode文件寫操作已經(jīng)完成。
模塊4思考與練習(xí)
一、填空題
1.客戶端、JobTracker、TaskTracker.分布式文件系統(tǒng)
2.Client、JobTracker、TaskTracker.Task
二、簡(jiǎn)答題
1.答:MapReduce的執(zhí)行過(guò)程如下:(1)數(shù)據(jù)預(yù)處理:在任務(wù)開始前,首
先調(diào)用類庫(kù),將輸入文件分為多個(gè)分片。(2)任務(wù)分配:JobTracker為集群中
空閑的節(jié)點(diǎn)分配Map任務(wù)或者Reduce任務(wù)。設(shè)集群中有M個(gè)M叩任務(wù)和R個(gè)
Reduce任務(wù)(Reduce任務(wù)數(shù)通常小于Map任務(wù)數(shù))。(3)M叩任務(wù):Mapper
讀取自己所屬的文件分片,將每一條輸入數(shù)據(jù)轉(zhuǎn)換為〈key,value〉鍵值對(duì),使用
M叩函數(shù)對(duì)每一個(gè)鍵值對(duì)進(jìn)行處理,得到一個(gè)新的<key,value〉鍵值對(duì),作為中
間結(jié)果緩存在當(dāng)前節(jié)點(diǎn)。(4)緩存文件定位:M叩任務(wù)得到的中間結(jié)果被周期
性地寫入Mapper所在的本地硬盤中,并把文件的存儲(chǔ)位置信息經(jīng)由JobTracker
傳遞給Reducer。(5)Reducer拉取文件:Reducer通過(guò)位置信息到相應(yīng)的
M叩per處拉取這些文件將同一key對(duì)應(yīng)的所有取值合并得到vkey,list(value)〉
鍵值組。(6)Reduce任務(wù):Reducer將所讀取到的vkey,list(value)>鍵值組
使用Reduce函數(shù)進(jìn)行計(jì)算,得到最終結(jié)果并將其輸出。(7)結(jié)束:當(dāng)所有的
M叩任務(wù)和Reduce任務(wù)運(yùn)行完畢后,系統(tǒng)會(huì)自動(dòng)結(jié)束各個(gè)節(jié)點(diǎn)上的對(duì)應(yīng)進(jìn)程并
將任務(wù)的執(zhí)行情況反饋給用戶。
2.答:M叩Reduce的作業(yè)周期分為五個(gè)階段:(1)作業(yè)提交與初始化:用
戶在提交完作業(yè)之后,JobClient將程序jar程序包、作業(yè)配置文件、分片元信息
文件等作業(yè)相關(guān)信息上傳至分布式文件系統(tǒng)上,分片元信息文件的作用是記錄每
個(gè)輸入分片的邏輯位置信息。當(dāng)JobTracker接受到JobClient的請(qǐng)求后,就會(huì)立
即進(jìn)行初始化,之后在運(yùn)行過(guò)程中需要監(jiān)控作業(yè)運(yùn)行情況,這就需要建立JobIn
Progress對(duì)象,而且可以同時(shí)監(jiān)控多個(gè)任務(wù)的運(yùn)行狀況。(2)任務(wù)調(diào)度與監(jiān)控:
JobTracker是用來(lái)對(duì)任務(wù)進(jìn)行調(diào)度和監(jiān)控的。TaskTracker通過(guò)Heartbeat周期
性的向JobTracke「發(fā)送本節(jié)點(diǎn)資源的使用情況,在有空閑資源的情況下,任務(wù)
調(diào)度命令JobTracker按照一定的計(jì)劃來(lái)選擇合適的空閑資源。任務(wù)調(diào)度器是具
有雙層架構(gòu)、比較獨(dú)立的結(jié)構(gòu),可以完成對(duì)任務(wù)的選擇,選擇任務(wù)需要充分考慮
數(shù)據(jù)的本地性。此外,JobTracker的作用保證任務(wù)運(yùn)行可以成功,并且可以跟蹤
作業(yè)的整個(gè)運(yùn)行過(guò)程。如果TaskTracker或者Task運(yùn)行失敗,則重新進(jìn)行任務(wù)
運(yùn)行時(shí)間的計(jì)算;如果運(yùn)行進(jìn)度落后,也會(huì)重新進(jìn)行計(jì)算;如果其他運(yùn)行結(jié)束,
就重新啟動(dòng)一個(gè)相同Task;最終選取計(jì)算最快的Task結(jié)果作為最終結(jié)果。(3)
任務(wù)運(yùn)行環(huán)境準(zhǔn)備:通過(guò)啟動(dòng)JVM,將資源進(jìn)行隔離,這就基本準(zhǔn)備好了運(yùn)行環(huán)
境,都是通過(guò)TaskTracker來(lái)實(shí)現(xiàn)的。TaskTracker為每個(gè)Task啟動(dòng)一個(gè)獨(dú)立的
JVM,它為了防止Task濫用資源,采用了操作系統(tǒng)進(jìn)程來(lái)實(shí)現(xiàn)隔離。(4)任務(wù)
執(zhí)行:TdskT「acke「準(zhǔn)備好了任務(wù)的執(zhí)行環(huán)境之后,就可以執(zhí)行任務(wù)。在運(yùn)行過(guò)
程中,每個(gè)任務(wù)都匯報(bào)給TaskTracker之后再給JobTracker.(5)作業(yè)完成:
如果其中的所有任務(wù)都執(zhí)行完成,作業(yè)就完成了。
3.答:MapReduce與Spark的異同點(diǎn):
MapReduce是一種高效的適用于分布式處理的并行計(jì)算模型,但是和Spark
對(duì)化,M叩Reduce存在如下一些缺點(diǎn):(1)抽象層次低,需要手工編寫代碼來(lái)
完成;(2)只提供兩個(gè)操作:M叩和Reduce;(3)一個(gè)M叩ReduceJob只有
M叩和Reduce兩個(gè)階段,復(fù)雜的計(jì)算需要由大量的job完成,并且各個(gè)job之
間的依賴關(guān)系由開發(fā)者自己管理;(4)處理邏輯隱藏在代碼細(xì)節(jié)中,沒有整體
邏輯;(5)中間結(jié)果需要放在HDFS文件系統(tǒng)中;(6)延時(shí)高,只適用于處理
離線批量數(shù)據(jù),對(duì)交互式數(shù)據(jù)處理、實(shí)颼據(jù)處理等不支持;(7)對(duì)迭代式數(shù)
據(jù)處理性能不高。
Spark從多個(gè)不同角度彌補(bǔ)了MapReduce的不足,具有以下優(yōu)點(diǎn):(1)基
于RDD的抽象,實(shí)際數(shù)據(jù)處理邏輯的代碼非常簡(jiǎn)短;(2)提供了除Map.Reduce
之外的多種操作,例如join,intersection,union等,對(duì)數(shù)據(jù)處理的方式更加靈
活(3fjob可以包含RDD的多個(gè)轉(zhuǎn)換操作任務(wù)調(diào)度時(shí)可以生成多個(gè)stage,
而且如果map操作的RDD分區(qū)不變,可放在一個(gè)任務(wù)中完成;(4)在scala
中,通過(guò)匿名函數(shù)和高階函數(shù),RDD的轉(zhuǎn)換支持流式API,可提供處理邏輯的整
體DAG視圖,代碼不包含具體操作的實(shí)現(xiàn)細(xì)節(jié),邏輯更清晰;(5)中間結(jié)果放
在內(nèi)存中,內(nèi)存不足時(shí)寫入本地磁盤,而不是HDFS;(6)延時(shí)低,通過(guò)RDD
實(shí)現(xiàn)分布式內(nèi)存的抽象使用,支持多種不同的大數(shù)據(jù)處理場(chǎng)景;(7)通過(guò)在內(nèi)
存中緩存數(shù)據(jù),進(jìn)行迭代式數(shù)據(jù)處理時(shí),性能很高。
模塊5思考與練習(xí)
一、選擇題
1.搜索引擎中用戶查詢所得的信息是(B)。
A.直接在互聯(lián)網(wǎng)中獲取的
B,存儲(chǔ)在網(wǎng)絡(luò)數(shù)據(jù)庫(kù)中的
C.來(lái)自某個(gè)網(wǎng)站的
D.與網(wǎng)頁(yè)連接顯示的
2.對(duì)于搜索引擎蜘蛛(Google稱之為機(jī)器人)程序來(lái)講有三種頁(yè)面非常重
要,以下哪種頁(yè)面不屬于其中?(B)
A.從未抓取過(guò)的新頁(yè)面
B.頁(yè)面內(nèi)容之前被采集過(guò)但有所改動(dòng)的頁(yè)面
C.已被刪除掉的之前被采集過(guò)的頁(yè)面
D.搜索引擎蜘蛛的起始頁(yè)面
3.以下不屬于搜索引擎評(píng)價(jià)指標(biāo)的是(D)。
A.查全率B.查準(zhǔn)率C.響應(yīng)速度D.下載速度
二、填空題
L搜索引擎的組成大致可劃分為4個(gè)部分,第一部分是_搜索引擎蜘蛛程序
_,第二部分是激據(jù)分析系統(tǒng)—,第三部分是—索引系統(tǒng)第四部
分是一用戶查詢系統(tǒng)_。
2.搜索引擎工作工程主要包括三個(gè)階段,分別是網(wǎng)頁(yè)搜集階段,檢索信息生
成階段和用戶查詢服務(wù)階段。
3.垂直網(wǎng)站通常指的是為滿足用戶在某些特定的領(lǐng)域或某種特定的需求提
供有關(guān)這個(gè)領(lǐng)域或需求的全部深度信息和相關(guān)服務(wù)的專業(yè)性網(wǎng)站。
三、簡(jiǎn)答題
L搜索引擎的產(chǎn)生和發(fā)展經(jīng)歷了哪幾個(gè)階段?試簡(jiǎn)述各階段的特點(diǎn)。
答:早期出現(xiàn)的搜索引擎只是檢索FTP網(wǎng)站文件的程序,隨后的搜索引擎
開始收錄網(wǎng)絡(luò)地址形成分類目錄,后續(xù)的發(fā)展中搜索引擎開始收錄標(biāo)題,目前的
搜索引擎,已經(jīng)發(fā)展到抓取網(wǎng)頁(yè)全文階段。
2.簡(jiǎn)述搜索引擎索引系統(tǒng)的形成過(guò)程。
答:1)提取關(guān)鍵詞:通過(guò)結(jié)構(gòu)化、消噪去除掉網(wǎng)頁(yè)中所有的格式代碼,同
時(shí)去除非正文關(guān)鍵詞或停用詞,網(wǎng)頁(yè)的主文字內(nèi)容后應(yīng)用自身的分詞系統(tǒng),將此
文分成一個(gè)分詞列表,然后存儲(chǔ)在數(shù)據(jù)庫(kù)中,并與此文的URL進(jìn)行一對(duì)應(yīng)
2)倒排文件建立索引:在不同索引詞組成的索引表中記錄索引詞ID號(hào),表
明匹配該索引詞的文檔數(shù)量,并匹配文檔在記錄文件內(nèi)的偏移量,通過(guò)這偏移量
就可以讀取記錄文件對(duì)應(yīng)區(qū)域的信息。
3)對(duì)網(wǎng)頁(yè)完成重要度分析并完成排名
3.私有化的Web化數(shù)據(jù)所指代的含義是什么?它的產(chǎn)生有何背景?
答:私有化的Web化數(shù)據(jù)是指垂直網(wǎng)站在達(dá)到一定規(guī)模后,擁有與搜索引
擎同比競(jìng)爭(zhēng)的能力時(shí),會(huì)特意屏蔽搜索引擎的爬蟲,將自己的數(shù)據(jù)私有化。它的
產(chǎn)生一方面由于互聯(lián)網(wǎng)中部分信息并未Web化,另一方面Web化的網(wǎng)頁(yè)中的信
息,搜索引擎也不可能實(shí)現(xiàn)完全抓取。
模塊六思考與練習(xí)
一、選擇題
1.不屬于大數(shù)據(jù)主要的存儲(chǔ)模型的是(D)。
A.關(guān)系型數(shù)據(jù)庫(kù)
B.列式數(shù)據(jù)庫(kù)
C.鍵值存儲(chǔ)
D.視頻數(shù)據(jù)庫(kù)
2.不屬于關(guān)系型數(shù)據(jù)庫(kù)的是(B)。
A.OracleB.SybaseC.DB2D.MicrosoftSQLServer
3.數(shù)據(jù)存儲(chǔ)方式有(D)。
A.在線存儲(chǔ)B.近線存儲(chǔ)C.異地備份D.以上皆對(duì)
二、填空題
1.云存儲(chǔ)系統(tǒng)的結(jié)構(gòu)模型由4層組成:存儲(chǔ)層、基礎(chǔ)管理層、應(yīng)用接口層
和訪問(wèn)層。
2.在一個(gè)圖形數(shù)據(jù)庫(kù)中,最主要的組成有兩種:結(jié)點(diǎn)集和連接結(jié)點(diǎn)的關(guān)系。
3.分布式存儲(chǔ)系統(tǒng)具有如下幾個(gè)特性:可擴(kuò)展。(2)低成本自動(dòng)運(yùn)維。(3)
高性能(4)易用。
三、簡(jiǎn)答題
L簡(jiǎn)述大數(shù)據(jù)存儲(chǔ)的概念。
數(shù)據(jù)存儲(chǔ)是指數(shù)據(jù)流在加工過(guò)程中產(chǎn)生的臨時(shí)文件或需要查找的信息的存
儲(chǔ)。數(shù)據(jù)以某種格式記錄在計(jì)算機(jī)內(nèi)部或外部存儲(chǔ)介質(zhì)上。數(shù)據(jù)存儲(chǔ)要命名,這
種命名要反映信息特征的組成含義。數(shù)據(jù)流反映了系統(tǒng)中流動(dòng)的數(shù)據(jù),表現(xiàn)出動(dòng)
態(tài)數(shù)據(jù)的特征;數(shù)據(jù)存儲(chǔ)反映系統(tǒng)中靜止的數(shù)據(jù),表現(xiàn)出靜態(tài)數(shù)據(jù)的特征。
2.大數(shù)據(jù)存儲(chǔ)的常見問(wèn)題是什么?
1.容量
2,延遲
3.安全問(wèn)題
4成本
5.數(shù)據(jù)保存
6.靈活性
7.應(yīng)用感知
8,小用戶
3.大數(shù)據(jù)存儲(chǔ)的方式有哪幾種?
關(guān)系型數(shù)據(jù)庫(kù)、列式數(shù)據(jù)庫(kù)、鍵值存儲(chǔ)、文檔存儲(chǔ)、圖形數(shù)據(jù)庫(kù)
模塊7思考與練習(xí)
一、選擇題
1.以下不屬于大數(shù)據(jù)基本特征的是(D)。
A.數(shù)據(jù)規(guī)模龐大
B.數(shù)據(jù)的形式多樣化
C.數(shù)據(jù)的獲取及處理速度快
D.數(shù)據(jù)的處理具有實(shí)時(shí)性
2.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則分析最典型的算法是(D)。
A.KNN算法B.NaiveBayes算法C.k-means算法D.Aprior算法
3.大數(shù)據(jù)處理流程中的第二個(gè)步驟是(A)。
A,數(shù)據(jù)的導(dǎo)入和預(yù)處理B.數(shù)據(jù)的統(tǒng)計(jì)與分析C.數(shù)據(jù)清洗D.數(shù)據(jù)的
采集
二、填空題
L數(shù)據(jù)倉(cāng)庫(kù)是一組支持決策過(guò)程的、面向主題的、集成的、隨時(shí)間而變的持
久的數(shù)據(jù)集合。
2.數(shù)據(jù)挖掘的最終目標(biāo)是獲取數(shù)據(jù)的有效價(jià)值,其具體的實(shí)際應(yīng)用功能可分
為三大類、六分項(xiàng)來(lái)說(shuō)明:—分類—和』類_屬于分類區(qū)隔類;_回歸分
析一和—時(shí)間序列―屬于推算預(yù)測(cè)類;關(guān)聯(lián)規(guī)則—和____序列模式
______屬于關(guān)聯(lián)分析類。
3.在數(shù)據(jù)挖掘的分類算法中比較典型的算法是一NaiveBayes—算法和
_KNN算法。
三、簡(jiǎn)答題
L大數(shù)據(jù)時(shí)代數(shù)據(jù)的存儲(chǔ)與管理與傳統(tǒng)數(shù)據(jù)存儲(chǔ)方式有何區(qū)別?
答:傳統(tǒng)數(shù)據(jù)管理方法的局限性及大數(shù)據(jù)的現(xiàn)實(shí)條件促使新的數(shù)據(jù)庫(kù)設(shè)計(jì)的
出現(xiàn),在新的數(shù)據(jù)庫(kù)設(shè)計(jì)中,原本數(shù)據(jù)庫(kù)模式中存在的記錄和預(yù)設(shè)場(chǎng)域(成規(guī)數(shù)
據(jù)的整齊排列)的規(guī)律被替代。大數(shù)據(jù)為適應(yīng)信息發(fā)展的需要,運(yùn)用非關(guān)系型數(shù)
據(jù)庫(kù)作為一種新型數(shù)據(jù)庫(kù)設(shè),它不需要預(yù)先設(shè)定記錄結(jié)構(gòu),同時(shí)允許處理規(guī)模龐
大、結(jié)構(gòu)復(fù)雜的數(shù)據(jù)。
2.數(shù)據(jù)挖掘中典型的聚類算法有哪些?
答:為了找到效率高、通用性強(qiáng)的聚類方法,根據(jù)劃分條件的不同有多種聚
類算法,典型的有K-means方法、K-medoids方法、CLARANS方法、BIRCH方
法等。
3.大數(shù)據(jù)分析中重要的五個(gè)方面分別指什么?它們各自完成的任務(wù)有哪
些?
答:1)可視化分析:運(yùn)用一些數(shù)據(jù)分析的工具將數(shù)據(jù)轉(zhuǎn)化為圖的形式,達(dá)
到"看圖說(shuō)話”的效果。
2)數(shù)據(jù)挖掘算法:運(yùn)用挖掘算法處理海量的數(shù)據(jù)并更加科學(xué)地呈現(xiàn)出數(shù)據(jù)
本身具備的特點(diǎn)。
3)預(yù)測(cè)性分析能力:作用是讓數(shù)據(jù)分析員可以根據(jù)數(shù)據(jù)可視化分析和數(shù)據(jù)
挖掘計(jì)算所得結(jié)果對(duì)未來(lái)的相關(guān)事物做出一些預(yù)測(cè)性的判斷。
4)語(yǔ)義引擎:借助語(yǔ)義引擎,可從用戶的搜索關(guān)鍵詞、標(biāo)簽關(guān)鍵詞或其他
輸入語(yǔ)義,分析、判斷用戶需求
5)數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理:高質(zhì)量的數(shù)據(jù)和有效的數(shù)據(jù)管理,無(wú)論是在學(xué)術(shù)
研究還是在商業(yè)應(yīng)用領(lǐng)域,都能夠保證分析結(jié)果的真實(shí)和有價(jià)值。
模塊八思考與練習(xí)
一、選擇題
1.不屬于數(shù)據(jù)可視化技術(shù)的主題是(D)。
A.數(shù)據(jù)的顯示
B.連接的顯示
C.網(wǎng)站的顯示
D.信息可視化
2.不屬于數(shù)據(jù)可視化展現(xiàn)方式(c)。
A.魚骨圖B.柏拉圖C.回歸圖D.直方圖
3.大數(shù)據(jù)可視化分析工具有(c)。
A.WordB.PPTC.ExcelD.GooglePinyin
二、填空題
1統(tǒng)計(jì)學(xué)領(lǐng)域有一組統(tǒng)計(jì)量是用來(lái)描述樣本的集中趨勢(shì)的,它們就是:平
均數(shù)、和中數(shù)眾數(shù)
2.正態(tài)分布:也稱常態(tài)分布,正態(tài)分布是一種概率分布。
3.直方圖(Histogram)又稱質(zhì)量分布圖。是一種統(tǒng)計(jì)報(bào)告圖,由
一系列高度不等的縱向條紋或線段表示數(shù)據(jù)分布的情況。
三、簡(jiǎn)答題
1.常用的數(shù)據(jù)整理技術(shù)有哪些?
回退模型可視化相關(guān)性變化分析差異分析預(yù)測(cè)群集技術(shù)決
策樹神經(jīng)網(wǎng)絡(luò)
2,使用分析Excel和GoogleSpreadsheets,分析它們之間的優(yōu)缺點(diǎn)、
Excel功能更加完善能完成的分析更多GoogleSpreadsheets基于網(wǎng)絡(luò)的,
更好的在線實(shí)時(shí)編輯,更好的網(wǎng)絡(luò)交互。
3.發(fā)展大數(shù)據(jù)可視化,那么傳統(tǒng)的數(shù)據(jù)和信息的表示方式是否還有意義?
答:當(dāng)然有意義。
模塊9思考與練習(xí)
一、填空題
1.機(jī)密性(Confidentiality)、完整性(Integrity)、可用性(Availability)
2.物理安全、網(wǎng)絡(luò)安全、應(yīng)用安全、數(shù)據(jù)隱私
3.網(wǎng)絡(luò)黑客和病毒攻擊威脅、信息資源泄露威脅、網(wǎng)絡(luò)漏洞威脅
二、簡(jiǎn)答題
1.答:數(shù)據(jù)處理的安全廚敢口何有效的防止數(shù)據(jù)在錄入、處理、統(tǒng)計(jì)或打印
中由于硬件故障、斷電、死機(jī)、人為的誤操作、程序缺陷、病毒或黑客等造成的
數(shù)據(jù)庫(kù)損壞或數(shù)據(jù)丟失現(xiàn)象,某些敏感或保密的數(shù)據(jù)可能被不具備資格的人員或
操作員閱讀,而造成數(shù)據(jù)泄密等后果。
2,答:數(shù)據(jù)存儲(chǔ)的安全是指數(shù)據(jù)庫(kù)在系統(tǒng)運(yùn)行之外的可讀性。一旦數(shù)據(jù)庫(kù)被
盜,即使沒有原來(lái)的系統(tǒng)程序,照樣可以另外編寫程序?qū)ΡI取的數(shù)據(jù)庫(kù)進(jìn)行查看
或修改。
3?答:大數(shù)據(jù)的安全機(jī)制可從網(wǎng)絡(luò)安全、數(shù)據(jù)安全、應(yīng)用安全、終端安全等
各個(gè)管理角度加強(qiáng)大數(shù)據(jù)的安全防范。
(1)網(wǎng)絡(luò)安全
網(wǎng)絡(luò)是輸送大數(shù)據(jù)資源的主要途徑,通過(guò)強(qiáng)化網(wǎng)絡(luò)基礎(chǔ)設(shè)施安全保障,可以
提高大數(shù)據(jù)環(huán)境的安全??蓮娜缦滤膫€(gè)方面加強(qiáng)網(wǎng)絡(luò)安全的保障措施:一是通過(guò)
訪問(wèn)控制,以用戶身份認(rèn)證為前提,實(shí)施各種策略來(lái)控制和規(guī)范用戶在系統(tǒng)中的
行為,從而達(dá)到維護(hù)系統(tǒng)安全和保護(hù)網(wǎng)絡(luò)資源的目的;二是通過(guò)鏈路加密,建立
虛擬專用網(wǎng)絡(luò),隔離公用網(wǎng)絡(luò)上的其他數(shù)據(jù),防止數(shù)據(jù)被截?。蝗峭ㄟ^(guò)隔離技
術(shù),對(duì)數(shù)據(jù)中心內(nèi)、外網(wǎng)絡(luò)區(qū)域之間的數(shù)據(jù)流量進(jìn)行分析、檢測(cè)、管理和控制,
從而保護(hù)目標(biāo)數(shù)據(jù)源免受外部非法用戶的侵入訪問(wèn);四是通過(guò)網(wǎng)絡(luò)審計(jì),監(jiān)聽捕
獲并分析網(wǎng)絡(luò)數(shù)據(jù)包,準(zhǔn)確記錄網(wǎng)絡(luò)訪問(wèn)的關(guān)鍵信息,通過(guò)統(tǒng)一的策略設(shè)置的規(guī)
則,智能地判斷出網(wǎng)絡(luò)異常行為,并對(duì)異常行為進(jìn)行記錄、報(bào)警和阻斷,保護(hù)業(yè)
務(wù)的正常運(yùn)行。
(2)虛擬化安全
虛擬化技術(shù)是大數(shù)據(jù)概念的一個(gè)基礎(chǔ)組成部分,它加強(qiáng)了基礎(chǔ)設(shè)施、軟件平
臺(tái)、業(yè)務(wù)系統(tǒng)的擴(kuò)展能力,同時(shí)也使得傳統(tǒng)物理安全邊界逐漸缺失。力口強(qiáng)虛擬環(huán)
境中的安全機(jī)制與傳統(tǒng)物理環(huán)境中的安全措施,才能更好地保障在虛擬化基礎(chǔ)之
上為大數(shù)據(jù)提供的各類應(yīng)用和服務(wù)的安全??蓮娜缦聝蓚€(gè)方面加強(qiáng)虛擬化安全的
保障措施:一是在虛擬化軟件層面建立必要的安全控制措施,限制對(duì)虛擬化軟件
的物理和邏輯訪問(wèn)控制;二是在虛擬化硬件方面建立基于虛擬主機(jī)的專業(yè)的防火
墻系統(tǒng)、殺毒軟件、日志系締口恢復(fù)系統(tǒng),同時(shí)對(duì)于每臺(tái)虛擬化服務(wù)器設(shè)置獨(dú)立
的硬盤分區(qū),用以系統(tǒng)和日常數(shù)據(jù)的備份。
(3)數(shù)據(jù)安全
基于數(shù)據(jù)層面的保護(hù)最直接的安全技術(shù)包括兩方面的內(nèi)容:一是數(shù)據(jù)加密,
深入數(shù)據(jù)層保護(hù)數(shù)據(jù)安全,針對(duì)不同的數(shù)據(jù)采用不同的加密算法,實(shí)施不同等級(jí)
的加密控制策略,有效地杜絕機(jī)密信息泄漏和竊取事件;二是數(shù)據(jù)備份,將系統(tǒng)
中的數(shù)據(jù)進(jìn)行復(fù)制,當(dāng)數(shù)據(jù)存儲(chǔ)系統(tǒng)由于系統(tǒng)崩潰、黑客入侵以及管理員的誤操
作等導(dǎo)致數(shù)據(jù)丟失和損壞時(shí),能夠方便且及時(shí)地恢復(fù)系統(tǒng)中的有效數(shù)據(jù),以保證
系統(tǒng)正常運(yùn)行。通過(guò)以上措施可以保障大數(shù)據(jù)在數(shù)據(jù)方面的安全性。
(4)應(yīng)用安全
由于大數(shù)據(jù)環(huán)境的靈活性、開放性以及公眾可用性等特性,部署應(yīng)用程序時(shí)
應(yīng)提高應(yīng)用方面的安全意識(shí),充分考慮應(yīng)用可能引發(fā)的各類安全風(fēng)險(xiǎn)。加強(qiáng)各類
程序接口在功能設(shè)計(jì)、開發(fā)、測(cè)試、上線等覆蓋生命周期過(guò)程的安全實(shí)踐,廣泛
采用更加全面的安全測(cè)試用例,在處理敏感數(shù)據(jù)的應(yīng)用程序與服務(wù)器之間通信時(shí)
采用加密技術(shù),通過(guò)以上措施可以保障大數(shù)據(jù)在應(yīng)用方面的安全性。
(5)終端安全
隨著云計(jì)算、移動(dòng)互聯(lián)網(wǎng)等技術(shù)的發(fā)展,用戶終端種類不斷增加,很多應(yīng)用
程序被攻擊者利用收集隱私和重要數(shù)據(jù)。用戶終端上應(yīng)部署安全軟件,包括反惡
意軟件、防病毒、個(gè)人防火墻以及入侵防御系統(tǒng)(IPS:IntrusionPrevention
System)類型的軟件,并及時(shí)完成應(yīng)用安全更新,注重自身賬號(hào)密碼的安全保
護(hù),盡量不在陌生的終端上使用公共服務(wù);同時(shí)還應(yīng)采用屏蔽、抗干擾等技術(shù)防
止電磁泄漏,可從一定程度上降低大數(shù)據(jù)失竊的風(fēng)險(xiǎn),增強(qiáng)大數(shù)據(jù)在終端方面的
安全性。
4.答:大數(shù)據(jù)的安全防護(hù)技術(shù)可從以下五方面進(jìn)行相應(yīng)技術(shù)的研究:
(1)數(shù)據(jù)發(fā)布匿名保護(hù)技術(shù)
對(duì)于非結(jié)構(gòu)化數(shù)據(jù)要有效地實(shí)現(xiàn)用戶數(shù)據(jù)安全和隱私保護(hù),數(shù)據(jù)發(fā)布匿名保
護(hù)技術(shù)是關(guān)鍵點(diǎn),但是這一技術(shù)還需要不斷發(fā)掘和完善?,F(xiàn)有的大部分?jǐn)?shù)據(jù)發(fā)布
匿名保護(hù)技術(shù)的基本理論,設(shè)定環(huán)境大多是用戶一次性、靜態(tài)地發(fā)布數(shù)據(jù)。如通
過(guò)元組泛化和抑制處理方式分組標(biāo)識(shí)符,用k匿名模式對(duì)有共同屬性的集合進(jìn)行
匿名處理,但這樣容易漏掉某個(gè)特殊的屬性。通常情況下現(xiàn)實(shí)生活中的數(shù)據(jù)發(fā)布
普遍是連續(xù)、多次的,在大數(shù)據(jù)復(fù)雜的環(huán)境中,要實(shí)現(xiàn)數(shù)據(jù)發(fā)布匿名保護(hù)技術(shù)較
為困難。攻擊者可以從不同的發(fā)布點(diǎn)、不同的渠道獲取各類信息,所獲得的信息
將幫助攻擊者確定攻擊目標(biāo)的用戶信息。因此數(shù)據(jù)發(fā)布匿名保護(hù)技術(shù)還需要信息
領(lǐng)域的研究人員投入更多的精力多加研究。
(2)社交網(wǎng)絡(luò)匿名保護(hù)技術(shù)
包含了大量用戶隱私的非結(jié)構(gòu)化數(shù)據(jù)大多產(chǎn)生于社交網(wǎng)絡(luò),這類數(shù)據(jù)最顯著
的特征就是圖結(jié)構(gòu),因而數(shù)據(jù)發(fā)布保護(hù)技術(shù)無(wú)法滿足這類數(shù)據(jù)的安全隱私保護(hù)需
求。一般攻擊者都會(huì)利用點(diǎn)和邊的相關(guān)屬性,通過(guò)分析整合,重新鑒定出用戶的
身份信息.因此在社交網(wǎng)絡(luò)中實(shí)現(xiàn)數(shù)據(jù)安全與隱私保護(hù)技術(shù),需要結(jié)合其圖結(jié)構(gòu)
的特點(diǎn),進(jìn)行用戶標(biāo)識(shí)匿名以及屬性匿名(點(diǎn)匿名),即在數(shù)據(jù)發(fā)布時(shí)對(duì)用戶標(biāo)
識(shí)和屬性信息進(jìn)行隱藏處理;同時(shí)對(duì)用戶間關(guān)系匿名(邊匿名),即在數(shù)據(jù)發(fā)布
時(shí)對(duì)用戶之間的關(guān)系連接進(jìn)行隱藏處理。這是社交網(wǎng)絡(luò)數(shù)據(jù)安全與隱私保護(hù)的要
點(diǎn),可以防止攻擊者通過(guò)用戶在不同渠道發(fā)布的數(shù)據(jù),或者是用戶之間的邊聯(lián)系
推測(cè)出原本受匿名保護(hù)的用戶,破解匿名保護(hù)。研
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 檔案員競(jìng)聘演講稿
- 讀書心得體會(huì)
- 龍年元旦聯(lián)歡晚會(huì)閉幕詞(9篇)
- 新教材高考地理二輪復(fù)習(xí)一8類識(shí)圖技法專項(xiàng)訓(xùn)練技法8區(qū)域分布圖判讀含答案
- 第二十五章 銳角的三角比(單元重點(diǎn)綜合測(cè)試)
- 統(tǒng)編版語(yǔ)文二年級(jí)上學(xué)期期末備考真題分類匯編專題04 名篇名句默寫 (含答案)
- 陜西省西安市曲江第一小學(xué)2024-2025學(xué)年三年級(jí)上學(xué)期期中學(xué)業(yè)水平測(cè)試科學(xué)試題(無(wú)答案)
- 廣東省汕尾市華大實(shí)驗(yàn)學(xué)校2024-2025學(xué)年第一學(xué)期期中考試九年級(jí)化學(xué)試卷
- 采礦權(quán)購(gòu)買合同范本
- 廣州居民租房協(xié)議格式
- 幼兒人工智能科普知識(shí)講座
- 反洗錢盡職調(diào)查報(bào)告
- 某排澇泵站工程初步設(shè)計(jì)報(bào)告
- 數(shù)據(jù)中心運(yùn)維方案
- 換熱站運(yùn)行培訓(xùn)課件
- 英語(yǔ)高考易錯(cuò)點(diǎn)專項(xiàng)練習(xí)-并列句和狀語(yǔ)從句(解析版)
- 政治學(xué)原理 (自考) 課件 周光輝 第1-4章 國(guó)家的性質(zhì)-國(guó)家機(jī)構(gòu)
- 《陀螺》第一課時(shí)
- 2024-2026年全球經(jīng)濟(jì)展望
- 巴金《家》簡(jiǎn)介課件
- 《信心與行為》課件
評(píng)論
0/150
提交評(píng)論