《大數(shù)據(jù)基礎(chǔ)與應(yīng)用》習(xí)題答案_第1頁(yè)
《大數(shù)據(jù)基礎(chǔ)與應(yīng)用》習(xí)題答案_第2頁(yè)
《大數(shù)據(jù)基礎(chǔ)與應(yīng)用》習(xí)題答案_第3頁(yè)
《大數(shù)據(jù)基礎(chǔ)與應(yīng)用》習(xí)題答案_第4頁(yè)
《大數(shù)據(jù)基礎(chǔ)與應(yīng)用》習(xí)題答案_第5頁(yè)
已閱讀5頁(yè),還剩14頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

模塊一思考與練習(xí)

一、填空題

1.數(shù)據(jù)的類型有很多種,主要分為三種,即—結(jié)構(gòu)化數(shù)據(jù)和_、半結(jié)構(gòu)化

數(shù)據(jù)_和_非結(jié)構(gòu)化數(shù)據(jù)—0

2.大數(shù)據(jù)的三個(gè)明顯特征分別是:―數(shù)據(jù)量大、數(shù)據(jù)實(shí)時(shí)性與數(shù)據(jù)多樣性」

3.魔鏡現(xiàn)在有五個(gè)版本,即企業(yè)基礎(chǔ)版、企業(yè)標(biāo)準(zhǔn)版、企業(yè)高級(jí)版、—云平

臺(tái)版和Hadoop版。

二、簡(jiǎn)答題

1.簡(jiǎn)述大數(shù)據(jù)的定義。

大數(shù)據(jù)(bigdata,megadata),或稱巨量資料,指的是需要新處理模式才

能具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息

資產(chǎn)。

2.大數(shù)據(jù)的價(jià)值表現(xiàn)在哪幾個(gè)方面?

1)大數(shù)據(jù)是新時(shí)代信息技術(shù)的關(guān)鍵支撐

2)大數(shù)據(jù)是促進(jìn)現(xiàn)代社會(huì)經(jīng)濟(jì)發(fā)展的推動(dòng)力

3)大數(shù)據(jù)將成為科技創(chuàng)新的引擎

3.大數(shù)據(jù)的特點(diǎn)有哪些?

大數(shù)據(jù)具有四大特點(diǎn),即volume(容量),代表海量的數(shù)據(jù)規(guī)模;variety

(種類),代表數(shù)據(jù)類型的多樣性;value(價(jià)值),代表深度的數(shù)據(jù)價(jià)值velocity

(速度),代表數(shù)據(jù)流轉(zhuǎn)的迅速與體系的動(dòng)態(tài)性

4.大數(shù)據(jù)的分析工具主要有哪些?

InfoSphereBiginsights;BigQuery;魔鏡

模塊2思考與練習(xí)

一、選擇題

BCBBD

二、簡(jiǎn)答題

1.列舉Hadoop的功能作用,以及Hadoop的優(yōu)勢(shì)是什么?

答:作用:

hadoop是通過(guò)分布式集群技術(shù),將多個(gè)物理機(jī)或虛擬機(jī)當(dāng)作一臺(tái)機(jī)器運(yùn)行,簡(jiǎn)

單說(shuō)就是做大數(shù)據(jù)的分布式計(jì)算。

優(yōu)點(diǎn):

(1)高可靠性。Hadoop按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴;

(2扃擴(kuò)展性。Hadoop是在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的,

這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。

(3)高效性。Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù),并保證各個(gè)節(jié)點(diǎn)的動(dòng)

念平衡,因此處理速度非???。

(4)高容錯(cuò)性。Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本,并且能夠自動(dòng)將失敗

的任務(wù)重新分配。

2.Hddoop的體系結(jié)構(gòu)是怎樣的,請(qǐng)舉例說(shuō)明。

答:

HDFSSecondary

NameNode

ClientNatneNode

/1二、、

心跳、負(fù)我均衡、發(fā)制等

如上所示,在一個(gè)典型的HDFS集群中,有一個(gè)NameNode、一個(gè)

SecondaryNameNode和至少一個(gè)DataNode而HDFS客戶端數(shù)量并沒有限制。

所有的數(shù)據(jù)均存放在運(yùn)行DataNode進(jìn)程的節(jié)點(diǎn)的塊(block)里。

3.Hadoop與大數(shù)據(jù)、云計(jì)算之間的關(guān)系是什么,主要起什么作用?

答:用一句話概括就是云計(jì)算因大數(shù)據(jù)問(wèn)題而生,大數(shù)據(jù)驅(qū)動(dòng)了云計(jì)算的發(fā)展,

而Hadoop在大數(shù)據(jù)和云計(jì)算之間建起了一座堅(jiān)實(shí)可靠的橋梁。

4.HDFS中數(shù)據(jù)副本的存放策略是什么?

答:在大多數(shù)情況下,副本系數(shù)是3,HDFS的存放策略是將一個(gè)副本存放在本

地機(jī)架節(jié)點(diǎn)上,一個(gè)副本存放在同一個(gè)機(jī)架的另一個(gè)節(jié)點(diǎn)上,最后一個(gè)副本放在

不同機(jī)架的節(jié)點(diǎn)上。這種策略減少了機(jī)架間的數(shù)據(jù)傳輸,提高了寫操作的效率。

機(jī)架的錯(cuò)誤遠(yuǎn)遠(yuǎn)比節(jié)點(diǎn)的錯(cuò)誤少,所以這種策略不會(huì)影響到數(shù)據(jù)的可靠性和可用

性。與此同時(shí),因?yàn)閿?shù)據(jù)塊只存放在兩個(gè)不同的機(jī)架上,所以此策略減少了讀取

數(shù)據(jù)時(shí)需要的網(wǎng)絡(luò)傳輸總帶寬。

5.NameNode和DataNode的功能分別是什么?

答:NameNode是HDFS的大腦,它維護(hù)著整個(gè)文件系統(tǒng)的目錄樹,及

目錄樹里所有的文件和目錄;DataNode被稱為數(shù)據(jù)節(jié)點(diǎn),它是HDFS

的主從架構(gòu)的從角色的扮演者,它在NameNode的指導(dǎo)下完成I/O任

務(wù)。

模塊3思考與練習(xí)

一、選擇題

BCBDDD

二、填空題

1、read()xwrite()

2、硬盤、HA

三、簡(jiǎn)答題

L根據(jù)自己的理解畫出HDFS文件系統(tǒng)中文件讀取的流程,并解釋其中的各個(gè)步

驟。

答:

如上圖所示,HDFS客戶端首先要訪問(wèn)NameNode,并告訴它所要讀取的文

件,在這之前,HDFS會(huì)對(duì)客戶的身份信息進(jìn)行驗(yàn)證。驗(yàn)證的方式有兩種:一種

是通過(guò)信任的客戶端,由其指定用戶名;第二種方式是通過(guò)諸如Kerberos等強(qiáng)

制驗(yàn)證機(jī)制來(lái)完成。接下來(lái)還需要檢查文件的所有者及其設(shè)置的訪問(wèn)權(quán)限。當(dāng)文

件確實(shí)存在,且該用戶對(duì)其有訪問(wèn)權(quán)限時(shí),NameNode會(huì)告訴HDFS客戶端這個(gè)

文件的第一個(gè)數(shù)據(jù)塊的標(biāo)號(hào)及保存有該數(shù)據(jù)塊的DataNode列表。這個(gè)列表是

DataNode與HDFS客戶端間的距離進(jìn)行的排序。有了數(shù)據(jù)塊標(biāo)號(hào)和DataNode

的主機(jī)名,HDFS客戶端便可以直接訪問(wèn)最合適的DataNode,讀取所需要的數(shù)

據(jù)塊。這個(gè)過(guò)程會(huì)一直重復(fù)直到該文件的所有數(shù)據(jù)塊讀取完成或HDFS客戶端主

動(dòng)關(guān)閉了文件流。

2?根據(jù)自己的理解畫出HDFS文件系統(tǒng)中文件寫入的流程,并解釋其中的各個(gè)步

驟。

答:

NaseNode

如上圖所示,首先HDFS客戶端通過(guò)HDFS相關(guān)API發(fā)送請(qǐng)求,打開一個(gè)要

寫入的文件如果該用戶有寫入文件的權(quán)限那么這一請(qǐng)求將被送達(dá)NameNode,

并建立該文件的元數(shù)據(jù)。但此時(shí)新建立的文件元數(shù)據(jù)并未和任何數(shù)據(jù)塊相關(guān)聯(lián),

這時(shí)HDFS客戶端會(huì)收8J〃打開文件成功”的響應(yīng),接著就可以寫入數(shù)據(jù)了。當(dāng)

客戶端將數(shù)據(jù)寫入流時(shí),數(shù)據(jù)會(huì)被自動(dòng)拆分成數(shù)據(jù)包,并將數(shù)據(jù)包保存在內(nèi)存隊(duì)

列中??蛻舳擞幸粋€(gè)獨(dú)立的線程,它從隊(duì)列中讀取數(shù)據(jù)包,并向NameNode請(qǐng)

求一組DataNode列表,以便寫入下一個(gè)數(shù)據(jù)塊的多個(gè)副本。接著,HDFS客戶

端將直接連接到列表中的第一個(gè)DataNode,而該DataNode又連接到第二個(gè)

DataNode,第二個(gè)又連接第三個(gè),如此就建立了數(shù)據(jù)塊的復(fù)制管道。復(fù)制管道

中的每一個(gè)DataNode都會(huì)確認(rèn)所收到的數(shù)據(jù)包已經(jīng)成功寫入磁盤。HDFS客戶

端應(yīng)用程序維護(hù)著一個(gè)列表,記錄著哪些數(shù)據(jù)包尚未收到確認(rèn)信息。每收到一個(gè)

響應(yīng),客戶端便知道數(shù)據(jù)已經(jīng)成功寫入管道中的一個(gè)DataNode.當(dāng)數(shù)據(jù)塊被寫

入列表中的DataNode中時(shí),HDFS客戶端將重新向NameNode申請(qǐng)下一組

DataNode.最終,客戶端將剩余數(shù)據(jù)包寫入全部磁盤,關(guān)閉數(shù)據(jù)管道并通知

NameNode文件寫操作已經(jīng)完成。

模塊4思考與練習(xí)

一、填空題

1.客戶端、JobTracker、TaskTracker.分布式文件系統(tǒng)

2.Client、JobTracker、TaskTracker.Task

二、簡(jiǎn)答題

1.答:MapReduce的執(zhí)行過(guò)程如下:(1)數(shù)據(jù)預(yù)處理:在任務(wù)開始前,首

先調(diào)用類庫(kù),將輸入文件分為多個(gè)分片。(2)任務(wù)分配:JobTracker為集群中

空閑的節(jié)點(diǎn)分配Map任務(wù)或者Reduce任務(wù)。設(shè)集群中有M個(gè)M叩任務(wù)和R個(gè)

Reduce任務(wù)(Reduce任務(wù)數(shù)通常小于Map任務(wù)數(shù))。(3)M叩任務(wù):Mapper

讀取自己所屬的文件分片,將每一條輸入數(shù)據(jù)轉(zhuǎn)換為〈key,value〉鍵值對(duì),使用

M叩函數(shù)對(duì)每一個(gè)鍵值對(duì)進(jìn)行處理,得到一個(gè)新的<key,value〉鍵值對(duì),作為中

間結(jié)果緩存在當(dāng)前節(jié)點(diǎn)。(4)緩存文件定位:M叩任務(wù)得到的中間結(jié)果被周期

性地寫入Mapper所在的本地硬盤中,并把文件的存儲(chǔ)位置信息經(jīng)由JobTracker

傳遞給Reducer。(5)Reducer拉取文件:Reducer通過(guò)位置信息到相應(yīng)的

M叩per處拉取這些文件將同一key對(duì)應(yīng)的所有取值合并得到vkey,list(value)〉

鍵值組。(6)Reduce任務(wù):Reducer將所讀取到的vkey,list(value)>鍵值組

使用Reduce函數(shù)進(jìn)行計(jì)算,得到最終結(jié)果并將其輸出。(7)結(jié)束:當(dāng)所有的

M叩任務(wù)和Reduce任務(wù)運(yùn)行完畢后,系統(tǒng)會(huì)自動(dòng)結(jié)束各個(gè)節(jié)點(diǎn)上的對(duì)應(yīng)進(jìn)程并

將任務(wù)的執(zhí)行情況反饋給用戶。

2.答:M叩Reduce的作業(yè)周期分為五個(gè)階段:(1)作業(yè)提交與初始化:用

戶在提交完作業(yè)之后,JobClient將程序jar程序包、作業(yè)配置文件、分片元信息

文件等作業(yè)相關(guān)信息上傳至分布式文件系統(tǒng)上,分片元信息文件的作用是記錄每

個(gè)輸入分片的邏輯位置信息。當(dāng)JobTracker接受到JobClient的請(qǐng)求后,就會(huì)立

即進(jìn)行初始化,之后在運(yùn)行過(guò)程中需要監(jiān)控作業(yè)運(yùn)行情況,這就需要建立JobIn

Progress對(duì)象,而且可以同時(shí)監(jiān)控多個(gè)任務(wù)的運(yùn)行狀況。(2)任務(wù)調(diào)度與監(jiān)控:

JobTracker是用來(lái)對(duì)任務(wù)進(jìn)行調(diào)度和監(jiān)控的。TaskTracker通過(guò)Heartbeat周期

性的向JobTracke「發(fā)送本節(jié)點(diǎn)資源的使用情況,在有空閑資源的情況下,任務(wù)

調(diào)度命令JobTracker按照一定的計(jì)劃來(lái)選擇合適的空閑資源。任務(wù)調(diào)度器是具

有雙層架構(gòu)、比較獨(dú)立的結(jié)構(gòu),可以完成對(duì)任務(wù)的選擇,選擇任務(wù)需要充分考慮

數(shù)據(jù)的本地性。此外,JobTracker的作用保證任務(wù)運(yùn)行可以成功,并且可以跟蹤

作業(yè)的整個(gè)運(yùn)行過(guò)程。如果TaskTracker或者Task運(yùn)行失敗,則重新進(jìn)行任務(wù)

運(yùn)行時(shí)間的計(jì)算;如果運(yùn)行進(jìn)度落后,也會(huì)重新進(jìn)行計(jì)算;如果其他運(yùn)行結(jié)束,

就重新啟動(dòng)一個(gè)相同Task;最終選取計(jì)算最快的Task結(jié)果作為最終結(jié)果。(3)

任務(wù)運(yùn)行環(huán)境準(zhǔn)備:通過(guò)啟動(dòng)JVM,將資源進(jìn)行隔離,這就基本準(zhǔn)備好了運(yùn)行環(huán)

境,都是通過(guò)TaskTracker來(lái)實(shí)現(xiàn)的。TaskTracker為每個(gè)Task啟動(dòng)一個(gè)獨(dú)立的

JVM,它為了防止Task濫用資源,采用了操作系統(tǒng)進(jìn)程來(lái)實(shí)現(xiàn)隔離。(4)任務(wù)

執(zhí)行:TdskT「acke「準(zhǔn)備好了任務(wù)的執(zhí)行環(huán)境之后,就可以執(zhí)行任務(wù)。在運(yùn)行過(guò)

程中,每個(gè)任務(wù)都匯報(bào)給TaskTracker之后再給JobTracker.(5)作業(yè)完成:

如果其中的所有任務(wù)都執(zhí)行完成,作業(yè)就完成了。

3.答:MapReduce與Spark的異同點(diǎn):

MapReduce是一種高效的適用于分布式處理的并行計(jì)算模型,但是和Spark

對(duì)化,M叩Reduce存在如下一些缺點(diǎn):(1)抽象層次低,需要手工編寫代碼來(lái)

完成;(2)只提供兩個(gè)操作:M叩和Reduce;(3)一個(gè)M叩ReduceJob只有

M叩和Reduce兩個(gè)階段,復(fù)雜的計(jì)算需要由大量的job完成,并且各個(gè)job之

間的依賴關(guān)系由開發(fā)者自己管理;(4)處理邏輯隱藏在代碼細(xì)節(jié)中,沒有整體

邏輯;(5)中間結(jié)果需要放在HDFS文件系統(tǒng)中;(6)延時(shí)高,只適用于處理

離線批量數(shù)據(jù),對(duì)交互式數(shù)據(jù)處理、實(shí)颼據(jù)處理等不支持;(7)對(duì)迭代式數(shù)

據(jù)處理性能不高。

Spark從多個(gè)不同角度彌補(bǔ)了MapReduce的不足,具有以下優(yōu)點(diǎn):(1)基

于RDD的抽象,實(shí)際數(shù)據(jù)處理邏輯的代碼非常簡(jiǎn)短;(2)提供了除Map.Reduce

之外的多種操作,例如join,intersection,union等,對(duì)數(shù)據(jù)處理的方式更加靈

活(3fjob可以包含RDD的多個(gè)轉(zhuǎn)換操作任務(wù)調(diào)度時(shí)可以生成多個(gè)stage,

而且如果map操作的RDD分區(qū)不變,可放在一個(gè)任務(wù)中完成;(4)在scala

中,通過(guò)匿名函數(shù)和高階函數(shù),RDD的轉(zhuǎn)換支持流式API,可提供處理邏輯的整

體DAG視圖,代碼不包含具體操作的實(shí)現(xiàn)細(xì)節(jié),邏輯更清晰;(5)中間結(jié)果放

在內(nèi)存中,內(nèi)存不足時(shí)寫入本地磁盤,而不是HDFS;(6)延時(shí)低,通過(guò)RDD

實(shí)現(xiàn)分布式內(nèi)存的抽象使用,支持多種不同的大數(shù)據(jù)處理場(chǎng)景;(7)通過(guò)在內(nèi)

存中緩存數(shù)據(jù),進(jìn)行迭代式數(shù)據(jù)處理時(shí),性能很高。

模塊5思考與練習(xí)

一、選擇題

1.搜索引擎中用戶查詢所得的信息是(B)。

A.直接在互聯(lián)網(wǎng)中獲取的

B,存儲(chǔ)在網(wǎng)絡(luò)數(shù)據(jù)庫(kù)中的

C.來(lái)自某個(gè)網(wǎng)站的

D.與網(wǎng)頁(yè)連接顯示的

2.對(duì)于搜索引擎蜘蛛(Google稱之為機(jī)器人)程序來(lái)講有三種頁(yè)面非常重

要,以下哪種頁(yè)面不屬于其中?(B)

A.從未抓取過(guò)的新頁(yè)面

B.頁(yè)面內(nèi)容之前被采集過(guò)但有所改動(dòng)的頁(yè)面

C.已被刪除掉的之前被采集過(guò)的頁(yè)面

D.搜索引擎蜘蛛的起始頁(yè)面

3.以下不屬于搜索引擎評(píng)價(jià)指標(biāo)的是(D)。

A.查全率B.查準(zhǔn)率C.響應(yīng)速度D.下載速度

二、填空題

L搜索引擎的組成大致可劃分為4個(gè)部分,第一部分是_搜索引擎蜘蛛程序

_,第二部分是激據(jù)分析系統(tǒng)—,第三部分是—索引系統(tǒng)第四部

分是一用戶查詢系統(tǒng)_。

2.搜索引擎工作工程主要包括三個(gè)階段,分別是網(wǎng)頁(yè)搜集階段,檢索信息生

成階段和用戶查詢服務(wù)階段。

3.垂直網(wǎng)站通常指的是為滿足用戶在某些特定的領(lǐng)域或某種特定的需求提

供有關(guān)這個(gè)領(lǐng)域或需求的全部深度信息和相關(guān)服務(wù)的專業(yè)性網(wǎng)站。

三、簡(jiǎn)答題

L搜索引擎的產(chǎn)生和發(fā)展經(jīng)歷了哪幾個(gè)階段?試簡(jiǎn)述各階段的特點(diǎn)。

答:早期出現(xiàn)的搜索引擎只是檢索FTP網(wǎng)站文件的程序,隨后的搜索引擎

開始收錄網(wǎng)絡(luò)地址形成分類目錄,后續(xù)的發(fā)展中搜索引擎開始收錄標(biāo)題,目前的

搜索引擎,已經(jīng)發(fā)展到抓取網(wǎng)頁(yè)全文階段。

2.簡(jiǎn)述搜索引擎索引系統(tǒng)的形成過(guò)程。

答:1)提取關(guān)鍵詞:通過(guò)結(jié)構(gòu)化、消噪去除掉網(wǎng)頁(yè)中所有的格式代碼,同

時(shí)去除非正文關(guān)鍵詞或停用詞,網(wǎng)頁(yè)的主文字內(nèi)容后應(yīng)用自身的分詞系統(tǒng),將此

文分成一個(gè)分詞列表,然后存儲(chǔ)在數(shù)據(jù)庫(kù)中,并與此文的URL進(jìn)行一對(duì)應(yīng)

2)倒排文件建立索引:在不同索引詞組成的索引表中記錄索引詞ID號(hào),表

明匹配該索引詞的文檔數(shù)量,并匹配文檔在記錄文件內(nèi)的偏移量,通過(guò)這偏移量

就可以讀取記錄文件對(duì)應(yīng)區(qū)域的信息。

3)對(duì)網(wǎng)頁(yè)完成重要度分析并完成排名

3.私有化的Web化數(shù)據(jù)所指代的含義是什么?它的產(chǎn)生有何背景?

答:私有化的Web化數(shù)據(jù)是指垂直網(wǎng)站在達(dá)到一定規(guī)模后,擁有與搜索引

擎同比競(jìng)爭(zhēng)的能力時(shí),會(huì)特意屏蔽搜索引擎的爬蟲,將自己的數(shù)據(jù)私有化。它的

產(chǎn)生一方面由于互聯(lián)網(wǎng)中部分信息并未Web化,另一方面Web化的網(wǎng)頁(yè)中的信

息,搜索引擎也不可能實(shí)現(xiàn)完全抓取。

模塊六思考與練習(xí)

一、選擇題

1.不屬于大數(shù)據(jù)主要的存儲(chǔ)模型的是(D)。

A.關(guān)系型數(shù)據(jù)庫(kù)

B.列式數(shù)據(jù)庫(kù)

C.鍵值存儲(chǔ)

D.視頻數(shù)據(jù)庫(kù)

2.不屬于關(guān)系型數(shù)據(jù)庫(kù)的是(B)。

A.OracleB.SybaseC.DB2D.MicrosoftSQLServer

3.數(shù)據(jù)存儲(chǔ)方式有(D)。

A.在線存儲(chǔ)B.近線存儲(chǔ)C.異地備份D.以上皆對(duì)

二、填空題

1.云存儲(chǔ)系統(tǒng)的結(jié)構(gòu)模型由4層組成:存儲(chǔ)層、基礎(chǔ)管理層、應(yīng)用接口層

和訪問(wèn)層。

2.在一個(gè)圖形數(shù)據(jù)庫(kù)中,最主要的組成有兩種:結(jié)點(diǎn)集和連接結(jié)點(diǎn)的關(guān)系。

3.分布式存儲(chǔ)系統(tǒng)具有如下幾個(gè)特性:可擴(kuò)展。(2)低成本自動(dòng)運(yùn)維。(3)

高性能(4)易用。

三、簡(jiǎn)答題

L簡(jiǎn)述大數(shù)據(jù)存儲(chǔ)的概念。

數(shù)據(jù)存儲(chǔ)是指數(shù)據(jù)流在加工過(guò)程中產(chǎn)生的臨時(shí)文件或需要查找的信息的存

儲(chǔ)。數(shù)據(jù)以某種格式記錄在計(jì)算機(jī)內(nèi)部或外部存儲(chǔ)介質(zhì)上。數(shù)據(jù)存儲(chǔ)要命名,這

種命名要反映信息特征的組成含義。數(shù)據(jù)流反映了系統(tǒng)中流動(dòng)的數(shù)據(jù),表現(xiàn)出動(dòng)

態(tài)數(shù)據(jù)的特征;數(shù)據(jù)存儲(chǔ)反映系統(tǒng)中靜止的數(shù)據(jù),表現(xiàn)出靜態(tài)數(shù)據(jù)的特征。

2.大數(shù)據(jù)存儲(chǔ)的常見問(wèn)題是什么?

1.容量

2,延遲

3.安全問(wèn)題

4成本

5.數(shù)據(jù)保存

6.靈活性

7.應(yīng)用感知

8,小用戶

3.大數(shù)據(jù)存儲(chǔ)的方式有哪幾種?

關(guān)系型數(shù)據(jù)庫(kù)、列式數(shù)據(jù)庫(kù)、鍵值存儲(chǔ)、文檔存儲(chǔ)、圖形數(shù)據(jù)庫(kù)

模塊7思考與練習(xí)

一、選擇題

1.以下不屬于大數(shù)據(jù)基本特征的是(D)。

A.數(shù)據(jù)規(guī)模龐大

B.數(shù)據(jù)的形式多樣化

C.數(shù)據(jù)的獲取及處理速度快

D.數(shù)據(jù)的處理具有實(shí)時(shí)性

2.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則分析最典型的算法是(D)。

A.KNN算法B.NaiveBayes算法C.k-means算法D.Aprior算法

3.大數(shù)據(jù)處理流程中的第二個(gè)步驟是(A)。

A,數(shù)據(jù)的導(dǎo)入和預(yù)處理B.數(shù)據(jù)的統(tǒng)計(jì)與分析C.數(shù)據(jù)清洗D.數(shù)據(jù)的

采集

二、填空題

L數(shù)據(jù)倉(cāng)庫(kù)是一組支持決策過(guò)程的、面向主題的、集成的、隨時(shí)間而變的持

久的數(shù)據(jù)集合。

2.數(shù)據(jù)挖掘的最終目標(biāo)是獲取數(shù)據(jù)的有效價(jià)值,其具體的實(shí)際應(yīng)用功能可分

為三大類、六分項(xiàng)來(lái)說(shuō)明:—分類—和』類_屬于分類區(qū)隔類;_回歸分

析一和—時(shí)間序列―屬于推算預(yù)測(cè)類;關(guān)聯(lián)規(guī)則—和____序列模式

______屬于關(guān)聯(lián)分析類。

3.在數(shù)據(jù)挖掘的分類算法中比較典型的算法是一NaiveBayes—算法和

_KNN算法。

三、簡(jiǎn)答題

L大數(shù)據(jù)時(shí)代數(shù)據(jù)的存儲(chǔ)與管理與傳統(tǒng)數(shù)據(jù)存儲(chǔ)方式有何區(qū)別?

答:傳統(tǒng)數(shù)據(jù)管理方法的局限性及大數(shù)據(jù)的現(xiàn)實(shí)條件促使新的數(shù)據(jù)庫(kù)設(shè)計(jì)的

出現(xiàn),在新的數(shù)據(jù)庫(kù)設(shè)計(jì)中,原本數(shù)據(jù)庫(kù)模式中存在的記錄和預(yù)設(shè)場(chǎng)域(成規(guī)數(shù)

據(jù)的整齊排列)的規(guī)律被替代。大數(shù)據(jù)為適應(yīng)信息發(fā)展的需要,運(yùn)用非關(guān)系型數(shù)

據(jù)庫(kù)作為一種新型數(shù)據(jù)庫(kù)設(shè),它不需要預(yù)先設(shè)定記錄結(jié)構(gòu),同時(shí)允許處理規(guī)模龐

大、結(jié)構(gòu)復(fù)雜的數(shù)據(jù)。

2.數(shù)據(jù)挖掘中典型的聚類算法有哪些?

答:為了找到效率高、通用性強(qiáng)的聚類方法,根據(jù)劃分條件的不同有多種聚

類算法,典型的有K-means方法、K-medoids方法、CLARANS方法、BIRCH方

法等。

3.大數(shù)據(jù)分析中重要的五個(gè)方面分別指什么?它們各自完成的任務(wù)有哪

些?

答:1)可視化分析:運(yùn)用一些數(shù)據(jù)分析的工具將數(shù)據(jù)轉(zhuǎn)化為圖的形式,達(dá)

到"看圖說(shuō)話”的效果。

2)數(shù)據(jù)挖掘算法:運(yùn)用挖掘算法處理海量的數(shù)據(jù)并更加科學(xué)地呈現(xiàn)出數(shù)據(jù)

本身具備的特點(diǎn)。

3)預(yù)測(cè)性分析能力:作用是讓數(shù)據(jù)分析員可以根據(jù)數(shù)據(jù)可視化分析和數(shù)據(jù)

挖掘計(jì)算所得結(jié)果對(duì)未來(lái)的相關(guān)事物做出一些預(yù)測(cè)性的判斷。

4)語(yǔ)義引擎:借助語(yǔ)義引擎,可從用戶的搜索關(guān)鍵詞、標(biāo)簽關(guān)鍵詞或其他

輸入語(yǔ)義,分析、判斷用戶需求

5)數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理:高質(zhì)量的數(shù)據(jù)和有效的數(shù)據(jù)管理,無(wú)論是在學(xué)術(shù)

研究還是在商業(yè)應(yīng)用領(lǐng)域,都能夠保證分析結(jié)果的真實(shí)和有價(jià)值。

模塊八思考與練習(xí)

一、選擇題

1.不屬于數(shù)據(jù)可視化技術(shù)的主題是(D)。

A.數(shù)據(jù)的顯示

B.連接的顯示

C.網(wǎng)站的顯示

D.信息可視化

2.不屬于數(shù)據(jù)可視化展現(xiàn)方式(c)。

A.魚骨圖B.柏拉圖C.回歸圖D.直方圖

3.大數(shù)據(jù)可視化分析工具有(c)。

A.WordB.PPTC.ExcelD.GooglePinyin

二、填空題

1統(tǒng)計(jì)學(xué)領(lǐng)域有一組統(tǒng)計(jì)量是用來(lái)描述樣本的集中趨勢(shì)的,它們就是:平

均數(shù)、和中數(shù)眾數(shù)

2.正態(tài)分布:也稱常態(tài)分布,正態(tài)分布是一種概率分布。

3.直方圖(Histogram)又稱質(zhì)量分布圖。是一種統(tǒng)計(jì)報(bào)告圖,由

一系列高度不等的縱向條紋或線段表示數(shù)據(jù)分布的情況。

三、簡(jiǎn)答題

1.常用的數(shù)據(jù)整理技術(shù)有哪些?

回退模型可視化相關(guān)性變化分析差異分析預(yù)測(cè)群集技術(shù)決

策樹神經(jīng)網(wǎng)絡(luò)

2,使用分析Excel和GoogleSpreadsheets,分析它們之間的優(yōu)缺點(diǎn)、

Excel功能更加完善能完成的分析更多GoogleSpreadsheets基于網(wǎng)絡(luò)的,

更好的在線實(shí)時(shí)編輯,更好的網(wǎng)絡(luò)交互。

3.發(fā)展大數(shù)據(jù)可視化,那么傳統(tǒng)的數(shù)據(jù)和信息的表示方式是否還有意義?

答:當(dāng)然有意義。

模塊9思考與練習(xí)

一、填空題

1.機(jī)密性(Confidentiality)、完整性(Integrity)、可用性(Availability)

2.物理安全、網(wǎng)絡(luò)安全、應(yīng)用安全、數(shù)據(jù)隱私

3.網(wǎng)絡(luò)黑客和病毒攻擊威脅、信息資源泄露威脅、網(wǎng)絡(luò)漏洞威脅

二、簡(jiǎn)答題

1.答:數(shù)據(jù)處理的安全廚敢口何有效的防止數(shù)據(jù)在錄入、處理、統(tǒng)計(jì)或打印

中由于硬件故障、斷電、死機(jī)、人為的誤操作、程序缺陷、病毒或黑客等造成的

數(shù)據(jù)庫(kù)損壞或數(shù)據(jù)丟失現(xiàn)象,某些敏感或保密的數(shù)據(jù)可能被不具備資格的人員或

操作員閱讀,而造成數(shù)據(jù)泄密等后果。

2,答:數(shù)據(jù)存儲(chǔ)的安全是指數(shù)據(jù)庫(kù)在系統(tǒng)運(yùn)行之外的可讀性。一旦數(shù)據(jù)庫(kù)被

盜,即使沒有原來(lái)的系統(tǒng)程序,照樣可以另外編寫程序?qū)ΡI取的數(shù)據(jù)庫(kù)進(jìn)行查看

或修改。

3?答:大數(shù)據(jù)的安全機(jī)制可從網(wǎng)絡(luò)安全、數(shù)據(jù)安全、應(yīng)用安全、終端安全等

各個(gè)管理角度加強(qiáng)大數(shù)據(jù)的安全防范。

(1)網(wǎng)絡(luò)安全

網(wǎng)絡(luò)是輸送大數(shù)據(jù)資源的主要途徑,通過(guò)強(qiáng)化網(wǎng)絡(luò)基礎(chǔ)設(shè)施安全保障,可以

提高大數(shù)據(jù)環(huán)境的安全??蓮娜缦滤膫€(gè)方面加強(qiáng)網(wǎng)絡(luò)安全的保障措施:一是通過(guò)

訪問(wèn)控制,以用戶身份認(rèn)證為前提,實(shí)施各種策略來(lái)控制和規(guī)范用戶在系統(tǒng)中的

行為,從而達(dá)到維護(hù)系統(tǒng)安全和保護(hù)網(wǎng)絡(luò)資源的目的;二是通過(guò)鏈路加密,建立

虛擬專用網(wǎng)絡(luò),隔離公用網(wǎng)絡(luò)上的其他數(shù)據(jù),防止數(shù)據(jù)被截?。蝗峭ㄟ^(guò)隔離技

術(shù),對(duì)數(shù)據(jù)中心內(nèi)、外網(wǎng)絡(luò)區(qū)域之間的數(shù)據(jù)流量進(jìn)行分析、檢測(cè)、管理和控制,

從而保護(hù)目標(biāo)數(shù)據(jù)源免受外部非法用戶的侵入訪問(wèn);四是通過(guò)網(wǎng)絡(luò)審計(jì),監(jiān)聽捕

獲并分析網(wǎng)絡(luò)數(shù)據(jù)包,準(zhǔn)確記錄網(wǎng)絡(luò)訪問(wèn)的關(guān)鍵信息,通過(guò)統(tǒng)一的策略設(shè)置的規(guī)

則,智能地判斷出網(wǎng)絡(luò)異常行為,并對(duì)異常行為進(jìn)行記錄、報(bào)警和阻斷,保護(hù)業(yè)

務(wù)的正常運(yùn)行。

(2)虛擬化安全

虛擬化技術(shù)是大數(shù)據(jù)概念的一個(gè)基礎(chǔ)組成部分,它加強(qiáng)了基礎(chǔ)設(shè)施、軟件平

臺(tái)、業(yè)務(wù)系統(tǒng)的擴(kuò)展能力,同時(shí)也使得傳統(tǒng)物理安全邊界逐漸缺失。力口強(qiáng)虛擬環(huán)

境中的安全機(jī)制與傳統(tǒng)物理環(huán)境中的安全措施,才能更好地保障在虛擬化基礎(chǔ)之

上為大數(shù)據(jù)提供的各類應(yīng)用和服務(wù)的安全??蓮娜缦聝蓚€(gè)方面加強(qiáng)虛擬化安全的

保障措施:一是在虛擬化軟件層面建立必要的安全控制措施,限制對(duì)虛擬化軟件

的物理和邏輯訪問(wèn)控制;二是在虛擬化硬件方面建立基于虛擬主機(jī)的專業(yè)的防火

墻系統(tǒng)、殺毒軟件、日志系締口恢復(fù)系統(tǒng),同時(shí)對(duì)于每臺(tái)虛擬化服務(wù)器設(shè)置獨(dú)立

的硬盤分區(qū),用以系統(tǒng)和日常數(shù)據(jù)的備份。

(3)數(shù)據(jù)安全

基于數(shù)據(jù)層面的保護(hù)最直接的安全技術(shù)包括兩方面的內(nèi)容:一是數(shù)據(jù)加密,

深入數(shù)據(jù)層保護(hù)數(shù)據(jù)安全,針對(duì)不同的數(shù)據(jù)采用不同的加密算法,實(shí)施不同等級(jí)

的加密控制策略,有效地杜絕機(jī)密信息泄漏和竊取事件;二是數(shù)據(jù)備份,將系統(tǒng)

中的數(shù)據(jù)進(jìn)行復(fù)制,當(dāng)數(shù)據(jù)存儲(chǔ)系統(tǒng)由于系統(tǒng)崩潰、黑客入侵以及管理員的誤操

作等導(dǎo)致數(shù)據(jù)丟失和損壞時(shí),能夠方便且及時(shí)地恢復(fù)系統(tǒng)中的有效數(shù)據(jù),以保證

系統(tǒng)正常運(yùn)行。通過(guò)以上措施可以保障大數(shù)據(jù)在數(shù)據(jù)方面的安全性。

(4)應(yīng)用安全

由于大數(shù)據(jù)環(huán)境的靈活性、開放性以及公眾可用性等特性,部署應(yīng)用程序時(shí)

應(yīng)提高應(yīng)用方面的安全意識(shí),充分考慮應(yīng)用可能引發(fā)的各類安全風(fēng)險(xiǎn)。加強(qiáng)各類

程序接口在功能設(shè)計(jì)、開發(fā)、測(cè)試、上線等覆蓋生命周期過(guò)程的安全實(shí)踐,廣泛

采用更加全面的安全測(cè)試用例,在處理敏感數(shù)據(jù)的應(yīng)用程序與服務(wù)器之間通信時(shí)

采用加密技術(shù),通過(guò)以上措施可以保障大數(shù)據(jù)在應(yīng)用方面的安全性。

(5)終端安全

隨著云計(jì)算、移動(dòng)互聯(lián)網(wǎng)等技術(shù)的發(fā)展,用戶終端種類不斷增加,很多應(yīng)用

程序被攻擊者利用收集隱私和重要數(shù)據(jù)。用戶終端上應(yīng)部署安全軟件,包括反惡

意軟件、防病毒、個(gè)人防火墻以及入侵防御系統(tǒng)(IPS:IntrusionPrevention

System)類型的軟件,并及時(shí)完成應(yīng)用安全更新,注重自身賬號(hào)密碼的安全保

護(hù),盡量不在陌生的終端上使用公共服務(wù);同時(shí)還應(yīng)采用屏蔽、抗干擾等技術(shù)防

止電磁泄漏,可從一定程度上降低大數(shù)據(jù)失竊的風(fēng)險(xiǎn),增強(qiáng)大數(shù)據(jù)在終端方面的

安全性。

4.答:大數(shù)據(jù)的安全防護(hù)技術(shù)可從以下五方面進(jìn)行相應(yīng)技術(shù)的研究:

(1)數(shù)據(jù)發(fā)布匿名保護(hù)技術(shù)

對(duì)于非結(jié)構(gòu)化數(shù)據(jù)要有效地實(shí)現(xiàn)用戶數(shù)據(jù)安全和隱私保護(hù),數(shù)據(jù)發(fā)布匿名保

護(hù)技術(shù)是關(guān)鍵點(diǎn),但是這一技術(shù)還需要不斷發(fā)掘和完善?,F(xiàn)有的大部分?jǐn)?shù)據(jù)發(fā)布

匿名保護(hù)技術(shù)的基本理論,設(shè)定環(huán)境大多是用戶一次性、靜態(tài)地發(fā)布數(shù)據(jù)。如通

過(guò)元組泛化和抑制處理方式分組標(biāo)識(shí)符,用k匿名模式對(duì)有共同屬性的集合進(jìn)行

匿名處理,但這樣容易漏掉某個(gè)特殊的屬性。通常情況下現(xiàn)實(shí)生活中的數(shù)據(jù)發(fā)布

普遍是連續(xù)、多次的,在大數(shù)據(jù)復(fù)雜的環(huán)境中,要實(shí)現(xiàn)數(shù)據(jù)發(fā)布匿名保護(hù)技術(shù)較

為困難。攻擊者可以從不同的發(fā)布點(diǎn)、不同的渠道獲取各類信息,所獲得的信息

將幫助攻擊者確定攻擊目標(biāo)的用戶信息。因此數(shù)據(jù)發(fā)布匿名保護(hù)技術(shù)還需要信息

領(lǐng)域的研究人員投入更多的精力多加研究。

(2)社交網(wǎng)絡(luò)匿名保護(hù)技術(shù)

包含了大量用戶隱私的非結(jié)構(gòu)化數(shù)據(jù)大多產(chǎn)生于社交網(wǎng)絡(luò),這類數(shù)據(jù)最顯著

的特征就是圖結(jié)構(gòu),因而數(shù)據(jù)發(fā)布保護(hù)技術(shù)無(wú)法滿足這類數(shù)據(jù)的安全隱私保護(hù)需

求。一般攻擊者都會(huì)利用點(diǎn)和邊的相關(guān)屬性,通過(guò)分析整合,重新鑒定出用戶的

身份信息.因此在社交網(wǎng)絡(luò)中實(shí)現(xiàn)數(shù)據(jù)安全與隱私保護(hù)技術(shù),需要結(jié)合其圖結(jié)構(gòu)

的特點(diǎn),進(jìn)行用戶標(biāo)識(shí)匿名以及屬性匿名(點(diǎn)匿名),即在數(shù)據(jù)發(fā)布時(shí)對(duì)用戶標(biāo)

識(shí)和屬性信息進(jìn)行隱藏處理;同時(shí)對(duì)用戶間關(guān)系匿名(邊匿名),即在數(shù)據(jù)發(fā)布

時(shí)對(duì)用戶之間的關(guān)系連接進(jìn)行隱藏處理。這是社交網(wǎng)絡(luò)數(shù)據(jù)安全與隱私保護(hù)的要

點(diǎn),可以防止攻擊者通過(guò)用戶在不同渠道發(fā)布的數(shù)據(jù),或者是用戶之間的邊聯(lián)系

推測(cè)出原本受匿名保護(hù)的用戶,破解匿名保護(hù)。研

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論