《大數(shù)據(jù)基礎(chǔ)與應(yīng)用》習(xí)題答案

上傳人：奔*** IP屬地：河北上傳時(shí)間：2024-09-23 格式：PDF 頁(yè)數(shù)：19 大?。?.22MB 積分：12 舉報(bào) 版權(quán)申訴

《大數(shù)據(jù)基礎(chǔ)與應(yīng)用》習(xí)題答案_第2頁(yè)

《大數(shù)據(jù)基礎(chǔ)與應(yīng)用》習(xí)題答案_第3頁(yè)

《大數(shù)據(jù)基礎(chǔ)與應(yīng)用》習(xí)題答案_第4頁(yè)

《大數(shù)據(jù)基礎(chǔ)與應(yīng)用》習(xí)題答案_第5頁(yè)

已閱讀5頁(yè)，還剩14頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

模塊一思考與練習(xí)

一、填空題

1.數(shù)據(jù)的類型有很多種，主要分為三種，即—結(jié)構(gòu)化數(shù)據(jù)和_、半結(jié)構(gòu)化

數(shù)據(jù)_和_非結(jié)構(gòu)化數(shù)據(jù)—0

2.大數(shù)據(jù)的三個(gè)明顯特征分別是：―數(shù)據(jù)量大、數(shù)據(jù)實(shí)時(shí)性與數(shù)據(jù)多樣性」

3.魔鏡現(xiàn)在有五個(gè)版本，即企業(yè)基礎(chǔ)版、企業(yè)標(biāo)準(zhǔn)版、企業(yè)高級(jí)版、—云平

臺(tái)版和Hadoop版。

二、簡(jiǎn)答題

1.簡(jiǎn)述大數(shù)據(jù)的定義。

大數(shù)據(jù)（bigdata,megadata）,或稱巨量資料，指的是需要新處理模式才

能具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息

資產(chǎn)。

2.大數(shù)據(jù)的價(jià)值表現(xiàn)在哪幾個(gè)方面？

1）大數(shù)據(jù)是新時(shí)代信息技術(shù)的關(guān)鍵支撐

2）大數(shù)據(jù)是促進(jìn)現(xiàn)代社會(huì)經(jīng)濟(jì)發(fā)展的推動(dòng)力

3）大數(shù)據(jù)將成為科技創(chuàng)新的引擎

3.大數(shù)據(jù)的特點(diǎn)有哪些？

大數(shù)據(jù)具有四大特點(diǎn)，即volume（容量），代表海量的數(shù)據(jù)規(guī)模;variety

（種類），代表數(shù)據(jù)類型的多樣性；value（價(jià)值），代表深度的數(shù)據(jù)價(jià)值velocity

（速度），代表數(shù)據(jù)流轉(zhuǎn)的迅速與體系的動(dòng)態(tài)性

4.大數(shù)據(jù)的分析工具主要有哪些？

InfoSphereBiginsights；BigQuery；魔鏡

模塊2思考與練習(xí)

一、選擇題

BCBBD

二、簡(jiǎn)答題

1.列舉Hadoop的功能作用，以及Hadoop的優(yōu)勢(shì)是什么？

答：作用：

hadoop是通過(guò)分布式集群技術(shù)，將多個(gè)物理機(jī)或虛擬機(jī)當(dāng)作一臺(tái)機(jī)器運(yùn)行，簡(jiǎn)

單說(shuō)就是做大數(shù)據(jù)的分布式計(jì)算。

優(yōu)點(diǎn)：

(1)高可靠性。Hadoop按位存儲(chǔ)和處理數(shù)據(jù)的能力值得人們信賴；

(2扃擴(kuò)展性。Hadoop是在可用的計(jì)算機(jī)集簇間分配數(shù)據(jù)并完成計(jì)算任務(wù)的，

這些集簇可以方便地?cái)U(kuò)展到數(shù)以千計(jì)的節(jié)點(diǎn)中。

(3)高效性。Hadoop能夠在節(jié)點(diǎn)之間動(dòng)態(tài)地移動(dòng)數(shù)據(jù)，并保證各個(gè)節(jié)點(diǎn)的動(dòng)

念平衡，因此處理速度非?？?。

(4)高容錯(cuò)性。Hadoop能夠自動(dòng)保存數(shù)據(jù)的多個(gè)副本，并且能夠自動(dòng)將失敗

的任務(wù)重新分配。

2.Hddoop的體系結(jié)構(gòu)是怎樣的，請(qǐng)舉例說(shuō)明。

答：

HDFSSecondary

NameNode

ClientNatneNode

/1二、、

心跳、負(fù)我均衡、發(fā)制等

▼

如上所示，在一個(gè)典型的HDFS集群中，有一個(gè)NameNode、一個(gè)

SecondaryNameNode和至少一個(gè)DataNode而HDFS客戶端數(shù)量并沒有限制。

所有的數(shù)據(jù)均存放在運(yùn)行DataNode進(jìn)程的節(jié)點(diǎn)的塊（block）里。

3.Hadoop與大數(shù)據(jù)、云計(jì)算之間的關(guān)系是什么,主要起什么作用？

答：用一句話概括就是云計(jì)算因大數(shù)據(jù)問(wèn)題而生，大數(shù)據(jù)驅(qū)動(dòng)了云計(jì)算的發(fā)展,

而Hadoop在大數(shù)據(jù)和云計(jì)算之間建起了一座堅(jiān)實(shí)可靠的橋梁。

4.HDFS中數(shù)據(jù)副本的存放策略是什么?

答：在大多數(shù)情況下,副本系數(shù)是3,HDFS的存放策略是將一個(gè)副本存放在本

地機(jī)架節(jié)點(diǎn)上，一個(gè)副本存放在同一個(gè)機(jī)架的另一個(gè)節(jié)點(diǎn)上,最后一個(gè)副本放在

不同機(jī)架的節(jié)點(diǎn)上。這種策略減少了機(jī)架間的數(shù)據(jù)傳輸，提高了寫操作的效率。

機(jī)架的錯(cuò)誤遠(yuǎn)遠(yuǎn)比節(jié)點(diǎn)的錯(cuò)誤少，所以這種策略不會(huì)影響到數(shù)據(jù)的可靠性和可用

性。與此同時(shí)，因?yàn)閿?shù)據(jù)塊只存放在兩個(gè)不同的機(jī)架上，所以此策略減少了讀取

數(shù)據(jù)時(shí)需要的網(wǎng)絡(luò)傳輸總帶寬。

5.NameNode和DataNode的功能分別是什么？

答：NameNode是HDFS的大腦，它維護(hù)著整個(gè)文件系統(tǒng)的目錄樹，及

目錄樹里所有的文件和目錄；DataNode被稱為數(shù)據(jù)節(jié)點(diǎn)，它是HDFS

的主從架構(gòu)的從角色的扮演者，它在NameNode的指導(dǎo)下完成I/O任

務(wù)。

模塊3思考與練習(xí)

一、選擇題

BCBDDD

二、填空題

1、read()xwrite()

2、硬盤、HA

三、簡(jiǎn)答題

L根據(jù)自己的理解畫出HDFS文件系統(tǒng)中文件讀取的流程，并解釋其中的各個(gè)步

驟。

答：

如上圖所示，HDFS客戶端首先要訪問(wèn)NameNode,并告訴它所要讀取的文

件，在這之前，HDFS會(huì)對(duì)客戶的身份信息進(jìn)行驗(yàn)證。驗(yàn)證的方式有兩種：一種

是通過(guò)信任的客戶端，由其指定用戶名；第二種方式是通過(guò)諸如Kerberos等強(qiáng)

制驗(yàn)證機(jī)制來(lái)完成。接下來(lái)還需要檢查文件的所有者及其設(shè)置的訪問(wèn)權(quán)限。當(dāng)文

件確實(shí)存在，且該用戶對(duì)其有訪問(wèn)權(quán)限時(shí)，NameNode會(huì)告訴HDFS客戶端這個(gè)

文件的第一個(gè)數(shù)據(jù)塊的標(biāo)號(hào)及保存有該數(shù)據(jù)塊的DataNode列表。這個(gè)列表是

DataNode與HDFS客戶端間的距離進(jìn)行的排序。有了數(shù)據(jù)塊標(biāo)號(hào)和DataNode

的主機(jī)名，HDFS客戶端便可以直接訪問(wèn)最合適的DataNode,讀取所需要的數(shù)

據(jù)塊。這個(gè)過(guò)程會(huì)一直重復(fù)直到該文件的所有數(shù)據(jù)塊讀取完成或HDFS客戶端主

動(dòng)關(guān)閉了文件流。

2?根據(jù)自己的理解畫出HDFS文件系統(tǒng)中文件寫入的流程，并解釋其中的各個(gè)步

驟。

答：

NaseNode

如上圖所示，首先HDFS客戶端通過(guò)HDFS相關(guān)API發(fā)送請(qǐng)求，打開一個(gè)要

寫入的文件如果該用戶有寫入文件的權(quán)限那么這一請(qǐng)求將被送達(dá)NameNode,

并建立該文件的元數(shù)據(jù)。但此時(shí)新建立的文件元數(shù)據(jù)并未和任何數(shù)據(jù)塊相關(guān)聯(lián)，

這時(shí)HDFS客戶端會(huì)收8J〃打開文件成功”的響應(yīng)，接著就可以寫入數(shù)據(jù)了。當(dāng)

客戶端將數(shù)據(jù)寫入流時(shí)，數(shù)據(jù)會(huì)被自動(dòng)拆分成數(shù)據(jù)包，并將數(shù)據(jù)包保存在內(nèi)存隊(duì)

列中?？蛻舳擞幸粋€(gè)獨(dú)立的線程，它從隊(duì)列中讀取數(shù)據(jù)包，并向NameNode請(qǐng)

求一組DataNode列表，以便寫入下一個(gè)數(shù)據(jù)塊的多個(gè)副本。接著，HDFS客戶

端將直接連接到列表中的第一個(gè)DataNode,而該DataNode又連接到第二個(gè)

DataNode,第二個(gè)又連接第三個(gè)，如此就建立了數(shù)據(jù)塊的復(fù)制管道。復(fù)制管道

中的每一個(gè)DataNode都會(huì)確認(rèn)所收到的數(shù)據(jù)包已經(jīng)成功寫入磁盤。HDFS客戶

端應(yīng)用程序維護(hù)著一個(gè)列表，記錄著哪些數(shù)據(jù)包尚未收到確認(rèn)信息。每收到一個(gè)

響應(yīng)，客戶端便知道數(shù)據(jù)已經(jīng)成功寫入管道中的一個(gè)DataNode.當(dāng)數(shù)據(jù)塊被寫

入列表中的DataNode中時(shí)，HDFS客戶端將重新向NameNode申請(qǐng)下一組

DataNode.最終，客戶端將剩余數(shù)據(jù)包寫入全部磁盤，關(guān)閉數(shù)據(jù)管道并通知

NameNode文件寫操作已經(jīng)完成。

模塊4思考與練習(xí)

一、填空題

1.客戶端、JobTracker、TaskTracker.分布式文件系統(tǒng)

2.Client、JobTracker、TaskTracker.Task

二、簡(jiǎn)答題

1.答：MapReduce的執(zhí)行過(guò)程如下：（1）數(shù)據(jù)預(yù)處理：在任務(wù)開始前，首

先調(diào)用類庫(kù)，將輸入文件分為多個(gè)分片。（2）任務(wù)分配：JobTracker為集群中

空閑的節(jié)點(diǎn)分配Map任務(wù)或者Reduce任務(wù)。設(shè)集群中有M個(gè)M叩任務(wù)和R個(gè)

Reduce任務(wù)（Reduce任務(wù)數(shù)通常小于Map任務(wù)數(shù)）。（3）M叩任務(wù)：Mapper

讀取自己所屬的文件分片,將每一條輸入數(shù)據(jù)轉(zhuǎn)換為〈key,value〉鍵值對(duì)，使用

M叩函數(shù)對(duì)每一個(gè)鍵值對(duì)進(jìn)行處理,得到一個(gè)新的＜key,value〉鍵值對(duì)，作為中

間結(jié)果緩存在當(dāng)前節(jié)點(diǎn)。（4）緩存文件定位：M叩任務(wù)得到的中間結(jié)果被周期

性地寫入Mapper所在的本地硬盤中，并把文件的存儲(chǔ)位置信息經(jīng)由JobTracker

傳遞給Reducer。（5）Reducer拉取文件：Reducer通過(guò)位置信息到相應(yīng)的

M叩per處拉取這些文件將同一key對(duì)應(yīng)的所有取值合并得到vkey,list（value）〉

鍵值組。（6）Reduce任務(wù):Reducer將所讀取到的vkey,list（value）＞鍵值組

使用Reduce函數(shù)進(jìn)行計(jì)算，得到最終結(jié)果并將其輸出。（7）結(jié)束：當(dāng)所有的

M叩任務(wù)和Reduce任務(wù)運(yùn)行完畢后，系統(tǒng)會(huì)自動(dòng)結(jié)束各個(gè)節(jié)點(diǎn)上的對(duì)應(yīng)進(jìn)程并

將任務(wù)的執(zhí)行情況反饋給用戶。

2.答：M叩Reduce的作業(yè)周期分為五個(gè)階段：（1）作業(yè)提交與初始化：用

戶在提交完作業(yè)之后，JobClient將程序jar程序包、作業(yè)配置文件、分片元信息

文件等作業(yè)相關(guān)信息上傳至分布式文件系統(tǒng)上，分片元信息文件的作用是記錄每

個(gè)輸入分片的邏輯位置信息。當(dāng)JobTracker接受到JobClient的請(qǐng)求后，就會(huì)立

即進(jìn)行初始化，之后在運(yùn)行過(guò)程中需要監(jiān)控作業(yè)運(yùn)行情況，這就需要建立JobIn

Progress對(duì)象，而且可以同時(shí)監(jiān)控多個(gè)任務(wù)的運(yùn)行狀況。（2）任務(wù)調(diào)度與監(jiān)控：

JobTracker是用來(lái)對(duì)任務(wù)進(jìn)行調(diào)度和監(jiān)控的。TaskTracker通過(guò)Heartbeat周期

性的向JobTracke「發(fā)送本節(jié)點(diǎn)資源的使用情況，在有空閑資源的情況下，任務(wù)

調(diào)度命令JobTracker按照一定的計(jì)劃來(lái)選擇合適的空閑資源。任務(wù)調(diào)度器是具

有雙層架構(gòu)、比較獨(dú)立的結(jié)構(gòu)，可以完成對(duì)任務(wù)的選擇，選擇任務(wù)需要充分考慮

數(shù)據(jù)的本地性。此外,JobTracker的作用保證任務(wù)運(yùn)行可以成功，并且可以跟蹤

作業(yè)的整個(gè)運(yùn)行過(guò)程。如果TaskTracker或者Task運(yùn)行失敗，則重新進(jìn)行任務(wù)

運(yùn)行時(shí)間的計(jì)算；如果運(yùn)行進(jìn)度落后，也會(huì)重新進(jìn)行計(jì)算；如果其他運(yùn)行結(jié)束，

就重新啟動(dòng)一個(gè)相同Task;最終選取計(jì)算最快的Task結(jié)果作為最終結(jié)果。（3）

任務(wù)運(yùn)行環(huán)境準(zhǔn)備：通過(guò)啟動(dòng)JVM,將資源進(jìn)行隔離，這就基本準(zhǔn)備好了運(yùn)行環(huán)

境，都是通過(guò)TaskTracker來(lái)實(shí)現(xiàn)的。TaskTracker為每個(gè)Task啟動(dòng)一個(gè)獨(dú)立的

JVM,它為了防止Task濫用資源,采用了操作系統(tǒng)進(jìn)程來(lái)實(shí)現(xiàn)隔離。（4）任務(wù)

執(zhí)行：TdskT「acke「準(zhǔn)備好了任務(wù)的執(zhí)行環(huán)境之后,就可以執(zhí)行任務(wù)。在運(yùn)行過(guò)

程中，每個(gè)任務(wù)都匯報(bào)給TaskTracker之后再給JobTracker.（5）作業(yè)完成：

如果其中的所有任務(wù)都執(zhí)行完成，作業(yè)就完成了。

3.答：MapReduce與Spark的異同點(diǎn)：

MapReduce是一種高效的適用于分布式處理的并行計(jì)算模型，但是和Spark

對(duì)化，M叩Reduce存在如下一些缺點(diǎn)：（1）抽象層次低,需要手工編寫代碼來(lái)

完成；（2）只提供兩個(gè)操作：M叩和Reduce;（3）一個(gè)M叩ReduceJob只有

M叩和Reduce兩個(gè)階段，復(fù)雜的計(jì)算需要由大量的job完成，并且各個(gè)job之

間的依賴關(guān)系由開發(fā)者自己管理；（4）處理邏輯隱藏在代碼細(xì)節(jié)中，沒有整體

邏輯；（5）中間結(jié)果需要放在HDFS文件系統(tǒng)中；（6）延時(shí)高，只適用于處理

離線批量數(shù)據(jù)，對(duì)交互式數(shù)據(jù)處理、實(shí)颼據(jù)處理等不支持；（7）對(duì)迭代式數(shù)

據(jù)處理性能不高。

Spark從多個(gè)不同角度彌補(bǔ)了MapReduce的不足，具有以下優(yōu)點(diǎn)：（1）基

于RDD的抽象，實(shí)際數(shù)據(jù)處理邏輯的代碼非常簡(jiǎn)短;（2）提供了除Map.Reduce

之外的多種操作，例如join,intersection,union等，對(duì)數(shù)據(jù)處理的方式更加靈

活（3fjob可以包含RDD的多個(gè)轉(zhuǎn)換操作任務(wù)調(diào)度時(shí)可以生成多個(gè)stage,

而且如果map操作的RDD分區(qū)不變，可放在一個(gè)任務(wù)中完成；（4）在scala

中,通過(guò)匿名函數(shù)和高階函數(shù)，RDD的轉(zhuǎn)換支持流式API,可提供處理邏輯的整

體DAG視圖，代碼不包含具體操作的實(shí)現(xiàn)細(xì)節(jié)，邏輯更清晰；（5）中間結(jié)果放

在內(nèi)存中，內(nèi)存不足時(shí)寫入本地磁盤，而不是HDFS；（6）延時(shí)低，通過(guò)RDD

實(shí)現(xiàn)分布式內(nèi)存的抽象使用，支持多種不同的大數(shù)據(jù)處理場(chǎng)景；（7）通過(guò)在內(nèi)

存中緩存數(shù)據(jù),進(jìn)行迭代式數(shù)據(jù)處理時(shí)，性能很高。

模塊5思考與練習(xí)

一、選擇題

1.搜索引擎中用戶查詢所得的信息是（B）。

A.直接在互聯(lián)網(wǎng)中獲取的

B,存儲(chǔ)在網(wǎng)絡(luò)數(shù)據(jù)庫(kù)中的

C.來(lái)自某個(gè)網(wǎng)站的

D.與網(wǎng)頁(yè)連接顯示的

2.對(duì)于搜索引擎蜘蛛（Google稱之為機(jī)器人）程序來(lái)講有三種頁(yè)面非常重

要，以下哪種頁(yè)面不屬于其中？（B）

A.從未抓取過(guò)的新頁(yè)面

B.頁(yè)面內(nèi)容之前被采集過(guò)但有所改動(dòng)的頁(yè)面

C.已被刪除掉的之前被采集過(guò)的頁(yè)面

D.搜索引擎蜘蛛的起始頁(yè)面

3.以下不屬于搜索引擎評(píng)價(jià)指標(biāo)的是（D）。

A.查全率B.查準(zhǔn)率C.響應(yīng)速度D.下載速度

二、填空題

L搜索引擎的組成大致可劃分為4個(gè)部分,第一部分是_搜索引擎蜘蛛程序

_,第二部分是激據(jù)分析系統(tǒng)—，第三部分是—索引系統(tǒng)第四部

分是一用戶查詢系統(tǒng)_。

2.搜索引擎工作工程主要包括三個(gè)階段，分別是網(wǎng)頁(yè)搜集階段，檢索信息生

成階段和用戶查詢服務(wù)階段。

3.垂直網(wǎng)站通常指的是為滿足用戶在某些特定的領(lǐng)域或某種特定的需求提

供有關(guān)這個(gè)領(lǐng)域或需求的全部深度信息和相關(guān)服務(wù)的專業(yè)性網(wǎng)站。

三、簡(jiǎn)答題

L搜索引擎的產(chǎn)生和發(fā)展經(jīng)歷了哪幾個(gè)階段？試簡(jiǎn)述各階段的特點(diǎn)。

答：早期出現(xiàn)的搜索引擎只是檢索FTP網(wǎng)站文件的程序，隨后的搜索引擎

開始收錄網(wǎng)絡(luò)地址形成分類目錄，后續(xù)的發(fā)展中搜索引擎開始收錄標(biāo)題，目前的

搜索引擎，已經(jīng)發(fā)展到抓取網(wǎng)頁(yè)全文階段。

2.簡(jiǎn)述搜索引擎索引系統(tǒng)的形成過(guò)程。

答：1）提取關(guān)鍵詞：通過(guò)結(jié)構(gòu)化、消噪去除掉網(wǎng)頁(yè)中所有的格式代碼，同

時(shí)去除非正文關(guān)鍵詞或停用詞，網(wǎng)頁(yè)的主文字內(nèi)容后應(yīng)用自身的分詞系統(tǒng)，將此

文分成一個(gè)分詞列表，然后存儲(chǔ)在數(shù)據(jù)庫(kù)中，并與此文的URL進(jìn)行一對(duì)應(yīng)

2）倒排文件建立索引：在不同索引詞組成的索引表中記錄索引詞ID號(hào)，表

明匹配該索引詞的文檔數(shù)量，并匹配文檔在記錄文件內(nèi)的偏移量，通過(guò)這偏移量

就可以讀取記錄文件對(duì)應(yīng)區(qū)域的信息。

3）對(duì)網(wǎng)頁(yè)完成重要度分析并完成排名

3.私有化的Web化數(shù)據(jù)所指代的含義是什么？它的產(chǎn)生有何背景？

答：私有化的Web化數(shù)據(jù)是指垂直網(wǎng)站在達(dá)到一定規(guī)模后，擁有與搜索引

擎同比競(jìng)爭(zhēng)的能力時(shí)，會(huì)特意屏蔽搜索引擎的爬蟲，將自己的數(shù)據(jù)私有化。它的

產(chǎn)生一方面由于互聯(lián)網(wǎng)中部分信息并未Web化，另一方面Web化的網(wǎng)頁(yè)中的信

息，搜索引擎也不可能實(shí)現(xiàn)完全抓取。

模塊六思考與練習(xí)

一、選擇題

1.不屬于大數(shù)據(jù)主要的存儲(chǔ)模型的是（D）。

A.關(guān)系型數(shù)據(jù)庫(kù)

B.列式數(shù)據(jù)庫(kù)

C.鍵值存儲(chǔ)

D.視頻數(shù)據(jù)庫(kù)

2.不屬于關(guān)系型數(shù)據(jù)庫(kù)的是（B）。

A.OracleB.SybaseC.DB2D.MicrosoftSQLServer

3.數(shù)據(jù)存儲(chǔ)方式有（D）。

A.在線存儲(chǔ)B.近線存儲(chǔ)C.異地備份D.以上皆對(duì)

二、填空題

1.云存儲(chǔ)系統(tǒng)的結(jié)構(gòu)模型由4層組成：存儲(chǔ)層、基礎(chǔ)管理層、應(yīng)用接口層

和訪問(wèn)層。

2.在一個(gè)圖形數(shù)據(jù)庫(kù)中，最主要的組成有兩種:結(jié)點(diǎn)集和連接結(jié)點(diǎn)的關(guān)系。

3.分布式存儲(chǔ)系統(tǒng)具有如下幾個(gè)特性：可擴(kuò)展。（2）低成本自動(dòng)運(yùn)維。（3）

高性能（4）易用。

三、簡(jiǎn)答題

L簡(jiǎn)述大數(shù)據(jù)存儲(chǔ)的概念。

數(shù)據(jù)存儲(chǔ)是指數(shù)據(jù)流在加工過(guò)程中產(chǎn)生的臨時(shí)文件或需要查找的信息的存

儲(chǔ)。數(shù)據(jù)以某種格式記錄在計(jì)算機(jī)內(nèi)部或外部存儲(chǔ)介質(zhì)上。數(shù)據(jù)存儲(chǔ)要命名，這

種命名要反映信息特征的組成含義。數(shù)據(jù)流反映了系統(tǒng)中流動(dòng)的數(shù)據(jù)，表現(xiàn)出動(dòng)

態(tài)數(shù)據(jù)的特征；數(shù)據(jù)存儲(chǔ)反映系統(tǒng)中靜止的數(shù)據(jù)，表現(xiàn)出靜態(tài)數(shù)據(jù)的特征。

2.大數(shù)據(jù)存儲(chǔ)的常見問(wèn)題是什么？

1.容量

2,延遲

3.安全問(wèn)題

4成本

5.數(shù)據(jù)保存

6.靈活性

7.應(yīng)用感知

8,小用戶

3.大數(shù)據(jù)存儲(chǔ)的方式有哪幾種？

關(guān)系型數(shù)據(jù)庫(kù)、列式數(shù)據(jù)庫(kù)、鍵值存儲(chǔ)、文檔存儲(chǔ)、圖形數(shù)據(jù)庫(kù)

模塊7思考與練習(xí)

一、選擇題

1.以下不屬于大數(shù)據(jù)基本特征的是（D）。

A.數(shù)據(jù)規(guī)模龐大

B.數(shù)據(jù)的形式多樣化

C.數(shù)據(jù)的獲取及處理速度快

D.數(shù)據(jù)的處理具有實(shí)時(shí)性

2.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則分析最典型的算法是（D）。

A.KNN算法B.NaiveBayes算法C.k-means算法D.Aprior算法

3.大數(shù)據(jù)處理流程中的第二個(gè)步驟是（A）。

A,數(shù)據(jù)的導(dǎo)入和預(yù)處理B.數(shù)據(jù)的統(tǒng)計(jì)與分析C.數(shù)據(jù)清洗D.數(shù)據(jù)的

采集

二、填空題

L數(shù)據(jù)倉(cāng)庫(kù)是一組支持決策過(guò)程的、面向主題的、集成的、隨時(shí)間而變的持

久的數(shù)據(jù)集合。

2.數(shù)據(jù)挖掘的最終目標(biāo)是獲取數(shù)據(jù)的有效價(jià)值，其具體的實(shí)際應(yīng)用功能可分

為三大類、六分項(xiàng)來(lái)說(shuō)明：—分類—和』類_屬于分類區(qū)隔類；_回歸分

析一和—時(shí)間序列―屬于推算預(yù)測(cè)類；關(guān)聯(lián)規(guī)則—和____序列模式

______屬于關(guān)聯(lián)分析類。

3.在數(shù)據(jù)挖掘的分類算法中比較典型的算法是一NaiveBayes—算法和

_KNN算法。

三、簡(jiǎn)答題

L大數(shù)據(jù)時(shí)代數(shù)據(jù)的存儲(chǔ)與管理與傳統(tǒng)數(shù)據(jù)存儲(chǔ)方式有何區(qū)別？

答:傳統(tǒng)數(shù)據(jù)管理方法的局限性及大數(shù)據(jù)的現(xiàn)實(shí)條件促使新的數(shù)據(jù)庫(kù)設(shè)計(jì)的

出現(xiàn)，在新的數(shù)據(jù)庫(kù)設(shè)計(jì)中,原本數(shù)據(jù)庫(kù)模式中存在的記錄和預(yù)設(shè)場(chǎng)域（成規(guī)數(shù)

據(jù)的整齊排列）的規(guī)律被替代。大數(shù)據(jù)為適應(yīng)信息發(fā)展的需要，運(yùn)用非關(guān)系型數(shù)

據(jù)庫(kù)作為一種新型數(shù)據(jù)庫(kù)設(shè)，它不需要預(yù)先設(shè)定記錄結(jié)構(gòu)，同時(shí)允許處理規(guī)模龐

大、結(jié)構(gòu)復(fù)雜的數(shù)據(jù)。

2.數(shù)據(jù)挖掘中典型的聚類算法有哪些？

答：為了找到效率高、通用性強(qiáng)的聚類方法，根據(jù)劃分條件的不同有多種聚

類算法，典型的有K-means方法、K-medoids方法、CLARANS方法、BIRCH方

法等。

3.大數(shù)據(jù)分析中重要的五個(gè)方面分別指什么？它們各自完成的任務(wù)有哪

些？

答：1）可視化分析：運(yùn)用一些數(shù)據(jù)分析的工具將數(shù)據(jù)轉(zhuǎn)化為圖的形式，達(dá)

到"看圖說(shuō)話”的效果。

2）數(shù)據(jù)挖掘算法：運(yùn)用挖掘算法處理海量的數(shù)據(jù)并更加科學(xué)地呈現(xiàn)出數(shù)據(jù)

本身具備的特點(diǎn)。

3）預(yù)測(cè)性分析能力：作用是讓數(shù)據(jù)分析員可以根據(jù)數(shù)據(jù)可視化分析和數(shù)據(jù)

挖掘計(jì)算所得結(jié)果對(duì)未來(lái)的相關(guān)事物做出一些預(yù)測(cè)性的判斷。

4）語(yǔ)義引擎：借助語(yǔ)義引擎，可從用戶的搜索關(guān)鍵詞、標(biāo)簽關(guān)鍵詞或其他

輸入語(yǔ)義，分析、判斷用戶需求

5）數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理：高質(zhì)量的數(shù)據(jù)和有效的數(shù)據(jù)管理，無(wú)論是在學(xué)術(shù)

研究還是在商業(yè)應(yīng)用領(lǐng)域，都能夠保證分析結(jié)果的真實(shí)和有價(jià)值。

模塊八思考與練習(xí)

一、選擇題

1.不屬于數(shù)據(jù)可視化技術(shù)的主題是（D）。

A.數(shù)據(jù)的顯示

B.連接的顯示

C.網(wǎng)站的顯示

D.信息可視化

2.不屬于數(shù)據(jù)可視化展現(xiàn)方式（c）。

A.魚骨圖B.柏拉圖C.回歸圖D.直方圖

3.大數(shù)據(jù)可視化分析工具有（c）。

A.WordB.PPTC.ExcelD.GooglePinyin

二、填空題

1統(tǒng)計(jì)學(xué)領(lǐng)域有一組統(tǒng)計(jì)量是用來(lái)描述樣本的集中趨勢(shì)的，它們就是：平

均數(shù)、和中數(shù)眾數(shù)

2.正態(tài)分布：也稱常態(tài)分布，正態(tài)分布是一種概率分布。

3.直方圖（Histogram）又稱質(zhì)量分布圖。是一種統(tǒng)計(jì)報(bào)告圖，由

一系列高度不等的縱向條紋或線段表示數(shù)據(jù)分布的情況。

三、簡(jiǎn)答題

1.常用的數(shù)據(jù)整理技術(shù)有哪些？

回退模型可視化相關(guān)性變化分析差異分析預(yù)測(cè)群集技術(shù)決

策樹神經(jīng)網(wǎng)絡(luò)

2,使用分析Excel和GoogleSpreadsheets,分析它們之間的優(yōu)缺點(diǎn)、

Excel功能更加完善能完成的分析更多GoogleSpreadsheets基于網(wǎng)絡(luò)的，

更好的在線實(shí)時(shí)編輯，更好的網(wǎng)絡(luò)交互。

3.發(fā)展大數(shù)據(jù)可視化，那么傳統(tǒng)的數(shù)據(jù)和信息的表示方式是否還有意義？

答：當(dāng)然有意義。

模塊9思考與練習(xí)

一、填空題

1.機(jī)密性(Confidentiality)、完整性(Integrity)、可用性(Availability)

2.物理安全、網(wǎng)絡(luò)安全、應(yīng)用安全、數(shù)據(jù)隱私

3.網(wǎng)絡(luò)黑客和病毒攻擊威脅、信息資源泄露威脅、網(wǎng)絡(luò)漏洞威脅

二、簡(jiǎn)答題

1.答：數(shù)據(jù)處理的安全廚敢口何有效的防止數(shù)據(jù)在錄入、處理、統(tǒng)計(jì)或打印

中由于硬件故障、斷電、死機(jī)、人為的誤操作、程序缺陷、病毒或黑客等造成的

數(shù)據(jù)庫(kù)損壞或數(shù)據(jù)丟失現(xiàn)象，某些敏感或保密的數(shù)據(jù)可能被不具備資格的人員或

操作員閱讀，而造成數(shù)據(jù)泄密等后果。

2,答：數(shù)據(jù)存儲(chǔ)的安全是指數(shù)據(jù)庫(kù)在系統(tǒng)運(yùn)行之外的可讀性。一旦數(shù)據(jù)庫(kù)被

盜，即使沒有原來(lái)的系統(tǒng)程序，照樣可以另外編寫程序?qū)ΡI取的數(shù)據(jù)庫(kù)進(jìn)行查看

或修改。

3?答：大數(shù)據(jù)的安全機(jī)制可從網(wǎng)絡(luò)安全、數(shù)據(jù)安全、應(yīng)用安全、終端安全等

各個(gè)管理角度加強(qiáng)大數(shù)據(jù)的安全防范。

(1)網(wǎng)絡(luò)安全

網(wǎng)絡(luò)是輸送大數(shù)據(jù)資源的主要途徑，通過(guò)強(qiáng)化網(wǎng)絡(luò)基礎(chǔ)設(shè)施安全保障，可以

提高大數(shù)據(jù)環(huán)境的安全?？蓮娜缦滤膫€(gè)方面加強(qiáng)網(wǎng)絡(luò)安全的保障措施：一是通過(guò)

訪問(wèn)控制，以用戶身份認(rèn)證為前提，實(shí)施各種策略來(lái)控制和規(guī)范用戶在系統(tǒng)中的

行為，從而達(dá)到維護(hù)系統(tǒng)安全和保護(hù)網(wǎng)絡(luò)資源的目的；二是通過(guò)鏈路加密，建立

虛擬專用網(wǎng)絡(luò)，隔離公用網(wǎng)絡(luò)上的其他數(shù)據(jù)，防止數(shù)據(jù)被截?。蝗峭ㄟ^(guò)隔離技

術(shù)，對(duì)數(shù)據(jù)中心內(nèi)、外網(wǎng)絡(luò)區(qū)域之間的數(shù)據(jù)流量進(jìn)行分析、檢測(cè)、管理和控制，

從而保護(hù)目標(biāo)數(shù)據(jù)源免受外部非法用戶的侵入訪問(wèn)；四是通過(guò)網(wǎng)絡(luò)審計(jì)，監(jiān)聽捕

獲并分析網(wǎng)絡(luò)數(shù)據(jù)包，準(zhǔn)確記錄網(wǎng)絡(luò)訪問(wèn)的關(guān)鍵信息，通過(guò)統(tǒng)一的策略設(shè)置的規(guī)

則,智能地判斷出網(wǎng)絡(luò)異常行為，并對(duì)異常行為進(jìn)行記錄、報(bào)警和阻斷，保護(hù)業(yè)

務(wù)的正常運(yùn)行。

(2)虛擬化安全

虛擬化技術(shù)是大數(shù)據(jù)概念的一個(gè)基礎(chǔ)組成部分，它加強(qiáng)了基礎(chǔ)設(shè)施、軟件平

臺(tái)、業(yè)務(wù)系統(tǒng)的擴(kuò)展能力，同時(shí)也使得傳統(tǒng)物理安全邊界逐漸缺失。力口強(qiáng)虛擬環(huán)

境中的安全機(jī)制與傳統(tǒng)物理環(huán)境中的安全措施，才能更好地保障在虛擬化基礎(chǔ)之

上為大數(shù)據(jù)提供的各類應(yīng)用和服務(wù)的安全?？蓮娜缦聝蓚€(gè)方面加強(qiáng)虛擬化安全的

保障措施：一是在虛擬化軟件層面建立必要的安全控制措施,限制對(duì)虛擬化軟件

的物理和邏輯訪問(wèn)控制；二是在虛擬化硬件方面建立基于虛擬主機(jī)的專業(yè)的防火

墻系統(tǒng)、殺毒軟件、日志系締口恢復(fù)系統(tǒng)，同時(shí)對(duì)于每臺(tái)虛擬化服務(wù)器設(shè)置獨(dú)立

的硬盤分區(qū)，用以系統(tǒng)和日常數(shù)據(jù)的備份。

(3)數(shù)據(jù)安全

基于數(shù)據(jù)層面的保護(hù)最直接的安全技術(shù)包括兩方面的內(nèi)容：一是數(shù)據(jù)加密,

深入數(shù)據(jù)層保護(hù)數(shù)據(jù)安全，針對(duì)不同的數(shù)據(jù)采用不同的加密算法，實(shí)施不同等級(jí)

的加密控制策略，有效地杜絕機(jī)密信息泄漏和竊取事件；二是數(shù)據(jù)備份，將系統(tǒng)

中的數(shù)據(jù)進(jìn)行復(fù)制，當(dāng)數(shù)據(jù)存儲(chǔ)系統(tǒng)由于系統(tǒng)崩潰、黑客入侵以及管理員的誤操

作等導(dǎo)致數(shù)據(jù)丟失和損壞時(shí)，能夠方便且及時(shí)地恢復(fù)系統(tǒng)中的有效數(shù)據(jù)，以保證

系統(tǒng)正常運(yùn)行。通過(guò)以上措施可以保障大數(shù)據(jù)在數(shù)據(jù)方面的安全性。

(4)應(yīng)用安全

由于大數(shù)據(jù)環(huán)境的靈活性、開放性以及公眾可用性等特性，部署應(yīng)用程序時(shí)

應(yīng)提高應(yīng)用方面的安全意識(shí)，充分考慮應(yīng)用可能引發(fā)的各類安全風(fēng)險(xiǎn)。加強(qiáng)各類

程序接口在功能設(shè)計(jì)、開發(fā)、測(cè)試、上線等覆蓋生命周期過(guò)程的安全實(shí)踐，廣泛

采用更加全面的安全測(cè)試用例,在處理敏感數(shù)據(jù)的應(yīng)用程序與服務(wù)器之間通信時(shí)

采用加密技術(shù)，通過(guò)以上措施可以保障大數(shù)據(jù)在應(yīng)用方面的安全性。

(5)終端安全

隨著云計(jì)算、移動(dòng)互聯(lián)網(wǎng)等技術(shù)的發(fā)展，用戶終端種類不斷增加，很多應(yīng)用

程序被攻擊者利用收集隱私和重要數(shù)據(jù)。用戶終端上應(yīng)部署安全軟件，包括反惡

意軟件、防病毒、個(gè)人防火墻以及入侵防御系統(tǒng)(IPS:IntrusionPrevention

System)類型的軟件,并及時(shí)完成應(yīng)用安全更新，注重自身賬號(hào)密碼的安全保

護(hù)，盡量不在陌生的終端上使用公共服務(wù)；同時(shí)還應(yīng)采用屏蔽、抗干擾等技術(shù)防

止電磁泄漏，可從一定程度上降低大數(shù)據(jù)失竊的風(fēng)險(xiǎn)，增強(qiáng)大數(shù)據(jù)在終端方面的

安全性。

4.答：大數(shù)據(jù)的安全防護(hù)技術(shù)可從以下五方面進(jìn)行相應(yīng)技術(shù)的研究：

(1)數(shù)據(jù)發(fā)布匿名保護(hù)技術(shù)

對(duì)于非結(jié)構(gòu)化數(shù)據(jù)要有效地實(shí)現(xiàn)用戶數(shù)據(jù)安全和隱私保護(hù)，數(shù)據(jù)發(fā)布匿名保

護(hù)技術(shù)是關(guān)鍵點(diǎn)，但是這一技術(shù)還需要不斷發(fā)掘和完善?，F(xiàn)有的大部分?jǐn)?shù)據(jù)發(fā)布

匿名保護(hù)技術(shù)的基本理論，設(shè)定環(huán)境大多是用戶一次性、靜態(tài)地發(fā)布數(shù)據(jù)。如通

過(guò)元組泛化和抑制處理方式分組標(biāo)識(shí)符，用k匿名模式對(duì)有共同屬性的集合進(jìn)行

匿名處理，但這樣容易漏掉某個(gè)特殊的屬性。通常情況下現(xiàn)實(shí)生活中的數(shù)據(jù)發(fā)布

普遍是連續(xù)、多次的，在大數(shù)據(jù)復(fù)雜的環(huán)境中，要實(shí)現(xiàn)數(shù)據(jù)發(fā)布匿名保護(hù)技術(shù)較

為困難。攻擊者可以從不同的發(fā)布點(diǎn)、不同的渠道獲取各類信息，所獲得的信息

將幫助攻擊者確定攻擊目標(biāo)的用戶信息。因此數(shù)據(jù)發(fā)布匿名保護(hù)技術(shù)還需要信息

領(lǐng)域的研究人員投入更多的精力多加研究。

(2)社交網(wǎng)絡(luò)匿名保護(hù)技術(shù)

包含了大量用戶隱私的非結(jié)構(gòu)化數(shù)據(jù)大多產(chǎn)生于社交網(wǎng)絡(luò)，這類數(shù)據(jù)最顯著

的特征就是圖結(jié)構(gòu)，因而數(shù)據(jù)發(fā)布保護(hù)技術(shù)無(wú)法滿足這類數(shù)據(jù)的安全隱私保護(hù)需

求。一般攻擊者都會(huì)利用點(diǎn)和邊的相關(guān)屬性，通過(guò)分析整合，重新鑒定出用戶的

身份信息.因此在社交網(wǎng)絡(luò)中實(shí)現(xiàn)數(shù)據(jù)安全與隱私保護(hù)技術(shù)，需要結(jié)合其圖結(jié)構(gòu)

的特點(diǎn)，進(jìn)行用戶標(biāo)識(shí)匿名以及屬性匿名(點(diǎn)匿名)，即在數(shù)據(jù)發(fā)布時(shí)對(duì)用戶標(biāo)

識(shí)和屬性信息進(jìn)行隱藏處理；同時(shí)對(duì)用戶間關(guān)系匿名(邊匿名)，即在數(shù)據(jù)發(fā)布

時(shí)對(duì)用戶之間的關(guān)系連接進(jìn)行隱藏處理。這是社交網(wǎng)絡(luò)數(shù)據(jù)安全與隱私保護(hù)的要

點(diǎn)，可以防止攻擊者通過(guò)用戶在不同渠道發(fā)布的數(shù)據(jù)，或者是用戶之間的邊聯(lián)系

推測(cè)出原本受匿名保護(hù)的用戶，破解匿名保護(hù)。研

人人文庫(kù)> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

《大數(shù)據(jù)基礎(chǔ)與應(yīng)用》習(xí)題答案

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

《大數(shù)據(jù)基礎(chǔ)與應(yīng)用》習(xí)題答案

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔