大數(shù)據(jù)技術(shù)及應(yīng)用 習(xí)題及答案_第1頁
大數(shù)據(jù)技術(shù)及應(yīng)用 習(xí)題及答案_第2頁
大數(shù)據(jù)技術(shù)及應(yīng)用 習(xí)題及答案_第3頁
大數(shù)據(jù)技術(shù)及應(yīng)用 習(xí)題及答案_第4頁
大數(shù)據(jù)技術(shù)及應(yīng)用 習(xí)題及答案_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)技術(shù)及應(yīng)用習(xí)題及答案

第1章

1.1概念:大數(shù)據(jù)是指大小超出傳統(tǒng)數(shù)據(jù)庫工具的獲取、存儲(chǔ)、管理和分析能力的數(shù)據(jù)集。

特征:規(guī)模龐大(Volume),種類繁多(Variety),生成快速(Velocity),來源真實(shí)

(Veracity),...

1.2數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析與挖掘、數(shù)據(jù)展現(xiàn)與可視化。

1.3目的:監(jiān)督并改善數(shù)據(jù)的質(zhì)量,保證后續(xù)分析挖掘結(jié)果的有效性。

主要操作:數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)歸約。

1.4統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等。

1.5略。

第2章

2.1分類:系統(tǒng)日志采集、網(wǎng)絡(luò)數(shù)據(jù)采集、傳感器采集、其他采集方法等。

特點(diǎn):大規(guī)模、海量存儲(chǔ)、高速傳輸、實(shí)時(shí)采集、支持分布式架構(gòu)、可擴(kuò)展性。

適用范圍:系統(tǒng)日志、網(wǎng)頁數(shù)據(jù)、電子商務(wù)信息、傳感器數(shù)據(jù)、科學(xué)領(lǐng)域數(shù)據(jù)等。

2.2來源:企業(yè)信息管理系統(tǒng)、網(wǎng)絡(luò)信息系統(tǒng)、物聯(lián)網(wǎng)信息系統(tǒng)、科學(xué)研究實(shí)驗(yàn)系統(tǒng)。

應(yīng)用場合:企業(yè)信息管理系統(tǒng)針對(duì)企業(yè)、機(jī)關(guān)內(nèi)部的業(yè)務(wù)平臺(tái)如辦公自動(dòng)化系統(tǒng)、事

務(wù)管理系統(tǒng)等;網(wǎng)絡(luò)信息系統(tǒng)針對(duì)互聯(lián)網(wǎng)絡(luò)平臺(tái)上的各種信息系統(tǒng);物聯(lián)網(wǎng)信息系統(tǒng)針對(duì)各

種傳感器設(shè)備及監(jiān)控系統(tǒng);科學(xué)研究實(shí)驗(yàn)系統(tǒng)針對(duì)科學(xué)大數(shù)據(jù)。

2.3基本流程:對(duì)采集到的海量數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘處理之前,需要先對(duì)原始數(shù)據(jù)進(jìn)行必要

的數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約等多項(xiàng)處理工作,必要時(shí)可以進(jìn)行多次數(shù)據(jù)預(yù)

處理。

作用:改進(jìn)原始數(shù)據(jù)的質(zhì)量.滿足后續(xù)的數(shù)據(jù)挖掘算法進(jìn)行知識(shí)獲取的目的,達(dá)到客

戶應(yīng)用的挖掘需求。

2.4數(shù)據(jù)清洗的基本處理過程:數(shù)據(jù)分析、確定數(shù)據(jù)清洗規(guī)則和策略、數(shù)據(jù)檢測、數(shù)據(jù)清

洗、數(shù)據(jù)評(píng)估和干凈數(shù)據(jù)回流六個(gè)步驟。

2.5箱1:60,61,65

箱2:70,73,81

箱3:85,90,92

平均值平滑處理:箱1:62,62,62箱2:75,75,75箱3:89,89,89

邊界值平滑處理:箱1:60,60,65箱2:70,70,81箱3:85,92,92

2.6最小.最大值規(guī)范化:適用于已知屬性的取值范圍,對(duì)原始數(shù)據(jù)進(jìn)行線性變換的場合。

z-score規(guī)范化:基于屬性的平均值和標(biāo)準(zhǔn)差進(jìn)行規(guī)范化的方法,適用于屬性的最大值

和最小值未知,或者孤立點(diǎn)左右了最小?最大規(guī)范化的場合。

小數(shù)定標(biāo)規(guī)范化:值域區(qū)間[-1,1]。

2.7(1)最小-最大值規(guī)范化:%轉(zhuǎn)換到[0.0,1.0]區(qū)間,為0.25。

(2)z-score:其中標(biāo)準(zhǔn)偏差為15.36,94規(guī)范為-0.391。

(3)小數(shù)定標(biāo)規(guī)范化:94規(guī)范為0.094。

2.8常見的大數(shù)據(jù)采集及處理平臺(tái)類別:常見的大數(shù)據(jù)采集工具有Apache的Chukwa、

Facebook的Scribe>Cloudera的Flume>Linkedin的Kafka和阿里的TT(TimeTunnel)等。

應(yīng)用場合:大多是作為完整的大數(shù)據(jù)處理平臺(tái)而設(shè)計(jì)的,不僅可以進(jìn)行海量日志數(shù)據(jù)

的采集,還可以實(shí)現(xiàn)數(shù)據(jù)的聚合和傳輸。

第3章

3.1傳統(tǒng)存儲(chǔ)分為直連式存儲(chǔ)和網(wǎng)絡(luò)連接存儲(chǔ)。直連式存儲(chǔ)是通過服務(wù)器內(nèi)部直接連接磁

盤組,或者通過外接線連接磁盤陣列。這種方式通常需要通過硬件RAID卡或者軟RAID的

方式實(shí)現(xiàn)磁盤的冗余保護(hù),防止由于磁盤故障導(dǎo)致整個(gè)存儲(chǔ)系統(tǒng)的不可用而丟失數(shù)據(jù)。網(wǎng)絡(luò)

連接是通過以太網(wǎng)方式接入并進(jìn)行訪問的存儲(chǔ)形式,是一臺(tái)在網(wǎng)絡(luò)上提供文檔共享服務(wù)的網(wǎng)

絡(luò)存儲(chǔ)服務(wù)器。存儲(chǔ)設(shè)備可以直接連接在以太網(wǎng)中,使用者可以通過某種方式(例如linux

下的mount命令)將存儲(chǔ)服務(wù)掛載到本地進(jìn)行訪問,在本地呈現(xiàn)的就是一個(gè)文件目錄樹。

3.2名稱節(jié)點(diǎn)是HDFS系統(tǒng)中的管理者,負(fù)責(zé)管理文件系統(tǒng)的命名空間,記錄每個(gè)文件中

各個(gè)塊所在的數(shù)據(jù)節(jié)點(diǎn)的位置信息,維護(hù)文件系統(tǒng)的文件樹及所有的文件和目錄的無數(shù)據(jù)。

數(shù)據(jù)節(jié)點(diǎn)存儲(chǔ)所有具體數(shù)據(jù)并根據(jù)需要檢索數(shù)據(jù)塊,受客戶端或名稱節(jié)點(diǎn)調(diào)度,數(shù)據(jù)節(jié)點(diǎn)定

期向名稱節(jié)點(diǎn)發(fā)送它們所存儲(chǔ)的塊的列表。同時(shí),它會(huì)通過心跳定時(shí)向名稱節(jié)點(diǎn)發(fā)送所存儲(chǔ)

的文件塊信息。

3.3為了保證系統(tǒng)的容錯(cuò)性和可用性,HDFS采用了多副本方式對(duì)數(shù)據(jù)進(jìn)行冗余存儲(chǔ),通常

一個(gè)數(shù)據(jù)塊的多個(gè)副本會(huì)被分配到不同的數(shù)據(jù)節(jié)點(diǎn)上。在讀取數(shù)據(jù)時(shí),為了減少整體的帶寬

消耗和降低整體的帶寬時(shí)延,HDFS會(huì)盡量讓讀取程序讀取離客戶端最近的副本。如果讀取

程序的同一個(gè)機(jī)架上有一個(gè)副本,那么就讀取該副本:如果一個(gè)HDFS集群跨越多個(gè)數(shù)據(jù)中

心,那么客戶端也將首先讀取本地?cái)?shù)據(jù)中心的副本。

3.4NoSQL是一種不同于關(guān)系數(shù)據(jù)庫的數(shù)據(jù)庫管理系統(tǒng)設(shè)計(jì)方式,是對(duì)非關(guān)系型數(shù)據(jù)庫的

統(tǒng)稱。NoSQL技術(shù)引入了靈活的數(shù)據(jù)模型、水平可伸縮性和無模式數(shù)據(jù)模型,典型的NoSQL

數(shù)據(jù)庫通常包括鍵值數(shù)據(jù)庫、列族數(shù)據(jù)庫、文檔數(shù)據(jù)庫和圖數(shù)據(jù)庫,這些數(shù)據(jù)庫旨在提供易

于擴(kuò)展和管理的大量數(shù)據(jù)。

3.5CAP理論可簡單描述為:一個(gè)分布式系統(tǒng)不能同時(shí)滿足一致性(consistency)、可用性

(availability)和分區(qū)容錯(cuò)性(partitiontolerance)這3個(gè)需求,最多只能同時(shí)滿足兩個(gè)。

3.6HBase使用坐標(biāo)來定位表中的數(shù)據(jù),也就是說,每個(gè)值都是通過坐標(biāo)來訪問的。需要根

據(jù)行鍵、列族、列限定符和時(shí)間戳來確定一個(gè)單元格,因此可以視為一個(gè)“四維坐標(biāo)”。

3.7每個(gè)Region服務(wù)器負(fù)責(zé)管理一個(gè)Region集合,通常在每個(gè)Reg沁n服務(wù)器上會(huì)放置

107000個(gè)Region。當(dāng)存儲(chǔ)數(shù)據(jù)量非常龐大時(shí),必須設(shè)計(jì)相應(yīng)的Region定位機(jī)制,保證客

戶端知道哪里可以找到自己所需要的數(shù)據(jù)。每個(gè)Region都有一個(gè)RegionlD來標(biāo)識(shí)它的唯一

性,這樣,一個(gè)Region標(biāo)識(shí)符就可以表示成“表名+開始主鍵+RegioMD”。

3.8當(dāng)客戶端提出數(shù)據(jù)訪問請(qǐng)求時(shí),首先在Zookeeper集群上查找-ROOT-的位置,然后客

戶端通過-ROOT-查找請(qǐng)求所在范圍所屬.META.的區(qū)域位置,接著,客戶端查找.META.區(qū)域

位置來獲取用戶空間區(qū)域所在節(jié)點(diǎn)及其位置;最后,客戶端即可?直接與管理該區(qū)域的Region

服務(wù)器進(jìn)行交互。一旦客戶端知道了數(shù)據(jù)的實(shí)際位置(某Region服務(wù)器位置),該Client會(huì)

宜接和這個(gè)Region服務(wù)器進(jìn)行交互,也就是說,客戶端需要通過“三級(jí)尋址”過程找到用

戶數(shù)據(jù)表所在的region服務(wù)器,然后直接訪問該Region服務(wù)器獲得數(shù)據(jù)。

3.9數(shù)據(jù)倉庫是一個(gè)面向主題的(SubjectOriented)、集成的(Integrated)、相對(duì)穩(wěn)定的(Non-

Volatile)、反映歷史變化(TimeVariant)的數(shù)據(jù)集合,用于支持管理決策,數(shù)據(jù)倉庫是在數(shù)

據(jù)庫已經(jīng)大量存在的情況下,為了進(jìn)一步挖掘數(shù)據(jù)資源、為了決策需要而產(chǎn)生的。一個(gè)典

型的數(shù)據(jù)倉庫主要包含4個(gè)層次:數(shù)據(jù)源、數(shù)據(jù)存儲(chǔ)和管理、數(shù)據(jù)服務(wù)、數(shù)據(jù)應(yīng)用.

3.10基本架構(gòu)包括:

1.數(shù)據(jù)源:是數(shù)據(jù)倉庫的數(shù)據(jù)來源,包括了外部數(shù)據(jù)、現(xiàn)有業(yè)務(wù)系統(tǒng)和文檔資料等。

2.數(shù)據(jù)集成:完成數(shù)據(jù)的抽取、清洗、轉(zhuǎn)換和加載任務(wù),數(shù)據(jù)源中的數(shù)據(jù)采用ETL工

具以固定周期加載到數(shù)據(jù)倉庫中。

3.數(shù)據(jù)存儲(chǔ)和管理:這一層次主要涉及對(duì)數(shù)據(jù)的存儲(chǔ)和管理,包括數(shù)據(jù)倉庫、數(shù)據(jù)集

市、數(shù)據(jù)倉庫檢測、運(yùn)行與維護(hù)工具和無數(shù)據(jù)管理等。

4.數(shù)據(jù)服務(wù):為前端工具和應(yīng)用提供數(shù)據(jù)服務(wù),可以宜接從數(shù)據(jù)倉庫中獲取數(shù)據(jù)供前

端應(yīng)用使用,也可以通過OLAP服務(wù)器為前端應(yīng)用提供更加復(fù):雜的數(shù)據(jù)服務(wù)。

5.數(shù)據(jù)應(yīng)用:這一層次直接面向最終用戶,包括數(shù)據(jù)查詢工具、自由報(bào)表工具、數(shù)據(jù)

分析工具、數(shù)據(jù)挖掘工具和各類應(yīng)用系統(tǒng)。

第4章

4.1分類用于找出一組數(shù)據(jù)對(duì)象的共同特點(diǎn)并按照一定的模式將其劃分為不同的類。分類

的目的是分析輸入數(shù)據(jù),通過訓(xùn)練集中的數(shù)據(jù)表現(xiàn)出來的特性構(gòu)造出一個(gè)分類函數(shù)或分類模

型,該模型常被稱為分類器,用于將未知類別的樣本數(shù)據(jù)映射到給定類別中。

分類技術(shù)也因此被廣泛的應(yīng)用于如欺詐檢測、目標(biāo)營銷、醫(yī)療診斷、人臉檢測、故障診

斷和故障預(yù)警等。

4.2數(shù)據(jù)分類過程總體可以分為兩個(gè)階段:

第一階段,建立描述預(yù)先定義的數(shù)據(jù)類或概念集的分類器。這是學(xué)習(xí)階段(或訓(xùn)練階

段),其中分類算法通過分析或從訓(xùn)練集“學(xué)習(xí)”來構(gòu)造分類器。通過對(duì)訓(xùn)練數(shù)據(jù)中各數(shù)據(jù)

行的內(nèi)容進(jìn)行分析,從而認(rèn)為每一行數(shù)據(jù)是屬于一個(gè)確定的數(shù)據(jù)類別,其類別值是由一個(gè)屬

性描述(類標(biāo)號(hào))。

第二階段,使用模型進(jìn)行分類。首先評(píng)估分類器的預(yù)測準(zhǔn)確率,選取獨(dú)立于訓(xùn)練集數(shù)據(jù)

的測試集,通過第一階段構(gòu)造出的分類器對(duì)給定測試集的數(shù)據(jù)進(jìn)行分類。將分類出的每條測

試記錄的類標(biāo)號(hào)與學(xué)習(xí)模型對(duì)該記錄的類預(yù)測進(jìn)行比較,如果分類器的性能達(dá)到預(yù)定要求,

就用該模型對(duì)類標(biāo)號(hào)未知的數(shù)據(jù)記錄進(jìn)行分類。

4.3決策樹算法采用不同的度量準(zhǔn)則,主要有以下三種:信息增益、增益率和基尼指數(shù)。

信息增益準(zhǔn)則傾向于選擇具有大量不同取值的屬性,從而產(chǎn)生許多小而純的子集。信息增益

率會(huì)導(dǎo)致數(shù)據(jù)集劃分不平衡,其中一個(gè)分區(qū)比其它分區(qū)小的多?;嶂笖?shù)偏小于多值屬性,

當(dāng)類的數(shù)量很大時(shí)會(huì)有困難,還傾向于導(dǎo)致相等大小的分區(qū)和純度。

4.4有準(zhǔn)確率、精確率、召回率、假正率、真負(fù)率、假負(fù)率、F度量和ROC曲線與AUC曲

線等。

4.5

4.6幸存可能性為0.0347,遇難可能性0.0261。

與4.5題結(jié)果對(duì)比:略。

4.7(1)0.116;(2)0.496;(3)0.002347o

4.8最近鄰:由于%=+1,因此戈的類標(biāo)號(hào)為+1;

k?近鄰(k=3):由于丫2=+1,丫7=-1,=一1,因此%的類標(biāo)號(hào)為一1。

第5章

5.1參見5.1節(jié)。

5.2參見5.2節(jié)。

5.3(1)繪制學(xué)習(xí)時(shí)間與測試成績的散點(diǎn)圖;

70

0-----------------------------------------------------------------------------------------

00.511.522.533.5

學(xué)習(xí)時(shí)間(小時(shí))

(2)鳳=-0.157和方=19.029

(3)R2=0.867

5.4(1)y=0.032241+0.069986%+0.429138々

(2)R2=0.854

5.5與一元線性回歸模型單個(gè)自變量相比,當(dāng)多元線性回歸模型自變量數(shù)目增多時(shí),若自

變量均與因變量相關(guān)性很強(qiáng),得到的回歸方程擬合效果會(huì)更接近真實(shí)情況.

5.6(1)散點(diǎn)圖:

(2)y=29.62721+0.032633X

(3)R2=0.9931

5.7非線性關(guān)系的處理分為三種情況:第一種是自變量X和因變量Y之間的關(guān)系通過函數(shù)

替換轉(zhuǎn)為線性,然后利用線性回歸模型的求解方法估計(jì)回歸參數(shù),并作出回歸診斷;第二種

是當(dāng)自變量X與因變量Y之間的非線性關(guān)系對(duì)應(yīng)的描述函數(shù)形式不明確時(shí),采用多項(xiàng)式回

歸分析方法,進(jìn)而轉(zhuǎn)化為多元線性逐步回歸來進(jìn)行求解;第三種是自變量X與因變量Y之

間的非線性關(guān)系對(duì)應(yīng)的描述函數(shù)形式很明確,但回歸參數(shù)是未知的,大能像第一種情況那樣

通過函數(shù)替換轉(zhuǎn)化為線性關(guān)系,需要采用比較復(fù)雜的擬合方法或者數(shù)學(xué)模型來求解,通常利

用泰勒級(jí)數(shù)展開,并進(jìn)行數(shù)值迭代來近似逼近實(shí)際曲線。

5.8常見的非線性函數(shù)有雙曲線、半對(duì)數(shù)、雙對(duì)數(shù)、三角函數(shù)、指數(shù)函數(shù)、累函數(shù)等,其線

性化方法參見532節(jié)。

5.9(1)y=1100.13+42.1707^+5.7678x,2

(2)平均絕對(duì)百分誤差MAPE為4.105。

(3)

SUMMARYOUTPUT

回歸統(tǒng)計(jì)

MultipleR0.999689365

RSquare0.999378827

AdjustedR0.999201349

懷準(zhǔn)誤差8Z1.0954:347

觀測值10

方差分析

SSMSFgnificanceF

7.59E+093.8E+095631.0015.97E-12

計(jì)4719384674197.7

7.6E+09

Coefficients標(biāo)準(zhǔn)1天差tStatP-valueLower95%Upper95%~F限95.S上限95.0%

Intercept____1100.129724983.39551.1187050.300181-1225.233425.491-1225.233425.491

XVariable42.1706999832.2061.3094050.231736-33.9844118.3258-33.9844118.3258

XVariable5.7677973660.22860325.230663.92E-085.2272386.3083575.2272386.308357

5.10多項(xiàng)式回歸模型用來解決生活中一大類非線性回歸問題,常用亍描述經(jīng)濟(jì)生活中的生

產(chǎn)成本關(guān)系,這些因變量與自變量之間的關(guān)系通常都無法用線性回歸模型來表示,但是可以

用多項(xiàng)式回歸方程加以描述。根據(jù)泰勒級(jí)數(shù)展開的原理,任何曲面、曲線、超曲面問題,在

一定范圍內(nèi),都可以通過增加高次項(xiàng)來無限逼近其實(shí)數(shù)據(jù),因此可用適當(dāng)階數(shù)的多項(xiàng)式方程

來近似描述。

基本原理:多項(xiàng)式回歸問題通??梢允褂米兞看鷵Q法轉(zhuǎn)化為多元線性回歸問題來處理,

參照線性回歸模型的求解思路,使用最小二乘法(OLS)完成對(duì)多項(xiàng)式回歸模型的參數(shù)估計(jì)。

第6章

6.1相同點(diǎn):都是根據(jù)研究對(duì)象的特征對(duì)它們進(jìn)行分類。

不同點(diǎn):分類是一種監(jiān)督式學(xué)習(xí)方法,預(yù)先已經(jīng)劃分好類別;聚類屬于非監(jiān)督式學(xué)習(xí),

預(yù)先未定義類別,是通過樣本集合發(fā)現(xiàn)數(shù)據(jù)自身的內(nèi)部結(jié)構(gòu),建立起一種有意義的或者有用

的歸類方法。

6.2連續(xù)屬性:距離,相似系數(shù)

二值離散屬性:匹配距離,相似系數(shù)

多值離散屬性:簡單匹配法,轉(zhuǎn)換為多個(gè)二值離散屬性

6.3(答案不唯一)

選擇“北京”、“青?!薄ⅰ靶陆睘槌跏季垲愔行?,得到聚類結(jié)果為:

Cl=(北京,山西,內(nèi)蒙古,遼寧,吉林,黑龍江,上海,廣西,貴州,云南,陜西,

福建,新疆}

C2={天津,青海}

C3={河北,浙江,廣東,江蘇}

6.4兩個(gè)簇:Cj={h,ij}9G={a,"c,d,e,/,g}

6.5最近距離法:

第一步:

■V/X2&X5X3X4X6

XI00.650.570.460.32

X2&X50.6500.150.240.11

X30.570.1500.560.04

X40.460.240.5600.26

X60.320.110.040.260

第二步:

X112&巧X3&X6X4

XI00.650.320.46

X2&X50.6500.110.24

X3&X60.320.1100.26

X40.460.240.260

第三步:

XiX2&X5&X3&X6X4

XI00.320.46

X2&X5&JC3&JC60.3200.24

X40.460.240

第四步:

XiX2&X5&X3&X6&X4

XI00.32

X2&X5&X3&JC6&J:40.320

最遠(yuǎn)距離法:

第一步:

X2&X5

XlX3X4x6

Xl00.900.570.46032

X2&X50.9000.340.520.19

Xi0.570.3400.560.04

X40.460.520.5600.26

X60.320.190.040.260

第二步:

XIX2&X5X3&X6X4

Xi00.900.570.46

X2&X50.9000.340.52

X3&X60.570.3400.56

X40.460.520.560

第三步:

XiX2&XS&X3&X6X4

Xi00.900.46

X2&X5&X3<SLX60.9000.56

X40.460.560

第四步:

X1&X4X2&X5&X3&X6

X1&X400.90

X2&X5&X3&X60.900

(圖略)

6.6

根節(jié)點(diǎn)

CFfl/=(2,0.65,0.2225)C%=(3,2.3,1.85)

6.7外部準(zhǔn)則法、內(nèi)部準(zhǔn)則法和相對(duì)準(zhǔn)則法。

6.8對(duì)象的輪廓系數(shù)為

b-a0.61-0.1

xx==0.836

max(4,8J0.61

b-a_0.64-0.1

22=0.844

max(a2,b2)0.64

b-a_0.63-0.26

邑=3=3

max(a3,b3)0.63

,二/_=。.62-0.26=0581

max(a4,b4)0.62

數(shù)據(jù)集的輪廓系數(shù)為

1S0.836+0.844+0.587+0.581

=0.712

*計(jì)-----4-----------------------

6.9圖6.10:DH=4.072

圖6.11:DH=3.376

圖6.11的聚類效果更好

第7章

7.1(1)

m3m3mo1mk3

0303mk3ok3

n2k5me2oe3

k5e4my2ke4oke3

e4y3ok3ky3key2

Cl=y3Ll=C2=oe3L2=C3=

d1oy2

a1ke4

u1ky3

c2ey2

I1

L3={o,k,e)

FP-growth:數(shù)據(jù)庫的第一次掃描與Apriori算法相同,得到L1。再按支持度計(jì)數(shù)的遞減序排

序,得到:L={(K:5),(E:4),(M:3),(O:3),(Y:3)},掃描每個(gè)事務(wù),按以上L的排序,從根節(jié)點(diǎn)開

始,得到FP樹

項(xiàng)條件模式基條件FP樹條件的頻繁模式

y({k,e,m,o:l),{k,e,o:1),k:3{k,y:3}

{k,m:l}}

o{{k,e,m:l),{k,e:2}}k:3,e:3{k,o:3}?{e,o:3J,{k,e,o:3}

m{{k,e:2},{k:l}}k:3{k,m:3)

e{k:4}k:4{k,e:4)

效率比較:Apriori算法的計(jì)算過程必須對(duì)數(shù)據(jù)庫作多次掃描,而FP算法在構(gòu)造過程中只需

要掃描一次數(shù)據(jù)庫,再加上初始時(shí)為確定支持度遞減排序的一次掃描,共計(jì)只需兩次掃描。

由于在Apriori算法中的自身連接過程中產(chǎn)生候選項(xiàng)集的代價(jià)非常高,而FP算法不需要產(chǎn)

生任何候選項(xiàng)集。

(2)

Vxe數(shù)據(jù)庫事務(wù),buys(X,"e叫)Abuys(X,iteir^)=>buys{X,itern^)

VxGtransation^buys(X,")Abuys(X,nF)=>buys(X,"e")[s=0.6,c=l]

VxGtransation^"e")八b〃)s(X,"o")nbuys{X^'k'')[s=0.6,c=l]

7.2(1)首先將實(shí)際的DBS問題轉(zhuǎn)換成邏輯值

SEXAGEKNOWLEDGEOCCUPATIONWAGES

12345678910

TID

malefemale>=40<40碩博本科教師非教>5000<5000

士師

1001010101010

2000101101010

3001001010101

4001010101010

5001001101010

6001001010101

(2)轉(zhuǎn)換成數(shù)據(jù)庫中記錄的屬性項(xiàng)取值集合

TIDItemsTIDItems

100135,7,9400135,7,9

2002,4,5,7,95001,4,5,7,9

3001,4,6,8,106001,4,6,8,10

由最小支持度min_sup=0.5,得出頻繁1-項(xiàng)集Ll={{1},{4},{5},{7},{91}。

(3)由頻繁1-項(xiàng)集得到頻繁2-項(xiàng)集L2={{1,4),{1,5},{1,7},{1,9}{5,7},{5,9},{7,9}}o

(4)計(jì)算頻繁2?項(xiàng)集中各項(xiàng)之間的支持度和置信度得出下表:

ItemsSup(ImUIn)Sup(Im)Sup(In)conf(ImUIn)

”,4}3/65/64/63/5

{1,5}3/65/64/63/5

{1,7}3/65/64/63/5

{⑶3/65/64/63/5

(5,7)4/64/64/61

{5,9}4/64/64/61

{7,9}4/64/64/61

由min_sup=0.5,min_conf=0.7產(chǎn)生的二項(xiàng)關(guān)聯(lián)規(guī)則為/(5)=>7(7);/(5)=>/(9);/(7)=>7(9)

(5)由頻繁2-項(xiàng)集得到頻繁3-項(xiàng)集L3={{1,5,7},{1,5,9},{1,7,9},{5,7,9}}

(6)計(jì)算頻繁3?項(xiàng)集的置信度和支持度,得到3項(xiàng)集關(guān)聯(lián)規(guī)則:

/(5)=>/(1,7);/(7)=>/(1,5);/(1,5)=>/⑺;/(1,7)nZ(5);Z(5,7)=>/(I);

1(5)=/(i,9);Z(9)=Z(l,5);7(l,5)=Z(9);/(i,9)=Z(5);Z(5,9)=7(1);

7(7)=>/(1,9);7(9)=>Z(l,7);7(l>7)=>Z(9);7(l,9)=>7(7);/(7,9)=>/(I);

/(5)=>7(7,9);Z(7)=>Z(5,9);Z(9)=>/(5,7);/(5,7)=>/(9);/(5,9)=>/(7);

7(7,9)=>/(5)

(7)由頻繁3-項(xiàng)集L3得到頻繁4-項(xiàng)集L4={157,9},計(jì)算4項(xiàng)集的可信度得到4相關(guān)聯(lián)規(guī)

則為:

/(5)=>7(1,7,9);7(7)=>7(1,5,9);7(9)=>7(1,5,7);/(1,5)=>7(7,9)

7(1,7)=>/(5,9);/(1,9)=>7(5,7);7(5,7)=>7(1,9);/(5,9)=>7(1,7)

7(7,9)=>7(1,5);/(1,5,7)=/(9);Z(1,5,9)=/(7);/(5,7,9)=Z(l);/(1,7,9)=>7(5)

7.3(1)根據(jù)規(guī)則,support=200(]/5000=40%,confidence=2000/3000=66.7%o所以該關(guān)聯(lián)規(guī)

則是強(qiáng)規(guī)則。

)corr{hotdog\hamburger}=P({hotdog,hambuger])/(P({hotdog})P({hambuger}))

=0.4/(0.5x0.6)=1.33>l

所以,買hotdog不是獨(dú)立于買hamburgers。兩者存在正相關(guān)關(guān)系。

(3)全置信J?=sup(hotdogUhamburgcrs)/max{sup(A),sup(B))=0.4/0.6=0.67

最大置信度=max{confidence(hotdog-*hamburgers),confidence(hamburgers-?holdog)}

=max{0.4/0.6,0.4/0.5}=0.8

Kulc(hotdog,hamburgers)=(0.4/0.6+0.4/0.5)/2=0.73

Cosine(hotdog,hamburgers)=J0.67x0.8=0.732

Lift(holdog,hamburgers)=0.4/(0.6*0.5)=1.33

根據(jù)數(shù)據(jù)顯示,hotdog和hamburgers之間存在正相關(guān)的關(guān)系。

第8章

8.1數(shù)據(jù)可視化是根據(jù)數(shù)據(jù)的特性,將大型數(shù)據(jù)以直觀、生動(dòng)、易理解的圖形圖像方式呈

現(xiàn)給用戶便于人們理解數(shù)據(jù),有效提高數(shù)據(jù)分析的效率和效果。

8.2首先用戶應(yīng)該理解數(shù)據(jù)源及數(shù)據(jù),明確數(shù)據(jù)可視化的目的,需要可視化的數(shù)據(jù)要呈現(xiàn)

出怎樣的效果。其次要進(jìn)行數(shù)據(jù)的比較,了解數(shù)據(jù)所要反映的問題,根據(jù)數(shù)據(jù)特性建立指標(biāo),

最后要遵循簡單法則,數(shù)據(jù)可視化的結(jié)果一定要以簡單直觀的方式呈現(xiàn)給用戶,并要注重可

視化數(shù)據(jù)的藝術(shù)性,符合審美規(guī)則以吸引讀者的注意力。

8.3數(shù)據(jù)可視化可以將大量復(fù)雜數(shù)據(jù)以圖形圖表的方式展現(xiàn)出來,從而使人們從中獲得大

量有價(jià)值的信息。

數(shù)據(jù)可視化可以使人們從海量數(shù)據(jù)中獲取數(shù)據(jù)之間不同模式或過程的聯(lián)系與區(qū)別。有助

于人們更加方便快捷地深層次的理解數(shù)據(jù),提升數(shù)據(jù)分析效率,改善數(shù)據(jù)分析效果。

數(shù)據(jù)可視化能夠使人們有效地利用數(shù)據(jù),使用更多的數(shù)據(jù)資源,從中獲取更多的有用信

息,提出更好解決方案。

數(shù)據(jù)可視化可以增強(qiáng)數(shù)據(jù)對(duì)人們的吸引力,極大地提高了人們理解數(shù)據(jù)知識(shí)的效率,增

強(qiáng)獨(dú)者的閱讀興趣。

8.4數(shù)據(jù)可視化工具應(yīng)具有以下特征:

(1)實(shí)時(shí)簡單。能高效地收集和分析數(shù)據(jù),并對(duì)數(shù)據(jù)信息進(jìn)行實(shí)時(shí)更新,適應(yīng)于互聯(lián)網(wǎng)時(shí)

代信息多變的特點(diǎn)。

(2)多種數(shù)據(jù)源:能夠方便接入各種系統(tǒng)和數(shù)據(jù)文件,包括文本文件、數(shù)據(jù)庫及其他外部

文件。

(3)數(shù)據(jù)處理:具有高效、便捷的數(shù)據(jù)處理能力。

(4)分析能力:必須具有數(shù)據(jù)分析能力,用戶可以通過數(shù)據(jù)可視化實(shí)現(xiàn)對(duì)圖表的支持及擴(kuò)

展性,并在此基礎(chǔ)上進(jìn)行數(shù)據(jù)的鉆取、交互性和高級(jí)分析等。

(5)協(xié)作能力:應(yīng)具有可以實(shí)現(xiàn)共享數(shù)據(jù),協(xié)同完成數(shù)據(jù)分析流程的平臺(tái),以便管理者可

以基于該平臺(tái)溝通問題并做出相應(yīng)決策。

8.5參考代碼:

importinatplotlib.pyplotaspit

name_list=['excellence','good','middle','pass']

num_listl=[4,17,12,2]

num_list2=[2,15,18,l]

x=list(range(len(num_listl)))

total_width,n=0.8,2

width=total_width/n

plt.bar(x,num」isll,width=width,label=rclassr,fc='y')

foriinrange(len(x)):

x[ij=x[i]+width

plt.bar(x,num_list2,width=width,label='class2',tick_label=name_list,fc='r')

plt.legend()

plt.show()

第9章

9.1來源:業(yè)務(wù)支撐系統(tǒng)、運(yùn)營支撐系統(tǒng)、管理支撐系統(tǒng)和深度包檢測DPI。

業(yè)務(wù)支撐系統(tǒng)的數(shù)據(jù)更適合于進(jìn)行客戶畫像。

9.2參見9.1.3節(jié)。

9.3企業(yè)內(nèi)部應(yīng)用:網(wǎng)絡(luò)管理和優(yōu)化、市場與精準(zhǔn)營銷、客戶關(guān)系管理、企業(yè)運(yùn)營管理等。

對(duì)外應(yīng)用:電信運(yùn)營商將數(shù)據(jù)封裝成服務(wù),向第三方開放數(shù)據(jù)或提供大數(shù)據(jù)分析服務(wù)。

9.4提示:1、根據(jù)MOS的取值為原始數(shù)據(jù)建立新標(biāo)簽,將回歸問題轉(zhuǎn)化為二分類問題;

2、使用sklearn提供的RandomForestClassifier。類建立模型。

9.5提示:使用skleam.metrics庫中提供的calinski_harabaz_score()函數(shù)進(jìn)行計(jì)算。

k取9時(shí)CH值最大,表明此時(shí)聚類效果較好。

9.6提示:skleam提供了DBSCAN類、BIRCH類和AgglomerativeClustering類。以BIRCH

類為例,它的定義如下:

classskleam.cluster.Birch(*threshold=0.5,branching_factor=50,n_clusters=3,

compute_labels=True,copy=True)

參數(shù)threshold:存放在葉子節(jié)點(diǎn)中的子簇的最大半徑

branching_factor:非葉節(jié)點(diǎn)擁有的最大子節(jié)點(diǎn)數(shù)

注意:BIRCH算法的性能受到threshold、branching_factor和n_clusters三個(gè)參數(shù)的影響,訓(xùn)

練模型時(shí),需要搜索最優(yōu)參數(shù)組合。

9.7參考代碼

#利用手肘法確定最佳聚類數(shù)

SSE=[1#存放每次結(jié)果的誤差平方和

SSE_dl=[]柢se的一階導(dǎo)數(shù)

SSE_d2=[]#Sse的二階導(dǎo)數(shù)

models=\\#保存每次的模型

forkinrange(2,9):

estimator=KMeans(n_clusters=k,random_state=10)#構(gòu)造聚類器

estimator.fit(data_PCA)

SSE.append(estimator.inertia_)

models.append(estimator)

#畫出k與SSE的關(guān)系圖

X=range(2,9)

plt.xlabcl('k')

plt.ylabeK'SSE')

plt.plot(X,SSE,'o-')

plt.show()

#求二階導(dǎo)數(shù),通過SSE方法計(jì)算最佳k值

SSE_lcngth=lcn(SSE)

foriinrange(1,SSE_Ienglh):

SSE_dl.appcnd((SSE[i-1]-SSE[i])/2)

foriinrange(1Tlen(SSE_d1)-1):

SSE_d2.append((SSE_dl[i-1]-SSE_dl[i])/2)

最佳分簇?cái)?shù):4

9.8分析客戶流失原因、建立客戶流失預(yù)測模型、制定客戶挽留策略。

9.9提示:導(dǎo)入機(jī)器學(xué)習(xí)庫sklcarn中的決策樹tree包,調(diào)用DecisionTreeClassifier。方法構(gòu)

造決策樹模型,并用數(shù)據(jù)集中的全部特征(除去customerlD)訓(xùn)練模型,最后通過

feature」mportances_屬性觀察特征重要性排序,結(jié)果如下圖所示。

1)Totalcharges0.199292

2)Monthlycharges0.191795

3)Contract_Month-to-month0.164864

4)tenure0.118317

5)InternetService_Fiberoptic0.049027

6)gender0.024013

7)Dependents0.019844

8)PaperlessBilling0.019484

9)PaynnentMethod_E1ectroniccheck0.019203

10)TechSupport0.018324

11)OnlineBackup0.017889

12)OnlineSecurity0.017190

13)PaymentMethod_Mailedcheck0.016362

14)Partner0.016203

15)SeniorCitizen0.015962

16)DeviceProtection0.015816

17)MultipleLines0.014497

18)StreamingMovies0.013358

19)PaymentMethod_Banktransfer(automatic)0.012451

20)PayTnentMethod_Creditcard(automatic)0.010442

21)StreamingTV0.009290

22)InternetService_No0.008215

23)Contract_Oneyear0.004436

24)PhoneService0.003555

25)InternetService_DSL0.000169

26)Contract_Twoyear0.000000

9.10提示:PCA處理過程可參考9.4節(jié)。

第10章

10.1準(zhǔn)確率=(50+222)/(50+8+32+222)=272/312=87%

精確率=50/82=61%

召回率=50/58=86%

=2x61%x86%rw

E=----------

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論