大數(shù)據(jù)技術(shù)及應(yīng)用 習(xí)題及答案_第1頁
大數(shù)據(jù)技術(shù)及應(yīng)用 習(xí)題及答案_第2頁
大數(shù)據(jù)技術(shù)及應(yīng)用 習(xí)題及答案_第3頁
大數(shù)據(jù)技術(shù)及應(yīng)用 習(xí)題及答案_第4頁
大數(shù)據(jù)技術(shù)及應(yīng)用 習(xí)題及答案_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

大數(shù)據(jù)技術(shù)及應(yīng)用習(xí)題及答案

第1章

1.1概念:大數(shù)據(jù)是指大小超出傳統(tǒng)數(shù)據(jù)庫工具的獲取、存儲、管理和分析能力的數(shù)據(jù)集。

特征:規(guī)模龐大(Volume),種類繁多(Variety),生成快速(Velocity),來源真實

(Veracity),...

1.2數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析與挖掘、數(shù)據(jù)展現(xiàn)與可視化。

1.3目的:監(jiān)督并改善數(shù)據(jù)的質(zhì)量,保證后續(xù)分析挖掘結(jié)果的有效性。

主要操作:數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)歸約。

1.4統(tǒng)計分析、機器學(xué)習(xí)、數(shù)據(jù)挖掘等。

1.5略。

第2章

2.1分類:系統(tǒng)日志采集、網(wǎng)絡(luò)數(shù)據(jù)采集、傳感器采集、其他采集方法等。

特點:大規(guī)模、海量存儲、高速傳輸、實時采集、支持分布式架構(gòu)、可擴展性。

適用范圍:系統(tǒng)日志、網(wǎng)頁數(shù)據(jù)、電子商務(wù)信息、傳感器數(shù)據(jù)、科學(xué)領(lǐng)域數(shù)據(jù)等。

2.2來源:企業(yè)信息管理系統(tǒng)、網(wǎng)絡(luò)信息系統(tǒng)、物聯(lián)網(wǎng)信息系統(tǒng)、科學(xué)研究實驗系統(tǒng)。

應(yīng)用場合:企業(yè)信息管理系統(tǒng)針對企業(yè)、機關(guān)內(nèi)部的業(yè)務(wù)平臺如辦公自動化系統(tǒng)、事

務(wù)管理系統(tǒng)等;網(wǎng)絡(luò)信息系統(tǒng)針對互聯(lián)網(wǎng)絡(luò)平臺上的各種信息系統(tǒng);物聯(lián)網(wǎng)信息系統(tǒng)針對各

種傳感器設(shè)備及監(jiān)控系統(tǒng);科學(xué)研究實驗系統(tǒng)針對科學(xué)大數(shù)據(jù)。

2.3基本流程:對采集到的海量數(shù)據(jù)進行數(shù)據(jù)挖掘處理之前,需要先對原始數(shù)據(jù)進行必要

的數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約等多項處理工作,必要時可以進行多次數(shù)據(jù)預(yù)

處理。

作用:改進原始數(shù)據(jù)的質(zhì)量.滿足后續(xù)的數(shù)據(jù)挖掘算法進行知識獲取的目的,達到客

戶應(yīng)用的挖掘需求。

2.4數(shù)據(jù)清洗的基本處理過程:數(shù)據(jù)分析、確定數(shù)據(jù)清洗規(guī)則和策略、數(shù)據(jù)檢測、數(shù)據(jù)清

洗、數(shù)據(jù)評估和干凈數(shù)據(jù)回流六個步驟。

2.5箱1:60,61,65

箱2:70,73,81

箱3:85,90,92

平均值平滑處理:箱1:62,62,62箱2:75,75,75箱3:89,89,89

邊界值平滑處理:箱1:60,60,65箱2:70,70,81箱3:85,92,92

2.6最小.最大值規(guī)范化:適用于已知屬性的取值范圍,對原始數(shù)據(jù)進行線性變換的場合。

z-score規(guī)范化:基于屬性的平均值和標準差進行規(guī)范化的方法,適用于屬性的最大值

和最小值未知,或者孤立點左右了最小?最大規(guī)范化的場合。

小數(shù)定標規(guī)范化:值域區(qū)間[-1,1]。

2.7(1)最小-最大值規(guī)范化:%轉(zhuǎn)換到[0.0,1.0]區(qū)間,為0.25。

(2)z-score:其中標準偏差為15.36,94規(guī)范為-0.391。

(3)小數(shù)定標規(guī)范化:94規(guī)范為0.094。

2.8常見的大數(shù)據(jù)采集及處理平臺類別:常見的大數(shù)據(jù)采集工具有Apache的Chukwa、

Facebook的Scribe>Cloudera的Flume>Linkedin的Kafka和阿里的TT(TimeTunnel)等。

應(yīng)用場合:大多是作為完整的大數(shù)據(jù)處理平臺而設(shè)計的,不僅可以進行海量日志數(shù)據(jù)

的采集,還可以實現(xiàn)數(shù)據(jù)的聚合和傳輸。

第3章

3.1傳統(tǒng)存儲分為直連式存儲和網(wǎng)絡(luò)連接存儲。直連式存儲是通過服務(wù)器內(nèi)部直接連接磁

盤組,或者通過外接線連接磁盤陣列。這種方式通常需要通過硬件RAID卡或者軟RAID的

方式實現(xiàn)磁盤的冗余保護,防止由于磁盤故障導(dǎo)致整個存儲系統(tǒng)的不可用而丟失數(shù)據(jù)。網(wǎng)絡(luò)

連接是通過以太網(wǎng)方式接入并進行訪問的存儲形式,是一臺在網(wǎng)絡(luò)上提供文檔共享服務(wù)的網(wǎng)

絡(luò)存儲服務(wù)器。存儲設(shè)備可以直接連接在以太網(wǎng)中,使用者可以通過某種方式(例如linux

下的mount命令)將存儲服務(wù)掛載到本地進行訪問,在本地呈現(xiàn)的就是一個文件目錄樹。

3.2名稱節(jié)點是HDFS系統(tǒng)中的管理者,負責管理文件系統(tǒng)的命名空間,記錄每個文件中

各個塊所在的數(shù)據(jù)節(jié)點的位置信息,維護文件系統(tǒng)的文件樹及所有的文件和目錄的無數(shù)據(jù)。

數(shù)據(jù)節(jié)點存儲所有具體數(shù)據(jù)并根據(jù)需要檢索數(shù)據(jù)塊,受客戶端或名稱節(jié)點調(diào)度,數(shù)據(jù)節(jié)點定

期向名稱節(jié)點發(fā)送它們所存儲的塊的列表。同時,它會通過心跳定時向名稱節(jié)點發(fā)送所存儲

的文件塊信息。

3.3為了保證系統(tǒng)的容錯性和可用性,HDFS采用了多副本方式對數(shù)據(jù)進行冗余存儲,通常

一個數(shù)據(jù)塊的多個副本會被分配到不同的數(shù)據(jù)節(jié)點上。在讀取數(shù)據(jù)時,為了減少整體的帶寬

消耗和降低整體的帶寬時延,HDFS會盡量讓讀取程序讀取離客戶端最近的副本。如果讀取

程序的同一個機架上有一個副本,那么就讀取該副本:如果一個HDFS集群跨越多個數(shù)據(jù)中

心,那么客戶端也將首先讀取本地數(shù)據(jù)中心的副本。

3.4NoSQL是一種不同于關(guān)系數(shù)據(jù)庫的數(shù)據(jù)庫管理系統(tǒng)設(shè)計方式,是對非關(guān)系型數(shù)據(jù)庫的

統(tǒng)稱。NoSQL技術(shù)引入了靈活的數(shù)據(jù)模型、水平可伸縮性和無模式數(shù)據(jù)模型,典型的NoSQL

數(shù)據(jù)庫通常包括鍵值數(shù)據(jù)庫、列族數(shù)據(jù)庫、文檔數(shù)據(jù)庫和圖數(shù)據(jù)庫,這些數(shù)據(jù)庫旨在提供易

于擴展和管理的大量數(shù)據(jù)。

3.5CAP理論可簡單描述為:一個分布式系統(tǒng)不能同時滿足一致性(consistency)、可用性

(availability)和分區(qū)容錯性(partitiontolerance)這3個需求,最多只能同時滿足兩個。

3.6HBase使用坐標來定位表中的數(shù)據(jù),也就是說,每個值都是通過坐標來訪問的。需要根

據(jù)行鍵、列族、列限定符和時間戳來確定一個單元格,因此可以視為一個“四維坐標”。

3.7每個Region服務(wù)器負責管理一個Region集合,通常在每個Reg沁n服務(wù)器上會放置

107000個Region。當存儲數(shù)據(jù)量非常龐大時,必須設(shè)計相應(yīng)的Region定位機制,保證客

戶端知道哪里可以找到自己所需要的數(shù)據(jù)。每個Region都有一個RegionlD來標識它的唯一

性,這樣,一個Region標識符就可以表示成“表名+開始主鍵+RegioMD”。

3.8當客戶端提出數(shù)據(jù)訪問請求時,首先在Zookeeper集群上查找-ROOT-的位置,然后客

戶端通過-ROOT-查找請求所在范圍所屬.META.的區(qū)域位置,接著,客戶端查找.META.區(qū)域

位置來獲取用戶空間區(qū)域所在節(jié)點及其位置;最后,客戶端即可?直接與管理該區(qū)域的Region

服務(wù)器進行交互。一旦客戶端知道了數(shù)據(jù)的實際位置(某Region服務(wù)器位置),該Client會

宜接和這個Region服務(wù)器進行交互,也就是說,客戶端需要通過“三級尋址”過程找到用

戶數(shù)據(jù)表所在的region服務(wù)器,然后直接訪問該Region服務(wù)器獲得數(shù)據(jù)。

3.9數(shù)據(jù)倉庫是一個面向主題的(SubjectOriented)、集成的(Integrated)、相對穩(wěn)定的(Non-

Volatile)、反映歷史變化(TimeVariant)的數(shù)據(jù)集合,用于支持管理決策,數(shù)據(jù)倉庫是在數(shù)

據(jù)庫已經(jīng)大量存在的情況下,為了進一步挖掘數(shù)據(jù)資源、為了決策需要而產(chǎn)生的。一個典

型的數(shù)據(jù)倉庫主要包含4個層次:數(shù)據(jù)源、數(shù)據(jù)存儲和管理、數(shù)據(jù)服務(wù)、數(shù)據(jù)應(yīng)用.

3.10基本架構(gòu)包括:

1.數(shù)據(jù)源:是數(shù)據(jù)倉庫的數(shù)據(jù)來源,包括了外部數(shù)據(jù)、現(xiàn)有業(yè)務(wù)系統(tǒng)和文檔資料等。

2.數(shù)據(jù)集成:完成數(shù)據(jù)的抽取、清洗、轉(zhuǎn)換和加載任務(wù),數(shù)據(jù)源中的數(shù)據(jù)采用ETL工

具以固定周期加載到數(shù)據(jù)倉庫中。

3.數(shù)據(jù)存儲和管理:這一層次主要涉及對數(shù)據(jù)的存儲和管理,包括數(shù)據(jù)倉庫、數(shù)據(jù)集

市、數(shù)據(jù)倉庫檢測、運行與維護工具和無數(shù)據(jù)管理等。

4.數(shù)據(jù)服務(wù):為前端工具和應(yīng)用提供數(shù)據(jù)服務(wù),可以宜接從數(shù)據(jù)倉庫中獲取數(shù)據(jù)供前

端應(yīng)用使用,也可以通過OLAP服務(wù)器為前端應(yīng)用提供更加復(fù):雜的數(shù)據(jù)服務(wù)。

5.數(shù)據(jù)應(yīng)用:這一層次直接面向最終用戶,包括數(shù)據(jù)查詢工具、自由報表工具、數(shù)據(jù)

分析工具、數(shù)據(jù)挖掘工具和各類應(yīng)用系統(tǒng)。

第4章

4.1分類用于找出一組數(shù)據(jù)對象的共同特點并按照一定的模式將其劃分為不同的類。分類

的目的是分析輸入數(shù)據(jù),通過訓(xùn)練集中的數(shù)據(jù)表現(xiàn)出來的特性構(gòu)造出一個分類函數(shù)或分類模

型,該模型常被稱為分類器,用于將未知類別的樣本數(shù)據(jù)映射到給定類別中。

分類技術(shù)也因此被廣泛的應(yīng)用于如欺詐檢測、目標營銷、醫(yī)療診斷、人臉檢測、故障診

斷和故障預(yù)警等。

4.2數(shù)據(jù)分類過程總體可以分為兩個階段:

第一階段,建立描述預(yù)先定義的數(shù)據(jù)類或概念集的分類器。這是學(xué)習(xí)階段(或訓(xùn)練階

段),其中分類算法通過分析或從訓(xùn)練集“學(xué)習(xí)”來構(gòu)造分類器。通過對訓(xùn)練數(shù)據(jù)中各數(shù)據(jù)

行的內(nèi)容進行分析,從而認為每一行數(shù)據(jù)是屬于一個確定的數(shù)據(jù)類別,其類別值是由一個屬

性描述(類標號)。

第二階段,使用模型進行分類。首先評估分類器的預(yù)測準確率,選取獨立于訓(xùn)練集數(shù)據(jù)

的測試集,通過第一階段構(gòu)造出的分類器對給定測試集的數(shù)據(jù)進行分類。將分類出的每條測

試記錄的類標號與學(xué)習(xí)模型對該記錄的類預(yù)測進行比較,如果分類器的性能達到預(yù)定要求,

就用該模型對類標號未知的數(shù)據(jù)記錄進行分類。

4.3決策樹算法采用不同的度量準則,主要有以下三種:信息增益、增益率和基尼指數(shù)。

信息增益準則傾向于選擇具有大量不同取值的屬性,從而產(chǎn)生許多小而純的子集。信息增益

率會導(dǎo)致數(shù)據(jù)集劃分不平衡,其中一個分區(qū)比其它分區(qū)小的多?;嶂笖?shù)偏小于多值屬性,

當類的數(shù)量很大時會有困難,還傾向于導(dǎo)致相等大小的分區(qū)和純度。

4.4有準確率、精確率、召回率、假正率、真負率、假負率、F度量和ROC曲線與AUC曲

線等。

4.5

4.6幸存可能性為0.0347,遇難可能性0.0261。

與4.5題結(jié)果對比:略。

4.7(1)0.116;(2)0.496;(3)0.002347o

4.8最近鄰:由于%=+1,因此戈的類標號為+1;

k?近鄰(k=3):由于丫2=+1,丫7=-1,=一1,因此%的類標號為一1。

第5章

5.1參見5.1節(jié)。

5.2參見5.2節(jié)。

5.3(1)繪制學(xué)習(xí)時間與測試成績的散點圖;

70

0-----------------------------------------------------------------------------------------

00.511.522.533.5

學(xué)習(xí)時間(小時)

(2)鳳=-0.157和方=19.029

(3)R2=0.867

5.4(1)y=0.032241+0.069986%+0.429138々

(2)R2=0.854

5.5與一元線性回歸模型單個自變量相比,當多元線性回歸模型自變量數(shù)目增多時,若自

變量均與因變量相關(guān)性很強,得到的回歸方程擬合效果會更接近真實情況.

5.6(1)散點圖:

(2)y=29.62721+0.032633X

(3)R2=0.9931

5.7非線性關(guān)系的處理分為三種情況:第一種是自變量X和因變量Y之間的關(guān)系通過函數(shù)

替換轉(zhuǎn)為線性,然后利用線性回歸模型的求解方法估計回歸參數(shù),并作出回歸診斷;第二種

是當自變量X與因變量Y之間的非線性關(guān)系對應(yīng)的描述函數(shù)形式不明確時,采用多項式回

歸分析方法,進而轉(zhuǎn)化為多元線性逐步回歸來進行求解;第三種是自變量X與因變量Y之

間的非線性關(guān)系對應(yīng)的描述函數(shù)形式很明確,但回歸參數(shù)是未知的,大能像第一種情況那樣

通過函數(shù)替換轉(zhuǎn)化為線性關(guān)系,需要采用比較復(fù)雜的擬合方法或者數(shù)學(xué)模型來求解,通常利

用泰勒級數(shù)展開,并進行數(shù)值迭代來近似逼近實際曲線。

5.8常見的非線性函數(shù)有雙曲線、半對數(shù)、雙對數(shù)、三角函數(shù)、指數(shù)函數(shù)、累函數(shù)等,其線

性化方法參見532節(jié)。

5.9(1)y=1100.13+42.1707^+5.7678x,2

(2)平均絕對百分誤差MAPE為4.105。

(3)

SUMMARYOUTPUT

回歸統(tǒng)計

MultipleR0.999689365

RSquare0.999378827

AdjustedR0.999201349

懷準誤差8Z1.0954:347

觀測值10

方差分析

SSMSFgnificanceF

7.59E+093.8E+095631.0015.97E-12

計4719384674197.7

7.6E+09

Coefficients標準1天差tStatP-valueLower95%Upper95%~F限95.S上限95.0%

Intercept____1100.129724983.39551.1187050.300181-1225.233425.491-1225.233425.491

XVariable42.1706999832.2061.3094050.231736-33.9844118.3258-33.9844118.3258

XVariable5.7677973660.22860325.230663.92E-085.2272386.3083575.2272386.308357

5.10多項式回歸模型用來解決生活中一大類非線性回歸問題,常用亍描述經(jīng)濟生活中的生

產(chǎn)成本關(guān)系,這些因變量與自變量之間的關(guān)系通常都無法用線性回歸模型來表示,但是可以

用多項式回歸方程加以描述。根據(jù)泰勒級數(shù)展開的原理,任何曲面、曲線、超曲面問題,在

一定范圍內(nèi),都可以通過增加高次項來無限逼近其實數(shù)據(jù),因此可用適當階數(shù)的多項式方程

來近似描述。

基本原理:多項式回歸問題通常可以使用變量代換法轉(zhuǎn)化為多元線性回歸問題來處理,

參照線性回歸模型的求解思路,使用最小二乘法(OLS)完成對多項式回歸模型的參數(shù)估計。

第6章

6.1相同點:都是根據(jù)研究對象的特征對它們進行分類。

不同點:分類是一種監(jiān)督式學(xué)習(xí)方法,預(yù)先已經(jīng)劃分好類別;聚類屬于非監(jiān)督式學(xué)習(xí),

預(yù)先未定義類別,是通過樣本集合發(fā)現(xiàn)數(shù)據(jù)自身的內(nèi)部結(jié)構(gòu),建立起一種有意義的或者有用

的歸類方法。

6.2連續(xù)屬性:距離,相似系數(shù)

二值離散屬性:匹配距離,相似系數(shù)

多值離散屬性:簡單匹配法,轉(zhuǎn)換為多個二值離散屬性

6.3(答案不唯一)

選擇“北京”、“青?!薄ⅰ靶陆睘槌跏季垲愔行?,得到聚類結(jié)果為:

Cl=(北京,山西,內(nèi)蒙古,遼寧,吉林,黑龍江,上海,廣西,貴州,云南,陜西,

福建,新疆}

C2={天津,青海}

C3={河北,浙江,廣東,江蘇}

6.4兩個簇:Cj={h,ij}9G={a,"c,d,e,/,g}

6.5最近距離法:

第一步:

■V/X2&X5X3X4X6

XI00.650.570.460.32

X2&X50.6500.150.240.11

X30.570.1500.560.04

X40.460.240.5600.26

X60.320.110.040.260

第二步:

X112&巧X3&X6X4

XI00.650.320.46

X2&X50.6500.110.24

X3&X60.320.1100.26

X40.460.240.260

第三步:

XiX2&X5&X3&X6X4

XI00.320.46

X2&X5&JC3&JC60.3200.24

X40.460.240

第四步:

XiX2&X5&X3&X6&X4

XI00.32

X2&X5&X3&JC6&J:40.320

最遠距離法:

第一步:

X2&X5

XlX3X4x6

Xl00.900.570.46032

X2&X50.9000.340.520.19

Xi0.570.3400.560.04

X40.460.520.5600.26

X60.320.190.040.260

第二步:

XIX2&X5X3&X6X4

Xi00.900.570.46

X2&X50.9000.340.52

X3&X60.570.3400.56

X40.460.520.560

第三步:

XiX2&XS&X3&X6X4

Xi00.900.46

X2&X5&X3<SLX60.9000.56

X40.460.560

第四步:

X1&X4X2&X5&X3&X6

X1&X400.90

X2&X5&X3&X60.900

(圖略)

6.6

根節(jié)點

CFfl/=(2,0.65,0.2225)C%=(3,2.3,1.85)

6.7外部準則法、內(nèi)部準則法和相對準則法。

6.8對象的輪廓系數(shù)為

b-a0.61-0.1

xx==0.836

max(4,8J0.61

b-a_0.64-0.1

22=0.844

max(a2,b2)0.64

b-a_0.63-0.26

邑=3=3

max(a3,b3)0.63

,二/_=。.62-0.26=0581

max(a4,b4)0.62

數(shù)據(jù)集的輪廓系數(shù)為

1S0.836+0.844+0.587+0.581

=0.712

*計-----4-----------------------

6.9圖6.10:DH=4.072

圖6.11:DH=3.376

圖6.11的聚類效果更好

第7章

7.1(1)

m3m3mo1mk3

0303mk3ok3

n2k5me2oe3

k5e4my2ke4oke3

e4y3ok3ky3key2

Cl=y3Ll=C2=oe3L2=C3=

d1oy2

a1ke4

u1ky3

c2ey2

I1

L3={o,k,e)

FP-growth:數(shù)據(jù)庫的第一次掃描與Apriori算法相同,得到L1。再按支持度計數(shù)的遞減序排

序,得到:L={(K:5),(E:4),(M:3),(O:3),(Y:3)},掃描每個事務(wù),按以上L的排序,從根節(jié)點開

始,得到FP樹

項條件模式基條件FP樹條件的頻繁模式

y({k,e,m,o:l),{k,e,o:1),k:3{k,y:3}

{k,m:l}}

o{{k,e,m:l),{k,e:2}}k:3,e:3{k,o:3}?{e,o:3J,{k,e,o:3}

m{{k,e:2},{k:l}}k:3{k,m:3)

e{k:4}k:4{k,e:4)

效率比較:Apriori算法的計算過程必須對數(shù)據(jù)庫作多次掃描,而FP算法在構(gòu)造過程中只需

要掃描一次數(shù)據(jù)庫,再加上初始時為確定支持度遞減排序的一次掃描,共計只需兩次掃描。

由于在Apriori算法中的自身連接過程中產(chǎn)生候選項集的代價非常高,而FP算法不需要產(chǎn)

生任何候選項集。

(2)

Vxe數(shù)據(jù)庫事務(wù),buys(X,"e叫)Abuys(X,iteir^)=>buys{X,itern^)

VxGtransation^buys(X,")Abuys(X,nF)=>buys(X,"e")[s=0.6,c=l]

VxGtransation^"e")八b〃)s(X,"o")nbuys{X^'k'')[s=0.6,c=l]

7.2(1)首先將實際的DBS問題轉(zhuǎn)換成邏輯值

SEXAGEKNOWLEDGEOCCUPATIONWAGES

12345678910

TID

malefemale>=40<40碩博本科教師非教>5000<5000

士師

1001010101010

2000101101010

3001001010101

4001010101010

5001001101010

6001001010101

(2)轉(zhuǎn)換成數(shù)據(jù)庫中記錄的屬性項取值集合

TIDItemsTIDItems

100135,7,9400135,7,9

2002,4,5,7,95001,4,5,7,9

3001,4,6,8,106001,4,6,8,10

由最小支持度min_sup=0.5,得出頻繁1-項集Ll={{1},{4},{5},{7},{91}。

(3)由頻繁1-項集得到頻繁2-項集L2={{1,4),{1,5},{1,7},{1,9}{5,7},{5,9},{7,9}}o

(4)計算頻繁2?項集中各項之間的支持度和置信度得出下表:

ItemsSup(ImUIn)Sup(Im)Sup(In)conf(ImUIn)

”,4}3/65/64/63/5

{1,5}3/65/64/63/5

{1,7}3/65/64/63/5

{⑶3/65/64/63/5

(5,7)4/64/64/61

{5,9}4/64/64/61

{7,9}4/64/64/61

由min_sup=0.5,min_conf=0.7產(chǎn)生的二項關(guān)聯(lián)規(guī)則為/(5)=>7(7);/(5)=>/(9);/(7)=>7(9)

(5)由頻繁2-項集得到頻繁3-項集L3={{1,5,7},{1,5,9},{1,7,9},{5,7,9}}

(6)計算頻繁3?項集的置信度和支持度,得到3項集關(guān)聯(lián)規(guī)則:

/(5)=>/(1,7);/(7)=>/(1,5);/(1,5)=>/⑺;/(1,7)nZ(5);Z(5,7)=>/(I);

1(5)=/(i,9);Z(9)=Z(l,5);7(l,5)=Z(9);/(i,9)=Z(5);Z(5,9)=7(1);

7(7)=>/(1,9);7(9)=>Z(l,7);7(l>7)=>Z(9);7(l,9)=>7(7);/(7,9)=>/(I);

/(5)=>7(7,9);Z(7)=>Z(5,9);Z(9)=>/(5,7);/(5,7)=>/(9);/(5,9)=>/(7);

7(7,9)=>/(5)

(7)由頻繁3-項集L3得到頻繁4-項集L4={157,9},計算4項集的可信度得到4相關(guān)聯(lián)規(guī)

則為:

/(5)=>7(1,7,9);7(7)=>7(1,5,9);7(9)=>7(1,5,7);/(1,5)=>7(7,9)

7(1,7)=>/(5,9);/(1,9)=>7(5,7);7(5,7)=>7(1,9);/(5,9)=>7(1,7)

7(7,9)=>7(1,5);/(1,5,7)=/(9);Z(1,5,9)=/(7);/(5,7,9)=Z(l);/(1,7,9)=>7(5)

7.3(1)根據(jù)規(guī)則,support=200(]/5000=40%,confidence=2000/3000=66.7%o所以該關(guān)聯(lián)規(guī)

則是強規(guī)則。

)corr{hotdog\hamburger}=P({hotdog,hambuger])/(P({hotdog})P({hambuger}))

=0.4/(0.5x0.6)=1.33>l

所以,買hotdog不是獨立于買hamburgers。兩者存在正相關(guān)關(guān)系。

(3)全置信J?=sup(hotdogUhamburgcrs)/max{sup(A),sup(B))=0.4/0.6=0.67

最大置信度=max{confidence(hotdog-*hamburgers),confidence(hamburgers-?holdog)}

=max{0.4/0.6,0.4/0.5}=0.8

Kulc(hotdog,hamburgers)=(0.4/0.6+0.4/0.5)/2=0.73

Cosine(hotdog,hamburgers)=J0.67x0.8=0.732

Lift(holdog,hamburgers)=0.4/(0.6*0.5)=1.33

根據(jù)數(shù)據(jù)顯示,hotdog和hamburgers之間存在正相關(guān)的關(guān)系。

第8章

8.1數(shù)據(jù)可視化是根據(jù)數(shù)據(jù)的特性,將大型數(shù)據(jù)以直觀、生動、易理解的圖形圖像方式呈

現(xiàn)給用戶便于人們理解數(shù)據(jù),有效提高數(shù)據(jù)分析的效率和效果。

8.2首先用戶應(yīng)該理解數(shù)據(jù)源及數(shù)據(jù),明確數(shù)據(jù)可視化的目的,需要可視化的數(shù)據(jù)要呈現(xiàn)

出怎樣的效果。其次要進行數(shù)據(jù)的比較,了解數(shù)據(jù)所要反映的問題,根據(jù)數(shù)據(jù)特性建立指標,

最后要遵循簡單法則,數(shù)據(jù)可視化的結(jié)果一定要以簡單直觀的方式呈現(xiàn)給用戶,并要注重可

視化數(shù)據(jù)的藝術(shù)性,符合審美規(guī)則以吸引讀者的注意力。

8.3數(shù)據(jù)可視化可以將大量復(fù)雜數(shù)據(jù)以圖形圖表的方式展現(xiàn)出來,從而使人們從中獲得大

量有價值的信息。

數(shù)據(jù)可視化可以使人們從海量數(shù)據(jù)中獲取數(shù)據(jù)之間不同模式或過程的聯(lián)系與區(qū)別。有助

于人們更加方便快捷地深層次的理解數(shù)據(jù),提升數(shù)據(jù)分析效率,改善數(shù)據(jù)分析效果。

數(shù)據(jù)可視化能夠使人們有效地利用數(shù)據(jù),使用更多的數(shù)據(jù)資源,從中獲取更多的有用信

息,提出更好解決方案。

數(shù)據(jù)可視化可以增強數(shù)據(jù)對人們的吸引力,極大地提高了人們理解數(shù)據(jù)知識的效率,增

強獨者的閱讀興趣。

8.4數(shù)據(jù)可視化工具應(yīng)具有以下特征:

(1)實時簡單。能高效地收集和分析數(shù)據(jù),并對數(shù)據(jù)信息進行實時更新,適應(yīng)于互聯(lián)網(wǎng)時

代信息多變的特點。

(2)多種數(shù)據(jù)源:能夠方便接入各種系統(tǒng)和數(shù)據(jù)文件,包括文本文件、數(shù)據(jù)庫及其他外部

文件。

(3)數(shù)據(jù)處理:具有高效、便捷的數(shù)據(jù)處理能力。

(4)分析能力:必須具有數(shù)據(jù)分析能力,用戶可以通過數(shù)據(jù)可視化實現(xiàn)對圖表的支持及擴

展性,并在此基礎(chǔ)上進行數(shù)據(jù)的鉆取、交互性和高級分析等。

(5)協(xié)作能力:應(yīng)具有可以實現(xiàn)共享數(shù)據(jù),協(xié)同完成數(shù)據(jù)分析流程的平臺,以便管理者可

以基于該平臺溝通問題并做出相應(yīng)決策。

8.5參考代碼:

importinatplotlib.pyplotaspit

name_list=['excellence','good','middle','pass']

num_listl=[4,17,12,2]

num_list2=[2,15,18,l]

x=list(range(len(num_listl)))

total_width,n=0.8,2

width=total_width/n

plt.bar(x,num」isll,width=width,label=rclassr,fc='y')

foriinrange(len(x)):

x[ij=x[i]+width

plt.bar(x,num_list2,width=width,label='class2',tick_label=name_list,fc='r')

plt.legend()

plt.show()

第9章

9.1來源:業(yè)務(wù)支撐系統(tǒng)、運營支撐系統(tǒng)、管理支撐系統(tǒng)和深度包檢測DPI。

業(yè)務(wù)支撐系統(tǒng)的數(shù)據(jù)更適合于進行客戶畫像。

9.2參見9.1.3節(jié)。

9.3企業(yè)內(nèi)部應(yīng)用:網(wǎng)絡(luò)管理和優(yōu)化、市場與精準營銷、客戶關(guān)系管理、企業(yè)運營管理等。

對外應(yīng)用:電信運營商將數(shù)據(jù)封裝成服務(wù),向第三方開放數(shù)據(jù)或提供大數(shù)據(jù)分析服務(wù)。

9.4提示:1、根據(jù)MOS的取值為原始數(shù)據(jù)建立新標簽,將回歸問題轉(zhuǎn)化為二分類問題;

2、使用sklearn提供的RandomForestClassifier。類建立模型。

9.5提示:使用skleam.metrics庫中提供的calinski_harabaz_score()函數(shù)進行計算。

k取9時CH值最大,表明此時聚類效果較好。

9.6提示:skleam提供了DBSCAN類、BIRCH類和AgglomerativeClustering類。以BIRCH

類為例,它的定義如下:

classskleam.cluster.Birch(*threshold=0.5,branching_factor=50,n_clusters=3,

compute_labels=True,copy=True)

參數(shù)threshold:存放在葉子節(jié)點中的子簇的最大半徑

branching_factor:非葉節(jié)點擁有的最大子節(jié)點數(shù)

注意:BIRCH算法的性能受到threshold、branching_factor和n_clusters三個參數(shù)的影響,訓(xùn)

練模型時,需要搜索最優(yōu)參數(shù)組合。

9.7參考代碼

#利用手肘法確定最佳聚類數(shù)

SSE=[1#存放每次結(jié)果的誤差平方和

SSE_dl=[]柢se的一階導(dǎo)數(shù)

SSE_d2=[]#Sse的二階導(dǎo)數(shù)

models=\\#保存每次的模型

forkinrange(2,9):

estimator=KMeans(n_clusters=k,random_state=10)#構(gòu)造聚類器

estimator.fit(data_PCA)

SSE.append(estimator.inertia_)

models.append(estimator)

#畫出k與SSE的關(guān)系圖

X=range(2,9)

plt.xlabcl('k')

plt.ylabeK'SSE')

plt.plot(X,SSE,'o-')

plt.show()

#求二階導(dǎo)數(shù),通過SSE方法計算最佳k值

SSE_lcngth=lcn(SSE)

foriinrange(1,SSE_Ienglh):

SSE_dl.appcnd((SSE[i-1]-SSE[i])/2)

foriinrange(1Tlen(SSE_d1)-1):

SSE_d2.append((SSE_dl[i-1]-SSE_dl[i])/2)

最佳分簇數(shù):4

9.8分析客戶流失原因、建立客戶流失預(yù)測模型、制定客戶挽留策略。

9.9提示:導(dǎo)入機器學(xué)習(xí)庫sklcarn中的決策樹tree包,調(diào)用DecisionTreeClassifier。方法構(gòu)

造決策樹模型,并用數(shù)據(jù)集中的全部特征(除去customerlD)訓(xùn)練模型,最后通過

feature」mportances_屬性觀察特征重要性排序,結(jié)果如下圖所示。

1)Totalcharges0.199292

2)Monthlycharges0.191795

3)Contract_Month-to-month0.164864

4)tenure0.118317

5)InternetService_Fiberoptic0.049027

6)gender0.024013

7)Dependents0.019844

8)PaperlessBilling0.019484

9)PaynnentMethod_E1ectroniccheck0.019203

10)TechSupport0.018324

11)OnlineBackup0.017889

12)OnlineSecurity0.017190

13)PaymentMethod_Mailedcheck0.016362

14)Partner0.016203

15)SeniorCitizen0.015962

16)DeviceProtection0.015816

17)MultipleLines0.014497

18)StreamingMovies0.013358

19)PaymentMethod_Banktransfer(automatic)0.012451

20)PayTnentMethod_Creditcard(automatic)0.010442

21)StreamingTV0.009290

22)InternetService_No0.008215

23)Contract_Oneyear0.004436

24)PhoneService0.003555

25)InternetService_DSL0.000169

26)Contract_Twoyear0.000000

9.10提示:PCA處理過程可參考9.4節(jié)。

第10章

10.1準確率=(50+222)/(50+8+32+222)=272/312=87%

精確率=50/82=61%

召回率=50/58=86%

=2x61%x86%rw

E=----------

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論