版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)技術(shù)及應(yīng)用習(xí)題及答案
第1章
1.1概念:大數(shù)據(jù)是指大小超出傳統(tǒng)數(shù)據(jù)庫工具的獲取、存儲(chǔ)、管理和分析能力的數(shù)據(jù)集。
特征:規(guī)模龐大(Volume),種類繁多(Variety),生成快速(Velocity),來源真實(shí)
(Veracity),...
1.2數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析與挖掘、數(shù)據(jù)展現(xiàn)與可視化。
1.3目的:監(jiān)督并改善數(shù)據(jù)的質(zhì)量,保證后續(xù)分析挖掘結(jié)果的有效性。
主要操作:數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)歸約。
1.4統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等。
1.5略。
第2章
2.1分類:系統(tǒng)日志采集、網(wǎng)絡(luò)數(shù)據(jù)采集、傳感器采集、其他采集方法等。
特點(diǎn):大規(guī)模、海量存儲(chǔ)、高速傳輸、實(shí)時(shí)采集、支持分布式架構(gòu)、可擴(kuò)展性。
適用范圍:系統(tǒng)日志、網(wǎng)頁數(shù)據(jù)、電子商務(wù)信息、傳感器數(shù)據(jù)、科學(xué)領(lǐng)域數(shù)據(jù)等。
2.2來源:企業(yè)信息管理系統(tǒng)、網(wǎng)絡(luò)信息系統(tǒng)、物聯(lián)網(wǎng)信息系統(tǒng)、科學(xué)研究實(shí)驗(yàn)系統(tǒng)。
應(yīng)用場合:企業(yè)信息管理系統(tǒng)針對(duì)企業(yè)、機(jī)關(guān)內(nèi)部的業(yè)務(wù)平臺(tái)如辦公自動(dòng)化系統(tǒng)、事
務(wù)管理系統(tǒng)等;網(wǎng)絡(luò)信息系統(tǒng)針對(duì)互聯(lián)網(wǎng)絡(luò)平臺(tái)上的各種信息系統(tǒng);物聯(lián)網(wǎng)信息系統(tǒng)針對(duì)各
種傳感器設(shè)備及監(jiān)控系統(tǒng);科學(xué)研究實(shí)驗(yàn)系統(tǒng)針對(duì)科學(xué)大數(shù)據(jù)。
2.3基本流程:對(duì)采集到的海量數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘處理之前,需要先對(duì)原始數(shù)據(jù)進(jìn)行必要
的數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約等多項(xiàng)處理工作,必要時(shí)可以進(jìn)行多次數(shù)據(jù)預(yù)
處理。
作用:改進(jìn)原始數(shù)據(jù)的質(zhì)量.滿足后續(xù)的數(shù)據(jù)挖掘算法進(jìn)行知識(shí)獲取的目的,達(dá)到客
戶應(yīng)用的挖掘需求。
2.4數(shù)據(jù)清洗的基本處理過程:數(shù)據(jù)分析、確定數(shù)據(jù)清洗規(guī)則和策略、數(shù)據(jù)檢測、數(shù)據(jù)清
洗、數(shù)據(jù)評(píng)估和干凈數(shù)據(jù)回流六個(gè)步驟。
2.5箱1:60,61,65
箱2:70,73,81
箱3:85,90,92
平均值平滑處理:箱1:62,62,62箱2:75,75,75箱3:89,89,89
邊界值平滑處理:箱1:60,60,65箱2:70,70,81箱3:85,92,92
2.6最小.最大值規(guī)范化:適用于已知屬性的取值范圍,對(duì)原始數(shù)據(jù)進(jìn)行線性變換的場合。
z-score規(guī)范化:基于屬性的平均值和標(biāo)準(zhǔn)差進(jìn)行規(guī)范化的方法,適用于屬性的最大值
和最小值未知,或者孤立點(diǎn)左右了最小?最大規(guī)范化的場合。
小數(shù)定標(biāo)規(guī)范化:值域區(qū)間[-1,1]。
2.7(1)最小-最大值規(guī)范化:%轉(zhuǎn)換到[0.0,1.0]區(qū)間,為0.25。
(2)z-score:其中標(biāo)準(zhǔn)偏差為15.36,94規(guī)范為-0.391。
(3)小數(shù)定標(biāo)規(guī)范化:94規(guī)范為0.094。
2.8常見的大數(shù)據(jù)采集及處理平臺(tái)類別:常見的大數(shù)據(jù)采集工具有Apache的Chukwa、
Facebook的Scribe>Cloudera的Flume>Linkedin的Kafka和阿里的TT(TimeTunnel)等。
應(yīng)用場合:大多是作為完整的大數(shù)據(jù)處理平臺(tái)而設(shè)計(jì)的,不僅可以進(jìn)行海量日志數(shù)據(jù)
的采集,還可以實(shí)現(xiàn)數(shù)據(jù)的聚合和傳輸。
第3章
3.1傳統(tǒng)存儲(chǔ)分為直連式存儲(chǔ)和網(wǎng)絡(luò)連接存儲(chǔ)。直連式存儲(chǔ)是通過服務(wù)器內(nèi)部直接連接磁
盤組,或者通過外接線連接磁盤陣列。這種方式通常需要通過硬件RAID卡或者軟RAID的
方式實(shí)現(xiàn)磁盤的冗余保護(hù),防止由于磁盤故障導(dǎo)致整個(gè)存儲(chǔ)系統(tǒng)的不可用而丟失數(shù)據(jù)。網(wǎng)絡(luò)
連接是通過以太網(wǎng)方式接入并進(jìn)行訪問的存儲(chǔ)形式,是一臺(tái)在網(wǎng)絡(luò)上提供文檔共享服務(wù)的網(wǎng)
絡(luò)存儲(chǔ)服務(wù)器。存儲(chǔ)設(shè)備可以直接連接在以太網(wǎng)中,使用者可以通過某種方式(例如linux
下的mount命令)將存儲(chǔ)服務(wù)掛載到本地進(jìn)行訪問,在本地呈現(xiàn)的就是一個(gè)文件目錄樹。
3.2名稱節(jié)點(diǎn)是HDFS系統(tǒng)中的管理者,負(fù)責(zé)管理文件系統(tǒng)的命名空間,記錄每個(gè)文件中
各個(gè)塊所在的數(shù)據(jù)節(jié)點(diǎn)的位置信息,維護(hù)文件系統(tǒng)的文件樹及所有的文件和目錄的無數(shù)據(jù)。
數(shù)據(jù)節(jié)點(diǎn)存儲(chǔ)所有具體數(shù)據(jù)并根據(jù)需要檢索數(shù)據(jù)塊,受客戶端或名稱節(jié)點(diǎn)調(diào)度,數(shù)據(jù)節(jié)點(diǎn)定
期向名稱節(jié)點(diǎn)發(fā)送它們所存儲(chǔ)的塊的列表。同時(shí),它會(huì)通過心跳定時(shí)向名稱節(jié)點(diǎn)發(fā)送所存儲(chǔ)
的文件塊信息。
3.3為了保證系統(tǒng)的容錯(cuò)性和可用性,HDFS采用了多副本方式對(duì)數(shù)據(jù)進(jìn)行冗余存儲(chǔ),通常
一個(gè)數(shù)據(jù)塊的多個(gè)副本會(huì)被分配到不同的數(shù)據(jù)節(jié)點(diǎn)上。在讀取數(shù)據(jù)時(shí),為了減少整體的帶寬
消耗和降低整體的帶寬時(shí)延,HDFS會(huì)盡量讓讀取程序讀取離客戶端最近的副本。如果讀取
程序的同一個(gè)機(jī)架上有一個(gè)副本,那么就讀取該副本:如果一個(gè)HDFS集群跨越多個(gè)數(shù)據(jù)中
心,那么客戶端也將首先讀取本地?cái)?shù)據(jù)中心的副本。
3.4NoSQL是一種不同于關(guān)系數(shù)據(jù)庫的數(shù)據(jù)庫管理系統(tǒng)設(shè)計(jì)方式,是對(duì)非關(guān)系型數(shù)據(jù)庫的
統(tǒng)稱。NoSQL技術(shù)引入了靈活的數(shù)據(jù)模型、水平可伸縮性和無模式數(shù)據(jù)模型,典型的NoSQL
數(shù)據(jù)庫通常包括鍵值數(shù)據(jù)庫、列族數(shù)據(jù)庫、文檔數(shù)據(jù)庫和圖數(shù)據(jù)庫,這些數(shù)據(jù)庫旨在提供易
于擴(kuò)展和管理的大量數(shù)據(jù)。
3.5CAP理論可簡單描述為:一個(gè)分布式系統(tǒng)不能同時(shí)滿足一致性(consistency)、可用性
(availability)和分區(qū)容錯(cuò)性(partitiontolerance)這3個(gè)需求,最多只能同時(shí)滿足兩個(gè)。
3.6HBase使用坐標(biāo)來定位表中的數(shù)據(jù),也就是說,每個(gè)值都是通過坐標(biāo)來訪問的。需要根
據(jù)行鍵、列族、列限定符和時(shí)間戳來確定一個(gè)單元格,因此可以視為一個(gè)“四維坐標(biāo)”。
3.7每個(gè)Region服務(wù)器負(fù)責(zé)管理一個(gè)Region集合,通常在每個(gè)Reg沁n服務(wù)器上會(huì)放置
107000個(gè)Region。當(dāng)存儲(chǔ)數(shù)據(jù)量非常龐大時(shí),必須設(shè)計(jì)相應(yīng)的Region定位機(jī)制,保證客
戶端知道哪里可以找到自己所需要的數(shù)據(jù)。每個(gè)Region都有一個(gè)RegionlD來標(biāo)識(shí)它的唯一
性,這樣,一個(gè)Region標(biāo)識(shí)符就可以表示成“表名+開始主鍵+RegioMD”。
3.8當(dāng)客戶端提出數(shù)據(jù)訪問請(qǐng)求時(shí),首先在Zookeeper集群上查找-ROOT-的位置,然后客
戶端通過-ROOT-查找請(qǐng)求所在范圍所屬.META.的區(qū)域位置,接著,客戶端查找.META.區(qū)域
位置來獲取用戶空間區(qū)域所在節(jié)點(diǎn)及其位置;最后,客戶端即可?直接與管理該區(qū)域的Region
服務(wù)器進(jìn)行交互。一旦客戶端知道了數(shù)據(jù)的實(shí)際位置(某Region服務(wù)器位置),該Client會(huì)
宜接和這個(gè)Region服務(wù)器進(jìn)行交互,也就是說,客戶端需要通過“三級(jí)尋址”過程找到用
戶數(shù)據(jù)表所在的region服務(wù)器,然后直接訪問該Region服務(wù)器獲得數(shù)據(jù)。
3.9數(shù)據(jù)倉庫是一個(gè)面向主題的(SubjectOriented)、集成的(Integrated)、相對(duì)穩(wěn)定的(Non-
Volatile)、反映歷史變化(TimeVariant)的數(shù)據(jù)集合,用于支持管理決策,數(shù)據(jù)倉庫是在數(shù)
據(jù)庫已經(jīng)大量存在的情況下,為了進(jìn)一步挖掘數(shù)據(jù)資源、為了決策需要而產(chǎn)生的。一個(gè)典
型的數(shù)據(jù)倉庫主要包含4個(gè)層次:數(shù)據(jù)源、數(shù)據(jù)存儲(chǔ)和管理、數(shù)據(jù)服務(wù)、數(shù)據(jù)應(yīng)用.
3.10基本架構(gòu)包括:
1.數(shù)據(jù)源:是數(shù)據(jù)倉庫的數(shù)據(jù)來源,包括了外部數(shù)據(jù)、現(xiàn)有業(yè)務(wù)系統(tǒng)和文檔資料等。
2.數(shù)據(jù)集成:完成數(shù)據(jù)的抽取、清洗、轉(zhuǎn)換和加載任務(wù),數(shù)據(jù)源中的數(shù)據(jù)采用ETL工
具以固定周期加載到數(shù)據(jù)倉庫中。
3.數(shù)據(jù)存儲(chǔ)和管理:這一層次主要涉及對(duì)數(shù)據(jù)的存儲(chǔ)和管理,包括數(shù)據(jù)倉庫、數(shù)據(jù)集
市、數(shù)據(jù)倉庫檢測、運(yùn)行與維護(hù)工具和無數(shù)據(jù)管理等。
4.數(shù)據(jù)服務(wù):為前端工具和應(yīng)用提供數(shù)據(jù)服務(wù),可以宜接從數(shù)據(jù)倉庫中獲取數(shù)據(jù)供前
端應(yīng)用使用,也可以通過OLAP服務(wù)器為前端應(yīng)用提供更加復(fù):雜的數(shù)據(jù)服務(wù)。
5.數(shù)據(jù)應(yīng)用:這一層次直接面向最終用戶,包括數(shù)據(jù)查詢工具、自由報(bào)表工具、數(shù)據(jù)
分析工具、數(shù)據(jù)挖掘工具和各類應(yīng)用系統(tǒng)。
第4章
4.1分類用于找出一組數(shù)據(jù)對(duì)象的共同特點(diǎn)并按照一定的模式將其劃分為不同的類。分類
的目的是分析輸入數(shù)據(jù),通過訓(xùn)練集中的數(shù)據(jù)表現(xiàn)出來的特性構(gòu)造出一個(gè)分類函數(shù)或分類模
型,該模型常被稱為分類器,用于將未知類別的樣本數(shù)據(jù)映射到給定類別中。
分類技術(shù)也因此被廣泛的應(yīng)用于如欺詐檢測、目標(biāo)營銷、醫(yī)療診斷、人臉檢測、故障診
斷和故障預(yù)警等。
4.2數(shù)據(jù)分類過程總體可以分為兩個(gè)階段:
第一階段,建立描述預(yù)先定義的數(shù)據(jù)類或概念集的分類器。這是學(xué)習(xí)階段(或訓(xùn)練階
段),其中分類算法通過分析或從訓(xùn)練集“學(xué)習(xí)”來構(gòu)造分類器。通過對(duì)訓(xùn)練數(shù)據(jù)中各數(shù)據(jù)
行的內(nèi)容進(jìn)行分析,從而認(rèn)為每一行數(shù)據(jù)是屬于一個(gè)確定的數(shù)據(jù)類別,其類別值是由一個(gè)屬
性描述(類標(biāo)號(hào))。
第二階段,使用模型進(jìn)行分類。首先評(píng)估分類器的預(yù)測準(zhǔn)確率,選取獨(dú)立于訓(xùn)練集數(shù)據(jù)
的測試集,通過第一階段構(gòu)造出的分類器對(duì)給定測試集的數(shù)據(jù)進(jìn)行分類。將分類出的每條測
試記錄的類標(biāo)號(hào)與學(xué)習(xí)模型對(duì)該記錄的類預(yù)測進(jìn)行比較,如果分類器的性能達(dá)到預(yù)定要求,
就用該模型對(duì)類標(biāo)號(hào)未知的數(shù)據(jù)記錄進(jìn)行分類。
4.3決策樹算法采用不同的度量準(zhǔn)則,主要有以下三種:信息增益、增益率和基尼指數(shù)。
信息增益準(zhǔn)則傾向于選擇具有大量不同取值的屬性,從而產(chǎn)生許多小而純的子集。信息增益
率會(huì)導(dǎo)致數(shù)據(jù)集劃分不平衡,其中一個(gè)分區(qū)比其它分區(qū)小的多?;嶂笖?shù)偏小于多值屬性,
當(dāng)類的數(shù)量很大時(shí)會(huì)有困難,還傾向于導(dǎo)致相等大小的分區(qū)和純度。
4.4有準(zhǔn)確率、精確率、召回率、假正率、真負(fù)率、假負(fù)率、F度量和ROC曲線與AUC曲
線等。
4.5
4.6幸存可能性為0.0347,遇難可能性0.0261。
與4.5題結(jié)果對(duì)比:略。
4.7(1)0.116;(2)0.496;(3)0.002347o
4.8最近鄰:由于%=+1,因此戈的類標(biāo)號(hào)為+1;
k?近鄰(k=3):由于丫2=+1,丫7=-1,=一1,因此%的類標(biāo)號(hào)為一1。
第5章
5.1參見5.1節(jié)。
5.2參見5.2節(jié)。
5.3(1)繪制學(xué)習(xí)時(shí)間與測試成績的散點(diǎn)圖;
70
0-----------------------------------------------------------------------------------------
00.511.522.533.5
學(xué)習(xí)時(shí)間(小時(shí))
(2)鳳=-0.157和方=19.029
(3)R2=0.867
5.4(1)y=0.032241+0.069986%+0.429138々
(2)R2=0.854
5.5與一元線性回歸模型單個(gè)自變量相比,當(dāng)多元線性回歸模型自變量數(shù)目增多時(shí),若自
變量均與因變量相關(guān)性很強(qiáng),得到的回歸方程擬合效果會(huì)更接近真實(shí)情況.
5.6(1)散點(diǎn)圖:
(2)y=29.62721+0.032633X
(3)R2=0.9931
5.7非線性關(guān)系的處理分為三種情況:第一種是自變量X和因變量Y之間的關(guān)系通過函數(shù)
替換轉(zhuǎn)為線性,然后利用線性回歸模型的求解方法估計(jì)回歸參數(shù),并作出回歸診斷;第二種
是當(dāng)自變量X與因變量Y之間的非線性關(guān)系對(duì)應(yīng)的描述函數(shù)形式不明確時(shí),采用多項(xiàng)式回
歸分析方法,進(jìn)而轉(zhuǎn)化為多元線性逐步回歸來進(jìn)行求解;第三種是自變量X與因變量Y之
間的非線性關(guān)系對(duì)應(yīng)的描述函數(shù)形式很明確,但回歸參數(shù)是未知的,大能像第一種情況那樣
通過函數(shù)替換轉(zhuǎn)化為線性關(guān)系,需要采用比較復(fù)雜的擬合方法或者數(shù)學(xué)模型來求解,通常利
用泰勒級(jí)數(shù)展開,并進(jìn)行數(shù)值迭代來近似逼近實(shí)際曲線。
5.8常見的非線性函數(shù)有雙曲線、半對(duì)數(shù)、雙對(duì)數(shù)、三角函數(shù)、指數(shù)函數(shù)、累函數(shù)等,其線
性化方法參見532節(jié)。
5.9(1)y=1100.13+42.1707^+5.7678x,2
(2)平均絕對(duì)百分誤差MAPE為4.105。
(3)
SUMMARYOUTPUT
回歸統(tǒng)計(jì)
MultipleR0.999689365
RSquare0.999378827
AdjustedR0.999201349
懷準(zhǔn)誤差8Z1.0954:347
觀測值10
方差分析
SSMSFgnificanceF
歸
回
7.59E+093.8E+095631.0015.97E-12
差
殘
計(jì)4719384674197.7
總
7.6E+09
Coefficients標(biāo)準(zhǔn)1天差tStatP-valueLower95%Upper95%~F限95.S上限95.0%
Intercept____1100.129724983.39551.1187050.300181-1225.233425.491-1225.233425.491
XVariable42.1706999832.2061.3094050.231736-33.9844118.3258-33.9844118.3258
XVariable5.7677973660.22860325.230663.92E-085.2272386.3083575.2272386.308357
5.10多項(xiàng)式回歸模型用來解決生活中一大類非線性回歸問題,常用亍描述經(jīng)濟(jì)生活中的生
產(chǎn)成本關(guān)系,這些因變量與自變量之間的關(guān)系通常都無法用線性回歸模型來表示,但是可以
用多項(xiàng)式回歸方程加以描述。根據(jù)泰勒級(jí)數(shù)展開的原理,任何曲面、曲線、超曲面問題,在
一定范圍內(nèi),都可以通過增加高次項(xiàng)來無限逼近其實(shí)數(shù)據(jù),因此可用適當(dāng)階數(shù)的多項(xiàng)式方程
來近似描述。
基本原理:多項(xiàng)式回歸問題通??梢允褂米兞看鷵Q法轉(zhuǎn)化為多元線性回歸問題來處理,
參照線性回歸模型的求解思路,使用最小二乘法(OLS)完成對(duì)多項(xiàng)式回歸模型的參數(shù)估計(jì)。
第6章
6.1相同點(diǎn):都是根據(jù)研究對(duì)象的特征對(duì)它們進(jìn)行分類。
不同點(diǎn):分類是一種監(jiān)督式學(xué)習(xí)方法,預(yù)先已經(jīng)劃分好類別;聚類屬于非監(jiān)督式學(xué)習(xí),
預(yù)先未定義類別,是通過樣本集合發(fā)現(xiàn)數(shù)據(jù)自身的內(nèi)部結(jié)構(gòu),建立起一種有意義的或者有用
的歸類方法。
6.2連續(xù)屬性:距離,相似系數(shù)
二值離散屬性:匹配距離,相似系數(shù)
多值離散屬性:簡單匹配法,轉(zhuǎn)換為多個(gè)二值離散屬性
6.3(答案不唯一)
選擇“北京”、“青?!薄ⅰ靶陆睘槌跏季垲愔行?,得到聚類結(jié)果為:
Cl=(北京,山西,內(nèi)蒙古,遼寧,吉林,黑龍江,上海,廣西,貴州,云南,陜西,
福建,新疆}
C2={天津,青海}
C3={河北,浙江,廣東,江蘇}
6.4兩個(gè)簇:Cj={h,ij}9G={a,"c,d,e,/,g}
6.5最近距離法:
第一步:
■V/X2&X5X3X4X6
XI00.650.570.460.32
X2&X50.6500.150.240.11
X30.570.1500.560.04
X40.460.240.5600.26
X60.320.110.040.260
第二步:
X112&巧X3&X6X4
XI00.650.320.46
X2&X50.6500.110.24
X3&X60.320.1100.26
X40.460.240.260
第三步:
XiX2&X5&X3&X6X4
XI00.320.46
X2&X5&JC3&JC60.3200.24
X40.460.240
第四步:
XiX2&X5&X3&X6&X4
XI00.32
X2&X5&X3&JC6&J:40.320
最遠(yuǎn)距離法:
第一步:
X2&X5
XlX3X4x6
Xl00.900.570.46032
X2&X50.9000.340.520.19
Xi0.570.3400.560.04
X40.460.520.5600.26
X60.320.190.040.260
第二步:
XIX2&X5X3&X6X4
Xi00.900.570.46
X2&X50.9000.340.52
X3&X60.570.3400.56
X40.460.520.560
第三步:
XiX2&XS&X3&X6X4
Xi00.900.46
X2&X5&X3<SLX60.9000.56
X40.460.560
第四步:
X1&X4X2&X5&X3&X6
X1&X400.90
X2&X5&X3&X60.900
(圖略)
6.6
根節(jié)點(diǎn)
CFfl/=(2,0.65,0.2225)C%=(3,2.3,1.85)
6.7外部準(zhǔn)則法、內(nèi)部準(zhǔn)則法和相對(duì)準(zhǔn)則法。
6.8對(duì)象的輪廓系數(shù)為
b-a0.61-0.1
xx==0.836
max(4,8J0.61
b-a_0.64-0.1
22=0.844
max(a2,b2)0.64
b-a_0.63-0.26
邑=3=3
max(a3,b3)0.63
,二/_=。.62-0.26=0581
max(a4,b4)0.62
數(shù)據(jù)集的輪廓系數(shù)為
1S0.836+0.844+0.587+0.581
=0.712
*計(jì)-----4-----------------------
6.9圖6.10:DH=4.072
圖6.11:DH=3.376
圖6.11的聚類效果更好
第7章
7.1(1)
m3m3mo1mk3
0303mk3ok3
n2k5me2oe3
k5e4my2ke4oke3
e4y3ok3ky3key2
Cl=y3Ll=C2=oe3L2=C3=
d1oy2
a1ke4
u1ky3
c2ey2
I1
L3={o,k,e)
FP-growth:數(shù)據(jù)庫的第一次掃描與Apriori算法相同,得到L1。再按支持度計(jì)數(shù)的遞減序排
序,得到:L={(K:5),(E:4),(M:3),(O:3),(Y:3)},掃描每個(gè)事務(wù),按以上L的排序,從根節(jié)點(diǎn)開
始,得到FP樹
項(xiàng)條件模式基條件FP樹條件的頻繁模式
y({k,e,m,o:l),{k,e,o:1),k:3{k,y:3}
{k,m:l}}
o{{k,e,m:l),{k,e:2}}k:3,e:3{k,o:3}?{e,o:3J,{k,e,o:3}
m{{k,e:2},{k:l}}k:3{k,m:3)
e{k:4}k:4{k,e:4)
效率比較:Apriori算法的計(jì)算過程必須對(duì)數(shù)據(jù)庫作多次掃描,而FP算法在構(gòu)造過程中只需
要掃描一次數(shù)據(jù)庫,再加上初始時(shí)為確定支持度遞減排序的一次掃描,共計(jì)只需兩次掃描。
由于在Apriori算法中的自身連接過程中產(chǎn)生候選項(xiàng)集的代價(jià)非常高,而FP算法不需要產(chǎn)
生任何候選項(xiàng)集。
(2)
Vxe數(shù)據(jù)庫事務(wù),buys(X,"e叫)Abuys(X,iteir^)=>buys{X,itern^)
VxGtransation^buys(X,")Abuys(X,nF)=>buys(X,"e")[s=0.6,c=l]
VxGtransation^"e")八b〃)s(X,"o")nbuys{X^'k'')[s=0.6,c=l]
7.2(1)首先將實(shí)際的DBS問題轉(zhuǎn)換成邏輯值
SEXAGEKNOWLEDGEOCCUPATIONWAGES
12345678910
TID
malefemale>=40<40碩博本科教師非教>5000<5000
士師
1001010101010
2000101101010
3001001010101
4001010101010
5001001101010
6001001010101
(2)轉(zhuǎn)換成數(shù)據(jù)庫中記錄的屬性項(xiàng)取值集合
TIDItemsTIDItems
100135,7,9400135,7,9
2002,4,5,7,95001,4,5,7,9
3001,4,6,8,106001,4,6,8,10
由最小支持度min_sup=0.5,得出頻繁1-項(xiàng)集Ll={{1},{4},{5},{7},{91}。
(3)由頻繁1-項(xiàng)集得到頻繁2-項(xiàng)集L2={{1,4),{1,5},{1,7},{1,9}{5,7},{5,9},{7,9}}o
(4)計(jì)算頻繁2?項(xiàng)集中各項(xiàng)之間的支持度和置信度得出下表:
ItemsSup(ImUIn)Sup(Im)Sup(In)conf(ImUIn)
”,4}3/65/64/63/5
{1,5}3/65/64/63/5
{1,7}3/65/64/63/5
{⑶3/65/64/63/5
(5,7)4/64/64/61
{5,9}4/64/64/61
{7,9}4/64/64/61
由min_sup=0.5,min_conf=0.7產(chǎn)生的二項(xiàng)關(guān)聯(lián)規(guī)則為/(5)=>7(7);/(5)=>/(9);/(7)=>7(9)
(5)由頻繁2-項(xiàng)集得到頻繁3-項(xiàng)集L3={{1,5,7},{1,5,9},{1,7,9},{5,7,9}}
(6)計(jì)算頻繁3?項(xiàng)集的置信度和支持度,得到3項(xiàng)集關(guān)聯(lián)規(guī)則:
/(5)=>/(1,7);/(7)=>/(1,5);/(1,5)=>/⑺;/(1,7)nZ(5);Z(5,7)=>/(I);
1(5)=/(i,9);Z(9)=Z(l,5);7(l,5)=Z(9);/(i,9)=Z(5);Z(5,9)=7(1);
7(7)=>/(1,9);7(9)=>Z(l,7);7(l>7)=>Z(9);7(l,9)=>7(7);/(7,9)=>/(I);
/(5)=>7(7,9);Z(7)=>Z(5,9);Z(9)=>/(5,7);/(5,7)=>/(9);/(5,9)=>/(7);
7(7,9)=>/(5)
(7)由頻繁3-項(xiàng)集L3得到頻繁4-項(xiàng)集L4={157,9},計(jì)算4項(xiàng)集的可信度得到4相關(guān)聯(lián)規(guī)
則為:
/(5)=>7(1,7,9);7(7)=>7(1,5,9);7(9)=>7(1,5,7);/(1,5)=>7(7,9)
7(1,7)=>/(5,9);/(1,9)=>7(5,7);7(5,7)=>7(1,9);/(5,9)=>7(1,7)
7(7,9)=>7(1,5);/(1,5,7)=/(9);Z(1,5,9)=/(7);/(5,7,9)=Z(l);/(1,7,9)=>7(5)
7.3(1)根據(jù)規(guī)則,support=200(]/5000=40%,confidence=2000/3000=66.7%o所以該關(guān)聯(lián)規(guī)
則是強(qiáng)規(guī)則。
)corr{hotdog\hamburger}=P({hotdog,hambuger])/(P({hotdog})P({hambuger}))
=0.4/(0.5x0.6)=1.33>l
所以,買hotdog不是獨(dú)立于買hamburgers。兩者存在正相關(guān)關(guān)系。
(3)全置信J?=sup(hotdogUhamburgcrs)/max{sup(A),sup(B))=0.4/0.6=0.67
最大置信度=max{confidence(hotdog-*hamburgers),confidence(hamburgers-?holdog)}
=max{0.4/0.6,0.4/0.5}=0.8
Kulc(hotdog,hamburgers)=(0.4/0.6+0.4/0.5)/2=0.73
Cosine(hotdog,hamburgers)=J0.67x0.8=0.732
Lift(holdog,hamburgers)=0.4/(0.6*0.5)=1.33
根據(jù)數(shù)據(jù)顯示,hotdog和hamburgers之間存在正相關(guān)的關(guān)系。
第8章
8.1數(shù)據(jù)可視化是根據(jù)數(shù)據(jù)的特性,將大型數(shù)據(jù)以直觀、生動(dòng)、易理解的圖形圖像方式呈
現(xiàn)給用戶便于人們理解數(shù)據(jù),有效提高數(shù)據(jù)分析的效率和效果。
8.2首先用戶應(yīng)該理解數(shù)據(jù)源及數(shù)據(jù),明確數(shù)據(jù)可視化的目的,需要可視化的數(shù)據(jù)要呈現(xiàn)
出怎樣的效果。其次要進(jìn)行數(shù)據(jù)的比較,了解數(shù)據(jù)所要反映的問題,根據(jù)數(shù)據(jù)特性建立指標(biāo),
最后要遵循簡單法則,數(shù)據(jù)可視化的結(jié)果一定要以簡單直觀的方式呈現(xiàn)給用戶,并要注重可
視化數(shù)據(jù)的藝術(shù)性,符合審美規(guī)則以吸引讀者的注意力。
8.3數(shù)據(jù)可視化可以將大量復(fù)雜數(shù)據(jù)以圖形圖表的方式展現(xiàn)出來,從而使人們從中獲得大
量有價(jià)值的信息。
數(shù)據(jù)可視化可以使人們從海量數(shù)據(jù)中獲取數(shù)據(jù)之間不同模式或過程的聯(lián)系與區(qū)別。有助
于人們更加方便快捷地深層次的理解數(shù)據(jù),提升數(shù)據(jù)分析效率,改善數(shù)據(jù)分析效果。
數(shù)據(jù)可視化能夠使人們有效地利用數(shù)據(jù),使用更多的數(shù)據(jù)資源,從中獲取更多的有用信
息,提出更好解決方案。
數(shù)據(jù)可視化可以增強(qiáng)數(shù)據(jù)對(duì)人們的吸引力,極大地提高了人們理解數(shù)據(jù)知識(shí)的效率,增
強(qiáng)獨(dú)者的閱讀興趣。
8.4數(shù)據(jù)可視化工具應(yīng)具有以下特征:
(1)實(shí)時(shí)簡單。能高效地收集和分析數(shù)據(jù),并對(duì)數(shù)據(jù)信息進(jìn)行實(shí)時(shí)更新,適應(yīng)于互聯(lián)網(wǎng)時(shí)
代信息多變的特點(diǎn)。
(2)多種數(shù)據(jù)源:能夠方便接入各種系統(tǒng)和數(shù)據(jù)文件,包括文本文件、數(shù)據(jù)庫及其他外部
文件。
(3)數(shù)據(jù)處理:具有高效、便捷的數(shù)據(jù)處理能力。
(4)分析能力:必須具有數(shù)據(jù)分析能力,用戶可以通過數(shù)據(jù)可視化實(shí)現(xiàn)對(duì)圖表的支持及擴(kuò)
展性,并在此基礎(chǔ)上進(jìn)行數(shù)據(jù)的鉆取、交互性和高級(jí)分析等。
(5)協(xié)作能力:應(yīng)具有可以實(shí)現(xiàn)共享數(shù)據(jù),協(xié)同完成數(shù)據(jù)分析流程的平臺(tái),以便管理者可
以基于該平臺(tái)溝通問題并做出相應(yīng)決策。
8.5參考代碼:
importinatplotlib.pyplotaspit
name_list=['excellence','good','middle','pass']
num_listl=[4,17,12,2]
num_list2=[2,15,18,l]
x=list(range(len(num_listl)))
total_width,n=0.8,2
width=total_width/n
plt.bar(x,num」isll,width=width,label=rclassr,fc='y')
foriinrange(len(x)):
x[ij=x[i]+width
plt.bar(x,num_list2,width=width,label='class2',tick_label=name_list,fc='r')
plt.legend()
plt.show()
第9章
9.1來源:業(yè)務(wù)支撐系統(tǒng)、運(yùn)營支撐系統(tǒng)、管理支撐系統(tǒng)和深度包檢測DPI。
業(yè)務(wù)支撐系統(tǒng)的數(shù)據(jù)更適合于進(jìn)行客戶畫像。
9.2參見9.1.3節(jié)。
9.3企業(yè)內(nèi)部應(yīng)用:網(wǎng)絡(luò)管理和優(yōu)化、市場與精準(zhǔn)營銷、客戶關(guān)系管理、企業(yè)運(yùn)營管理等。
對(duì)外應(yīng)用:電信運(yùn)營商將數(shù)據(jù)封裝成服務(wù),向第三方開放數(shù)據(jù)或提供大數(shù)據(jù)分析服務(wù)。
9.4提示:1、根據(jù)MOS的取值為原始數(shù)據(jù)建立新標(biāo)簽,將回歸問題轉(zhuǎn)化為二分類問題;
2、使用sklearn提供的RandomForestClassifier。類建立模型。
9.5提示:使用skleam.metrics庫中提供的calinski_harabaz_score()函數(shù)進(jìn)行計(jì)算。
k取9時(shí)CH值最大,表明此時(shí)聚類效果較好。
9.6提示:skleam提供了DBSCAN類、BIRCH類和AgglomerativeClustering類。以BIRCH
類為例,它的定義如下:
classskleam.cluster.Birch(*threshold=0.5,branching_factor=50,n_clusters=3,
compute_labels=True,copy=True)
參數(shù)threshold:存放在葉子節(jié)點(diǎn)中的子簇的最大半徑
branching_factor:非葉節(jié)點(diǎn)擁有的最大子節(jié)點(diǎn)數(shù)
注意:BIRCH算法的性能受到threshold、branching_factor和n_clusters三個(gè)參數(shù)的影響,訓(xùn)
練模型時(shí),需要搜索最優(yōu)參數(shù)組合。
9.7參考代碼
#利用手肘法確定最佳聚類數(shù)
SSE=[1#存放每次結(jié)果的誤差平方和
SSE_dl=[]柢se的一階導(dǎo)數(shù)
SSE_d2=[]#Sse的二階導(dǎo)數(shù)
models=\\#保存每次的模型
forkinrange(2,9):
estimator=KMeans(n_clusters=k,random_state=10)#構(gòu)造聚類器
estimator.fit(data_PCA)
SSE.append(estimator.inertia_)
models.append(estimator)
#畫出k與SSE的關(guān)系圖
X=range(2,9)
plt.xlabcl('k')
plt.ylabeK'SSE')
plt.plot(X,SSE,'o-')
plt.show()
#求二階導(dǎo)數(shù),通過SSE方法計(jì)算最佳k值
SSE_lcngth=lcn(SSE)
foriinrange(1,SSE_Ienglh):
SSE_dl.appcnd((SSE[i-1]-SSE[i])/2)
foriinrange(1Tlen(SSE_d1)-1):
SSE_d2.append((SSE_dl[i-1]-SSE_dl[i])/2)
最佳分簇?cái)?shù):4
9.8分析客戶流失原因、建立客戶流失預(yù)測模型、制定客戶挽留策略。
9.9提示:導(dǎo)入機(jī)器學(xué)習(xí)庫sklcarn中的決策樹tree包,調(diào)用DecisionTreeClassifier。方法構(gòu)
造決策樹模型,并用數(shù)據(jù)集中的全部特征(除去customerlD)訓(xùn)練模型,最后通過
feature」mportances_屬性觀察特征重要性排序,結(jié)果如下圖所示。
1)Totalcharges0.199292
2)Monthlycharges0.191795
3)Contract_Month-to-month0.164864
4)tenure0.118317
5)InternetService_Fiberoptic0.049027
6)gender0.024013
7)Dependents0.019844
8)PaperlessBilling0.019484
9)PaynnentMethod_E1ectroniccheck0.019203
10)TechSupport0.018324
11)OnlineBackup0.017889
12)OnlineSecurity0.017190
13)PaymentMethod_Mailedcheck0.016362
14)Partner0.016203
15)SeniorCitizen0.015962
16)DeviceProtection0.015816
17)MultipleLines0.014497
18)StreamingMovies0.013358
19)PaymentMethod_Banktransfer(automatic)0.012451
20)PayTnentMethod_Creditcard(automatic)0.010442
21)StreamingTV0.009290
22)InternetService_No0.008215
23)Contract_Oneyear0.004436
24)PhoneService0.003555
25)InternetService_DSL0.000169
26)Contract_Twoyear0.000000
9.10提示:PCA處理過程可參考9.4節(jié)。
第10章
10.1準(zhǔn)確率=(50+222)/(50+8+32+222)=272/312=87%
精確率=50/82=61%
召回率=50/58=86%
=2x61%x86%rw
E=----------
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 企業(yè)信用額度擔(dān)保合同
- 旅館客服工作總結(jié)
- 專業(yè)融資中介協(xié)議范本(2024年度版)版
- 運(yùn)動(dòng)行業(yè)前臺(tái)銷售總結(jié)
- 個(gè)體診所護(hù)士勞務(wù)協(xié)議:2024年服務(wù)范疇及要求版B版
- 蘇氨酸酶活性與疾病關(guān)系-洞察分析
- 房屋購買定金合同范本
- 年度壓磁應(yīng)力計(jì)產(chǎn)業(yè)分析報(bào)告
- 郵件安全防護(hù)機(jī)制創(chuàng)新-洞察分析
- 年度電阻測量儀表戰(zhàn)略市場規(guī)劃報(bào)告
- 我國房屋建筑模板技術(shù)的研究綜述
- 人教版小學(xué)三年級(jí)上冊(cè)數(shù)學(xué)豎式筆算練習(xí)題
- 航天科工集團(tuán)在線測評(píng)題
- 山東省濰坊新2025屆高三語文第一學(xué)期期末經(jīng)典試題含解析
- 醫(yī)院三基考核試題(康復(fù)理療科)
- 2024-2030年中國招標(biāo)代理行業(yè)深度分析及發(fā)展前景與發(fā)展戰(zhàn)略研究報(bào)告
- (新版)吉林一級(jí)健康管理師高頻核心題庫300題(含答案)
- JT-T-1344-2020純電動(dòng)汽車維護(hù)、檢測、診斷技術(shù)規(guī)范
- 2024年湖北省武漢市中考語文試卷真題(含答案)
- 天津市八校2023-2024學(xué)年高三年級(jí)下冊(cè)聯(lián)合模擬考試數(shù)學(xué)試題(二)(含答案解析)
- 納米技術(shù)增強(qiáng)早期疾病生物標(biāo)志物的檢測
評(píng)論
0/150
提交評(píng)論