SPSS數(shù)據(jù)挖掘方法概述_第1頁
SPSS數(shù)據(jù)挖掘方法概述_第2頁
SPSS數(shù)據(jù)挖掘方法概述_第3頁
SPSS數(shù)據(jù)挖掘方法概述_第4頁
SPSS數(shù)據(jù)挖掘方法概述_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、精選文檔數(shù)據(jù)挖掘方法概述一、主要概念1二、主要方法概述11、神經(jīng)網(wǎng)絡方法概述12、聚類方法概述93、主成分分析144、決策樹概述175、關聯(lián)分析216、遺傳算法概述23一、主要概念1、數(shù)據(jù)挖掘(data mining,簡記DM):實行特地算法對數(shù)據(jù)庫中潛在的、不明顯的數(shù)據(jù)關系進行分析與建模。2、CRISP-DM(CRoss-Industry Standard Process for Data Mining):各企業(yè)中被廣泛接受的數(shù)據(jù)挖掘標準流程。包括6個步驟:商業(yè)理解、數(shù)據(jù)理解、數(shù)據(jù)預備、模型建立、結果評估、應用部署。3、Clementine:SPSS公司推出的企業(yè)級數(shù)據(jù)挖掘軟件產(chǎn)品,其包括的

2、數(shù)據(jù)挖掘主要方法為:神經(jīng)網(wǎng)絡、聚類分析、主因子分析、決策樹分析、關聯(lián)分析、回歸分析。二、主要方法概述1、神經(jīng)網(wǎng)絡方法概述 主要問題:(1)什么是神經(jīng)網(wǎng)絡? (2)神經(jīng)網(wǎng)絡有什么用? (3)如何建立神經(jīng)網(wǎng)絡? (4)如何應用神經(jīng)網(wǎng)絡?(1)人工神經(jīng)網(wǎng)絡“人工神經(jīng)網(wǎng)絡”(ARTIFICIAL NEURAL NETWORK,簡稱A.N.N.)是基于仿照大腦神經(jīng)網(wǎng)絡結構和功能而建立的一種信息處理系統(tǒng)。神經(jīng)網(wǎng)絡在肯定學習規(guī)章下,對供應的學習樣本進行學習,從中獵取特征信息,并存儲(記憶)在相應的權值及參數(shù)上。學習后,對于新的輸入數(shù)據(jù),網(wǎng)絡可通過已獵取的權值及參數(shù),計算網(wǎng)絡的輸出。神經(jīng)網(wǎng)絡具有高度的非線性、

3、容錯性與自學習、自適應更新等功能,能夠進行簡單的規(guī)律操作和非線性關系實現(xiàn)。目前神經(jīng)網(wǎng)絡模型在幫助管理與決策中,應用廣泛。(2)神經(jīng)網(wǎng)絡的作用已證明結論:對于函數(shù),在滿足肯定條件下,可以找到函數(shù)和實常數(shù)和,構造函數(shù): 使對于任意小的,滿足 (3)簡潔神經(jīng)網(wǎng)絡模型(感知機模型)的建立問題引入:設想對購買手機的顧客制定銷售方案,用購買量與購買頻率兩個指標來判別,即: 購買量大, 購買頻率大,則賜予優(yōu)待折扣 ; 購買量大, 購買頻率小,則賜予優(yōu)待折扣 ; 購買量小, 購買頻率大,則賜予優(yōu)待折扣 ; 購買量小, 購買頻率小,則不賜予優(yōu)待折扣 問題:這樣的銷售方案判別是否可以建立模型表示?設想:分別對購買

4、量、購買頻率以及是否優(yōu)待的兩種取值定義為1,0,則上述四種方案可以用四個樣本表示,設每一樣本具有兩個評價指標X1,X2,一個評價結果Y: 樣本號 X1, X2 Y 1 1 1 1 2 1 0 1 3 0 1 1 4 0 0 0構造兩個輸入節(jié)點、一個輸出節(jié)點、二層結構的神經(jīng)網(wǎng)絡模型:(*) O1=f( xj取值1或0, w1j(j=1,2)待求 作用函數(shù):f(x)= 1 x>0 0 x0結構:X1 W11 X1 Y X2 W12 X2 學習樣本:( x1(k),x2(k), Y1(k) ) , k是樣本數(shù), k=1,2,3,4關鍵問題:如何獵取模型(*)中的權數(shù)w1j,使計算結果與樣本的評

5、價結果的誤差最???計算w1j方法:隨機賜予w1j初始值,通過對每一樣本的學習,獵取計算結果與樣本評價結果的誤差,修正w1j的取值,使經(jīng)過肯定次數(shù)的學習后,總誤差能達到期望值,此時修正得到的w1j就是所要獵取的權數(shù),即設(k)=Y k -O k , Y k是第k個樣本評價結果(稱期望輸出或實際輸出),O k是計算結果。通過第k個樣本的輸出誤差修正權數(shù)的公式為:(k +1)=(k)+( k), =(k)Xj 其中, >0 , 稱收斂因子。 第k個樣本的誤差為: 誤差 ek=|(k) |, 總誤差 E(k)=E(k-1)+ ek計算過程:1)設=1,隨機賜予w1j的初始值為0,即w11(k=1

6、)=0,w12(k=1)=02) 對第一個樣本進行學習:把X1=1,X2=1代入(*),有 O= f(w11×X1+ w12×X2)=f(0×1+0×1)= f(0)=0 (k=1)= Y k -O k=1修正權數(shù):w1j= (k) X j = (k=1) X 1=1×1=1w12 = (k=1) X 2=1×1=1(k=2)=(k=1)+=0+1=1, w12(k=2)= w12(k=1)+w12=0+1=1 總誤差 E(K=1)= E(K=0)+ek=0+(k=1)=13)對第2個樣本:X1=1 , X2=0, O=f(1

7、5;1+1×0)= f(1)=1 (k=2)= Y k -O k=0修正權數(shù):w1j= (k) X j = (k=2) X 1=0×1=0w12 = (k=2) X 2=0×0=0(k=2)=(k=1)+=1+0=1, w12(k=2)= w12(k=1)+w12=1+0=1 總誤差 E(K=2)= E(K=1)+ek=1+(k=2)=14)對于獵取的權數(shù) =1,w12=1,有對第3個樣本:X1=0,X2=1, O=f(1×0+1×1)= f(1)=1=Y對第4個樣本:X1=0,X2=0, O=f(1×0+1×0)= f(0

8、)=0=Y5)結論:=1,w12=1是使計算結果與樣本的評價結果誤差最小的權數(shù)。將=1,w12=代入模型(*),則模型建立完畢。可以利用這個建立的模型,對任一組輸入的X1,X2,在未知其輸出(評價結果)時,通過(*)計算得到結果。(4)誤差逆?zhèn)鞑ド窠?jīng)網(wǎng)絡模型(Error Back-Propagation ,簡記BP模型) 在簡潔神經(jīng)網(wǎng)絡的基礎上,進行形式推廣,對多個輸入、多個輸出、多層結構,不同作用函數(shù)的狀況進行建模分析。最常用的是BP神經(jīng)網(wǎng)絡。BP神經(jīng)網(wǎng)絡基本原理 BP神經(jīng)網(wǎng)絡模型是一種具有三層或三層以上的前饋型的、按梯度算法使計算輸出與實際輸出的誤差沿逆?zhèn)鞑バ拚鬟B接權的神經(jīng)網(wǎng)絡模型。網(wǎng)絡

9、按有老師示教的方式進行學習,當一對學習模式供應應網(wǎng)絡后,神經(jīng)元的激活值,從輸入層經(jīng)各中間層向輸出層傳播,在輸出層的各神經(jīng)元獲得網(wǎng)絡的輸入響應,并按削減期望輸出與實際輸出偏差的方向,從輸出層經(jīng)各中間層逐層修正各連接權,最終回到輸入層,隨著這種誤差逆?zhèn)鞑バ拚牟粩噙M行,網(wǎng)絡對輸入模式響應的正確率不斷上升。 x1 wi1 1 vti x2 wi2 i t 節(jié)點 x3 節(jié)點 vtm win M xn 輸入信息 正向傳播反向傳播 實際輸出與網(wǎng)絡輸出誤差BP網(wǎng)絡模型的特點:模型表示:Yi=f( i=1,2,3,m , xi取值(,) Ot= f ( t=1,2,3,q, Ot取值(0,1)模型結構:至少三

10、層(至少有一隱層),多個輸入,一個或多個輸出 作用函數(shù)(Sigmoid型函數(shù)) :f(x)= 1/(1+e) x(-,+) f(x)(0,1)學習樣本:( x1(k),x2(k),x3(k),xm(k), D1(k), D2(k), D3(k), Dq(k) ) , k是樣本數(shù), k=1,2,3,P權值修正公式:設 i=Di-Oi , Di是期望輸出(實際輸出),Oi是網(wǎng)絡計算輸出1) 隱層與輸出層連接權的修正:(K+1)=(K)+ , 是隱節(jié)點輸出 2) 輸入層與輸出層連接權的修正:(K+1)=(K)+, ,是輸入節(jié)點輸入。 3) 第K個樣本誤差 總誤差 E=(5)基于神經(jīng)網(wǎng)絡幫助醫(yī)療績效的

11、評定案例:為了對城市醫(yī)療力量進行評價,收集一批有代表性的城市醫(yī)療數(shù)據(jù),評價指標為病床數(shù)、醫(yī)生數(shù)、工作人員數(shù)、診所數(shù)、死亡率,并給出了專家的評價結果,旨在建立評價城市的醫(yī)療建設績效的模型,應用于評價任意城市的醫(yī)療建設績效。收集數(shù)據(jù)見表1.1(單位:萬人)。 表1.1樣本病床數(shù)醫(yī)生數(shù)工作人員數(shù)診所數(shù)死亡率專家評價的醫(yī)療力量上海gvvvbv北京avvvgv沈陽bbbagb武漢gggaba哈爾濱vgabaa重慶ggbbbb成都aggaaa蘭州vgagvv青島gbvvag鞍山gaabvg其中,v格外好, g好, a 一般, b差需要評價的城市數(shù)據(jù)見表1.2。 表1.2樣本病床數(shù)醫(yī)生數(shù)工作人員數(shù)診所數(shù)死亡

12、率專家評價的醫(yī)療力量天津bgbga廣州aggga南京bgggb西安ggagg長春gggag太原vgggv大連babag濟南vvvga撫順gbbbg建立評價的BP神經(jīng)網(wǎng)絡模型:1)將取得的10個樣本分別量化:定義v、g、a、b的取值為v=1.5,g=0.5,a=-0.5,b=-1.5 (1)也可以定義: v=3,g=1,a= -1,b= -3 v=6,g=2,a=-2,b=-6 v=10,g=7,a=4,b=1由 (1)定義可得上海等10個城市樣本取值見表1.3。 表1.3樣本病床數(shù)醫(yī)生數(shù)工作人員數(shù)診所數(shù)死亡率專家評價的醫(yī)療力量轉換值網(wǎng)絡輸出上海0.51.51.51.5-1.51.50.90.8

13、885北京-0.51.51.51.50.51.50.90.9581沈陽-1.5-1.5-1.5-0.50.5-1.50.10.1215武漢0.50.50.5-0.5-1.5-0.50.370.38266哈爾濱1.50.5-0.5-1.5-0.5-0.50.370.369重慶0.50.5-1.5-1.5-1.5-1.50.10.1168成都-0.50.50.5-0.5-0.5-0.50.370.34697蘭州1.50.5-0.50.51.51.50.90.8998青島0.5-1.51.51.5-0.50.50.6330.6419鞍山0.5-0.5-0.5-1.51.50.50.6330.6560

14、2)設計具有三層、五個輸入節(jié)點、8個隱節(jié)點、一個輸出節(jié)點的BP模型,輸入為萬人擁有病床數(shù)、醫(yī)生數(shù)、工作人員數(shù)、診所數(shù)、死亡率,輸出為評價的醫(yī)療力量。3)由于選擇的映射函數(shù)是S型函數(shù): f(x)= 1/(1+e) , x(-,+) , f(x)(0,1)需要把樣本輸出轉換為(0,1)之間的值。定義:輸出轉換值=0.1+0.8(樣本輸出值-最小值)/(最大值-最小值), 其中,這里最大值=1.5,最小值=-1.5, 轉換后的樣本輸出見表1.3. 4) 網(wǎng)絡學習35萬次后,網(wǎng)絡收斂,總誤差為0.16,網(wǎng)絡輸出見表1.3所示,存儲網(wǎng)絡學習后的有關權數(shù)與參數(shù)。5)用學習后的網(wǎng)絡,建立的城市醫(yī)療力量評價模

15、型:Yi=f(, i=1,2,3,8 xi取值(,),j=1,25Ot=f( , t=1 , Ot取值(0,1)其中,wij、Vti、rt已在學習中獵取,評價表2城市的醫(yī)療力量,評價結果見表1.4。 表1.4樣本病床數(shù)醫(yī)生數(shù)工作人員數(shù)診所數(shù)死亡率網(wǎng)絡輸出網(wǎng)絡評價的醫(yī)療力量天津-1.50.5-1.50.5-0.50.122b廣州-0.50.50.50.5-0.50.6687g南京-1.50.50.50.5-0.50.6423g西安0.50.5-0.50.50.50.6011g長春0.50.50.5-0.50.50.6333g太原1.50.50.50.51.50.8851v大連-1.5-0.5-1

16、.5-0.50.50.1134b濟南1.51.51.50.5-0.50.8996v撫順0.5-1.5-1.5-1.50.50.3869a思考問題:(1)如何利用神經(jīng)網(wǎng)絡幫助客戶分類,以制定相應的促銷或銷售策略?(2)如何利用神經(jīng)網(wǎng)絡對客戶信譽等級進行評價?(3)在城市醫(yī)療力量評價中,直接用收集的五個指標的定量數(shù)據(jù)作為神經(jīng)網(wǎng)絡輸入,是否可以?(4)在城市醫(yī)療力量評價中,評價結果有四個可能的取值,可否設計四個節(jié)點的輸出?如何定義?作業(yè): 擬建立神經(jīng)網(wǎng)絡進行肺病診斷,設每個病例有有五種癥狀:發(fā)燒(無、低、中度、高),咳嗽(稍微、中度、猛烈),X光所見陰影(點狀、索條狀、片狀、空洞),血沉(正常、快)

17、,聽診(正常、干鳴音、水泡音),肺炎和肺結合餓部分病例集見下表: 肺病實示例集 病狀病例號發(fā)燒咳嗽 X光所見血沉聽診肺炎1高猛烈片狀正常水泡音2中度猛烈片狀正常水泡音3低稍微點狀正常干鳴音4高中度片狀正常水泡音5中度稍微片狀正常水泡音肺結核1無稍微索條狀正常正常2高猛烈空洞快干鳴音3低稍微索條狀正常正常4無稍微點狀快干鳴音5低中度片狀快正常2、聚類方法概述 主要問題:(1)如何定義兩類之間的距離? (2)如何進行類歸并? (3)如何表出譜系圖? (4)聚類分析的應用? 聚類:依據(jù)事物的某些屬性,把事物聚集成類,使類間相像性盡量少,類內(nèi)相像性盡量大。問題引入:(1)四個同學要分成兩類,如何分?

18、(2)設想對優(yōu)勢股進行投資,問優(yōu)勢股如何選擇? 一般地,按已知屬性對樣品或對元素進行歸并,稱為分類,未知屬性(沒有先驗學問)按距離大小對樣品或元素進行歸并稱為聚類。常用聚類方法1)、系統(tǒng)聚類法:先將n個樣本各自看成一類,規(guī)定樣本之間和類與類之間的距離,選擇距離最近的一對合并為一個新類,再將距離最近的兩類合并,直至全部的樣本都歸為一類為止。聚類既可對樣品進行聚類,也可以對變量進行聚類。若對樣品的進行聚類,設第i樣品表示為,則第A類與第B類的距離可以定義為:最常用的距離有:1最小距離:用兩類中樣品之間的距離最短者作為兩類的距離。2最大距離:用兩類中樣品之間的距離最長者作為兩類的距離。3重心距離:用

19、兩類的重心之間的距離作為兩類的距離。4類平均距離:用兩類中全部兩兩樣品之間的平均距離作為兩類的距離。案例應用:設有5個股票,每個股票有8個指標X1,X2,X8,表示為股價波動率、股息率、資產(chǎn)負債率、資金周轉率、流淌負債率、經(jīng)營杠桿系數(shù)、財務杠桿系數(shù)、投資酬勞率),用xit表示第i個股票的第t個指標的值,則可得到股票樣品的數(shù)據(jù)矩陣:變量樣品 x1 x2 x8 1 x11 x12 x18 2 x21 x22 x28 . . . . . . . . . . . . . . . 5 x51 x52 x58將每一個樣品作為一類,每個樣品有8個變量,因此可以將每個樣品視為8維空間中的一個點,5個樣品就是8

20、維空間中的5個點,然后用歐氏距離度量樣品點的相像性:兩樣品點間距離越大,其相像性越小。下面給出5個樣品兩兩之間的歐氏距離陣D(0): 0 4 0D(0): 6 9 0 1 7 10 0 6 3 5 8 0接受最小的距離法,將樣品1與樣品4合并成新類=,則得到類 之類的距離陣D(1): 0 4 0D(1): 6 9 0 6 3 5 0 合并類與成一新類7。下面計算類6,7,3之間的距離陣 0 D(2): 4 0 5 6 0 合并類與成一新類=,最終計算與的距離為5,并合并為一大類。并化出相應的譜系圖:1 2 3 4 5 1 4 2 5 3 五個樣品的最小距離的譜系圖5個股票樣品的聚類挨次表合并次

21、序 合并的類 合并后類的元素 合并水平(距離) 1 1,4 6=1,4 1 2 2,5 7=2,5 3 3 6,7 8=1,2,4,5 4 4 3,8 9=1,2,3,4,5 5最小距離法也可以對變量進行系統(tǒng)聚類,仍通過例子來說明案例2:對某地超基性巖的一批樣品,測試六個與礦化有關的元素:x1=鎳,x2=鈷,x3=銅,x4=鉻,x5=硫,x6=砷,并假設它們的相關系數(shù)如矩陣R(0)所示。相關系數(shù)定義:設有n個個體,每個個體測量了p個變量,第i個變量x1與第k個變量xk的相關系數(shù)為: rik=/第A類與第B類的距離可以定義為: 1 0.8462 1 0.7579 0.9802 1 0.6431

22、0.2419 0.1811 1 0.5039 0.7370 0.7210 -0.3075 1 0.5603 0.4241 0.3920 0.1998 0.6802 1其中, i=1,2,6,試用系統(tǒng)聚類的最大距離法對六個變量進行聚類(負相關系數(shù)接受確定值)。由于接受的是相關系數(shù)矩陣,所以應找最大元素并類。其中最大的元素為0.9802,因此將與合并為。計算它與其它剩下的類的相關系數(shù),相應地得到R(1): 1 0.7579 1 0.1811 0.6431 1 0.7210 0.5039 -0.3057 1 0.3920 0.5603 0.1998 0.6802 1R(1)中最大的元素為0.7579

23、,因此將與合并為,并計算它與其它剩下的類的相關系數(shù),相應的得到R(2): 1 0.1811 1 0.5039 -0.3075 1 0.3920 0.1998 0.6802 1R(2)中的最大的元素為0.6802,因此將 與合并為,并計算它與其它剩下的類的相關系數(shù),相應地得到R(3): 1 0.3920 1 -0.3075 0.1811 1R(3)中最大的元素為0.3920,因此將與合并為。六個變量的并類挨次表并次序 合并的類 合并后類的元素 合并的水平(相關系數(shù)) 1 2,3 7=x2,x3 0.9802 2 1,7 8=x2,x3,x1 0.7579 3 5,6 9=x5,x6 0.6802

24、 4 8,9 10=x2,x3,x1,x5,x6 0.3930 5 10,4 11=x2,x3,x1,x5,x6,x4 0.1811 1 0.8 0.6 0.4 0.2 0 x2 x3 x1 x5 x6 x4橫坐標是并類的相關系數(shù)。2)K均值聚類法 K均值聚類法是一種已知類數(shù)的數(shù)據(jù)聚類和分類方法。過程如下: 選取聚類數(shù)K; 從訓練樣本中任意選擇K個向量C1,C2,CK作為聚類中心,Ci=(Ci1,Ci2Cin); 將每個樣本Xl=(Xl1,Xl2, ,Xln)按距離: P=1,2,3k, 歸入距離最小的中心為Ci的類; 設屬于Ci類的樣本為Xj(j=1,2, q),計算新的聚類中心Ci=(Ci

25、1,Ci2Cin)其中: 若中的聚類中心不再變化,就終止,否則轉。 思考問題:(1)假如分兩類,譜系圖如何? (2)假如分三類,譜系圖如何?(3)如何確定適合的聚類數(shù)? (4)分析客戶購買手機的數(shù)據(jù),通過聚類分析客戶流失狀況。作業(yè): 在城市醫(yī)療力量評價中,評價指標為五個,即X=(X1,X2,X3,X4,X5),每一指標取值四個(v,g,a,b),則Xi取值的各種可能為45,則可能有45的評價指標狀況,要求通過聚類,從中選出15個有代表性的樣本,比較聚類幫助建立神經(jīng)網(wǎng)絡與專家閱歷幫助建立神經(jīng)網(wǎng)絡的不同。3、主成分分析主成分分析是一種多變量分析方法,通過變量變換把相關的變量變?yōu)椴幌嚓P的、比原來少的

26、若干個新變量。問題引入:為了找出影響顧客購買手機的主要因素,抽查一部分人按性別和年齡分成10個小組,分別對100種手機類型進行打分評價,最受歡迎的手機賜予9分,最不受歡迎的手機給1分。設10組顧客對100類手機的評分數(shù)據(jù)為:指標 樣本 手機1 手機2 手機100X1(男20歲以下) X11 X21 X1001X2(男2130歲) X12 X22 X1002X3(男3140歲) X4(男4150歲)X5(男50歲以上)X6(女20歲以下)X7(女2130歲)X8(女3140歲)X9(女4150歲)X10(女50歲以上) X110 X2 10 X 100 10Xij表示第j個顧客對第i款手機的偏好

27、評分,記A=(Xij)。設想通過主成分分析確定手機類型的主要影響因素。主成分分析步驟:1) 求A的相關系數(shù)矩陣R,R=R(), 的定義為: ,= 2) 求特征方程det(R-)=0的特征根i(i =1,2,n);3) 通過非零向量B滿足(R-)B=0,計算相應的特征向量Bi=(Bi1,B i2, Bin);4) 從大到小排列i,不妨設1>2> >n ,由累計貢獻率95%確定m個特征根1>2> >m,對應的特征向量為Bi=(Bi1,B i2, Bin),i=1,2,m;5) 計算主重量Z k,Z k=(k=1,2, m( m<n),即Z k是原影響因素X

28、i的線性組合。 Z k 的應用:1)通過Zi與Zj的對應取值變化,了解主要影響因素之間的關系和變化趨勢;2)可以通過Z k對X1,X2,X100的貢獻率,找出最大的指標Xi,視Xi為Z k影響最大的指標。 的定義:令Xij 與 Zij的關系為:組號指標 X1,X2, X n Z 1,Z 2 Z m 1 X11 X21 X n 1 Z11 Z21 Z m1 2 X12 X22 X n 2 Z12 Z22 Z m2 10 X110 X210 X n 10 Z110 Z210 Z m10 i=1,2, m, j=1,2, n案例分析:1):A(Xij)的相關系數(shù)矩陣R為:X1 X2 X3 X10X1

29、 1 0.871 0.516 0.37 0.172 0.936 0.811 0.015 0.5 0.33X2 1 0.7 0.64 0.4 0.821 1 1 1 1 1 1 1X10 1 2)用計算機求解特征方程 det(R-)=0的特征根i,其中累計貢獻率達到93.4%的前三個特征根為:1=6.83,2=1.76,3=0.75;3)計算三個特征值的特征向量及累計貢獻率見下表: 評價組特征向量B1特征向量B2特征向量B3 X1026804460194 X203110240336 X30323-01660442 X40229-03590375 X40261-05070128 X60309040

30、8-0084 X703440235-0171 X803480032-029 X90346-0164-0322 X100303-0267-0522 特征值i683176075 有效率i/10683%01760075累計貢獻率683%859%934%4)計算主重量Z k,Z k=,即 Z1=0268X1+0311X2+0323X3+030X10Z2=0446X1+024X2 01663X3+0267X10Z3=0194X1+0336X2 +0442X3+0522X10 5)分析各特征向量的各重量的取值對B1,各重量取值差異不大,符號相同(都是正號),表明對哪一評價組合都是寵愛的,或者都是不寵愛的,

31、因此可以把新的綜合指標Z1定義為偏好指標;對B2,從第1組到第5組,從第6組到第10組,有從大到小的變化相同的趨勢,即隨年齡的增長而取值由正變負,表示了年齡對偏好寵愛程度的影響,因此可以把綜合指標Z2定義為年齡指標。對B3,各重量對于1到5組(男性)取正值,對于女性取負值,表示由于性別的不同而產(chǎn)生的偏好上的不同,所以可以把綜合指標Z3定義為性別指標??梢詺w納為:影響手機購買的主要因素是:偏好、年齡、性別。6) 可以通過X1X10的取值,獵取Zk的取值,分析偏好與年齡的變化關系;7)可以通過計算Zk對Xi的貢獻率,確定貢獻率最大的相應的評價組合,由此確定銷售主要的對象策略。如計算得到的為: Xi

32、 10.910.320.010.93 * 20.70.230.080.55 30.62-0.530.180.7 40.910.290.040.92 * 50.860.320.040.85 * 60.760.44-0.030.77 * 70.780.310.030.71 80.5-0.6-0.190.65 90.230.110.80.7 100.42-0.23-0.670.7把大于0.75的用*表出,可見偏好、年齡以及性別對20歲以下的男、女組合、40歲以上的男性組合影響較大。思考問題:如何通過收集的客戶有關數(shù)據(jù),分析客戶流失的主要因素?作業(yè): 用隨機賦分形式形成各年齡層的調查分數(shù),借助SPSS

33、,求出各年齡層最感愛好的三款手機。4、決策樹概述決策樹:一種以實例為基礎的歸納學習算法,它從一組無次序、無規(guī)章的實例中推理出樹表示形式的分類規(guī)章。問題引入:設想影響氣候的主要指標有四個: 天氣:晴、多云、下雨;分別記為0,1,2溫度:寒冷,暖和,熱,分別記為0,1,2濕度:潮濕、正常,分別記為0,1, 風力:有風,沒風,分別記為0,1。將氣候分為兩個級別:P,N,分別記為0,1。假如某一天的氣候為多云,寒冷,濕度正常,沒風,問氣候是哪一級別? 思路:1)建立判別實例集; 2)由實例集建立一棵判別的決策樹; 3)由決策樹對任何組合氣候特征進行推斷。關鍵問題:如何建立決策樹,樹的屬性判別次序如何選

34、擇?C5.0系統(tǒng)決策樹的算法(ID3)特點:首先找出最有判別力的因素,把數(shù)據(jù)分成兩個子集,每個子集又選擇最有判別力的因素進行劃分,始終進行到全部子集僅包含同一類型的數(shù)據(jù)為止。決策樹建立過程:設收集的氣候實例集為:樣本號天氣溫度濕度風力分類1晴熱潮濕沒風N2晴熱潮濕有風N3多云熱潮濕沒風P4有雨暖和潮濕沒風P5有雨寒冷正常沒風P6有雨寒冷正常有風N7多云寒冷正常有風P8晴暖和潮濕沒風N9晴寒冷正常沒風P10有雨暖和正常沒風P11晴暖和正常有風P12多云暖和潮濕有風P13多云熱正常沒風P14有雨暖和潮濕有風N 設想用獲得信息量最大的特征作為決策樹判別的標準。若U表示信息源,V表示收到的信息,I(U

35、,V)表示收到信息V后獲得關于U的信息量,定義 I(U,V)=H(U)H(UV) 對于相同的U及不同的V,當I(U,V)最大時,將屬性V(即收到的信息)作為決策樹的推斷點。 關于H(U)、H(UV)的計算,用上述實例說明。設Uj表示輸出類別(j=1,2),即U1=P,U2=N;Vk表示判別特征,即V1=天氣,V2=溫度,V3=濕度,V4=風力,k=1,2,3,4,Vkj表示第K個判別特征的第j個取值,如V1=天氣的取值為:V11=晴,V12=多云,V13=有雨。為了選擇最有判別力的特征,需要分別計算I(U,Vk),從中取最大I(U,Vk0),相應的Vk0就是判別特征。1) H(U)的計算:依據(jù)

36、輸出類別Uj的概率進行計算,即 由于 P(U1)=9/14, P(U2)=5/14 = 9/14log2(9/14)+ 5/14log2(5/14) =0.94 2) 計算H(UV1): , (1)由于P(V11)=5/14, P(V12)=4/14, P(V13)=5/14,P(U1V11)=2/5,P(U2V11)=3/5P(U1V12)=1,P(U2V11)=0P(U1V13)=3/5,P(U2V13)=2/5代入(1)得: =5/142/5 log2(5/2)+ 3/5 log2(5/3)+ 4/14log2(1)+ 0+ 5/143/5 log2(5/3)+ 2/5 log2(5/2

37、) =0.694,3) 計算I(U,V1):I(U,V1)=H(U)H(UV1)=0.94-0.694=0.2464) 同理計算I(U,Vk)(k=2,3,4),并求出最大I(U,Vk):可以計算得到:I(U,V2)=0.029,I(U,V3)=0.159,I(U,V4)=0.048與I(U,V1)=0.246相比,I(U,V1)最大,所以第一選擇判別特征為V1=天氣,作為決策樹樹根。5) 建立樹根的分支:樹根對應的三個屬性值(晴、多云,有雨)作為分支,分別有相應晴的子集樣本為F1=1,2,8,9,11,相應多云的子集樣本為F2=3,7,12,13,相應有雨的子集樣本為F3=4,5,6,10,

38、14,其中F1中2個取P,3個取N, F2中全部取N,F(xiàn)3中3個取P,2個取N。所以僅需對F1、F3進一步判別,對F2不需再判別。6) 遞歸建樹:分別利用上述算法(ID3)對子集F1、F3連續(xù)判別,即對子集Fi(i=1,3)個特征求平均互信息最大的特征??梢缘玫剑簩1,I(U,V3)最大,以其為該分支的結點再分支,由于取V3=濕度時,潮濕對應的類全是N類,正常對應的類全是P類,因而已有判別結果,不需連續(xù)再分。對F3,計算得到平均互信息最大的為I(U,V4),V4=風力,以其為結點再分枝,此時有風對應的是N類,無風對應的是P類,所以也有判別結果,不許連續(xù)再分。見圖所示。天氣風力濕度 晴 有雨

39、多云 P 潮濕 正常 有風 無風 N P N P7) 利用建立的決策樹,對問題“某天氣候為有雨,寒冷,濕度正常,沒風”,進行判別,判別結果為“氣候為P類”。8) 利用決策樹,可以寫出判別規(guī)章: IF “天氣是晴” and “濕度潮濕”T hen “氣候是N類” IF “天氣是晴” and “濕度正常”T hen “氣候是P類” IF “天氣是多云” T hen “氣候是P類” IF “天氣是有雨” and “有風”T hen “氣候是N類” IF “天氣是有雨” and “無風”T hen “氣候是P類”9) 決策樹的存在問題:(1)依靠于特征取值較多的特征; (2)依靠于正、反例取值個數(shù);

40、(3)當正、反例個數(shù)變化時,平均互信息也變化,決策樹變化。思考問題:如何對顧客的數(shù)據(jù)進行判別,以作出最佳銷售策略? 如何從一個決策樹,轉換為一個神經(jīng)網(wǎng)絡?5、關聯(lián)分析關聯(lián)分析:對事務中物品之間同時消滅的規(guī)律學問模式進行分析的方法。關聯(lián)規(guī)章:通過量化的數(shù)字描述事務中物品之間同時消滅的規(guī)律的關聯(lián)表示。問題引入:1)事務1中消滅了手機,事務2中消滅了電池、儲值卡,事務3中消滅了手機和電池,問手機、電池、儲值卡在事務中消滅,其相互之間有沒規(guī)律可循? 2)開通的手機業(yè)務中,如語音信箱,移動秘書,信息點播,呼叫轉移等,相互之間是否有關聯(lián)關系?主要概念:1)可信度:(confidence)設W是一組事務集,每個事務T是一組物品。若W中支持物品集A的事務中,有C%的事務也支持物品集B,則C%稱為關聯(lián)規(guī)章A B的可信度,其中, A B表示A消滅則B也消滅,且AB=??尚哦缺硎緸镻(B/A)。2)支持度(Support):設W中有S%的事務同時支持物品集A和B,則S%稱為關聯(lián)規(guī)章A B的支持度。支持度表示為P(AB)。3)期望可信度(expected confidence):設W中有E%的事務支持物品集B,則E%稱為關聯(lián)規(guī)章A B期望可信度。期望可信度表示為P(B

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論