經濟管理類各專業(yè)課程《SPSS數(shù)據(jù)分析與應用》第6章 聚類分析_第1頁
經濟管理類各專業(yè)課程《SPSS數(shù)據(jù)分析與應用》第6章 聚類分析_第2頁
經濟管理類各專業(yè)課程《SPSS數(shù)據(jù)分析與應用》第6章 聚類分析_第3頁
經濟管理類各專業(yè)課程《SPSS數(shù)據(jù)分析與應用》第6章 聚類分析_第4頁
經濟管理類各專業(yè)課程《SPSS數(shù)據(jù)分析與應用》第6章 聚類分析_第5頁
已閱讀5頁,還剩42頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第6章聚類分析學習目標1.了解聚類分析的概念及算法分類。2.熟悉K-means聚類及系統(tǒng)聚類的基本概念。3.掌握SPSS實現(xiàn)K-means聚類和系統(tǒng)聚類,以及對結果解讀的方法。引導案例客戶細分總是和聚類分析掛在一起,客戶細分的關鍵是找出客戶的特征以移動通訊行業(yè)為例,這里選取了某移動通訊運營商的3353條客戶數(shù)據(jù),共七個變量,(1)客戶編號(Customer_ID)、(2)工作日上班時期電話時長(Peak_mins)(3)工作日下班時期電話時長(OffPeak_mins)(4)周末電話時長(Weekend_mins)(5)國際電話時長(International_mins)(6)總通話時長(Total_mins)(7)平均每次通話時長(average_mins)。根據(jù)前期調研及積累的經驗,該運營商認為移動通訊用戶應當分為5個主要群體Part6.1聚類分析概述聚類分析的概念聚類分析就是將數(shù)據(jù)以某種相似度進行分類,進而分析每一類數(shù)據(jù)的特征的一種多元統(tǒng)計分析方法。(1)這些類不是事先設定的,而是根據(jù)數(shù)據(jù)的特征確定的;(2)在同一類中的對象在某種意義上傾向于彼此相似;(3)在不同類中對象傾向于不相似;聚類分析在生物學、人口學、生態(tài)學、電子商務等很多方面有著非常廣泛的應用。(1)引導案例中,按照移動通訊客戶的不同時間段的通話時長、總通話時長等指標將客戶進行分類,為不同類別的客戶提供“個性化”服務。(2)金融方面,根據(jù)金融投資產品的收益、波動性、時長資本等指標將這些產品分成幾類,本著不要把雞蛋放在同一個籃子(同一類產品)里的原理,優(yōu)化我們的投資組合。聚類分析的算法聚類分析按聚類結果劃分按聚類變量類型劃分按聚類原理劃分覆蓋聚類非覆蓋聚類分層聚類非分層聚類確定聚類模糊聚類數(shù)值型聚類分類型聚類混合型聚類分割聚類層次聚類密度聚類網格聚類Part6.2K-Means聚類K-means聚類

K-means聚類也稱快速聚類

(1)屬于覆蓋型、數(shù)值型、分割聚類算法。(2)K-means聚類涉及兩個主要方面的問題:

第一,如何測度樣本的“親疏程度”;

第二,如何進行聚類K-means聚類對“親疏程度”的測度“親疏程度”的測度有兩個角度:(1)數(shù)據(jù)間的相似程度;(2)數(shù)據(jù)間的差異程度。衡量相似程度一般可采用簡單相關系數(shù)或等級相關系數(shù)等差異程度一般則通過某種距離來測度K-means聚類采用第二角度個測度K-means聚類對“親疏程度”的測度(1)歐式距離(2)切比雪夫距離(3)絕對距離(4)閔可夫斯基距離(5)夾角余弦距離K-means聚類過程采用分割方式實現(xiàn)聚類隨機選擇2個對象作為類的中心將每個對象指派到最相似的類更新每個類的中心更新每個類的中心重新分派重新分派聚類前應排除的影響因素由于距離是K-means聚類的基礎,它直接影響最終的聚類結果,因此通常在分析之前應排除影響正確計算距離的因素(1)聚類變量值不應有數(shù)量級上的差異;聚類分析之前通常應先消除變量的數(shù)量級差異,一般可通過標準化處理實現(xiàn)(2)聚類變量之間不應有較強的線性相關關系。K-Means聚類的基本操作第一步:用SPSS打開數(shù)據(jù)文件“移動通訊客戶數(shù)據(jù).sav”。第二步:在菜單欄中選擇【分析(A)】→【描述統(tǒng)計(E)】→【描述(D)】,在彈出的“描述”對話框的左下角勾選【將標準化值另存為變量(Z)】,將已有的6個連續(xù)性變量都選到【變量(V)】列表框中,單擊【確定】按鈕。第三步:在菜單欄中選擇【分析(A)】→【分類(F)】→【K-均值聚類】,在彈出的“K均值聚類分析”對話框中將標準化以后的6個變量選到【變量(V)】列表框中。在【聚類數(shù)(U)】文本框中輸入“5”,(系統(tǒng)默認為“2”)。其余按系統(tǒng)默認設置不做修改。K-Means聚類的基本操作第四步:在“K均值聚類分析”對話框中單擊右上角的【迭代(I)】按鈕,在彈出的“K-均值聚類分析:迭代”對話框中將【最大迭代次數(shù)(M)】修改為“50”,【收斂準則(C)】暫時不做修改。單擊【繼續(xù)(C)】按鈕,回到“K均值聚類分析”對話框。K-Means聚類的基本操作第五步:在“K均值聚類分析”對話框中單擊右上角的【保存(S)】按鈕,在彈出的“K-均值聚類:保存新變量”對話框中勾選【聚類成員(C)】和【與聚類中心的距離(D)】。單擊【繼續(xù)(C)】按鈕,回到“K均值聚類分析”對話框。K-Means聚類的基本操作K-Means聚類的基本操作第六步:在“K均值聚類分析”對話框中單擊右上角的【選項(O)】按鈕,在彈出的“K-均值聚類分析:選項”對話框中,在【缺失值】框內選擇【成列排除個案(L)】。單擊【繼續(xù)(C)】按鈕,回到“K均值聚類分析”對話框。第七步在“K均值聚類分析”對話框中單擊最下面的【確定】按鈕,完成移動通信客戶的K-means聚類。K-Means聚類的結果解讀(1)初始聚類中心表中列出了由系統(tǒng)給出的各類的初始聚類中心(2)迭代歷史記錄表列出了迭代過程中各類聚心的改變值。表下面的注釋指出聚類過程經過35次才終止,初始聚類中心之間的最小距離為7.609。

初始聚類中心迭代歷史記錄K-Means聚類的結果解讀最終聚類中心表中列出了五個類別的最終聚類中心,從表中看出:

第一類:移動通訊客戶的總通話時間最長,工作日上班時間通話比例高

第二類:客戶總通話時間最短,各時段通話時間都短

第三類:客戶總通話時間居中,工作日上班時間通話比例高

第四類:客戶總通話時間居中,工作日下班時間通話比例高

第五類:客戶每次通話時間長,定義其為“長聊客戶”最終聚類中心K-Means聚類的結果解讀在每個聚類中的個案數(shù)目表中列出了每個類別的個案數(shù)目,以及有效個案數(shù)據(jù)和缺失個案數(shù)目每個聚類中的個案數(shù)目

K-Means聚類的結果解讀K-Means操作完成后,SPSS數(shù)據(jù)視圖下會數(shù)據(jù)會新增兩列其中QCL_1列表示屬于哪一類,QCL_2列表示該個案與聚類中心的距離。Part6.3系統(tǒng)聚類系統(tǒng)聚類系統(tǒng)聚類也稱層次聚類(1)屬于覆蓋型

數(shù)值型

分層聚類算法(2)系統(tǒng)聚類方式:凝聚方式是較為常見的系統(tǒng)聚類方式

在凝聚方式聚類過程中,隨著聚類的進行,類別的“親密”程度在逐漸降低。對n個觀測樣本,通過n-1步可凝聚成一大類系統(tǒng)聚類對“親疏程度”的測度系統(tǒng)聚類中,測度數(shù)據(jù)之間的“親疏”程度至關重要,一般包括以下兩個方面:(1)測度觀測點之間的“親疏”程度;(2)測度觀測點與小類、小類與小類之間的“親疏”程度。測度觀測點之間“親疏”程度的方法與K-means聚類相同。觀測點與小類、小類與小類之間“親疏”程度的測度,常用的方法有以下幾種:(1)重心法(2)最近鄰元素法(3)組間平均聯(lián)接法(4)組間平均聯(lián)接法(5)離差平方和法系統(tǒng)聚類的基本操作第一步:用SPSS打開數(shù)據(jù)文件“移動通信客戶_樣本15.sav”。第二步:在菜單欄中選擇【分析(A)】→【描述統(tǒng)計(E)】→【描述(D)】,在彈出的“描述”對話框的左下角勾選【將標準化值另存為變量(Z)】,將已有的6個連續(xù)性變量都選到【變量(V)】列表框中,單擊【確定】按鈕。系統(tǒng)聚類的基本操作第三步:在菜單欄中選擇【分析(A)】→【分類(F)】→【系統(tǒng)聚類(H)】,在彈出的“系統(tǒng)聚類分析”對話框中選擇標準化以后的6個變量到【變量(V)】列表框中。將“客戶編號”放到【個案標注依據(jù)(C)】列表框中,【聚類】框中默認選擇【個案(E)】。系統(tǒng)聚類的基本操作第四步:在“系統(tǒng)聚類分析”對話框中單擊右上角的【圖(T)】按鈕,在彈出的“系統(tǒng)聚類分析:圖”對話框中勾選【譜系圖(D)】。單擊【繼續(xù)(C)】按鈕,回到“系統(tǒng)聚類分析”對話框。系統(tǒng)聚類的基本操作第五步:在“系統(tǒng)聚類分析”對話框中單擊右上角的【方法(M)】按鈕,在彈出的“系統(tǒng)聚類分析:方法”對話框中,在【聚類方法(M)】列表框中可選擇不同的聚類方法,系統(tǒng)默認為【組間聯(lián)接】。單擊【繼續(xù)(C)】按鈕,回到“系統(tǒng)聚類分析”對話框。第六步:在“系統(tǒng)聚類分析”對話框中單擊【確定】按鈕,完成移動通信客戶樣本的系統(tǒng)聚類。系統(tǒng)聚類的結果解讀個案處理摘要表中顯示參與分類的移動通訊客戶有15人,不存在數(shù)據(jù)缺失。此次系統(tǒng)聚類選擇的聚類方法為組間平均連接法,選擇的測量方法為平方歐氏距離。集中計劃表主要用來描述系統(tǒng)聚類法的具體實現(xiàn)步驟。表中第一列“階段”代表聚類的步數(shù),第二列“組合聚類”代表該步具體合并的是哪兩類,第三列“系數(shù)”代表類與類之間的距離測度系數(shù),第四列“首次出現(xiàn)聚類的階段”代表該步聚類合并的兩類的上一次出現(xiàn)的步驟數(shù),最后一列“下一個階段”代表本步生成的新類下一次合并將出現(xiàn)在第幾步。個案處理摘要a,b

系統(tǒng)聚類的結果解讀“冰柱圖”形狀類似于冬天屋檐上垂下的冰柱,因此得名。(1)上側橫坐標表示樣本名稱,(2)左側縱坐標表示可劃分的類別數(shù)。(3)每個樣本名稱對應一根藍色長條,15個樣本長條的長度相同。(4)每兩個樣本長條之間還夾有一根藍色長條,長條的長度表示兩個樣本的相似度。相似度長條越長表示兩個樣本的相似度越高。冰柱圖從圖的最下端開始分析在冰柱圖的最下端,樣本長條對應的縱坐標為14,表示在聚類過程中,首先將15個樣本劃分為14類,類與類之間由白色間隙間隔開??偣?3個白色間隙,分隔為14類。如圖所示,在該步中樣本8(客戶編號為:K100620)和樣本9(客戶編號為:K100710)相似度最高,故將這兩個樣本歸為一類。冰柱圖聚類(進程一)

系統(tǒng)聚類的結果解讀聚類進程繼續(xù),下一步將15個樣本聚為13類。在這一步中樣本4(客戶編號為:K100390)和樣本5(客戶編號為:K100450)相似度達到閾值,聚為一類。當縱坐標為13時,15個樣本被12個白色間隙分隔為13類。冰柱圖聚類(進程二)

系統(tǒng)聚類的結果解讀依次類推,直到將15個樣本全部聚為一類,在15個樣本之間沒有白色間隙,表示系統(tǒng)聚類結束。冰柱圖聚類進程(最后一步)

系統(tǒng)聚類的結果解讀冰柱圖還可以展示聚類結果。例如,最終若要將15個樣本劃分為四類,則選擇縱坐標4根據(jù)上面的方法,有3個白色間隙將15個樣本分為4類。其中樣本15自成一類,樣本7為一類,樣本11為一類,其余12個樣本聚為一類。冰柱圖聚類進程(劃分為4類)

系統(tǒng)聚類的結果解讀譜系圖也稱樹狀圖,像一個橫著生長的樹。樹狀圖直觀的展示了聚類的整個過程。冰柱圖是軟件默認輸出,但實際上操作者們卻更愿意看樹狀圖樹狀圖如何看呢?(1)這棵樹是從左向右橫著生長的,最左側羅列出所有聚類類別,像樹的根系,根系類生長聚合,逐漸向右側生長出若干枝干類,繼續(xù)生長,最后合并為兩類;(2)圖形的頂部有一行數(shù)字,它是這顆樹的橫軸,數(shù)字是各類別的相對距離,是按距離比例重新設定的結果。這個類的相對距離,能大概告訴我們類別之間距離的變化。(3)讀懂這顆樹,需要一把尺子,沿從左向右的橫線垂直90度放下。此時,橫線(一條線就是一個類別)被尺子截斷,這些端點的個數(shù)就是該相對距離下的類別數(shù)目。系統(tǒng)聚類的結果解讀譜系圖

分成兩類,看右側紅線,樣本15(客戶編號:K101260)獨自成為一個類別,其他客戶都為第二個類別;分成三類,三類的情況是,樣本15(客戶編號:K101260)獨為一類,樣本7(客戶編號:K100610)獨自為第二類,第三類則包括剩余的其他客戶。帶圈的兩條豎線(兩條紅線)之間的距離,展示聚為兩類和三類時,其類中間距離發(fā)生了多大的變化,可以嘗試用這種相對距離變化的幅度來初步判斷聚類的效果。Part6.4聚類分析報告背景介紹在移動通訊行業(yè),客戶資源是移動通訊運營商最重要的核心資源,只有充分細致地認識客戶、了解客戶的差異化,才能為客戶提供更好的服務,才能提高客戶滿意度和忠誠度,給運營商帶來收入和利潤,提高運營商的市場競爭地位,所以在殘酷的異質競爭中,移動運營的一切營銷戰(zhàn)略,都必須從客戶細分出發(fā)??蛻艏毞值年P鍵是找出客戶的特征。本案例將采用聚類分析的方法,對某移動通訊運營商的客戶進行分析,以定量的方法幫助運營商劃分客戶類別,以便其針對不同類別客戶提供有針對性服務和“個性化”營銷方案。數(shù)據(jù)說明本案例收集了某移動通訊運營商的3395條客戶數(shù)據(jù),共七個變量(1)客戶編號(Customer_ID)(2)工作日上班時期通話時長(Peak_mins)(3)工作日下班時期通話時長(OffPeak_mins)(4)周末通話時長(Weekend_mins)(5)國際通話時長(International_mins)(6)總通話時長(Total_mins)(7)平均每次通話時長(average_mins)根據(jù)前期調研及積累的經驗,該運營商認為移動通訊用戶應當分為5個主要群體,希望通過現(xiàn)有數(shù)據(jù)得到相應的定量分析結果。上表除客戶編號外,原始的六個連續(xù)變量的數(shù)值差距較大,經過標準化后都將其均值均為0,方差均為1。

移動通訊客戶聚類分析—K-Means聚類初始聚類中心

聚類12345Zscore:工作日上班時期通話時長3.21791-1.161652.64849.197291.93001Zscore:工作日下班時期通話時長-.65276-1.26557-1.030583.87339-.17204Zscore:周末通話時長3.721813.11491-.02169-.90652-1.21281Zscore:國際通話時長4.90995-1.16636.293902.77257.53252Zscore:總通話時長2.96323-1.312262.073081.473401.63709Zscore:平均每次通話時長-.51651.307605.49282-.2279212.99993初始聚類中心中列出了由系統(tǒng)給出的各類的初始聚類中心移動通訊客戶聚類分析—K-Means聚類最終聚類中心

聚類12345Zscore:工作日上班時期通話時長1.60559-.78990.61342-.33584.37303Zscore:工作日下班時期通話時長.46081-.58917-.493651.18873-.29014Zscore:周末通話時長-.14005-.15010.35845-.02375-.40407Zscore:國際通話時長1.68250-.64550.04673.02351-.04415Zscore:總通話時長1.62690-.94040.41420.10398.21627Zscore:平均每次通話時長-.06590-.14835-.05337-.140594.87718第一類移動通訊客戶的總通話時間最長,工作日上班時間通話比例高,定義這類客戶為“高端商務用客戶”;第二類客戶總通話時間最短,各時段通話時間都短,定義這類客戶為“使用較少的低端客戶”;第三類客戶總通話時間居中,工作日上班時間通話比例高,定義這類客戶為“中端商務用客戶”;第四類客戶總通話時間居中,工作日下班時間通話比例高,定義這類客戶為“中端日常用客戶”;第五類客戶每次通話時間長,定義其為“長聊客戶”。

移動通訊客戶聚類分析—K-Means聚類從上表可以看出“使用較少的低端客戶”數(shù)量最多有1239人,“長聊客戶”數(shù)量最少,只有76人。每個聚類中的個案數(shù)目聚類1443.00021239.0003831.0004806.000576.000有

效3395.000缺

失.000移動通訊客戶聚類分析—K-Means聚類SPSS數(shù)據(jù)視圖下會數(shù)據(jù)新增兩列,其中QCL_1列表示屬于哪一類,QCL_2列表示該個案與聚類中心的距離

移動通訊客戶聚類分析—系統(tǒng)聚類個案處理摘要a,b個案有效缺失總計個案數(shù)百分比個案數(shù)百分比個案數(shù)百分比15100.00.015100.0a.平方歐氏距離使用中b.平均聯(lián)接(組間)從上表看出參與系統(tǒng)聚類的客戶有15人,不存在數(shù)據(jù)缺失。此次系統(tǒng)聚類選擇的聚類方法為組間平均連接法,選擇的測量方法為平方歐氏距離。移動通訊客戶聚類分析—系統(tǒng)聚類以階段為1時,即以第一步聚類為例,將觀測樣本14(聚類1)和觀測樣本15(聚類2)聚類合并,其中的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論