聚類分析試驗(yàn)講義_第1頁(yè)
聚類分析試驗(yàn)講義_第2頁(yè)
聚類分析試驗(yàn)講義_第3頁(yè)
聚類分析試驗(yàn)講義_第4頁(yè)
聚類分析試驗(yàn)講義_第5頁(yè)
已閱讀5頁(yè),還剩4頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、應(yīng)用多元統(tǒng)計(jì)分析實(shí)驗(yàn)講義實(shí)驗(yàn)項(xiàng)目五聚類分析實(shí)驗(yàn)內(nèi)容、目標(biāo)及要求(一)實(shí)驗(yàn)內(nèi)容聚類分析是一種研究事物分類的方法,其目的是把分類對(duì)象按一定的規(guī)則分為若干類,這些類不是事先給定的,而是根據(jù)數(shù)據(jù)的特征確定的。通俗的講,聚類分析法是用來(lái)對(duì)資料 做簡(jiǎn)化的工作及分類,也就是把相似的個(gè)體(觀察量)歸于一群。例如汽車(chē)制造商可以通過(guò)聚類分析確定目前市場(chǎng)中競(jìng)爭(zhēng)產(chǎn)品是哪些。下面從SPSS自帶數(shù)據(jù)car_sales.sav (SPSS/tutorial/sample)中選擇數(shù)據(jù)進(jìn)行分析。(二)實(shí)驗(yàn)?zāi)繕?biāo)SPSS軟件中系統(tǒng)聚類法和 K均值聚類的計(jì)算機(jī)操作及結(jié)果分析。(三)實(shí)驗(yàn)要求要求學(xué)生能熟練應(yīng)用計(jì)算機(jī)軟件進(jìn)行聚類分析,并

2、對(duì)結(jié)果進(jìn)行分析,培養(yǎng)實(shí)際應(yīng)用能力。二、實(shí)驗(yàn)準(zhǔn)備(一)運(yùn)行環(huán)境說(shuō)明電腦操作系統(tǒng)為Windows XP ,所需軟件為SPSS 16.0。(二)基礎(chǔ)數(shù)據(jù)設(shè)置說(shuō)明將數(shù)據(jù)正確導(dǎo)入SPSS,設(shè)置相應(yīng)的變量值。應(yīng)用多元統(tǒng)計(jì)分析實(shí)驗(yàn)講義三、實(shí)驗(yàn)基本操作流程及說(shuō)明(一)系統(tǒng)界面及說(shuō)明同實(shí)驗(yàn)一。(二)操作步驟1,選擇菜單項(xiàng) AnalyzefClassify fHierachical Cluster ,打開(kāi) Hierachical Cluster Analysis 對(duì)話框,如錯(cuò)誤!未找到引用源。將原始變量Price in thousands到Fuel efficiency移入Variables列表框框中,將標(biāo)志變量

3、Model移入Label Case by列表框框中。EDS鼠 ManiJactuier mdriL A 爵 Sales in tbousarids 含簞y resale yAjs Vehicle type t叩目 磅 Log-biansformedl sal ZscMe: 4.臺(tái)即舊籍 . Ncere: Type Ifztypi Zscote: Pnce in the .Zsc(Me: Engine sizt Zscwe: Horsepciwi , Nscor史 Wheefcase .iZscofe: Width |zwii TStatistics.Plots. MetticidI Save.

4、圖 5-1 Hierachical Cluster Analysis 對(duì)話框在Cluster欄中選擇 Cases單選按鈕,對(duì)樣品進(jìn)行聚類(若選擇Variables,則對(duì)變量進(jìn)行聚類)。在Display欄中選擇Statistics和Plots復(fù)選框,這樣在結(jié)果輸出窗口中可以同時(shí)得 到聚類結(jié)果統(tǒng)計(jì)量和統(tǒng)計(jì)圖。.點(diǎn)擊Plots按鈕,打開(kāi)Plots子對(duì)話框,如圖5-5。設(shè)置結(jié)果輸出窗口中給出的聚類分 析統(tǒng)計(jì)圖。Dendrogram為聚類樹(shù)形圖,Icicle為冰柱圖。圖5-2 Plots子對(duì)話框這里我們選中 Dendrogram復(fù)選框和Icicle欄中的None單選按鈕,只輸出比較常用的聚 類樹(shù)形圖,而

5、不給出冰柱圖。.點(diǎn)擊Method按鈕,打開(kāi) Method子對(duì)話框,如圖 56,設(shè)置系統(tǒng)聚類的方法選項(xiàng)。Ckister Method: | Nearest neiiborMeasureC* Intervat| Squared Eudbdean distanceCounts:F-r: |2|I Oht-squdre measureBoot:三應(yīng)用多元統(tǒng)計(jì)分析實(shí)驗(yàn)講義Hievairchical Clustei Analysis: Methoiir Binary-Transform Measures Absojute values Change signRgscale to 0-1 rangeTran

6、sform Values landardi- |z3By variableBy fass圖5-3 Method子對(duì)話框Cluster Method下拉列表用于指定類與類之間距離的測(cè)度方法,具體選項(xiàng)的含義參見(jiàn)教 材。Measure欄用于設(shè)置不同數(shù)據(jù)類型下的個(gè)體與個(gè)體之間距離的測(cè)度方法,其中,Interval中的方法適用于連續(xù)型變量,Counts中的方法適用于計(jì)數(shù)變量,Binary中的方法適用于二值變量。Transform Values選項(xiàng)欄用于當(dāng)原始數(shù)據(jù)不是同一數(shù)量級(jí)別的時(shí)候選擇對(duì)原始數(shù)據(jù)進(jìn)行 標(biāo)準(zhǔn)化的方法。單選按鈕By variable表示針對(duì)變量進(jìn)行標(biāo)準(zhǔn)化,適用于 Q型聚類;By case表

7、示針對(duì)觀測(cè)進(jìn)行標(biāo)準(zhǔn)化,適用于R型聚類。這里我們選擇最為常用的Z分?jǐn)?shù)標(biāo)準(zhǔn)化法對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,其余選項(xiàng)均保持默認(rèn)。.點(diǎn)擊Save按鈕,打開(kāi) Save New Variables子對(duì)話框,指定保存在數(shù)據(jù)文件中的用于 表明聚類結(jié)果的新變量。None表示不保存任何新變量;Single solution表示生成一個(gè)分類變量,在其后的矩形框中輸入要分成的類數(shù);Range of solutions表示生成多個(gè)分類變量。這里我們選擇Range ofsolutions,并在后面的兩個(gè)矩形框中分別輸入2和4,即生成三個(gè)新的分類變量,分別表明將樣品分為2類、3類和4類時(shí)的聚類結(jié)果。.在主對(duì)話框中點(diǎn)擊 OK按鈕,

8、運(yùn)行系統(tǒng)聚類過(guò)程,結(jié)果如表5-1和圖57所示。表5-1聚類過(guò)程表StageCluster CombinedCoefficierits6tags Cluster First AppearsNext StaggCluster 1Cluster 2Cluster 1Cluster 218110072671.5790043291.6250074162.31 BLI265352.51900861103 670401072S4.42U31s&234.5057599244774e0101011571Sq0應(yīng)用多元統(tǒng)計(jì)分析實(shí)驗(yàn)講義Dendrograin using Single Link ageCASE051

9、01520Label+-十+Rescaled Distance Clu3ter ComkiLrL已2s卷 Log-wireless logwii * | 箝 Log-income Ininc :唳 Customer categary 含 Chum within last n:勘 Cluster N umbef of ( 砂 Dislarce of Cae fr寸Variable$:R Standardized multipl . | i曉 Standardized voice _#)- Standardized pdgint Standardized internt T ILabel Case

10、sOKPasteReetCancelHelpNumber of Clusters:CentersMethod Iterate and classifyIterata. Save.Classify onlvOption;.,AccordCaaEY MalibuGrand AmImpala Taurus MustangFocus CivicCavalier Corolla圖5-4樹(shù)狀圖B. K- means操作步驟及結(jié)果分析電信營(yíng)銷商對(duì)客戶分類分析。telco_extra.sav.選擇菜單項(xiàng) AnalyzefClassify fK-Means Cluster,打開(kāi) K-Means Cluster

11、Analysis 對(duì)話 框,如錯(cuò)誤!未找到引用源。將原始變量x1x3移入Variables列表框框中,將標(biāo)志變量Region移入Label Case by列表框框中。X圖 5-5 K-Means Cluster Analysis 對(duì)話框在Method選項(xiàng)欄中選擇Iterate classify單選項(xiàng),使用 K-means算法不斷計(jì)算新的類中 心,并替換舊的類中心;若選擇 Classify only ,則根據(jù)初始類中心進(jìn)行聚類,在聚類過(guò)程中 不改變類中心。在Number of Cluster后面的輸入框中輸入想要把樣品聚成的類數(shù),這里我們輸入3,即將電信客戶分為3類。至于Centers按鈕,則用

12、于設(shè)置迭代的初始類中心。如果不用手工設(shè)置,則系統(tǒng)會(huì)自動(dòng) 設(shè)置初始類中心,這里我們不作設(shè)置。.點(diǎn)擊Iterate按鈕,打開(kāi)Iterate子對(duì)話框,對(duì)迭代參數(shù)進(jìn)行設(shè)置。應(yīng)用多元統(tǒng)計(jì)分析實(shí)驗(yàn)講義K-Means Cluster Analvsi: IterateMaximum Iterabons:Convergence Criterion:20- | C口ntinu司LUse running means圖5-6 Iterate子對(duì)話框Maximum Iterations輸入框用于設(shè)定 K-means算法迭代的最大次數(shù); Convergence Criterion輸入框用于設(shè)定算法的收斂判據(jù), 其值應(yīng)該介

13、于0和1之間。例如判據(jù)設(shè)置為0.02, 則當(dāng)一次完整的迭代不能使任何一個(gè)類中心距離的變動(dòng)與原始類中心距離的比小于0.02時(shí),迭代停止。設(shè)置完這兩個(gè)參數(shù)之后, 只要在迭代的過(guò)程中先滿足了其中的某一個(gè)條件,則迭代過(guò)程就停止。另外,如果選擇了 Use running means復(fù)選框,則每當(dāng)一個(gè)樣品被分配到一類時(shí)便要立 即重新計(jì)算新的類中心;如果不選該選項(xiàng),則完成了所有樣品的重新分配之后才要計(jì)算新的 類中心,不選該選項(xiàng)會(huì)比較節(jié)省事件。這里我們保持該對(duì)話框的系統(tǒng)默認(rèn)選項(xiàng)。.點(diǎn)擊Options按鈕,打開(kāi)Options子對(duì)話框,如錯(cuò)誤!未找到引用源。對(duì)話中!中Statistics 選項(xiàng)欄中各選項(xiàng)的含義如下

14、:Initial cluster centers :在結(jié)果輸出窗口中給出聚類的初始類中心;ANOV A table :給出以聚類結(jié)果為控制變量的針對(duì)每個(gè)原始變量的單因素方差分析表;Cluster information for each case :在結(jié)果輸出窗口中給出每個(gè)樣品的分類信息,包括分 配到哪一類以及該觀測(cè)量距所屬類中心的距離。單擊Continue返回主對(duì)話框。.在主對(duì)話框中點(diǎn)擊 OK按鈕,運(yùn)行K均值聚類分析程序。表5-2給出了 K 均值迭代的初始類中心坐標(biāo),由SPSS自動(dòng)給定。表5-2 初始類中心表應(yīng)用多元統(tǒng)計(jì)分析實(shí)驗(yàn)講義Cluster123Standardized log-lon

15、g distance248-1.7012Standardized log-toll free2.34-.20-.398tandardized log-equipment1.34-.65.59Standardized localling card2.49-.86-1.28Standardized log-wireless1.U-1.751 42Standardized multiple lines1J5-351P5Standardized voice mail1.511.511.51Standardized Raging1.581.G81.S8Standardized internet1.31-

16、7b1.31Standardized caller id1.04k04-J6Standardized call waiting1,0397Standardized call forwarding1.011.01-.99Standardized 3-way calling1.001.00-1.00Standardized electronic billing-11-.771.30表5-3給出了 K 均值迭代的過(guò)程,表中每一行代表每次迭代導(dǎo)致的類中心的變化量。從表中看出,每次迭代導(dǎo)致的類中心變化量在逐漸減少,第 18迭代導(dǎo)致的類中心的變化量 已經(jīng)為0,達(dá)到了收斂(我們?cè)贗terate子對(duì)話框中設(shè)置

17、的收斂條件為“最大迭代次數(shù)為20和收斂判據(jù)為0”)。表5-3迭代過(guò)程Changim In Cluster CentersIteration12313.29B3.59C3.49121 016.4279313.57732C4204,240,180,1955119.125.108E9J82E-028.262E-022.654E-0215.8B2E-029.375E-023.196E-0285.353E-025.0B0E-021.S17E-02g3.461E-028.501 E-026.318E-02102.489E-0235S,333116.757E-02439287127.352E-023S8.1

18、7713.125.1397.823E-02147.565E-029 578E-021.383E-02154J90E-024.699E-021.502E-02161 375E-022.672E-02,000171.943E-023.S05E-02oao18000000,000應(yīng)用多元統(tǒng)計(jì)分析實(shí)驗(yàn)講義表5-4給出了分類變量的方差分析表,檢驗(yàn)各分析變量的均值在不同類中是否存在顯著 差異,這也是對(duì)我們的分類效果是否顯著的檢驗(yàn),檢驗(yàn)的原假設(shè)是分析變量在不同類中不存在顯著差異。從表的結(jié)果來(lái)看,針對(duì)分析變量的方差分析的p值均小于0.05,需要拒絕原假設(shè),說(shuō)明所選的聚類變量對(duì)于分類具有顯著作用。表 5-4 A

19、NOVAClusterErrorFSig.M日an SquaredfMeanSquaredfStandardized log-long distance13.0632.97B99713,397,000Standardized log-toll free43.418282047252.932.000Standardized log-equipment99.0562383202.999.000Standardized log-calling card6.3012JS4675B.4D2.002Standardized log-wireless52.6792.64629381.B73.000Stand

20、ardized multiple lines38 0322,92699741.084.000Standardized vclee mail236.3012,529997447.554.000Standard fred paging293.9922,402997743.34G.000Stgndardized internet123.4472,754937163.642,000Standardized caller id303.1042,384997302.474,000Standardized call waiting234.6742411937717.172.000Standardized call forwarding269.3432.42499766071 ,000Standardized 3-way calling282.39724769S7551.678,000Standardized electronic billing112782277B9971 45.301,000表5-5給出了最終的聚類中心結(jié)果。表5-5最終的類中心表Cluster123Standardized log-lona distance,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論