版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
SPSS19.0實戰(zhàn)之聚類分析這篇文章與上一篇的回歸分析是一次實習(xí)作業(yè)整理出來的。所以參考文獻(xiàn)一并放在該文最后。CNBlOG網(wǎng)頁排版太困難了,又不喜歡livewriter……聚類分析是將物理或者抽象對象的集合分成相似的對象類的過程。本次實驗我將對同一批數(shù)據(jù)做兩種不同的類型的聚類;它們分別是系統(tǒng)聚類和K-mean聚類。其中系統(tǒng)聚類的聚類方法也采用3種不同方法,來考察對比它們之間的優(yōu)劣。由于沒有樣本數(shù)據(jù),因此不能根據(jù)其數(shù)據(jù)做判別分析。評價標(biāo)準(zhǔn)主要是觀察各聚類方法的所得到的類組間距離和組內(nèi)聚類的大小。分析數(shù)據(jù)依然采用線性回歸所使用的標(biāo)準(zhǔn)化后的能源消費數(shù)據(jù)。1.1系統(tǒng)聚類本次實驗的系統(tǒng)聚類都是凝聚系統(tǒng)聚類,為了控制變量,都采用平方Euclidean距離。1.1.1最短距離聚類法最短距離法聚類步驟如下:規(guī)定樣本間的距離,計算樣本兩兩之間的距離,得到對稱矩陣。開始每個樣品自成一類。選擇對稱矩陣中的最小非零元素。將兩個樣品之間最小距離記為D1,將這兩個樣品歸并成為一類,記為G1。計算G1與其他樣品距離。重復(fù)以上過程直到所有樣品合并為一類。我們在SPSS中實現(xiàn)最短距離分析非常簡單。單擊“”-->“”-->“”。將彈出如圖1-1所示的對話框,設(shè)置相應(yīng)的參數(shù)即可。圖1-1最短距離法我們的數(shù)據(jù)已經(jīng)做過標(biāo)準(zhǔn)化,在“轉(zhuǎn)化值”-->“標(biāo)準(zhǔn)化”選項上選無。在統(tǒng)計量的聚類成員中選擇“無”,因為這是非監(jiān)督分類,不需要指定最終分出的類個數(shù)。在繪制中選擇繪制“樹狀圖”。單擊確定,得到以下結(jié)果。表3-1顯示了數(shù)據(jù)的缺失情況:案例處理匯總a案例有效缺失總計N百分比N百分比N百分比30100.00.030100.0表1-1數(shù)據(jù)匯總我們的數(shù)據(jù)經(jīng)過預(yù)處理,所以缺失值個數(shù)為0.2.由于相關(guān)矩陣過于龐大,無法在文檔中貼出,得到的是一個非相似矩陣。表1-2是樣品聚類過程。樣品21和28在第一步合并為一類,它們之間的非相關(guān)系數(shù)最小,為0.211。在下一次合并是第十步。在第五步的時候,樣品2、27、14組成一類,出現(xiàn)群集,樣品個數(shù)為3。如上類推,可以解釋表格。聚類表階群集組合系數(shù)首次出現(xiàn)階群集下一階群集1群集2群集1群集212128.211001021224.4650063227.49100541320.5850095214.6453066212.678527727.7026088225.7737099213.91684111021291.0851012112181.1069012122211.115111013132171.36012014142261.56413015152221.6271401616251.6491501717281.87716018182163.02717019192303.54318020202114.9301902121245.02420022222106.4452102423198.26200262421510.093220252522310.09624026261210.189232527271611.38726028281313.153270292911932.3672800表1-2聚類過程我們可以通過更加形象直觀的樹狀圖來觀察整個聚類過程和聚類效果。如圖1-2所示,最短距離法組內(nèi)距離小,但組間距離也較小。分類特征不夠明顯,無法凸顯各個省份的能源消耗的特點。但是我們可以看到廣東省能源消耗組成和其他省份特別不同,在其他方法中也顯現(xiàn)出來。圖1-2最短距離法聚類圖1.1.2組間聯(lián)接聚類組間聯(lián)接聚類法定義為兩類之間的平均平方距離,即。類CK和CL合并為下一步的CM則CM與CJ距離的遞推公式為:。我們依然貼出組間聯(lián)接法的聚類表和樹狀圖。聚類表如表1-3所示,相關(guān)解釋類似于表1-1所述。聚類表階群集組合系數(shù)首次出現(xiàn)階群集下一階群集1群集2群集1群集212128.211001021224.4650053227.49100641320.5850085712.8400276214.9373077271.1056511813251.3314011917181.36000141021291.4951013112131.7037815128261.87700151321222.13310018145172.378091615283.71511121616253.926151418174165.0240023182215.5261613211910116.445002220198.2620025212308.744180232261011.50801924232414.2022117252461514.28822027251219.8222023262612323.36325028273626.51602428281331.2102627292911969.1142800表1-2組間聯(lián)接聚類法2.樹狀圖如圖1-3所示,可以看到聚類的組間距離較大,組內(nèi)距離較小。聚類結(jié)果較為理想??梢钥吹胶D吓c青海,寧夏自治區(qū),重慶市的能源消耗特點近似,北京、上海兩地能源消耗特點也近似。江浙兩地亦然。最后廣東和各地能源消耗特點都不同。1.1.3Ward法聚類Ward即離差平方和法。它的思想是,同類離差平方和較小,類間偏差平方和較大。Ward方法并類時總是使得并類導(dǎo)致的類內(nèi)離差平方和增量最小。公式:遞推公式:我依然貼出ward法聚類表和樹狀圖。聚類表如表1-4所示,相關(guān)解釋類似于表1-1所述.聚類表階群集組合系數(shù)首次出現(xiàn)階群集下一階群集1群集2群集1群集212128.106001121224.3380053227.58400641320.87600957121.359021262141.902308717182.582001382293.3516012913254.1404014108265.07900161121226.290101912277.6478514135179.00607211421311.211129191541613.72300231683016.6421002117101119.8650020181923.99600251922130.5561411242061037.15401722215843.8981316242261552.15920026233462.10301526242573.0511921272512386.143180272636106.4422322282712139.00125242928319177.895260292913286.00027280表1-4Ward法聚類表2.樹狀圖如圖1-4所示,我們可以看到這個結(jié)果較以上兩種方法都為理想,組內(nèi)距離都很小,控制在五次迭代之內(nèi)。然后組間距離非常大。各分類的樣品也基本符合它們的能源消耗特點。最后在接近10次迭代,廣東被歸入山東、山西這兩個分別是能源消耗大省和能源產(chǎn)量大省的一類,說明它們之間的相似度也不大。圖1-4Ward法聚類樹狀圖1.2K-mean聚類K-mean聚類是用戶指定類別數(shù)的大樣本資料的逐步聚類分析。所謂逐步聚類分析就是先把被聚對象進(jìn)行初始分類,然后逐步調(diào)整,得到最終K個分類。K-mean法對離群點敏感容易扭曲數(shù)據(jù)分布。單擊“”-->“”-->“”將彈出如圖1-5所示的對話框,我們根據(jù)系統(tǒng)聚類法的經(jīng)驗將K選擇為5。迭代次數(shù)和系統(tǒng)聚類一樣選擇25次。圖1-5K-mean聚類設(shè)置下面輸出和解釋K-mean聚類結(jié)果。表1-5是K-mean的迭代歷史記錄,非常明了。迭代歷史記錄a迭代聚類中心內(nèi)的更改1234512.7961.4141.813.0002.29921.014.000.990.000.0003.000.000.000.000.000a.由于聚類中心內(nèi)沒有改動或改動較小而達(dá)到收斂。任何中心的最大絕對坐標(biāo)更改為.000。當(dāng)前迭代為3。初始中心間的最小距離為5.209。表1-5迭代歷史記錄2.表1-6是每個聚類樣品數(shù)表。就是該次K-mean聚類所形成的類它們的樣品數(shù)量。每個聚類中的案例數(shù)聚類13.000219.00033.00041.00054.000有效30.000缺失.000表1-6聚類樣品數(shù)3.表1-7是K-mean聚類的各個類的具體成員。距離代表的是樣品自身和種子點的距離。聚類成員案例號地區(qū)名稱聚類距離1北京市11.4892天津市2.5963河北省32.5754山西省31.3815內(nèi)蒙古自治區(qū)21.9516遼寧省52.2997吉林省2.6468黑龍江省21.7859上海市12.50610江蘇省51.56911浙江省52.03412安徽省2.85013福建省21.09614江西省2.96015山東省52.48916河南省31.98017湖北省22.09618湖南省21.21119廣東省4.00020廣西壯族自治區(qū)2.92621海南省21.90522重慶市21.43623四川省12.95424貴州省2.98425云南省21.08026陜西省21.00727甘肅省2.95528青海省21.74429寧夏回族自治區(qū)21.41430新疆維吾爾自治區(qū)22.503表1-7聚類成員最后看到分類結(jié)果與ward法有所相似,但是組內(nèi)距離較大。實際效果不如Ward法。而且該方法需要事先設(shè)定分類的個數(shù),并不適合沒有先驗知識的條件下的數(shù)據(jù)聚類。2.總結(jié)本次實習(xí)主要通過一批國內(nèi)的能源消耗和產(chǎn)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年全球電子商務(wù)交易協(xié)議
- 2024年新建回遷安置住宅買賣協(xié)議
- 2024年征收補償回遷房交易協(xié)議
- 2024年廢鋼購銷合作協(xié)議
- 2024年影視制作合同:影視項目定金協(xié)議條款
- 2024年攜手共進(jìn)終止協(xié)議:合作伙伴關(guān)系終止與資產(chǎn)分配
- 2024年房地產(chǎn)無底薪銷售代理協(xié)議
- 2024年建筑外墻腳手架施工安全協(xié)議
- 環(huán)保行業(yè)合伙人合作協(xié)議書
- 我不再馬虎的作文8篇
- 如何培養(yǎng)學(xué)生良好的雙姿習(xí)慣(精)
- 計算機及外部設(shè)備裝配調(diào)試員國家職業(yè)技能標(biāo)準(zhǔn)(2019年版)
- GB18613-2012中小型異步三相電動機能效限定值及能效等級
- 《臨床決策分析》課件.ppt
- 家風(fēng)家訓(xùn)PPT課件
- 淚道沖洗PPT學(xué)習(xí)教案
- 淺談校園影視在學(xué)校教育中的作用
- 無公害農(nóng)產(chǎn)品查詢
- 試劑、試藥、試液的管理規(guī)程
- 研究生課程應(yīng)用電化學(xué)(課堂PPT)
- 通信綜合網(wǎng)管技術(shù)規(guī)格書doc
評論
0/150
提交評論