




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第10章 聚類分析聚類分析是對數(shù)據(jù)分類的有效方法,目前常用的數(shù)據(jù)聚類分析方法有系統(tǒng)聚類、變量聚類和快速聚類。本章主要向用戶介紹這三種聚類分析方法的基本原理及其SAS實現(xiàn)過程,并通過具體的實例演示聚類分析SAS過程的實現(xiàn)。10.1 聚類分析方法概述1聚類分析的基本原理2聚類分析的相關(guān)統(tǒng)計量3聚類分析的分類10.2 系統(tǒng)聚類系統(tǒng)聚類是常用的樣本(變量)聚類的方法,通過各種距離統(tǒng)計量描述各樣本(變量)間的相似程度,從而根據(jù)一定的準則對數(shù)據(jù)進行分類。在SAS系統(tǒng)內(nèi)系統(tǒng)聚類的實現(xiàn)主要通過CLUSTER和TREE兩個過程,本節(jié)將具體介紹系統(tǒng)聚類的實現(xiàn)。10.2.1 系統(tǒng)聚類方法概述系統(tǒng)聚類的基本原理是將計
2、算所有的樣本(變量)兩兩之間的距離,根據(jù)距離的遠近進行樣本(變量)的分類。10.2.2 CLUSTER過程在SAS系統(tǒng)中CLUSTER過程專門用于系統(tǒng)聚類的實現(xiàn)。CLUSTER提供11種不同的方法系統(tǒng)聚類分析方法,并同時可對原始或距離數(shù)據(jù)進行聚類分析。10.2.3 TREE過程通過上述CLUSTER計算過程中產(chǎn)生的特定數(shù)據(jù)集,TREE過程可用于聚類分析譜系圖的繪制。10.2.4 系統(tǒng)聚類實例演示本節(jié)將通過具體的實例演示系統(tǒng)聚類分析,這里我們僅使用了一種方法,在實際的應(yīng)用中應(yīng)該考慮不同的情況,采用相應(yīng)的方法。而同時需要注意的是,在實際使用中由于使用的聚類方法不同,或者評判分類的準則不同,可能相同
3、的數(shù)據(jù)會得到不同的分類結(jié)果。10.3 變量聚類變量聚類主要用于對多個變量的分類,便于提高變量的利用率。本節(jié)主要介紹變量聚類的基本概念及其具體實現(xiàn)的方法。10.3.1 變量聚類方法概述為了了解變量之間的關(guān)系,需要通過變量聚類實現(xiàn)對變量的分類,從而從各個類別中挑選出關(guān)鍵變量,代替數(shù)據(jù)的整體特征。變量聚類的思想與之前介紹的系統(tǒng)聚類有所差異,這里的變量聚類主要是通過相關(guān)性來判斷變量之間的關(guān)系。10.3.2 VARCLUS過程在SAS系統(tǒng)內(nèi)實現(xiàn)變量聚類的過程為VARCLUS。其基本的語法格式如下:PROC VARCLUS 選項;VAR 變量列表;RUN;10.3.3 變量聚類實例演示下面通過一個具體的實
4、例演示變量聚類的過程。10.4 快速聚類當統(tǒng)計樣本的容量較大時,通過上述的方法進行聚類分析可能是不太現(xiàn)實的,計算的成本較大,需要對每一個樣本(變量)類間距離進行不斷的計算和比較??焖倬垲愂怯行幚泶髽颖緮?shù)據(jù)分類的方法,本節(jié)將首先對快速聚類方法的實現(xiàn)做具體介紹,然后通過實例向讀者演示其操作流程。10.4.1 快速聚類方法概述快速聚類方法基本原理為根據(jù)初始的凝聚點將樣本進行初步分類,然后根據(jù)初步分類結(jié)果不斷優(yōu)化分類結(jié)果,至產(chǎn)生最好的分類結(jié)果為止。10.4.2 FASTCLUS過程FASTCLUS過程是SAS系統(tǒng)中專門用于快速聚類的過程,可用于大樣本觀測的快速聚類,且聚類后可以輸出各類間的統(tǒng)計參數(shù),方便用戶比較。10.4.3 快速聚類實例演示下面通過一個具體實例演示快速聚類的實現(xiàn)。10.5 本章小結(jié)本章主要介紹了如何在SAS系統(tǒng)內(nèi)實現(xiàn)聚類分析。在本章中主要介紹了三種聚類分析(系統(tǒng)聚類、變量聚類、快速聚類)的實現(xiàn)方法。在今后的使用中,讀者應(yīng)該結(jié)合實際的需要選擇合適的聚類算法。10.6 習題1下表為江蘇省主要城市的單位與有證照個體經(jīng)營戶的地區(qū)分布的統(tǒng)計數(shù)據(jù),試對其進行系統(tǒng)聚類分析,以劃分不同城市所在的類別。2下表為不同學校的教育基本統(tǒng)計情況,試對其反映教育基本情況的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 衡陽電動車管理辦法規(guī)定
- 街道無主小區(qū)管理辦法
- 裝配車間易耗品管理辦法
- 西安無病例小區(qū)管理辦法
- 計劃外資金審批管理辦法
- 證監(jiān)會內(nèi)部信息管理辦法
- 負責人薪酬管理辦法建議
- 購房老帶新管理暫行辦法
- 貴州省民進會員管理辦法
- 賀州市民宿管理暫行辦法
- 云南楚雄州金江能源集團有限公司招聘筆試真題2024
- 2025-2030中國動力電池回收利用技術(shù)路線與經(jīng)濟性評估分析研究報告
- 7下期末家長會課件
- 酒店前廳服務(wù)流程標準化管理
- 互聯(lián)網(wǎng)行業(yè)產(chǎn)品經(jīng)理專業(yè)顧問聘用協(xié)議
- 農(nóng)業(yè)科技發(fā)展與農(nóng)作物種植管理試題
- 2025年 東北石油大學招聘考試筆試試題附答案
- 警察抓捕教學課件
- 2025-2030年酒精產(chǎn)業(yè)行業(yè)市場現(xiàn)狀供需分析及投資評估規(guī)劃分析研究報告
- 2025-2030年中國手持三維激光掃描儀行業(yè)市場深度分析及發(fā)展趨勢與投資前景研究報告
- 2025-2030年中國單壁碳納米管(SWNT)行業(yè)市場現(xiàn)狀供需分析及投資評估規(guī)劃分析研究報告
評論
0/150
提交評論