




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
關(guān)于聚類分析在中的實現(xiàn)概述定義聚類分析是根據(jù)“物以類聚”的道理,對樣品或指標進行分類的一種多元統(tǒng)計分析方法,它們討論的對象是大量的樣品,要求能合理地按各自的特性來進行合理的分類,沒有任何模式可供參考或依循,即是在沒有先驗知識的情況下進行的。第2頁,共31頁,2024年2月25日,星期天基本思想
樣本(或變量)間存在著相似性,根據(jù)多個觀測指標,找出能度量樣本之間相似程度的統(tǒng)計量,以其為依據(jù),把相似程度較大的樣本聚合為一類,關(guān)系密切的聚合到一個小的分類單位,關(guān)系疏遠的聚合到一個大的分類單位,直到把所有的樣本都聚合完畢,把不同的類型一一劃分出來,形成一個由小到大的分類系統(tǒng)。聚類原則是同一類中的個體有較大的相似性,不同類中的個體差異很大。第3頁,共31頁,2024年2月25日,星期天基本程序是根據(jù)一批樣品的多個觀測指標,具體地找出一些能夠度量樣品或指標之間相似程度的統(tǒng)計量,然后利用統(tǒng)計量將樣品或指標進行歸類。具體進行聚類時,由于目的、要求不同,因而產(chǎn)生各種不同的聚類方法:由小類合并到大類的方法由大類分解為小類的方法靜態(tài)聚類法、動態(tài)聚類法按樣本聚類(Q)、按指標聚類(R)第4頁,共31頁,2024年2月25日,星期天舉例
對上市公司的經(jīng)營業(yè)績進行分類;據(jù)經(jīng)濟信息和市場行情,客觀地對不同商品、不同用戶及時地進行分類。又例如當我們對企業(yè)的經(jīng)濟效益進行評價時,建立了一個由多個指標組成的指標體系,由于信息的重疊,一些指標之間存在很強的相關(guān)性,所以需要將相似的指標聚為一類,從而達到簡化指標體系的目的。
第5頁,共31頁,2024年2月25日,星期天按照聚類分析分組依據(jù)的原則不同分組按照聚類分析的對象不同分組
聚類分析主要方法系統(tǒng)聚類分析法動態(tài)聚類分析法模糊聚類法圖論聚類法聚類預(yù)報法Q型聚類分析法R型聚類分析法第6頁,共31頁,2024年2月25日,星期天系統(tǒng)聚類分析法
在樣品距離的基礎(chǔ)上定義類與類的距離,首先將各個樣品自成一類,然后每次將具有最小距離的兩個類合并,合并后再重新計算類與類之間的距離,再并類,這個過程一直持續(xù)到所有的樣品都歸為一類為止。這種聚類方法稱為系統(tǒng)聚類法。根據(jù)并類過程所做的樣品聚類過程圖稱為聚類譜系圖。第7頁,共31頁,2024年2月25日,星期天動態(tài)聚類分析法
將個樣品初步分類,然后根據(jù)分類函數(shù)盡可能小的原則,對初步分類進行調(diào)整優(yōu)化,直到分類合理為止。這種分類方法一般稱為動態(tài)聚類法,也稱為調(diào)優(yōu)法。模糊聚類分析法
利用模糊數(shù)學(xué)中模糊集理論來處理分類問題,它對經(jīng)濟領(lǐng)域中具有模糊特征的兩態(tài)數(shù)據(jù)或多態(tài)數(shù)據(jù)具有明顯的分類效果。第8頁,共31頁,2024年2月25日,星期天圖論聚類法
利用圖論中最小支撐樹(MST)的概念來處理分類問題,是一種獨具風格的方法。聚類預(yù)報法
利用聚類方法處理預(yù)報問題,主要是處理一些異常數(shù)據(jù),如氣象中的災(zāi)害性天氣的預(yù)報,這些異常數(shù)據(jù)采用回歸分析或判別分析處理的效果不好,而聚類預(yù)報可以彌補回歸分析及判別分析方法之不足,是一個很值得重視的方法。第9頁,共31頁,2024年2月25日,星期天Q型聚類分析法
對樣本進行分類,是具有共同特點的樣本聚在一起,以便對不同類的樣本進行分析。作用①綜合利用多個變量對樣品進行分類;②分類結(jié)果直觀,聚類譜系圖清晰;③聚類結(jié)果細致、全面、合理。第10頁,共31頁,2024年2月25日,星期天R型聚類分析法
對變量進行的分類處理。作用
①了解變量之間,以及變量組合之間的親疏程度;②根據(jù)變量分類的結(jié)果,可以選擇最佳的變量組合進行回歸分析或者Q型聚類分析。選擇最佳變量,即在聚合的每類變量中選出一個具有代表性的變量作為典型變量。第11頁,共31頁,2024年2月25日,星期天Q型聚類的統(tǒng)計量
對樣品進行分類時,通常采用距離來表示樣品之間的親疏程度。常用的距離有:(1)明氏距離(明科夫斯基Minkowski)(2)蘭氏距離(Lance和Williams)(3)馬氏距離(Mahalanobis)(4)斜交空間距離聚類分析的統(tǒng)計量第12頁,共31頁,2024年2月25日,星期天R型聚類的統(tǒng)計量
對變量進行聚分類析時,通常采用相似系數(shù)來表示變量之間的親疏程度。常用的相似系數(shù)有:(1)夾角余弦(2)相關(guān)系數(shù)(3)指數(shù)相似系數(shù)(4)非參數(shù)方法第13頁,共31頁,2024年2月25日,星期天SAS解決方案CLUSTER過程FASTCLUS過程ACECLUS過程VARCLUS過程TREE語句格式第14頁,共31頁,2024年2月25日,星期天CLUSTER語句格式數(shù)據(jù)若為原始數(shù)值形式,CLUSTER過程以歐式距離為默認的距離計算方法。PROCCLUSTERMETHOD=name<options>;BYvariables;COPYvariable;IDvariable;RMSSTDvariable;VARvariables;RUN;例題1第15頁,共31頁,2024年2月25日,星期天在CLUSTER語句的“METHOD=”關(guān)鍵字下,可以指定11種系統(tǒng)聚類方法。AVERAGE:類平均法
CENTROID:重心法
COMPLETE:最長距離法
DENSITY:密度估計法
EML:最大似然譜系聚類
FLEXIBLE:可變類平均法
MCQUITTY:可變法及McQuitty相似分析法
MEDIAN:中間距離法
SINGLE:最短距離法
TWOSTAGE:兩階段密度估計法
WARD:離差平方和法
第16頁,共31頁,2024年2月25日,星期天FASTCLUS語句格式研研究事先知道類別的個數(shù),但不知道這些類別當中的具體樣本,這時采用快速聚類方法。默認情況下,fastclus過程以歐式距離作為分類的判斷標準。PROCFASTCLUSMAXCLUSTERS=n|RADIUS=t<options>;VARvariables;IDvariable;FREQvariable;WEIGHTvariable;BYvariables;RUN;例題2第17頁,共31頁,2024年2月25日,星期天例題1數(shù)據(jù)集drink收集了16種飲料的熱量、咖啡因、鈉及價格四種變量的值?,F(xiàn)在希望利用這四個變量對這些飲料品牌進行聚類。第18頁,共31頁,2024年2月25日,星期天例題1【SAS程序】proc
clusterdata=sasuser.drinkmethod=ward;varcaloriecaffeinesodiumprice;proctree;run;第19頁,共31頁,2024年2月25日,星期天樹形圖第20頁,共31頁,2024年2月25日,星期天第21頁,共31頁,2024年2月25日,星期天例題2假如我們要對游泳運動員進行分項訓(xùn)練,對10名運動員的三項測試數(shù)據(jù)記錄如下。其中變量xl=肩寬/髖寬×100;x2=胸厚/胸圍×100;x3=腿長/身長×100。按泳姿(蝶泳、仰泳、蛙泳、自由泳)對運動員進行聚類。【SAS程序】proc
fastclusdata=sasuser.athletemaxc=4listOuttree=tree;varx1-x3;proc
printdata=tree;run;第22頁,共31頁,2024年2月25日,星期天第23頁,共31頁,2024年2月25日,星期天ACECLUS語句格式ACECLUS過程假設(shè)各類別為多元正態(tài)分布且協(xié)方差陣相等,多用于對大型數(shù)據(jù)聚類分析的預(yù)分析。ACECLUS過程的語句格式:PROCACECLUSPROPOTION=p|THRESHOLD=t<options>;BYvariables;FREQvariable;VARvariables;WEIGHTvariable;RUN;第24頁,共31頁,2024年2月25日,星期天VARCLUS語句格式對變量作譜系聚類或分離聚類,即R聚類。PROCVARCLUS<options>;VARvariables;SEEDvariables;PARTIALvariables;WEIGHTvariables;FREQvariables;BYvariables;RUN;第25頁,共31頁,2024年2月25日,星期天TREE語句格式TREE過程將cluster過程和varclus過程輸出的特定數(shù)據(jù)集作為輸入數(shù)據(jù)集,繪制出詳細的用于描述整個聚類過程的樹狀圖。PROCTREE<options>;NAMEvariables;HEIGHTvariables;PARENTvariables;BYvariables;COPYvariables;FREQvariable;IDvariable;RUN第26頁,共31頁,2024年2月25日,星期天例:100個學(xué)生的數(shù)學(xué)、物理、化學(xué)、語文、歷史、英語的成績?nèi)缦卤恚ú糠郑?。?7頁,共31頁,2024年2月25日,星期天【SAS程序】Proc
VarclusDATA=sasuser.kejianOuttree=tree
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T-ZZB 3624-2024 1000kV交流架空輸電線路金具
- T-ZHCA 031-2024 淋洗類化妝品溫和性評價 重建表皮模型組織活力法
- 二零二五年度房屋代管及租戶租賃合同終止通知協(xié)議
- 二零二五年度公共設(shè)施配套拆遷房產(chǎn)分割及公益基金合同
- 2025年度門面轉(zhuǎn)讓及獨家代理權(quán)合同
- 二零二五年度合資公司股權(quán)合作協(xié)議書
- 2025年度網(wǎng)絡(luò)安全責任方合作協(xié)議范本(適用于互聯(lián)網(wǎng)企業(yè))
- 二零二五年度車輛抵押抵貨款金融創(chuàng)新服務(wù)協(xié)議
- 二零二五年度銷售團隊市場分析聘用協(xié)議
- 二零二五年度農(nóng)村房屋租賃與農(nóng)村社區(qū)文化活動合作協(xié)議
- 高中 語文 必修上冊 第八單元《詞語積累與詞語解釋》課件
- 客觀題法律職業(yè)資格考試(試卷一)試題及解答參考(2024年)
- 【網(wǎng)紅李佳琦直播帶貨營銷策略問題及對策13000字(論文)】
- 2024年人教版九年級英語單詞默寫單(微調(diào)版)
- 2024至2030年中國海洋化工產(chǎn)業(yè)發(fā)展動態(tài)及投資前景分析報告
- 事業(yè)單位工作人員獎勵審批表
- 《婦幼保健學(xué)》課件-第二章 兒童生長發(fā)育
- 22G101三維彩色立體圖集
- 山東省技能大賽青島選拔賽-世賽選拔項目52樣題(平面設(shè)計技術(shù))
- 順豐快遞員工入職合同范本
- 山東省德州市禹城市2023-2024學(xué)年度下學(xué)期期末考試八年級物理試題(無答案)
評論
0/150
提交評論