




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
多元統(tǒng)計應用第講聚類分析第一頁,共四十四頁,2022年,8月28日第一節(jié)聚類分析方法第二節(jié)聚類統(tǒng)計量第三節(jié)無量綱化方法第四節(jié)Q型系統(tǒng)聚類法第五節(jié)R型系統(tǒng)聚類法第六節(jié)快速聚類法推薦閱讀第二頁,共四十四頁,2022年,8月28日第一節(jié)聚類分析方法聚類分析是根據(jù)“物以類聚”的道理,對樣品或指標進行分類的一種多元統(tǒng)計分析方法,它們討論的對象是大量的樣品,要求能合理地按各自的特性來進行合理的分類,沒有任何模式可供參考或依循,即是在沒有先驗知識的情況下進行的。基本思想是根據(jù)事物本身的特性研究個體分類的方法;聚類原則是同一類中的個體有較大的相似性,不同類中的個體差異很大。第三頁,共四十四頁,2022年,8月28日基本程序:是根據(jù)一批樣品的多個觀測指標,具體地找出一些能夠度量樣品或指標之間相似程度的統(tǒng)計量,然后利用統(tǒng)計量將樣品或指標進行歸類。具體進行聚類時,由于目的、要求不同,因而產(chǎn)生各種不同的聚類方法:由小類合并到大類的方法由大類分解為小類的方法靜態(tài)聚類法、動態(tài)聚類法按樣本聚類(Q)、按指標聚類(R)第四頁,共四十四頁,2022年,8月28日在社會經(jīng)濟領域中存在著大量分類問題,如:對我國31個省市自治區(qū)獨立核算工業(yè)企業(yè)經(jīng)濟效益進行分析,一般不是逐省市自治區(qū)去分析,而較好地做法是選取能反映企業(yè)經(jīng)濟效益的代表性指標,如百元固定資產(chǎn)實現(xiàn)利稅、資金利稅、產(chǎn)值利稅率等,根據(jù)這些指標對全國各省市自治區(qū)進行分類,然后根據(jù)分類結果對企業(yè)經(jīng)濟效益進行綜合評價,就易于得出科學的分析。
第五頁,共四十四頁,2022年,8月28日第二節(jié)聚類統(tǒng)計量一、概述二、Q型聚類統(tǒng)計量三、R型聚類統(tǒng)計量第六頁,共四十四頁,2022年,8月28日概述設有n個樣本單位,每個樣本測得p項指標(變量),原始資料陣為:Q型聚類以距離作為統(tǒng)計量,R型聚類以相似系數(shù)作為統(tǒng)計量。第七頁,共四十四頁,2022年,8月28日Q型聚類統(tǒng)計量(距離)把n個樣本點看成p維空間的n個點1、絕對距離(Block距離)2、歐氏距離(Euclideandistance)第八頁,共四十四頁,2022年,8月28日3、明考斯基距離(Minkowski)4、蘭氏距離5、馬氏距離6、切比雪夫距離(Chebychev)第九頁,共四十四頁,2022年,8月28日R型聚類統(tǒng)計量對兩個指標之間的相似程度用相似系數(shù)來刻劃,相似系數(shù)的絕對值越接近于1,表示指標間的關系越密切,絕對值越接近于0,表示指標間的關系越疏遠。第十頁,共四十四頁,2022年,8月28日1、夾角余弦2、相關系數(shù)3、同號率第十一頁,共四十四頁,2022年,8月28日第三節(jié)無量綱化方法所謂無量綱化處理,是將原始數(shù)據(jù)矩陣中每個元素按照某種特定的運算把它變成一個新值,且是數(shù)值的變化不依賴于原始數(shù)據(jù)中其它數(shù)據(jù)的新值。第十二頁,共四十四頁,2022年,8月28日1、極差正規(guī)化(規(guī)格化變換、閾值法)2、標準化變換3、功效系數(shù)法4、相對化變換第十三頁,共四十四頁,2022年,8月28日例:某年我國部分省市經(jīng)濟效益情況用以上幾種方法對其無量綱化。指標實際值北京天津上海江蘇廣東產(chǎn)品銷售率(%)資金利稅率(%)成本利潤率(%)勞動生產(chǎn)率(元/人)流動資金周轉次數(shù)(次)凈資產(chǎn)率(%)96.0114.909.51148301.6828.4095.729.213.35100041.7926.4898.4213.887.55155451.8025.5693.4310.753.9997082.2122.3095.1610.255.03145901.8725.01第十四頁,共四十四頁,2022年,8月28日第四節(jié)Q型系統(tǒng)聚類法系統(tǒng)聚類法(層次聚類法):在聚類分析的開始,每個樣本自成一類;然后,按照某種方法度量所有樣本之間的親疏程度,并把最相似的樣本首先聚成一小類;接下來,度量剩余的樣本和小類間的親疏程度,并將當前最接近的樣本或小類再聚成一類;再接下來,再度量剩余的樣本和小類間的親疏程度,并將當前最接近的樣本或小類再聚成一類;如此反復,直到所有樣本聚成一類為止。第十五頁,共四十四頁,2022年,8月28日步驟:1、對數(shù)據(jù)進行變換處理,消除量綱2、構造n個類,每個類只包含一個樣本計算3、n個樣本兩兩間的距離{dij}4、合并距離最近的兩類為一新類5、計算新類與當前各類的距離,重復(4)6、畫聚類圖7、決定類的個數(shù)和類第十六頁,共四十四頁,2022年,8月28日類與類間距離的確定一、最短距離法二、最長距離法三、中間距離法四、重心距離法五、類平均法六、離差平方和第十七頁,共四十四頁,2022年,8月28日最短距離法(NearestNeighbor)以當前某個樣本與已經(jīng)形成的小類中的各樣本距離中的最小值作為當前樣本與該小類之間的距離。省份x1x2x3x4x5x6x7x8遼寧浙江河南甘肅青海7.907.689.429.1610.0639.7750.3727.9327.9828.648.4911.358.209.0110.5212.9413.308.149.3210.0519.2719.2516.1715.9916.1811.0514.599.429.108.392.042.751.551.821.9613.2914.879.7611.3510.81例1:為了研究遼寧省5省區(qū)某年城鎮(zhèn)居民生活消費的分布規(guī)律,根據(jù)調查資料做類型劃分(spssex/ex501)第十八頁,共四十四頁,2022年,8月28日G1={遼寧},G2={浙江},G3={河南},G4={甘肅},G5={青海}
=[(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94-13.3)2+ (19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)2]0.5=11.67d13=13.80d14=13.12d15=12.80d23=24.63d24=24.06d25=23.54 d34=2.2d35=3.51d45=2.21
12345D1=10211.670313.8024.630413.1224.062.200512.8023.543.512.210河南與甘肅的距離最近,先將二者(3和4)合為一類G6={G2,G4}第十九頁,共四十四頁,2022年,8月28日d61=d(3,4)1=min{d13,d14}=13.12d62=d(3,4)2=min{d23,d24}=24.06d65=d(3,4)5=min{d35,d45}=2.21
6125 60 D2=113.120 224.0611.670 52.2112.8023.540d71=d(3,4,5)1=min{d13,d14,d15}=12.80;d72=d(3,4,5)2=min{d23,d24,d25}=23.54
712 D3=70 112.800 223.5411.670河南、甘肅與青海并為一新類G7={G6,G5}={G3,G4,G6}G8={G1,G2}第二十頁,共四十四頁,2022年,8月28日d78=min{d71,d72}=12.80
78 D4=70 812.80河南3甘肅4青海5遼寧1浙江2第二十一頁,共四十四頁,2022年,8月28日最長距離法(furthestneighbor)以當前某個樣本與已經(jīng)形成的小類中的各樣本距離中的最大值作為當前樣本與該小類之間的距離。例2:對例1的數(shù)據(jù)以最長距離法聚類。第二十二頁,共四十四頁,2022年,8月28日d13=13.80d14=13.12d15=12.80d23=24.63d24=24.06d25=23.54d34=2.2d35=3.51d45=2.21
12345
D1=10 211.670 313.8024.630 413.1224.062.200 512.8023.543.512.210河南與甘肅的距離最近,先將二者(3和4)合為一類G6={G2,G4}第二十三頁,共四十四頁,2022年,8月28日d61=d(3,4)1=max{d13,d14}=13.80d62=d(3,4)2=max{d23,d24}=24.63d65=d(3,4)5=max{d35,d45}=3.51612560D2=113.800224.6311.67053.5112.8023.540河南、甘肅與青海并為一新類G7={G6,G5}={G3,G4,G6}第二十四頁,共四十四頁,2022年,8月28日
d71=d(3,4,5)1=max{d13,d14,d15}=13.80
d72=d(3,4,5)2=max{d23,d24,d25}=24.63
712
D3=70 113.800 224.6311.670
d78=max{d71,d72}=24.63 78
D4=70 824.630G8={G1,G2}第二十五頁,共四十四頁,2022年,8月28日中位數(shù)法(Medianclustering)用兩位類的中位數(shù)間的距離作為兩類的距離GtGlGm第二十六頁,共四十四頁,2022年,8月28日重心法用兩類的重心間的距離作為兩類的距離GrGt第二十七頁,共四十四頁,2022年,8月28日組間平均鏈鎖法
(Between-groupslinkage)定義兩個小類之間的距離為所有樣本對間的平均距離。利用了所有樣本對距離的信息。第二十八頁,共四十四頁,2022年,8月28日組內平均鏈鎖法
(Within-groupslinkage)對所有樣本對的距離求平均值,包括小類之間的樣本對、小類內的樣本對第二十九頁,共四十四頁,2022年,8月28日離差平方和法
(Ward’smethodword)使小類內各樣本的歐氏距離總平方和增加最小的兩小類合并為一類。將q固定時,要選擇使S達到極小的分類,一切可能的分法有:第三十頁,共四十四頁,2022年,8月28日Ward
尋找到一個局部最優(yōu)解的方法。先將n個樣本各成一類,然后每次縮小一類,每縮小一類離差平方和就要增大,選擇使離差平方和S增加最小的兩類合并,直至所有樣本歸為一類為止。第三十一頁,共四十四頁,2022年,8月28日例3:為了研究某年全國各地區(qū)農(nóng)民家庭收支的分布規(guī)律,根據(jù)抽樣調查資料進行分類處理,共抽取28個省、市、自治區(qū)的樣本,每個樣本有六個指標,分別為食品、衣著、燃料、住房、生活用品及其它、文化生活服務支出。原始資料見spssex/ex512第三十二頁,共四十四頁,2022年,8月28日第五節(jié)R型系統(tǒng)聚類法一、最小系數(shù)法二、最大系數(shù)法三、中間系數(shù)法第三十三頁,共四十四頁,2022年,8月28日對變量聚類,是一種降維的方法,用于在變量眾多時尋找有代表性的變量,以便當用少量、有代表性的變量代替大變量時損失信息很少。第三十四頁,共四十四頁,2022年,8月28日第六節(jié)快速聚類如果選擇了N個數(shù)值型變量參與聚類分析,最后要求聚類數(shù)K,那么可以由系統(tǒng)首先選擇K個觀測量作為聚類的種子,也稱初始類中心、凝聚點,按照距這幾個類中心的距離最小原則把觀測量分到各類中心所在的類中去,形成第一次迭代形成的K類。根據(jù)組成每一類的觀測量計算各變量均值,每一類中的n個均值在N維空間中又形成K個點,這就是第二次迭代的類中心,按照這種方法依次迭代下去直到分類比較合理為止。第三十五頁,共四十四頁,2022年,8月28日凝聚點的選擇1、經(jīng)驗選擇2、對樣本人為或隨機分類,以每類的重心作為凝聚點3、最小最大距離法。如果欲將n個樣本點分為q類,先選取距離最大的兩點xi1,xi2為前兩個凝聚點,然后選取第3個凝聚點xi3,由于其余所有點與前兩個凝聚點都有最短距離,在全部最短距離中選擇最長距離,這個距離的兩端一個是xi1或xi2,而另一個就是我們要選擇的xi3.4、密度法第三十六頁,共四十四頁,2022年,8月28日例4:有15個樣品,每個樣品有兩個經(jīng)相對化處理后的指標y1,y2,試用密度法先取凝聚點。(距離以歐氏距離計算,球半徑為0.3)數(shù)據(jù)見spssex/ex513在SPSS中計算出距離矩陣,歸納出各樣本的密度為:凝聚點為樣本6,12,1,13樣本123456789101112131415密度013335434123022第三十七頁,共四十四頁,2022年,8月28日初始分類1、人為地分類2、選擇凝聚點后,將與其最近的凝聚點歸并3、選擇凝聚點后,每個凝聚點自成一類,將樣本依次歸入其距離最近的凝聚點那一類,并立即計算該類的重心,以代替原來的凝聚點,再計算下一個樣本的歸類。4、先對樣本數(shù)據(jù)標準化,然后計算統(tǒng)計量這個數(shù)接近幾,就歸入第幾類第三十八頁,共四十四頁,2022年,8月28日快速聚類步驟1、選擇分析變量2、指定聚類數(shù)目3、選擇k個樣本作為凝聚點4、按照距初始類中心最小的原則將各觀察量分到聚類中心所在的類中去,形成第一步迭代的k類5、計算每類中所有變量的均值,作為第二次迭代的中心6、重復3、4步,直至指
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 冰箱配件購買合同范例
- 代簽房屋轉租合同范本
- 公司門衛(wèi)合同范例
- 加油站經(jīng)理合同范例
- 儲水桶合同范本
- 鄭州防汛施工方案公司
- 路沿石的施工方案
- 關于個人聘用合同范例
- 會務外包合同范本
- 鍋爐鋼板施工方案
- 三八婦女節(jié)活動策劃PPT模板
- 春運旅客心理狀況的調查分析與對策研究
- a04-hci深信服超融合配置指南_v1
- 醫(yī)藥代表培訓教程(完整版)
- 雙重預防體系建設分析記錄表格
- 電子技術基礎(數(shù)字部分_第五版_康華光)華中科大課件第四章第4節(jié)
- 電力系統(tǒng)遠動原理
- 煉鋼工藝操作說明
- 模擬電子技術基礎課后答案(完整版)
- 小學生讀書筆記模板(共10頁)
- 扁平化生活常用PPT圖標素材
評論
0/150
提交評論