多元統(tǒng)計(jì)分析課件聚類分析_第1頁
多元統(tǒng)計(jì)分析課件聚類分析_第2頁
多元統(tǒng)計(jì)分析課件聚類分析_第3頁
多元統(tǒng)計(jì)分析課件聚類分析_第4頁
多元統(tǒng)計(jì)分析課件聚類分析_第5頁
已閱讀5頁,還剩102頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

多元統(tǒng)計(jì)分析課件聚類分析第一頁,共一百零七頁,2022年,8月28日第一節(jié)什么是聚類分析第二頁,共一百零七頁,2022年,8月28日

聚類分析也是一種分類技術(shù)。是研究“物以類聚”的一種方法。與多元分析的其他方法相比,該方法理論上還不完善,但由于它能解決許多實(shí)際問題,很受人們的重視,應(yīng)用方面取得了很大成功。第三頁,共一百零七頁,2022年,8月28日舉例

對10位應(yīng)聘者做智能檢驗(yàn)。3項(xiàng)指標(biāo)X,Y和Z分別表示數(shù)學(xué)推理能力,空間想象能力和語言理解能力。其得分如下,選擇合適的統(tǒng)計(jì)方法對應(yīng)聘者進(jìn)行分類。第四頁,共一百零七頁,2022年,8月28日應(yīng)聘者得分如下應(yīng)聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424第五頁,共一百零七頁,2022年,8月28日第六頁,共一百零七頁,2022年,8月28日例如,對上市公司的經(jīng)營業(yè)績進(jìn)行分類;例如,根據(jù)經(jīng)濟(jì)信息和市場行情,客觀地對不同商品、不同用戶及時地進(jìn)行分類。例如,當(dāng)我們對企業(yè)的經(jīng)濟(jì)效益進(jìn)行評價(jià)時,建立了一個由多個指標(biāo)組成的指標(biāo)體系,由于信息的重疊,一些指標(biāo)之間存在很強(qiáng)的相關(guān)性,所以需要將相似的指標(biāo)聚為一類,從而達(dá)到簡化指標(biāo)體系的目的。第七頁,共一百零七頁,2022年,8月28日聚類分析內(nèi)容

系統(tǒng)聚類動態(tài)聚類模糊聚類圖論聚類第八頁,共一百零七頁,2022年,8月28日第二節(jié)距離和相似系數(shù)第九頁,共一百零七頁,2022年,8月28日描述親疏程度有兩個途徑:

1、把每個樣品看成p維(變量的個數(shù)為p個)空間的一個點(diǎn),在p維坐標(biāo)中,定義點(diǎn)與點(diǎn)之間的距離。

2、用某種相似系數(shù)來描述樣品之間的親疏程度。第十頁,共一百零七頁,2022年,8月28日變量的類型變量按測量尺度的不同可以分為以下三類:

1、間隔尺度變量(數(shù)值型變量)用連續(xù)的數(shù)量來度量,如長度、重量、產(chǎn)值、成本

2、有序尺度變量(有序變量)如一、二、三等品不能用明確的數(shù)量度量,用等級表示,有次序關(guān)系。

3、名義尺度變量用一些類來表示。性別中的男與女,職業(yè)的分類。第十一頁,共一百零七頁,2022年,8月28日聚類的種類根據(jù)分類的對象可將聚類分析分為:(1)Q型(即樣品的聚類clusteringforindividuals)(2)R型(即變量或指標(biāo)的聚類clusteringforvariables)第十二頁,共一百零七頁,2022年,8月28日1、對樣品分類(Q型)

常用的距離與相似系數(shù)的定義第十三頁,共一百零七頁,2022年,8月28日樣本資料矩陣樣本資料矩陣第十四頁,共一百零七頁,2022年,8月28日(1)距離假使每個樣品有p個變量,則每個樣品都可以看成p維空間中的一個點(diǎn),n個樣品就是p維空間中的n個點(diǎn),則第i樣品與第j樣品之間的距離記為dij第十五頁,共一百零七頁,2022年,8月28日定義距離的準(zhǔn)則

定義第i個和第j個樣品間的距離要求滿足如下四個條件(距離可以自己定義,只要滿足距離的條件):第十六頁,共一百零七頁,2022年,8月28日距離矩陣樣品間距離矩陣第十七頁,共一百零七頁,2022年,8月28日明氏(Minkowski

)距離第十八頁,共一百零七頁,2022年,8月28日絕對值距離第十九頁,共一百零七頁,2022年,8月28日絕對值距離實(shí)例第二十頁,共一百零七頁,2022年,8月28日歐式(Euclidian

)距離第二十一頁,共一百零七頁,2022年,8月28日二維空間歐式距離第二十二頁,共一百零七頁,2022年,8月28日歐氏Euclidian距離實(shí)例第二十三頁,共一百零七頁,2022年,8月28日切比雪夫距離第二十四頁,共一百零七頁,2022年,8月28日變量標(biāo)準(zhǔn)化第二十五頁,共一百零七頁,2022年,8月28日標(biāo)準(zhǔn)化歐式距離第二十六頁,共一百零七頁,2022年,8月28日馬氏Mahalanobis

距離第二十七頁,共一百零七頁,2022年,8月28日Mahalanobis

距離實(shí)例第二十八頁,共一百零七頁,2022年,8月28日蘭氏Canberra距離第二十九頁,共一百零七頁,2022年,8月28日距離矩陣樣品間距離矩陣第三十頁,共一百零七頁,2022年,8月28日例題學(xué)生的身高與體重資料樣品123456789身高X1160159160157169162165154160體重X2494653414950484345第三十一頁,共一百零七頁,2022年,8月28日(2)相似系數(shù)

研究樣品間的關(guān)系常用距離,研究指標(biāo)(變量)間的關(guān)系常用相似系數(shù)。相似系數(shù)常用的有:夾角余弦與相關(guān)系數(shù)第三十二頁,共一百零七頁,2022年,8月28日2、對指標(biāo)(變量)分類(R型)第三十三頁,共一百零七頁,2022年,8月28日相似系數(shù)的定義第三十四頁,共一百零七頁,2022年,8月28日

夾角余弦(Cosine)第三十五頁,共一百零七頁,2022年,8月28日相似矩陣變量間相似矩陣第三十六頁,共一百零七頁,2022年,8月28日

相關(guān)系數(shù)第三十七頁,共一百零七頁,2022年,8月28日相似矩陣第三十八頁,共一百零七頁,2022年,8月28日第三節(jié)八種系統(tǒng)聚類方法

(hierarchicalclusteringmethod)第三十九頁,共一百零七頁,2022年,8月28日將n個樣品各作為一類

系統(tǒng)聚類法是諸聚類分析方法中使用最多的一種,按下列步驟進(jìn)行:

計(jì)算n個樣品兩兩之間的距離,構(gòu)成距離矩陣

合并距離最近的兩類為一新類

計(jì)算新類與當(dāng)前各類的距離。再合并、計(jì)算,直至只有一類為止

畫聚類圖,解釋

第四十頁,共一百零七頁,2022年,8月28日

類與類之間的距離

1.最短距離法(singlelinkage)2.最長距離法(completelinkage)3.中間距離法(medianmethod)4.重心法(centroidmethod)5.類平均法(averagelinkage)6.可變類平均法(flexible-betamethod)7.可變法8.離差平方和法(Ward'sminimum-variancemethod)第四十一頁,共一百零七頁,2022年,8月28日(一)最短距離法

(singlelinkage,nearestneighbor)

類類間:兩類間兩兩樣品距離最短

x21?x12?x22?x11?第四十二頁,共一百零七頁,2022年,8月28日遞推公式第四十三頁,共一百零七頁,2022年,8月28日例1

設(shè)抽取五個樣品,每個樣品只側(cè)一個指標(biāo),他們是1,2,3.5,7,9,試用最短距離法對五個樣品進(jìn)行分類。(樣品間用絕對值距離)第四十四頁,共一百零七頁,2022年,8月28日D(0)表1

D(0)G1={X1}G2={X2}G3={X3}G4={X4}G5={X5}G1={X1}0G2={X2}10G3={X3}2.51.50G4={X4}653.50G5={X5}875.520第四十五頁,共一百零七頁,2022年,8月28日D(1)

表2D(1)G6

G3

G4

G5G6={G1,G2}0G3={X3}1.50G4={X4}53.50G5={X5}75.520第四十六頁,共一百零七頁,2022年,8月28日D(2)

表3D(2)G7

G4

G5G7={G3,G6}0G4={X4}3.50G5={X5}5.520第四十七頁,共一百零七頁,2022年,8月28日D(3)

表4D(3)G7

G8G70G8={G4,G5}3.50第四十八頁,共一百零七頁,2022年,8月28日聚類譜系圖第四十九頁,共一百零七頁,2022年,8月28日最短距離法聚類的步驟1、定義樣品之間的距離,計(jì)算初始距離矩陣D(0)2、找出D(0)中非對角線上的最小值,設(shè)為Dpq,將對應(yīng)的兩類Gp和Gq合并成一個新類,記為Gr,即Gr=(Gp,Gq)3、計(jì)算新類與其它類之間的距離,得距離矩陣D(1)。4、用D(1)代替D(0),重復(fù)2、3的過程得D(2),如此下去直到所有樣品合并成一類為止。第五十頁,共一百零七頁,2022年,8月28日(二)最長距離法(Furthest

Neighbor

)類類間:兩類間兩兩樣品距離最長的???x11?x21???????x11?x21????第五十一頁,共一百零七頁,2022年,8月28日遞推公式第五十二頁,共一百零七頁,2022年,8月28日D(0)

表1D(0)G1

G2

G3

G4

G5G1={X1}0G2={X2}10G3={X3}2.51.50G4={X4}653.50G5={X5}875.520第五十三頁,共一百零七頁,2022年,8月28日D(1)

表2D(1)G6

G3

G4

G5

G6={G1,G2}0G3={X3}2.50G4={X4}63.50G5={X5}85.520第五十四頁,共一百零七頁,2022年,8月28日D(2)

表3D(2)G6

G7

G3G60G7={G4,G5}80G3={X3}2.55.50第五十五頁,共一百零七頁,2022年,8月28日D(3)

表4D(3)G7

G8

G70G8={G3,G6}80第五十六頁,共一百零七頁,2022年,8月28日第五十七頁,共一百零七頁,2022年,8月28日(三)中間距離法Medianmethod最短距離最長距離中間距離第五十八頁,共一百零七頁,2022年,8月28日如果在某一步將類Gp與Gq類合并為Gr,任一類Gk和新Gr的距離公式為:

當(dāng)時,由初等幾何知就是上面三角形的中線。第五十九頁,共一百零七頁,2022年,8月28日D2(0)G1

G2

G3

G4

G5G1={X1}0G2={X2}10G3={X3}6.252.250G4={X4}362512.250G5={X5}644930.2540第六十頁,共一百零七頁,2022年,8月28日D2(1)

G6

G3

G4

G5G6={X1,X2}0G3={X3}40G4={X4}30.2512.250G5={X5}56.2530.2540第六十一頁,共一百零七頁,2022年,8月28日D2(2)

G7

G4

G5G70G420.250G542.2540第六十二頁,共一百零七頁,2022年,8月28日D2(3)

G7

G8

G7={X1,X2,X3}0G8={X4,X5}30.250第六十三頁,共一百零七頁,2022年,8月28日(四)重心法(Centroidclustering):??類類間:兩類重心之間的距離即均值點(diǎn)間的距離第六十四頁,共一百零七頁,2022年,8月28日

遞推公式注意:初始距離用歐式距離則有下列第六十五頁,共一百零七頁,2022年,8月28日D2(0)G1

G2

G3

G4

G5G1={X1}0G2={X2}10G3={X3}6.252.250G4={X4}362512.250G5={X5}644930.2540第六十六頁,共一百零七頁,2022年,8月28日D2(1)

G6

G3

G4

G5G6={X1,X2}0G3={X3}40G4={X4}30.2512.250G5={X5}56.2530.2540第六十七頁,共一百零七頁,2022年,8月28日D

2(2)

G7

G4

G5G7={X1,X2X3}0G4={X4}23.360G5={X3}46.6940第六十八頁,共一百零七頁,2022年,8月28日D2(3)

G7

G8

G7={X1,X2,X3}0G8={X4,X5}34.030第六十九頁,共一百零七頁,2022年,8月28日(五)類平均法

(Between-groupLinkage)??????類類間:兩類之間的距離為兩類樣品兩兩之間的平均距離第七十頁,共一百零七頁,2022年,8月28日遞推公式第七十一頁,共一百零七頁,2022年,8月28日D2(0)G1

G2

G3

G4

G5G1={X1}0G2={X2}10G3={X3}6.252.250G4={X4}362512.250G5={X5}644930.2540第七十二頁,共一百零七頁,2022年,8月28日D2(1)

G6

G3

G4

G5G6={X1,X2}0G3={X3}4.250G4={X4}30.2512.250G5={X5}56.2530.2540第七十三頁,共一百零七頁,2022年,8月28日D

2(2)

G6

G7

G3G6={X1,X2}0G7={X4X5}43.50G3={X3}4.2521.250第七十四頁,共一百零七頁,2022年,8月28日D2(3)

G7

G8

G7={X4,X5}0G8={X1,X2,X3}36.080第七十五頁,共一百零七頁,2022年,8月28日(六)可變類平均法

類平均法的遞推公式中,沒有反映Gp類和Gq類的距離有多大,進(jìn)一步將其改進(jìn),加入D2Pq,并給定系數(shù)<1,則類平均法的遞推公式改為:一般取第七十六頁,共一百零七頁,2022年,8月28日(七)可變法如果讓中間距離法的遞推公式前兩項(xiàng)的系數(shù)也依賴于,則遞推公式為:第七十七頁,共一百零七頁,2022年,8月28日(八)離差平方和法(ward法)

可以證明離差平方和的聚類公式為第七十八頁,共一百零七頁,2022年,8月28日D2(0)G1

G2

G3

G4

G5G1={X1}0G2={X2}0.50G3={X3}3.1251.1250G4={X4}1812.56.1250G5={X5}3224.515.12520第七十九頁,共一百零七頁,2022年,8月28日D2(1)

G6

G3

G4

G5G6={X1,X2}0G3={X3}2.6670G4={X4}20.1676.1250G5={X5}37.515.12520第八十頁,共一百零七頁,2022年,8月28日D

2(2)

G6

G7

G3G6={X1,X2}0G7={X4X5}42.250G3={X3}2.66713.50第八十一頁,共一百零七頁,2022年,8月28日D2(3)

G7

G8

G7={X4,X5}0G8={X1,X2,X3}40.8330第八十二頁,共一百零七頁,2022年,8月28日第八十三頁,共一百零七頁,2022年,8月28日離差平方和法(ward法)第八十四頁,共一百零七頁,2022年,8月28日方法最短距離法最長距離法中間距離法重心法類平均法可變類平均法可變法離差平方和法???np/nrnp/nr(1-β)np/nr(1-β)/2ni+np/ni+nr???nq/nrnq/nr(1-β)nq/nr(1-β)/2ni+nq/ni+nr00-1/4≧β≧0-αpαq0<1<1-ni/ni+nr-??000000第八十五頁,共一百零七頁,2022年,8月28日例1:為了更深入了解我國人口的文化程度狀況,現(xiàn)利用1990年全國人口普查數(shù)據(jù)對全國30個省、直轄市、自治區(qū)進(jìn)行聚類分析。分析選用了三個指標(biāo):(1)大學(xué)以上文化程度人口占全部人口的比例(DXBZ);(2)初中文化程度的人口占全部人口的比(CZBZ);(3)文盲半文盲人口占全部人口的比例(WMBZ)、用來反映較高、中等、較低文化程度人口的狀況,原始數(shù)據(jù)如下表:第八十六頁,共一百零七頁,2022年,8月28日1990年全國人口普查文化程度人口比例(%)地區(qū)序號DXBZCZBZWMBZ北京天津河北山西內(nèi)蒙遼寧吉林黑龍江上海江蘇浙江安徽福建江西山東河南湖北湖南廣東廣西海南四川貴州云南西藏陜西甘肅青海寧夏新疆1234567891011121314151617181920212223242526272829309.304.67.961.381.482.602.152.146.531.471.17.881.23.99.98.851.571.141.34.791.24.96.78.81.571.671.101.491.611.8530.5529.3824.6929.2425.4732.3226.3128.4631.5926.4323.7419.9716.8718.8425.1826.5523.1622.5723.0419.1422.5321.6514.6513.853.8524.3616.8517.7620.2720.668.708.9215.2111.3015.398.8110.4910.8711.0417.2317.4624.4315.6316.2216.8716.1515.7912.1010.4510.6113.9716.2424.2725.4444.4319.6227.9327.7022.0612.75第八十七頁,共一百零七頁,2022年,8月28日第八十八頁,共一百零七頁,2022年,8月28日第一類:北京、天津、山西、遼寧、吉林、黑龍江、上海。其中大多是東部經(jīng)濟(jì)、文化較發(fā)達(dá)的地區(qū)。第二類:安徽、寧夏、青海、甘肅、云南、貴州其中大多數(shù)是西部經(jīng)濟(jì)、文化發(fā)展較慢的地區(qū)。第三類:西藏。經(jīng)濟(jì)、文化較落后的地區(qū)。第四類:其它省、直轄市、自治區(qū)。經(jīng)濟(jì)、文化在全國處于中等水平。根據(jù)聚類圖把30個樣品分為四類能更好地反映我國實(shí)際情況。第八十九頁,共一百零七頁,2022年,8月28日例2:根據(jù)美國等20個國家和地區(qū)的信息基礎(chǔ)設(shè)施的發(fā)展?fàn)顩r進(jìn)行分類。Call—每千人擁有的電話線數(shù);movel—每千人戶居民擁有的蜂窩移動電話數(shù);fee—高峰時期每三分鐘國際電話的成本;comp—每千人擁有的計(jì)算機(jī)數(shù);mips—每千人計(jì)算機(jī)功率(每秒百萬指令);net—每千人互聯(lián)網(wǎng)絡(luò)戶主數(shù)。第九十頁,共一百零七頁,2022年,8月28日表3-420個國家信息基礎(chǔ)設(shè)施指標(biāo)資料序號國家CallMovecallFeeComputerMipsNet1234567891011121314151617181920美國日本德國瑞典瑞士丹麥新加坡中國臺灣韓國巴西智利墨西哥俄羅斯波蘭匈牙利馬來西亞泰國印度法國英國631.60498.40557.60684.10644.00620.30498.40469.40434.5081.90138.6092.20174.90169.00262.20195.5078.6013.60559.10521.10161.90143.2070.60281.8093.50248.60147.5056.1073.0016.308.209.805.006.5049.4088.4027.80.3042.90122.500.363.572.181.401.982.562.503.683.363.021.402.615.123.682.664.194.956.281.270.98403.00176.00199.00286.00234.00296.00284.00119.0099.0019.0031.0031.0024.0040.0068.0053.0022.002.00201.00248.0026073.0010223.0011571.0016660.0013621.0017210.0013578.006911.005795.00876.001411.001751.001101.001796.003067.002734.001662.00101.0011702.0014461.0035.346.269.4829.3922.6821.8413.491.721.660.521.280.350.481.453.091.250.110.014.7611.91第九十一頁,共一百零七頁,2022年,8月28日第九十二頁,共一百零七頁,2022年,8月28日本例聚為2類:第一類:巴西、墨西哥、波蘭、匈牙利、智利、俄羅斯、泰國、印度、馬來西亞。這些國家為轉(zhuǎn)型國家和亞洲、拉美發(fā)展中國家,經(jīng)濟(jì)較不發(fā)達(dá),基礎(chǔ)設(shè)施薄弱,屬于信息基礎(chǔ)設(shè)施比較落后的國家。第二類:瑞典、丹麥、美國、中國臺灣、韓國、日本、德國、法國、新加坡、英國、瑞士。這些國家為美、日、歐洲發(fā)達(dá)國家與新興工業(yè)化國家中國臺灣、新加坡、韓國。新興工業(yè)化國家近幾十年來發(fā)展迅速,努力趕超發(fā)達(dá)國家,在信息基礎(chǔ)設(shè)施的發(fā)展上已非常接近發(fā)達(dá)國家,發(fā)達(dá)國家中的美國、瑞典、丹麥的信息基礎(chǔ)設(shè)施發(fā)展最為良好。第九十三頁,共一百零七頁,2022年,8月28日第四節(jié)系統(tǒng)聚類的基本性質(zhì)1、單調(diào)性設(shè)Dk是系統(tǒng)聚類法中第K次并類時的距離,如果D1<D2<…

,則稱并類距離具有單調(diào)性??梢宰C明除了中間距離法和重心法之外,其他的系統(tǒng)聚類法均滿足單調(diào)性的條件。第九十四頁,共一百零七頁,2022年,8月28日2、空間的濃縮或擴(kuò)張兩個同階矩陣D(A)和D(B),如果D(A)的每一個元素不小于D(B)的相應(yīng)元素,則記為D(A)≧D(B)。若有兩種系統(tǒng)聚類法A和B,在第K步的距離矩陣記為D(AK)和D(BK),若有D(AK)≧D(BK)對所有K,則稱A比B使空間擴(kuò)張或B比A使空間濃縮。第九十五頁,共一百零七頁,2022年,8月28日

D(0)G1G2G3G4G5G1={X1}0G2={X2}30G3={X3}410G4={X4}6320G5={X5}107620最短距離法最長距離法第九十六頁,共一百零七頁,2022年,8月28日D(1)G6

G3

G4

G5G60G330G4260G561040D(1)G6

G3

G4

G5

G60G340G4360G5710

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論