版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
第一章聚類分析1聚類分析是研究(樣本或指標)分類問題的一種多元統(tǒng)計方法。類:指相似元素的集合。分類:經(jīng)驗→數(shù)學工具(例如聚類分析)。聚類分析定義:根據(jù)一批樣品的許多觀測指標,按照一定的數(shù)學公式具體地計算一些樣品或一些指標的相似程度,把相似的樣品或指標歸為一類。2應用:
1、對區(qū)域進行經(jīng)濟發(fā)展狀況的分析,可建立GDP、投資額、進出口總額等指標的指標體系,然后進行聚類分析,可能會發(fā)現(xiàn)大多數(shù)東部省份為一類,中部省份為一類,西部省份為一類,然后對區(qū)域內(nèi)和區(qū)域間進行進一步分析。3
2、對企業(yè)的經(jīng)濟效益進行評價時,建立了一個由多個指標組成的指標體系,由于信息的重疊,一些指標之間存在很強的相關性,所以需要將相似的指標聚為一類,從而達到簡化指標體系的目的。4系統(tǒng)聚類分析直觀,易懂??焖倬垲惪焖?,動態(tài)。有序聚類保序(時間順序或大小順序)。5例對10位應聘者做智能檢驗。3項指標X,Y和Z分別表示數(shù)學推理能力,空間想象能力和語言理解能力。其得分如下,選擇合適的統(tǒng)計方法對應聘者進行分類。應聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424§1聚類分析678我們直觀地來看,這個分類是否合理?計算4號和6號得分的離差平方和:
(21-20)2+(23-23)2+(22-22)2=1
計算1號和2號得分的離差平方和:
(28-18)2+(29-23)2+(28-18)2=236
計算1號和3號得分的離差平方和為482,由此可見一般,分類可能是合理的,歐氏距離很大的應聘者沒有被聚在一起。由此,我們的問題是如何來選擇樣品間相似的測度指標,如何將有相似性的類連接起來?9
思考:樣本點之間按什么刻畫相似程度思考:小類與小類之間按什么來刻畫相似程度10一、變量測量尺度的類型為了將樣本進行分類,就需要研究樣品之間的關系;而為了將變量(指標)進行分類,就需要研究變量之間的關系。但無論是樣品之間的關系,還是變量之間的關系,都是用變量來描述的,變量的類型不同,描述方法也就不同。通常,變量按照測量它們的尺度不同,可以分為三類。
(1)間隔尺度。指標度量時用數(shù)量來表示,其數(shù)值由測量、計數(shù)、統(tǒng)計得到,如長度、重量、收入、支出等。一般來說,計數(shù)得到的數(shù)量是離散數(shù)量,測量得到的數(shù)量是連續(xù)數(shù)量。在間隔尺度中如果存在絕對零點,又稱比例尺度?!?距離和相似系數(shù)11
(2)順序尺度。指標度量時沒有明確的數(shù)量表示,只有次序關系,或雖用數(shù)量表示,但相鄰兩數(shù)值之間的差距并不相等,它只表示一個有序狀態(tài)序列。如評價酒的味道,分成好、中、次三等,三等有次序關系,但沒有數(shù)量表示。
(3)名義尺度。指標度量時既沒有數(shù)量表示也沒有次序關系,只有一些特性狀態(tài),如眼睛的顏色,化學中催化劑的種類等。在名義尺度中只取兩種特性狀態(tài)的變量是很重要的,如電路的開和關,天氣的有雨和無雨,人口性別的男和女,醫(yī)療診斷中的“十”和“一”,市場交易中的買和賣等都是此類變量。12
二、數(shù)據(jù)的變換處理所謂數(shù)據(jù)變換,就是將原始數(shù)據(jù)矩陣中的每個元素,按照某種特定的運算把它變成為一個新值,而且數(shù)值的變化不依賴于原始數(shù)據(jù)集合中其它數(shù)據(jù)的新值。
1、中心化變換中心化變換是一種坐標軸平移處理方法,它是先求出每個變量的樣本平均值,再從原始數(shù)據(jù)中減去該變量的均值,就得到中心化變換后的數(shù)據(jù)。設原始觀測數(shù)據(jù)矩陣為:13中心化變換的結(jié)果是使每列數(shù)據(jù)之和均為0,即每個變量的均值為0,而且每列數(shù)據(jù)的平方和是該列變量樣本方差的(n—1)倍,任何不同兩列數(shù)據(jù)之交叉乘積是這兩列變量樣本協(xié)方差的(n—1)倍,所以這是一種很方便地計算方差與協(xié)方差的變換。14
2、極差規(guī)格化變換規(guī)格化變換是從數(shù)據(jù)矩陣的每一個變量中找出其最大值和最小值,這兩者之差稱為極差,然后從每個變量的每個原始數(shù)據(jù)中減去該變量中的最小值,再除以極差,就得到規(guī)格化數(shù)據(jù)。即有:15經(jīng)過規(guī)格化變換后,數(shù)據(jù)矩陣中每列即每個變量的最大數(shù)值為1,最小數(shù)值為0,其余數(shù)據(jù)取值均在0-1之間;并且變換后的數(shù)據(jù)都不再具有量綱,便于不同的變量之間的比較。
3、標準化變換標準化變換也是對變量的數(shù)值和量綱進行類似于規(guī)格化變換的一種數(shù)據(jù)處理方法。首先對每個變量進行中心化變換,然后用該變量的標準差進行標準化。特點是在抽樣樣本改變時,它仍保持相對穩(wěn)定性。即:16
經(jīng)過標準化變換處理后,每個變量即數(shù)據(jù)矩陣中每列數(shù)據(jù)的平均值為0,方差為1,且也不再具有量綱,同樣也便于不同變量之間的比較。變換后,數(shù)據(jù)矩陣中任何兩列數(shù)據(jù)乘積之和是兩個變量相關系數(shù)的(n-1)倍,所以這是一種很方便地計算相關矩陣的變換。
4.對數(shù)變換對數(shù)變換是將各個原始數(shù)據(jù)取對數(shù),將原始數(shù)據(jù)的對數(shù)值作為變換后的新值。特點是將具有指數(shù)特征的數(shù)據(jù)結(jié)構(gòu)化為線性特征的數(shù)據(jù)結(jié)構(gòu)。即:
17
三、樣品間親疏程度的測度
研究樣品或變量的親疏程度的數(shù)量指標有兩種,一種叫相似系數(shù),性質(zhì)越接近的變量或樣品,它們的相似系數(shù)越接近于1或一l,而彼此無關的變量或樣品它們的相似系數(shù)則越接近于0,相似的為一類,不相似的為不同類;另一種叫距離,它是將每一個樣品看作p維空間的一個點,并用某種度量測量點與點之間的距離,距離較近的歸為一類,距離較遠的點應屬于不同的類。18
變量之間的聚類即R型聚類分析,常用相似系數(shù)來測度變量之間的親疏程度。樣品之間的聚類即Q型聚類分析,常用距離來測度樣品之間的親疏程度。
注:變量聚類放到因子分析后面19
1、定義距離的準則
定義距離要求滿足第i個和第j個樣品之間的距離如下四個條件(距離可以自己定義,只要滿足距離的條件)202、常用距離的算法設和是第i和j個樣品的觀測值,則二者之間的距離為:明氏距離特別,絕對值距離和歐氏距離都是其中之一種。(1)明氏距離測度21
明考夫斯基距離主要有以下兩個缺點:①明氏距離的值與各指標的量綱有關,而各指標計量單位的選擇有一定的人為性和隨意性,各變量計量單位的不同不僅使此距離的實際意義難以說清,而且,任何一個變量計量單位的改變都會使此距離的數(shù)值改變,從而使該距離的數(shù)值依賴于各變量計量單位的選擇。②明氏距離的定義沒有考慮各個變量之間的相關性和重要性。實際上,明考夫斯基距離是把各個變量都同等看待,將兩個樣品在各個變量上的離差簡單地進行了綜合。22
(2)杰氏距離這是杰斐瑞和馬突斯塔(Jffreys&Matusita)所定義的一種距離,其計算公式為:23
(3)蘭氏距離這是蘭思和維廉姆斯(Lance&Williams)所給定的一種距離,其計算公式為:
這是一個自身標準化的量,由于它對大的奇異值不敏感,這樣使得它特別適合于高度偏倚的數(shù)據(jù)。雖然這個距離有助于克服明氏距離的第一個缺點(克服量綱的影響),但它也沒有考慮指標之間的相關性。24
(4)馬氏距離這是印度著名統(tǒng)計學家馬哈拉諾比斯(P.C.Mahalanobis)所定義的一種距離,其計算公式為:
分別表示第i個樣品和第j樣品的p個指標觀測值所組成的列向量,即樣本數(shù)據(jù)矩陣中第i個和第j個行向量的轉(zhuǎn)置,表示觀測變量之間的協(xié)方差矩陣。在實踐應用中,若總體協(xié)方差矩陣未知,則可用樣本協(xié)方差矩陣作為估計代替計算。25馬氏距離又稱為廣義歐氏距離。顯然,馬氏距離與上述各種距離的主要不同就是馬氏距離考慮了觀測變量之間的相關性。如果假定各變量之間相互獨立,即觀測變量的協(xié)方差矩陣是對角矩陣,則馬氏距離就退化為用各個觀測指標的標準差的倒數(shù)作為權(quán)數(shù)進行加權(quán)的歐氏距離。因此,馬氏距離不僅考慮了觀測變量之間的相關性,而且也考慮到了各個觀測指標取值的差異程度,因此,不受指標量綱的影響。26為了對馬氏距離和歐氏距離進行一下比較,以便更清楚地看清二者的區(qū)別和聯(lián)系,現(xiàn)考慮一個例子。例如,假設有一個二維正態(tài)總體,它的分布為:
27
3、相似系數(shù)的算法
相關系數(shù)通常所說的相關系數(shù),一般指變量間的相關系數(shù)。作為刻畫樣品間的相似系數(shù)也可類似給出定義。設和是第和個樣品的觀測值,則二者之間的相關系數(shù)為:其中28
四、距離和相似系數(shù)選擇的原則
一般說來,同一批數(shù)據(jù)采用不同的親疏測度指標,會得到不同的分類結(jié)果。產(chǎn)生不同結(jié)果的原因,主要是由于不同的親疏測度指標所衡量的親疏程度的實際意義不同,也就是說,不同的親疏測度指標代表了不同意義上的親疏程度。因此我們在進行聚類分析時,應注意親疏測度指標的選擇。通常,選擇親疏測度指標時,應注意遵循的基本原則主要有:
29
(1)所選擇的親疏測度指標在實際應用中應有明確的意義。如在經(jīng)濟變量分析中,常用相關系數(shù)表示經(jīng)濟變量之間的親疏程度。30
(2)親疏測度指標的選擇要綜合考慮已對樣本觀測數(shù)據(jù)實施了的變換方法和將要采用的聚類分析方法。如在標準化變換之下,夾角余弦實際上就是相關系數(shù);又如若在進行聚類分析之前已經(jīng)對變量的相關性作了處理,則通常就可采用歐氏距離。此外,所選擇的親疏測度指標,還須和所選用的聚類分析方法一致。如聚類方法若選用離差平方和法,則距離只能選用歐氏距離。31
(3)適當?shù)乜紤]計算工作量的大小。如對大樣本的聚類問題,不適宜選擇斜交空間距離(本章沒涉及該距離定義),因采用該距離處理時,計算工作量太大。樣品間或變量間親疏測度指標的選擇是一個比較復雜且?guī)е饔^性的問題,我們應根據(jù)研究對象的特點作具體分折,以選擇出合適的親疏測度指標。實踐中,在開始進行聚類分析時,不妨試探性地多選擇幾個親疏測度指標,分別進行聚類,然后對聚類分析的結(jié)果進行對比分析,以確定出合適的親疏測度指標。
32…0…0┇┇┇┇…0
至此,我們已經(jīng)可以根據(jù)所選擇的距離構(gòu)成樣本點間的距離表,樣本點之間被連接起來。33五、類與類之間的度量
正如樣品之間的距離可以有不同的定義方法一樣,類與類之間的距離也有不同的定義。例如,可以定義類與類之間的距離為兩類之間最近樣品的距離;或定義為兩類之間最遠樣品的距離;或定義為兩類重心之間的距離等等。類與類之間用不同的方法定義距離,就產(chǎn)生了不同的系統(tǒng)聚類法,本節(jié)主要介紹如下系統(tǒng)聚類法:最短距離法、最長距離法、中間距離法、中心法、類平均法、可變類平均法、可變法、離差平方和法。34
系統(tǒng)聚類分析盡管方法很多,但歸類的步驟基本是一樣的,所不同的僅是類與類之間的距離有不同的定義方法,從而得到不同的計算距離的公式。
35
1、最短距離(NearestNeighbor)x21?x12?x22?x11?3637??????
3、組間平均(Between-groupLinkage)38
4、組內(nèi)平均(Within-groupLinkage)x21?x12?x22?x11?39
5、重心法(Centroidclustering):均值點的距離??40
6、離差平方和離差平方和定義類與類之間的距離是依據(jù)方差分析的思想。如果分類正確,同類樣品的離差平方和應當較小,類與類的離差平方和應當較大。因此,離差平方和法定義類與類之間的距離為:41離差平方和定義類與類間距離的例子:2,41,56,542紅綠(2,4,6,5)的離差平方和為8.75,則紅綠間距離的平方為8.75-2.5=6.25。黃綠(6,5,1,5)的離差平方和為14.75,則黃綠間距離的平方為14.75-8.5=6.25黃紅(2,4,1,5)的離差平方和為10,則黃紅間距離的平方為10-10=0。43§3系統(tǒng)聚類方法
1、定義樣品之間的距離,共有個。得一距離陣,記為D(0)表,該矩陣是一對稱陣表。開始每個樣品(即樣本點)自成為一類。一、系統(tǒng)聚類法的聚類步驟開始各樣本自成一類。44
3、利用遞推公式計算新類與其它類之間的距離。分別刪除D(0)表的第p,q行和第p,q列,并新增一行和一列,添上新類和舊類之間距離的結(jié)果,產(chǎn)生D(1)表。類與類之間距離的定義法不同,則新類與其它類之間距離的遞推公式也不同。45
4、在D(1)表再選擇最小的數(shù),其對應的兩類又構(gòu)成新類,再利用遞推公式計算新類與其它類之間的距離。分別刪除D(1)表的相應的行和列,并新增一行和一列,添上新類和舊類之間距離的結(jié)果,產(chǎn)生D(2)表。類推直至所有的樣本點歸為一類為止。46二、常用的種類
1、最短距離法
設抽取五個樣品,每個樣品只有一個變量,它們是1,2,3.5,7,9。用最短距離法對5個樣品進行分類。首先采用絕對距離計算距離矩陣:
0
10
2.51.50
653.50
875.52047然后和被聚為新類,得:
0
1.50
53.50
75.52048
最短距離法的遞推公式
假設第p類和第q類合并成第r類,第r類與其它各舊類的距離按最短距離法為:4903.505.5205003.5051各步聚類的結(jié)果:(1,2)(3)(4)(5)(1,2,3)(4)(5)(1,2,3)(4,5)(1,2,3,4,5)52
2、最長距離法用最長距離法對5個樣品進行分類。首先采用絕對距離計算距離矩陣:
0
10
2.51.50
653.50
875.52053
然后和被聚為新類,得:
0
2.50
63.50
85.52054
最長距離法的遞推公式
假設第p類和第q類合并成第r類,第r類與其它各舊類的距離按最長距離法為:553、中間距離法中間距離56
0
10
6.252.250
362512.250
644930.2540用中間距離法對5個樣品進行分類。首先采用絕對距離計算距離平方矩陣:
57中間距離法的遞推公式58
0
40
30.2512.250
56.2530.254059
類平均法定義兩類間距離的平方是兩類元素兩兩之間距離平方的平均數(shù)。
0
10
6.252.250
362512.250
644930.2540
4、類平均法60然后和被聚為新類,得:
0
4.250
30.2512.250
56.2530.2540類平均法的定義公式:61
假設第p類和第q類合并成第r類,第r類與其它各舊類的距離為:62p類、q類與L類的距離的加權(quán)平均數(shù)63
5、可變類平均法
類平均法的遞推公式中,沒有反映Gp類和Gq類的距離有多大,進一步將其改進,加入D2Pq,并給定系數(shù)<1,則類平均法的遞推公式改為:用此遞推公式進行聚類就是可變類平均法。遞推公式由:p類和q類與L類的距離的加權(quán)平均數(shù)p類和q類的距離兩項的加權(quán)和構(gòu)成,β的大小根據(jù)哪項更重要而定。646、離差平方和法
如和為一類,則離差平方和
如和為一類,則離差平方和
和
被聚為新類,重心為
65
類似于方差分析的思想,如果類分得恰當,同類內(nèi)的樣品之間的離差平方和應較小,而類間的離差平方和應當較大。
離差平方和法的思路是,先讓n個樣品各自成一類,然后每次縮小一類,每縮小一類離差平方和就要增大,選擇類間距離最小(即離差平方和增量最?。┑膬深惡喜ⅲㄒ驗榉诸愓_,同類內(nèi)的樣品之間的離差平方和應較?。?,直到所有的樣品歸為一類為止。66其中是由Gp和Gq合并成的Gr類的類內(nèi)離差平方和??梢宰C明離差平方和的聚類遞推公式為67
7、可變法
如果讓中間距離法的遞推公式前兩項的系數(shù)也依賴于,則遞推公式為:
用上式作為遞推公式的系統(tǒng)聚類法稱為可變法。68
8、重心法
用重心法對5個樣品進行分類。首先采用絕對距離計算距離平方矩陣:
0
10
6.252.250
362512.250
644930.254069分別為Gp和Gq的重心,類與類之間的距離定義為兩個類重心(類內(nèi)樣品平均值)間的距離。重心法,也稱為樣品的均值法。設Gp和Gq為兩個類70設某一步Gp和Gq的重心分別為和,類內(nèi)的樣品數(shù)分別為和,如果要把Gp和Gq合并為Gr類,則Gr類的樣品數(shù),Gr類的重心為和的加權(quán)算術平均數(shù):71重心法遞推公式假設第p類和第q類合并成第r類,第r類與其它各舊類的距離按重心法為:72例如G4和G6的距離為:73三、聚類方法的選擇和類個數(shù)的確定
一般情況下,用不同的方法聚類,其結(jié)果是不會完全一致的,到底哪種方法好呢?至今還沒有一個合適的標準。一般采用以下兩種處理方法,(1)根據(jù)分類本身的專業(yè)知識結(jié)合實際需要選擇分類方法,并確定分類個數(shù)。(2)同時用多種方法,把結(jié)果中的共性取出來。如果用多種方法的某些結(jié)果都一樣,則說明這樣的聚類確實反映了事物的本質(zhì)。而將有爭議的樣本暫放一邊或用其他方法如判別分析去歸類。
74
四、聚類結(jié)果的解釋和實證對聚類結(jié)果進行解釋是希望對各個類的特征進行準確的描述,給每類起一個合適的名稱。這一步可以借助各種描述性統(tǒng)計量進行分析,通常的做法是計算各類在各聚類變量上的均值,對均值進行比較,還可以解釋各類產(chǎn)別的原因。
75
例某公司下屬30個企業(yè),公司為了考核下屬企業(yè)的經(jīng)濟效益,設計了8個指標。為了避免重復,需要對這8個指標進行篩選,建立一個恰當?shù)慕?jīng)濟效益指標體系。通過計算30個企業(yè)8個指標的相關系數(shù)矩陣,數(shù)據(jù)是1-r2。得如下表:
x1x2
x3
x4x5
x6
x7
x8
x10
0.600
0.430.460
0.470.450.120
0.570.450.230.220
0.380.400.210.290.220
0.310.790.650.700.800.660
0.450.450.270.230.140.1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年企業(yè)文化展示系統(tǒng)項目立項申請報告
- 2024年吡唑啉酮項目申請報告
- 病例研究對照研究報告
- 濱河景觀構(gòu)成要素研究報告
- 泵站設備維修施工方案
- 波紋管涵課程設計
- 波普藝術課程設計
- 畢業(yè)設計算不算課程設計
- 畢業(yè)論文 研究報告
- 比較文學原理課程設計
- 民航M9英語詞匯練習
- 處方書寫規(guī)范-課件
- GB/T 12727-2023核電廠安全重要電氣設備鑒定
- 部編版道德與法治六年級下冊第二單元《愛護地球共同責任》大單元作業(yè)設計
- 2023年重慶移動招聘考試試題(附答案)
- 故障車輛應急調(diào)換方案
- 4s店整車庫管崗位職責5篇
- 精神分裂癥病歷
- 2023年中小學教師心理健康教育試卷(含答案)
- 金融隨機分析2課后答案
- 高中心理健康教育-痛并快樂著-考試后心理輔導教學課件設計
評論
0/150
提交評論