版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、 聚類分析第一節(jié) 引言 第二節(jié) 相似性的量度 第三節(jié) 系統(tǒng)聚類分析法 第四節(jié) K均值聚類分析 第五節(jié) 有序樣品的聚類分析法 第六節(jié) 實例分析與計算機實現(xiàn)第一節(jié) 引言 “物以類聚,人以群分”。對事物進行分類,是人們認識事物的出發(fā)點,也是人們認識世界的一種重要方法。因此,分類學已成為人們認識世界的一門基礎科學。在生物、經(jīng)濟、社會、人口等領域的研究中,存在著大量量化分類研究。例如:在生物學中,為了研究生物的演變,生物學家需要根據(jù)各種生物不同的特征對生物進行分類。在經(jīng)濟研究中,為了研究不同地區(qū)城鎮(zhèn)居民生活中的收入和消費情況,往往需要劃分不同的類型去研究。在地質(zhì)學中,為了研究礦物勘探,需要根據(jù)各種礦石的
2、化學和物理性質(zhì)和所含化學成分把它們歸于不同的礦石類。在人口學研究中,需要構造人口生育分類模式、人口死亡分類狀況,以此來研究人口的生育和死亡規(guī)律。 但歷史上這些分類方法多半是人們主要依靠經(jīng)驗作定性分類,致使許多分類帶有主觀性和任意性,不能很好地揭示客觀事物內(nèi)在的本質(zhì)差別與聯(lián)系;特別是對于多因素、多指標的分類問題,定性分類的準確性不好把握。為了克服定性分類存在的不足,人們把數(shù)學方法引入分類中,形成了數(shù)值分類學。后來隨著多元統(tǒng)計分析的發(fā)展,從數(shù)值分類學中逐漸分離出了聚類分析方法。隨著計算機技術的不斷發(fā)展,利用數(shù)學方法研究分類不僅非常必要而且完全可能,因此近年來,聚類分析的理論和應用得到了迅速的發(fā)展。
3、聚類分析就是分析如何對樣品(或變量)進行量化分類的問題。通常聚類分析分為Q型聚類和R型聚類。Q型聚類是對樣品進行分類處理,R型聚類是對變量進行分類處理。第二節(jié) 相似性的量度 一 樣品相似性的度量 二 變量相似性的度量 一、樣品相似性的度量在聚類之前,要首先分析樣品間的相似性。Q型聚類分析,常用距離來測度樣品之間的相似程度。每個樣品有p個指標(變量)從不同方面描述其性質(zhì),形成一個p維的向量。如果把n個樣品看成p維空間中的n個點,則兩個樣品間相似程度就可用p維空間中的兩點距離公式來度量。兩點距離公式可以從不同角度進行定義,令dij 表示樣品Xi與Xj的距離,存在以下的距離公式:1明考夫斯基距離 (
4、5.1)明考夫斯基距離簡稱明氏距離,按的取值不同又可分成:歐氏距離是常用的距離,大家都比較熟悉,但是前面已經(jīng)提到,在解決多元數(shù)據(jù)的分析問題時,歐氏距離就顯示出了它的不足之處。一是它沒有考慮到總體的變異對“距離”遠近的影響,顯然一個變異程度大的總體可能與更多樣品近些,既使它們的歐氏距離不一定最近;另外,歐氏距離受變量的量綱影響,這對多元數(shù)據(jù)的處理是不利的。為了克服這方面的不足,可用“馬氏距離”的概念。2馬氏距離 設Xi與Xj是來自均值向量為 ,協(xié)方差為 =(0)的總體G中的p維樣品,則兩個樣品間的馬氏距離為 (5.5)馬氏距離又稱為廣義歐氏距離。顯然,馬氏距離與上述各種距離的主要不同就是它考慮了
5、觀測變量之間的相關性。如果各變量之間相互獨立,即觀測變量的協(xié)方差矩陣是對角矩陣,則馬氏距離就退化為用各個觀測指標的標準差的倒數(shù)作為權數(shù)的加權歐氏距離。馬氏距離還考慮了觀測變量之間的變異性,不再受各指標量綱的影響。將原始數(shù)據(jù)作線性變換后,馬氏距離不變。3蘭氏距離 (5.6) 它僅適用于一切Xij0的情況,這個距離也可以克服各個指標之間量綱的影響。這是一個自身標準化的量,由于它對大的奇異值不敏感,它特別適合于高度偏倚的數(shù)據(jù)。雖然這個距離有助于克服明氏距離的第一個缺點,但它也沒有考慮指標之間的相關性。4距離選擇的原則 一般說來,同一批數(shù)據(jù)采用不同的距離公式,會得到不同的分類結果。產(chǎn)生不同結果的原因,
6、主要是由于不同的距離公式的側重點和實際意義都有不同。因此我們在進行聚類分析時,應注意距離公式的選擇。通常選擇距離公式應注意遵循以下的基本原則:(1)要考慮所選擇的距離公式在實際應用中有明確的意義。如歐氏距離就有非常明確的空間距離概念。馬氏距離有消除量綱影響的作用。(2)要綜合考慮對樣本觀測數(shù)據(jù)的預處理和將要采用的聚類分析方法。如在進行聚類分析之前已經(jīng)對變量作了標準化處理,則通常就可采用歐氏距離。(3)要考慮研究對象的特點和計算量的大小。樣品間距離公式的選擇是一個比較復雜且?guī)в幸欢ㄖ饔^性的問題,我們應根據(jù)研究對象的特點不同做出具體分折。實際中,聚類分析前不妨試探性地多選擇幾個距離公式分別進行聚類
7、,然后對聚類分析的結果進行對比分析,以確定最合適的距離測度方法。二、變量相似性的度量 多元數(shù)據(jù)中的變量表現(xiàn)為向量形式,在幾何上可用多維空間中的一個有向線段表示。在對多元數(shù)據(jù)進行分析時,相對于數(shù)據(jù)的大小,我們更多地對變量的變化趨勢或方向感興趣。因此,變量間的相似性,我們可以從它們的方向趨同性或“相關性”進行考察,從而得到“夾角余弦法”和“相關系數(shù)”兩種度量方法。1、夾角余弦兩變量Xi與Xj看作p維空間的兩個向量,這兩個向量間的夾角余弦可用下式進行計算 (5.7)顯然,cos ij 1。2相關系數(shù)相關系數(shù)經(jīng)常用來度量變量間的相似性。變量Xi與Xj的相關系數(shù)定義為 (5.8)顯然也有,rij 1。無
8、論是夾角余弦還是相關系數(shù),它們的絕對值都小于1,作為變量近似性的度量工具,我們把它們統(tǒng)記為cij。當cij = 1時,說明變量Xi與Xj完全相似;當cij近似于1時,說明變量Xi與Xj非常密切;當cij = 0時,說明變量Xi與Xj完全不一樣;當cij近似于0時,說明變量Xi與Xj差別很大。據(jù)此,我們把比較相似的變量聚為一類,把不太相似的變量歸到不同的類內(nèi)。 在實際聚類過程中,為了計算方便,我們把變量間相似性的度量公式作一個變換為 dij = 1 cij (5.9)或者 dij2 = 1 cij2 (5.10) 用表示變量間的距離遠近,小則與先聚成一類,這比較符合人們的一般思維習慣。第三節(jié) 系
9、統(tǒng)聚類分析法 一 系統(tǒng)聚類的基本思想 二 類間距離與系統(tǒng)聚類法 三 類間距離的統(tǒng)一性 一、系統(tǒng)聚類的基本思想系統(tǒng)聚類的基本思想是:距離相近的樣品(或變量)先聚成類,距離相遠的后聚成類,過程一直進行下去,每個樣品(或變量)總能聚到合適的類中。系統(tǒng)聚類過程是:假設總共有n個樣品(或變量),第一步將每個樣品(或變量)獨自聚成一類,共有n類;第二步根據(jù)所確定的樣品(或變量)“距離”公式,把距離較近的兩個樣品(或變量)聚合為一類,其它的樣品(或變量)仍各自聚為一類,共聚成n 1類;第三步將“距離”最近的兩個類進一步聚成一類,共聚成n 2類;,以上步驟一直進行下去,最后將所有的樣品(或變量)全聚成一類。為
10、了直觀地反映以上的系統(tǒng)聚類過程,可以把整個分類系統(tǒng)畫成一張譜系圖。所以有時系統(tǒng)聚類也稱為譜系分析。除系統(tǒng)聚類法外,還有有序聚類法、動態(tài)聚類法、圖論聚類法、模糊聚類法等,限于篇幅,我們只介紹系統(tǒng)聚類方法。 二、類間距離與系統(tǒng)聚類法在進行系統(tǒng)聚類之前,我們首先要定義類與類之間的距離,由類間距離定義的不同產(chǎn)生了不同的系統(tǒng)聚類法。常用的類間距離定義有8種之多,與之相應的系統(tǒng)聚類法也有8種,分別為最短距離法、最長距離法、中間距離法、重心法、類平均法、可變類平均法、可變法和離差平方和法。它們的歸類步驟基本上是一致的,主要差異是類間距離的計算方法不同。以下用dij表示樣品Xi與Xj之間距離,用Dij表示類G
11、i與Gj之間的距離。1. 最短距離法定義類與之間的距離為兩類最近樣品的距離,即為 (5.11)設類與合并成一個新類記為,則任一類與的距離為 (5.12)最短距離法進行聚類分析的步驟如下:(1)定義樣品之間距離,計算樣品的兩兩距離,得一距離 陣記為D(0) ,開始每個樣品自成一類,顯然這時Dij = dij。(2)找出距離最小元素,設為Dpq,則將Gp和Gq合并成一個 新類,記為Gr,即Gr = Gp,Gq。(3)按(5.12)計算新類與其它類的距離。 (4)重復(2)、(3)兩步,直到所有元素。并成一類為 止。如果某一步距離最小的元素不止一個,則對應這些 最小元素的類可以同時合并?!纠?.1】
12、設有六個樣品,每個只測量一個指標,分別是1,2,5,7,9,10,試用最短距離法將它們分類。(1)樣品采用絕對值距離,計算樣品間的距離陣D(0) ,見表5.1表5.1 (2)D(0)中最小的元素是D12D561,于是將G1和G2合并成G7,G5和G6合并成G8,并利用(5.12)式計算新類與其它類的距離D(1) ,見表5.2表5.2 (3)在D(1)中最小值是D34D482,由于G4與G3合并,又與G8合并,因此G3、G4、G8合并成一個新類G9,其與其它類的距離D(2) ,見表5.3表5.3 (4)最后將G7和G9合并成G10,這時所有的六個樣品聚為一類,其過程終止。上述聚類的可視化過程見圖
13、5.1所示,橫坐標的刻度表示并類的距離。這里我們應該注意,聚類的個數(shù)要以實際情況所定,其詳細內(nèi)容將在后面討論。圖5.1 最短距離聚類法的過程再找距離最小兩類并類,直至所有的樣品全歸為一類為止。可以看出最長距離法與最短距離法只有兩點不同:一是類與類之間的距離定義不同;另一是計算新類與其它類的距離所用的公式不同。3. 中間距離法最短、最長距離定義表示都是極端情況,我們定義類間距離可以既不采用兩類之間最近的距離也不采用兩類之間最遠的距離,而是采用介于兩者之間的距離,稱為中間距離法。中間距離將類Gp與Gq類合并為類Gr,則任意的類Gk和Gr的距離公式為 (14 0) (5.15)設DkqDkp,如果采
14、用最短距離法,則Dkr = Dkp,如果采用最長距離法,則Dkr = Dkq。如圖5.2所示,(5.15)式就是取它們(最長距離與最短距離)的中間一點作為計算Dkr的根據(jù)。 特別當 = 14,它表示取中間點算距離,公式為 (5.16) 圖5.2 中間距離法 【例5.2】針對例5.1的數(shù)據(jù),試用重心法將它們聚類。(1)樣品采用歐氏距離,計算樣品間的平方距離陣D2(0),見表5.4所示。 表5.4 (2)D2(0)中最小的元素是D212D2561,于是將G1和G2合并成G7,G5和G6合并成G8,并利用(5.18)式計算新類與其它類的距離得到距離陣D2(1) ,見表5.5: 其中,其它結果類似可以
15、求得 (3)在D2(1)中最小值是D2344,那么G3與G4合并一個新類G9,其與與其它類的距離D2(2) ,見表5.6: 表5.6 (4)在中最小值是12.5,那么與合并一個新類,其與與其它類的距離,見表5.7:表5.7 (5)最后將G7和G10合并成G11,這時所有的六個樣品聚為一類,其過程終止。上述重心法聚類的可視化過程見圖5.3所示,橫坐標的刻度表示并類的距離。圖5.3 重心聚類法的過程6. 可變類平均法由于類平均法中沒有反映出Gp和Gq之間的距離Dpq的影響,因此將類平均法進一步推廣,如果將Gp和Gq合并為新類Gr,類Gk與新并類Gr的距離公式為: (5.22)其中是可變的且 2),
16、它們的均值、協(xié)差陣分別為i,i,(i = 1,2,m)。對任意給定的樣品x,要判斷它來自哪個總體。 多總體按距離最近的準則對x進行判別歸類時,首先計算樣品x到m個總體的馬氏距離di2(x)(i = 1,2,m),然后進行比較,把x判歸距離最小的那個總體。 即若dh2(x) = mindi2(x) | i = 1,2,m,則x Gh。 計算馬氏距離di2(x)(i = 1,2,m)時,類似地可考慮1 = 2 = = m或i不全相等的兩種情況,并用樣本統(tǒng)計量作為i和i的估計.2. 費歇爾判別(Fisher) 下面以兩個總體為例說明費歇爾判別的思想。 設有兩個總體G1、G2,其均值分別為1和2,協(xié)方
17、差陣分別1和2,并假定1 = 2 = ,考慮線性組合:y = Lx。通過尋求合適的L向量,使得來自兩個總體的數(shù)據(jù)間的距離較大,而來自同一個總體數(shù)據(jù)間的差異較小。為此,可以證明,當選L=c1(12),其中c 0時,所得的投影即滿足要求。從而稱c = 1時的線性函數(shù):y = Lx = (1 2)1x為費歇爾線性判別函數(shù)。其判別規(guī)則為:其中,m為兩個總體均值在投影方向上的中點,即當1、2和未知時,可由總體G1和G2中分別抽出n1和n2個樣品,計算相應的樣本均值和協(xié)方差陣作為1、2和的估計。3. 貝葉斯判別(Bayes) (1) 貝葉斯判別法 設有m個總體G1,Gm,假定它們各自的分布密度分別為f1(
18、x),f2(x),fm(x),各自的先驗概率(可以根據(jù)經(jīng)驗事先給出或估出)分別為q1,q2,qm,顯然 貝葉斯判別的方法是:當抽取了一個未知總體的樣品x,要判斷它屬于哪個總體,可用著名的貝葉斯公式計算x屬于第j個總體的后驗概率: 當 時,判斷x屬于第h個總體?;蛘哂嬎惆聪闰灨怕始訖嗟恼`判平均損失: 然后再比較這m個誤判平均損失的h1(x),h2(x),hm(x)的大小,選取其中最小的,就可以判定樣品x來自該總體。 上式中C(j | i)為假定本來屬于Gi的樣品被判為屬于Gj時造成的損失。當然C(i | i) = 0,C(j | i) 0(i,j = 1,m)。 在實際問題中,錯判的損失可以給出
19、定性的分析,但很難用數(shù)值來表示,但應用貝葉斯判別的方法時,要求定量給出C(j | i),C(j | i)的賦值常用以下兩種方法: 根據(jù)經(jīng)驗人為賦值; 假定各種錯判的損失都相等。(2) 錯判概率 當樣品xGi,用判別法D判別時,把x判歸Gj (ij),出現(xiàn)錯判。用P(j|I;D)(或簡記為P(j|i))表示實屬Gi的樣品錯判為Gj的概率,錯判概率的估計方法有下面幾種: 利用訓練樣本作為檢驗集,即用判別方法對已知樣品進行回判,統(tǒng)計錯判的個數(shù)以及錯判的比率,作為錯判率的估計。此法得出的估計一般較低。 當訓練樣本的大小足夠大時,可留出一些已知類別的樣品不參加建立判別準則,而是作為檢驗集,并把錯判的比率
20、作為錯判率的估計。此法當檢驗集較小時估計的方差大。 設一法(或稱為交叉確認法),每次留出一個已知類別的樣品,而用其他n 1個樣品建立判別準則,然后對留出的這一個已知類別的樣品進行判別歸類。對訓練樣本中n個樣品逐個處理后把錯判的比率作為錯判率的估計。(3) 廣義平方距離判別法 在正態(tài)總體的假定下,按貝葉斯判別的思想,在錯判造成的損失認為相等的情況下得到的判別函數(shù)其實就是馬氏距離判別在考慮先驗概率及協(xié)方差陣是否相等情況下的推廣,故在SAS的DISCRIM過程中稱為廣義平方距離判別法。4. 逐步判別 (1) 各變量判別能力的檢驗 當檢驗k個類的均值向量是否全都相等(即檢驗H0:1 = 2 = = k
21、)時,否定了這個假設H0(即表明各總體的均值向量有顯著性差異),也并不能保證其各分量的均值有顯著差異,若第i個分量間沒有顯著差異時,說明相應的變量Xi對判別分類不起作用,應該剔除。關于各變量判別能力的檢驗問題是篩選判別變量的理論基礎,也是逐步判別的理論基礎。 變量判別能力的度量通常采用刪去該變量后考察判別能力的變化,即考察該變量對區(qū)分k個類是否能提供更多的附加信息,然后由附加信息構造F統(tǒng)計量進行檢驗。 利用F統(tǒng)計量對假設H0(i)(第i個變量在k個總體中的均值相等)作統(tǒng)計檢驗。若否定H0(i),表示變量Xi對區(qū)分k個總體的判別能力是顯著的(在顯著水平下)。否則,變量Xi對區(qū)分k個總體的判別能力
22、不能提供附加信息,這個變量應剔除。(2) 逐步判別法的基本思想 前面討論了用全部m個變量:X1,X2,Xm來建立判別函數(shù)對樣品進行判別歸類的幾種方法。在這m個變量中,有的變量對區(qū)分k個總體的判別能力可能很強,有的可能很弱。如果不加區(qū)別地把m個變量全部用來建立判別函數(shù),則必增加大量的計算,還可能因為變量間的相關性引起計算上的困難(病態(tài)或退化等)及計算精度的降低。另一方面由于一些對區(qū)分k個總體的判別能力很小的變量的引入,產(chǎn)生干擾,致使建立的判別函數(shù)不穩(wěn)定,反而影響判別效果,因此自然提出一個變量的選擇問題。即如何從m個變量中挑選出對區(qū)分k個總體有顯著判別能力的變量,來建立判別函數(shù),用以判別歸類。 逐
23、步判別的基本思想和逐步回歸是類似的。逐個引入變量,每次把一個判別能力最強的變量引入判別式,每引入一個新變量,對判別式中的老變量逐個進行檢驗,如其判別能力因新變量的引入而變得不顯著,應把它從判別式中剔除。這種通過逐步篩選變量使得建立的判別函數(shù)中僅保留判別能力顯著的變量的方法,就是逐步判別法。(3) 逐步判別法的基本步驟 1) 逐步篩選變量:根據(jù)各變量對區(qū)分k個總體的判別能力的大小,按基本思想所介紹的過程來篩選變量。SAS中的STEPDISC過程專用于篩選變量子集。該過程利用向前選入、向后剔除或逐步篩選的方法來選擇區(qū)分k個總體的最佳變量子集。 2) 判別歸類:對已選出變量子集,使用以上幾節(jié)介紹的判
24、別方法對樣品進行判別歸類。8.2.2 SAS中作判別分析的過程1. DISCRIM過程簡介 DISCRIM過程根據(jù)一個分類變量和若干數(shù)值變量的數(shù)據(jù)計算出各種判別函數(shù)(判別準則),根據(jù)這個判別函數(shù),再將該批數(shù)據(jù)或其他數(shù)據(jù)中的觀測分別歸入已知類別中去。 DISCRIM過程用以獲得判別準則的數(shù)據(jù)稱之為訓練數(shù)據(jù)集(也稱訓練樣本)。 實例分析:為反映員工心理因素方面的差異性,某研究者調(diào)研了一工廠36名員工的6 項心理因素 ,如下表所示。請根據(jù)這一分數(shù)對員工進行分類,并回答:員工分成幾類比較理想?Z1Z2Z3Z4Z5Z6Z1Z2Z3Z4Z5Z6666462505856536653595545555059595351615558615861504749454646596460525456555950545269556072605567555948564750565268405155625468464651595161565256606056535251605362554763525269585762525157455559565557394446565757525955505068464556685871
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 七年級生物下冊 4.6.1 人體對外界環(huán)境的感知教學實錄1 (新版)新人教版
- 辭職申請書集錦15篇
- 植樹節(jié)演講稿范文錦集8篇
- 全國人教版信息技術八年級下冊第二單元第8課《創(chuàng)建操作按鈕》教學實錄
- 2024秋八年級英語上冊 Unit 2 How often do you exercise Section A(1a-2d)教學實錄 (新版)人教新目標版
- 我的心愛之物作文素材大全10篇
- 2024年度水電設施安裝與調(diào)試合同屋3篇
- 本科畢業(yè)自我鑒定
- 二年級語文下冊 課文5 17 要是你在野外迷了路教學實錄 新人教版
- 江蘇省興化市高中地理 第二章 城市與城市化 2.2 不同等級城市的服務功能教學實錄 新人教版必修2
- 醫(yī)療器械質(zhì)量管理體系文件管理制度
- 解密市場營銷(雙語)智慧樹知到期末考試答案2024年
- 高考真題 選擇性必修3《邏輯與思維》-2024年高考政治一輪復習選擇題+主觀題(新教材新高考)(解析版)
- 監(jiān)察法學智慧樹知到期末考試答案2024年
- 百香果的栽培條件
- 2024版國開電大法學本科《商法》歷年期末考試總題庫
- 湖北省荊州市荊州八縣市區(qū)2023-2024學年高一上學期1月期末聯(lián)考物理試題(原卷版)
- 藥店法律法規(guī)應用與合規(guī)培訓
- 小程序商場方案
- 班組年終總結
- 小學科學人教鄂教版五年級下冊全冊教案2023春
評論
0/150
提交評論