第二講聚類分析_第1頁
第二講聚類分析_第2頁
第二講聚類分析_第3頁
第二講聚類分析_第4頁
第二講聚類分析_第5頁
已閱讀5頁,還剩42頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第二講聚類分析演示文稿現(xiàn)在是1頁\一共有47頁\編輯于星期五(優(yōu)選)第二講聚類分析現(xiàn)在是2頁\一共有47頁\編輯于星期五與多元分析的其他方法相比,聚類分析方法較為粗糙,理論上還不夠完善,正處于發(fā)展階段。但是,由于該方法應(yīng)用方便,分類效果較好,因此越來越為人們所重視。近些年來聚類分析的方法發(fā)展較快,內(nèi)容越來越豐富?,F(xiàn)在是3頁\一共有47頁\編輯于星期五社會經(jīng)濟領(lǐng)域中存在著大量分類問題:例如:對我國30個省市自治區(qū)獨立核算工業(yè)企業(yè)經(jīng)濟效益進行分析,一般不是逐個省市自治區(qū)去分析,而較好地做法是選取能反映企業(yè)經(jīng)濟效益的代表性指標,如百元固定資產(chǎn)實現(xiàn)利稅、資金利稅率、產(chǎn)值利稅率、百元銷售收入實現(xiàn)利潤、全員勞動生產(chǎn)率等等,根據(jù)這些指標對30個省市自治區(qū)進行分類,然后根據(jù)分類結(jié)果對企業(yè)經(jīng)濟效益進行綜合評價,就易于得出科學的分析。

現(xiàn)在是4頁\一共有47頁\編輯于星期五又如:若對某些大城市的物價指數(shù)進行考察,而物價指數(shù)很多,有農(nóng)用生產(chǎn)物價指數(shù)、服務(wù)項目物價指數(shù)、食品消費物價指數(shù)、建材零售價格指數(shù)等等。由于要考察的物價指數(shù)很多,通常先對這些物價指數(shù)進行分類??傊枰诸惖膯栴}很多,因此聚類分析這個有用的數(shù)學工具越來越受到人們的重視,它在許多領(lǐng)域中都得到了廣泛的應(yīng)用。值得提出的是將聚類分析和其它方法聯(lián)合起來使用,如判別分析、主成分分析、回歸分析等往往效果更好?,F(xiàn)在是5頁\一共有47頁\編輯于星期五

2距離和相似系數(shù)為了將樣品(或指標)進行分類,就需要研究樣品之間關(guān)系。目前用得最多的方法有兩個:一種方法是用相似系數(shù),性質(zhì)越接近的樣品,它們的相似系數(shù)的絕對值越接近1,而彼此無關(guān)的樣品,它們的相似系數(shù)的絕對值越接近于零。比較相似的樣品歸為一類,不怎么相似的樣品歸為不同的類。另一種方法是將一個樣品看作p維空間的一個點,并在空間定義距離,距離越近的點歸為一類,距離較遠的點歸為不同的類。

現(xiàn)在是6頁\一共有47頁\編輯于星期五變量的類型由于相似系數(shù)和距離有各種各樣的定義,而這些定義與變量的類型關(guān)系極大,因此先介紹變量的類型。

由于實際問題中,遇到的指標有的是定量的(如長度、重量等),有的是定性的(如性別、職業(yè)等),因此將變量(指標)的類型按以下三種尺度劃分:

現(xiàn)在是7頁\一共有47頁\編輯于星期五變量的類型分為以下三類:間隔尺度:變量是用連續(xù)的量來表示的,如長度、重量、壓力、速度等等。有序尺度:變量度量時沒有明確的數(shù)量表示,而是劃分一些等級,等級之間有次序關(guān)系,如某產(chǎn)品分上、中、下三等,此三等有次序關(guān)系,但沒有數(shù)量表示。名義尺度:變量度量時既沒有數(shù)量表示,也沒有次序關(guān)系,如某物體有紅、黃、白三種顏色,又如醫(yī)學化驗中的陰性與陽性,市場供求中的“產(chǎn)”和“銷”,還有性別、職業(yè)、產(chǎn)品的型號等?,F(xiàn)在是8頁\一共有47頁\編輯于星期五不同類型的變量,在定義距離和相似系數(shù)時,其方法有很大差異,使用時必須注意。研究比較多的是間隔尺度,因此本章主要給出間隔尺度的距離和相似系數(shù)的定義?,F(xiàn)在是9頁\一共有47頁\編輯于星期五現(xiàn)在是10頁\一共有47頁\編輯于星期五問題轉(zhuǎn)變?yōu)榫仃嚨男信c行、列與列向量間的相似關(guān)系的討論現(xiàn)在是11頁\一共有47頁\編輯于星期五問題轉(zhuǎn)變?yōu)榫仃嚨男信c行、列與列的向量間的相似關(guān)系的討論對樣品分類(稱為Q-型聚類分析)

對指標分類(稱為R-型聚類分析)現(xiàn)在是12頁\一共有47頁\編輯于星期五

1、對樣品分類(稱為Q—型聚類分析)

常用的距離和相似系數(shù)定義(1)距離如果把n個樣品(X中的n個行)看成p維空間中n個點,則兩個樣品間相似程度可用p維空間中兩點的距離來度量。令表示樣品與的距離。常用的距離有:

i)明氏(Minkowski)距離

ii)馬氏(Mahalanobis)距離

iii)蘭氏(Canberra)距離

iv)斜交叉空間距離現(xiàn)在是13頁\一共有47頁\編輯于星期五i)明氏(Minkowski)距離現(xiàn)在是14頁\一共有47頁\編輯于星期五采用明氏距離時要注意:一定要采用相同量綱的變量。如果各變量的量綱不同,或當各變量的量綱相同但各變量的測量值相差懸殊時,不能直接采用明氏距離。需要先對數(shù)據(jù)進行標準化處理,然后再用標準化處理后的數(shù)據(jù)計算距離。最常用的標準化處理方法是:現(xiàn)在是15頁\一共有47頁\編輯于星期五在明氏距離中,最常用的是歐氏距離。主要優(yōu)點:是當坐標軸進行正交旋轉(zhuǎn)時,歐氏距離是保持不變的。因此,如果對原坐標系進行平移和旋轉(zhuǎn)變換,則變換后樣本點間的相似情況(即它們間的距離)完全同于變換前的情形。不足之處:第一、它與各指標的量綱有關(guān)第二、它沒有考慮指標之間的相關(guān)性現(xiàn)在是16頁\一共有47頁\編輯于星期五舉例說明歐氏距離的明顯的不足之處當改變測量單位時,算出的距離數(shù)值不同;再則當數(shù)量指標X的各分量代表不同質(zhì)的東西或者分量的差異很大時,歐氏距離常會出現(xiàn)“大數(shù)吃小數(shù)”的現(xiàn)象。現(xiàn)在是17頁\一共有47頁\編輯于星期五這時討論距離時,需要進行加權(quán),加權(quán)的辦法之一是從X的分量的離散程度考慮,離差大的分量在距離中應(yīng)相應(yīng)地削弱它的影響程度。為此引入馬氏距離。馬氏距離是由印度統(tǒng)計學家馬哈拉諾比斯于1936年引入的,故稱為馬氏距離。這一距離在多元統(tǒng)計分析中起著十分重要的作用,下面給出定義。現(xiàn)在是18頁\一共有47頁\編輯于星期五ii)馬氏(Mahalanobis)距離現(xiàn)在是19頁\一共有47頁\編輯于星期五ii)馬氏距離的優(yōu)缺點

馬氏距離既排除了各指標之間相關(guān)性的干擾,而且還不受各指標量綱的影響。除此之外,它還有一些優(yōu)點,如可以證明,將原數(shù)據(jù)作一線性交換后,馬氏距離仍不變等等。馬氏距離與測量單位無關(guān),但是它夸大了變化微小的變量(或指標)的作用,這是馬氏距離在實用中的缺點?,F(xiàn)在是20頁\一共有47頁\編輯于星期五距離矩陣現(xiàn)在是21頁\一共有47頁\編輯于星期五相似系數(shù)研究樣品之間的關(guān)系,除了用距離表示外,還有相似系數(shù),顧名思義,相似系數(shù)是描寫樣品之間相似程度的一個量,常用的相似系數(shù)有:

i)夾角余弦

ii)相關(guān)系數(shù)現(xiàn)在是22頁\一共有47頁\編輯于星期五

i)夾角余弦現(xiàn)在是23頁\一共有47頁\編輯于星期五相似矩陣現(xiàn)在是24頁\一共有47頁\編輯于星期五

ii)相關(guān)系數(shù)現(xiàn)在是25頁\一共有47頁\編輯于星期五相似矩陣現(xiàn)在是26頁\一共有47頁\編輯于星期五

2對指標分類(稱為R-型聚類分析)

P個指標(變量)之間相似性的定義與樣品相似性定義類似,但此時是在n維空間中來研究的,變量之間的相似性是通過原始資料矩陣X中P列間相似關(guān)系來研究的。類似的也有常用的距離和相似系數(shù)定義常用的距離

i)明氏(Minkowski)距離

ii)馬氏(Mahalanobis)距離

iii)蘭氏(Canberra)距離相似系數(shù)i)夾角余弦

ii)相關(guān)系數(shù)現(xiàn)在是27頁\一共有47頁\編輯于星期五常用的距離和相似系數(shù)定義常用的距離

i)明氏(Minkowski)距離

ii)馬氏(Mahalanobis)距離

iii)蘭氏(Canberra)距離相似系數(shù)i)夾角余弦

ii)相關(guān)系數(shù)在實際問題中:對樣品分類常用距離,對指標分類常用相似系數(shù)。

現(xiàn)在是28頁\一共有47頁\編輯于星期五聚類分析內(nèi)容有系統(tǒng)聚類法有序樣品聚類法動態(tài)聚類法模糊聚類法圖論聚類法聚類預報法等。本章主要介紹常用的系統(tǒng)聚類法?,F(xiàn)在是29頁\一共有47頁\編輯于星期五系統(tǒng)聚類法的基本思想系統(tǒng)聚類法(HierachicalClusteringMethods)基本思想是:先將每個研究對象(樣品或指標)各自看成一類、按某種順序分別稱作第1,第2,…,第h類(如果對象是樣品,則h=n;如果對象是指標,則h=p);然后根據(jù)對象間的相似度量,將h類中最相似的兩類合并,組成一個新類,這樣得到h-1類,再在這h-1類中找出最相似的兩類合并,得到h-2類,如此下去,直至將所有的對象并成一個大類為止。當然,真的合并成一個類就失去了聚類的意義,所以上面的聚類過程應(yīng)該在某個類水平數(shù)(即未合并的類數(shù))停下來,最終的類就取這些未合并的類。決定聚類個數(shù)是一個很復雜的問題?,F(xiàn)在是30頁\一共有47頁\編輯于星期五在如上的并類過程中出現(xiàn)這樣一個問題:兩類之間如何度量其相似程度?為此,需要引進兩類之間的“距離”或“相似系數(shù)”的概念。正如樣品之間的距離可以有不同的定義方法一樣,類與類之間的距離也有各種定義。例如可以定義類與類之間的距離為兩類之間最近樣品的距離,或者定義為兩類之間最遠樣品的距離,也可以定義為兩類重心之間的距離等等。類與類之間用不同的方法定義距離,就產(chǎn)生了不同的系統(tǒng)聚類方法?,F(xiàn)在是31頁\一共有47頁\編輯于星期五

八種系統(tǒng)聚類方法系統(tǒng)聚類分析盡管方法很多,但歸類的步驟基本上是一樣的,所不同的僅是類與類之間的距離有不同的定義方法,從而得到不同的計算距離的公式。這些公式在形式上不大一樣,但最后可將它們統(tǒng)一為一個公式,對上機計算帶來很大的方便。最短距離法最長距離法中間距離法重心法類平均法可變類平均法可變法離差平方和法現(xiàn)在是32頁\一共有47頁\編輯于星期五系統(tǒng)聚類法的具體步驟:現(xiàn)在是33頁\一共有47頁\編輯于星期五現(xiàn)在是34頁\一共有47頁\編輯于星期五現(xiàn)在是35頁\一共有47頁\編輯于星期五現(xiàn)在是36頁\一共有47頁\編輯于星期五現(xiàn)在是37頁\一共有47頁\編輯于星期五現(xiàn)在是38頁\一共有47頁\編輯于星期五現(xiàn)在是39頁\一共有47頁\編輯于星期五其它的聚類方法還有EML法、可變類平均法(FLEXIBLE)、McQuitty相似分析法(MCQUITTY)、中間距離法(MEDIAN)、兩階段密度估計法(TWOSTAGE)等。

現(xiàn)在是40頁\一共有47頁\編輯于星期五譜系聚類類數(shù)的確定譜系聚類最終得到一個聚類樹,可以把所有觀測聚為一類。到底應(yīng)該把觀測分為幾類是一個比較困難的問題,因為分類問題本身就是沒有一定標準的,關(guān)于這一點《實用多元統(tǒng)計分析》(王學仁、王松桂,上??萍汲霭嫔纾┑谑陆o出了一個很好的例子,即撲克牌的分類。我們可以把撲克牌按花色分類,按大小點分類,按橋牌的高花色低花色分類,等等。決定類數(shù)的一些方法來自統(tǒng)計的方差分析的思想,我們在這里作一些介紹?,F(xiàn)在是41頁\一共有47頁\編輯于星期五四、類個數(shù)的確定聚類分析中,類的個數(shù)如何確定的問題是一個十分困難的問題,人們至今仍未找到令人滿意的方法;但這又是一個不可回避的問題.迄今為止,我們只是直觀地敘述了“類”的概念,并未給出嚴格的定義,但要對各種不同的類給予統(tǒng)一的定義是比較困難的,“類”的概念是一個模糊的概念.當然可以從不同的角度給出類的不同定義,但在實際應(yīng)用中,人們并不完全從類的定義來確定類.下面介紹確定類個數(shù)的幾種常見方法現(xiàn)在是42頁\一共有47頁\編輯于星期五1.由適當?shù)拈y值確定選定某種聚類方法,按系統(tǒng)聚類的步驟并類后,得到一張譜系聚類圖.聚類圖(或簡稱譜系圖)只反映樣品間(或變量間)的親疏關(guān)系,它本身并沒有給出分類,需要規(guī)定一個臨界相似性尺度,用以分割譜系圖而得到樣品(或變量)的分類.比如例2用最短距離法得譜系聚類圖(見圖示2),給定臨界值(閥值)d=2.01,其含義為樣品間絕對距離<2.01時認為這些樣品間關(guān)系密切,應(yīng)歸屬同一類.這相當于在距離為2.01處切一刀,顯見五個樣品可:分為二類:X(1),x(2)為一類,x(3),x(4),X(5)為一類.現(xiàn)在是43頁\一共有47頁\編輯于星期五2.根

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論