




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
聚類(lèi)分析分類(lèi)物以類(lèi)聚、人以群分;但根據(jù)什么分類(lèi)呢?如要想把中國(guó)的縣分類(lèi),就有多種方法可以按照自然條件來(lái)分,比如考慮降水、土地、日照、濕度等,也可考慮收入、教育水準(zhǔn)、醫(yī)療條件、基礎(chǔ)設(shè)施等指標(biāo);既可以用某一項(xiàng)來(lái)分類(lèi),也可以同時(shí)考慮多項(xiàng)指標(biāo)來(lái)分類(lèi)。研究對(duì)樣品或指標(biāo)進(jìn)行分類(lèi)的一種多元統(tǒng)計(jì)方法,是依據(jù)研究對(duì)象的個(gè)體的特征進(jìn)行分類(lèi)的方法。聚類(lèi)分析把分類(lèi)對(duì)象按一定規(guī)則分成若干類(lèi),這些類(lèi)非事先給定的,而是根據(jù)數(shù)據(jù)特征確定的。在同一類(lèi)中這些對(duì)象在某種意義上趨向于彼此相似,而在不同類(lèi)中趨向于不相似。
聚類(lèi)分析的基本思想是認(rèn)為我們所研究的樣本或指標(biāo)(變量)之間存在著程度不同的相似性(親疏關(guān)系)。根據(jù)事物本身的特性研究個(gè)體分類(lèi)的方法,原則是同一類(lèi)中的個(gè)體有較大的相似性,不同類(lèi)中的個(gè)體差異很大。不一定事先假定有多少類(lèi),完全可以按照數(shù)據(jù)本身的規(guī)律來(lái)分類(lèi)。按照遠(yuǎn)近程度來(lái)聚類(lèi)需要明確兩個(gè)概念:一個(gè)是點(diǎn)和點(diǎn)之間的距離,一個(gè)是類(lèi)和類(lèi)之間的距離。
二、距離和相似系數(shù)在進(jìn)行聚類(lèi)分析時(shí),樣本間的相似系數(shù)和距離有多種不同的定義,通常按特性來(lái)劃分。變量特征的測(cè)度尺度有三種類(lèi)型:間隔尺度(由連續(xù)的實(shí)值變量表示)有序尺度(沒(méi)有明確的數(shù)量表示,只有次序關(guān)系,如產(chǎn)品等級(jí))名義尺度(具有某種特性,如性別)從一組復(fù)雜數(shù)據(jù)產(chǎn)生一個(gè)相當(dāng)簡(jiǎn)單的類(lèi)結(jié)構(gòu),必然要求進(jìn)行“相關(guān)性”或“相似性”的度量。在相似性度量的選擇中,常常包含許多主觀上的考慮,但最重要的考慮是指標(biāo)的性質(zhì)或觀測(cè)的尺度(名義、次序、間隔)以及相關(guān)知識(shí)。課堂上主要討論的指標(biāo)測(cè)量為間隔尺度的情況。⒈距離每個(gè)樣本有p個(gè)指標(biāo),因此每個(gè)樣本可以看成p維空間中的一個(gè)點(diǎn),n個(gè)樣本就組成p維空間中的n個(gè)點(diǎn),這時(shí)很自然想到用距離來(lái)度量n個(gè)樣本間的接近程度。用表示第i個(gè)樣本與第j個(gè)樣本之間的距離。一切距離應(yīng)滿(mǎn)足以下條件:常見(jiàn)的距離有:blockdistance絕對(duì)值距離:euclideandistance歐式距離squaredeuclideandistance平方歐式距離chebychevdistance切比雪夫距離minkowskidistance明考斯基距離(明氏距離)當(dāng)q=1,2時(shí),為絕對(duì)值、歐式距離;若趨近無(wú)窮時(shí),則為切比雪夫距離Lanberra蘭氏距離Mahalanobis馬氏距離以上都是樣本間距離的定義。⒉相似系數(shù)夾角余弦相關(guān)系數(shù)變量間的距離利用相似系數(shù)來(lái)定義距離利用樣本協(xié)差陣來(lái)定義距離把變量Xi的n次觀測(cè)值看成n維空間的點(diǎn), 在n維空間中定義m個(gè)變量間的距離。①夾角余弦兩變量的夾角余弦定義為:
②相關(guān)系數(shù)兩變量的相關(guān)系數(shù)定義為:
把樣本看成n維空間的點(diǎn),而把變量看成n維空間的坐標(biāo)軸,m個(gè)樣本開(kāi)始時(shí)自成一類(lèi),然后規(guī)定各類(lèi)之間的距離,將距離最小的一對(duì)并成一類(lèi),然后再計(jì)算距離,直到所有單位全部合并為止。系統(tǒng)聚類(lèi)法根據(jù)一批樣本的多個(gè)觀測(cè)指標(biāo),具體找出一些彼此之間相似程度較大的樣本(或指標(biāo))聚合為一類(lèi),把另外一些彼此之間相似程度較大的樣本(或指標(biāo))又聚合為另一類(lèi),關(guān)系密切的聚合到一個(gè)小的分類(lèi)單位,關(guān)系疏遠(yuǎn)的聚合到一個(gè)大的分類(lèi)單位,直到把所有樣本(或指標(biāo))都聚合完畢,把不同的類(lèi)型一一劃分出來(lái),形成一個(gè)由小到大的分類(lèi)系統(tǒng)。最后把整個(gè)分類(lèi)系統(tǒng)畫(huà)成一張譜系圖,用它把所有樣本(或指標(biāo))間的親疏關(guān)系表示出來(lái)。這種方法是最常用的、最基本的一種,稱(chēng)為系統(tǒng)聚類(lèi)分析。系統(tǒng)聚類(lèi)法基本步驟1.選擇樣本間距離的定義及類(lèi)間距離的定義;2.計(jì)算n個(gè)樣本兩兩之間的距離,得到距離矩陣
3.構(gòu)造個(gè)類(lèi),每類(lèi)只含有一個(gè)樣本;4.合并符合類(lèi)間距離定義要求的兩類(lèi)為一個(gè)新類(lèi);5.計(jì)算新類(lèi)與當(dāng)前各類(lèi)的距離。若類(lèi)的個(gè)數(shù)為1,則轉(zhuǎn)到步驟6,否則回到步驟4;6.畫(huà)出聚類(lèi)圖;
7.決定類(lèi)的個(gè)數(shù)和類(lèi)。系統(tǒng)聚類(lèi)分析的方法系統(tǒng)聚類(lèi)法的聚類(lèi)原則決定于樣品間的距離以及類(lèi)間距離的定義,類(lèi)間距離的不同定義就產(chǎn)生了不同的系統(tǒng)聚類(lèi)分析方法。以下用dij表示樣品X(i)和X(j)之間的距離,當(dāng)樣品間的親疏關(guān)系采用相似系數(shù)Cij時(shí),令;以下用D(p,q)表示類(lèi)Gp和Gq之間的距離。1.最短距離法(SINglemethod)2.最長(zhǎng)距離法(COMpletemethod)最長(zhǎng)距離最短距離ABCDEF3.重心法(CENtroidmethod)4.類(lèi)平均法(AVEragemethod)中間距離5.離差平方和法(WARD)基本思想來(lái)源于方差分析。它認(rèn)為:如果分類(lèi)正確,同類(lèi)間的類(lèi)差平方和應(yīng)較小,類(lèi)與類(lèi)之間的離差平方和應(yīng)較大.具體做法是,先將n個(gè)樣本分成一類(lèi),然后每次縮小一類(lèi),每縮小一類(lèi)離差平方和就要增大.離差平方和法(WARD)⒍系統(tǒng)聚類(lèi)方法的統(tǒng)一
⒎系統(tǒng)聚類(lèi)法參數(shù)表
類(lèi)的個(gè)數(shù)的確定由適當(dāng)?shù)拈撝荡_定;根據(jù)數(shù)據(jù)點(diǎn)的散布直觀地確定類(lèi)的個(gè)數(shù);根據(jù)統(tǒng)計(jì)量確定分類(lèi)個(gè)數(shù);類(lèi)的個(gè)數(shù)的確定根據(jù)譜系圖確定分類(lèi)個(gè)數(shù)的準(zhǔn)則:各類(lèi)重心間的距離必須很大;類(lèi)中保包含的元素不要太多;類(lèi)的個(gè)數(shù)必須符合實(shí)際應(yīng)用;如果采用幾種不同的聚類(lèi)方法處理,則在各種聚類(lèi)圖中應(yīng)該發(fā)現(xiàn)相同的類(lèi)。四、系統(tǒng)聚類(lèi)的參數(shù)選擇㈠聚類(lèi)類(lèi)別:㈡統(tǒng)計(jì)㈢圖:樹(shù)型譜系圖冰柱譜系圖㈣聚類(lèi)方法1.Between-groupslinkage類(lèi)間平均法兩類(lèi)距離為兩類(lèi)元素兩兩之間平均平方距離2.Within-groupslinkage類(lèi)內(nèi)平均法兩類(lèi)距離為合并后類(lèi)中可能元素兩兩之間平均平方距離3.Nearestneighbor最短距離法4.Furthestneighbor最長(zhǎng)距離法5.Centroidclustering重心法(歐式距離)6.Medianclustering中間距離法(歐式距離)7.WardMethod離差平方法(歐式距離)SPSS界面指南飲料數(shù)據(jù)(drink.sav)16種飲料如何分類(lèi)?k-均值聚類(lèi)k-均值聚類(lèi)(k-meanscluster,也叫快速聚類(lèi),quickcluster)卻要求你先說(shuō)好要分多少類(lèi)。假定你說(shuō)分3類(lèi),這個(gè)方法還進(jìn)一步要求你事先確定3個(gè)點(diǎn)為“聚類(lèi)種子”(SPSS軟件自動(dòng)為你選種子);也就是說(shuō),把這3個(gè)點(diǎn)作為三類(lèi)中每一類(lèi)的基石。然后,根據(jù)和這三個(gè)點(diǎn)的距離遠(yuǎn)近,把所有點(diǎn)分成三類(lèi)。再把這三類(lèi)的中心(均值)作為新的基石或種子(原來(lái)“種子”就沒(méi)用了),再重新按照距離分類(lèi)。如此疊代下去,直到達(dá)到停止疊代的要求(比如,各類(lèi)最后變化不大了,或者疊代次數(shù)太多了)。下面用飲料例的數(shù)據(jù)來(lái)做k-均值聚類(lèi)。假定要把這16種飲料分成3類(lèi)。利用SPSS,只疊代了三次就達(dá)到目標(biāo)了(計(jì)算機(jī)選的種子還可以)。這樣就可以得到最后的三類(lèi)的中心以及每類(lèi)有多少點(diǎn)
根據(jù)需要,可以輸出哪些點(diǎn)分在一起。結(jié)果是:第一類(lèi)為飲料1、10;第二類(lèi)為飲料2、4、8、11、12、13、14;第三類(lèi)為剩下的飲料3、5、6、7、9、15、16。SPSS實(shí)現(xiàn)(聚類(lèi)分析)K-均值聚類(lèi)以數(shù)據(jù)drink.sav為例,在SPSS中選擇Analyze-Classify-K-MenasCluster,然后把calorie(熱量)、caffeine(咖啡因)、sodium(鈉)、price(價(jià)格)選入Variables,在NumberofClusters處選擇3(想要分的類(lèi)數(shù)),如果想要知道哪種飲料分到哪類(lèi),則選Save,再選ClusterMembership等。注意k-均值聚類(lèi)只能做Q型聚類(lèi),如要做R型聚類(lèi),需要把數(shù)據(jù)陣進(jìn)行轉(zhuǎn)置。分層聚類(lèi)分層聚類(lèi)或系統(tǒng)聚類(lèi)(hierarchicalcluster)。開(kāi)始時(shí),有多少點(diǎn)就是多少類(lèi)。它第一步先把最近的兩類(lèi)(點(diǎn))合并成一類(lèi),然后再把剩下的最近的兩類(lèi)合并成一類(lèi);這樣下去,每次都少一類(lèi),直到最后只有一大類(lèi)為止。越是后來(lái)合并的類(lèi),距離就越遠(yuǎn)。對(duì)于飲料聚類(lèi)。SPSS輸出為“冰柱圖”(icicle)聚類(lèi)要注意的問(wèn)題聚類(lèi)結(jié)果主要受所選擇的變量影響。如果去掉一些變量,或者增加一些變量,結(jié)果會(huì)很不同。相比之下,聚類(lèi)方法的選擇則不那么重要了。因此,聚類(lèi)之前一定要目標(biāo)明確。
聚類(lèi)要注意的問(wèn)題另外就分成多少類(lèi)來(lái)說(shuō),也要有道理。只要你高興,從分層聚類(lèi)的計(jì)算機(jī)結(jié)果可以得到任何可能數(shù)量的類(lèi)。但是,聚類(lèi)的目的是要使各類(lèi)之間的距離盡可能地遠(yuǎn),而類(lèi)中點(diǎn)的距離盡可能的近,并且分類(lèi)結(jié)果還要有令人信服的解釋。這一點(diǎn)就不是數(shù)學(xué)可以解決的了。SPSS實(shí)現(xiàn)(聚類(lèi)分析)分層聚類(lèi)對(duì)drink.sa
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 遂寧職業(yè)學(xué)院《生物信息與智能醫(yī)學(xué)導(dǎo)論》2023-2024學(xué)年第二學(xué)期期末試卷
- 中級(jí)宏觀經(jīng)濟(jì)學(xué)(雙語(yǔ))(山東聯(lián)盟)知到課后答案智慧樹(shù)章節(jié)測(cè)試答案2025年春山東財(cái)經(jīng)大學(xué)
- 中式面點(diǎn)制作工藝知到課后答案智慧樹(shù)章節(jié)測(cè)試答案2025年春青島酒店管理職業(yè)技術(shù)學(xué)院
- 中外兒童文學(xué)經(jīng)典閱讀與寫(xiě)作知到課后答案智慧樹(shù)章節(jié)測(cè)試答案2025年春湖南師范大學(xué)
- 中醫(yī)藥基礎(chǔ)入門(mén)知到課后答案智慧樹(shù)章節(jié)測(cè)試答案2025年春內(nèi)江師范學(xué)院
- 天津工藝美術(shù)職業(yè)學(xué)院《影視節(jié)目錄制與傳播》2023-2024學(xué)年第二學(xué)期期末試卷
- 池州學(xué)院《電氣控制與可編程控制技術(shù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 中國(guó)音樂(lè)學(xué)院《修建性詳細(xì)規(guī)劃制圖》2023-2024學(xué)年第二學(xué)期期末試卷
- 鄭州汽車(chē)工程職業(yè)學(xué)院《康復(fù)醫(yī)學(xué)概論》2023-2024學(xué)年第二學(xué)期期末試卷
- 上海電機(jī)學(xué)院《大學(xué)生就業(yè)與創(chuàng)業(yè)指導(dǎo)》2023-2024學(xué)年第一學(xué)期期末試卷
- 華能集團(tuán)企業(yè)文化手冊(cè)
- 通信網(wǎng)絡(luò)設(shè)備管理
- 工廠(chǎng)消防安全知識(shí)培訓(xùn)課件
- 初中九年級(jí)化學(xué)課件化學(xué)反應(yīng)后溶質(zhì)成分的探究
- GB/T 15558.3-2023燃?xì)庥寐竦鼐垡蚁?PE)管道系統(tǒng)第3部分:管件
- 神經(jīng)病學(xué)課件:神經(jīng)病學(xué)總論-
- 物料變更通知單
- PI形式發(fā)票范文模板
- 2023光伏電站無(wú)人機(jī)智能巡檢技術(shù)標(biāo)準(zhǔn)
- 室外消防鋼絲網(wǎng)骨架塑料復(fù)合PE管施工方案-2
- 執(zhí)業(yè)醫(yī)師注冊(cè)、變更申請(qǐng)表
評(píng)論
0/150
提交評(píng)論