第六講聚類分析_第1頁(yè)
第六講聚類分析_第2頁(yè)
第六講聚類分析_第3頁(yè)
第六講聚類分析_第4頁(yè)
第六講聚類分析_第5頁(yè)
已閱讀5頁(yè),還剩108頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第六講聚類分析第一頁(yè),共一百一十三頁(yè),編輯于2023年,星期五俗話說(shuō)“物以類聚,人以群分”。就是聚類分析的道理。市場(chǎng)營(yíng)銷中市場(chǎng)細(xì)分和客戶細(xì)分問(wèn)題學(xué)校里有些同學(xué)經(jīng)常會(huì)在一起,關(guān)系密切;有些同學(xué)很少往來(lái),關(guān)系疏遠(yuǎn)。第一節(jié)什么是聚類分析第二頁(yè),共一百一十三頁(yè),編輯于2023年,星期五例對(duì)10位應(yīng)聘者做智能檢驗(yàn)。3項(xiàng)指標(biāo)X,Y和Z分別表示數(shù)學(xué)推理能力,空間想象能力和語(yǔ)言理解能力。其得分如下,選擇合適的統(tǒng)計(jì)方法對(duì)應(yīng)聘者進(jìn)行歸類。應(yīng)聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424例子第三頁(yè),共一百一十三頁(yè),編輯于2023年,星期五聚類分析數(shù)據(jù)格式k第四頁(yè),共一百一十三頁(yè),編輯于2023年,星期五第五頁(yè),共一百一十三頁(yè),編輯于2023年,星期五例題分析我們直觀地來(lái)看,這個(gè)歸類是否合理?計(jì)算4號(hào)和6號(hào)得分的離差平方和:(21-20)2+(23-23)2+(22-22)2=1計(jì)算1號(hào)和2號(hào)得分的離差平方和:(28-18)2+(29-23)2+(28-18)2=236計(jì)算1號(hào)和3號(hào)得分的離差平方和為482,由此可見一般,歸類可能是合理的,歐氏距離很大的應(yīng)聘者沒(méi)有被聚在一起。由此,我們的問(wèn)題是如何來(lái)選擇樣品間相似的測(cè)度指標(biāo),如何將有相似性的類連接起來(lái)?第六頁(yè),共一百一十三頁(yè),編輯于2023年,星期五基本思想:根據(jù)事物本身的特性研究個(gè)體分類的方法;即在沒(méi)有先驗(yàn)知識(shí)的情況下進(jìn)行的。多元統(tǒng)計(jì)分析方法就是對(duì)樣品或指標(biāo)進(jìn)行量化分類的問(wèn)題,它們討論的對(duì)象是大量的樣品,要求能合理地按各自的特性來(lái)進(jìn)行合理的分類,沒(méi)有任何模式可供參考或依循。聚類原則:同一類中的個(gè)體有較大的相似性,不同類中的個(gè)體差異很大。常見方法:Q型聚類法、R型聚類法、灰色聚類法和模糊聚類法等。聚類分析基本思想及原則第七頁(yè),共一百一十三頁(yè),編輯于2023年,星期五聚類的程序基本程序:根據(jù)一批樣品的多個(gè)觀測(cè)指標(biāo),具體地找出一些能夠度量樣品或指標(biāo)之間相似程度的統(tǒng)計(jì)量,然后利用統(tǒng)計(jì)量將樣品或指標(biāo)進(jìn)行歸類。

如對(duì)上市公司的經(jīng)營(yíng)業(yè)績(jī)進(jìn)行聚類;又如對(duì)企業(yè)的經(jīng)濟(jì)效益進(jìn)行評(píng)價(jià)由此可知,聚類分析(ClusterAnalysis)也是一種分類技術(shù)。與多元分析的其他方法相比,該方法較為粗糙,理論上還不完善,但應(yīng)用方面取得了很大成功。與多元假設(shè)檢驗(yàn)、回歸分析等一起被稱為多元分析的三大方法。聚類分析的步驟:根據(jù)已知數(shù)據(jù),計(jì)算各觀察個(gè)體或變量之間親疏關(guān)系的統(tǒng)計(jì)量。根據(jù)某種準(zhǔn)則,使同一類內(nèi)的差別較小,而類與類之間的差別較大,最終將觀察個(gè)體或變量分為若干類。第八頁(yè),共一百一十三頁(yè),編輯于2023年,星期五

思考:樣品點(diǎn)間、樣品點(diǎn)和小類之間、小類與小類之間按什么刻畫親疏關(guān)系第九頁(yè),共一百一十三頁(yè),編輯于2023年,星期五第二節(jié)“親疏程度”度量一、變量測(cè)量尺度的類型二、親疏程度的測(cè)度三、樣品與小類、小類與小類之間“親疏程度”的度量方法四、聚類分析的幾點(diǎn)說(shuō)明第十頁(yè),共一百一十三頁(yè),編輯于2023年,星期五(1)間隔尺度(Scale):用數(shù)量來(lái)表示,其數(shù)值由測(cè)量(連續(xù))或計(jì)數(shù)(離散)、統(tǒng)計(jì)得到。(2)順序尺度(Ordinal):沒(méi)有明確的數(shù)量表示,只有次序關(guān)系,或雖用數(shù)量表示,但相鄰兩數(shù)值之間的差距并不相等,它只表示一個(gè)有序狀態(tài)序列。如評(píng)價(jià)酒的味道,分成好、中、次三等,三等有次序關(guān)系,但沒(méi)有數(shù)量表示。(3)名義尺度(Nominal):既沒(méi)有數(shù)量表示也沒(méi)有次序關(guān)系,只有一些特性狀態(tài)。如眼睛的顏色,化學(xué)中催化劑的種類等。一、變量測(cè)量尺度的類型第十一頁(yè),共一百一十三頁(yè),編輯于2023年,星期五二、親疏程度的測(cè)度親疏程度:包含個(gè)體間的相似程度和個(gè)體間的差異程度親疏程度測(cè)定方法:距離:樣品間的聚類,Q型聚類分析。相似系數(shù):變量間的聚類,

R型聚類分析。第十二頁(yè),共一百一十三頁(yè),編輯于2023年,星期五

1、定義距離的準(zhǔn)則距離滿足條件:(一)距離第十三頁(yè),共一百一十三頁(yè),編輯于2023年,星期五2、常用距離的算法(數(shù)值型變量)設(shè)和是第i和j個(gè)樣品的觀測(cè)值,則二者之間的距離為:特別:歐氏距離Euclideandistance(1)閔可夫斯基距離(Minkowski)絕對(duì)距離(block)第十四頁(yè),共一百一十三頁(yè),編輯于2023年,星期五閔可夫斯基距離缺點(diǎn)①與指標(biāo)量綱有關(guān)②未考慮總體變異對(duì)“距離”遠(yuǎn)近的影響。第十五頁(yè),共一百一十三頁(yè),編輯于2023年,星期五(2)馬氏距離(廣義歐氏距離)是印度著名統(tǒng)計(jì)學(xué)家馬哈拉諾比斯(P.C.Mahalanobis)所定義的一種距離。特點(diǎn):考慮了觀測(cè)變量之間的相關(guān)性。如果各變量間相互獨(dú)立,即觀測(cè)變量的協(xié)方差矩陣是對(duì)角矩陣,則馬氏距離就退化為用各個(gè)觀測(cè)指標(biāo)的標(biāo)準(zhǔn)差的倒數(shù)作為權(quán)數(shù)進(jìn)行加權(quán)的歐氏距離??紤]到了各個(gè)觀測(cè)指標(biāo)取值的差異程度,不再受各指標(biāo)量綱的影響。將原始數(shù)據(jù)做線性變換后,馬氏距離不變。為了對(duì)馬氏距離和歐氏距離進(jìn)行一下比較,以便更清楚地看清二者的區(qū)別和聯(lián)系,現(xiàn)考慮一個(gè)例子。第十六頁(yè),共一百一十三頁(yè),編輯于2023年,星期五例如,假設(shè)有一個(gè)二維正態(tài)總體,它的分布為:

馬氏距離的缺點(diǎn):樣品協(xié)方差矩陣不變不合理。第十七頁(yè),共一百一十三頁(yè),編輯于2023年,星期五切比雪夫距離:(Chebychev)蘭氏距離:

適合于一切變量值大于零的情況。該距離與變量單位無(wú)關(guān),對(duì)大的異常值不敏感,適用于較大變異的數(shù)據(jù),但未考慮變量相關(guān)性問(wèn)題。斜交空間距離可考慮變量間相關(guān)性問(wèn)題第十八頁(yè),共一百一十三頁(yè),編輯于2023年,星期五…0…0┇┇┇┇…0

樣品點(diǎn)間的距離表第十九頁(yè),共一百一十三頁(yè),編輯于2023年,星期五3、距離選擇的原則一般來(lái)說(shuō),同一批數(shù)據(jù)采用不同的距離公式,會(huì)得到不同的分類結(jié)果。產(chǎn)生不同結(jié)果的原因,主要是由于不同的距離公式側(cè)重點(diǎn)和實(shí)際意義都不相同。因此我們?cè)诰垲惙治鰰r(shí),應(yīng)注意距離公式的選擇。在選擇距離公式時(shí)應(yīng)注意以下原則:應(yīng)考慮變量類型(不同類型變量計(jì)算距離的方法不同)所選擇的親疏測(cè)度指標(biāo)在實(shí)際應(yīng)用中應(yīng)有明確的意義。(歐幾里得距離具有明確的空間距離的概念,馬氏距離有消除量綱影響的作用)要綜合考慮對(duì)樣本觀測(cè)數(shù)據(jù)的預(yù)處理和將要采用的聚類分析方法。(如在進(jìn)行聚類分析之前已經(jīng)對(duì)變量作了標(biāo)準(zhǔn)化處理,則通常采用歐幾里得距離)適當(dāng)?shù)乜紤]研究對(duì)象的特點(diǎn)和計(jì)算工作量的大小。(在實(shí)際中,聚類分析前不妨試探性地多選擇幾個(gè)距離公式分別進(jìn)行聚類,然后對(duì)聚類分析的結(jié)果進(jìn)行對(duì)比分析,以確定最合適的距離測(cè)度方法。)第二十頁(yè),共一百一十三頁(yè),編輯于2023年,星期五(二)相似系數(shù)夾角余弦時(shí)從向量集合的角度所定義的一種測(cè)度變量之間親疏程度的相似系數(shù)。設(shè)在n維空間的向量1、夾角余弦

2、相關(guān)系數(shù)有:第二十一頁(yè),共一百一十三頁(yè),編輯于2023年,星期五例如夾角余弦相關(guān)系數(shù)第二十二頁(yè),共一百一十三頁(yè),編輯于2023年,星期五三、個(gè)體與小類、小類與小類間

“親疏程度”的度量方法1、最短距離(NearestNeighbor)x21?x12??x11?2、最長(zhǎng)距離(FurthestNeighbor)???x11?x21????第二十三頁(yè),共一百一十三頁(yè),編輯于2023年,星期五3、組間平均連接(Between-groupLinkage)4、組內(nèi)平均連接法(Within-groupLinkage)每一步均考慮了小類內(nèi)部相似性的變化克服了最遠(yuǎn)、最近距離中距離受極端值影響的特點(diǎn)第二十四頁(yè),共一百一十三頁(yè),編輯于2023年,星期五5、重心距離(Centroidclustering)??該方法充分利用了所涉及的距離信息,同時(shí)將小類的樣本數(shù)也考慮進(jìn)來(lái)了第二十五頁(yè),共一百一十三頁(yè),編輯于2023年,星期五是Ward提出的。其原則是:聚類過(guò)程中使小類內(nèi)離差平方和增加最小的兩小類首先合并為一類。步驟:首先各個(gè)體自成一類,然后逐步凝聚成小類。隨著小類的不斷凝聚,類內(nèi)離差平方和必然不斷增大。應(yīng)選擇使類內(nèi)離差平方和增加最小的兩類凝聚,直到所有個(gè)體合并成一類為止。6、離差平方和法連接(Ward’smethod)例如:第二十六頁(yè),共一百一十三頁(yè),編輯于2023年,星期五例:5商廈個(gè)體間歐氏距離CASEEuclideandistanceABCDEABCDE0.0008.06217.80426.90730.4148.0620.00025.45634.65538.21017.80425.4560.0009.22012.80626.90734.6559.2200.0003.60630.41438.21012.8063.6060.000第二十七頁(yè),共一百一十三頁(yè),編輯于2023年,星期五例題分析D、E首先聚成一類,A、B、C與該小類最近鄰距離依次為26.907、34.655、9.22最遠(yuǎn)距離30.414、38.210、12.806組間平均連接距離(26.907+30.414)/2、(34.655+38.210)/2、(9.22+12.806)/2組內(nèi)平均連接距離(26.907+30.414+3.606)/3、(34.655+38.210+3.606)/3、(9.22+12.806+3.606)/3重心法:第二十八頁(yè),共一百一十三頁(yè),編輯于2023年,星期五

四、聚類分析的幾點(diǎn)說(shuō)明(1)1、選擇變量

(1)根據(jù)聚類分析的目的選擇聚類變量(聚類是在選變量的基礎(chǔ)上對(duì)樣本數(shù)據(jù)進(jìn)行的,分類結(jié)果是各變量綜合計(jì)算的結(jié)果)

(2)各變量的變量值不應(yīng)有數(shù)量級(jí)上的差異(數(shù)量級(jí)對(duì)距離有較大影響,將影響最終聚類結(jié)果)

(3)變量之間不能高度相關(guān)(如變量間有較強(qiáng)的線性相關(guān)關(guān)系,那么計(jì)算距離時(shí)同類變量將重復(fù)“貢獻(xiàn)”,將在距離中有較高的權(quán)重,因而使最終的聚類結(jié)果偏向該類變量)2、計(jì)算相似性指標(biāo)。第二十九頁(yè),共一百一十三頁(yè),編輯于2023年,星期五3、聚類(1)選擇聚類的方法(2)確定形成的類數(shù)

①根據(jù)分類問(wèn)題本身的專業(yè)知識(shí)結(jié)合實(shí)際需要來(lái)選擇;②用多種分類方法去作,把其中的共性取出來(lái),反映了事物的本質(zhì),將有爭(zhēng)議的樣品暫放在一邊;③觀察樣品散點(diǎn)圖,從直覺上來(lái)判斷所采用的聚類方法是否合理。4、聚類結(jié)果的解釋和證實(shí)

對(duì)聚類結(jié)果進(jìn)行解釋是希望對(duì)各個(gè)類的特征進(jìn)行準(zhǔn)確的描述,給每類起一個(gè)合適的名稱。這一步可以借助各種描述性統(tǒng)計(jì)量進(jìn)行分析,通常的做法是計(jì)算各類在各聚類變量上的均值,對(duì)均值進(jìn)行比較,還可以解釋各類別的原因。

四、聚類分析的幾點(diǎn)說(shuō)明(2)第三十頁(yè),共一百一十三頁(yè),編輯于2023年,星期五第三節(jié)系統(tǒng)聚類法一、含義:又叫層次聚類。聚類過(guò)程是按一定層次進(jìn)行的,有Q型聚類和R型聚類。二、聚類步驟三、常用的聚類方法四、系統(tǒng)聚類法的性質(zhì)第三十一頁(yè),共一百一十三頁(yè),編輯于2023年,星期五二、步驟:1、對(duì)數(shù)據(jù)進(jìn)行變換處理,消除量綱;2、構(gòu)造n個(gè)類,每個(gè)類只包含一個(gè)樣品;3、n個(gè)樣品兩兩間的距離{dij};4、合并距離最近的兩類為一新類;5、計(jì)算新類與當(dāng)前各類的距離,重復(fù)(4)、(5),直到所有的類合并為一類;6、畫聚類圖;7、決定類的個(gè)數(shù)和類。第三十二頁(yè),共一百一十三頁(yè),編輯于2023年,星期五1、根據(jù)樣品的特征,規(guī)定樣品之間的距離,共有個(gè)。將所有距離列表,記為D(0)表。2、選擇D(0)表中最小的非零數(shù),不妨假設(shè),于是將和合并為一類,記為。第三十三頁(yè),共一百一十三頁(yè),編輯于2023年,星期五3、分別刪除D(0)表的第p行和第q列,并新增一行和一列,利用遞推公式計(jì)算新類與其它類之間的距離。產(chǎn)生D(1)表。4、在D(1)表再選擇最小的非零數(shù),其對(duì)應(yīng)的兩類又構(gòu)成新類,分別刪除D(1)表的相應(yīng)的行和列,并新增一行和一列,再利用遞推公式計(jì)算新類與其它類之間的距離。結(jié)果,產(chǎn)生D(2)表。類推直至所有的樣本點(diǎn)歸為一類為止。第三十四頁(yè),共一百一十三頁(yè),編輯于2023年,星期五例題:下表給出了某地區(qū)九個(gè)農(nóng)業(yè)區(qū)的七項(xiàng)指標(biāo)表

某地區(qū)九個(gè)農(nóng)業(yè)區(qū)的七項(xiàng)經(jīng)濟(jì)指標(biāo)數(shù)據(jù)

區(qū)代號(hào)人均耕地x1(hm2/人)勞均耕地x2(hm2/個(gè))水田比重x3(%)復(fù)種指數(shù)x4(%)糧食畝產(chǎn)x5(kg/hm2)人均糧食x6(kg/人)稻谷占糧食比重x7(%)G10.2941.0935.63113.64510.51036.412.2G20.3150.9710.3995.12773.5683.70.85G30.1230.3165.28148.56934.5611.16.49G40.1790.5270.391114458632.60.92G50.0810.21272.04217.812249791.180.38G60.0820.21143.78179.68973636.548.17G70.0750.18165.15194.710689634.380.17G80.2930.6665.3594.93679.5771.77.8G90.1670.4142.994.84231.5574.61.17第三十五頁(yè),共一百一十三頁(yè),編輯于2023年,星期五表極差標(biāo)準(zhǔn)化處理后的數(shù)據(jù)x1x2x3x4X5X6X7G10.911.000.070.150.181.000.14G21.000.870.000.000.000.240.00G30.200.150.070.440.440.080.07G40.440.380.000.130.180.130.00G50.030.031.001.001.000.451.00G60.030.030.610.690.650.130.59G70.000.000.900.810.840.131.00G80.910.530.070.000.100.430.09G90.380.260.040.000.150.000.00它們經(jīng)過(guò)極差標(biāo)準(zhǔn)化處理后,如下表所示。第三十六頁(yè),共一百一十三頁(yè),編輯于2023年,星期五根據(jù)上述數(shù)據(jù),計(jì)算可得九個(gè)農(nóng)業(yè)區(qū)之間的絕對(duì)值距離矩陣如下第三十七頁(yè),共一百一十三頁(yè),編輯于2023年,星期五①在距離矩陣D中,除對(duì)角線元素外,d49=d94=0.51為最小者,故將第4區(qū)與第9區(qū)并為一類,劃去第9行和第4列;②在余下的元素中,除對(duì)角線元素外,d75=d57=0.83為最小者,故將第5區(qū)與第7區(qū)并為一類,劃掉第7行和第5列;③在第二步之后余下的元素之中,除對(duì)角線元素外,d82=d28=0.88為最小者,故將第2區(qū)與第8區(qū)并為一類,劃去對(duì)應(yīng)的行和列;④在第三步之后余下的元素中,除對(duì)角線元素外,d43=d34=1.23為最小者,故將第3區(qū)與第4區(qū)并為一類,劃去對(duì)應(yīng)的行和列,此時(shí),第3、4、9區(qū)已歸并為一類;用Block距離計(jì)算距離,對(duì)某地區(qū)的九個(gè)農(nóng)業(yè)區(qū)進(jìn)行聚類分析,步驟如下:第三十八頁(yè),共一百一十三頁(yè),編輯于2023年,星期五⑤在第四步之后余下的元素中,除對(duì)角線元素外,d21=d12=1.52為最小者,故將第1區(qū)與第2區(qū)并為一類,劃去對(duì)應(yīng)的行和列,此時(shí),第1、2、8區(qū)已歸并為一類;⑥在第五步之后余下的元素中,除對(duì)角線元素外,d65=d56=1.78為最小者,故將第5區(qū)與第6區(qū)并為一類,劃去對(duì)應(yīng)的行和列,此時(shí),第5、6、7區(qū)已歸并為一類;⑦在第六步之后余下的元素中,除對(duì)角線元素外,d31=d13=3.10為最小者,故將第1區(qū)與第3區(qū)并為一類,劃去對(duì)應(yīng)行、列,此時(shí),第1、2、3、4、8、9區(qū)已歸并為一類;⑧在第七步之后余下的元素中,除去對(duì)角線元素外,只有d51=d15=5.86,故將第1區(qū)與第5區(qū)并為一類,劃去對(duì)應(yīng)行、列,此時(shí),第1、2、3、4、5、6、7、8、9、區(qū)均歸并為一類;第三十九頁(yè),共一百一十三頁(yè),編輯于2023年,星期五G1G2G8G3G4G9G5G7G6根據(jù)上述步驟,可以作出聚類過(guò)程的譜系圖第四十頁(yè),共一百一十三頁(yè),編輯于2023年,星期五以當(dāng)前某個(gè)樣品與已經(jīng)形成的小類中的各樣品距離中的最小值作為當(dāng)前樣品與該小類之間的距離。

Gr={Gp,Gq},drl=min{dpl,dql}。類Gp與Gq之間的距離定義為兩類最近樣品的距離,即:三、常用的種類1、最短距離法(NearestNeighbor)

假設(shè)第p類和第q類合并成第r類,第r類與其它各舊類的距離按最短距離法為:第四十一頁(yè),共一百一十三頁(yè),編輯于2023年,星期五最短距離法的分析步驟定義樣品之間的距離,計(jì)算n個(gè)樣品的距離矩陣D(0),開始每個(gè)樣品自成一類,顯然這時(shí)Dij=dij找出D(0)中非對(duì)角線最小元素,設(shè)為Dpq,將Gp和Gq合并為一個(gè)新類,記為Gr,即Gr={Gp,Gq}。按計(jì)算公式計(jì)算出新類與其它類的距離。重復(fù)以上步驟,直到所有元素并為一類為止。如果某一步最小元素不止一個(gè),則對(duì)應(yīng)這些最小元素的類可以同時(shí)合并。第四十二頁(yè),共一百一十三頁(yè),編輯于2023年,星期五例:為了研究以下5省區(qū)某年城鎮(zhèn)居民生活消費(fèi)的分布規(guī)律,根據(jù)調(diào)查資料做類型劃分省份x1x2x3x4x5x6x7x8遼寧浙江河南甘肅青海7.907.689.429.1610.0639.7750.3727.9327.9828.648.4911.358.209.0110.5212.9413.308.149.3210.0519.2719.2516.1715.9916.1811.0514.599.429.108.392.042.751.551.821.9613.2914.879.7611.3510.81第四十三頁(yè),共一百一十三頁(yè),編輯于2023年,星期五d12=[(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94-13.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)2]1/2=11.67d13=13.80d14=13.12d15=12.80d23=24.63d24=24.06d25=23.54d34=2.2d35=3.51d45=2.21

12345D1=10211.670313.8024.630413.1224.062.200512.8023.543.512.210河南與甘肅的距離最近,先將二者(3和4)合為一類G6={G3,G4}G1={遼寧},G2={浙江},G3={河南},G4={甘肅},G5={青海}第四十四頁(yè),共一百一十三頁(yè),編輯于2023年,星期五d61=d(3,4)1=min{d13,d14}=13.12d62=d(3,4)2=min{d23,d24}=24.06d65=d(3,4)5=min{d35,d45}=2.21612560D2=113.120224.0611.67052.2112.8023.540d71=d(3,4,5)1=min{d13,d14,d15}=12.80d72=d(3,4,5)2=min{d23,d24,d25}=23.54

712D3=70112.800223.5411.670河南、甘肅與青海并為一新類G7={G6,G5}={G3,G4,G6}G8={G1,G2}第四十五頁(yè),共一百一十三頁(yè),編輯于2023年,星期五d78=min{d71,d72}=12.8078D4=70812.80河南3甘肅4青海5遼寧1浙江2

如果某一步最小非零元素不止一個(gè)時(shí),則對(duì)應(yīng)于這些最小元素的類可以同時(shí)合并。第四十六頁(yè),共一百一十三頁(yè),編輯于2023年,星期五以當(dāng)前某個(gè)樣品與已經(jīng)形成的小類中的各樣品距離中的最大值作為當(dāng)前樣品與該小類之間的距離。最長(zhǎng)距離法的并類與最短距離法的并類步驟完全一樣。也就是先將各個(gè)樣品自成一類,然后將類間距離最短的兩類合并。2、最長(zhǎng)距離法(furthestneighbor)

假設(shè)第p類和第q類合并成第r類,第r類與其它各舊類的距離按最長(zhǎng)距離法為:第四十七頁(yè),共一百一十三頁(yè),編輯于2023年,星期五例:對(duì)前例的數(shù)據(jù)以最長(zhǎng)距離法聚類。

1234510211.670D1=313.8024.630413.1224.062.200512.8023.543.512.210d61=d(3,4)1=max{d13,d14}=13.80d62=d(3,4)2=max{d23,d24}=24.63d65=d(3,4)5=max{d35,d45}=3.51612560D2=113.800224.6311.67053.5112.8023.540河南與甘肅的距離最近,先將二者(3和4)合為一類G6={G3,G4}河南、甘肅與青海并為一新類G7={G6,G5}={G3,G4,G6}第四十八頁(yè),共一百一十三頁(yè),編輯于2023年,星期五d71=d(3,4,5)1=max{d13,d14,d15}=13.80d72=d(3,4,5)2=max{d23,d24,d25}=24.63

712D3=70113.800224.6311.670d78=max{d71,d72}=24.6378D4=70824.630G8={G1,G2}第四十九頁(yè),共一百一十三頁(yè),編輯于2023年,星期五河南1甘肅4G6G7G8G9青海5遼寧1浙江2第五十頁(yè),共一百一十三頁(yè),編輯于2023年,星期五3、中間距離法最長(zhǎng)距離夸大了類間距離,最短距離低估了類間距離。介于兩者間的距離即為中間距離。第五十一頁(yè),共一百一十三頁(yè),編輯于2023年,星期五例:對(duì)5個(gè)樣品(1、2、3.5、7、9)進(jìn)行分類。用絕對(duì)距離計(jì)算距離平方矩陣:(1)將每個(gè)樣品看作自成一類,因此Dij=dij,得下表。第五十二頁(yè),共一百一十三頁(yè),編輯于2023年,星期五G6G3G4G5G6={X1、X2}0G3={X3}40G4={X4}30.2512.250G5={X5}56.2530.2540(2)找出上表中非對(duì)角線最小元素是1,則將G1,G2合并為一個(gè)新類G6.計(jì)算新類與其它類的距離。(3)找出上表中非對(duì)角線最小元素是4,則將G3,G6合并為一個(gè)新類G7,將G4,G5合并為一個(gè)新類G8.最后計(jì)算它們的距離。第五十三頁(yè),共一百一十三頁(yè),編輯于2023年,星期五G7G8G7={X1、X2、X3}0G8={X4、X5}30.250X1X2

X3X4X5G6G7G8G9144第五十四頁(yè),共一百一十三頁(yè),編輯于2023年,星期五4、類平均法:兩類間樣品距離的平均數(shù)。對(duì)應(yīng)組間平均連接用兩類樣品兩兩之間的距離的平方和的平均值作為兩類間的距離的平方。它利用了所有樣品對(duì)距離的信息。設(shè)聚類到某一步將Gp和Gq合并為Gr,則任一類Gl與Gr的距離為:第五十五頁(yè),共一百一十三頁(yè),編輯于2023年,星期五G1G2G3G4G5G1={X1}0G2={X2}10G3={X3}6.252.250G4={X4}362512.250G5={X5}644930.2540找出上表中非對(duì)角線最小元素是1,則將G1,G2合并為一個(gè)新類G6.按類均法計(jì)算新類與其它類的距離。例:對(duì)5個(gè)樣品(1、2、3.5、7、9)進(jìn)行分類。用絕對(duì)距離計(jì)算距離平方矩陣:第五十六頁(yè),共一百一十三頁(yè),編輯于2023年,星期五G6G3G4G5G6={X1、X2}0G3={X3}4.250G4={X4}30.512.250G5={X5}56.530.2540找出上表中非對(duì)角線最小元素是4,則將G4,G5合并為一個(gè)新類G7.按類平均法計(jì)算新類與其它類的距離。第五十七頁(yè),共一百一十三頁(yè),編輯于2023年,星期五G6G3G7G60G34.250G743.521.250

找出上表中非對(duì)角線最小元素是4.25,則將G3,G6合并為一個(gè)新類G8.按類均法計(jì)算新類與其它類的距離。G6G7G60G736.080X1X2

X3X4X5G6G8G7G914.25436.08第五十八頁(yè),共一百一十三頁(yè),編輯于2023年,星期五5、中間距離法的變形——可變法

如果讓中間距離法的遞推公式前兩項(xiàng)的系數(shù)也依賴于,則遞推公式為:

第五十九頁(yè),共一百一十三頁(yè),編輯于2023年,星期五6、可變類平均法由于類平均法中沒(méi)有反映Gp和Gq之間的距離Dpq的影響,所以給出可變類平均法。對(duì)所有樣品對(duì)的距離求平均值,包括小類之間的樣品對(duì)、小類內(nèi)的樣品對(duì)。計(jì)算公式為:

用此遞推公式進(jìn)行聚類就是可變類平均法。遞推公式由:p類和q類與L類的距離的加權(quán)平均數(shù)p類和q類的距離兩項(xiàng)的加權(quán)和構(gòu)成,β的大小根據(jù)哪項(xiàng)更重要而定

可變類平均法與可變法的分類效果與β的選擇關(guān)系很大,在實(shí)際應(yīng)用中β常取負(fù)值。第六十頁(yè),共一百一十三頁(yè),編輯于2023年,星期五G1G2G3G4G5G1={X1}0G2={X2}10G3={X3}6.252.250G4={X4}362512.250G5={X5}644930.2540

找出上表中非對(duì)角線最小元素是1,則將G1,G2合并為一個(gè)新類G6.按可變類均法計(jì)算新類與其它類的距離。取=-1/4。得下表。例:對(duì)5個(gè)樣品(1、2、3.5、7、9)進(jìn)行分類。用絕對(duì)距離計(jì)算距離平方矩陣:第六十一頁(yè),共一百一十三頁(yè),編輯于2023年,星期五G6G3G4G5G6={X1、X2}0G3={X3}5.060G4={X4}37.8812.250G5={X5}70.3830.2540

上表中非對(duì)角線最小元素是4,則將G4,G5合并為一個(gè)新類G7.計(jì)算新類與其它類的距離。G6G3G7G6={X1、X2}0G3={X3}5.060G7={X4、X5}66.6625.560

上表中非對(duì)角線最小元素是5.06,則將G3,G6合并為一個(gè)新類G8.計(jì)算新類與其它類的距離。第六十二頁(yè),共一百一十三頁(yè),編輯于2023年,星期五G6G7G6={X1、X2、X3}0G7={X4、X5}64.940X1X2

X3X4X5G6G8G7G915.06464.94第六十三頁(yè),共一百一十三頁(yè),編輯于2023年,星期五7、離差平方和法:是Ward提出的,基本思想來(lái)自于方差分析的想法,如類分得恰當(dāng),同類內(nèi)的樣品之間的離差平方和應(yīng)較小,而類間的離差平方和應(yīng)當(dāng)較大。將k固定時(shí),要選擇使S達(dá)到極小的分類,一切可能的分法有:第六十四頁(yè),共一百一十三頁(yè),編輯于2023年,星期五Ward尋找到一個(gè)局部最優(yōu)解的方法。先將n個(gè)樣本各成一類,然后每次縮小一類,每縮小一類離差平方和就要增大,選擇使離差平方和S增加最小的兩類合并,直至所有樣本歸為一類為止。如果分類正確,同類樣品的離差平方和應(yīng)該較小,類與類的離差平方和應(yīng)當(dāng)較大。因此應(yīng)使小類內(nèi)各樣本的歐氏距離總平方和增加最小的兩小類合并為一類。第六十五頁(yè),共一百一十三頁(yè),編輯于2023年,星期五用Ward法分類。(1)將五個(gè)樣品各自分成一類,顯然這時(shí)類內(nèi)離差平方和S=0。(2)將一切可能的任意兩列合并,計(jì)算所增加的離差平方和,取其中較小的S所對(duì)應(yīng)的類進(jìn)行合并,例如將G1={X1}

,G2={X2}合并成一類,它的離差平方和S12=(1-1.5)2+(2-1.5)2=0.5,如果將G1={X1},G3={X3}合并成一類,它的離差平方和為S13=(1-2.25)2+(3.5-2.25)2=3.125。將一切可能的兩類合并的離差平方和都計(jì)算出來(lái),并列表如下:例:對(duì)5個(gè)樣品(1、2、3.5、7、9)進(jìn)行分類第六十六頁(yè),共一百一十三頁(yè),編輯于2023年,星期五G1G2G3G4G5G1={X1}0G2={X2}0.50G3={X3}3.1251.1250G4={X4}1812.56.1250G5={X5}3224.515.12520

上表中非對(duì)角線最小元素是0.5,說(shuō)明將G1,G2合并為一個(gè)新類G6增加的S最少.計(jì)算新類G6與其它類的距離,得下表。第六十七頁(yè),共一百一十三頁(yè),編輯于2023年,星期五G6G3G4G5G6={X1、X2}0G3={X3}2.6670G4={X4}20.1676.1250G5={X5}37.515.12520上表中非對(duì)角線最小元素是2,則將G4,G5合并為一個(gè)新類G7.計(jì)算新類G7與其它類的距離。第六十八頁(yè),共一百一十三頁(yè),編輯于2023年,星期五G6G3G7G6={X1、X2}0G3={X3}2.6670G7={X4、X5}42.2513.50

上表中非對(duì)角線最小元素是2.667,則將G3,G6合并為一個(gè)新類G8.計(jì)算新類G8與其它類的距離。第六十九頁(yè),共一百一十三頁(yè),編輯于2023年,星期五G6G7G6={X1、X2、X3}0G7={X4、X5}40.830X1X2

X3X4X5G6G8G7G90.52.667240.83第七十頁(yè),共一百一十三頁(yè),編輯于2023年,星期五

分別為Gp和Gq的重心,類與類之間的距離定義為兩個(gè)類重心(類內(nèi)樣品平均值)間的平方距離。8、重心法:也稱為樣品的均值法。設(shè)Gp和Gq為兩個(gè)類第七十一頁(yè),共一百一十三頁(yè),編輯于2023年,星期五重心法遞推公式假設(shè)第p類和第q類合并成第r類,第r類與其它各舊類的距離按重心法為:第七十二頁(yè),共一百一十三頁(yè),編輯于2023年,星期五

重心法的歸類步驟與以上方法基本相同,所不同的是每合并一次,就要重新計(jì)算新類的重心及各類與新類的距離。GrGl第七十三頁(yè),共一百一十三頁(yè),編輯于2023年,星期五例:設(shè)5個(gè)樣品(1,2,3.5,7,9)。重心法的初始距離與中間距離法相同。G1G2G3G4G5G1={X1}0G2={X2}10G3={X3}6.252.250G4={X4}362512.250G5={X5}644930.2540找出上表中非對(duì)角線最小元素是1,則將G1,G2合并為一個(gè)新類G6.計(jì)算新類的重心,其與其它類的距離。第七十四頁(yè),共一百一十三頁(yè),編輯于2023年,星期五G6G3G4G5G6={X1、X2}0G3={X3}40G4={X4}30.2512.250G5={X5}56.2530.2540第七十五頁(yè),共一百一十三頁(yè),編輯于2023年,星期五找出上表中非對(duì)角線最小元素是4,則將G3,G6合并為一個(gè)新類G7,將G4,G5合并為一個(gè)新類G8.最后計(jì)算它們的距離。G7G8G7={X1、X2、X3}0G8={X4、X5}34.030第七十六頁(yè),共一百一十三頁(yè),編輯于2023年,星期五X1X2

X3X4X5G6G7G8G9144第七十七頁(yè),共一百一十三頁(yè),編輯于2023年,星期五幾種系統(tǒng)聚類方法的統(tǒng)一

以上聚類方法的計(jì)算步驟完全相同,僅類與類之間距離的定義不同。Lance(蘭斯)和Williams(威廉姆斯)于1967年將其統(tǒng)一為:第七十八頁(yè),共一百一十三頁(yè),編輯于2023年,星期五幾種系統(tǒng)聚類法公式的參數(shù)

方法αpαqβγ最短距離法??0-1/2最長(zhǎng)距離法??0?中間距離法??-1/40重心法np/nrnq/nr-αpαq0類平均法np/nrnq/nr00可變類平均法(1-β)np/nr(1-β)nq/nr<10可變法(1-β)/2(1-β)/2<10離差平方和法(np+nl)/(nr+

nl)(nq+nl)/(nr+

nl)-nl/(nr+

nl)0第七十九頁(yè),共一百一十三頁(yè),編輯于2023年,星期五實(shí)例分析選取指標(biāo)

①y1——人均GDP,它反映了經(jīng)濟(jì)社會(huì)發(fā)展的總體狀況和一般水平;②y2——人均第三產(chǎn)業(yè)增加值,它反映了人均服務(wù)產(chǎn)品占有量或服務(wù)密度;③y3——第二產(chǎn)業(yè)增加值比重,它反映了工業(yè)化水平和產(chǎn)業(yè)結(jié)構(gòu)現(xiàn)代化程度;④y4——第三產(chǎn)業(yè)增加值比重,它反映了第三產(chǎn)業(yè)的發(fā)展程度及其對(duì)國(guó)民經(jīng)濟(jì)的貢獻(xiàn);⑤y5——第三產(chǎn)業(yè)從業(yè)人員比重,它反映了第三產(chǎn)業(yè)對(duì)勞動(dòng)力的吸納能力;⑥y6——第三產(chǎn)業(yè)固定資產(chǎn)投資比重,它反映了第三產(chǎn)業(yè)的資金投入程度;⑦y7——城市化水平,它反映了農(nóng)村人口轉(zhuǎn)化為城市人口的程度及對(duì)服務(wù)的需求量。例:對(duì)中國(guó)大陸31個(gè)省級(jí)區(qū)域第三產(chǎn)業(yè)綜合發(fā)展水平進(jìn)行類型劃分及差異性程度分析---第八十頁(yè),共一百一十三頁(yè),編輯于2023年,星期五①用標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化方法對(duì)7項(xiàng)指標(biāo)的原始數(shù)據(jù)進(jìn)行處理。②采用歐氏距離測(cè)度31個(gè)省(市、區(qū))之間的樣本間距離。③選用組平均法計(jì)算類間的距離,并對(duì)樣本進(jìn)行歸類。具體的數(shù)據(jù)與計(jì)算過(guò)程在此略。經(jīng)過(guò)上述聚類計(jì)算步驟,得到的聚類結(jié)果見下圖。聚類計(jì)算(計(jì)算過(guò)程)第八十一頁(yè),共一百一十三頁(yè),編輯于2023年,星期五樣本Num+---------+---------+---------+---------+---------+安徽12河南16甘肅28四川23貴州24河北3山東15山西4湖北17重慶22陜西27寧夏30江西14湖南18廣西20云南25江蘇10浙江11廣東19福建13遼寧6黑龍江8吉林7新疆31內(nèi)蒙古5青海29海南21西藏26北京1上海9天津2圖中國(guó)31個(gè)省級(jí)區(qū)域第三產(chǎn)業(yè)發(fā)展水平組平均聚類譜系圖

第八十二頁(yè),共一百一十三頁(yè),編輯于2023年,星期五聚類結(jié)果分析當(dāng)類間距離取為4.0和2.5時(shí),全國(guó)各省份被合并成以下幾類:①上海、北京、天津3直轄市為一類,而上海和北京更接近;②西藏、海南為一特殊類;青海、內(nèi)蒙古、新疆、吉林為一類,其中內(nèi)蒙古、新疆、吉林合并為一亞類;③江蘇、浙江、廣東、福建、遼寧、黑龍江為一類,其中江蘇、浙江、廣東合并為一亞類;④重慶、陜西、寧夏、江西、湖南、廣西為一類,其中重慶、陜西、寧夏和江西、湖南、廣西各自為一亞類,云南為一孤立點(diǎn);⑤河北、山東、山西、湖北為一類;⑥安徽、河南、甘肅、四川、貴州為一類。第八十三頁(yè),共一百一十三頁(yè),編輯于2023年,星期五例:為了更深入地了解我國(guó)人口的文化程度狀況,現(xiàn)利用1990年全國(guó)人口普查數(shù)據(jù)對(duì)全國(guó)30個(gè)省、市進(jìn)行聚類分析。分析選用了三個(gè)指標(biāo)(1)大學(xué)以上文化程度的人口占全部人口的比例(X1);(2)初中文化程度的人口占全部人口的比例(X2);(3)文盲半文盲的人口占全部人口的比例(X3)。用它們分別來(lái)反映較高、中等、較低文化程度人口的狀況,原始數(shù)據(jù)如下:第八十四頁(yè),共一百一十三頁(yè),編輯于2023年,星期五地區(qū)序號(hào)X1X2X3北京19.3030.558.70天津24.6729.388.92河北30.9624.6915.21山西41.3829.2411.30內(nèi)蒙51.4825.4715.39遼寧62.6032.328.81吉林72.1526.3110.49黑龍江82.1428.4610.87上海96.5331.5911.04江蘇101.4726.4317.23浙江111.1723.7417.461990年全國(guó)人口普查文化程度人口比例(%)第八十五頁(yè),共一百一十三頁(yè),編輯于2023年,星期五地區(qū)序號(hào)X1X2X3安徽120.8819.9724.43福建131.2316.8715.63江西140.9918.8416.22山東150.9825.1816.87河南160.8526.5516.15湖北171.5723.1615.79湖南181.1422.5712.10廣東191.3423.0410.45廣西200.7919.1410.61海南211.2422.5313.97四川220.9621.6516.241990年全國(guó)人口普查文化程度人口比例(%)第八十六頁(yè),共一百一十三頁(yè),編輯于2023年,星期五地區(qū)序號(hào)X1X2X3貴州230.7814.6524.27云南240.8113.8525.44西藏260.573.8544.43陜西261.6724.3617.62甘肅271.1016.8527.93青海281.4917.7627.70寧夏291.6120.2722.06新疆301.8520.6612.751990年全國(guó)人口普查文化程度人口比例(%)第八十七頁(yè),共一百一十三頁(yè),編輯于2023年,星期五

首先計(jì)算樣品之間的相似系數(shù),使用最長(zhǎng)距離法、重心法和Ward法,分別計(jì)算,并畫出聚類圖(從略),聚類結(jié)果為:第一類:北京、天津、山西、遼寧、吉林、黑龍江、上海。其中大部分是東部經(jīng)濟(jì)、文化較發(fā)達(dá)的地區(qū)。第二類:安徽、寧夏、青海、甘肅、云南、貴州。其中大部分是西部經(jīng)濟(jì)、文化發(fā)展較慢的地區(qū)。第三類:西藏。經(jīng)濟(jì)、文化發(fā)展落后的地區(qū)。第四類:其它省、市。經(jīng)濟(jì)、文化發(fā)展處于全國(guó)中等水平。分析

第八十八頁(yè),共一百一十三頁(yè),編輯于2023年,星期五四、系統(tǒng)聚類法的性質(zhì)

單調(diào)性:設(shè)Dk是系統(tǒng)聚類法中的第k次并類時(shí)的距離,如果D1<D2<D3<,則稱并類距離具有單調(diào)性。

可以證明最短距離法、最長(zhǎng)距離法、類平均法、離差平方和法、可變法和可變類平均法都具有單調(diào)性,而中間距離法、重心法不具有單調(diào)性。這種單調(diào)性符合系統(tǒng)聚類法的思想,先合并較相近的類,然后合并較疏遠(yuǎn)的類。空間的濃縮與擴(kuò)張

通過(guò)前面的例題可以看出,對(duì)于同一問(wèn)題采用不同聚類法作圖時(shí),橫坐標(biāo)的范圍可相差很大。與類平均法相比最短距離法與重心法比較濃縮;最長(zhǎng)距離法、離差平方和法、可變類平均比較擴(kuò)張;類平均法比較適中。太濃縮的方法不夠靈活,太擴(kuò)張的方法可能因靈敏度過(guò)高而容易失真。類平均法比較適中。它既不太濃縮,也不太擴(kuò)張。相對(duì)而言它被認(rèn)為是一種比較理想的方法。第八十九頁(yè),共一百一十三頁(yè),編輯于2023年,星期五第四節(jié)K均值聚類(快速聚類)一、思想二、原理三、凝聚點(diǎn)的選擇四、R型聚類 五、確定類的個(gè)數(shù)六、各種聚類方法的比較七、聚類的應(yīng)用小結(jié)第九十頁(yè),共一百一十三頁(yè),編輯于2023年,星期五一、思想

當(dāng)樣本點(diǎn)數(shù)量十分龐大時(shí),則用系統(tǒng)聚類是一件非常繁重的工作,且聚類的計(jì)算速度也比較慢。作出的樹狀圖也十分復(fù)雜,不便于分析。比如在市場(chǎng)抽樣調(diào)查中,有4萬(wàn)人就其對(duì)衣著的偏好作了回答,希望能迅速將他們分為幾類。這時(shí),采用系統(tǒng)聚類法就很困難,因此人們提出能否先給出一個(gè)初始的分類(初始分類不一定完全合理),然后按照某種原則進(jìn)行修改,直至分類達(dá)到合理為止。如果選擇了N個(gè)數(shù)值型變量參與聚類分析,最后要求聚類數(shù)K,那么可以由系統(tǒng)首先選擇K個(gè)觀測(cè)量作為聚類的種子,也稱初始類中心、凝聚點(diǎn)。第九十一頁(yè),共一百一十三頁(yè),編輯于2023年,星期五二、原理(1)按照一定的原則,選擇k個(gè)初始凝聚點(diǎn)(2)根據(jù)歐氏距離將每個(gè)樣品歸類。將每個(gè)樣品歸入凝聚點(diǎn)離它最近的那個(gè)類。(3)各類的重心代替初始凝聚點(diǎn)(4)重復(fù)第(2)、(3)步直至分類達(dá)到穩(wěn)定。即不能再分配為止。第九十二頁(yè),共一百一十三頁(yè),編輯于2023年,星期五三、凝聚點(diǎn)的選擇1、經(jīng)驗(yàn)選擇

根據(jù)對(duì)分類問(wèn)題的了解,依據(jù)經(jīng)驗(yàn)將分類問(wèn)題預(yù)先確定一個(gè)分類數(shù)或初始分類,并在每類中選一個(gè)有代表性的樣品點(diǎn)作為凝聚點(diǎn)。2、運(yùn)用系統(tǒng)聚類的結(jié)果作為參考(以一部分樣品為對(duì)象進(jìn)行聚類,結(jié)果作為K均值法確定類數(shù)的參考與系統(tǒng)聚類比較:都是以距離的遠(yuǎn)近親蔬為標(biāo)準(zhǔn)進(jìn)行聚類的系統(tǒng)聚類對(duì)不同的類數(shù)產(chǎn)生一系列聚類結(jié)果,而快速聚類法只能產(chǎn)生指定類數(shù)的聚類結(jié)果。具體類數(shù)的確定,離不開實(shí)踐經(jīng)驗(yàn)的積累。該方法的優(yōu)點(diǎn)就是計(jì)算量小,速度快;缺點(diǎn)是最終結(jié)果受初始凝聚點(diǎn)的選擇影響。第九十三頁(yè),共一百一十三頁(yè),編輯于2023年,星期五例:設(shè)有5個(gè)樣品(1,2,6,8,11),試用動(dòng)態(tài)聚類法進(jìn)行聚類,且指定k=2。步驟為:(1)我們隨意將這些樣品分成以下兩類。第九十四頁(yè),共一百一十三頁(yè),編輯于2023年,星期五第九十五頁(yè),共一百一十三頁(yè),編輯于2023年,星期五四、R型聚類法(指標(biāo)聚類、變量聚類)對(duì)變量聚類,是一種降維的方法。用于在變量眾多時(shí)尋找有代表性的變量,以便當(dāng)用少量、有代表性的變量代替大變量時(shí)損失信息最少。對(duì)指標(biāo)聚類時(shí),常采用相似系數(shù),相似系數(shù)大或距離小則表示類間關(guān)系密切。利用幾種聚類方法獲得的結(jié)果是相同的,但一般情況下,結(jié)果不完全相同。哪一種方法效果好呢?這就需要提出一個(gè)標(biāo)準(zhǔn)作為衡量的依據(jù),但至今還沒(méi)有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)。在實(shí)際應(yīng)用中,一般采用以下兩種方法:一種是根據(jù)分類問(wèn)題本身的專業(yè)知識(shí)結(jié)合實(shí)際需要來(lái)選擇分類方法,并確定分類個(gè)數(shù)。另一種是用多種分類方法去作,把結(jié)果中的共性取出來(lái),如果幾種方法的某些結(jié)果都一樣,則說(shuō)明這樣的聚類確實(shí)反映了事物的本質(zhì),而將有爭(zhēng)議的樣品暫放在一邊或用其它方法進(jìn)行歸類。第九十六頁(yè),共一百一十三頁(yè),編輯于2023年,星期五

計(jì)算每類中相關(guān)指數(shù)的平均值,其中較大者就是該類的代表性指標(biāo)。計(jì)算公式:代表性指標(biāo)的選擇第九十七頁(yè),共一百一十三頁(yè),編輯于2023年,星期五例如:若體重、胸圍、大腿圍是研究胖瘦一類中的三個(gè)指標(biāo),其相關(guān)系數(shù)如下表:體重胸圍大腿圍體重1胸圍0.82231大腿圍0.74030.6411計(jì)算體重對(duì)胸圍及大腿圍的指標(biāo)為:[(0.8223)2+(0.7403)2]/(3-1)=0.6121計(jì)算胸圍對(duì)體重及大腿圍的指標(biāo)為[(0.8223)2+(0.6413)2]/(3-1)=0.5445計(jì)算大腿圍對(duì)體重及胸圍的指標(biāo)[(0.6413)2+(0.7403)2]/(3-1)=0.4331因此用體重作為研究胖瘦這一類代表性指標(biāo)。它與實(shí)際情況是相符的。第九十八頁(yè),共一百一十三頁(yè),編輯于2023年,星期五五、確定類的個(gè)數(shù)

1、給定閾值——通過(guò)觀測(cè)聚類圖,給出一個(gè)合適的閾值t。要求類與類之間的距離不要超過(guò)T值。例如我們給定t=0.35,當(dāng)聚類時(shí),類間的距離已經(jīng)超過(guò)了0.35,則聚類結(jié)束。第九十九頁(yè),共一百一十三頁(yè),編輯于2023年,星期五總離差平方和的分解(準(zhǔn)備知識(shí))2、統(tǒng)計(jì)量可以證明:總離差平方和=組內(nèi)離差平方和+組間離差平方和第一百頁(yè),共一百一十三頁(yè),編輯于2023年,星期五

比較大,說(shuō)明分G個(gè)類時(shí)類內(nèi)的離差

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論