應(yīng)用多元分析聚類分析newnew_第1頁
應(yīng)用多元分析聚類分析newnew_第2頁
應(yīng)用多元分析聚類分析newnew_第3頁
應(yīng)用多元分析聚類分析newnew_第4頁
應(yīng)用多元分析聚類分析newnew_第5頁
已閱讀5頁,還剩163頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

應(yīng)用多元分析聚類分析newnew第一頁,共一百六十八頁,2022年,8月28日第六章聚類分析第二頁,共一百六十八頁,2022年,8月28日系統(tǒng)聚類分析直觀,易懂??焖倬垲惪焖?,動(dòng)態(tài)。有序聚類保序(時(shí)間順序或大小順序)。第三頁,共一百六十八頁,2022年,8月28日

例對10位應(yīng)聘者做智能檢驗(yàn)。3項(xiàng)指標(biāo)X,Y和Z分別表示數(shù)學(xué)推理能力,空間想象能力和語言理解能力。其得分如下,選擇合適的統(tǒng)計(jì)方法對應(yīng)聘者進(jìn)行分類。應(yīng)聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424§6.1引言第四頁,共一百六十八頁,2022年,8月28日第五頁,共一百六十八頁,2022年,8月28日第六頁,共一百六十八頁,2022年,8月28日

我們直觀地來看,這個(gè)分類是否合理?計(jì)算4號和6號得分的離差平方和:

(21-20)2+(23-23)2+(22-22)2=1

計(jì)算1號和2號得分的離差平方和:

(28-18)2+(29-23)2+(28-18)2=236

計(jì)算1號和3號得分的離差平方和為482,由此可見一般,分類可能是合理的,歐氏距離很大的應(yīng)聘者沒有被聚在一起。由此,我們的問題是如何來選擇樣品間相似的測度指標(biāo),如何將有相似性的類連接起來?第七頁,共一百六十八頁,2022年,8月28日

聚類分析根據(jù)一批樣品的許多觀測指標(biāo),按照一定的數(shù)學(xué)公式具體地計(jì)算一些樣品或一些參數(shù)(指標(biāo))的相似程度,把相似的樣品或指標(biāo)歸為一類,把不相似的歸為一類。例如對上市公司的經(jīng)營業(yè)績進(jìn)行分類;據(jù)經(jīng)濟(jì)信息和市場行情,客觀地對不同商品、不同用戶及時(shí)地進(jìn)行分類。又例如當(dāng)我們對企業(yè)的經(jīng)濟(jì)效益進(jìn)行評價(jià)時(shí),建立了一個(gè)由多個(gè)指標(biāo)組成的指標(biāo)體系,由于信息的重疊,一些指標(biāo)之間存在很強(qiáng)的相關(guān)性,所以需要將相似的指標(biāo)聚為一類,從而達(dá)到簡化指標(biāo)體系的目的。第八頁,共一百六十八頁,2022年,8月28日

思考:樣本點(diǎn)之間按什么刻畫相似程度思考:樣本點(diǎn)和小類之間按什么刻畫相似程度思考:小類與小類之間按什么來刻畫相似程度第九頁,共一百六十八頁,2022年,8月28日

變量測量尺度的類型為了將樣本進(jìn)行分類,就需要研究樣品之間的關(guān)系;而為了將變量進(jìn)行分類,就需要研究變量之間的關(guān)系。但無論是樣品之間的關(guān)系,還是變量之間的關(guān)系,都是用變量來描述的,變量的類型不同,描述方法也就不同。通常,變量按照測量它們的尺度不同,可以分為三類。

(1)間隔尺度。指標(biāo)度量時(shí)用數(shù)量來表示,其數(shù)值由測量或計(jì)數(shù)、統(tǒng)計(jì)得到,如長度、重量、收入、支出等。一般來說,計(jì)數(shù)得到的數(shù)量是離散數(shù)量,測量得到的數(shù)量是連續(xù)數(shù)量。在間隔尺度中如果存在絕對零點(diǎn),又稱比例尺度。§2距離和相似系數(shù)第十頁,共一百六十八頁,2022年,8月28日

(2)有序尺度。指標(biāo)度量時(shí)沒有明確的數(shù)量表示,只有次序關(guān)系,或雖用數(shù)量表示,但相鄰兩數(shù)值之間的差距并不相等,它只表示一個(gè)有序狀態(tài)序列。如評價(jià)酒的味道,分成好、中、次三等,三等有次序關(guān)系,但沒有數(shù)量表示。

(3)名義尺度。指標(biāo)度量時(shí)既沒有數(shù)量表示也沒有次序關(guān)系,只有一些特性狀態(tài),如眼睛的顏色,化學(xué)中催化劑的種類等。在名義尺度中只取兩種特性狀態(tài)的變量是很重要的,如電路的開和關(guān),天氣的有雨和無雨,人口性別的男和女,醫(yī)療診斷中的“十”和“一”,市場交易中的買和賣等都是此類變量。第十一頁,共一百六十八頁,2022年,8月28日二、數(shù)據(jù)的變換處理

所謂數(shù)據(jù)變換,就是將原始數(shù)據(jù)矩陣中的每個(gè)元素,按照某種特定的運(yùn)算把它變成為一個(gè)新值,而且數(shù)值的變化不依賴于原始數(shù)據(jù)集合中其它數(shù)據(jù)的新值。

1、中心化變換中心化變換是一種坐標(biāo)軸平移處理方法,它是先求出每個(gè)變量的樣本平均值,再從原始數(shù)據(jù)中減去該變量的均值,就得到中心化變換后的數(shù)據(jù)。設(shè)原始觀測數(shù)據(jù)矩陣為:第十二頁,共一百六十八頁,2022年,8月28日

中心化變換的結(jié)果是使每列數(shù)據(jù)之和均為0,即每個(gè)變量的均值為0,而且每列數(shù)據(jù)的平方和是該列變量樣本方差的(n—1)倍,任何不同兩列數(shù)據(jù)之交叉乘積是這兩列變量樣本協(xié)方差的(n—1)倍,所以這是一種很方便地計(jì)算方差與協(xié)方差的變換。第十三頁,共一百六十八頁,2022年,8月28日

2、極差規(guī)格化變換規(guī)格化變換是從數(shù)據(jù)矩陣的每一個(gè)變量中找出其最大值和最小值,這兩者之差稱為極差,然后從每個(gè)變量的每個(gè)原始數(shù)據(jù)中減去該變量中的最小值,再除以極差,就得到規(guī)格化數(shù)據(jù)。即有:第十四頁,共一百六十八頁,2022年,8月28日

經(jīng)過標(biāo)準(zhǔn)化變換處理后,每個(gè)變量即數(shù)據(jù)矩陣中每列數(shù)據(jù)的平均值為0,方差為1,且也不再具有量綱,同樣也便于不同變量之間的比較。變換后,數(shù)據(jù)短陣中任何兩列數(shù)據(jù)乘積之和是兩個(gè)變量相關(guān)系數(shù)的(n-1)倍,所以這是一種很方便地計(jì)算相關(guān)矩陣的變換。4.對數(shù)變換對數(shù)變換是將各個(gè)原始數(shù)據(jù)取對數(shù),將原始數(shù)據(jù)的對數(shù)值作為變換后的新值。即:第十五頁,共一百六十八頁,2022年,8月28日

三、樣品間親疏程度的測度

研究樣品或變量的親疏程度的數(shù)量指標(biāo)有兩種,一種叫相似系數(shù),性質(zhì)越接近的變量或樣品,它們的相似系數(shù)越接近于1或一l,而彼此無關(guān)的變量或樣品它們的相似系數(shù)則越接近于0,相似的為一類,不相似的為不同類;另一種叫距離,它是將每一個(gè)樣品看作p維空間的一個(gè)點(diǎn),并用某種度量測量點(diǎn)與點(diǎn)之間的距離,距離較近的歸為一類,距離較遠(yuǎn)的點(diǎn)應(yīng)屬于不同的類。第十六頁,共一百六十八頁,2022年,8月28日

變量之間的聚類即R型聚類分析,常用相似系數(shù)來測度變量之間的親疏程度。而樣品之間的聚類即Q型聚類分析,則常用距離來測度樣品之間的親疏程度。

注:變量聚類放到因子分析后面第十七頁,共一百六十八頁,2022年,8月28日一、距離

定義距離要求滿足第i個(gè)和第j個(gè)樣品之間的距離如下四個(gè)條件(距離可以自己定義,只要滿足距離的條件)第十八頁,共一百六十八頁,2022年,8月28日常用距離

設(shè)和是第i和j個(gè)樣品的觀測值,則二者之間的距離為:明氏距離1明氏距離第十九頁,共一百六十八頁,2022年,8月28日

明考夫斯基距離主要有以下兩個(gè)缺點(diǎn):①明氏距離的值與各指標(biāo)的量綱有關(guān),而各指標(biāo)計(jì)量單位的選擇有一定的人為性和隨意性,各變量計(jì)量單位的不同不僅使此距離的實(shí)際意義難以說清,而且,任何一個(gè)變量計(jì)量單位的改變都會使此距離的數(shù)值改變從而使該距離的數(shù)值依賴于各變量計(jì)量單位的選擇。②明氏距離的定義沒有考慮各個(gè)變量之間的相關(guān)性和重要性。實(shí)際上,明考夫斯基距離是把各個(gè)變量都同等看待,將兩個(gè)樣品在各個(gè)變量上的離差簡單地進(jìn)行了綜合。第二十頁,共一百六十八頁,2022年,8月28日標(biāo)準(zhǔn)化變換標(biāo)準(zhǔn)化變換是對變量的數(shù)值和量綱進(jìn)行變換的一種數(shù)據(jù)處理方法。首先對每個(gè)變量進(jìn)行中心化變換,然后用該變量的標(biāo)準(zhǔn)差進(jìn)行標(biāo)準(zhǔn)化。即有:第二十一頁,共一百六十八頁,2022年,8月28日2蘭氏(LaceWilliams)距離這是蘭思和維廉姆斯(Lance&Williams)所給定的一種距離,其計(jì)算公式為:

這是一個(gè)自身標(biāo)準(zhǔn)化的量,由于它對大的奇異值不敏感,這樣使得它特別適合于高度偏倚的數(shù)據(jù)。雖然這個(gè)距離有助于克服明氏距離的第一個(gè)缺點(diǎn),但它也沒有考慮指標(biāo)之間的相關(guān)性。第二十二頁,共一百六十八頁,2022年,8月28日3馬氏距離

這是印度著名統(tǒng)計(jì)學(xué)家馬哈拉諾比斯(P.C.Mahalanobis)所定義的一種距離,其計(jì)算公式為:

分別表示第i個(gè)樣品和第j樣品的p指標(biāo)觀測值所組成的列向量,即樣本數(shù)據(jù)矩陣中第i個(gè)和第j個(gè)行向量的轉(zhuǎn)置,表示觀測變量之間的協(xié)方差短陣。在實(shí)踐應(yīng)用中,若總體協(xié)方差矩陣未知,則可用樣本協(xié)方差矩陣作為估計(jì)代替計(jì)算。第二十三頁,共一百六十八頁,2022年,8月28日

馬氏距離又稱為廣義歐氏距離。顯然,馬氏距離與上述各種距離的主要不同就是馬氏距離考慮了觀測變量之間的相關(guān)性。如果假定各變量之間相互獨(dú)立,即觀測變量的協(xié)方差矩陣是對角矩陣,則馬氏距離就退化為用各個(gè)觀測指標(biāo)的標(biāo)準(zhǔn)差的倒數(shù)作為權(quán)數(shù)進(jìn)行加權(quán)的歐氏距離。因此,馬氏距離不僅考慮了觀測變量之間的相關(guān)性,而且也考慮到了各個(gè)觀測指標(biāo)取值的差異程度,為了對馬氏距離和歐氏距離進(jìn)行一下比較,以便更清楚地看清二者的區(qū)別和聯(lián)系,現(xiàn)考慮一個(gè)例子。第二十四頁,共一百六十八頁,2022年,8月28日例如,假設(shè)有一個(gè)二維正態(tài)總體,它的分布為:

第二十五頁,共一百六十八頁,2022年,8月28日

4斜交空間距離

由于各變量之間往往存在著不同的相關(guān)關(guān)系,用正交空間的距離來計(jì)算樣本間的距離易變形,所以可以采用斜交空間距離。

當(dāng)各變量之間不相關(guān)時(shí),斜交空間退化為歐氏距離。第二十六頁,共一百六十八頁,2022年,8月28日

二、相似系數(shù)

設(shè)和是第和個(gè)樣品的觀測值,則二者之間的相似系數(shù)應(yīng)滿足:第二十七頁,共一百六十八頁,2022年,8月28日

1、夾角余弦

夾角余弦時(shí)從向量集合的角度所定義的一種測度變量之間親疏程度的相似系數(shù)。設(shè)在n維空間的向量2、相關(guān)系數(shù)

第二十八頁,共一百六十八頁,2022年,8月28日距離和相似系數(shù)選擇的原則一般說來,同一批數(shù)據(jù)采用不同的親疏測度指標(biāo),會得到不同的分類結(jié)果。產(chǎn)生不同結(jié)果的原因,主要是由于不同的親疏測度指標(biāo)所衡量的親疏程度的實(shí)際意義不同,也就是說,不同的親疏測度指標(biāo)代表了不同意義上的親疏程度。因此我們在進(jìn)行聚類分析時(shí),應(yīng)注意親疏測度指標(biāo)的選擇。通常,選擇親疏測度指標(biāo)時(shí),應(yīng)注意遵循的基本原則主要有:第二十九頁,共一百六十八頁,2022年,8月28日(1)所選擇的親疏測度指標(biāo)在實(shí)際應(yīng)用中應(yīng)有明確的意義。如在經(jīng)濟(jì)變量分析中,常用相關(guān)系數(shù)表示經(jīng)濟(jì)變量之間的親疏程度。第三十頁,共一百六十八頁,2022年,8月28日(2)親疏測度指標(biāo)的選擇要綜合考慮已對樣本觀測數(shù)據(jù)實(shí)施了的變換方法和將要采用的聚類分析方法。如在標(biāo)準(zhǔn)化變換之下,夾角余弦實(shí)際上就是相關(guān)系數(shù);又如若在進(jìn)行聚類分析之前已經(jīng)對變量的相關(guān)性作了處理,則通常就可采用歐氏距離,而不必選用斜交空間距離。此外,所選擇的親疏測度指標(biāo),還須和所選用的聚類分析方法一致。如聚類方法若選用離差平方和法,則距離只能選用歐氏距離。第三十一頁,共一百六十八頁,2022年,8月28日

(3)適當(dāng)?shù)乜紤]計(jì)算工作量的大小。如對大樣本的聚類問題,不適宜選擇斜交空間距離,因采用該距離處理時(shí),計(jì)算工作量太大。樣品間或變量間親疏測度指標(biāo)的選擇是一個(gè)比較復(fù)雜且?guī)е饕?guī)性的問題,我們應(yīng)根據(jù)研究對象的特點(diǎn)作具體分折,以選擇出合適的親疏測度指標(biāo)。實(shí)踐中,在開始進(jìn)行聚類分析時(shí),不妨試探性地多選擇幾個(gè)親疏測度指標(biāo),分別進(jìn)行聚類,然后對聚類分析的結(jié)果進(jìn)行對比分析,以確定出合適的親疏測度指標(biāo)。第三十二頁,共一百六十八頁,2022年,8月28日0…┇┇┇┇0…0…

至此,我們已經(jīng)可以根據(jù)所選擇的距離構(gòu)成樣本點(diǎn)間的距離表,樣本點(diǎn)之間被連接起來。第三十三頁,共一百六十八頁,2022年,8月28日樣本數(shù)據(jù)與小類、小類與小類之間的度量1、最短距離(NearestNeighbor)x21?x12?x22?x11?第三十四頁,共一百六十八頁,2022年,8月28日2、最長距離(FurthestNeighbor

)???x11?x21????第三十五頁,共一百六十八頁,2022年,8月28日??????3、類平均距離(Between-groupLinkage)第三十六頁,共一百六十八頁,2022年,8月28日1、組內(nèi)平均連接法(Within-groupLinkage)x21?x12?x22?x11?第三十七頁,共一百六十八頁,2022年,8月28日重心法(Centroidclustering):均值點(diǎn)的距離??第三十八頁,共一百六十八頁,2022年,8月28日離差平方和法連接2,41,56,5第三十九頁,共一百六十八頁,2022年,8月28日紅綠(2,4,6,5)8.75

離差平方和增加8.75-2.5=6.25

黃綠(6,5,1,5)14.75離差平方和增加14.75-8.5=6.25黃紅(2,4,1,5)10-10=0故按該方法的連接和黃紅首先連接。第四十頁,共一百六十八頁,2022年,8月28日計(jì)劃學(xué)時(shí):4學(xué)時(shí)教學(xué)課型:理論課教學(xué)目的與要求:掌握系統(tǒng)聚類法的基本原理,幾種常見系統(tǒng)聚類法教學(xué)重點(diǎn):系統(tǒng)聚類分析的基本原理,幾種常見系統(tǒng)聚類法教學(xué)難點(diǎn):系統(tǒng)聚類分析的基本原理,幾種常見系統(tǒng)聚類法的應(yīng)用教學(xué)方法、手段與媒介:根據(jù)教材用多媒體課件課堂講授作業(yè):P2311-5教學(xué)過程與內(nèi)容:第四十一頁,共一百六十八頁,2022年,8月28日§6.3系統(tǒng)聚類法1、根據(jù)樣品的特征,規(guī)定樣品之間的距離,共有個(gè)。將所有列表,記為D(0)表,該表是一張對稱表。所有的樣本點(diǎn)各自為一類。(一)步驟

開始各樣本自成一類,根據(jù)樣品的特征,規(guī)定樣品之間的距離和類與類間的距離,將距離最近的兩類合并為一個(gè)新類,計(jì)算新類與其他類的距離,重新合并距離最近的兩個(gè)類,每次減少一個(gè)類,直到所有的樣本被合并為一個(gè)類.第四十二頁,共一百六十八頁,2022年,8月28日3、利用遞推公式計(jì)算新類與其它類之間的距離。分別刪除D(0)表的第p,q行和第p,q列,并新增一行和一列添上的結(jié)果,產(chǎn)生D(1)表。2、選擇D(0)表中最小的非零數(shù),不妨假設(shè)為,于是將和合并為一類,記為:第四十三頁,共一百六十八頁,2022年,8月28日4、在D(1)表再選擇最小的非零數(shù),其對應(yīng)的兩類有構(gòu)成新類,再利用遞推公式計(jì)算新類與其它類之間的距離。分別刪除D(1)表的相應(yīng)的行和列,并新增一行和一列添上的新類和舊類之間的距離。結(jié)果,產(chǎn)生D(2)表。類推直至所有的樣本點(diǎn)歸為一類為止。第四十四頁,共一百六十八頁,2022年,8月28日(二)常用的種類

1、最短距離法

步驟:(1)規(guī)定樣品間的距離,計(jì)算n個(gè)樣品間的距離矩陣D(0);

(3)計(jì)算新類與任一類之間距離的遞推公式為(2)選擇D(0)中最小元素,設(shè)為,則將和合并成一個(gè)新類,記為,即;第四十五頁,共一百六十八頁,2022年,8月28日在中,和所在的行和列合并成一個(gè)新行新列,對應(yīng),該行列上的新距離值由(6.3.2)求得,其余行列上的距離值不變,得到新的距離陣,記作。(4)對重復(fù)上述對的兩步得,如此下去直至所有元素合并成一類為止.

注如果某一步中最小元素不止一個(gè),則稱此現(xiàn)象為結(jié),對應(yīng)這些最小元素的類可以任選一對合并或同時(shí)合并。第四十六頁,共一百六十八頁,2022年,8月28日

設(shè)抽取五個(gè)樣品,每個(gè)樣品只有一個(gè)指標(biāo),它們是1,2,6,8,11。用最短距離法對5個(gè)樣品進(jìn)行分類。首先采用絕對距離計(jì)算距離矩陣:

0

10

540

7620

109530(1)求出距離陣第四十七頁,共一百六十八頁,2022年,8月28日

0

40

620

9530(2)中

,和被聚為新類,得.

第四十八頁,共一百六十八頁,2022年,8月28日039040(3)中的最小元素是,合并為,計(jì)算與其它類間的距離得.第四十九頁,共一百六十八頁,2022年,8月28日040(4)中的最小元素是,合并為,計(jì)算與其它類間的距離得.

(5)將合并為,所有5個(gè)樣品合并為一類.第五十頁,共一百六十八頁,2022年,8月28日各步聚類的結(jié)果:(1,2)(3)(4)(5)(1,2)(3,4)(5)(1,2)(3,4,5)(1,2,3,4,5)第五十一頁,共一百六十八頁,2022年,8月28日Dataexample631;inputx@@;cards;126811;Run;Procclusterdata=example631method=sinnonorm;Proctreehorizontal;Run;第五十二頁,共一百六十八頁,2022年,8月28日

TheSASSystem00:25Wednesday,November10,20061TheCLUSTERProcedureSingleLinkageClusterAnalysisEigenvaluesoftheCovarianceMatrixEigenvalueDifferenceProportionCumulative117.30000001.00001.0000Root-Mean-SquareTotal-SampleStandardDeviation=4.159327MeanDistanceBetweenObservations=5.2ClusterHistoryNormTMiniNCL--ClustersJoined---FREQDiste4OB1OB220.19233OB3OB420.38462CL3OB530.57691CL4CL250.7692第五十三頁,共一百六十八頁,2022年,8月28日第五十四頁,共一百六十八頁,2022年,8月28日最長距離法的遞推公式

假設(shè)第K類和第L類合并成第類,第M類與其它各舊類的距離按最長距離法為:2、最長距離法第五十五頁,共一百六十八頁,2022年,8月28日

用最長距離法對5個(gè)樣品進(jìn)行分類。首先采用絕對距離計(jì)算距離矩陣:

0

10

540

7620

109530第五十六頁,共一百六十八頁,2022年,8月28日

0

50

720

10530(2)中

,和被聚為新類,得.

第五十七頁,共一百六十八頁,2022年,8月28日0510050(3)中的最小元素是,合并為,計(jì)算與其它類間的距離得.第五十八頁,共一百六十八頁,2022年,8月28日(4)中的最小元素是,合并為,計(jì)算與其它類間的距離得.0100

(5)將合并為,所有5個(gè)樣品合并為一類.第五十九頁,共一百六十八頁,2022年,8月28日Dataexample631;inputx@@;cards;126811;Run;Procclusterdata=example631method=complete;Proctreehorizontal;Run;第六十頁,共一百六十八頁,2022年,8月28日TheSASSystem00:25Wednesday,November10,20062TheCLUSTERProcedureCompleteLinkageClusterAnalysisEigenvaluesoftheCovarianceMatrixEigenvalueDifferenceProportionCumulative117.30000001.00001.0000Root-Mean-SquareTotal-SampleStandardDeviation=4.159327MeanDistanceBetweenObservations=5.2ClusterHistoryNormTMaxiNCL--ClustersJoined---FREQDiste4OB1OB220.19233OB3OB420.38462CL3OB530.96151CL4CL251.9231第六十一頁,共一百六十八頁,2022年,8月28日第六十二頁,共一百六十八頁,2022年,8月28日例

對305名女中學(xué)生測量八個(gè)體型指標(biāo):相關(guān)矩陣列于表6.3.5.用相關(guān)系數(shù)度量各對變量間的相似性。用最長距離法進(jìn)行聚類。第六十三頁,共一百六十八頁,2022年,8月28日表6.3.5各對變量間的相關(guān)系數(shù)1.0000.8461.0000.8050.8811.0000.8590.8260.8011.0000.4730.3760.3800.4361.0000.3980.3260.3190.3290.7621.0000.3010.2770.2370.3270.7300.5831.0000.3820.4150.3450.3650.6290.5770.5391.000第六十四頁,共一百六十八頁,2022年,8月28日1.0000.8461.0000.8050.8811.0000.8590.8260.8011.0000.4730.3760.3800.4361.0000.3980.3260.3190.3290.7621.0000.3010.2770.2370.3270.7300.5831.0000.3820.4150.3450.3650.6290.5770.5391.000第六十五頁,共一百六十八頁,2022年,8月28日1.0000.8051.0000.3010.2370.3270.7300.5831.0000.8590.8011.0000.4730.37604361.0000.3980.3190.3290.7621.0000.3820.3450.3650.6290.5770.5391.000第六十六頁,共一百六十八頁,2022年,8月28日0.3650.3450.6290.5770.5391.0001.0000.8011.0000.3010.2370.7300.5831.0000.4360.3761.0000.3290.3190.7621.000第六十七頁,共一百六十八頁,2022年,8月28日1.0000.2370.7300.5831.0000.3761.0000.3190.7621.0000.3450.6290.5770.5391.000第六十八頁,共一百六十八頁,2022年,8月28日1.0000.2370.5831.0000.3191.0000.3450.5770.5391.000第六十九頁,共一百六十八頁,2022年,8月28日0.3450.5391.0001.0000.2371.000第七十頁,共一百六十八頁,2022年,8月28日1.0000.2371.000第七十一頁,共一百六十八頁,2022年,8月28日Dataexample632(type=distance);Arrayx(8)x1-x8;Inputv$x1-x8;Doi=1to8;x(i)=1-x(i);End;DropI;cards;X11.0000.8460.8050.8590.4730.3980.3010.382X20.8461.000......X30.8050.8811.000.....X40.8590.8260.8011.000....X50.4730.3760.3800.4361.000...X60.3980.3260.3190.3290.7621.000..X70.3010.2770.2370.3270.7300.5831.000.X80.3820.4150.3450.3650.6290.5770.5391.000;Procprintdata=example632;第七十二頁,共一百六十八頁,2022年,8月28日Procclusterdata=example632method=com;varx1-x8;Idv;Proctreehorizontal;Idv;Run;第七十三頁,共一百六十八頁,2022年,8月28日第七十四頁,共一百六十八頁,2022年,8月28日3、中間距離法最長距離最短距離中間距離第七十五頁,共一百六十八頁,2022年,8月28日中間距離法的遞推公式第七十六頁,共一百六十八頁,2022年,8月28日

用中間距離法對5個(gè)樣品進(jìn)行分類。首先采用絕對距離計(jì)算距離平方矩陣:

0

10

6.252.250

362512.250

644930.2540

第七十七頁,共一百六十八頁,2022年,8月28日第七十八頁,共一百六十八頁,2022年,8月28日

0

40

30.2512.250

56.2530.2540第七十九頁,共一百六十八頁,2022年,8月28日四、類平均法

類平均法定義類間的距離是兩類間樣品的距離的平均數(shù)。對應(yīng)我們前面討論的組間類平均法的遞推公式

假設(shè)第K類和第L類合并成第類,第M類與其它各舊類的距離按最短距離法為:第八十頁,共一百六十八頁,2022年,8月28日第八十一頁,共一百六十八頁,2022年,8月28日遞推公式:可變類平均法類間距離的另一定義第八十二頁,共一百六十八頁,2022年,8月28日例續(xù)

0

10

25160

493640

100812590

第八十三頁,共一百六十八頁,2022年,8月28日

0

20.50

42.540

90.52590第八十四頁,共一百六十八頁,2022年,8月28日

0

31.50

90.5170

第八十五頁,共一百六十八頁,2022年,8月28日051.170第八十六頁,共一百六十八頁,2022年,8月28日Dataexample631;inputx@@;cards;126811;Run;Procclusterdata=example631method=average;Proctreehorizontal;Run;第八十七頁,共一百六十八頁,2022年,8月28日第八十八頁,共一百六十八頁,2022年,8月28日

分別為GK和GL的重心,類與類之間的距離定義為兩個(gè)類重心(類內(nèi)樣品平均值)間的平方距離。重心法,也稱為樣品的均值法。設(shè)GK和GL

為兩個(gè)類五、重心法第八十九頁,共一百六十八頁,2022年,8月28日遞推公式:重心法在處理異常值方面比其他系統(tǒng)聚類法更穩(wěn)健第九十頁,共一百六十八頁,2022年,8月28日

類似于方差分析的想法,如果類分得恰當(dāng),同類內(nèi)的樣品之間的離差平方和應(yīng)較小,而類間的離差平方和應(yīng)當(dāng)較大。

離差平方和法的思路是,當(dāng)k固定時(shí),選擇使S達(dá)到最小的分類。先讓n個(gè)樣品各自成一類,然后縮小一類,每縮小一類離差平方和就要增大,選擇使S2增加最小的兩類合并,直到所有的樣品歸為一類為止。離差平方和法定義類間的平方距離為六、離差平方和法第九十一頁,共一百六十八頁,2022年,8月28日類內(nèi)離差平方和:類中各樣品到類重心(均值)的平方歐氏距離之和.

設(shè)類和合并成新類,則和的類內(nèi)離差平方和分別為:

第九十二頁,共一百六十八頁,2022年,8月28日

間的平方距離為:第九十三頁,共一百六十八頁,2022年,8月28日00.512.524.550081840.5212.54.5000第九十四頁,共一百六十八頁,2022年,8月28日013.528.1760.1701212.54.500第九十五頁,共一百六十八頁,2022年,8月28日030.2560.17010.670第九十六頁,共一百六十八頁,2022年,8月28日056.030第九十七頁,共一百六十八頁,2022年,8月28日G1={1}G2={2}G4={8}G5={11}G3={6}G5G8G7G6D02648圖6.3.6離差平方和法樹形圖第九十八頁,共一百六十八頁,2022年,8月28日Dataexample631;inputx@@;cards;126811;Run;Procclusterdata=example631method=wnonormnosquare;Proctreehorizontal;Run;第九十九頁,共一百六十八頁,2022年,8月28日例6.3.3表列出了1999年全國31個(gè)省、市和自治區(qū)的城鎮(zhèn)居民家庭平均每人全年消費(fèi)性支出的八個(gè)主要變量數(shù)據(jù).這八個(gè)變量為:第一百頁,共一百六十八頁,2022年,8月28日表6.3.14消費(fèi)性支出數(shù)據(jù)北京2959.19730.79749.41513.34467.871141.82478.42457.642459.77495.47697.33302.87284.19735.97570.84305.081495.63515.90362.37285.32272.95540.58364.91188.631406.33477.77290.15208.57201.50414.72281.84212.101303.97524.29254.83192.17249.81463.09287.87192.961730.84553.90246.91279.81239.18445.20330.24163.861561.86492.42200.49218.36220.69459.62360.48147.761410.11510.71211.88277.11224.65376.82317.61152.853712.31550.74893.37346.93527.001034.98720.33462.032207.58449.37572.40211.92302.09585.23429.77252.542629.16557.32689.73435.69514.66795.87575.76323.36天津河北山西內(nèi)蒙古遼寧吉林黑龍江上海江蘇浙江第一百零一頁,共一百六十八頁,2022年,8月28日安徽1844.78430.29271.28126.33250.56513.18314.00151.392709.46428.11334.12160.77405.14461.67535.13232.291563.78303.65233.81107.90209.70393.99509.39160.121675.75613.32550.71219.79272.59599.43371.62211.841427.65431.79288.55208.14217.00337.76421.31165.321783.43511.88282.84201.01237.60617.74523.52182.521942.23512.27401.39206.06321.29697.22492.60226.453055.17353.23564.56356.27811.88873.061082.82420.812033.87300.82338.65157.78329.06621.74587.02218.272057.86186.44202.72171.79329.65477.17312.93279.192303.29589.99516.21236.55403.92730.05438.41225.801974.28507.76344.97203.21240.24575.10430.36223.46福建江西山東河南湖北湖南廣東廣西海南重慶四川第一百零二頁,共一百六十八頁,2022年,8月28日貴州1673.82437.75461.61153.32254.66445.59346.11191.482194.25537.01369.07249.54290.84561.91407.70330.952646.61839.70204.44209.11379.30371.04269.59389.331472.95390.89447.95259.51230.61490.90469.10191.341525.57472.98328.90219.86206.65449.69249.66228.191654.69437.77258.78303.00244.93479.53288.56236.511375.46480.89273.84317.32251.08424.75228.73195.931608.82536.05432.46235.82250.28541.30344.85214.40云南西藏陜西甘肅青海寧夏新疆第一百零三頁,共一百六十八頁,2022年,8月28日dataexample633;inputregion$x1-x8;cards;

bj2959.19730.79749.41513.34467.871141.82478.42457.64tj2459.77495.47697.33302.87284.19735.97570.84305.08hb1495.63515.90362.37285.32272.95540.58364.91188.63sx1406.33477.77290.15208.57201.50414.72281.84212.10nmg1303.97524.29254.83192.17249.81463.09287.87192.96ln1730.84553.90246.91279.81239.18445.20330.24163.86jl1561.86492.42200.49218.36220.69459.62360.48147.76hlj1410.11510.71211.88277.11224.65376.82317.61152.85sh3712.31550.74893.37346.93527.001034.98720.33462.03js2207.58449.37572.40211.92302.09585.23429.77252.54zj2629.16557.32689.73435.69514.66795.87575.76323.36ah1844.78430.29271.28126.33250.56513.18314.00151.39fj2709.46428.11334.12160.77405.14461.67535.13232.29jx1563.78303.65233.81107.90209.70393.99509.39160.12sd1675.75613.32550.71219.79272.59599.43371.62211.84hn1427.65431.79288.55208.14217.00337.76421.31165.32hub1783.43511.88282.84201.01237.60617.74523.52182.52hun1942.23512.27401.39206.06321.29697.22492.60226.45gd3055.17353.23564.56356.27811.88873.061082.82420.81gx2033.87300.82338.65157.78329.06621.74587.02218.27hin2057.86186.44202.72171.79329.65477.17312.93279.19cq2303.29589.99516.21236.55403.92730.05438.41225.80sc1974.28507.76344.97203.21240.24575.10430.36223.46gz1673.82437.75461.61153.32254.66445.59346.11191.48yn2194.25537.01369.07249.54290.84561.91407.70330.95xz2646.61839.70204.44209.11379.30371.04269.59389.33shx1472.95390.89447.95259.51230.61490.90469.10191.34gs1525.57472.98328.90219.86206.65449.69249.66228.19qh1654.69437.77258.78303.00244.93479.53288.56236.51nx1375.46480.89273.84317.32251.08424.75228.73195.93xj1608.82536.05432.46235.82250.28541.30344.85214.40;run;

第一百零四頁,共一百六十八頁,2022年,8月28日procclusterdata=example633method=sinstdpesudo;idregion;proctreehorizontal;idregion;procclusterdata=example633method=censtdpesudo;idregion;proctreehorizontal;idregion;procclusterdata=example633method=wstdpesudo;idregion;proctreehorizontal;idregion;run;第一百零五頁,共一百六十八頁,2022年,8月28日

根據(jù)信息基礎(chǔ)設(shè)施的發(fā)展?fàn)顩r,對世界20個(gè)國家和地區(qū)進(jìn)行分類。這里選取了發(fā)達(dá)國家,新興工業(yè)化國家、拉美國家、亞洲開發(fā)國家、轉(zhuǎn)型國家等不同類型的20個(gè)國家的資料:

call-每千人擁有的電話線數(shù);

callmove—每千戶居民擁有的蜂窩移動(dòng)電話數(shù)

fee—高峰時(shí)期每三分鐘國際電話成本

computer—每千人擁有的計(jì)算機(jī)(每秒百萬指令)

mips—每千人中的計(jì)算機(jī)功率(每秒百萬指令)

net-每千人互聯(lián)網(wǎng)戶主數(shù)第一百零六頁,共一百六十八頁,2022年,8月28日datainfor;inputcountry$callmovefeecompmipsnet;cards;meiguo631.6161.90.364032607335.34riben498.4143.23.57176102236.26deguo557.670.60284ruidian684.1281.81.42461666029.39ruishi64493.51.982341362122.68xinjiapo498.4147.52.52841357813.49taiwan469.456.13.6811969111.72hanguo434.5733.369957951.66baxi81.916.33.02198760.52zhili138.68.201.43114111.28moxige92.29.82.613117510.35eluosi174.955.122411010.48bolan1696.53.684017961.45xiongyali262.249.42.666830673.09malaixiya195.588.44.195327341.25taiguo78.627.84.952216620.11yindu13.60.306.2821010.01faguo559.142.91.27201117024.76yingguo521.10122.50.982481446111.91;第一百零七頁,共一百六十八頁,2022年,8月28日procclusterdata=informethod=singlepseudostandardouttree=c;varcallmovefeecompmipsnet;idcountry;proctreegraphicshorizontal;第一百零八頁,共一百六十八頁,2022年,8月28日datab;setc;where_ncl_<=15;run;procsortdata=b;by_ncl_;procgplotdata=b;plot_psf_*_ncl__pst2_*_ncl__sprsq_*_ncl__rsq_*_ncl_;run;第一百零九頁,共一百六十八頁,2022年,8月28日其中method=single選項(xiàng)指出用最短距離法聚類。除此之外在SAS中可供選擇的方法還有:最長距離法complete)類平均法(average)最小方差法(ward)重心法(centroid)離差平方和法(ward)中間距離法(median)可變類平均法flexible)outtree=b選項(xiàng)要求生成一個(gè)輸出數(shù)據(jù)集,用于畫樹狀圖的proctree可使用該數(shù)據(jù),可省略。Id語句指出聚類時(shí)的標(biāo)識變量,如果缺省,系統(tǒng)采用obn個(gè)案序號作為觀測的標(biāo)識。第一百一十頁,共一百六十八頁,2022年,8月28日pseudo選項(xiàng)要求計(jì)算偽F統(tǒng)計(jì)量和偽Std選項(xiàng)要求對數(shù)據(jù)進(jìn)行零均值及方差為1的標(biāo)準(zhǔn)化處理proctree是畫樹狀譜系圖的過程步,它是使用CLUSTER

過程的輸出數(shù)據(jù)來畫譜系圖。graphics指定畫譜系圖時(shí)使用高分辨率圖形。horizontal指定畫譜系圖時(shí)用水平橫畫。制聚類之前的數(shù)據(jù)處理,主要有noonrm—防止將數(shù)據(jù)規(guī)范化為單位均值和單位均方;standard—將變量進(jìn)行標(biāo)準(zhǔn)化,均值為零,標(biāo)準(zhǔn)差為1。統(tǒng)計(jì)量。第一百一十一頁,共一百六十八頁,2022年,8月28日第一百一十二頁,共一百六十八頁,2022年,8月28日計(jì)劃學(xué)時(shí):4學(xué)時(shí)教學(xué)課型:理論課教學(xué)目的與要求:掌握系統(tǒng)聚類法類數(shù)的選擇,系統(tǒng)聚類法的性質(zhì)教學(xué)重點(diǎn):系統(tǒng)聚類類數(shù)的選擇教學(xué)難點(diǎn):系統(tǒng)聚類類數(shù)的選擇原理,系統(tǒng)聚類法的性質(zhì)教學(xué)方法、手段與媒介:根據(jù)教材用多媒體課件課堂講授作業(yè):教學(xué)過程與內(nèi)容:第一百一十三頁,共一百六十八頁,2022年,8月28日七、系統(tǒng)聚類法的統(tǒng)一統(tǒng)一距離的定義第一百一十四頁,共一百六十八頁,2022年,8月28日系統(tǒng)聚類法的參數(shù)表方法最短距離法0最長距離法0中間距離法0可變法0類平均法00可變類平均法0重心法0離差平房和0第一百一十五頁,共一百六十八頁,2022年,8月28日系統(tǒng)聚類法的性質(zhì)1、單調(diào)性:

最短距離法、最長距離法、可變法、類平均法、可變類平均法、離差平方和法具有單調(diào)性。2、空間的濃縮與擴(kuò)張

設(shè)有兩種系統(tǒng)聚類法,第i步的距離陣分別為A、B,若AB,則稱前一方法比后一方法擴(kuò)張,后一方法比前一方法濃縮。第一百一十六頁,共一百六十八頁,2022年,8月28日(3)當(dāng)時(shí),D(變平)D(平);

時(shí),D(變平)D(平).

(1)D(短)D(平),D(重)D(平).(2)D(長)D(平).

第一百一十七頁,共一百六十八頁,2022年,8月28日八、確定類的個(gè)數(shù)

在聚類分析過程中類的個(gè)數(shù)如何來確定才合適呢?這是一個(gè)十分困難的問題,人們至今仍未找到令人滿意的方法。但是這個(gè)問題又是不可回避的。下面我們介紹幾種方法。

1、給定閾值T

通過觀測聚類圖,給出一個(gè)合適的閾值T。要求類與類之間的距離不要超過T值。例如我們給定T=0.35,當(dāng)聚

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論