多元分析課件_第1頁
多元分析課件_第2頁
多元分析課件_第3頁
多元分析課件_第4頁
多元分析課件_第5頁
已閱讀5頁,還剩238頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

聚類分析

*

例對10位應(yīng)聘者做智能檢驗(yàn)。3項(xiàng)指標(biāo)X,Y和Z分別表示數(shù)學(xué)推理能力,空間想象能力和語言理解能力。其得分如下,選擇合適的統(tǒng)計(jì)方法對應(yīng)聘者進(jìn)行分類。*應(yīng)聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424§1什么是聚類分析*

我們直觀地來看,這個(gè)分類是否合理?計(jì)算4號和6號得分的離差平方和:

(21-20)2+(23-23)2+(22-22)2=1

計(jì)算1號和2號得分的離差平方和:

(28-18)2+(29-23)2+(28-18)2=236

計(jì)算1號和3號得分的離差平方和為482,由此可見一般,分類可能是合理的,歐氏距離很大的應(yīng)聘者沒有被聚在一起。由此,我們的問題是如何來選擇樣品間相似的測度指標(biāo),如何將有相似性的類連接起來?*

聚類分析根據(jù)一批樣品的許多觀測指標(biāo),按照一定的數(shù)學(xué)公式具體地計(jì)算一些樣品或一些參數(shù)(指標(biāo))的相似程度,把相似的樣品或指標(biāo)歸為一類。

*

思考:樣本點(diǎn)之間按什么刻畫相似程度思考:樣本點(diǎn)和小類之間按什么刻畫相似程度思考:小類與小類之間按什么刻畫相似程度

一、變量測量尺度的類型為了將樣本進(jìn)行分類,就需要研究樣品之間的關(guān)系;而為了將變量進(jìn)行分類,就需要研究變量之間的關(guān)系。但無論是樣品之間的關(guān)系,還是變量之間的關(guān)系,都是用變量來描述的,變量的類型不同,描述方法也就不同。通常,變量按照測量它們的尺度不同,可以分為三類。

(1)間隔尺度。指標(biāo)度量時(shí)用數(shù)量來表示,其數(shù)值由測量或計(jì)數(shù)、統(tǒng)計(jì)得到,如長度、重量、收入、支出等。一般來說,計(jì)數(shù)得到的數(shù)量是離散數(shù)量,測量得到的數(shù)量是連續(xù)數(shù)量。在間隔尺度中如果存在絕對零點(diǎn),又稱比例尺度。*§2相似系數(shù)和距離*

(2)順序尺度。指標(biāo)度量時(shí)沒有明確的數(shù)量表示,只有次序關(guān)系,或雖用數(shù)量表示,但相鄰兩數(shù)值之間的差距并不相等,它只表示一個(gè)有序狀態(tài)序列。如評價(jià)酒的味道,分成好、中、次三等,三等有次序關(guān)系,但沒有數(shù)量表示。

(3)名義尺度。指標(biāo)度量時(shí)既沒有數(shù)量表示也沒有次序關(guān)系,只有一些特性狀態(tài),如眼睛的顏色,化學(xué)中催化劑的種類等。在名義尺度中只取兩種特性狀態(tài)的變量是很重要的,如電路的開和關(guān),天氣的有雨和無雨,人口性別的男和女,醫(yī)療診斷中的“十”和“一”,市場交易中的買和賣等都是此類變量。*

二、數(shù)據(jù)的變換處理

所謂數(shù)據(jù)變換,就是將原始數(shù)據(jù)矩陣中的每個(gè)元素,按照某種特定的運(yùn)算把它變成為一個(gè)新值,而且數(shù)值的變化不依賴于原始數(shù)據(jù)集合中其它數(shù)據(jù)的新值。

1、中心化變換中心化變換是一種坐標(biāo)軸平移處理方法,它是先求出每個(gè)變量的樣本平均值,再從原始數(shù)據(jù)中減去該變量的均值,就得到中心化變換后的數(shù)據(jù)。設(shè)原始觀測數(shù)據(jù)矩陣為:*中心化變換的結(jié)果是使每列數(shù)據(jù)之和均為0,即每個(gè)變量的均值為0,而且每列數(shù)據(jù)的平方和是該列變量樣本方差的(n—1)倍,任何不同兩列數(shù)據(jù)之交叉乘積是這兩列變量樣本協(xié)方差的(n—1)倍,所以這是一種很方便地計(jì)算方差與協(xié)方差的變換。*

2、極差規(guī)格化變換規(guī)格化變換是從數(shù)據(jù)矩陣的每一個(gè)變量中找出其最大值和最小值,這兩者之差稱為極差,然后從每個(gè)變量的每個(gè)原始數(shù)據(jù)中減去該變量中的最小值,再除以極差,就得到規(guī)格化數(shù)據(jù)。即有:*

經(jīng)過規(guī)格化變換后,數(shù)據(jù)矩陣中每列即每個(gè)變量的最大數(shù)值為1,最小數(shù)值為0,其余數(shù)據(jù)取值均在0-1之間;并且變換后的數(shù)據(jù)都不再具有量綱,便于不同的變量之間的比較。3、標(biāo)準(zhǔn)化變換標(biāo)準(zhǔn)化變換也是對變量的數(shù)值和量綱進(jìn)行類似于規(guī)格化變換的一種數(shù)據(jù)處理方法。首先對每個(gè)變量進(jìn)行中心化變換,然后用該變量的標(biāo)準(zhǔn)差進(jìn)行標(biāo)準(zhǔn)化。即有:*

經(jīng)過標(biāo)準(zhǔn)化變換處理后,每個(gè)變量即數(shù)據(jù)矩陣中每列數(shù)據(jù)的平均值為0,方差為1,且也不再具有量綱,同樣也便于不同變量之間的比較。變換后,數(shù)據(jù)短陣中任何兩列數(shù)據(jù)乘積之和是兩個(gè)變量相關(guān)系數(shù)的(n-1)倍,所以這是一種很方便地計(jì)算相關(guān)矩陣的變換。4.對數(shù)變換對數(shù)變換是將各個(gè)原始數(shù)據(jù)取對數(shù),將原始數(shù)據(jù)的對數(shù)值作為變換后的新值。即:

三、樣品間親疏程度的測度

研究樣品或變量的親疏程度的數(shù)量指標(biāo)有兩種,一種叫相似系數(shù),性質(zhì)越接近的變量或樣品,它們的相似系數(shù)越接近于1或一l,而彼此無關(guān)的變量或樣品它們的相似系數(shù)則越接近于0,相似的為一類,不相似的為不同類;另一種叫距離,它是將每一個(gè)樣品看作p維空間的一個(gè)點(diǎn),并用某種度量測量點(diǎn)與點(diǎn)之間的距離,距離較近的歸為一類,距離較遠(yuǎn)的點(diǎn)應(yīng)屬于不同的類。*

變量之間的聚類即R型聚類分析,常用相似系數(shù)來測度變量之間的親疏程度。而樣品之間的聚類即Q型聚類分析,則常用距離來測度樣品之間的親疏程度。

*常用距離的算法設(shè)和是第i和j個(gè)樣品的觀測值,則二者之間的距離為:*明氏距離特別,歐氏距離(1)明氏距離測度

明考夫斯基距離主要有以下兩個(gè)缺點(diǎn):

①明氏距離的值與各指標(biāo)的量綱有關(guān),而各指標(biāo)計(jì)量單位的選擇有一定的人為性和隨意性,各變量計(jì)量單位的不同不僅使此距離的實(shí)際意義難以說清,而且,任何一個(gè)變量計(jì)量單位的改變都會使此距離的數(shù)值改變從而使該距離的數(shù)值依賴于各變量計(jì)量單位的選擇。

②明氏距離的定義沒有考慮各個(gè)變量之間的相關(guān)性和重要性。實(shí)際上,明考夫斯基距離是把各個(gè)變量都同等看待,將兩個(gè)樣品在各個(gè)變量上的離差簡單地進(jìn)行了綜合。**(2)杰氏距離這是杰斐瑞和馬突斯塔(Jffreys&Matusita)所定義的一種距離,其計(jì)算公式為:(3)蘭氏距離這是蘭思和維廉姆斯(Lance&Williams)所給定的一種距離,其計(jì)算公式為:

*

這是一個(gè)自身標(biāo)準(zhǔn)化的量,由于它對大的奇異值不敏感,這樣使得它特別適合于高度偏倚的數(shù)據(jù)。雖然這個(gè)距離有助于克服明氏距離的第一個(gè)缺點(diǎn),但它也沒有考慮指標(biāo)之間的相關(guān)性。(4)馬氏距離這是印度著名統(tǒng)計(jì)學(xué)家馬哈拉諾比斯(P.C.Mahalanobis)所定義的一種距離,其計(jì)算公式為:*

分別表示第i個(gè)樣品和第j樣品的p指標(biāo)觀測值所組成的列向量,即樣本數(shù)據(jù)矩陣中第i個(gè)和第j個(gè)行向量的轉(zhuǎn)置,

表示觀測變量之間的協(xié)方差短陣。在實(shí)踐應(yīng)用中,若總體協(xié)方差矩陣

未知,則可用樣本協(xié)方差矩陣作為估計(jì)代替計(jì)算。*

馬氏距離又稱為廣義歐氏距離。顯然,馬氏距離與上述各種距離的主要不同就是馬氏距離考慮了觀測變量之間的相關(guān)性。如果假定各變量之間相互獨(dú)立,即觀測變量的協(xié)方差矩陣是對角矩陣,則馬氏距離就退化為用各個(gè)觀測指標(biāo)的標(biāo)準(zhǔn)差的倒數(shù)作為權(quán)數(shù)進(jìn)行加權(quán)的歐氏距離。因此,馬氏距離不僅考慮了觀測變量之間的相關(guān)性,而且也考慮到了各個(gè)觀測指標(biāo)取值的差異程度,。(5)斜交空間距離

由于各變量之間往往存在著不同的相關(guān)關(guān)系,用正交空間的距離來計(jì)算樣本間的距離易變形,所以可以采用斜交空間距離。

*

當(dāng)各變量之間不相關(guān)時(shí),斜交空間退化為歐氏距離。2、相似系數(shù)的算法(1)相似系數(shù)*設(shè)和是第和個(gè)樣品的觀測值,則二者之間的相似測度為:

其中

(2)夾角余弦

夾角余弦時(shí)從向量集合的角度所定義的一種測度變量之間親疏程度的相似系數(shù)。設(shè)在n維空間的向量

*§3系統(tǒng)聚類方法正如樣品之間的距離可以有不同的定義方法一樣,類與類之間的距離也有各種定義。例如可以定義類與類之間的距離為兩類之間最近樣品的距離,或者定義為兩類之間最遠(yuǎn)樣品的距離,也可以定義為兩類重心之間的距離等等。類與類之間用不同的方法定義距離,就產(chǎn)生了不同的系統(tǒng)聚類方法。*一、常用的種類*

1、最短距離法2、最長距離法3、中間距離法*最長距離最短距離中間距離*

類平均法定義類間的距離是兩類間樣品的距離的平均數(shù)。

4、類平均法定義距離:*5、可變類平均法類平均法的遞推公式中,沒有反映Gp類和Gq類的距離有多大,進(jìn)一步將其改進(jìn),加入D2Pq,并給定系數(shù)

<1,則類平均法的遞推公式改為:

用此遞推公式進(jìn)行聚類就是可變類平均法。遞推公式由:

p類和q類與L類的距離的加權(quán)平均數(shù)

p類和q類的距離兩項(xiàng)的加權(quán)和構(gòu)成,β的大小根據(jù)哪項(xiàng)更重要而定。6、離差平方和法

*

類似于方差分析的想法,如果類分得恰當(dāng),同類內(nèi)的樣品之間的離差平方和應(yīng)較小,而類間的離差平方和應(yīng)當(dāng)較大。

離差平方和法的思路是,當(dāng)k固定時(shí),選擇使S達(dá)到最小的分類。先讓n個(gè)樣品各自成一類,然后縮小一類,每縮小一類離差平方和就要增大,選擇使S2增加最小的兩類合并,直到所有的樣品歸為一類為止。離差平方和法定義類間的平方距離為*其中是由Gp和Gq合并成的Gr類的類內(nèi)離差平方和??梢宰C明離差平方和的聚類公式為7、可變方法*

如果讓中間距離法的遞推公式前兩項(xiàng)的系數(shù)也依賴于

,則遞推公式為:

用上式作為遞推公式的系統(tǒng)聚類法稱為可變法。*

分別為Gp和Gq的重心,類與類之間的距離定義為兩個(gè)類重心(類內(nèi)樣品平均值)間的平方距離。重心法,也稱為樣品的均值法。設(shè)Gp和Gq為兩個(gè)類8、重心法*

設(shè)某一步Gp和Gq的重心分別為和,類內(nèi)的樣品數(shù)分別為和,如果要把Gp和Gq合并為Gr類,則Gr類的樣品數(shù)nr=np+nq,Gr類的重心為和的加權(quán)算術(shù)平均數(shù):*

假設(shè)第p類和第q類合并成第類,第r類與其它各舊類的距離按重心法為:二、確定類的個(gè)數(shù)

在聚類分析過程中類的個(gè)數(shù)如何來確定才合適呢?這是一個(gè)十分困難的問題,人們至今仍未找到令人滿意的方法。但是這個(gè)問題又是不可回避的。下面我們介紹幾種方法。*1、給定閾值——通過觀測聚類圖,給出一個(gè)合適的閾值T。要求類與類之間的距離不要超過T值。例如我們給定T=0.35,當(dāng)聚類時(shí),類間的距離已經(jīng)超過了0.35,則聚類結(jié)束??傠x差平方和的分解(準(zhǔn)備知識)*如果著些樣品被分成兩類*可以證明:總離差平方和=組內(nèi)離差平方和+組間離差平方和令T為總離差平方和令PG為分為G類的組內(nèi)離差平方和。**2、統(tǒng)計(jì)量其中T是數(shù)據(jù)的總離差平方和,是組內(nèi)離差平方和。比較大,說明分G個(gè)類時(shí)類內(nèi)的離差平方和比較小,也就是說分G類是合適的。但是,分類越多,每個(gè)類的類內(nèi)的離差平方和就越小,也就越大;所以我們只能取合適的G,使得足夠大,而G本身很小,隨著G的增加,的增幅不大。比如,假定分4類時(shí),=0.8;下一次合并分3類時(shí),下降了許多,=0.32,則分4類是合適的。3、偽F統(tǒng)計(jì)量的定義為

偽F統(tǒng)計(jì)量用于評價(jià)聚為G類的效果。如果聚類的效果好,類間的離差平方和相對于類內(nèi)的離差平方和大,所以應(yīng)該取偽F統(tǒng)計(jì)量較大而類數(shù)較小的聚類水平。

**PseudoFStatistic0102030405060708090100110120NumberofClusters123456789101112131415161718194、偽統(tǒng)計(jì)量的定義為其中和分別是的類內(nèi)離差平方和,是將K和L合并為第M類的離差平方和

=--為合并導(dǎo)致的類內(nèi)離差平方和的增量。用它評價(jià)合并第K和L類的效果,偽統(tǒng)計(jì)量大說明不應(yīng)該合并這兩類,應(yīng)該取合并前的水平。**

三、系統(tǒng)聚類法的基本性質(zhì)

(一)單調(diào)性

在聚類分析過程中,并類距離分別為l

k(k=1,2,3,…

)若滿足,則稱該聚類方法具有單調(diào)性??梢宰C明除了重心法和中間距離法之外,其他的系統(tǒng)聚類法均滿足單調(diào)性的條件。(二)空間的濃縮和擴(kuò)張1、定義矩陣的大小

設(shè)同階矩陣D(A)和D(B),如果D(A)的每一個(gè)元素不小于D(B)的每一個(gè)元素,則記為。2、空間的濃縮和擴(kuò)張?jiān)O(shè)有兩種系統(tǒng)聚類法A和B,他們在第i步的距離矩陣分別為Ai和Bi(I=1,2,3…),若Ai>Bi

,則稱第一種方法A比第二種方法B使空間擴(kuò)張,或第二種方法比第一種方法濃縮。*3、方法的比較D(短)D(平),D(重)D(平);

D(長)D(平);當(dāng),D(變平)D(平);當(dāng),D(變平)D(平)。五、主要的步驟1、選擇變量(1)和聚類分析的目的密切相關(guān)(2)反映要分類變量的特征(3)在不同研究對象上的值有明顯的差異(4)變量之間不能高度相關(guān)2、計(jì)算相似性相似性是聚類分析中的基本概念,他反映了研究對象之間的親疏程度,聚類分析就是根據(jù)對象之間的相似性來分類的。有很多刻畫相似性的測度*3、聚類選定了聚類的變量,計(jì)算出樣品或指標(biāo)之間的相似程度后,構(gòu)成了一個(gè)相似程度的矩陣。這時(shí)主要涉及兩個(gè)問題:(1)選擇聚類的方法(2)確定形成的類數(shù)*4、聚類結(jié)果的解釋和證實(shí)

對聚類結(jié)果進(jìn)行解釋是希望對各個(gè)類的特征進(jìn)行準(zhǔn)確的描述,給每類起一個(gè)合適的名稱。這一步可以借助各種描述性統(tǒng)計(jì)量進(jìn)行分析,通常的做法是計(jì)算各類在各聚類變量上的均值,對均值進(jìn)行比較,還可以解釋各類產(chǎn)別的原因。

**

例某公司下屬30個(gè)企業(yè),公司為了考核下屬企業(yè)的經(jīng)濟(jì)效益,設(shè)計(jì)了8個(gè)指標(biāo)。為了避免重復(fù),需要對這8個(gè)指標(biāo)進(jìn)行篩選,建立一個(gè)恰當(dāng)?shù)慕?jīng)濟(jì)效益指標(biāo)體系。通過計(jì)算30個(gè)企業(yè)8個(gè)指標(biāo)的相關(guān)系數(shù)距離,數(shù)據(jù)是1-r2。得如下表:

x1x2

x3

x4x5

x6

x7

x8

x10

0.600

0.430.460

0.470.450.120

0.570.450.230.220

0.380.400.210.290.220

0.310.790.650.700.800.660

0.450.450.270.230.140.190.770

試用將它們聚類。x2

x3x4x5

x6

x7

x8*

根據(jù)美國等20個(gè)國家和地區(qū)的信息基礎(chǔ)設(shè)施的發(fā)展?fàn)顩r進(jìn)行分類。Call—每千人擁有的電話線數(shù);movel—每千人戶居民擁有的蜂窩移動(dòng)電話數(shù);fee—高峰時(shí)期每三分鐘國際電話的成本;comp—每千人擁有的計(jì)算機(jī)數(shù);mips—每千人計(jì)算機(jī)功率(每秒百萬指令);

net—每千人互聯(lián)網(wǎng)絡(luò)戶主數(shù)。

**

國家callmovel

fee

comp

mips

netmeiguo631.6161.90.364032607335.34riben498.4143.23.57176102236.26deguo557.670.60284ruidian684.1281.81.42461666029.39ruishi64493.51.982341362122.68xinjiapo498.4147.52.52841357813.49taiwan469.456.13.6811969111.72hanguo434.5733.369957951.66baxi81.916.33.02198760.52zhili138.68.201.43114111.28moxige92.29.82.613117510.35eluosi174.955.122411010.48bolan1696.53.684017961.45xiongyali262.249.42.666830673.09malaixiya195.588.44.195327341.25taiguo78.627.84.952216620.11yindu13.60.306.2821010.01faguo559.142.91.27201117024.76yingguo521.10122.50.982481446111.91**PseudoFStatistic0102030405060708090100110120NumberofClusters12345678910111213141516171819§4動(dòng)態(tài)聚類

一、思想 系統(tǒng)聚類法是一種比較成功的聚類方法。然而當(dāng)樣本點(diǎn)數(shù)量十分龐大時(shí),則是一件非常繁重的工作,且聚類的計(jì)算速度也比較慢。比如在市場抽樣調(diào)查中,有4萬人就其對衣著的偏好作了回答,希望能迅速將他們分為幾類。這時(shí),采用系統(tǒng)聚類法就很困難,而動(dòng)態(tài)聚類法就會顯得方便,適用。動(dòng)態(tài)聚類解決的問題是:假如有個(gè)樣本點(diǎn),要把它們分為類,使得每一類內(nèi)的元素都是聚合的,并且類與類之間還能很好地區(qū)別開。動(dòng)態(tài)聚類使用于大型數(shù)據(jù)。**選擇凝聚點(diǎn)分類修改分類分類是否合理分類結(jié)束YesNo

用一個(gè)簡單的例子來說明動(dòng)態(tài)聚類法的工作過程。例如我們要把圖中的點(diǎn)分成兩類??焖倬垲惖牟襟E:

1、隨機(jī)選取兩個(gè)點(diǎn)和作為聚核。

2、對于任何點(diǎn),分別計(jì)算

3、若,則將劃為第一類,否則劃給第二類。于是得圖(b)的兩個(gè)類。*4、分別計(jì)算兩個(gè)類的重心,則得和,以其為新的聚核,對空間中的點(diǎn)進(jìn)行重新分類,得到新分類。*

(a)空間的群點(diǎn)(b)任取兩個(gè)聚核

(c)第一次分類(d)求各類中心*(e)第二次分類二、選擇凝聚點(diǎn)和確定初始分類

凝聚點(diǎn)就是一批有代表性的點(diǎn),是欲形成類的中心。凝聚點(diǎn)的選擇直接決定初始分類,對分類結(jié)果也有很大的影響,由于凝聚點(diǎn)的不同選擇,其最終分類結(jié)果也將出現(xiàn)不同。故選擇時(shí)要慎重.通常選擇凝聚點(diǎn)的方法有:

(1)人為選擇,當(dāng)人們對所欲分類的問題有一定了解時(shí),根據(jù)經(jīng)驗(yàn),預(yù)先確定分類個(gè)數(shù)和初始分類,并從每一類中選擇一個(gè)有代表性的樣品作為凝聚點(diǎn)。

(2)將數(shù)據(jù)人為地分為A類,計(jì)算每一類的重心,就將這些重心作為凝聚點(diǎn)。**(3)用密度法選擇凝聚點(diǎn)。以某個(gè)正數(shù)d為半徑,以每個(gè)樣品為球心,落在這個(gè)球內(nèi)的樣品數(shù)(不包括作為球心的樣品)就叫做這個(gè)樣品的密度。計(jì)算所有樣品點(diǎn)的密度后,首先選擇密度最大的樣品作為第一凝聚點(diǎn),并且人為地確定一個(gè)正數(shù)D(一般D>d,常取D=2d)。然后選出次大密度的樣品點(diǎn),若它與第一個(gè)凝聚點(diǎn)的距離大于D,則將其作為第二個(gè)凝聚點(diǎn);否則舍去這點(diǎn),再選密度次于它的樣品。這樣,按密度大小依次考查,直至全部樣品考查完畢為止.此方法中,d要給的合適,太大了使凝聚點(diǎn)個(gè)數(shù)太少,太小了使凝聚點(diǎn)個(gè)數(shù)太多。

*(5)隨機(jī)地選擇,如果對樣品的性質(zhì)毫無所知,可采用隨機(jī)數(shù)表來選擇,打算分幾類就選幾個(gè)凝聚點(diǎn)?;蛘呔陀们癆個(gè)樣品作為凝聚點(diǎn)(假設(shè)分A類)。這方法一般不提倡使用。(4)人為地選擇一正數(shù)d,首先以所有樣品的均值作為第一凝聚點(diǎn)。然后依次考察每個(gè)樣品,若某樣品與已選定的凝聚點(diǎn)的距離均大于d,該樣品作為新的凝聚點(diǎn),否則考察下一個(gè)樣品。*四、動(dòng)態(tài)聚類步驟為:第一,選擇若干個(gè)觀測值點(diǎn)為“凝聚點(diǎn)”;第二,可選擇地,通過分配每個(gè)“凝聚點(diǎn)”最近的類里來形成臨時(shí)分類。每一次對一個(gè)觀測值點(diǎn)進(jìn)行歸類,“凝聚點(diǎn)”更新為這一類目前的均值;第三,可選擇地,通過分配每個(gè)“凝聚點(diǎn)”最近的類里來形成臨時(shí)分類。所有的觀測值點(diǎn)分配完后,這些類的“凝聚點(diǎn)”用臨時(shí)類的均值代替。該步驟可以一直進(jìn)行直到“凝聚點(diǎn)”的改變很小或?yàn)榱銜r(shí)止;第四,最終的分類有分配每一個(gè)觀測到最近的“凝聚點(diǎn)”而形成。**

§5有序樣本聚類法

前面介紹的聚類方法與樣品的順序無關(guān),但在有些實(shí)際問題中樣品是有順序的,樣品按一定的要求排成序,分類不能打亂順序.例如在地質(zhì)勘探中通過鉆井的巖心樣品欲將地層分類,此時(shí)巖心樣品是由淺到深的順序取的.又如氣象資料它是按時(shí)間排列的,其樣品也是有序的。

系統(tǒng)聚類開始n個(gè)樣品各自自成一類,然后逐步并類,直至所有的樣品被聚為一類為止。而有序聚類則相反,開始所有的樣品為一類,然后分為二類、三類等,直到分成n類。每次分類都要求產(chǎn)生的離差平方和的增量最小。*有序聚類的步驟1、定義類的直徑設(shè)某類G中包含的樣品有*

該類的均值向量為

設(shè)有序樣品x(1),x(2),…,x(n)。他們可以是從小到達(dá)排列,也可以是按時(shí)間的先后排列。

用D(i,j)表示這一類的直徑,常用的直徑有,歐氏距離:*當(dāng)是單變量的時(shí),也可以定義直徑為:2、定義分類的損失函數(shù)

用b(n,k)表示將n個(gè)有序的樣品分為k類的某種分法:*

定義這種分類法的損失函數(shù)為:各類的直徑之和。

由損失函數(shù)的構(gòu)造可以看出,損失函數(shù)是各類的直徑之和。如果分類不好,則各類的直徑之和大,否則比較小。*

當(dāng)n和k固定時(shí),L[b(n,k)]越小表示各類的離差平方和越小,分類是合理的。因此要尋找一種分法b(n,k),使分類損失函數(shù)L[b(n,k)]達(dá)到最小。記該分法為P[n,k]。

應(yīng)用簡例分析兒童的生長期。有如下的資料是1-11歲的男孩平均每年的增重:問男孩的發(fā)育可分為幾個(gè)階段。*年齡1234567891011增加重量(公斤)9.31.81.91.71.51.31.42.01.92.32.1**

nk234567891030.005/2

40.02/20.005/4

50.088/20.020/50.005/5

60.232/20.040/50.02/60.005/6

70.280/20.040/50.025/60.010/60.005/6

80.417/20.280/80.040/80.025/80.010/80.005/8

90.469/20.285/80.045/80.030/80.015/80.010/80.005/8

100.802/20.367/80.127/80.045/100.030/100.015/100.010/100.005/10

110.909/20.368/80.128/80.065/100.045/110.030/110.015/110.010/110.005/11最小損失函數(shù)L[p(n,k)**判別分析

距離判別貝葉斯判別費(fèi)歇判別逐步判別例中小企業(yè)的破產(chǎn)模型為了研究中小企業(yè)的破產(chǎn)模型,選定4個(gè)經(jīng)濟(jì)指標(biāo):

X1總負(fù)債率(現(xiàn)金收益/總負(fù)債)

X2收益性指標(biāo)(純收入/總財(cái)產(chǎn))

X3短期支付能力(流動(dòng)資產(chǎn)/流動(dòng)負(fù)債)

X4生產(chǎn)效率性指標(biāo)(流動(dòng)資產(chǎn)/純銷售額)對17個(gè)破產(chǎn)企業(yè)(1類)和21個(gè)正常運(yùn)行企業(yè)(2類)進(jìn)行了調(diào)查,得如下資料:§1什么是判別分析總負(fù)債率收益性指標(biāo)短期支付能力生產(chǎn)效率指標(biāo)類別-.45-.411.09.451-.56-.311.51.161.06.021.01.401-.07-.091.45.261-.10-.091.56.671-.14-.07.71.281-.23-.30.22.181.07.021.31.251.01.002.15.701-.28-.231.19.661.15.051.88.271.37.111.99.381-.08-.081.51.421.05.031.68.951.01.001.26.601.12.111.14.171-.28-.271.27.511.51.102.49.542.08.022.01.532.38.113.27.552.19.052.25.332.32.074.24.632.31.054.45.692.12.052.52.692-.02.022.05.352.22.082.35.402.17.071.80.522.15.052.17.552-.10-1.012.50.582.14-.03.46.262.14.072.61.522-.33-.093.01.472.48.091.24.182.56.114.29.452.20.081.99.302.47.142.92.452.17.042.45.142.58.045.06.132.04.011.50.71待判-.06-.061.37.40待判.07-.011.37.34待判-.13-.141.42.44待判.15.062.23.56待判.16.052.31.20待判.29.061.84.38待判.54.112.33.48待判企業(yè)序號判別類型判別函數(shù)得分判別為1的概率判別的為2概率11-.56509.69479.3052121-.89817.80234.1976631-.59642.70620.2938041-1.02182.83420.1658052.25719.35312.6468862.34253.32005.6799572.27925.34442.65558821.24010.09012.90988

判別分析的特點(diǎn)是根據(jù)已掌握的、歷史上每個(gè)類別的若干樣本的數(shù)據(jù)信息,總結(jié)出客觀事物分類的規(guī)律性,建立判別公式和判別準(zhǔn)則。然后,當(dāng)遇到新的樣本點(diǎn)時(shí),只要根據(jù)總結(jié)出來的判別公式和判別準(zhǔn)則,就能判別該樣本點(diǎn)所屬的類別。

§2距離判別

(一)馬氏距離距離判別的最直觀的想法是計(jì)算樣品到第i類總體的平均數(shù)的距離,哪個(gè)距離最小就將它判歸哪個(gè)總體,所以,我們首先考慮的是是否能夠構(gòu)造一個(gè)恰當(dāng)?shù)木嚯x函數(shù),通過樣本與某類別之間距離的大小,判別其所屬類別。

設(shè)是從期望μ=和方差陣Σ=的總體G抽得的兩個(gè)觀測值,則定義

樣本X和Gi類之間的馬氏距離定義為X與Gi類重心間的距離:

X與Y之間的Mahalanobis距離

(二)兩個(gè)總體距離判別法

先考慮兩個(gè)總體的情況,設(shè)有兩個(gè)協(xié)差陣

相同的p維正態(tài)總體,對給定的樣本Y,判別一個(gè)樣本Y到底是來自哪一個(gè)總體,一個(gè)最直觀的想法是計(jì)算Y到兩個(gè)總體的距離。故我們用馬氏距離來給定判別規(guī)則,有:1、方差相等則前面的判別法則表示為

當(dāng)和

已知時(shí),

是一個(gè)已知的p維向量,W(y)是y的線性函數(shù),稱為線性判別函數(shù)。

稱為判別系數(shù)。用線性判別函數(shù)進(jìn)行判別分析非常直觀,使用起來最方便,在實(shí)際中的應(yīng)用也最廣泛。

例在企業(yè)的考核種,可以根據(jù)企業(yè)的生產(chǎn)經(jīng)營情況把企業(yè)分為優(yōu)秀企業(yè)和一般企業(yè)。考核企業(yè)經(jīng)營狀況的指標(biāo)有:資金利潤率=利潤總額/資金占用總額勞動(dòng)生產(chǎn)率=總產(chǎn)值/職工平均人數(shù)產(chǎn)品凈值率=凈產(chǎn)值/總產(chǎn)值三個(gè)指標(biāo)的均值向量和協(xié)方差矩陣如下?,F(xiàn)有二個(gè)企業(yè),觀測值分別為(7.8,39.1,9.6)和(8.1,34.2,6.9),問這兩個(gè)企業(yè)應(yīng)該屬于哪一類?變量均值向量協(xié)方差矩陣優(yōu)秀一般資金利潤率13.55.468.3940.2421.41

勞動(dòng)生產(chǎn)率40.729.840.2454.5811.67

產(chǎn)品凈值率10.76.221.4111.677.90線性判別函數(shù):2、當(dāng)總體的協(xié)方差已知,且不相等

設(shè)有個(gè)K總體,分別有均值向量μi(i=1,2,…,k)和協(xié)方差陣Σi=Σ,各總體出現(xiàn)的先驗(yàn)概率相等。又設(shè)Y是一個(gè)待判樣品。則與總體的距離為(即判別函數(shù))(三)多總體的距離判別法

上式中的第一項(xiàng)Y’Σ-1Y與i無關(guān),則舍去,得一個(gè)等價(jià)的函數(shù)則距離判別法的判別函數(shù)為:注:這與前面所提出的距離判別是等價(jià)的.判別規(guī)則為(四)

錯(cuò)判概率

由上面的分析可以看出,馬氏距離判別法是合理的,但是這并不意謂著不會發(fā)生誤判。兩總體分別服從

其判別函數(shù)為

當(dāng)兩總體靠得很近(即||?。?,則無論用何種辦法,錯(cuò)判概率都很大,這時(shí)作判別分析是沒有意義的。因此只有當(dāng)兩個(gè)總體的均值有顯著差異時(shí),作判別分析才有意義。

距離判別只要求知道總體的數(shù)字特征,不涉及總體的分布函數(shù),當(dāng)參數(shù)和協(xié)方差未知時(shí),就用樣本的均值和協(xié)方差矩陣來估計(jì)。距離判別方法簡單實(shí)用,但沒有考慮到每個(gè)總體出現(xiàn)的機(jī)會大小,即先驗(yàn)概率,沒有考慮到錯(cuò)判的損失。貝葉斯判別法正是為了解決這兩個(gè)問題提出的判別分析方法?!?貝葉斯判別法

辦公室新來了一個(gè)雇員小王,小王是好人還是壞人大家都在猜測。按人們主觀意識,一個(gè)人是好人或壞人的概率均為0.5。壞人總是要做壞事,好人總是做好事,偶爾也會做一件壞事,一般好人做好事的概率為0.9,壞人做好事的概率為0.2,一天,小王做了一件好事,小王是好人的概率有多大,你現(xiàn)在把小王判為何種人。。一、最大后驗(yàn)準(zhǔn)則

距離判別簡單直觀,很實(shí)用,但是距離判別的方法把總體等同看待,沒有考慮到總體會以不同的概率(先驗(yàn)概率)出現(xiàn),也沒有考慮誤判之后所造成的損失的差異。一個(gè)好的判別方法,既要考慮到各個(gè)總體出現(xiàn)的先驗(yàn)概率,又要考慮到錯(cuò)判造成的損失,Bayes判別就具有這些優(yōu)點(diǎn),其判別效果更加理想,應(yīng)用也更廣泛。貝葉斯公式是一個(gè)我們熟知的公式

設(shè)有總體,具有概率密度函數(shù)。并且根據(jù)以往的統(tǒng)計(jì)分析,知道出現(xiàn)的概率為。即當(dāng)樣本發(fā)生時(shí),求他屬于某類的概率。由貝葉斯公式計(jì)算后驗(yàn)概率,有:判別規(guī)則則判給。在正態(tài)的假定下,為正態(tài)分布的密度函數(shù)。

則判給。

上式兩邊取對數(shù)并去掉與i無關(guān)的項(xiàng),則等價(jià)的判別函數(shù)為:

特別,總體服從正態(tài)分布的情形問題轉(zhuǎn)化為若,則判。當(dāng)協(xié)方差陣相等

則判別函數(shù)退化為問題轉(zhuǎn)化為若,則判。當(dāng)先驗(yàn)概率相等,有完全成為距離判別法。

二、最小平均誤判代價(jià)準(zhǔn)則

設(shè)有總體,具有概率密度函數(shù)。并且根據(jù)以往的統(tǒng)計(jì)分析,知道出現(xiàn)的概率為。

又D1,D2,┅,Dk是R(p)的一個(gè)分劃,判別法則為:當(dāng)樣品X落入Di時(shí),則判

關(guān)鍵的問題是尋找D1,D2,┅,Dk分劃,這個(gè)分劃應(yīng)該使平均錯(cuò)判率最小。

【定義】(平均錯(cuò)判損失)

用P(j/i)表示將來自總體Gi的樣品錯(cuò)判到總體Gj的條件概率。

C(j/i)表示相應(yīng)錯(cuò)判所造成的損失。

則平均錯(cuò)判損失為:

使ECM最小的分劃,是Bayes判別分析的解。

【定理】若總體G1,G2,

,Gk的先驗(yàn)概率為且相應(yīng)的密度函數(shù)為,損失為則劃分的Bayes解為其中

含義是:當(dāng)抽取了一個(gè)未知總體的樣品值x,要判別它屬于那個(gè)總體,只要先計(jì)算出k個(gè)按先驗(yàn)概率加權(quán)的誤判平均損失為了直觀說明,作為例子,我們討論k=2的情形。

然后比較其大小,選取其中最小的,則判定樣品屬于該總體。

由此可見,要使ECM最小,被積函數(shù)必須在D1是負(fù)數(shù),則有分劃

Bayes判別準(zhǔn)則為:

特別

與標(biāo)準(zhǔn)Bayes判別等價(jià)§4費(fèi)歇(Fisher)判別法

一、兩個(gè)總體的費(fèi)歇(Fisher)判別法

X不能使總體單位盡可能分開的方向u能使總體單位盡可能分開的方向

旋轉(zhuǎn)坐標(biāo)軸至總體單位盡可能分開的方向,此時(shí)分類變量被簡化為一個(gè)

(一)費(fèi)歇判別的基本思想

從距離判別法,我們已經(jīng)看到判別規(guī)則是一個(gè)線性函數(shù),由于線性判別函數(shù)使用簡便,因此我們希望能在更一般的情況下,建立一種線性判別函數(shù)。Fisher判別法是根據(jù)方差分析的思想建立起來的一種能較好區(qū)分各個(gè)總體的線性判別法,F(xiàn)isher在1936年提出。該判別方法對總體的分布不做任何要求。

從兩個(gè)總體中抽取具有P個(gè)指標(biāo)的樣品觀測數(shù)據(jù),借助于方差分析的思想構(gòu)造一個(gè)線性判別函數(shù):

其中系數(shù)確定的原則是使兩組間的組間離差最大,而每個(gè)組的組內(nèi)離差最小。當(dāng)建立了判別式以后,對一個(gè)新的樣品值,我們可以將他的P個(gè)指標(biāo)值代入判別式中求出Y值,然后與某個(gè)臨界值比較,就可以將該樣品歸某類。假設(shè)我們可以得到一個(gè)線性判別函數(shù):我們可以把兩個(gè)總體的樣品代入上面的判別式分別對上面兩式左右相加,再除以樣品個(gè)數(shù),可得兩個(gè)總體的重心:

最佳的線性判別函數(shù)應(yīng)該是:兩個(gè)重心的距離越大越好,兩個(gè)組內(nèi)的離差平方和越小越好。令

越大越好取對數(shù)

求導(dǎo)數(shù)

稱為典型函數(shù).(三)判別準(zhǔn)則

如果由原始數(shù)據(jù)y求得判別函數(shù)得分為Y*,對與一個(gè)樣品代入判別函數(shù)中,若Y*>Y0,則判給G1,否則判給G2。二、多個(gè)總體的Fisher判別法

(一)判別函數(shù)Fisher判別法實(shí)際上是致力于尋找一個(gè)最能反映組和組之間差異的投影方向,即尋找線性判別函數(shù),設(shè)有個(gè)總體,分別有均值向量,,…,和協(xié)方差陣,分別各總體中得到樣品:第i個(gè)總體的樣本均值向量

綜合的樣本均值向量

第i個(gè)總體樣本組內(nèi)離差平方和

綜合的組內(nèi)離差平方和組間離差平方和如果判別分析是有效的,則所有的樣品的線性組合滿足組內(nèi)離差平方和小,而組間離差平方和大。則而所對應(yīng)的特征向量即。Fisher樣品判別函數(shù)是

然而,如果組數(shù)k太大,討論的指標(biāo)太多,則一個(gè)判別函數(shù)是不夠的,這時(shí)需要尋找第二個(gè),甚至第三個(gè)線性判別函數(shù)其特征向量構(gòu)成第二個(gè)判別函數(shù)的系數(shù)。類推得到m(m<k)個(gè)線性函數(shù)。關(guān)于需要幾個(gè)判別函數(shù)得問題,需要累計(jì)判別效率達(dá)到85%以上,即有設(shè)為B相對于E得特征根,則

以m個(gè)線性判別函數(shù)得到的函數(shù)值為新的變量,再進(jìn)行距離判別。判別規(guī)則:設(shè)Yi(X)為第i個(gè)線性判別函數(shù),,則§5變量選擇和逐步判別

變量的選擇是判別分析中的一個(gè)重要的問題,變量選擇是否恰當(dāng),是判別分析效果有列的關(guān)鍵。如果在某個(gè)判別問題中,將起最重要的變量忽略了,相應(yīng)的判別函數(shù)的效果一定不好。而另一方面,如果判別變量個(gè)數(shù)太多,計(jì)算量必然大,會影響估計(jì)的精度。特別當(dāng)引入了一些判別能力不強(qiáng)的變量時(shí),還會嚴(yán)重地影響判別的效果。步驟

第一步:通過計(jì)算單變量的

統(tǒng)計(jì)量,逐步選擇判別變量

統(tǒng)計(jì)量最小者首先進(jìn)入模型。

第二步:分別計(jì)算未被選中的其它變量與選中變量x1的

統(tǒng)計(jì)量,統(tǒng)計(jì)量

1i得值最小者與x1搭配進(jìn)入模型。

第三步:類推假設(shè)已經(jīng)有q+1個(gè)變量進(jìn)入了模型,要考慮較早選入模型得變量得重要性是否有較大得變化,應(yīng)及時(shí)將其從模型中剔除。其原則與引入相同。統(tǒng)計(jì)量

得值最大者。

第四步:進(jìn)行判別分析。TheSTEPDISCProcedure(逐步判別過程)

TheMethodforSelectingVariablesisSTEPWISEObservations38Variable(s)intheAnalysis4ClassLevels2Variable(s)willbeIncluded0SignificanceLeveltoEnter0.15SignificanceLeveltoStay0.15ClassLevelInformationVariableclassNameFrequencyWeightProportion1_11717.00000.4473682_22121.00000.552632StepwiseSelection:Step1(第一步)

StatisticsforEntry,DF=1,36

VariableR-SquareFValuePr>FTolerancex10.319516.900.00021.0000x20.05141.950.17101.0000x30.373421.45<.00011.0000x40.00080.030.86431.0000Variablex3willbeentered.(X3進(jìn)入)

Variable(s)thathavebeenEnteredx3MultivariateStatisticsStatisticValueFValueNumDFDenDFPr>FWilks'Lambda0.62662821.45136<.0001Pillai'sTrace0.37337221.45136<.0001StepwiseSelection:Step2(第二步)

StatisticsforRemoval,DF=1,36VariableR-SquareFValuePr>Fx30.373421.45<.0001Novariablescanberemoved.

StatisticsforEntry,DF=1,35

PartialVariableR-SquareFValuePr>FTolerance

x10.10704.190.04820.6638x20.00940.330.56720.9379x40.01720.610.43860.9546

Variablex1willbeentered.(X1進(jìn)入)StepwiseSelection:Step3(第三步)

StatisticsforRemoval,DF=1,35PartialVariableR-SquareFValuePr>Fx10.10704.190.0482x30.17777.560.0094Novariablescanberemoved.StatisticsforEntry,DF=1,34PartialVariableR-SquareFValuePr>FTolerancex20.01960.680.41540.4120x40.00570.200.66140.6119Novariablescanbeentered.(無變量能進(jìn)入)

Nofurtherstepsarepossible.(進(jìn)一步是不可能的)

LinearDiscriminantFunctionforclass

線性判別函數(shù)

Variable12

Constant-2.45595-5.25152x32.180983.52968x1-4.55096-0.52018NumberofObservationsandPercentClassifiedintoclass

Fromclass12Total

11431782.3517.65100.00

23182114.2985.71100.00

Total17213844.7455.26100.00

Priors0.447370.55263

ErrorCountEstimatesforclass

12Total

Rate0.17650.14290.1579Priors0.44740.5526PosteriorProbabilityofMembershipinclass

ClassifiedObsintoclass12

110.64820.3518210.76670.2333310.66050.3395410.80290.1971520.30650.6935620.27590.7241720.29840.7016820.07420.9258

將樣本分成兩部分,一部分用于確定判別函數(shù),另一部分用于檢查判別的效果。如果樣本量很大,可將樣本平均地或隨機(jī)地分成兩部分。

選擇變量(1)和判別分析的目的密切相關(guān)(2)反映要判類變量的特征(3)在不同研究對象上的值有明顯的差異

確定分析樣本和驗(yàn)證樣本

一、主要步驟

估計(jì)鑒別函數(shù)

選擇某種方法建立判別規(guī)則,有距離判別、貝葉斯判別和費(fèi)歇(Fisher)判別法。

計(jì)算錯(cuò)判比率和正確判定的比率。將判別函數(shù)用于驗(yàn)證樣本,通過驗(yàn)證樣本的錯(cuò)判比率和正確判定的比率來確定判別的效果。所謂錯(cuò)判,就是把原來是第一類的樣本判給了第二類。對于正確判定的比率應(yīng)該達(dá)到多少才能接受,并沒有嚴(yán)格的規(guī)則。檢查判別的效果

用逐步判別法篩選變量

在第一步所選的變量可能在類間無差異,應(yīng)該將對判別分析無貢獻(xiàn)的變量剔除因子分析

**

§1引言因子分析(factoranalysis)是一種數(shù)據(jù)簡化的技術(shù)。它通過研究眾多變量之間的內(nèi)部依賴關(guān)系,探求觀測數(shù)據(jù)中的基本結(jié)構(gòu),并用少數(shù)幾個(gè)假想變量來表示其基本的數(shù)據(jù)結(jié)構(gòu)。這幾個(gè)假想變量能夠反映原來眾多變量的主要信息。原始的變量是可觀測的顯在變量,而假想變量是不可觀測的潛在變量,稱為因子。例如,在企業(yè)形象或品牌形象的研究中,消費(fèi)者可以通過一個(gè)有24個(gè)指標(biāo)構(gòu)成的評價(jià)體系,評價(jià)百貨商場的24個(gè)方面的優(yōu)劣。

*

但消費(fèi)者主要關(guān)心的是三個(gè)方面,即商店的環(huán)境、商店的服務(wù)和商品的價(jià)格。因子分析方法可以通過24個(gè)變量,找出反映商店環(huán)境、商店服務(wù)水平和商品價(jià)格的三個(gè)潛在的因子,對商店進(jìn)行綜合評價(jià)。而這三個(gè)公共因子可以表示為:

稱是不可觀測的潛在因子。24個(gè)變量共享這三個(gè)因子,但是每個(gè)變量又有自己的個(gè)性,不被包含的部分,稱為特殊因子。*注:

因子分析與回歸分析不同,因子分析中的因子是一個(gè)比較抽象的概念,而回歸因子有非常明確的實(shí)際意義;

主成分分析分析與因子分析也有不同,主成分分析僅僅是變量變換,而因子分析需要構(gòu)造因子模型。主成分分析:原始變量的線性組合表示新的綜合變量,即主成分;因子分析:潛在的假想變量和隨機(jī)影響變量的線性組合表示原始變量?!?/p>

2因子分析模型

一、數(shù)學(xué)模型*

設(shè)個(gè)變量,如果表示為*

稱為公共因子,是不可觀測的變量,他們的系數(shù)稱為因子載荷。是特殊因子,是不能被前m個(gè)公共因子包含的部分。并且滿足:即不相關(guān);即互不相關(guān),方差為1。*即互不相關(guān),方差不一定相等,。用矩陣的表達(dá)方式*二、因子分析模型的性質(zhì)*1、原始變量X的協(xié)方差矩陣的分解D的主對角線上的元素值越小,則公共因子共享的成分越多。2、因子載荷不是惟一的

設(shè)T為一個(gè)p×p的正交矩陣,令A(yù)*=AT,F(xiàn)*=T’F,則模型可以表示為*且滿足條件因子模型的條件*

三、因子載荷矩陣中的幾個(gè)統(tǒng)計(jì)特征1、因子載荷aij的統(tǒng)計(jì)意義

因子載荷是第i個(gè)變量與第j個(gè)公共因子的相關(guān)系數(shù)

模型為

在上式的左右兩邊乘以

,再求數(shù)學(xué)期望

根據(jù)公共因子的模型性質(zhì),有

(載荷矩陣中第i行,第j列的元素)反映了第i個(gè)變量與第j個(gè)公共因子的相關(guān)重要性。絕對值越大,相關(guān)的密切程度越高。*2、變量共同度的統(tǒng)計(jì)意義定義:變量的共同度是因子載荷矩陣的第i行的元素的平方和。記為統(tǒng)計(jì)意義:兩邊求方差

所有的公共因子和特殊因子對變量的貢獻(xiàn)為1。如果非??拷?,非常小,則因子分析的效果好,從原變量空間到公共因子空間的轉(zhuǎn)化性質(zhì)好。*3、公共因子方差貢獻(xiàn)的統(tǒng)計(jì)意義因子載荷矩陣中各列元素的平方和稱為所有的對的方差貢獻(xiàn)和。衡量的相對重要性?!?因子載荷矩陣的估計(jì)方法

設(shè)隨機(jī)向量的均值為

,協(xié)方差為,

的特征根,為對應(yīng)的標(biāo)準(zhǔn)化特征向量,則*(一)主成分分析法

上式給出的

表達(dá)式是精確的,然而,它實(shí)際上是毫無價(jià)值的,因?yàn)槲覀兊哪康氖菍で笥蒙贁?shù)幾個(gè)公共因子解釋,故略去后面的p-m項(xiàng)的貢獻(xiàn),有*

上式有一個(gè)假定,模型中的特殊因子是不重要的,因而從

的分解中忽略了特殊因子的方差。

*

(二)主因子法

主因子方法是對主成分方法的修正,假定我們首先對變量進(jìn)行標(biāo)準(zhǔn)化變換。則

R=AA’+DR*=AA’=R-D稱R*為約相關(guān)矩陣,R*對角線上的元素是,而不是1。**直接求R*的前p個(gè)特征根和對應(yīng)的正交特征向量。得如下的矩陣:*

當(dāng)特殊因子的方差不大且已知的,問題非常好解決。*

在實(shí)際的應(yīng)用中,特殊因子方差矩陣一般都是未知的,可以通過一組樣本來估計(jì)。估計(jì)的方法有如下幾種:*

首先,求的初始估計(jì)值,構(gòu)造出

1)取

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論