版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第七章主成分分析§7.1引言§7.2總體的主成分§7.3樣本的主成分§7.4若干補(bǔ)充及應(yīng)用中需注意的問題1§7.1引言主成分分析由皮爾遜(Pearson,1901)首先引入,后來被霍特林(Hotelling,1933)發(fā)展了。主成分分析是一種通過降維技術(shù)把多個(gè)變量化為少數(shù)幾個(gè)主成分(綜合變量)的統(tǒng)計(jì)分析方法。這些主成分能夠反映原始變量的絕大部分信息,它們通常表示為原始變量的某種線性組合,且彼此不相關(guān)。2習(xí)題7.6
下表給出的是美國(guó)50個(gè)州每100000個(gè)人中七種犯罪的比率數(shù)據(jù)。這七種犯罪是: x1:殺人罪
x5
:夜盜罪 x2:強(qiáng)奸罪
x6:盜竊罪 x3:搶劫罪
x7
:汽車犯罪 x4:傷害罪
試圖用降維的方式對(duì)50個(gè)州的犯罪情況進(jìn)行比較分析。34statex1x2x3x4x5x6x7Alabama14.225.296.8278.31135.51881.9280.7Alaska10.851.696.82841331.73369.8753.3Arizona9.534.2138.2312.32346.14467.4439.5Arkansas8.827.683.2203.4972.61862.1183.4California11.549.42873582139.43499.8663.5Colorado6.342170.7292.91935.23903.2477.1Connecticut4.216.8129.5131.813462620.7593.2Delaware624.9157194.21682.63678.4467Florida10.239.6187.9449.11859.93840.5351.4Georgia11.731.1140.5256.51351.12170.2297.9Hawaii7.225.512864.11911.53920.4489.4Idaho5.519.439.6172.51050.82599.6237.6Illinois9.921.8211.320910852828.5528.6Indiana7.426.5123.2153.51086.22498.7377.4Iowa2.310.641.289.8812.52685.1219.9Kansas6.622100.7180.51270.42739.3244.3Kentucky10.119.181.1123.3872.21662.1245.4Louisiana15.530.9142.9335.51165.52469.9337.7Maine2.413.538.71701253.12350.7246.9┆┆┆┆┆┆┆┆該相關(guān)矩陣表明,變量之間存在一定的相關(guān)性,即彼此之間信息有不少是重復(fù)的,從而有一定的降維空間。該案例可用主成分分析進(jìn)行降維,降了維之后再進(jìn)行比較分析。5主成分的應(yīng)用(1)在一些應(yīng)用中,用前少數(shù)幾個(gè)主成分替代眾原始變量以作分析,這些主成分本身就成了分析的目標(biāo)。需要給出這前幾個(gè)主成分一個(gè)符合實(shí)際背景和意義的解釋。(2)在更多的另一些應(yīng)用中,主成分只是要達(dá)到目的的一個(gè)中間結(jié)果(或步驟),而非目的本身。例如,主成分聚類、主成分回歸、評(píng)估正態(tài)性、尋找異常值,以及尋找原始變量間的多重共線性關(guān)系等。此時(shí)的主成分可不必給出解釋。6通過一個(gè)簡(jiǎn)單二維例子理解主成分7圖7.1.1尋找主成分的正交旋轉(zhuǎn)旋轉(zhuǎn)公式:§7.2總體的主成分一、主成分的定義及導(dǎo)出二、主成分的性質(zhì)三、從相關(guān)陣出發(fā)求主成分8一、主成分的定義及導(dǎo)出設(shè),E(x)=μ,V(x)=Σ。考慮如下的線性變換
希望在約束條件下尋求向量a1,使得
達(dá)到最大,y1就稱為第一主成分。設(shè)λ1≥λ2≥?≥λp≥0為Σ的特征值,
,
i=1,2,?,p為相應(yīng)的一組正交單位特征向量。則可求得第一主成分為
它的方差具有最大值λ1。
9如果第一主成分所含信息不夠多,則需考慮再使用,并要求Cov(y1,y2)=0
在此條件和約束條件下尋求向量a2,使得
達(dá)到最大,所求的y2稱為第二主成分??汕蟮?/p>
其方差為λ2。 一般來說,x的第i主成分是指:在約束條件和Cov(yk,yi)=0,k=1,2,?,i?1下尋求ai,使得
達(dá)到最大。第i主成分為
其方差為λi,i=1,2,?,p。10主成分的幾何意義在幾何上,ti表明了第i主成分的方向,yi是x在ti上的投影值(其絕對(duì)值即為投影長(zhǎng)度),λi是這些值的方差,它反映了ti上投影點(diǎn)的變異程度。11x投影到ti上的值
其中θi是ti與x的夾角。12主成分向量與原始向量之間的關(guān)系式1314主成分與原始變量之間的關(guān)系式矩陣y1y2?ypx1t11t12?t1px2t21t22?t2p????xptp1tp2?tpp15正交變換的幾何意義正交變換的幾何意義是將Rp中由x1,x2,?,xp構(gòu)成的原p維坐標(biāo)軸作一正交旋轉(zhuǎn),一組正交單位向量t1,t2,?,tp表明了p個(gè)新坐標(biāo)軸的方向,這些新坐標(biāo)軸彼此仍保持正交(或說垂直)。16多元正態(tài)總體的主成分方向以二元正態(tài)密度的等高線族為例。17二、主成分的性質(zhì)(一)主成分向量的協(xié)方差矩陣(二)主成分的總方差(三)原始變量xi與主成分yk之間的相關(guān)系數(shù)(四)m個(gè)主成分對(duì)原始變量的貢獻(xiàn)率(五)原始變量對(duì)主成分的影響18(一)主成分向量的協(xié)方差矩陣
V(y)=Λ其中Λ=diag(λ1,λ2,?,λp),即V(yi)=λi,i=1,2,?,p,且y1,y2,?,yp互不相關(guān)。19(二)主成分的總方差
或20總方差中屬于第i主成分yi
(或被yi所解釋)的比例為
稱為主成分yi的貢獻(xiàn)率。第一主成分y1的貢獻(xiàn)率最大,表明它解釋原始變量
x1,x2,?,xp的能力最強(qiáng),而y2,y3,?,yp的解釋能力依次遞減。主成分分析的目的就是為了減少變量的個(gè)數(shù),因而一般是不會(huì)使用所有p個(gè)主成分的,忽略一些帶有較小方差的主成分將不會(huì)給總方差帶來大的影響。21前m個(gè)主成分的貢獻(xiàn)率之和
稱為主成分y1,y2,?,ym的累計(jì)貢獻(xiàn)率,它表明y1,y2,?,ym解釋x1,x2,?,xp的能力。通常取(相對(duì)于p)較小的m,使得累計(jì)貢獻(xiàn)達(dá)到一個(gè)較高的百分比(如80%~90%)。此時(shí),y1,y2,?,ym可用來代替x1,x2,?,xp,從而達(dá)到降維的目的,而信息的損失卻不多。22(三)原始變量xi與主成分yk之間的
相關(guān)系數(shù) x=Ty
即xi=ti1y1+ti2y2+…+tipyp
所以Cov(xi,yk)=Cov(tikyk,yk)=tikλk在實(shí)際應(yīng)用中,通常我們只對(duì)xi
(i=1,2,?,p)與yk
(k=1,2,?,m)的相關(guān)系數(shù)感興趣。23(四)m個(gè)主成分對(duì)原始變量的貢獻(xiàn)率m個(gè)主成分y1,y2,?,ym從原始變量x1,x2,?,xp中提取的信息量,可度量為xi與y1,y2,?,ym的復(fù)相關(guān)系數(shù)的平方,它是xi的方差可由y1,y2,?,ym聯(lián)合解釋的比例,稱之為y1,y2,?,ym對(duì)原始變量xi的貢獻(xiàn)率。
24例7.2.1設(shè)x=(x1,x2,x3)′的協(xié)方差矩陣為
其特征值為λ1=5.83,λ2=2.00,λ3=0.17
相應(yīng)的特征向量為
若只取一個(gè)主成分,則貢獻(xiàn)率為5.83/(5.83+2.00+0.17)=0.72875=72.875%25
應(yīng)再取y2,此時(shí)累計(jì)貢獻(xiàn)率為(5.83+2.00)/8=97.875% (y1,y2)對(duì)每個(gè)變量xi的貢獻(xiàn)率分別為 , 都比較高。表7.2.1
y1及(y1,y2)對(duì)每個(gè)原始變量的貢獻(xiàn)率iρ(y1,xi)ρ(y2,xi)10.9250.8550.0000.8552?0.9980.9960.0000.99630.0000.0001.0001.00026(五)原始變量對(duì)主成分的影響 yk=t1kx1+t2kx2+?+tpkxp
稱tik為yk在xi上的載荷,它反映了xi對(duì)yk的重要程度。
在解釋主成分時(shí),我們需要考察載荷,同時(shí)也應(yīng)考察一下相關(guān)系數(shù),前者更值得重視。27例7.2.2設(shè)x=(x1,x2,x3)′的協(xié)方差矩陣為
經(jīng)計(jì)算,Σ的特征值及特征向量為λ1=109.793,λ2=6.469,λ3=0.738
相應(yīng)的主成分分別為28y1=0.305x1+0.041x2+0.951x3y2=0.944x1+0.120x2?0.308x3y3=?0.127x1+0.992x2?0.002x3可見,方差大的x3在很大程度上控制了y1,方差小的x2幾乎完全控制了y3,方差介于中間的x1則基本控制了y2。y1的貢獻(xiàn)率為這么高的貢獻(xiàn)率首先歸因于x3的方差比x1和x2的方差大得多,其次是x1,x2,x3相互之間存在著一定的相關(guān)性。y3的方差相對(duì)很小,表明x1,x2,x3之間有這樣一個(gè)多重共線性關(guān)系:?0.127x1+0.992x2?0.002x3≈c
其中c=?0.127μ1+0.992μ2?0.002μ3為一常數(shù)。29
方差大的主成分與方差大的原始變量有較密切的聯(lián)系,而方差小的主成分與方差小的原始變量有較強(qiáng)的聯(lián)系。通常我們?nèi)∏皫讉€(gè)主成分,因此所取主成分會(huì)過于照顧方差大的原始變量,而對(duì)方差小的原始變量卻照顧得不夠。
30揭示多重共線性關(guān)系yp的貢獻(xiàn)率常常很小,可視作接近于一個(gè)常數(shù)(均值)。yp可能揭示出原始變量之間存在著一個(gè)意外的多重共線性關(guān)系。更進(jìn)一步來說,如果后幾個(gè)主成分的貢獻(xiàn)率都非常小,則可能表示變量之間有幾個(gè)彼此獨(dú)立的多重共線性關(guān)系。如果V(yp)=0,則表明x1,x2,?,xp之間(以概率1)存在線性關(guān)系(或者說完全共線性關(guān)系)。此時(shí)應(yīng)從這些原始變量中刪除“多余”的變量(一般來說,有幾個(gè)主成分方差為零,就有幾個(gè)“多余”的變量),然后再重新進(jìn)行主成分分析。31三、從相關(guān)陣出發(fā)求主成分通常有兩種情形不適合直接從協(xié)方差矩陣Σ出發(fā)進(jìn)行主成分分析。一種是各變量的單位不全相同的情形。另一種是各變量的單位雖相同,但其變量方差的差異較大(在應(yīng)用中常表現(xiàn)為各變量數(shù)據(jù)間的數(shù)值大小相差較大)的情形。32最常用的標(biāo)準(zhǔn)化變換是令
。顯然,
的協(xié)差陣正是x的相關(guān)陣R。從R出發(fā)求主成分,主成分分析將均等地對(duì)待每一個(gè)原始變量。設(shè)
為R的p個(gè)特征值,
為相應(yīng)的單位特征向量,且相互正交,則p個(gè)主成分為記
于是33從R出發(fā)的主成分性質(zhì)(1)E(y*)=0,V(y*)=Λ*,其中
。
(2)
。(3)變量
與主成分
之間的相關(guān)系數(shù)
即有34
因此,在解釋主成分
時(shí),從相關(guān)陣R出發(fā)求得的載荷
和相關(guān)系數(shù)
所起的作用是完全相同的,只需選其一用來作主成分解釋即可。(4)主成分
對(duì)變量
的貢獻(xiàn)率(5)
。35例7.2.3在例7.2.2中,x的相關(guān)陣 R的特征值及特征向量為
相應(yīng)的主成分分別為36的貢獻(xiàn)率為
和
累計(jì)貢獻(xiàn)率為現(xiàn)比較本例中從R出發(fā)和例7.2.2中從Σ出發(fā)的主成分計(jì)算結(jié)果。從R出發(fā)的的貢獻(xiàn)率0.705明顯小于從Σ出發(fā)的y1的貢獻(xiàn)率0.938,事實(shí)上,原始變量方差之間的差異越大,這一點(diǎn)也就傾向于越明顯。可用標(biāo)準(zhǔn)化前的原變量表達(dá)如下:37可見,在原變量x1,x2,x3上的載荷相對(duì)大小與例7.2.2中yi在x1,x2,x3上的載荷相對(duì)大小之間有著非常大的差異。這說明,標(biāo)準(zhǔn)化后的結(jié)論完全可能會(huì)發(fā)生很大的變化,因此標(biāo)準(zhǔn)化不是無關(guān)緊要的。38§7.3樣本的主成分設(shè)數(shù)據(jù)矩陣為
則樣本協(xié)差陣和樣本相關(guān)陣分別為39§7.3樣本的主成分一、樣本主成分的定義二、從S出發(fā)求主成分三、從出發(fā)求主成分四、主成分分析的應(yīng)用40主成分定義的回顧第一主成分:在約束條件||a1||=1下尋求向量a1,使得
的方差
達(dá)到最大。第二主成分:在約束條件||a2||=1和Cov(y1,y2)=0下尋求向量a2,使得
的方差
達(dá)到最大。第i主成分:在約束條件||ai||=1和Cov(yk,yi)=0,k=1,2,?,i?1下尋求ai,使得
的方差
達(dá)到最大。
41一、樣本主成分的定義若向量a1在約束條件||a1||=1下,使得
的樣本方差
達(dá)到最大,則稱為第一樣本主成分。若向量a2在約束條件||a2||=1和
42的樣本協(xié)方差
下,使得的樣本方差
達(dá)到最大,則稱為第二樣本主成分。一般地,若向量ai在約束條件||ai||=1和的樣本協(xié)方差43
下,使得的樣本方差達(dá)到最大,則稱為第i樣本主成分,i=2,?,p。需要指出的是,樣本主成分是使樣本方差而非方差達(dá)到最大,是使樣本協(xié)方差而非協(xié)方差為零。44二、從S出發(fā)求主成分用類似于上一節(jié)的方法,以S代替Σ即可求得樣本主成分。設(shè)
為S的特征值,
為相應(yīng)的單位特征向量,且彼此正交。則第i樣本主成分為
,它具有樣本方差
,各主成分之間的樣本協(xié)方差為零。在幾何上,p個(gè)樣本主成分的方向?yàn)?/p>
所在的方向,且彼此垂直。n個(gè)樣品點(diǎn)在
上的投影點(diǎn)最為分散,在其余
上投影點(diǎn)的分散程度依次遞減。45總樣本方差
xi與
的樣本相關(guān)系數(shù)
其中
,k=1,2,…,p。46主成分得分
中心化的第i主成分若將各觀測(cè)值xj代替上式中的x,則第i主成分的值
稱之為觀測(cè)值xj的第i主成分得分。所有觀測(cè)值的平均主成分得分47三、從出發(fā)求主成分設(shè)樣本相關(guān)陣的p個(gè)特征值為
,為相應(yīng)的正交單位特征向量,則第i樣本主成分其中x*是各分量經(jīng)(樣本)標(biāo)準(zhǔn)化了的向量,即48標(biāo)準(zhǔn)化后的主成分得分令
將其代替上述公式中的x*,即得觀測(cè)值xj在第i主成分上的得分
所有觀測(cè)值的平均主成分得分49四、主成分分析的應(yīng)用在本身作為目標(biāo)的主成分分析中,我們首先應(yīng)保證所提取的前幾個(gè)主成分的累計(jì)貢獻(xiàn)率達(dá)到一個(gè)較高的水平,其次對(duì)這些被提取的主成分必須都能夠給出符合實(shí)際背景和意義的解釋。主成分的解釋其含義一般多少帶有點(diǎn)模糊性,不像原始變量的含義那么清楚、確切,這是變量降維過程中不得不付出的代價(jià)。因此,提取的主成分個(gè)數(shù)m通常應(yīng)明顯小于原始變量個(gè)數(shù)p(除非p本身較?。?,否則維數(shù)降低的“利”可能抵不過主成分含義不如原始變量清楚的“弊”。50如果原始變量之間具有較高的相關(guān)性,則前面少數(shù)幾個(gè)主成分的累計(jì)貢獻(xiàn)率通常就能達(dá)到一個(gè)較高水平,也就是說,此時(shí)的累計(jì)貢獻(xiàn)率通常較易得到滿足。主成分分析的困難之處主要在于要能夠給出主成分的較好解釋,所提取的主成分中如有一個(gè)主成分解釋不了,本身作為目的的整個(gè)主成分分析也就失敗了。簡(jiǎn)單的說,該方法要應(yīng)用得成功,一是靠原始變量的合理選取,二是靠“運(yùn)氣”。51
例7.3.1在制定服裝標(biāo)準(zhǔn)的過程中,對(duì)128名成年男子的身材進(jìn)行了測(cè)量,每人測(cè)得的指標(biāo)中含有這樣六項(xiàng): x1:身高
x4:手臂長(zhǎng)
x2:坐高
x5:肋圍 x3:胸圍
x6:腰圍所得樣本相關(guān)矩陣列于表7.3.1。x1x2x3x4x5x6x11.00x20.791.00x30.360.311.00x40.760.550.351.00x50.250.170.640.161.00x60.510.350.580.380.631.00表7.3.1 男子身材六項(xiàng)指標(biāo)的樣本相關(guān)矩陣52表7.3.2 的前三個(gè)特征值、特征向量以及貢獻(xiàn)率特征向量
:身高0.469?0.3650.092
:坐高0.404?0.3970.613
:胸圍0.3940.397?0.279
:手臂長(zhǎng)0.408?0.365?0.705
:肋圍0.3370.5690.164
:腰圍0.4270.3080.119特征值3.2871.4060.459貢獻(xiàn)率0.5480.2340.077累計(jì)貢獻(xiàn)率0.5480.7820.85953前三個(gè)主成分分別為根據(jù)累計(jì)貢獻(xiàn)率可考慮取前面兩個(gè)或三個(gè)主成分。稱第一主成分為(身材)大小成分,稱第二主成分為形狀成分(或胖瘦成分),稱第三主成分為臂長(zhǎng)成分。可考慮取前兩個(gè)主成分。由于非常小,所以存在共線性關(guān)系:54例7.3.2在習(xí)題6.6中,如下八項(xiàng)男子徑賽運(yùn)動(dòng)記錄:
x1:100米(秒)
x5:1500米(分)
x2:200米(秒)
x6:5000米(分)
x3:400米(秒)
x7:10000米(分)
x4:800米(秒)
x8:馬拉松(分)表7.3.3 八項(xiàng)男子徑賽運(yùn)動(dòng)記錄的樣本相關(guān)矩陣x1x2x3x4x5x6x7x8x11.000x20.9231.000x30.8410.8511.000x40.7560.8070.8701.000x50.7000.7750.8350.9181.000x60.6190.6950.7790.8640.9281.000x70.6330.6970.7870.8690.9350.9751.000x80.5200.5960.7050.8060.8660.9320.9431.00055表7.3.4 的前三個(gè)特征值、特征向量以及貢獻(xiàn)率特征向量
:100米0.3180.5670.332
:200米0.3370.4620.361
:400米0.3560.248?0.560
:800米0.3690.012?0.532
:1500米0.373?0.140?0.153
:5000米0.364?0.3120.190
:10000米0.367?0.3070.182
:馬拉松0.342?0.4390.263特征值6.6220.8780.159貢獻(xiàn)率0.8280.1100.020累計(jì)貢獻(xiàn)率0.8280.9370.95756——在徑賽項(xiàng)目上的強(qiáng)弱成分?!从沉怂俣扰c耐力成績(jī)的對(duì)比。例7.3.3對(duì)例6.3.3中的數(shù)據(jù)從相關(guān)矩陣出發(fā)進(jìn)行主成分分析。57圖7.3.1相關(guān)矩陣58圖7.3.2特征值和特征向量第一主成分可稱為綜合消費(fèi)性支出成分。第二主成分可稱為(受地區(qū)氣候影響的)消費(fèi)(結(jié)構(gòu))傾向成分,后面表7.3.6中的排序進(jìn)一步支持了這一解釋。第三主成分很難給出明顯的解釋,因此我們只取前面兩個(gè)主成分。59表7.3.5
按第一主成分排序的31個(gè)地區(qū)地區(qū)地區(qū)江西?2.234?1.867新疆?0.6970.647河南?1.947?0.388四川?0.5340.042黑龍江?1.9280.637廣西?0.252?2.058吉林?1.8600.151山東?0.1470.984山西?1.8490.404福建0.201?1.338內(nèi)蒙古?1.8270.510湖南0.219?0.204安徽?1.797?0.519江蘇0.407?0.312甘肅?1.5490.526云南0.4360.479寧夏?1.5020.907西藏0.4372.365遼寧?1.3140.845重慶1.1160.410貴州?1.298?0.342天津2.0060.045海南?1.158?1.913浙江3.5840.532青海?1.0450.426北京5.4262.467陜西?0.859?0.501廣東5.584?3.072河北?0.7700.580上海5.867?0.196湖北?0.717?0.24760表7.3.6
按第二主成分排序的31個(gè)地區(qū)地區(qū)地區(qū)廣東5.584?3.072山西?1.8490.404廣西?0.252?2.058重慶1.1160.410海南?1.158?1.913青海?1.0450.426江西?2.234?1.867云南0.4360.479福建0.201?1.338內(nèi)蒙古?1.8270.510安徽?1.797?0.519甘肅?1.5490.526陜西?0.859?0.501浙江3.5840.532河南?1.947?0.388河北?0.7700.580貴州?1.298?0.342黑龍江?1.9280.637江蘇0.407?0.312新疆?0.6970.647湖北?0.717?0.247遼寧?1.3140.845湖南0.219?0.204寧夏?1.5020.907上海5.867?0.196山東?0.1470.984四川?0.5340.042西藏0.4372.365天津2.0060.045北京5.4262.467吉林?1.8600.151616263§7.4若干補(bǔ)充及應(yīng)用中需注意的問題*一、第一主成分與線性回歸線的區(qū)別二、主成分的保留個(gè)數(shù)三、關(guān)于樣本容量n的大小四、關(guān)于異常值的影響五、關(guān)于時(shí)間序列數(shù)據(jù)六、主成分用于聚類分析七、關(guān)于不同時(shí)期的主成分分析八、關(guān)于定性數(shù)據(jù)九、對(duì)主成分綜合得分方法的質(zhì)疑64*一、第一主成分與線性回歸線的區(qū)別幾何上第一主成分所在方向與(線性)回歸線很像,但這兩者是不同的。
65x2對(duì)x1的回歸線x1對(duì)x2的回歸線66x1,x2的第一主成分線二、主成分的保留個(gè)數(shù)應(yīng)保留多少個(gè)主成分要視具體情況,很難一概而論,最終一般還得依賴于主觀判斷。單從保留信息量的角度通常有以下幾種選擇主成分個(gè)數(shù)的方法:(1)保留的前幾個(gè)主成分能使其累計(jì)貢獻(xiàn)率達(dá)到一個(gè)較高的比例(如80%),具體需主觀判斷確定,這是我們最為推薦的方法。67(2)當(dāng)從S(或
)出發(fā)求主成分時(shí),有一個(gè)經(jīng)驗(yàn)規(guī)則是只保留特征值大于其平均值
(或1)的主成分。這是一個(gè)粗略的經(jīng)驗(yàn)規(guī)則,只宜作為選擇主成分個(gè)數(shù)的初步參考。(3)一種能夠幫助我們確定主成分個(gè)數(shù)的視覺工具,即所謂的陡坡圖,見附錄7-1二中的陡坡圖輸出及其說明。(4)采用對(duì)主成分所相應(yīng)的特征值進(jìn)行顯著性檢驗(yàn)的方法,可參閱書中參考文獻(xiàn)[21]中的12.6節(jié)。該方法在實(shí)踐中較少采用。68如果我們需要對(duì)主成分進(jìn)行解釋,則選用多少個(gè)主成分就還需考慮所選主成分是否都能作出成功的解釋,有時(shí)可能會(huì)為此降低了點(diǎn)累計(jì)貢獻(xiàn)率。如果不需要對(duì)主成分作出解釋(此時(shí)的主成分得分通常只是作為進(jìn)入下一階段分析的輸入數(shù)據(jù),即主成分僅是整個(gè)分析的中間結(jié)果),則主成分個(gè)數(shù)的選擇一般更傾向于保持一個(gè)足夠高的累計(jì)貢獻(xiàn)率,除非需要畫散點(diǎn)圖。69取多少個(gè)主成分有時(shí)也要視作圖或排序的需要而定。當(dāng)取三個(gè)和四個(gè)主成分都可行時(shí),選取三個(gè)有一大好處,就是可以利用三維旋轉(zhuǎn)圖對(duì)所有樣品的三個(gè)主成分得分進(jìn)行直觀的比較分析。當(dāng)取兩個(gè)和三個(gè)主成分都可行時(shí),選取兩個(gè)的主要好處是,平面散點(diǎn)圖可以比三維旋轉(zhuǎn)圖觀測(cè)得更為清楚和方便,且可打印輸出。當(dāng)取一個(gè)和兩個(gè)主成分都可行時(shí),取一個(gè)的優(yōu)點(diǎn)是可以對(duì)各樣品進(jìn)行排序(如果這種排序是有實(shí)際意義的),取兩個(gè)的優(yōu)點(diǎn)是可以畫散點(diǎn)圖及保留更多的信息。如果我們對(duì)樣品的排序不感興趣,則一般應(yīng)考慮取兩個(gè)主成分,哪怕第二主成分的貢獻(xiàn)率明顯偏低些,因?yàn)槿∫粋€(gè)主成分不利于作圖。此外,通過對(duì)前兩個(gè)或三個(gè)主成分的作圖,還有助于從直覺上發(fā)現(xiàn)異常值、評(píng)估正態(tài)性以及進(jìn)行其他的探索性分析等。70三、關(guān)于樣本容量n的大小不同于判別分析,在主成分的計(jì)算過程中不涉及S(或
)的逆,故理論上允許n≤p。一般(特別是在主成分本身作為目標(biāo)的分析中)較理想的是能滿足n很大(如n≥50)且n至少是p的五倍,這樣通常可使S(或
)的值比較穩(wěn)定,分析結(jié)果一般也就不會(huì)隨樣本的變化而發(fā)生較大的改變,從而結(jié)論更加可信。71四、關(guān)于異常值的影響有時(shí)少數(shù)幾個(gè)異常值就可對(duì)S(或
)的值產(chǎn)生較大、甚至是非常大的影響。遇到這種異常值通??捎袃煞N處理方法,一種是從數(shù)據(jù)中找出并直接刪除之,如例8.4.4的“注”中所說明的;另一種是采用Σ(或R)的穩(wěn)健估計(jì),而不是計(jì)算成S(或
),從而得到一個(gè)受異常值影響程度相對(duì)較小的估計(jì)(已超出了本書的范圍)。72五、關(guān)于時(shí)間序列數(shù)據(jù)在絕大多數(shù)場(chǎng)合下,時(shí)間序列數(shù)據(jù)x1,x2,?,xn彼此間不是獨(dú)立的,而是相關(guān)的,從而不是一個(gè)簡(jiǎn)單隨機(jī)樣本。此時(shí),由x1,x2,?,xn算得的S一般將不再是Σ的無偏估計(jì),尤其當(dāng)x1,x2,?,xn彼此間的相關(guān)程度較高時(shí),用S估計(jì)Σ一般會(huì)有較嚴(yán)重的偏差,S也就不適合作為Σ的估計(jì)了,連帶
也不宜用來估計(jì)R了。此時(shí),從S(或
)出發(fā)進(jìn)行的主成分分析(或其他分析,如第八章的因子分析等)是沒有意義的。73可作主成分分析的時(shí)間序列例子74六、主成分用于聚類分析(一)用目測(cè)法在主成分得分圖
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度白蟻防治與森林資源保護(hù)合同3篇
- 平面設(shè)計(jì)崗位心得體會(huì)
- 2025年文化旅游PPP項(xiàng)目合同文本編制與審核流程2篇
- 業(yè)務(wù)分析經(jīng)理年終總結(jié)
- 2025-2030年中國(guó)云母制品產(chǎn)業(yè)發(fā)展現(xiàn)狀及前景規(guī)劃研究報(bào)告
- 2025-2030年中國(guó)丙烯酸羥乙酯行業(yè)規(guī)模分析及投資前景規(guī)劃研究報(bào)告
- 2025-2030年中國(guó)adc發(fā)泡劑市場(chǎng)需求規(guī)模及發(fā)展趨勢(shì)預(yù)測(cè)報(bào)告
- 2025年冀教版六年級(jí)英語下冊(cè)月考試卷
- 二零二五年酒店拆除工程拆除材料回收與再利用合同3篇
- 2025年仁愛科普版六年級(jí)數(shù)學(xué)上冊(cè)階段測(cè)試試卷含答案
- 生物化學(xué)課件
- 內(nèi)蒙古自治區(qū)巴彥淖爾市各縣區(qū)鄉(xiāng)鎮(zhèn)行政村村莊村名居民村民委員會(huì)明細(xì)及行政區(qū)劃代碼
- (精選word)洪恩識(shí)字-生字卡片1-200
- 課文背書統(tǒng)計(jì)表
- 三年級(jí)語文下冊(cè)教案-14 蜜蜂3-部編版
- 蘇教版小學(xué)數(shù)學(xué)四年級(jí)下冊(cè)全冊(cè)教案
- 押金收據(jù)條(通用版)
- 藥理治療中樞神經(jīng)系統(tǒng)退行性疾病藥.pptx
- 強(qiáng)三基反三違除隱患促安全百日專項(xiàng)行動(dòng)實(shí)施方案
- 新人教版七年級(jí)數(shù)學(xué)上冊(cè)全冊(cè)專項(xiàng)訓(xùn)練大全
- 標(biāo)準(zhǔn)預(yù)防--ppt課件
評(píng)論
0/150
提交評(píng)論