主成分分析實(shí)例及含義講解課件_第1頁
主成分分析實(shí)例及含義講解課件_第2頁
主成分分析實(shí)例及含義講解課件_第3頁
主成分分析實(shí)例及含義講解課件_第4頁
主成分分析實(shí)例及含義講解課件_第5頁
已閱讀5頁,還剩205頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1主成分分析和因子分析

吳喜之1主成分分析和因子分析吳喜之2匯報(bào)什么?假定你是一個(gè)公司的財(cái)務(wù)經(jīng)理,掌握了公司的所有數(shù)據(jù),比如固定資產(chǎn)、流動(dòng)資金、每一筆借貸的數(shù)額和期限、各種稅費(fèi)、工資支出、原料消耗、產(chǎn)值、利潤、折舊、職工人數(shù)、職工的分工和教育程度等等。如果讓你向上面介紹公司狀況,你能夠把這些指標(biāo)和數(shù)字都原封不動(dòng)地?cái)[出去嗎?

當(dāng)然不能。你必須要把各個(gè)方面作出高度概括,用一兩個(gè)指標(biāo)簡單明了地把情況說清楚。

2匯報(bào)什么?假定你是一個(gè)公司的財(cái)務(wù)經(jīng)理,掌握了公司的所有數(shù)據(jù)3主成分分析每個(gè)人都會(huì)遇到有很多變量的數(shù)據(jù)。比如全國或各個(gè)地區(qū)的帶有許多經(jīng)濟(jì)和社會(huì)變量的數(shù)據(jù);各個(gè)學(xué)校的研究、教學(xué)等各種變量的數(shù)據(jù)等等。這些數(shù)據(jù)的共同特點(diǎn)是變量很多,在如此多的變量之中,有很多是相關(guān)的。人們希望能夠找出它們的少數(shù)“代表”來對(duì)它們進(jìn)行描述。本章就介紹兩種把變量維數(shù)降低以便于描述、理解和分析的方法:主成分分析(principalcomponentanalysis)和因子分析(factoranalysis)。實(shí)際上主成分分析可以說是因子分析的一個(gè)特例。在引進(jìn)主成分分析之前,先看下面的例子。3主成分分析每個(gè)人都會(huì)遇到有很多變量的數(shù)據(jù)。4成績數(shù)據(jù)(student.sav)100個(gè)學(xué)生的數(shù)學(xué)、物理、化學(xué)、語文、歷史、英語的成績?nèi)缦卤恚ú糠郑?成績數(shù)據(jù)(student.sav)100個(gè)學(xué)生的數(shù)學(xué)、物理5從本例可能提出的問題目前的問題是,能不能把這個(gè)數(shù)據(jù)的6個(gè)變量用一兩個(gè)綜合變量來表示呢?這一兩個(gè)綜合變量包含有多少原來的信息呢?能不能利用找到的綜合變量來對(duì)學(xué)生排序呢?這一類數(shù)據(jù)所涉及的問題可以推廣到對(duì)企業(yè),對(duì)學(xué)校進(jìn)行分析、排序、判別和分類等問題。5從本例可能提出的問題目前的問題是,能不能把這個(gè)數(shù)據(jù)的6個(gè)變6空間的點(diǎn)例中的的數(shù)據(jù)點(diǎn)是六維的;也就是說,每個(gè)觀測(cè)值是6維空間中的一個(gè)點(diǎn)。我們希望把6維空間用低維空間表示。先假定只有二維,即只有兩個(gè)變量,它們由橫坐標(biāo)和縱坐標(biāo)所代表;因此每個(gè)觀測(cè)值都有相應(yīng)于這兩個(gè)坐標(biāo)軸的兩個(gè)坐標(biāo)值;如果這些數(shù)據(jù)形成一個(gè)橢圓形狀的點(diǎn)陣(這在變量的二維正態(tài)的假定下是可能的)那么這個(gè)橢圓有一個(gè)長軸和一個(gè)短軸。在短軸方向上,數(shù)據(jù)變化很少;在極端的情況,短軸如果退化成一點(diǎn),那只有在長軸的方向才能夠解釋這些點(diǎn)的變化了;這樣,由二維到一維的降維就自然完成了。6空間的點(diǎn)例中的的數(shù)據(jù)點(diǎn)是六維的;也就是說,每個(gè)觀測(cè)值是6維778橢球的長短軸當(dāng)坐標(biāo)軸和橢圓的長短軸平行,那么代表長軸的變量就描述了數(shù)據(jù)的主要變化,而代表短軸的變量就描述了數(shù)據(jù)的次要變化。但是,坐標(biāo)軸通常并不和橢圓的長短軸平行。因此,需要尋找橢圓的長短軸,并進(jìn)行變換,使得新變量和橢圓的長短軸平行。如果長軸變量代表了數(shù)據(jù)包含的大部分信息,就用該變量代替原先的兩個(gè)變量(舍去次要的一維),降維就完成了。橢圓(球)的長短軸相差得越大,降維也越有道理。8橢球的長短軸當(dāng)坐標(biāo)軸和橢圓的長短軸平行,那么代表長軸的變量9910主軸和主成分對(duì)于多維變量的情況和二維類似,也有高維的橢球,只不過無法直觀地看見罷了。首先把高維橢球的主軸找出來,再用代表大多數(shù)數(shù)據(jù)信息的最長的幾個(gè)軸作為新變量;這樣,主成分分析就基本完成了。注意,和二維情況類似,高維橢球的主軸也是互相垂直的。這些互相正交的新變量是原先變量的線性組合,叫做主成分(principalcomponent)。

10主軸和主成分對(duì)于多維變量的情況和二維類似,也有高維的橢球11主成分之選取正如二維橢圓有兩個(gè)主軸,三維橢球有三個(gè)主軸一樣,有幾個(gè)變量,就有幾個(gè)主成分。選擇越少的主成分,降維就越好。什么是標(biāo)準(zhǔn)呢?那就是這些被選的主成分所代表的主軸的長度之和占了主軸長度總和的大部分。有些文獻(xiàn)建議,所選的主軸總長度占所有主軸長度之和的大約85%即可,其實(shí),這只是一個(gè)大體的說法;具體選幾個(gè),要看實(shí)際情況而定。11主成分之選取正如二維橢圓有兩個(gè)主軸,三維橢球有三個(gè)主軸一12主成分分析的數(shù)學(xué)要尋找方差最大的方向。即使得向量X的線性組合a’X的方差最大的方向a.而Var(a’X)=a’Cov(X)a;由于Cov(X)未知;于是用X的樣本相關(guān)陣R來近似.因此,要尋找向量a使得a’Ra最大(注意相關(guān)陣和協(xié)方差陣差一個(gè)常數(shù)記得相關(guān)陣和特征值問題嗎?回顧一下吧!選擇幾個(gè)主成分呢?要看“貢獻(xiàn)率.”12主成分分析的數(shù)學(xué)要尋找方差最大的方向。即使得向量X的線性13對(duì)于我們的數(shù)據(jù),SPSS輸出為這里的InitialEigenvalues就是這里的六個(gè)主軸長度,又稱特征值(數(shù)據(jù)相關(guān)陣的特征值)。頭兩個(gè)成分特征值累積占了總方差的81.142%。后面的特征值的貢獻(xiàn)越來越少。13對(duì)于我們的數(shù)據(jù),SPSS輸出為這里的InitialEi14特征值的貢獻(xiàn)還可以從SPSS的所謂碎石圖看出14特征值的貢獻(xiàn)還可以從SPSS的所謂碎石圖看出15怎么解釋這兩個(gè)主成分。前面說過主成分是原始六個(gè)變量的線性組合。是怎么樣的組合呢?SPSS可以輸出下面的表。

這里每一列代表一個(gè)主成分作為原來變量線性組合的系數(shù)(比例)。比如第一主成分為數(shù)學(xué)、物理、化學(xué)、語文、歷史、英語這六個(gè)變量的線性組合,系數(shù)(比例)為-0.806,-0.674,-0.675,0.893,0.825,0.836。15怎么解釋這兩個(gè)主成分。前面說過主成分是原始六個(gè)變量的線性16如用x1,x2,x3,x4,x5,x6分別表示原先的六個(gè)變量,而用y1,y2,y3,y4,y5,y6表示新的主成分,那么,第一和第二主成分為這些系數(shù)稱為主成分載荷(loading),它表示主成分和相應(yīng)的原先變量的相關(guān)系數(shù)。比如y1表示式中x1的系數(shù)為-0.806,這就是說第一主成分和數(shù)學(xué)變量的相關(guān)系數(shù)為-0.806。相關(guān)系數(shù)(絕對(duì)值)越大,主成分對(duì)該變量的代表性也越大??梢钥吹贸觯谝恢鞒煞謱?duì)各個(gè)變量解釋得都很充分。而最后的幾個(gè)主成分和原先的變量就不那么相關(guān)了。16如用x1,x2,x3,x4,x5,x6分別表示原先的六個(gè)17可以把第一和第二主成分的載荷點(diǎn)出一個(gè)二維圖以直觀地顯示它們?nèi)绾谓忉屧瓉淼淖兞康?。這個(gè)圖叫做載荷圖。17可以把第一和第二主成分的載荷點(diǎn)出一個(gè)二維圖以直觀地顯示它18該圖左面三個(gè)點(diǎn)是數(shù)學(xué)、物理、化學(xué)三科,右邊三個(gè)點(diǎn)是語文、歷史、外語三科。圖中的六個(gè)點(diǎn)由于比較擠,不易分清,但只要認(rèn)識(shí)到這些點(diǎn)的坐標(biāo)是前面的第一二主成分載荷,坐標(biāo)是前面表中第一二列中的數(shù)目,還是可以識(shí)別的。18該圖左面三個(gè)點(diǎn)是數(shù)學(xué)、物理、化學(xué)三科,右邊三個(gè)點(diǎn)是語文、19因子分析主成分分析從原理上是尋找橢球的所有主軸。因此,原先有幾個(gè)變量,就有幾個(gè)主成分。而因子分析是事先確定要找?guī)讉€(gè)成分,這里叫因子(factor)(比如兩個(gè)),那就找兩個(gè)。這使得在數(shù)學(xué)模型上,因子分析和主成分分析有不少區(qū)別。而且因子分析的計(jì)算也復(fù)雜得多。根據(jù)因子分析模型的特點(diǎn),它還多一道工序:因子旋轉(zhuǎn)(factorrotation);這個(gè)步驟可以使結(jié)果更好。當(dāng)然,對(duì)于計(jì)算機(jī)來說,因子分析并不比主成分分析多費(fèi)多少時(shí)間。從輸出的結(jié)果來看,因子分析也有因子載荷(factorloading)的概念,代表了因子和原先變量的相關(guān)系數(shù)。但是在因子分析公式中的因子載荷和主成分分析中的因子載荷位置不同。因子分析也給出了二維圖;但解釋和主成分分析的載荷圖類似。19因子分析主成分分析從原理上是尋找橢球的所有主軸。因此,原20主成分分析與因子分析的公式上的區(qū)別主成分分析因子分析(m<p)因子得分20主成分分析與因子分析的公式上的區(qū)別主成分分析因子分析(m21因子分析的數(shù)學(xué)因子分析需要許多假定才能夠解.具體來說.21因子分析的數(shù)學(xué)因子分析需要許多假定才能夠解.具體來說.22對(duì)于我們的數(shù)據(jù),SPSS因子分析輸出為22對(duì)于我們的數(shù)據(jù),SPSS因子分析輸出為23這個(gè)表說明六個(gè)變量和因子的關(guān)系。為簡單記,我們用x1,x2,x3,x4,x5,x6來表示math(數(shù)學(xué)),phys(物理),chem(化學(xué)),literat(語文),history(歷史),english(英語)等變量。這樣因子f1和f2與這些原變量之間的關(guān)系是(注意,和主成分分析不同,這里把成分(因子)寫在方程的右邊,把原變量寫在左邊;但相應(yīng)的系數(shù)還是主成分和各個(gè)變量的線性相關(guān)系數(shù),也稱為因子載荷):23這個(gè)表說明六個(gè)變量和因子的關(guān)系。為簡單記,我們用x1,242425這里,第一個(gè)因子主要和語文、歷史、英語三科有很強(qiáng)的正相關(guān);而第二個(gè)因子主要和數(shù)學(xué)、物理、化學(xué)三科有很強(qiáng)的正相關(guān)。因此可以給第一個(gè)因子起名為“文科因子”,而給第二個(gè)因子起名為“理科因子”。從這個(gè)例子可以看出,因子分析的結(jié)果比主成分分析解釋性更強(qiáng)。25這里,第一個(gè)因子主要和語文、歷史、英語三科有很強(qiáng)的正相關(guān)26這些系數(shù)所形成的散點(diǎn)圖(在SPSS中也稱載荷圖)為可以直觀看出每個(gè)因子代表了一類學(xué)科26這些系數(shù)所形成的散點(diǎn)圖(在SPSS中也稱載荷圖)為可以直27計(jì)算因子得分可以根據(jù)輸出算出每個(gè)學(xué)生的第一個(gè)因子和第二個(gè)因子的大小,即算出每個(gè)學(xué)生的因子得分f1和f2。27計(jì)算因子得分可以根據(jù)輸出算出每個(gè)學(xué)生的第一個(gè)因子和第二個(gè)28該輸出說明第一和第二主因子為(習(xí)慣上用字母f來表示因子)可以按照如下公式計(jì)算,該函數(shù)稱為因子得分(factorscore)。人們可以根據(jù)這兩套因子得分對(duì)學(xué)生分別按照文科和理科排序。當(dāng)然得到因子得分只是SPSS軟件的一個(gè)選項(xiàng)。28該輸出說明第一和第二主因子為(習(xí)慣上用字母f來表示因子)29SPSS實(shí)現(xiàn)(因子分析與主成分分析)拿student.sav為例,選Analyze-DataReduction-Factor進(jìn)入主對(duì)話框;把math、phys、chem、literat、history、english選入Variables,然后點(diǎn)擊Extraction,在Method選擇一個(gè)方法(如果是主成分分析,則選PrincipalComponents),下面的選項(xiàng)可以隨意,比如要畫碎石圖就選Screeplot,另外在Extract選項(xiàng)可以按照特征值的大小選主成分(或因子),也可以選定因子的數(shù)目;之后回到主對(duì)話框(用Continue)。然后點(diǎn)擊Rotation,再在該對(duì)話框中的Method選擇一個(gè)旋轉(zhuǎn)方法(如果是主成分分析就選None),在Display選Rotatedsolution(以輸出和旋轉(zhuǎn)有關(guān)的結(jié)果)和Loadingplot(以輸出載荷圖);之后回到主對(duì)話框(用Continue)。如果要計(jì)算因子得分就要點(diǎn)擊Scores,再選擇Saveasvariables(因子得分就會(huì)作為變量存在數(shù)據(jù)中的附加列上)和計(jì)算因子得分的方法(比如Regression);要想輸出ComponentScoreCoefficientMatrix表,就要選擇Displayfactorscorecoefficientmatrix;之后回到主對(duì)話框(用Continue)。這時(shí)點(diǎn)OK即可。29SPSS實(shí)現(xiàn)(因子分析與主成分分析)拿student.s30因子分析和主成分分析的一些注意事項(xiàng)

可以看出,因子分析和主成分分析都依賴于原始變量,也只能反映原始變量的信息。所以原始變量的選擇很重要。另外,如果原始變量都本質(zhì)上獨(dú)立,那么降維就可能失敗,這是因?yàn)楹茈y把很多獨(dú)立變量用少數(shù)綜合的變量概括。數(shù)據(jù)越相關(guān),降維效果就越好。在得到分析的結(jié)果時(shí),并不一定會(huì)都得到如我們例子那樣清楚的結(jié)果。這與問題的性質(zhì),選取的原始變量以及數(shù)據(jù)的質(zhì)量等都有關(guān)系在用因子得分進(jìn)行排序時(shí)要特別小心,特別是對(duì)于敏感問題。由于原始變量不同,因子的選取不同,排序可以很不一樣。30因子分析和主成分分析的一些注意事項(xiàng)

可以看出,因子分析31主成分分析

(PrincipalComponentsAnalysis)

31主成分分析

(PrincipalComponents32洛衫磯對(duì)12個(gè)人口調(diào)查區(qū)的數(shù)據(jù)編號(hào)

總?cè)丝?/p>

總雇員數(shù)

中等校

專業(yè)服務(wù)

中等房價(jià)

平均校齡

項(xiàng)目數(shù)

1 5700 12.8 2500 270 250002 1000 10.9 600 10 100003 3400 8.8 1000 10 90004 3800 13.6 1700 140 250005 4000 12.8 1600 140 250006 8200 8.3 2600 60 120007 1200 11.4 400 10 160008 9100 11.5 3300 60 140009 9900 12.5 3400 180 1800010 9600 13.7 3600 390 2500011 9600 9.6 3300 80 1200012 9400 11.4 4000 100 1300032洛衫磯對(duì)12個(gè)人口調(diào)查區(qū)的數(shù)據(jù)編號(hào)總?cè)丝诳偣?3動(dòng)機(jī)對(duì)于具有許多變量的一個(gè)現(xiàn)象,人們往往希望能夠用較少的幾個(gè)綜合變量來描述.這是一種簡化.顯然,如果這些變量互相獨(dú)立,則每一個(gè)都必須在綜合后的變量中有同等份額;這時(shí)無簡化可言.當(dāng)這些變量很相關(guān)時(shí),則有可能用綜合變量來大大簡化.一些可以被其它變量代表的變量甚至能省略掉.主成分分析就是這樣一種簡化方法.33動(dòng)機(jī)對(duì)于具有許多變量的一個(gè)現(xiàn)象,人們往往希望能夠用較少34如果有變量x1,...,xp,數(shù)學(xué)上可以把它們變換成一組新的變量(稱為成分)y1,...,yp,使得:(1)每一個(gè)y是那些x的線性組合,即yi=ai1x1+…+aipxp;(Y=a’X)(2)系數(shù)aij的平方和為1,即

ai=(ai1,...,aip)T是單位向量;(3)y1是這樣的線性組合中方差最大的,y2為和y1不相關(guān)的線性組合中使方差最大的,如此下去,一般地,yj為與y1,y2,…,yj-1都不相關(guān)的方差最大的線性組合.34如果有變量x1,...,xp,數(shù)學(xué)上可以把它們變換成一組35頭幾個(gè)變量(主成分)由于其方差最大,往往包含了絕大部分信息,人們就可以用它們來描述原來用p個(gè)變量所代表的現(xiàn)象.簡化也就完成了.35頭幾個(gè)變量(主成分)由于其方差最大,往往包含了絕大部分信36矩陣情況上面這種理論上的變換僅僅在一些關(guān)于x變量的假設(shè)下才能實(shí)現(xiàn).在實(shí)際應(yīng)用中,如果每個(gè)變量有n個(gè)觀察值,人們得到的是n×p數(shù)據(jù)陣.這時(shí)就要用代數(shù)的辦法來解出這些系數(shù)ai來.這時(shí)主分量的方差相當(dāng)于(或成比例于)樣本相關(guān)陣(或協(xié)方差陣)的特征值,而相應(yīng)的系數(shù)為和這些特征值對(duì)應(yīng)的特征向量.36矩陣情況上面這種理論上的變換僅僅在一些關(guān)于x變量的假設(shè)下37向量X的線性組合a’X的方差為

Var(a’X)=a’Cov(X)a;Cov(X)未知;于是用X的樣本相關(guān)陣R來近似.因此,我們要尋找向量a使得a’Ra最大37向量X的線性組合a’X的方差為38的p×p矩陣.而對(duì)于觀測(cè)值X=(x1,…,xp),其中xi=(x1i,…,xni),i=1,…,p,的樣本相關(guān)陣第(ij)-元素為X=(X1,…,Xp)的相關(guān)陣為第(ij)-元素為的p×p矩陣,其中sij為第i和第j觀測(cè)的樣本相關(guān)系數(shù)38的p×p矩陣.而對(duì)于觀測(cè)值X=(x1,…,xp),39關(guān)于特征值和特征向量特征方程|R-lI|=0的解為特征值l,這里R為一個(gè)p維正定方陣.l通常有p個(gè)根l1≥l2≥…≥lp.滿足(R-liI)xi=0的向量xi為li的特征向量.對(duì)任意向量a有性質(zhì)39關(guān)于特征值和特征向量40為了我們簡化的目的,通常選取特征值最大的幾個(gè)特征向量作為代表.

利用計(jì)算機(jī)軟件就自動(dòng)地得到這些特征值和特征向量.由于變量不同的尺度會(huì)影響結(jié)果,因此,在各變量尺度差別大時(shí),一般可以用樣本相關(guān)陣而不是協(xié)方差陣來做(這通常在軟件的選項(xiàng)之中).40為了我們簡化的目的,通常選取特征值最大的幾個(gè)特征向量作為41步驟按照矩陣記號(hào),求A使得y=Ax,這里y為主成分向量,A為主成分變換矩陣,x為原始變換向量.我們需要求出x的相關(guān)陣,但是通常不知道,但是有了觀測(cè)值矩陣X之后,可用樣本相關(guān)陣R來近似x的相關(guān)陣.步驟:取R最大的幾個(gè)特征根所相應(yīng)的特征向量作為A的行即可.41步驟按照矩陣記號(hào),求A使得y=Ax,這里y為主成分42取上面幾個(gè)行向量組成所需的主成分變換矩陣.主成分i為:yi=ai1x1+…+aipxp(yi貢獻(xiàn)率為li/∑j

lj)相關(guān)陣R的特征值l1≥l2≥…≥lp,而相應(yīng)的特征向量為下面矩陣的列向量:42取上面幾個(gè)行向量組成所需的主成分變換矩陣.主成分i為:43第一主成分:使Var(a1’X)最大的單位向量a1(a1’a1=1);而l1=a1’Ra1=Var(a1’X);這里R為X的相關(guān)陣.

第二主成分:滿足Cov(a1’X,a2’X)=0而且使Var(a2’X)最大的單位向量a2(a2’a2=1);而l2=a2’Ra2=Var(a2’X)………….第k主成分:滿足Cov(ai’X,ak’X)=0(i=1,…,k-1),而且使Var(ak’X)最大的單位向量ak(ak’ak=1);而lk=ak’Rak=Var(ak’X).

43第一主成分:使Var(a1’X)最大的單位向量a1(a44頭m個(gè)主成分的累積貢獻(xiàn)率:這里R為X的樣本相關(guān)陣,第i個(gè)特征值li=ai’Rai=V(ai’x);ai為第i個(gè)特征向量.Cov(ai’x,aj’x)=0.44頭m個(gè)主成分的累積貢獻(xiàn)率:這里R為X的樣本相關(guān)陣,第i個(gè)45這里aij為第i個(gè)特征向量的第j個(gè)分量;第i個(gè)主成分的載荷平方和為該主成分的方差,等于其特征值li.所選的m個(gè)主成分對(duì)變量xj的總方差貢獻(xiàn)為主成分負(fù)荷(載荷,loading):Yi與Xj的相關(guān)系數(shù):45這里aij為第i個(gè)特征向量的第j個(gè)分量;第i個(gè)主成分的載46洛衫磯對(duì)12個(gè)人口調(diào)查區(qū)的數(shù)據(jù)(data15-01)編號(hào)

總?cè)丝?/p>

總雇員數(shù)

中等校

專業(yè)服務(wù)

中等房價(jià)

平均校齡

項(xiàng)目數(shù)

1 5700 12.8 2500 270 250002 1000 10.9 600 10 100003 3400 8.8 1000 10 90004 3800 13.6 1700 140 250005 4000 12.8 1600 140 250006 8200 8.3 2600 60 120007 1200 11.4 400 10 160008 9100 11.5 3300 60 140009 9900 12.5 3400 180 1800010 9600 13.7 3600 390 2500011 9600 9.6 3300 80 1200012 9400 11.4 4000 100 1300046洛衫磯對(duì)12個(gè)人口調(diào)查區(qū)的數(shù)據(jù)(data15-01)編號(hào)47特征值、累積貢獻(xiàn)率47特征值、累積貢獻(xiàn)率48特征值圖48特征值圖49二主成分因子負(fù)荷圖49二主成分因子負(fù)荷圖50主成分的因子負(fù)荷(每列平方和為相應(yīng)特征值,而每列除以相應(yīng)特征值的平方根為相應(yīng)的特征向量)這是主成分與各個(gè)變量的相關(guān)系數(shù)有的書把它當(dāng)成特征向量了SPSS沒有給出特征向量(?!)50主成分的因子負(fù)荷(每列平方和為相應(yīng)特征值,而每列除以相51x=scan("G:\\bank\\d1501.txt")x=matrix(x,12,length(x)/12,byrow=T)z=as.data.frame(x)names(z)=c("pop","school","employ","services","house“

y=sweep(x,2,apply(x,2,mean),"-")s=(t(y)%*%y)/12s1=s/sqrt(outer(diag(s),diag(s),"*"))s1就是相關(guān)陣等于cor(x)ex=eigen(cor(x))$values[1]2.873313591.796660090.214836890.099934050.01525537$vectorshouseservicesemployschoolpoppop0.3427304-0.601629270.05951715-0.204032740.6894972617school0.45250670.406414490.688822450.353570600.1748611748employ0.3966948-0.541665000.24795775-0.02293716-0.6980136963services0.55005650.07781686-0.664075650.50038572-0.0001235807house0.46673840.41642892-0.13964890-0.76318182-0.082425482451x=scan("G:\\bank\\d1501.txt52ex=eigen(cor(x))plot(ex$va,type="b")52ex=eigen(cor(x))53plot(cumsum(ex$va),type="b")53plot(cumsum(ex$va),type="b")54>ex=eigen(cor(z));ex$values[1]2.873313591.796660090.214836890.099934050.01525537$vectorshouseservicesemployschoolpoppop0.3427304-0.601629270.05951715-0.204032740.6894972617school0.45250670.406414490.688822450.353570600.1748611748employ0.3966948-0.541665000.24795775-0.02293716-0.6980136963services0.55005650.07781686-0.664075650.50038572-0.0001235807house0.46673840.41642892-0.13964890-0.76318182-0.0824254824>sweep(ex$ve,2,sqrt(ex$va),"*")載荷

houseservicesemployschoolpoppop0.5809571-0.80642120.02758650-0.0644995388.516163e-02school0.76703730.54475610.319272650.1117719682.159757e-02employ0.6724314-0.72604530.11492966-0.007250974-8.621352e-02services0.93239260.1043054-0.307802390.158183675-1.526378e-05house0.79116120.5581795-0.06472796-0.241259690-1.018059e-0254>ex=eigen(cor(z));ex55正交性驗(yàn)證>t(ex$ve)%*%ex$vehouseservicesemployschoolpophouse1.00e+00-5.55e-176.9e-17-1.11e-160.00e+00services-5.55e-171.00e+004.16e-170.00e+00-8.33e-17employ6.94e-174.16e-171.00e+002.78e-175.38e-17school-1.11e-160.00e+002.78e-171.00e+00-1.39e-17pop0.00e+00-8.33e-175.38e-17-1.39e-171.00e+0055正交性驗(yàn)證56相關(guān)陣的特征值:(R輸出)2.87331.79670.21480.09990.0153特征向量矩陣(列向量)A(R輸出)0.343-0.60160.0595-0.20400.6894970.4530.40640.68880.35360.1748610.397-0.54170.2480-0.0229-0.6980140.5500.0778-0.66410.5004-0.0001240.4670.4164-0.1396-0.7632-0.08242556相關(guān)陣的特征值:(R輸出)特征向量矩陣(列向量)A575758TheSASSystem11:15Sunday,September22,2002EigenvaluesoftheCorrelationMatrix EigenvalueDifferenceProportionCumulativePRIN12.873311.076650.5746630.57466PRIN21.796661.581820.3593320.93399PRIN30.214840.114900.0429670.97696PRIN40.099930.084680.0199870.99695PRIN50.01526.0.0030511.00000EigenvectorsPRIN1PRIN2PRIN3PRIN4PRIN5X10.3427300.6016290.0595170.2040330.689497X20.452507-.4064140.688822-.3535710.174861X30.3966950.5416650.2479580.022937-.698014X40.550057-.077817-.664076-.500386-.000124X50.466738-.416429-.1396490.763182-.082425(SAS輸出)58TheSASSystem11:15Sun59銷售人員數(shù)據(jù)(salesmen.sav)

(50個(gè)觀測(cè)值)銷售增長銷售利潤新客戶銷售額創(chuàng)造力機(jī)械推理抽象推理數(shù)學(xué)推理93.00 96.00 97.80 9.00 12.00 9.00 20.0088.80 91.80 96.80 7.00 10.00 10.00 15.0095.00 100.30 99.00 8.00 12.00 9.00 26.00101.30 103.80 106.80 13.00 14.00 12.00 29.00102.00 107.80 103.00 10.00 15.00 12.00 32.0095.80 97.50 99.30 10.00 14.00 11.00 21.0095.50 99.50 99.00 9.00 12.00 9.00 25.00110.80 122.00 115.30 18.00 20.00 15.00 51.00102.80 108.30 103.80 10.00 17.00 13.00 31.00106.80 120.50 102.00 14.00 18.00 11.00 39.00103.30 109.80 104.00 12.00 17.00 12.00 32.0099.50 111.80 100.30 10.00 18.00 8.00 31.00103.50 112.50 107.00 16.00 17.00 11.00 34.0099.50 105.50 102.30 8.00 10.00 11.00 34.0059銷售人員數(shù)據(jù)(salesmen.sav)

(50個(gè)觀測(cè)值60特征值、累積貢獻(xiàn)率60特征值、累積貢獻(xiàn)率61特征值圖61特征值圖62二主成分因子負(fù)荷圖62二主成分因子負(fù)荷圖63主成分的因子負(fù)荷(每列平方和為相應(yīng)特征值,而每列除以相應(yīng)特征值的平方根為相應(yīng)的特征向量)這是主成分與各個(gè)變量的相關(guān)系數(shù)有的書把它當(dāng)成特征向量了SPSS沒有給出特征向量63主成分的因子負(fù)荷(每列平方和為相應(yīng)特征值,而每列除以相64TheSASSystemEigenvaluesoftheCorrelationMatrixEigenvalueDifferenceProportionCumulativePRIN15.034604.101080.7192280.71923PRIN20.933520.435600.1333590.85259PRIN30.497920.076670.0711310.92372PRIN40.421250.340210.0601780.98390PRIN50.081040.060700.0115770.99547PRIN60.020340.009000.0029060.99838PRIN70.01134.0.0016201.00000

EigenvectorsPRIN1PRIN2PRIN3PRIN4PRIN5PRIN6PRIN7SALE0.433672-.111754-.075489-.0423730.632494-.336596-.527825BENEFIT0.4202140.029287-.4424790.010753-.0001180.785342-.099483NEWSALE0.4210510.0092020.204189-.324928-.701026-.156811-.399164CREATIV0.2942860.6684160.451492-.3027120.2610080.1141710.299960MECHD0.3490920.2949440.0059220.846604-.174263-.1969090.072311ABSD0.289167-.6423780.6037800.1536740.0869590.2362610.228444MATHD0.407404-.200368-.434040-.246013-.049583-.3711110.636224(SAS輸出)64TheSASSystem(SAS輸出)65后面是因子分析

(FactorAnalysis)

65后面是因子分析

(FactorAnalysis)66因子分析

(FactorAnalysis)

66因子分析

(FactorAnalysis)67男子徑賽記錄數(shù)據(jù)(MTF,p384)100m200m400m800m1500m5000m10000mMarathon

10.39 20.81 46.84 1.81 3.70 14.04 29.36 137.72argentin10.31 20.06 44.84 1.74 3.57 13.28 27.66 128.30 australi10.44 20.81 46.82 1.79 3.60 13.26 27.72 135.90 austria10.34 20.68 45.04 1.73 3.60 13.22 27.45 129.95 belgium10.28 20.58 45.91 1.80 3.75 14.68 30.55 146.62 bermuda10.22 20.43 45.21 1.73 3.66 13.62 28.62 133.13 brazil女子徑賽記錄數(shù)據(jù)(FTF,p34)100m200m400m800m1500m3000mMarathon11.61 22.94 54.50 2.15 4.43 9.79 178.52 argentin11.20 22.35 51.08 1.98 4.13 9.08 152.37 australi11.43 23.09 50.62 1.99 4.22 9.34 159.37 austria11.41 23.04 52.00 2.00 4.14 8.88 157.85 belgium11.46 23.05 53.30 2.16 4.58 9.81 169.98 bermuda11.31 23.17 52.80 2.10 4.49 9.77 168.75 brazil…………………..67男子徑賽記錄數(shù)據(jù)(MTF,p384)100m200m68人口普查數(shù)據(jù)(census,p383)5.94 14.2 2.27 2.27 2.9

11.52 13.1 .60 .75 2.6

22.60 12.7 1.24 1.11 1.72

4.01 15.2 1.65 .81 3.02(兩個(gè)方法區(qū)別不大)股票數(shù)據(jù)(stock,p382).00 .00 .00 .04 .00

.03 -.04 .00 -.01 .04

.12 .06 .09 .09 .08

.06 .03 .07 .01 .02…………………..68人口普查數(shù)據(jù)(census,p383)5.94 14.691995中國社會(huì)數(shù)據(jù)(317.sav)變量:人均GDP(元)

新增固定資產(chǎn)(億元)

城鎮(zhèn)居民人均年可支配收入(元)農(nóng)村居民家庭人均純收人(元)

高等學(xué)校數(shù)(所)衛(wèi)生機(jī)構(gòu)數(shù)(個(gè))地區(qū):北京天津河北山西內(nèi)蒙遼寧吉林黑龍江上海江蘇浙江安徽福建江西山東河南湖北湖南廣東廣西海南四川貴州云南陜西甘肅青海寧夏新疆

(29×6矩陣)北京1026530.8162353223654955天津816449.1349292406213182河北337677.76392116684710266山西281933.9733051206265922內(nèi)蒙301354.5128631208194915………….于秀林書上說可有三個(gè)因子:收入因子,社會(huì)因子,投資因子691995中國社會(huì)數(shù)據(jù)(317.sav)變量:人均GDP(7035家中國上市公司2000年年報(bào)數(shù)據(jù)

(Chcomp.sav)變量:凈資產(chǎn)收益率%,總資產(chǎn)報(bào)酬率%,資產(chǎn)負(fù)債率%,總資產(chǎn)周轉(zhuǎn)率,流動(dòng)資產(chǎn)周轉(zhuǎn)率,已獲利息倍數(shù),銷售增長率%,資本積累率%公司:深能源A,深南電A,富龍熱力,穗恒運(yùn)A,粵電力A,韶能股份,惠天熱電,原水股份,大連熱電,龍電股份,華銀電力,長春經(jīng)開,興業(yè)房產(chǎn),金豐投資,新黃浦,浦東金橋,外高橋,中華企業(yè),渝開發(fā)A,遼房天,粵宏遠(yuǎn)A,ST中福,倍特高新,三木集團(tuán),寰島實(shí)業(yè),中關(guān)村,中興通訊,長城電腦,青鳥華光,清華同方,永鼎光纜,宏圖高科,海星科技,方正科技,復(fù)華實(shí)業(yè)(35×8矩陣)深能源A 16.85 12.35 42.32 .37 1.78 7.18 45.73 54.5深南電A 22.00 15.30 46.51 .76 1.77 15.67 48.11 19.41富龍熱力 8.97 7.98 30.56 .17 .58 10.43 17.80 9.44………….7035家中國上市公司2000年年報(bào)數(shù)據(jù)(Chcomp.s71Spearman’sExample有一組古典文學(xué)、法語、英語、數(shù)學(xué)和音樂的測(cè)驗(yàn)成績,從它們的相關(guān)性表明存在一個(gè)潛在的“智力”因子(F1)。而另一組變量,表示身體健康的得分,只要有效就可以對(duì)應(yīng)另一個(gè)潛在的因子(F2)。記這些變量為(X1,…,Xp).我要尋求下面這樣的結(jié)構(gòu):71Spearman’sExample有一組古典文學(xué)、法語727273正交因子模型:X-m=AF+emi=變量i的均值ei=第i個(gè)特殊因子Fi=第i個(gè)公共因子aij=第i個(gè)變量在第j個(gè)因子上的載荷不能觀測(cè)的值滿足下列條件:F和e獨(dú)立E(F)=0,Cov(F)=IE(e)=0,Cov(e)=Y,Y是對(duì)角矩陣73正交因子模型:X-m=AF+emi=變量i的均值74F為公共因子向量,每個(gè)公共因子(如Fi)是對(duì)模型中每個(gè)變量都起作用的因子;而e為特殊因子向量,每個(gè)特殊因子(如ei)只對(duì)一個(gè)變量(第i個(gè))起作用.74F為公共因子向量,每個(gè)公共因子(如Fi)是對(duì)模型中每個(gè)75因子分析的方法在于估計(jì)S=AA’+Y和Y,再分解以得到A.X的協(xié)方差陣S可以分解成這里l1≥l2≥…≥lp為S的特征值;而e1,…,ep為相應(yīng)的特征向量(e1,…,ep為主成分的系數(shù),因此稱為主成分法).上面分解總是取和數(shù)的重要的頭幾項(xiàng)來近似.75因子分析的方法在于估計(jì)S=AA’+Y和Y,再分解以得到76X的協(xié)方差陣S可以近似為(如Y忽略)如Y不忽略,S可以近似為應(yīng)用中,S可以用樣本相關(guān)陣R代替.76X的協(xié)方差陣S可以近似為(如Y忽略)如Y不忽略,S可以77正交模型X=m+AF+e的協(xié)方差結(jié)構(gòu)

根據(jù)前面模型,可以得出下面結(jié)果:上面sii2=Sjaij2+yi2中,Sjaij2稱為共性方差(公共方差或變量共同度commonvariance,communalities),而yi2稱為特殊方差.變量共同度刻畫全部公共因子對(duì)變量Xi的總方差所做的貢獻(xiàn).77正交模型X=m+AF+e的協(xié)方差結(jié)構(gòu)

根據(jù)前面模型,可以78的統(tǒng)計(jì)意義就是第i個(gè)變量與第j個(gè)公共因子的相關(guān)系數(shù),表示Xi依賴Fj的份量,這里eij是相應(yīng)于特征值li的特征向量ei的第j個(gè)分量.因子載荷陣中各列元素的平方和Sj=

Siaij2稱為公共因子Fj對(duì)X諸變量的方差貢獻(xiàn)之總和因子載荷78的統(tǒng)計(jì)意義就是第i個(gè)變量與第j個(gè)公共因子的相關(guān)系數(shù),表79除主成分法外還有最大似然法來估計(jì)A,m和Y(在多元正態(tài)分布的假定下).當(dāng)然,還有其他方法(有些互相類似).79除主成分法外還有最大似然法來估計(jì)A,m和Y(在多元正態(tài)80令T為任意m正交方陣(TT’=T’T=I),則X-m=AF+e=ATT’F+e=A*F*+e,這里A*=AT,F*=T’F.因此S=AA’+Y=ATT’A’+Y=(A*)(A*)’+Y也就是說,因子載荷A只由一個(gè)正交陣T決定.載荷A*=AT與A都給出同一個(gè)表示.由AA’=(A*)(A*)’對(duì)角元給出的共性方差,也不因T的選擇而改變.80令T為任意m正交方陣(TT’=T’T=I),則81正交變換T相當(dāng)于剛體旋轉(zhuǎn)(或反射),因子載荷A的正交變換AT稱為因子旋轉(zhuǎn)估計(jì)的協(xié)方差陣或相關(guān)陣,殘差陣,特殊方差及共性方差都不隨旋轉(zhuǎn)而變.這里“殘差陣”為協(xié)方差陣或相關(guān)陣與估計(jì)的AA’+Y之差.81正交變換T相當(dāng)于剛體旋轉(zhuǎn)(或反射),因子載荷A的正交變82因子旋轉(zhuǎn)的一個(gè)準(zhǔn)則為最大方差準(zhǔn)則.它使旋轉(zhuǎn)后的因子載荷的總方差達(dá)到最大.如即要選變換T使下式最大(計(jì)算機(jī)循環(huán)算法)82因子旋轉(zhuǎn)的一個(gè)準(zhǔn)則為最大方差準(zhǔn)則.它使旋轉(zhuǎn)后的因子載荷83需要由X=AF變成F=bX.或

Fj=bj1X1+…+bjpXpj=1,…,m,

稱為因子得分(函數(shù)).

這通常用加權(quán)最小二乘法或回歸法等來求得.83需要由X=AF變成F=bX.或

Fj=bj1X1+…+84總結(jié)模型X=m+AF+e因子分析的步驟1.根據(jù)問題選取原始變量2.求其相關(guān)陣R,探討其相關(guān)性3.從R求解初始公共因子F及因子載荷矩陣A(主成分法或最大似然法)4.因子旋轉(zhuǎn)5.由X=AF到F=bX(因子得分函數(shù))6.根據(jù)因子得分值進(jìn)行進(jìn)一步分析84總結(jié)模型X=m+AF+e因子分析的步驟85回到數(shù)值例子回到我們成績例子.85回到數(shù)值例子回到我們成績例子.86洛衫磯對(duì)12個(gè)人口調(diào)查區(qū)的數(shù)據(jù)(data15-01)編號(hào)

總?cè)丝?/p>

總雇員數(shù)

中等校

專業(yè)服務(wù)

中等房價(jià)

平均校齡

項(xiàng)目數(shù)

1 5700 12.8 2500 270 250002 1000 10.9 600 10 100003 3400 8.8 1000 10 90004 3800 13.6 1700 140 250005 4000 12.8 1600 140 250006 8200 8.3 2600 60 120007 1200 11.4 400 10 160008 9100 11.5 3300 60 140009 9900 12.5 3400 180 1800010 9600 13.7 3600 390 2500011 9600 9.6 3300 80 1200012 9400 11.4 4000 100 1300086洛衫磯對(duì)12個(gè)人口調(diào)查區(qū)的數(shù)據(jù)(data15-01)編號(hào)87Statistics→DataReduction→Factor:Variables:pop,school,employ,service,houseDescriptive:Statistics(UnivariateDescriptives,Initialsolution),CorrelationMatrix(Coefficients,Significancelevels)Extraction:

Method(Principalcomponent),Analyze(Correlationmatrix),Extract(Number=2factors)Display(Unrotatedfactorsolution,Screeplot),MaximumIterationsfor(25)Rotation:

Method(Varmax),Display(Rotatedsolusion,Loadingplot),MaximumIterationsfor(25)Score:Saveasvariables,Method(Regression),DisplayfactorscorecoefficientmatrixOptions:

MissingValue(ExcludecasesListwise),Coefficientdisplayformat(Sortedbysize)87Statistics→DataReduction→F8888898990共同度Sjaij90共同度Sjaij919192旋轉(zhuǎn)前的因子載荷92旋轉(zhuǎn)前的因子載荷93旋轉(zhuǎn)后的因子載荷第一主因子對(duì)中等房價(jià),中等校平均校齡,專業(yè)服務(wù)項(xiàng)目有絕對(duì)值較大的載荷(代表一般社會(huì)福利-福利條件因子);而第二主因子對(duì)總?cè)丝诤涂偣蛦T數(shù)有較大的載荷(代表人口-人口因子).正交變換陣93旋轉(zhuǎn)后的因子載荷第一主因子對(duì)中等房價(jià),中等校平均校齡,專94旋轉(zhuǎn)后的因子載荷圖94旋轉(zhuǎn)后的95因子得分的計(jì)算基礎(chǔ)(F=bX)中的b。把n個(gè)觀測(cè)值代入得到FACT_1和FACT_2存入數(shù)據(jù)對(duì)每個(gè)觀測(cè)值有兩個(gè)因子得分(一點(diǎn))Fj=bj1X1+…+bj5X5,

j=1,295因子得分的計(jì)算基礎(chǔ)(F=bX)中的b。把n個(gè)觀測(cè)值代入得96因子得分之間不相關(guān)96因子得分之間不相關(guān)97銷售人員數(shù)據(jù)(salesmen.sav)

(50個(gè)觀測(cè)值)銷售增長銷售利潤新客戶銷售額創(chuàng)造力機(jī)械推理抽象推理數(shù)學(xué)推理93.00 96.00 97.80 9.00 12.00 9.00 20.0088.80 91.80 96.80 7.00 10.00 10.00 15.0095.00 100.30 99.00 8.00 12.00 9.00 26.00101.30 103.80 106.80 13.00 14.00 12.00 29.00102.00 107.80 103.00 10.00 15.00 12.00 32.0095.80 97.50 99.30 10.00 14.00 11.00 21.0095.50 99.50 99.00 9.00 12.00 9.00 25.00110.80 122.00 115.30 18.00 20.00 15.00 51.00102.80 108.30 103.80 10.00 17.00 13.00 31.00106.80 120.50 102.00 14.00 18.00 11.00 39.00103.30 109.80 104.00 12.00 17.00 12.00 32.0099.50 111.80 100.30 10.00 18.00 8.00 31.00103.50 112.50 107.00 16.00 17.00 11.00 34.0099.50 105.50 102.30 8.00 10.00 11.00 34.0097銷售人員數(shù)據(jù)(salesmen.sav)

(50個(gè)觀測(cè)值98989999100100101101102102103旋轉(zhuǎn)后的因子載荷第一主因子對(duì)除了抽象推理和數(shù)學(xué)推理之外的有絕對(duì)值較大的載荷(創(chuàng)造機(jī)械因子);而第二主因子為數(shù)學(xué)抽象因子.但兩個(gè)因子解釋利潤和新銷售差不多.103旋轉(zhuǎn)后的因子載荷第一主因子對(duì)除了抽象推理和數(shù)學(xué)推理之外104104105105106結(jié)束主成分和因子分析后面是些附錄內(nèi)容,不必認(rèn)真返回選擇?106結(jié)束主成分和因子分析后面是些附錄內(nèi)容,不必認(rèn)真107主成分分析和因子分析

吳喜之1主成分分析和因子分析吳喜之108匯報(bào)什么?假定你是一個(gè)公司的財(cái)務(wù)經(jīng)理,掌握了公司的所有數(shù)據(jù),比如固定資產(chǎn)、流動(dòng)資金、每一筆借貸的數(shù)額和期限、各種稅費(fèi)、工資支出、原料消耗、產(chǎn)值、利潤、折舊、職工人數(shù)、職工的分工和教育程度等等。如果讓你向上面介紹公司狀況,你能夠把這些指標(biāo)和數(shù)字都原封不動(dòng)地?cái)[出去嗎?

當(dāng)然不能。你必須要把各個(gè)方面作出高度概括,用一兩個(gè)指標(biāo)簡單明了地把情況說清楚。

2匯報(bào)什么?假定你是一個(gè)公司的財(cái)務(wù)經(jīng)理,掌握了公司的所有數(shù)據(jù)109主成分分析每個(gè)人都會(huì)遇到有很多變量的數(shù)據(jù)。比如全國或各個(gè)地區(qū)的帶有許多經(jīng)濟(jì)和社會(huì)變量的數(shù)據(jù);各個(gè)學(xué)校的研究、教學(xué)等各種變量的數(shù)據(jù)等等。這些數(shù)據(jù)的共同特點(diǎn)是變量很多,在如此多的變量之中,有很多是相關(guān)的。人們希望能夠找出它們的少數(shù)“代表”來對(duì)它們進(jìn)行描述。本章就介紹兩種把變量維數(shù)降低以便于描述、理解和分析的方法:主成分分析(principalcomponentanalysis)和因子分析(factoranalysis)。實(shí)際上主成分分析可以說是因子分析的一個(gè)特例。在引進(jìn)主成分分析之前,先看下面的例子。3主成分分析每個(gè)人都會(huì)遇到有很多變量的數(shù)據(jù)。110成績數(shù)據(jù)(student.sav)100個(gè)學(xué)生的數(shù)學(xué)、物理、化學(xué)、語文、歷史、英語的成績?nèi)缦卤恚ú糠郑?成績數(shù)據(jù)(student.sav)100個(gè)學(xué)生的數(shù)學(xué)、物理111從本例可能提出的問題目前的問題是,能不能把這個(gè)數(shù)據(jù)的6個(gè)變量用一兩個(gè)綜合變量來表示呢?這一兩個(gè)綜合變量包含有多少原來的信息呢?能不能利用找到的綜合變量來對(duì)學(xué)生排序呢?這一類數(shù)據(jù)所涉及的問題可以推廣到對(duì)企業(yè),對(duì)學(xué)校進(jìn)行分析、排序、判別和分類等問題。5從本例可能提出的問題目前的問題是,能不能把這個(gè)數(shù)據(jù)的6個(gè)變112空間的點(diǎn)例中的的數(shù)據(jù)點(diǎn)是六維的;也就是說,每個(gè)觀測(cè)值是6維空間中的一個(gè)點(diǎn)。我們希望把6維空間用低維空間表示。先假定只有二維,即只有兩個(gè)變量,它們由橫坐標(biāo)和縱坐標(biāo)所代表;因此每個(gè)觀測(cè)值都有相應(yīng)于這兩個(gè)坐標(biāo)軸的兩個(gè)坐標(biāo)值;如果這些數(shù)據(jù)形成一個(gè)橢圓形狀的點(diǎn)陣(這在變量的二維正態(tài)的假定下是可能的)那么這個(gè)橢圓有一個(gè)長軸和一個(gè)短軸。在短軸方向上,數(shù)據(jù)變化很少;在極端的情況,短軸如果退化成一點(diǎn),那只有在長軸的方向才能夠解釋這些點(diǎn)的變化了;這樣,由二維到一維的降維就自然完成了。6空間的點(diǎn)例中的的數(shù)據(jù)點(diǎn)是六維的;也就是說,每個(gè)觀測(cè)值是6維1137114橢球的長短軸當(dāng)坐標(biāo)軸和橢圓的長短軸平行,那么代表長軸的變量就描述了數(shù)據(jù)的主要變化,而代表短軸的變量就描述了數(shù)據(jù)的次要變化。但是,坐標(biāo)軸通常并不和橢圓的長短軸平行。因此,需要尋找橢圓的長短軸,并進(jìn)行變換,使得新變量和橢圓的長短軸平行。如果長軸變量代表了數(shù)據(jù)包含的大部分信息,就用該變量代替原先的兩個(gè)變量(舍去次要的一維),降維就完成了。橢圓(球)的長短軸相差得越大,降維也越有道理。8橢球的長短軸當(dāng)坐標(biāo)軸和橢圓的長短軸平行,那么代表長軸的變量1159116主軸和主成分對(duì)于多維變量的情況和二維類似,也有高維的橢球,只不過無法直觀地看見罷了。首先把高維橢球的主軸找出來,再用代表大多數(shù)數(shù)據(jù)信息的最長的幾個(gè)軸作為新變量;這樣,主成分分析就基本完成了。注意,和二維情況類似,高維橢球的主軸也是互相垂直的。這些互相正交的新變量是原先變量的線性組合,叫做主成分(principalcomponent)。

10主軸和主成分對(duì)于多維變量的情況和二維類似,也有高維的橢球117主成分之選取正如二維橢圓有兩個(gè)主軸,三維橢球有三個(gè)主軸一樣,有幾個(gè)變量,就有幾個(gè)主成分。選擇越少的主成分,降維就越好。什么是標(biāo)準(zhǔn)呢?那就是這些被選的主成分所代表的主軸的長度之和占了主軸長度總和的大部分。有些文獻(xiàn)建議,所選的主軸總長度占所有主軸長度之和的大約85%即可,其實(shí),這只是一個(gè)大體的說法;具體選幾個(gè),要看實(shí)際情況而定。11主成分之選取正如二維橢圓有兩個(gè)主軸,三維橢球有三個(gè)主軸一118主成分分析的數(shù)學(xué)要尋找方差最大的方向。即使得向量X的線性組合a’X的方差最大的方向a.而Var(a’X)=a’Cov(X)a;由于Cov(X)未知;于是用X的樣本相關(guān)陣R來近似.因此,要尋找向量a使得a’Ra最大(注意相關(guān)陣和協(xié)方差陣差一個(gè)常數(shù)記得相關(guān)陣和特征值問題嗎?回顧一下吧!選擇幾個(gè)主成分呢?要看“貢獻(xiàn)率.”12主成分分析的數(shù)學(xué)要尋找方差最大的方向。即使得向量X的線性119對(duì)于我們的數(shù)據(jù),SPSS輸出為這里的InitialEigenvalues就是這里的六個(gè)主軸長度,又稱特征值(數(shù)據(jù)相關(guān)陣的特征值)。頭兩個(gè)成分特征值累積占了總方差的81.142%。后面的特征值的貢獻(xiàn)越來越少。13對(duì)于我們的數(shù)據(jù),SPSS輸出為這里的InitialEi120特征值的貢獻(xiàn)還可以從SPSS的所謂碎石圖看出14特征值的貢獻(xiàn)還可以從SPSS的所謂碎石圖看出121怎么解釋這兩個(gè)主成分。前面說過主成分是原始六個(gè)變量的線性組合。是怎么樣的組合呢?SPSS可以輸出下面的表。

這里每一列代表一個(gè)主成分作為原來變量線性組合的系數(shù)(比例)。比如第一主成分為數(shù)學(xué)、物理、化學(xué)、語文、歷史、英語這六個(gè)變量的線性組合,系數(shù)(比例)為-0.806,-0.674,-0.675,0.893,0.825,0.836。15怎么解釋這兩個(gè)主成分。前面說過主成分是原始六個(gè)變量的線性122如用x1,x2,x3,x4,x5,x6分別表示原先的六個(gè)變量,而用y1,y2,y3,y4,y5,y6表示新的主成分,那么,第一和第二主成分為這些系數(shù)稱為主成分載荷(loading),它表示主成分和相應(yīng)的原先變量的相關(guān)系數(shù)。比如y1表示式中x1的系數(shù)為-0.806,這就是說第一主成分和數(shù)學(xué)變量的相關(guān)系數(shù)為-0.806。相關(guān)系數(shù)(絕對(duì)值)越大,主成分對(duì)該變量的代表性也越大??梢钥吹贸?,第一主成分對(duì)各個(gè)變量解釋得都很充分。而最后的幾個(gè)主成分和原先的變量就不那么相關(guān)了。16如用x1,x2,x3,x4,x5,x6分別表示原先的六個(gè)123可以把第一和第二主成分的載荷點(diǎn)出一個(gè)二維圖以直觀地顯示它們?nèi)绾谓忉屧瓉淼淖兞康?。這個(gè)圖叫做載荷圖。17可以把第一和第二主成分的載荷點(diǎn)出一個(gè)二維圖以直觀地顯示它124該圖左面三個(gè)點(diǎn)是數(shù)學(xué)、物理、化學(xué)三科,右邊三個(gè)點(diǎn)是語文、歷史、外語三科。圖中的六個(gè)點(diǎn)由于比較擠,不易分清,但只要認(rèn)識(shí)到這些點(diǎn)的坐標(biāo)是前面的第一二主成分載荷,坐標(biāo)是前面表中第一二列中的數(shù)目,還是可以識(shí)別的。18該圖左面三個(gè)點(diǎn)是數(shù)學(xué)、物理、化學(xué)三科,右邊三個(gè)點(diǎn)是語文、125因子分析主成分分析從原理上是尋找橢球的所有主軸。因此,原先有幾個(gè)變量,就有幾個(gè)主成分。而因子分析是事先確定要找?guī)讉€(gè)成分,這里叫因子(factor)(比如兩個(gè)),那就找兩個(gè)。這使得在數(shù)學(xué)模型上,因子分析和主成分分析有不少區(qū)別。而且因子分析的計(jì)算也復(fù)雜得多。根據(jù)因子分析模型的特點(diǎn),它還多一道工序:因子旋轉(zhuǎn)(factorrotation);這個(gè)步驟可以使結(jié)果更好。當(dāng)然,對(duì)于計(jì)算機(jī)來說,因子分析并不比主成分分析多費(fèi)多少時(shí)間。從輸出的結(jié)果來看,因子分析也有因子載荷(factorloading)的概念,代表了因子和原先變量的相關(guān)系數(shù)。但是在因子分析公式中的因子載荷和主成分分析中的因子載荷位置不同。因子分析也給出了二維圖;但解釋和主成分分析的載荷圖類似。19因子分析主成分分析從原理上是尋找橢球的所有主軸。因此,原126主成分分析與因子分析的公式上的區(qū)別主成分分析因子分析(m<p)因子得分20主成分分析與因子分析的公式上的區(qū)別主成分分析因子分析(m127因子分析的數(shù)學(xué)因子分析需要許多假定才能夠解.具體來說.21因子分析的數(shù)學(xué)因子分析需要許多假定才能夠解.具體來說.128對(duì)于我們的數(shù)據(jù),SPSS因子分析輸出為22對(duì)于我們的數(shù)據(jù),SPSS因子分析輸出為129這個(gè)表說明六個(gè)變量和因子的關(guān)系。為簡單記,我們用x1,x2,x3,x4,x5,x6來表示math(數(shù)學(xué)),phys(物理),chem(化學(xué)),literat(語文),history(歷史),english(英語)等變量。這樣因子f1和f2與這些原變量之間的關(guān)系是(注意,和主成分分析不同,這里把成分(因子)寫在方程的右邊,把原變量寫在左邊;但相應(yīng)的系數(shù)還是主成分和各個(gè)變量的線性相關(guān)系數(shù),也稱為因子載荷):23這個(gè)表說明六個(gè)變量和因子的關(guān)系。為簡單記,我們用x1,13024131這里,第一個(gè)因子主要和語文、歷史、英語三科有很強(qiáng)的正相關(guān);而第二個(gè)因子主要和數(shù)學(xué)、物理、化學(xué)三科有很強(qiáng)的正相關(guān)。因此可以給第一個(gè)因子起名為“文科因子”,而給第二個(gè)因子起名為“理科因子”。從這個(gè)例子可以看出,因子分析的結(jié)果比主成分分析解釋性更強(qiáng)。25這里,第一個(gè)因子主要和語文、歷史、英語三科有很強(qiáng)的正相關(guān)132這些系數(shù)所形成的散點(diǎn)圖(在SPSS中也稱載荷圖)為可以直觀看出每個(gè)因子代表了一類學(xué)科26這些系數(shù)所形成的散點(diǎn)圖(在SPSS中也稱載荷圖)為可以直133計(jì)算因子得分可以根據(jù)輸出算出每個(gè)學(xué)生的第一個(gè)因子和第二個(gè)因子的大小,即算出每個(gè)學(xué)生的因子得分f1和f2。27計(jì)算因子得分可以根據(jù)輸出算出每個(gè)學(xué)生的第一個(gè)因子和第二個(gè)134該輸出說明第一和第二主因子為(習(xí)慣上用字母f來表示因子)可以按照如下公式計(jì)算,該函數(shù)稱為因子得分(factorscore)。人們可以根據(jù)這兩套因子得分對(duì)學(xué)生分別按照文科和理科排序。當(dāng)然得到因子得分只是SPSS軟件的一個(gè)選項(xiàng)。28該輸出說明第一和第二主因子為(習(xí)慣上用字母f來表示因子)135SPSS實(shí)現(xiàn)(因子分析與主成分分析)拿

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論