統(tǒng)計分析與方法-第八章主成分與因子分析_第1頁
統(tǒng)計分析與方法-第八章主成分與因子分析_第2頁
統(tǒng)計分析與方法-第八章主成分與因子分析_第3頁
統(tǒng)計分析與方法-第八章主成分與因子分析_第4頁
統(tǒng)計分析與方法-第八章主成分與因子分析_第5頁
已閱讀5頁,還剩50頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

主成分分析和因子分析

主成分與因子分析3主成分與因子分析好裁縫做上衣,要測量上體長、手臂長、胸圍等14個指標。用流水線生產(chǎn)上衣時要測量每個顧客的14個指標是不可能的。于是統(tǒng)計學(xué)家出了個主意:這14個指標是相關(guān)的,可以找出幾個反映上衣特征的綜合指標,加工出的上衣大多數(shù)人都能穿,當然特體除外。4主成分與因子分析結(jié)果統(tǒng)計學(xué)家成功了!這兩個不相關(guān)的指標就是上衣的型和號。本章的教學(xué)目的就是教會學(xué)生如何建立和使用降維模型。主成分分析每個人都會遇到有很多變量的數(shù)據(jù)。比如全國或各個地區(qū)的帶有許多經(jīng)濟和社會變量的數(shù)據(jù);各個學(xué)校的研究、教學(xué)等各種變量的數(shù)據(jù)等等。這些數(shù)據(jù)的共同特點是變量很多,在如此多的變量之中,有很多是相關(guān)的。人們希望能夠找出它們的少數(shù)“代表”來對它們進行描述。主成分分析和因子分析本章就介紹兩種把變量維數(shù)降低以便于描述、理解和分析的方法:主成分分析(principalcomponentanalysis)和因子分析(factoranalysis)。實際上主成分分析可以說是因子分析的一個特例。在引進主成分分析之前,先看下面的例子。成績數(shù)據(jù)(student.sav)100個學(xué)生的數(shù)學(xué)、物理、化學(xué)、語文、歷史、英語的成績?nèi)缦卤恚ú糠郑?。從本例可能提出的問題目前的問題是,能不能把這個數(shù)據(jù)的6個變量用一兩個綜合變量來表示呢?這一兩個綜合變量包含有多少原來的信息呢?能不能利用找到的綜合變量來對學(xué)生排序呢?這一類數(shù)據(jù)所涉及的問題可以推廣到對企業(yè),對學(xué)校進行分析、排序、判別和分類等問題。主成分分析例中的的數(shù)據(jù)點是六維的;也就是說,每個觀測值是6維空間中的一個點。我們希望把6維空間用低維空間表示。先假定只有二維,即只有兩個變量,它們由橫坐標和縱坐標所代表;因此每個觀測值都有相應(yīng)于這兩個坐標軸的兩個坐標值;如果這些數(shù)據(jù)形成一個橢圓形狀的點陣(這在變量的二維正態(tài)的假定下是可能的)10主成分分析那么這個橢圓有一個長軸和一個短軸。在短軸方向上,數(shù)據(jù)變化很少;在極端的情況,短軸如果退化成一點,那只有在長軸的方向才能夠解釋這些點的變化了;這樣,由二維到一維的降維就自然完成了。主成分分析當坐標軸和橢圓的長短軸平行,那么代表長軸的變量就描述了數(shù)據(jù)的主要變化,而代表短軸的變量就描述了數(shù)據(jù)的次要變化。但是,坐標軸通常并不和橢圓的長短軸平行。因此,需要尋找橢圓的長短軸,并進行變換,使得新變量和橢圓的長短軸平行。如果長軸變量代表了數(shù)據(jù)包含的大部分信息,就用該變量代替原先的兩個變量(舍去次要的一維),降維就完成了。橢圓(球)的長短軸相差得越大,降維也越有道理。主成分分析對于多維變量的情況和二維類似,也有高維的橢球,只不過無法直觀地看見罷了。首先把高維橢球的主軸找出來,再用代表大多數(shù)數(shù)據(jù)信息的最長的幾個軸作為新變量;這樣,主成分分析就基本完成了。注意,和二維情況類似,高維橢球的主軸也是互相垂直的。這些互相正交的新變量是原先變量的線性組合,叫做主成分(principalcomponent)。

主成分分析正如二維橢圓有兩個主軸,三維橢球有三個主軸一樣,有幾個變量,就有幾個主成分。選擇越少的主成分,降維就越好。什么是標準呢?那就是這些被選的主成分所代表的主軸的長度之和占了主軸長度總和的大部分。有些文獻建議,所選的主軸總長度占所有主軸長度之和的大約85%即可,其實,這只是一個大體的說法;具體選幾個,要看實際情況而定。對于我們的數(shù)據(jù),SPSS輸出為:這里的InitialEigenvalues就是這里的六個主軸長度,又稱特征值(數(shù)據(jù)相關(guān)陣的特征值)。主成分分析的一般模型這個方程且滿足:主成分分析其中有以下原則來確定:這時稱:Y1是第一主成分

Y2是第二主成分|主成分的含義有原始數(shù)據(jù)的協(xié)方差陣或相關(guān)系數(shù)據(jù)陣,可計算出矩陣的特征根:主成分的含義但是,spss軟件中沒有直接給出主成分系數(shù),而是給出的因子載荷,我們可將因子載荷系數(shù)除以相應(yīng)的,即可得到主成分系數(shù)。由Component1、2的系數(shù)除以和

,得到:Y1=-0.417x1-0.349x2-0.349x3+0.462x4+0.427x5+0.433x6

Y2=0.183x1+0.275x2+0.265x3+0.158x4+0.225x5+0.220x6這些系表示主成分和相應(yīng)的原先變量的相關(guān)系數(shù)。相關(guān)系數(shù)(絕對值)越大,主成分對該變量的代表性也越大。主成分分析為什么spss中值取了兩個主成分呢?頭兩個成分特征值對應(yīng)的方差累積占了總方差的81.142%,稱為累計方差貢獻率為81.142%。后面的特征值的貢獻越來越少。一般我們?nèi)±塾嫹讲钬暙I率達到85%左右的前k個主成分就可以了,因為它們已經(jīng)代表了絕大部分的信息。Spss中選取主成分的方法有兩個:一是根據(jù)特征根≥1來選??;另一種是用戶直接規(guī)定主成分的個數(shù)來選取。特征值的貢獻還可以從SPSS的所謂碎石圖看出可以把第一和第二主成分的點畫出一個二維圖以直觀地顯示它們?nèi)绾谓忉屧瓉淼淖兞康?。該圖左面三個點是數(shù)學(xué)、物理、化學(xué)三科,右邊三個點是語文、歷史、外語三科。因子分析因子分析是主成分分析的推廣和發(fā)展。為什么要進行因子分析?由主成分分析的模型可知:因子分析我們?nèi)绻胫烂總€變量與公共因子的關(guān)系,則就要進行因子分析了。因子分析模型為:因子載荷

稱為因子載荷(實際上是權(quán)數(shù))。因子載荷的統(tǒng)計意義:就是第i個變量與第j個公共因子的相關(guān)系數(shù),即表示變量xi依賴于Fj的份量(比重),心理學(xué)家將它稱為載荷。30變量共同度的統(tǒng)計意義公因子方差表提取出來的公因子對每個變量的解釋程度到底有多大呢?可從公因子方差表得知:(0.744+0.736+0.718+0.890+0.870+0.880)/6=0.8113因子旋轉(zhuǎn)為了對公因子F能夠更好的解釋,可通過因子旋轉(zhuǎn)的方法得到一個好解釋的公因子。所謂對公因子更好解釋,就是使每個變量僅再一個公因子上有較大的載荷,而在其余的公因子上的載荷比較小。這種變換因子載荷的方法稱為因子軸的旋轉(zhuǎn)。因子旋轉(zhuǎn)的方法很多,常用的為方差最大正交旋轉(zhuǎn)。這里,第一個因子主要和語文、歷史、英語科有很強的正相關(guān);而第二個因子主要和數(shù)學(xué)、物理、化學(xué)三科有很強的正相關(guān)。因此可以給第一個因子起名為“文科因子”,而給第二個因子起名為“理科因子”。從這個例子可以看出,因子分析的結(jié)果比主成分分析解釋性更強。這些系數(shù)所形成的散點圖(在SPSS中也稱載荷圖),可以直觀看出每個因子代表了一類學(xué)科。因子得分在分析中,人們往往更愿意用公共因子反映原始變量,這樣根有利于描述研究對象的特征。因而往往將公共因子表示為變量(或樣品)的線性組合,即:稱上式為因子得分函數(shù),用它可計算每個樣品的公因子得分。估計因子得分的方法很多??梢愿鶕?jù)輸出,計算出每個學(xué)生的第一個因子和第二個因子的大小,即算出每個學(xué)生的因子得分f1和f2。人們可以根據(jù)這兩個函數(shù)分別計算出每個學(xué)生的兩套因子得分,對學(xué)生分別按照文科和理科排序。也可以每個因子的方差貢獻率為權(quán)數(shù),進行加權(quán)綜合,計算出每個學(xué)生的總得分,以此排隊。主成分和因子分析的一些注意事項可以看出,因子分析和主成分分析都依賴于原始變量,也只能反映原始變量的信息。所以原始變量的選擇很重要。另外,如果原始變量都本質(zhì)上獨立,那么降維就可能失敗,這是因為很難把很多獨立變量用少數(shù)綜合的變量概括。數(shù)據(jù)越相關(guān),降維效果就越好。3940因子分析的判斷KMO測度和巴特利特球體檢驗:KMO值:0.9以上非常好;0.8以上好;0.7一般;0.6差;0.5很差;0.5以下不能接受。巴特利特球體檢驗的H0:相關(guān)矩陣為單位陣主成分和因子分析的一些注意事項在得到分析的結(jié)果時,并不一定會都得到如我們例子那樣清楚的結(jié)果。這與問題的性質(zhì),選取的原始變量以及數(shù)據(jù)的質(zhì)量等都有關(guān)系在用因子得分進行排序時要特別小心,特別是對于敏感問題。由于原始變量不同,因子的選取不同,排序可以很不一樣。Spss實現(xiàn)Spss選項:Analyze-DataReduction-Factor用Extraction,選擇提取共因子的方法(如果是主成分分析,則選PrincipalComponents),用Rotation,選擇因子旋轉(zhuǎn)方法(如果是主成分分析就選None),用Scores計算因子得分,再選擇Saveasvariables(因子得分就會作為變量存在數(shù)據(jù)中的附加列上)和計算因子得分的方法(比如Regression);要想輸出ComponentScoreCoefficientMatrix表,就要選擇Displayfactorscorecoefficientmatrix;因子分析—例11.1仍以學(xué)生成績的數(shù)據(jù)(student.sav)為例,說明因子分析的過程。44因子分析—例11.1北京市各區(qū)縣的社會經(jīng)濟發(fā)展水平存在著一定的差異,然而反映社會經(jīng)濟發(fā)展水平的指標很多,如何反映各區(qū)縣之間的差異,進行多指標的綜合評價是統(tǒng)計分析的問題之一。因為指標較多且之間的相關(guān)性很強,用主成分分析和因子分析可以用較少的綜合指標,反映原來變量的較多的信息,達到降維簡化分析過程的目的。數(shù)據(jù)文件:北京市各區(qū)縣主要指標因子分析.sav。數(shù)據(jù)來源:北京統(tǒng)計年鑒2004

45因子分析—例11.1變量名稱:x1-在崗職工平均工資(元/人)x2-地區(qū)生產(chǎn)總值(萬元)x3-城鎮(zhèn)居民人均可支配收入(元)x4-地方財政收入(萬元)x5-全社會固定資產(chǎn)投資(萬元)x6-社會消費品零售額(萬元)x7-從業(yè)人數(shù)。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論