應用多元分析第三版第八章課件_第1頁
應用多元分析第三版第八章課件_第2頁
應用多元分析第三版第八章課件_第3頁
應用多元分析第三版第八章課件_第4頁
應用多元分析第三版第八章課件_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第八章因子分析§8.1引言§8.2正交因子模型§8.3參數估計§8.4因子旋轉§8.5因子得分.§8.1引言

主成分分析的成功需滿足如下兩點: (1)前(少數)幾個主成分具有較高的累計貢獻率; (通常較易得到滿足) (2)對主成分給出符合實際背景和意義的解釋。 (往往正是主成分分析的困難之處)因子分析的用途與主成分分析類似,它也是一種降維方法。由于因子往往比主成分更易得到解釋,故因子分析比主成分分析更容易成功,從而有更廣泛的應用。.從方法上來說,因子分析比主成分分析更為精細,自然理論上也就更為復雜。主成分分析只涉及一般的線性變換,不涉及模型,僅需假定二階矩存在。而因子分析需建立一個數學模型,并作一定的假定。因子分析起源于20世紀初,K.皮爾遜(Pearson)和C.斯皮爾曼(Spearman)等學者為定義和測定智力所作的努力,主要是由對心理測量學有興趣的科學家們培育和發(fā)展了因子分析。因子分析的目的是為了降維,降維的方式是試圖用少數幾個潛在的、不可觀測的隨機變量來描述原始變量間的協(xié)方差關系。.例8.1.1林登(Linden)根據他收集的來自139名運動員的比賽數據,對第二次世界大戰(zhàn)以來奧林匹克十項全能比賽的得分作了因子分析研究。這十個全能項目為:100米跑(x1),跳遠(x2),鉛球(x3),跳高(x4),400米跑(x5),11米跨欄(x6),鐵餅(x7),撐桿跳高(x8),標槍(x9),1500米跑(x10)。經標準化后所作的因子分析表明,十項得分基本上可歸結于他們的短跑速度、爆發(fā)性臂力、爆發(fā)性腿力和耐力這四個方面,每一方面都稱為一個因子。十項得分與這四個因子之間的關系可以描述為如下的因子模型:xi=μi+fi1+fi2+fi3+fi4+εi,i=1,2,?,10其中f1,f2,f3,f4表示四個因子,稱為公共因子(commonfactor),aij稱為xi在因子fj上的載荷(loading),μi是xi的均值,εi是xi不能被四個公共因子解釋的部分,稱之為特殊因子(specificfactor)。.例8.1.3公司老板對48名應聘者進行面試,并給出他們在15個方面所得的分數,這15個方面是: x1:申請書的形式

x9:經驗 x2:外貌

x10:積極性 x3:專業(yè)能力

x11:抱負 x4:討人喜歡

x12:理解能力 x5:自信心

x13:潛力 x6:精明

x14:交際能力 x7:誠實

x15:適應性 x8:推銷能力通過因子分析,這15個方面可以歸結為應聘者的外露能力、經驗、討人喜歡的程度、專業(yè)能力和外貌這五個因子。.§8.2正交因子模型一、數學模型二、正交因子模型的性質三、因子載荷矩陣的統(tǒng)計意義.一、數學模型設有p維可觀測的隨機向量,其均值為,協(xié)差陣為Σ=(σij)。因子分析的一般模型為

其中f1,f2,?,fm為公共因子,ε1,ε2,?,εp為特殊因子,它們都是不可觀測的隨機變量。公共因子出現在每一個原始變量的表達式中,可理解為原始變量共同具有的公共因素。上式可用矩陣表示為x=μ+Af+??.

式中為公共因子向量,為特殊因子向量,稱為因子載荷矩陣。通常假定該假定和上述關系式構成了正交因子模型。由上述假定可以看出,公共因子彼此不相關且具有單位方差,特殊因子也彼此不相關且和公共因子也不相關。.二、正交因子模型的性質1.x的協(xié)差陣Σ的分解2.模型不受單位的影響3.因子載荷是不惟一的.1.x的協(xié)差陣Σ的分解

故得Σ=AA′+D

如果x為各分量已標準化了的隨機向量,則Σ就是相關陣R=(ρij),即有R=AA′+D.例8.2.1設隨機向量x=(x1,x2,x3,x4)′的協(xié)方差矩陣為

則Σ可分解為Σ=AA′+D

其中.若取,則有分解式

此時m=p,沒有達到降維目的,故所作的因子分析沒有意義。出于降維的需要,我們常常希望m要比p小得多,這樣前述Σ的分解式通常只能近似成立,即有Σ=AA′+D

近似程度越好,表明因子模型擬合得越佳。一般來說,m選取得越小,上述近似效果就越差,即因子模型擬合得越不理想。擬合得太差的因子模型是沒有什么實際意義的,故實踐中m也不應選得過小。.2.模型不受單位的影響將x的單位作變化,通常是作一變換x*=Cx,這里C=diag(c1,c2,?,cp),ci>0,i=1,2,?,p,于是x*=C

μ+CAf+C

ε

令μ*=C

μ,A*=CA,ε*=C

ε,則有x*=μ*+A*f+ε*

這個模型能滿足類似于前述因子模型的假定,即.其中

因此,單位變換后新的模型仍為正交因子模型。.3.因子載荷是不惟一的設T為任一m×m正交矩陣,令A*=AT,f*=T′f,則模型能表示為x=μ+A*f*+ε

因為E(f*)=T′E(f)=0V(f*)=T′V(f)T=T′T=ICov(f*,ε)=E(f*ε′)=T′E(fε′)=0

所以仍滿足模型條件。Σ也可分解為Σ=A*A*′+D因此,因子載荷矩陣A不是惟一的,在實際應用中常常利用這一點,通過因子的旋轉(見稍后的§8.4),使得新的因子有更好的實際意義。.三、因子載荷矩陣的統(tǒng)計意義1.A的元素aij2.A的行元素平方和3.A的列元素平方和.1.A的元素aij xi=μi+ai1f1+ai2f2+?+aimfm+εi

即aij是xi與fj之間的協(xié)方差。若x為各分量已標準化了的隨機向量,則xi與fj的相關系數

此時aij表示xi與fj之間的相關系數。.

2.A的行元素平方和 xi=μi+ai1f1+ai2f2+?+aimfm+εi

于是.反映了公共因子對xi的影響,可以看成是公共因子f1,f2,?,fm對xi的方差貢獻,稱為共性方差(communality);而是特殊因子εi對xi的方差貢獻,稱為特殊方差(specificvariance)。當x為各分量已標準化了的隨機向量時,σii=1,此時有.

3.A的列元素平方和

其中

反映了公共因子fj對x1,x2,?,xp的影響,是衡量公共因子fj重要性的一個尺度,可視為公共因子fj對x1,x2,?,xp的總方差貢獻。.§8.3參數估計一、主成分法二、主因子法三、極大似然法.一、主成分法設樣本協(xié)方差矩陣S的特征值依次為

,相應的正交單位特征向量為

。選取相對較小的因子數m

,并使得累計貢獻率

達到一個較高的百分比,

則S可近似分解如下:

其中

為p×m矩陣,

,i=1,2,?,p。這里的

就是因子模型的一個主成分解。對主成分解,當因子數增加時,原來因子的估計載荷并不變,第j個因子fj對x的總方差貢獻仍為

。.例8.3.1在例7.3.2中,分別取m=1和m=2,用主成分法估計的因子載荷和共性方差列于表8.3.1。表8.3.1 當m=1和m=2時的主成分解變量m=1m=2因子載荷共性方差因子載荷共性方差f1

f2f1

f2

:100米0.8170.6680.8170.5310.950

:200米0.8670.7520.8670.4320.939

:400米0.9150.8380.9150.2330.892

:800米0.9490.9000.9490.0120.900

:1500米0.9590.9200.959-0.1310.938

:5000米0.9380.8790.938-0.2920.965

:10000米0.9440.8910.944-0.2870.973

:馬拉松0.8800.7740.880-0.4110.943所解釋的總方差的累計比例0.8280.8280.938.主成分解的近似關系式主成分解的因子解釋與主成分的解釋完全相同。因子f1代表在徑賽項目上的總體實力,可稱為強弱因子;因子f2反映了速度與耐力的對比。.二、主因子法假定原始向量x的各分量已作了標準化變換。如果隨機向量x滿足正交因子模型,則有R=AA′+D

其中R為x的相關矩陣,令 R*=R?D=AA′

則稱R*為x的約相關矩陣(reducedcorrelationmatrix)。R*中的對角線元素是

,而不是1,非對角線元素和R中是完全一樣的,并且R*也是一個非負定矩陣。.設

是特殊方差

的一個合適的初始估計,則約相關矩陣可估計為

其中

的初始估計。又設

的前m個特征值依次為

,相應的正交單位特征向量為

,則A的主因子解為

.

由此我們可以重新估計特殊方差,

的最終估計為

如果我們希望求得擬合程度更好的解,則可以采用迭代的方法,即利用上式中的

再作為特殊方差的初始估計,重復上述步驟,直至解穩(wěn)定為止。.特殊(或共性)方差的常用初始估計方法(1)取

,其中rii是

的第i個對角線元素,此時共性方差的估計為

,它是xi和其他p?1個變量間樣本復相關系數的平方,該初始估計方法最為常用。(2)取

,此時

。(3)取

,此時

,得到的

是一個主成分解。.例8.3.2在例7.3.2中,取m=2,為求得主因子解,選用xi與其他七個變量的復相關系數平方作為

的初始估計值。計算得

于是約相關矩陣為. 的特征值為

起特征值已接近于0,故取m=2,相應的計算結果列于表8.3.2。.表8.3.2 當m=2時的主因子解變量因子載荷共性方差f1f2:100米0.8070.4960.897:200米0.8580.4120.906:400米0.8900.2160.856:800米0.9390.0240.881:1500米0.956?0.1140.926:5000米0.938?0.2820.960:10000米0.946?0.2810.974:馬拉松0.874?0.3780.907所解釋的總方差的累計比例0.8160.914.三、極大似然法設公共因子f~Nm(0,I),特殊因子ε~Np(0,D),且相互獨立,則必然有原始向量x~Np(μ,Σ)。由樣本x1,x2,?,xn計算得到的似然函數是μ和Σ的函數L(μ,Σ)。由于Σ=AA′+D,故似然函數可更清楚地表示為L(μ,A,D)。記(μ,A,D)的極大似然估計為(),即有可以證明,

,而

滿足以下方程組:.

其中

。由于A的解是不惟一

的,故為了得到惟一解,可附加計算上方便的惟一性條件:A′D?1A是對角矩陣

上述方程組中的

一般可用迭代方法解得。對極大似然解,當因子數增加時,原來因子的估計載荷及對x的貢獻將發(fā)生變化,這與主成分解及主因子解不同。例8.3.3在例7.3.2中,取m=2,極大似然法的計算結果列于表8.3.3。

的初始估計值與例8.3.2相同。.表8.3.3 當m=2時的極大似然解變量因子載荷共性方差f1f2:100米0.731?0.6200.919:200米0.792?0.5450.924:400米0.855?0.3430.849:800米0.916?0.1610.865:1500米0.958?0.0260.918:5000米0.9720.1440.966:10000米0.981?0.1430.982:馬拉松0.923?0.2490.914所解釋的總方差的累計比例0.8010.917.§8.4因子旋轉因子的解釋帶有一定的主觀性,我們常常通過旋轉公共因子的方法來減少這種主觀性。公共因子是否易于解釋,很大程度上取決于因子載荷矩陣A的元素結構。如果載荷矩陣A的所有元素都接近0或±1,則模型的公共因子就易于解釋。反之,如果載荷矩陣A的元素多數居中,不大不小,則對模型的公共因子往往就不易作出解釋,此時應考慮進行因子旋轉,使得旋轉之后的載荷矩陣在每一列上元素的絕對值盡量地拉開大小距離。.因子旋轉方法有正交旋轉和斜交旋轉兩類,本章只討論正交旋轉。對公共因子作正交旋轉相當于對載荷矩陣A作一正交變換,右乘正交矩陣T,使A*=AT能有更鮮明的實際意義。旋轉后的公共因子向量為f*=T′f,它的幾何意義是在m維空間上對原因子軸作一剛性旋轉。因子旋轉不改變共性方差,這是因為A*A*′=ATT′A′=AA′正交矩陣T的不同選取法構成了正交旋轉的各種不同方法,在這些方法中使用最普遍的是最大方差旋轉法(varimax),本節(jié)僅介紹這一種正交旋轉法。例8.4.1在例8.3.1至例8.3.3中分別使用最大方差旋轉法,旋轉后的因子載荷矩陣列于表8.4.1。.表8.4.1 旋轉后的因子載荷估計變量主成分主因子極大似然:100米0.2740.9350.2870.9030.2880.914:200米0.3760.8930.3810.8720.3790.883:400米0.5430.7730.5410.7510.5410.746:800米0.7120.6270.6950.6310.6890.624:1500米0.8130.5250.7990.5370.7970.532:5000米0.9020.3890.8950.3990.8990.397:10000米0.9030.3970.9000.4050.9060.402:馬拉松0.9360.2610.9090.2840.9140.281所解釋的總方差的累計比例0.5230.9380.5100.9140.5120.917.三種方法的因子載荷估計經因子旋轉之后給出了大致相同的結果,

在因子

上的載荷依次增大,在因子

上的載荷依次減小,可稱

為耐力因子,稱

為(短跑)速度因子。將(主成分解的)因子載荷配對( )在圖8.4.1中用點表示,在點上標出相應變量的序號。使用最大方差旋轉法后,因子按順時針方向旋轉了θ=40.6°,點i在新坐標系下的坐標為旋轉后的因子載荷配對( )。從圖中容易直接看出旋轉后因子的實際意義。.圖8.4.1主成分解的因子旋轉.例8.4.2滬市604家上市公司2001年財務報表中有這樣十個主要財務指標(數據可從前言中提及的作者網頁上下載): x1:主營業(yè)務收入(元) x6:每股凈資產(元) x2:主營業(yè)務利潤(元) x7:凈資產收益率(%) x3:利潤總額(元) x8:總資產收益率(%) x4:凈利潤(元) x9:資產總計(元) x5:每股收益(元) x10:股本

上述十個指標的樣本相關矩陣列于表8.4.2。.從相關矩陣出發(fā),選擇主成分法,相關矩陣的前三個特征值為

累計貢獻率為83.82%,取因子數m=3,相應結果列于表8.4.3。表8.4.2 十個財務指標的樣本相關矩陣x1x2x3x4x5x6x7x8x9x10x11.000x20.7231.000x30.4270.7431.000x40.4070.6970.9821.000x50.1710.3250.5390.5591.000x60.1490.2280.2840.2740.5851.000x70.0960.1770.3620.4020.7760.2181.000x80.0660.2040.4550.5000.8490.2900.8331.000x90.7480.7680.5740.5670.1250.1380.0670.0581.000x100.6220.6190.4850.5000.002-0.0660.0330.0510.8611.000.表8.4.3 m=3時的主成分解變量因子載荷共性方差f1f2f3:主營業(yè)務收入0.659?0.4720.1210.672:主營業(yè)務利潤0.835?0.3460.0970.826:利潤總額0.8860.003?0.0370.786:凈利潤0.8880.037?0.0820.796:每股收益0.6660.6920.1090.934

:每股凈資產0.3910.3670.8140.951

:凈資產收益率0.5270.670?0.3250.832

:總資產收益率0.5810.703?0.2600.899

:資產總計0.747?0.5640.0190.877

:股本0.636?0.596?0.2190.808所解釋的總方差的累計比例0.4880.7450.838.表8.4.4 旋轉后的因子載荷估計變量因子載荷共性方差:主營業(yè)務收入0.809-0.0290.1290.672:主營業(yè)務利潤0.8740.1710.1820.826:利潤總額0.7060.5090.1670.786:凈利潤0.6880.5520.1350.796:每股收益0.1150.8490.4470.934

:每股凈資產0.0820.1990.9510.951

:凈資產收益率0.0220.9120.0040.832

:總資產收益率0.0450.9430.0870.899

:資產總計0.936-0.0120.0280.877

:股本0.869-0.013-0.2280.808所解釋的總方差的累計比例0.4040.7120.838.§8.5因子得分一、加權最小二乘法二、回歸法.一、加權最小二乘法

采用類似于回歸分析中加權最小二乘估計的想法將 估計為

在實際應用中,用估計值分別代替上述公式中的μ,A和D,并將樣品xj的數據代入,便可得到相應的因子得分.二、回歸法在正交因子模型中,假設服從(m+p)元正態(tài)分布,

用回歸預測方法可將 估計為

在實際應用中,可用

分別代替上式中的μ,A和Σ來得到因子得分。樣品xj的因子得分.例8.5.1在例8.4.2中,用回歸法得到的因子得分為

其中

為xi的標準化值,i=1,2,?,p,經計算:.序號股票名稱序號股票名稱1上海石化8.580-2.704-2.168?????2東方航空7.446-2.089-1.861595康美藥業(yè)-0.7010.2311.6243兗州煤碳6.9241.513-0.044596潛江制藥-0.706-0.4302.0854馬鋼股份6.175-1.251-2.804597瀏陽花炮-0.7090.1460.6555寧滬高速5.3410.835-2.220598浪潮軟件-0.7131.625-1.3136廣州控股4.1012.5960.640599兆維科技-0.7282.511-1.3667青島海爾4.0220.9543.160600PT農商社-0.7510.5160.5108四川長虹3.996-2.0271.907601三佳模具-0.7760.5270.3859儀征化工3.873-0.964-1.598602雄震集團-0.8171.175-1.40710上海汽車3.8341.293-0.666603中軟股份-1.0232.715-1.685?????604天地科技-1.0232.355-0.946表8.5.1按規(guī)模因子得分

的排序.序號股票名稱序號股票名稱1中軟股份-1.0232.715-1.685?????2廣州控股4.1012.5960.640595東方電

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論