第五章因子分析和主成分分析_第1頁(yè)
第五章因子分析和主成分分析_第2頁(yè)
第五章因子分析和主成分分析_第3頁(yè)
第五章因子分析和主成分分析_第4頁(yè)
第五章因子分析和主成分分析_第5頁(yè)
已閱讀5頁(yè),還剩24頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、5.1 因子分析因子分析模型與應(yīng)用模型與應(yīng)用1. 1. 因子分析模型因子分析模型 設(shè)設(shè)p維可觀測(cè)的隨機(jī)向量維可觀測(cè)的隨機(jī)向量X = (X1,.,Xp)(假定(假定Xi為為標(biāo)準(zhǔn)化變量,即標(biāo)準(zhǔn)化變量,即E(Xi) = 0,Var(Xi) = 1,i = 1,2,p)表示為表示為)(212121222211121121pmFFFaaaaaaaaaXXXpmpmppmmp或或 X = AF + 其中其中F1、F2、Fm稱為公共因子,簡(jiǎn)稱因子,是不稱為公共因子,簡(jiǎn)稱因子,是不可觀測(cè)的變量;待估的系數(shù)陣可觀測(cè)的變量;待估的系數(shù)陣A稱為因子載荷陣,稱為因子載荷陣,aij(i = 1,2,p;j = 1,2,

2、m)稱為第)稱為第i個(gè)變量在第個(gè)變量在第j個(gè)因個(gè)因子上的載荷(簡(jiǎn)稱為因子載荷);子上的載荷(簡(jiǎn)稱為因子載荷); 稱為特殊因子,是不能被前稱為特殊因子,是不能被前m個(gè)公共因子包含的個(gè)公共因子包含的部分。并且滿足:部分。并且滿足:cov(F,) = 0,即,即F,不相關(guān);不相關(guān); D(F) = Im,即,即F1、F2、Fm互不相關(guān),方差為互不相關(guān),方差為1;D() = diag( 12, 22, p2),即,即1、2、p互不相關(guān),互不相關(guān),方差不一定相等,方差不一定相等,iN(0, i2)。 因子分析的目的就是通過(guò)模型因子分析的目的就是通過(guò)模型X = AF + 以以F代替代替X,由于由于m 0,相

3、應(yīng)的特征向量為,相應(yīng)的特征向量為u1*,u2*,up*,則有近似分解式:則有近似分解式:R* = AA其中其中 ,令,令 (i = 1,p),),則則A和和D為因子模型的一個(gè)解,這個(gè)解稱為主因子解。為因子模型的一個(gè)解,這個(gè)解稱為主因子解。),.,(*2*2*1*1mmuuuAmkikia122*1)( 在實(shí)際中特殊因子方差在實(shí)際中特殊因子方差(或變量共同度或變量共同度)是未知的。是未知的。以上得到的解是近似解。為了得到近似程度更好的以上得到的解是近似解。為了得到近似程度更好的解,常常采用迭代主因子法。即利用上面得到的解,常常采用迭代主因子法。即利用上面得到的D* = diag( )作為特殊因子

4、方差的初始估計(jì),重復(fù)上述步驟,直作為特殊因子方差的初始估計(jì),重復(fù)上述步驟,直到解穩(wěn)定為止。到解穩(wěn)定為止。 變量共同度變量共同度hi2常用的初始估計(jì)有以下幾種方法:常用的初始估計(jì)有以下幾種方法: 取第取第i個(gè)變量與其他所有變量的多重相關(guān)系數(shù)的個(gè)變量與其他所有變量的多重相關(guān)系數(shù)的平方;平方; 取第取第i個(gè)變量與其他變量相關(guān)系數(shù)絕對(duì)值的最大個(gè)變量與其他變量相關(guān)系數(shù)絕對(duì)值的最大值;值; 取取1,它等價(jià)于主成分解。,它等價(jià)于主成分解。221,.,p(3) 極大似然法極大似然法 假定公共因子假定公共因子F和特殊因子和特殊因子服從正態(tài)分布,那么服從正態(tài)分布,那么可得到因子載荷陣和特殊因子方差的極大似然估計(jì),

5、可得到因子載荷陣和特殊因子方差的極大似然估計(jì),設(shè)設(shè)p維觀測(cè)向量維觀測(cè)向量X(1),.,X(n)為來(lái)自正態(tài)總體為來(lái)自正態(tài)總體Np(,)的隨機(jī)樣品,則樣品似然函數(shù)為的隨機(jī)樣品,則樣品似然函數(shù)為,的函數(shù)的函數(shù)L(,)。 設(shè)設(shè)= AA + D,取,取 = ,則似然函數(shù)為,則似然函數(shù)為A,D的函的函數(shù):數(shù): (A,D),求,求A,D使使 達(dá)最大。為保證得到唯一達(dá)最大。為保證得到唯一解,可附加計(jì)算上方便的唯一性條件:解,可附加計(jì)算上方便的唯一性條件:AD-1A = 對(duì)角對(duì)角陣,用迭代方法可求得極大似然估計(jì)陣,用迭代方法可求得極大似然估計(jì)A和和D。X2. 2. 因子旋轉(zhuǎn)(正交變換)因子旋轉(zhuǎn)(正交變換) 所謂

6、因子旋轉(zhuǎn)就是將因子載荷矩陣所謂因子旋轉(zhuǎn)就是將因子載荷矩陣A右乘一個(gè)正交右乘一個(gè)正交矩陣矩陣T后得到一個(gè)新的矩陣后得到一個(gè)新的矩陣A*。它并不影響變量。它并不影響變量Xi的的共同度共同度hi2,卻會(huì)改變因子的方差貢獻(xiàn),卻會(huì)改變因子的方差貢獻(xiàn)qj2。因子旋轉(zhuǎn)。因子旋轉(zhuǎn)通過(guò)改變坐標(biāo)軸,能夠重新分配各個(gè)因子解釋原始通過(guò)改變坐標(biāo)軸,能夠重新分配各個(gè)因子解釋原始變量方差的比例,使因子更易于理解。變量方差的比例,使因子更易于理解。 設(shè)設(shè)p維可觀測(cè)向量維可觀測(cè)向量X滿足因子模型:滿足因子模型:X = AF +。T為為正交陣,則因子模型可寫(xiě)為正交陣,則因子模型可寫(xiě)為X = ATTF + = A*F* +其中其中

7、A* = AT,F(xiàn)* = TF。 易知易知, = AA + D = A*A* + D(其中其中A* = AT)。這。這說(shuō)明,若說(shuō)明,若A,D是一個(gè)因子解,任給正交陣是一個(gè)因子解,任給正交陣T,A* = AT,D也是因子解。在這個(gè)意義下,因子解是不惟一的。也是因子解。在這個(gè)意義下,因子解是不惟一的。 由于因子載荷陣是不惟一的,所以可對(duì)因子載荷由于因子載荷陣是不惟一的,所以可對(duì)因子載荷陣進(jìn)行旋轉(zhuǎn)。目的是使因子載荷陣的結(jié)構(gòu)簡(jiǎn)化,使陣進(jìn)行旋轉(zhuǎn)。目的是使因子載荷陣的結(jié)構(gòu)簡(jiǎn)化,使載荷矩陣每列或行的元素平方值向載荷矩陣每列或行的元素平方值向0和和1兩極分化,兩極分化,這樣的因子便于解釋和命名。這樣的因子便于

8、解釋和命名。 有三種主要的正交旋轉(zhuǎn)法:四次方最大法、方差有三種主要的正交旋轉(zhuǎn)法:四次方最大法、方差最大法和等量最大法。這些旋轉(zhuǎn)方法的目標(biāo)是一致最大法和等量最大法。這些旋轉(zhuǎn)方法的目標(biāo)是一致的,只是策略不同。的,只是策略不同。 如果兩種旋轉(zhuǎn)模型導(dǎo)出不同的解釋,這兩種解釋如果兩種旋轉(zhuǎn)模型導(dǎo)出不同的解釋,這兩種解釋不能認(rèn)為是矛盾的。倒不如說(shuō)是看待相同事物的兩不能認(rèn)為是矛盾的。倒不如說(shuō)是看待相同事物的兩種不同方法,是在公因子空間中的兩個(gè)不同點(diǎn)。只種不同方法,是在公因子空間中的兩個(gè)不同點(diǎn)。只取決于惟一的一種你認(rèn)為是正確旋轉(zhuǎn)的任何結(jié)論都取決于惟一的一種你認(rèn)為是正確旋轉(zhuǎn)的任何結(jié)論都是不成立的。是不成立的。 在

9、統(tǒng)計(jì)意義上所有旋轉(zhuǎn)都是一樣的,即不能說(shuō)一在統(tǒng)計(jì)意義上所有旋轉(zhuǎn)都是一樣的,即不能說(shuō)一些旋轉(zhuǎn)比另一些旋轉(zhuǎn)好。因此,在不同的旋轉(zhuǎn)方法些旋轉(zhuǎn)比另一些旋轉(zhuǎn)好。因此,在不同的旋轉(zhuǎn)方法之間進(jìn)行的選擇必須根據(jù)非統(tǒng)計(jì)觀點(diǎn),通常選擇最之間進(jìn)行的選擇必須根據(jù)非統(tǒng)計(jì)觀點(diǎn),通常選擇最容易解釋的旋轉(zhuǎn)模型。容易解釋的旋轉(zhuǎn)模型。3. 3. 因子得分因子得分 計(jì)算因子得分的途徑是用原有變量來(lái)描述因子,計(jì)算因子得分的途徑是用原有變量來(lái)描述因子,第第j個(gè)因子在第個(gè)因子在第i個(gè)樣本上的值可表示為:個(gè)樣本上的值可表示為:Fji = j1xi1 + j2xi2 + jpxip (j = 1,2,k) 式中,式中,xi1,xi2,xip分

10、別是第分別是第1,2,p個(gè)原個(gè)原有變量在第有變量在第i個(gè)樣本上的取值,個(gè)樣本上的取值, j1, j2, jp分別分別是第是第j個(gè)因子和第個(gè)因子和第1,2,k個(gè)原有變量間的因子值個(gè)原有變量間的因子值系數(shù)??梢?jiàn),它是原有變量線性組合的結(jié)果系數(shù)??梢?jiàn),它是原有變量線性組合的結(jié)果(與因子與因子分析的數(shù)學(xué)模型正好相反分析的數(shù)學(xué)模型正好相反),因子得分可看作各變量,因子得分可看作各變量值的加權(quán)值的加權(quán)( j1, j2, jp)總和,權(quán)數(shù)的大小表示了總和,權(quán)數(shù)的大小表示了變量對(duì)因子的重要程度。變量對(duì)因子的重要程度。于是有:于是有: Fj = j1X1+ j2X2+ jpXp (j = 1,2,k) 上式稱為

11、因子得分函數(shù)。由于因子個(gè)數(shù)上式稱為因子得分函數(shù)。由于因子個(gè)數(shù)k小于原有變小于原有變量個(gè)數(shù)量個(gè)數(shù)p,故式中方程的個(gè)數(shù)少于變量的個(gè)數(shù)。因此,對(duì),故式中方程的個(gè)數(shù)少于變量的個(gè)數(shù)。因此,對(duì)因子值系數(shù)通常采用最小二乘意義下的回歸法進(jìn)行估計(jì)。因子值系數(shù)通常采用最小二乘意義下的回歸法進(jìn)行估計(jì)。可將上式看作是因子變量可將上式看作是因子變量Fj對(duì)對(duì)p個(gè)原有變量的線性回歸方個(gè)原有變量的線性回歸方程程(其中常數(shù)項(xiàng)為其中常數(shù)項(xiàng)為0)??梢宰C明,式中回歸系數(shù)的最小二??梢宰C明,式中回歸系數(shù)的最小二乘估計(jì)滿足:乘估計(jì)滿足:Bj = AjR-1,其中,其中Bj = ( j1, j2, jp),Aj = (a1j,a2j,a

12、pj)為第為第1,2,p個(gè)變量在個(gè)變量在第第j個(gè)因子上的因子載荷,個(gè)因子上的因子載荷,R-1為原有變量的相關(guān)系數(shù)矩陣為原有變量的相關(guān)系數(shù)矩陣的逆矩陣。的逆矩陣。 由上式計(jì)算出因子變量由上式計(jì)算出因子變量Fj的因子值系數(shù),再利用因子得的因子值系數(shù),再利用因子得分函數(shù)可算出第分函數(shù)可算出第j個(gè)因子在各個(gè)樣本上的因子得分。個(gè)因子在各個(gè)樣本上的因子得分。13.3 主成分分析(主成分分析(PCA)的概念與步驟的概念與步驟1. 1. 主成分分析基本思想主成分分析基本思想 主成分分析是數(shù)學(xué)上對(duì)數(shù)據(jù)降維的一種方法。其主成分分析是數(shù)學(xué)上對(duì)數(shù)據(jù)降維的一種方法。其基本思想是設(shè)法將原來(lái)眾多的具有一定相關(guān)性的指基本思想

13、是設(shè)法將原來(lái)眾多的具有一定相關(guān)性的指標(biāo)(比如標(biāo)(比如p個(gè)指標(biāo)),重新組合成一組新的互不相關(guān)個(gè)指標(biāo)),重新組合成一組新的互不相關(guān)的綜合指標(biāo)來(lái)代替原來(lái)指標(biāo)。通常數(shù)學(xué)上的處理就的綜合指標(biāo)來(lái)代替原來(lái)指標(biāo)。通常數(shù)學(xué)上的處理就是將原來(lái)是將原來(lái)p個(gè)指標(biāo)作線性組合,作為新的綜合指標(biāo)。個(gè)指標(biāo)作線性組合,作為新的綜合指標(biāo)。但是這種線性組合,如果不加限制,則可以有很多,但是這種線性組合,如果不加限制,則可以有很多,應(yīng)該如何去選取呢?應(yīng)該如何去選取呢? 在所有的線性組合中所選取的在所有的線性組合中所選取的F1應(yīng)該是方差最大應(yīng)該是方差最大的,故稱的,故稱F1為第一主成分。如果第一主成分不足以為第一主成分。如果第一主成分

14、不足以代表原來(lái)代表原來(lái)p個(gè)指標(biāo)的信息,再考慮選取個(gè)指標(biāo)的信息,再考慮選取F2即選第二個(gè)即選第二個(gè)線性組合。為了有效地反映原有信息,線性組合。為了有效地反映原有信息,F(xiàn)1已有的信已有的信息就不需要再出現(xiàn)在息就不需要再出現(xiàn)在F2中,用數(shù)學(xué)語(yǔ)言表達(dá)就是要中,用數(shù)學(xué)語(yǔ)言表達(dá)就是要求求Cov(F1,F(xiàn)2)0。稱。稱F2為第二主成分,依此類推可為第二主成分,依此類推可以構(gòu)造出第三、第四、以構(gòu)造出第三、第四、第、第p個(gè)主成分。個(gè)主成分。2. 2. 主成分分析的數(shù)學(xué)模型主成分分析的數(shù)學(xué)模型 設(shè)有設(shè)有n個(gè)樣本(多元觀測(cè)值),每個(gè)樣本觀測(cè)個(gè)樣本(多元觀測(cè)值),每個(gè)樣本觀測(cè)p項(xiàng)項(xiàng)指標(biāo)(變量):指標(biāo)(變量):X1,X

15、2,Xp,得到原始數(shù)據(jù)資料,得到原始數(shù)據(jù)資料陣:陣:其中其中Xi = (x1i,x2i,xni),i = 1,2,p。),.,(.21212222111211pnpnnppXXXxxxxxxxxxX 用數(shù)據(jù)矩陣用數(shù)據(jù)矩陣X的的p個(gè)列向量(即個(gè)列向量(即p個(gè)指標(biāo)向量)個(gè)指標(biāo)向量)X1,X2,Xp作線性組合,得綜合指標(biāo)向量:作線性組合,得綜合指標(biāo)向量:簡(jiǎn)寫(xiě)成:簡(jiǎn)寫(xiě)成:Fi = a1iX1 + ai2X2 +apiXp i = 1,2,pppppppppppXaXaXaFXaXaXaFXaXaXaF.22112222112212211111 為了加以限制,對(duì)組合系數(shù)為了加以限制,對(duì)組合系數(shù)ai =

16、(a1i,a2i,api)作如下作如下要求:要求:即:即:ai為單位向量:為單位向量:aiai = 1,且由下列原則決定:,且由下列原則決定: 1) Fi與與Fj(ij, i, j = 1, , p)互不相關(guān),即)互不相關(guān),即Cov(Fi,F(xiàn)j) = ai ai = 0,其中,其中是是X的協(xié)方差陣。的協(xié)方差陣。 2) F1是是X1,X2,Xp的一切線性組合(系數(shù)滿足上述要的一切線性組合(系數(shù)滿足上述要求)中方差最大的,即求)中方差最大的,即 ,其中,其中 a= (a1,a2,ap) F2是與是與F1不相關(guān)的不相關(guān)的X1,X2,Xp一切線性組合中方差最一切線性組合中方差最大的,大的,F(xiàn)p是與是與

17、F1,F(xiàn)2,F(xiàn)p-1都不相關(guān)的都不相關(guān)的X1,X2,Xp的一切線性組合中方差最大的。的一切線性組合中方差最大的。piaaapiii, 1, 122221)(max)(111piiiaaXaVarFVar 滿足上述要求的綜合指標(biāo)向量滿足上述要求的綜合指標(biāo)向量F1,F(xiàn)2,F(xiàn)p就是就是主成分,這主成分,這p個(gè)主成分從原始指標(biāo)所提供的信息總量個(gè)主成分從原始指標(biāo)所提供的信息總量中所提取的信息量依次遞減,每一個(gè)主成分所提取中所提取的信息量依次遞減,每一個(gè)主成分所提取的信息量用方差來(lái)度量,主成分方差的貢獻(xiàn)就等于的信息量用方差來(lái)度量,主成分方差的貢獻(xiàn)就等于原指標(biāo)相關(guān)系數(shù)矩陣相應(yīng)的特征值原指標(biāo)相關(guān)系數(shù)矩陣相應(yīng)的

18、特征值 i,每一個(gè)主成,每一個(gè)主成分的組合系數(shù)分的組合系數(shù)ai = (a1i,a2i,api)就是相應(yīng)特征值就是相應(yīng)特征值 i所對(duì)應(yīng)的單位特征向量。方差的所對(duì)應(yīng)的單位特征向量。方差的貢獻(xiàn)率為貢獻(xiàn)率為 , i越大,說(shuō)明相應(yīng)的主成越大,說(shuō)明相應(yīng)的主成分反映綜合信息的能力越強(qiáng)。分反映綜合信息的能力越強(qiáng)。1/piiii3. 3. 主成分分析的步驟主成分分析的步驟(1) 計(jì)算協(xié)方差矩陣計(jì)算協(xié)方差矩陣 計(jì)算樣品數(shù)據(jù)的協(xié)方差矩陣:計(jì)算樣品數(shù)據(jù)的協(xié)方差矩陣: = (sij)p p,其中,其中 i,j = 1,2,p(2) 求出求出的特征值及相應(yīng)的特征向量的特征值及相應(yīng)的特征向量 求出協(xié)方差矩陣求出協(xié)方差矩陣的

19、特征值的特征值 1 2 p0及相應(yīng)的正交化單位及相應(yīng)的正交化單位特征向量:特征向量:則則X的第的第i個(gè)主成分為個(gè)主成分為Fi = aiX i = 1,2,p。nkjkjikiijxxxxns1)(11pppppppaaaaaaaaaaaa21222122121111.,(3) 選擇主成分選擇主成分 在已確定的全部在已確定的全部p個(gè)主成分中合理選擇個(gè)主成分中合理選擇m個(gè)來(lái)實(shí)現(xiàn)個(gè)來(lái)實(shí)現(xiàn)最終的評(píng)價(jià)分析。一般用方差貢獻(xiàn)率最終的評(píng)價(jià)分析。一般用方差貢獻(xiàn)率解釋主成分解釋主成分Fi所反映的信息量的大小,所反映的信息量的大小,m的確定以累的確定以累計(jì)貢獻(xiàn)率計(jì)貢獻(xiàn)率達(dá)到足夠大(一般在達(dá)到足夠大(一般在85%以上)為原則。以上)為原則。另外,如果主成分對(duì)應(yīng)的特征根已小于另外,如果主成分對(duì)應(yīng)的特征根已小于1,一般也不,一般也不選用選用pkkii1/pkkmiimG11/)(4) 計(jì)算主成分得分計(jì)算主成分得分 計(jì)算計(jì)算n個(gè)樣本在個(gè)樣本在m個(gè)主成分上的得分:個(gè)主成分上的得分

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論