概率論與數(shù)理統(tǒng)計_第1頁
概率論與數(shù)理統(tǒng)計_第2頁
概率論與數(shù)理統(tǒng)計_第3頁
概率論與數(shù)理統(tǒng)計_第4頁
概率論與數(shù)理統(tǒng)計_第5頁
已閱讀5頁,還剩105頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

概率論與數(shù)理統(tǒng)計第一頁,共一百一十一頁,2022年,8月28日1§8.1引言§8.2因子模型§8.3參數(shù)估計方法§8.4方差最大的正交旋轉(zhuǎn)§8.5因子得分§8.6Q型因子分析第八章因子分析

目錄第二頁,共一百一十一頁,2022年,8月28日2第八章因子分析

因子分析是主成分分析的推廣和發(fā)展,它也是多元統(tǒng)計分析中降維的一種方法.因子分析是研究相關陣或協(xié)差陣的內(nèi)部依賴關系,它將多個變量綜合為少數(shù)幾個因子,以再現(xiàn)原始變量與因子之間的相關關系.

因子分析的形成和早期發(fā)展一般認為是從CharlesSpearman在1904年發(fā)表的文章開始.他提出這種方法用來解決智力測驗得分的統(tǒng)計分析.目前因子分析在心理學、社會學、經(jīng)濟學等學科都取得成功的應用.第三頁,共一百一十一頁,2022年,8月28日3第八章§8.1引言

什么是因子分析

例1

為了了解學生的學習能力,觀測了n個學生p個科目的成績(分數(shù)),用X1,…,Xp表示p個科目(例如代數(shù)、幾何、語文、英語、政治,…),X(t)=(xt1,…,xtp)′(t=1,…,n)表示第t個學生p個科目的成績,我們對這些資料進行歸納分析,可以看出各個科目(即變量)由兩部分組成:

Xi=aiF+εi(i=1,…,p)(8.1.1)其中F是對所有Xi(i=1,…,p)所共有的因子,它表示智能高低的因子;εi是變量Xi特有的特殊因子.這就是一個最簡單的因子模型.第四頁,共一百一十一頁,2022年,8月28日4第八章

§8.1引言

什么是因子分析進一步可把這個簡單因子模型推廣到多個因子的情況,即全體科目X所共有的因子有m個,如數(shù)學推導因子、記憶因子、計算因子…等.分別記為F1,…,Fm,即

Xi=ai1

F1

+ai2

F2+…+aimFm+εi

(i=1,…,p)(8.1.2)

用這m個不可觀測的相互獨立的公共因子F1,…,Fm(也稱為潛因子)和一個特殊因子εi來描述原始可測的相關變量(科目)X1,…,Xp,并解釋分析學生的學習能力.第五頁,共一百一十一頁,2022年,8月28日5第八章§8.1引言

什么是因子分析

例2

調(diào)查青年對婚姻家庭的態(tài)度,抽取了n個青年回答了p=50個問題的答卷,這些問題可歸納為如下幾個方面,對相貌的重視、對孩子的觀點等,這也是一個因子分析的模型,每一個方面就是一個因子.

例3

考察五個生理指標:收縮壓(X1)、舒張壓(X2)、心跳間隔(X3)、呼吸間隔(X4)和舌下溫度(X5).從生理學的知識,這五個指標是受植物神經(jīng)支配的,植物神經(jīng)又分為交感神經(jīng)和副交感神經(jīng),因此這五個指標有兩個公共因子,也可用因子分析的模型去處理它.第六頁,共一百一十一頁,2022年,8月28日6第八章§8.1引言

什么是因子分析

例4Linden對二次大戰(zhàn)(1945年以后)奧林匹克十項全能的得分進行研究(n=160),用X1-X10表示十項全能的標準化得分數(shù)據(jù)(十項全能包括:100米,鋁球,跳高,跳遠,400米,110米跨欄,鐵餅,撐桿,標槍,1500米),目的是分析哪些因素決定了十項全能的成績,以此來指導運動員的選拔工作.

這些因素可歸納為如下幾類:短跑速度,爆發(fā)性臂力,腿力,耐力等.這也是一個因子分析的模型,每一個因素就是一個公共因子.

第七頁,共一百一十一頁,2022年,8月28日7第八章§8.1引言

什么是因子分析

因子分析的主要應用有兩方面:

一是尋求基本結(jié)構,簡化觀測系統(tǒng),將具有錯綜復雜關系的對象(變量或樣品)綜合為少數(shù)幾個因子(不可觀測的,相互獨立的隨機變量),以再現(xiàn)因子與原變量之間的內(nèi)在聯(lián)系;

二是用于分類,對p個變量或n個樣品進行分類.第八頁,共一百一十一頁,2022年,8月28日8第八章§8.1引言

什么是因子分析

因子分析根據(jù)研究對象可以分為R型和Q型因子分析.R型因子分析研究變量(指標)之間的相關關系,通過對變量的相關陣或協(xié)差陣內(nèi)部結(jié)構的研究,找出控制所有變量的幾個公共因子(或稱主因子、潛因子),用以對變量或樣品進行分類.Q型因子分析研究樣品之間的相關關系,通過對樣品的相似矩陣內(nèi)部結(jié)構的研究找出控制所有樣品的幾個主要因素(或稱主因子).第九頁,共一百一十一頁,2022年,8月28日9第八章§8.1引言

什么是因子分析

因子分析與主成分分析有區(qū)別:

主成分分析一般不用數(shù)學模型來描述,它只是通常的變量變換,而因子分析需要構造因子模型(正交或斜交);

主成分分析中主成分的個數(shù)和變量個數(shù)p相同,它是將一組具有相關性的變量變換為一組獨立的綜合變量(注意應用主成分分析解決實際問題時,一般只選取m(m<p)個主成分),而因子分析的目的是要用盡可能少的公因子,以便構造一個結(jié)構簡單的因子模型;第十頁,共一百一十一頁,2022年,8月28日10第八章§8.1引言

什么是因子分析

主成分分析是將主成分表示為原變量的線性組合,而因子分析是將原始變量表示為公因子和特殊因子的線性組合.

另一方面這兩種分析方法之間在某些情況下也有一定聯(lián)系.這些我們將從下面的介紹中看到.第十一頁,共一百一十一頁,2022年,8月28日11第八章§8.2因子模型

正交因子模型

設X=(X1,…,Xp)′是可觀測的隨機向量,E(X)=μ,D(X)=Σ.F=(F1,…,Fm)′(m<p)是不可觀測的隨機向量,E(F)=0,D(F)=Im(即F的各分量方差為1,且互不相關).

又設ε=(ε1,…,εp)′與F相互獨立,且E(ε)=0,

D(ε)=diag(σ21,…,σ2p)=D(對角陣).第十二頁,共一百一十一頁,2022年,8月28日12第八章§8.2因子模型

正交因子模型假定隨機向量X滿足以下的模型:

X1-μ1=a11F1+a12F2+…+a1mFm+ε1,

X2-μ2=a21F1+a22F2+…+a2mFm+ε2,……………(8.2.1)Xp-μp=ap1F1+ap2F2+…+apmFm+εp,則稱模型(8.2.1)為正交因子模型.用矩陣表示為第十三頁,共一百一十一頁,2022年,8月28日13第八章§8.2因子模型

正交因子模型其中F=(F1,…,Fm)′,F1,…,Fm稱為X的公共因子;

ε=(ε1,…,εp)′,ε1,…,εp稱為X的特殊因子;

公共因子F1,…,Fm對X每一個分量X1,X2,…,Xp都有作用,而εi只對Xi起作用.而且各特殊因子之間以及特殊因子與所有公共因子之間都是相互獨立的.第十四頁,共一百一十一頁,2022年,8月28日14第八章§8.2因子模型

正交因子模型

模型中的矩陣A=(aij)(p×m)是待估的系數(shù)矩陣,稱為因子載荷矩陣.

aij(i=1,…,p;j=1,…,m)稱為第i個變量在第j個因子上的載荷(簡稱為因子載荷),或稱為第j個因子為預測第i個變量的回歸系數(shù).第十五頁,共一百一十一頁,2022年,8月28日15第八章§8.2因子模型

正交因子模型

這里有幾個關鍵性的假設:

1.公共因子Fi互不相關,且

D(F)=Im

2.特殊因子互不相關,且

D(ε)=diag(σ21,…,σ2p)=D3.

特殊因子與公共因子不相關,即

COV(ε,F)=Op×m

.

第十六頁,共一百一十一頁,2022年,8月28日16第八章§8.2因子模型

正交因子模型

在主成分分析中,當討論用前m個主成分表示原始變量的模型時,殘差通常是彼此相關的.

在因子分析中,特殊因子起著殘差的作用,但被定義為彼此不相關且和公因子也不相關.而且每個公因子假定至少對兩個變量有貢獻,否則它將是一個特殊因子.第十七頁,共一百一十一頁,2022年,8月28日17第八章§8.2因子模型

正交因子模型

在正交因子模型中,假定公因子彼此不相關且具有單位方差,即D(F)=Im.

在這種情況下,由

Σ=D(X)=D(AF+ε)=E[(AF+ε)(AF+ε)′]=AD(F)A′+D(ε)=AA′+D,

即Σ-D=AA'

(8.2.3)

(8.2.3)稱為正交因子模型的協(xié)方差結(jié)構.第十八頁,共一百一十一頁,2022年,8月28日18第八章§8.2因子模型

正交因子模型

由()可知,X符合正交因子模型意味著第j個變量和第k個變量(j≠k)的協(xié)方差σjk由下式給出:(Σ=AA'+D)

σjk=aj1ak1+aj2ak2+…+ajmakm(j≠k)

σjj=

(aj1)2+(aj2)2+

…+(ajm)2+

σj2

第十九頁,共一百一十一頁,2022年,8月28日19第八章§8.2因子模型

正交因子模型

如果原始變量已被標準化為單位方差,在(8.2.3)式中將用相關陣代替協(xié)差陣.在這種意義上,公共因子解釋了觀測變量間的相關性.

用正交因子模型預測的相關與實際的相關之間的差異就是剩余相關.評估正交因子模型擬合優(yōu)度的好方法就是考察剩余相關的大小(即誤差平方和Q(m)的大小).第二十頁,共一百一十一頁,2022年,8月28日20第八章§8.2因子模型

正交因子模型

因子分析的任務首先是由樣本協(xié)差陣估計Σ,然后由Σ滿足的分解式(8.2.3)求得A和D.

也就是從可以觀測的變量X1,…,Xp給出的樣本資料中,求出載荷矩陣A和D.又COV(X,F)=E[(X-EX)(F-EF)′]=E[(X-μ)F′]=E[(AF+ε)F′]

=AE(FF′)+E(εF′)=A,(8.2.4)可見A中元素aij刻畫變量Xi與Fj之間的相關性,稱aij為Xi在Fj上的因子載荷.第二十一頁,共一百一十一頁,2022年,8月28日21第八章§8.2因子模型

正交因子模型中各個量的統(tǒng)計意義

1.因子載荷的統(tǒng)計意義由因子模型(8.2.1)及(8.2.4)可知Xi與Fj的協(xié)方差Cov(Xi,Fj)=aij如果變量Xi是標準化變量(即E(Xi)=0,Var(Xi)=1),則這時因子載荷aij就是第i個變量與第j個公共因子的相關系數(shù).第二十二頁,共一百一十一頁,2022年,8月28日22第八章§8.2因子模型

正交因子模型中各個量的統(tǒng)計意義

2.變量共同度的統(tǒng)計意義因子載荷矩陣A中各行元素的平方和記為hi2

稱為變量Xi的共同度.為了給出hi2的統(tǒng)計意義,下面來計算Xi方差.第二十三頁,共一百一十一頁,2022年,8月28日23第八章§8.2因子模型

正交因子模型中各個量的統(tǒng)計意義

Xi的方差由兩部分組成,第一部分hi2是全部(m個)公共因子對變量Xi的總方差所作出的貢獻,稱為公因子方差;

第二部分σ2i

由特定因子εi產(chǎn)生的方差,它僅與變量Xi有關,也稱為剩余方差.第二十四頁,共一百一十一頁,2022年,8月28日24第八章§8.2因子模型

正交因子模型中各個量的統(tǒng)計意義顯然,若hi2大,σ2i必小.而hi2大表明Xi對公因子F1,…,Fm的共同依賴程度大.當hi2=1(設Var(Xi)=1)時,σ2i

=0,即Xi能夠由公共因子的線性組合表示;當hi2≈0時,表明m個公共因子對Xi影響很小,Xi主要由特殊因子εi來描述.

可見hi2反映了變量Xi對公因子F依賴的程度.故稱公因子方差hi2為變量Xi的共同度.第二十五頁,共一百一十一頁,2022年,8月28日25第八章§8.2因子模型

正交因子模型中各個量的統(tǒng)計意義

3.公共因子Fj的方差貢獻的統(tǒng)計意義在因子載荷矩陣A中,求A的各列的平方和,記為qj2,即qj2的統(tǒng)計意義與Xi的共同度h2i恰好相反,qj2表示第j個公因子Fj對X的所有分量X1,…,Xp的總影響,稱為公共因子Fj對X的貢獻(qj2是同一公共因子Fj

對諸變量所提供的方差之總和),它是衡量公共因子相對重要性的指標.第二十六頁,共一百一十一頁,2022年,8月28日26第八章§8.2因子模型

正交因子模型中各個量的統(tǒng)計意義

qj2愈大,表明Fj對X的貢獻愈大.如果我們把A矩陣的各列平方和都計算出來,使相應的貢獻有順序:

我們就能夠以此為依據(jù),提煉出最有影響的公共因子.

要解決此問題,關鍵是求載荷矩陣A的估計.第二十七頁,共一百一十一頁,2022年,8月28日27第八章§8.2因子模型

因子分析的任務

1.由樣本(即觀測數(shù)據(jù))得出Σ的估計(樣本協(xié)差陣),假定X符合正交因子模型,則有分解式:Σ=AA'

+D2.由樣本協(xié)差陣估計A和D及公因子個數(shù)m使之滿足:Σ=AA'

+

D

(參數(shù)估計問題)

3.對公共因子給出有實際背景的解釋.4.估計因子得分函數(shù)和因子得分.第二十八頁,共一百一十一頁,2022年,8月28日28第八章§8.2因子模型

例已知X=(X1,...,X4)'的協(xié)差陣Σ:

1930212305752325384712234768試求滿足(8.2.3)式的因子載荷陣A(m=2)和特殊因子的協(xié)差陣D.

解:

比如取A'=47-111268Σ=第二十九頁,共一百一十一頁,2022年,8月28日29第八章§8.2因子模型

2000040000100003則協(xié)差陣滿足:Σ=AA′+D且有共同度h12=42+12=17Var(ε1)=2,Var(X1)=19分解式:19=17+2即:Var(X1)=h12+Var(ε1)D=第三十頁,共一百一十一頁,2022年,8月28日30第八章§8.2因子模型

作業(yè)—習題八8.1

補充1:已知X=(X1,...,X4)'的協(xié)差陣Σ:

2210-1632108-816-16-8852032162081試求滿足(8.2.3)式的因子載荷陣A(m=2)和特殊因子的協(xié)差陣D.

提示:

比如取A'=216842-74Σ=第三十一頁,共一百一十一頁,2022年,8月28日31第八章§8.3參數(shù)估計方法

已知p個相關變量的觀測數(shù)據(jù)X(i)

=(xi1,…,xip)’(i=1,…,n).因子分析的目的是用少數(shù)幾個公共因子(設為m個)來描述p個相關變量間的協(xié)方差結(jié)構:

Σ=AA′+D(8.2.3)其中A=(aij)為p×m的因子載荷陣;

D=diag(σ21,…,σ2p)為p階對角陣.

因子分析的參數(shù)估計問題就是估計公共因子的個數(shù)m、因子載荷陣A及特殊因子的方差σ2i(i=1,…,p),使得滿足

Σ=AA′+D

或Σ≈AA′+D.第三十二頁,共一百一十一頁,2022年,8月28日32第八章§8.3參數(shù)估計方法

主成分法

由p個相關變量的觀測數(shù)據(jù)可得到協(xié)差陣Σ的估計(記為S).為了建立公因子模型,首先要估計因子載荷aij和特殊方差σi2

.常用的參數(shù)估計方法有以下三種:主成分法,主因子法和極大似然法.

設樣本協(xié)差陣S的特征值為λ1≥λ2≥…≥λp≥0,相應單位正交特征向量為l1,l2,…,lp.記V=diag(λ1,λ2,…,λp).根據(jù)線性代數(shù)的知識(對稱陣的譜分解式)有以下分解式:第三十三頁,共一百一十一頁,2022年,8月28日33第八章§8.3參數(shù)估計方法

主成分法

S=(l1…lp)V(l1…lp)′或S=λ1l1l1′+λ2l2l2′+…+λplplp′

當最后p-m個特征值較小時,則S可近似地分解為(A為p×m陣,B為p×p-m陣)第三十四頁,共一百一十一頁,2022年,8月28日34第八章§8.3參數(shù)估計方法

主成分法

其中A==(aij)為p×m陣σ2i=sii-(a2i1+a2i2+….+a2im)(i=1,2,…,p).(8.3.2)(8.3.2)式給出的A和D就是因子模型的一個解.

(D=diag(BB’))(8.3.1)第三十五頁,共一百一十一頁,2022年,8月28日35第八章§8.3參數(shù)估計方法

主成分法

載荷陣A中的第j列(即第j個公共因子Fj在X上的載荷)和第j個主成分的系數(shù)相差一個倍數(shù)(λj

)1/2(j=1,2,…,m).故(8.3.2)式給出的這個解常稱為因子模型的主成分解.第三十六頁,共一百一十一頁,2022年,8月28日36第八章§8.3參數(shù)估計方法

主成分法

若記E=S-(AA′+D)=(εij),可以證明(見習題8-4)

Q(m)=∑∑ε2ij

≤λ2m+1+…+λ2p(8.3.3)當m選擇適當,則近似式

S=(AA′+D)(8.3.1)的誤差平方和Q(m)很小.第三十七頁,共一百一十一頁,2022年,8月28日37第八章§8.3參數(shù)估計方法

主成分法

公共因子個數(shù)m的確定方法一般有兩種:一是根據(jù)實際問題的意義或?qū)I(yè)理論知識來確定;二是用確定主成分個數(shù)的原則.選m為滿足:

λ1+…+λm/

λ1+…+λm

+…+λp≥P0(比如P0=0.70或0.85等)的最小正整數(shù).

當相關變量的量綱不同或所取單位的數(shù)量級相差較大時,我們常常先對變量標準化.標準化變量的樣本協(xié)差陣就是原始變量的樣本相關陣R.用R代替S,類似可得主成分解.第三十八頁,共一百一十一頁,2022年,8月28日38第八章§8.3參數(shù)估計方法

主因子法

從R出發(fā),下面來介紹主成分法的一種修正.

設R=AA′+D,則R-D=AA′=R*稱為約相關陣.如果我們已知特殊方差的初始估計,也就是已知先驗公因子方差(即共同度)的估計為則約相關陣R*=R-D為第三十九頁,共一百一十一頁,2022年,8月28日39第八章§8.3參數(shù)估計方法

主因子法

計算R*的特征值和特征向量,取前m個正特征值λ1*

≥λ2*

≥…≥λm*

>0,相應特征向量為l1*,l2*,…lm*.則有近似分解式:

R*=AA′,其中令則A和為因子模型的一個解這個解就稱為主因子解.第四十頁,共一百一十一頁,2022年,8月28日40第八章§8.3參數(shù)估計方法

主因子法

在實際應用中特殊因子方差σi2

或公因子方差(也稱為共同度)hi2

是未知的.以上得到的解是近似解.為了得到近似程度更好的解,常常采用迭代主因子法,即利用上面得到的D*=

作為特殊方差的初始估計,重復上述步驟,直到解穩(wěn)定為止.因特殊因子方差,故求特殊因子方差的初始估計等價于求公因子方差(或稱共同度)hi2的初始估計.第四十一頁,共一百一十一頁,2022年,8月28日41第八章§8.3參數(shù)估計方法

主因子法

公因子方差(或稱變量的共同度)幾種常用的初始估計方法:①hi2取為第i個變量與其他所有變量的多重相關系數(shù)的平方(或者取σi2

=1/rii,其中rii是R-1的對角元素,則hi2=1-σi2.PRIORS=ASMC|A).②hi2

取為第i個變量與其他變量相關系數(shù)絕對值的最大值(PRIORS=MAX|M);③取hi2=1,它等價于主成分解(PRIORS=ONE|O).第四十二頁,共一百一十一頁,2022年,8月28日42第八章§8.3參數(shù)估計方法

極大似然法

假定公因子F和特殊因子ε服從正態(tài)分布,那么我們可得到因子載荷陣和特殊方差的極大似然估計.設p維觀測向量X(1),…,X(n)為來自正態(tài)總體Np(μ,Σ

)的隨機樣本,則樣本似然函數(shù)為μ,Σ的函數(shù)L(μ,Σ).

設Σ=AA′+D,取μ=X,則似然函數(shù)L(X,AA′+D)為A,D的函數(shù):φ(A,D),求A,D使φ達最大.為保證得到唯一解,可附加計算上方便的唯一性條件:A′D-1A=對角陣,用迭代方法可求得極大似然估計A和D.第四十三頁,共一百一十一頁,2022年,8月28日43第八章§8.3參數(shù)估計方法

應用例子

對全國30個省市自治區(qū)經(jīng)濟發(fā)展基本情況的八項指標作因子分析.考慮的八項指標為:X1--GDPX2--居民消費水平

X3--固定資產(chǎn)投資X4---職工平均工資

X5--貨物周轉(zhuǎn)量X6--居民消費價格指數(shù)

X7--商品零售價格指數(shù)X8--工業(yè)總產(chǎn)值

(數(shù)據(jù)來源1996年“中國統(tǒng)計年鑒”)第四十四頁,共一百一十一頁,2022年,8月28日44第八章§8.3參數(shù)估計方法

應用例子

甘肅553.351007114.815493507.0119.8116.5468.79青海165.31144547.76575361.6118.0116.3105.80北京1394.892505519.018144373.9117.3112.6843.43天津920.112720345.466501342.8115.2110.6582.51河北2849.521258704.8748392033.3115.2115.81234.85山西1092.481250290.904721717.3116.9115.6697.25內(nèi)蒙832.881387250.234134781.7117.5116.8419.39遼寧2793.372397387.9949111371.1116.1114.01840.55吉林1129.201872320.454430497.4115.2114.2762.47黑龍江2014.532334435.734145824.8116.1114.31240.37上海2462.575343996.489279207.4118.7113.01642.95江蘇5155.2519261434.9559431025.5115.8114.32026.64浙江3524.7922491006.396619754.4116.6113.5916.59安徽2003.581254474.004609908.3114.8112.7824.14福建2160.522320553.975857609.3115.2114.4433.67

X1X2X3X4X5X6X7X8第四十五頁,共一百一十一頁,2022年,8月28日45第八章§8.3參數(shù)估計方法

應用例子

江西1205.111182282.844211411.7116.9115.9571.84山東5002.3415271229.5551451196.6117.6114.22207.69河南3002.741034670.3543441574.4116.5114.91367.92湖北2391.421527571.684685849.0120.0116.61220.72湖南2195.701408422.6147971011.8119.0115.5843.83廣東5381.7226991639.838250656.5114.0111.61396.35廣西1606.151314382.595105556.0118.4116.4554.97海南364.171814198.355340232.1113.5111.364.33四川3534.001261822.544645902.3118.5117.01431.81貴州630.07942150.844475301.4121.4117.2324.72云南1206.681261334.005149310.4121.3118.1716.65西藏55.98111017.8773824.2117.3114.95.57陜西1000.031208300.274396500.9119.0117.0600.98寧夏169.75135561.985079121.8117.1115.3114.40新疆834.571469376.955348339.0119.7116.7428.76解

此例中,n=30,p=8.在以上三種估計方法中,主成分解應用較廣泛.具體計算步驟如下:第四十六頁,共一百一十一頁,2022年,8月28日46第八章§8.3參數(shù)估計方法

應用例子(1)由原始數(shù)據(jù)X計算樣本均值及樣本相關陣.(2)求樣本相關陣R的特征值和標準化特征向量.

記λ1≥λ2≥…≥λp≥0為R的特征根,相應單位正交特征向量為l1,l2,…,lp.

(3)求因子模型的因子載荷陣.①確定公因子的個數(shù)m.如m為滿足λ1+…+λm/λ1+…+λm

+…+λp≥0.80的最小正整數(shù)②由前m個單位正交特征向量l1,…,lm,令

ai=(λi)1/2

li(i=1,2,…,m),則A=(a1,…,am)為因子載荷陣.

第四十七頁,共一百一十一頁,2022年,8月28日47第八章§8.3參數(shù)估計方法

應用例子

Xi的共同度hi2的估計為

(5)

對m個公因子(或稱潛因子,主因子)作解釋.求出因子載荷陣A后,即得可觀測變量X1,…,Xp可以由m個不可觀測的公因子及各自的特殊因子表示,但這m個公因子的實際意義表示什么?則要結(jié)合專業(yè)知識給出解釋.

(4)求特殊因子方差:令第四十八頁,共一百一十一頁,2022年,8月28日48第八章§8.3參數(shù)估計方法

應用例子

以下SAS程序首先用DATA步生成SAS數(shù)據(jù)集D832,然后調(diào)用SAS/STAT軟件中的FACTOR過程進行因子分析.

在PROCFACTOR語句中,選項METHOD=PRIN和PRIORS=ONE表示用主成分法估計因子載荷陣A和D.因主成分法是常用的參數(shù)估計法,這兩個選項的值為系統(tǒng)的預置值,可以省略不寫.

選項P=0.80(或P=80)表示選取公因子個數(shù)m,使m為滿足λ1+…+λm

/

p≥0.80的最小正整數(shù).第四十九頁,共一百一十一頁,2022年,8月28日49第八章§8.3參數(shù)估計方法

應用例子

選項SIMPLE要求打印輸出原相關變量的樣本均值和標準差.VAR語句列出進行因子分析的相關變量X1至X8datad832;inputgroup$x1-x8;cards;北京1394.892505519.018144373.9117.3112.6843.43天津920.112720345.466501342.8115.2110.6582.51..................................

;procfactordata=d832method=prinpriors=onep=0.80simple;varx1-x8;run;第五十頁,共一百一十一頁,2022年,8月28日50第八章§8.3參數(shù)估計方法

應用例子的輸出結(jié)果

八項經(jīng)濟發(fā)展指標的均值和標準差(相關陣R這里省略了)第五十一頁,共一百一十一頁,2022年,8月28日51第八章§8.3參數(shù)估計方法

應用例子的輸出結(jié)果

相關陣R的特征值、相鄰特征值之差、貢獻率和累計貢獻率第五十二頁,共一百一十一頁,2022年,8月28日52第八章§8.3參數(shù)估計方法

應用例子的輸出結(jié)果

因子載荷陣A(m=3)=A第五十三頁,共一百一十一頁,2022年,8月28日53第八章§8.3參數(shù)估計方法

應用例子的輸出結(jié)果

每個公因子解釋的方差及最終選取的三個公因子所估計的總方差和m=3時各變量的共同度A陣中各列的平方和q2k

(k=1,2,3)或相關陣R的特征值λk(k=1,2,3)A陣中各行的平方和h2j(共同度)

(j=1,2,…,8)第五十四頁,共一百一十一頁,2022年,8月28日54第八章§8.4方差最大的正交旋轉(zhuǎn)

因子分析的目的不僅是求出公共因子,更主要的是知道每個公共因子的實際意義,以便對實際問題作出科學的分析.

但由§8.3介紹的估計方法所求出的公因子解,初始因子載荷陣并不滿足“簡單結(jié)構準則”,即各個公共因子的典型代表變量不很突出,因而容易使公共因子的意義含糊不清,不利于對因子進行解釋.

為此必須對因子載荷陣施行旋轉(zhuǎn)變換,使得各因子載荷的平方按列向0和1兩極轉(zhuǎn)化,達到其結(jié)構簡化的目的.這種變換因子載荷陣的方法稱為因子旋轉(zhuǎn),而旋轉(zhuǎn)變換的方法主要有正交旋轉(zhuǎn),斜交旋轉(zhuǎn)等.第五十五頁,共一百一十一頁,2022年,8月28日55第八章§8.4方差最大的正交旋轉(zhuǎn)

理論依據(jù)

且(8.4.1)(8.4.2)第五十六頁,共一百一十一頁,2022年,8月28日56第八章§8.4方差最大的正交旋轉(zhuǎn)

理論依據(jù)

(8.4.1)和(8.4.2)式說明,若F是因子模型的公因子向量,則對任一正交陣Γ,?!銯=Z

也是公因子向量.相應的AΓ是公因子Z的因子載荷陣.

利用這一性質(zhì),在因子分析的實際計算中,當求得初始因子載荷陣A以后,就反復右乘正交陣Γ,使AΓ具有更明顯的實際意義.

這種變換載荷矩陣的方法,稱為因子軸的正交旋轉(zhuǎn).

第五十七頁,共一百一十一頁,2022年,8月28日57第八章§8.4方差最大的正交旋轉(zhuǎn)

因子載荷的方差

h2i如果A的每一列(即因子載荷向量)數(shù)值越分散,相應的因子載荷向量的方差越大.第五十八頁,共一百一十一頁,2022年,8月28日58第八章§8.4方差最大的正交旋轉(zhuǎn)

因子載荷的方差

下面來引入度量因子載荷陣分散程度的統(tǒng)計量--因子載荷的方差.

首先“標準化”:A=a11…a1m…………..ap1…apma211…a21m…………..a2p1…a2pm消除符號的影響a211/h12…a21m/h12…………..a2p1/hp2…a2pm/hp2消除各變量對公因子依賴程度(即共同度)不同的影響=d112…d1m2…………..dp12…dpm2第五十九頁,共一百一十一頁,2022年,8月28日59第八章§8.4方差最大的正交旋轉(zhuǎn)因子載荷的方差

為消除aij符號不同的影響及各變量對公因子依賴程度不同的影響,令第六十頁,共一百一十一頁,2022年,8月28日60第八章§8.4方差最大的正交旋轉(zhuǎn)因子載荷的方差

第六十一頁,共一百一十一頁,2022年,8月28日61第八章§8.4方差最大的正交旋轉(zhuǎn)

因子載荷的方差

則因子載荷陣A的方差為:

若Vj值越大,A的第j個因子載荷向量數(shù)值越分散,如果載荷值或是趨于1或是趨于0,這時相應的公因子Fj具有簡化結(jié)構.我們希望因子載荷陣A的方差盡可能大.第六十二頁,共一百一十一頁,2022年,8月28日62第八章§8.4方差最大的正交旋轉(zhuǎn)

方差最大的正交旋轉(zhuǎn)

設m=2,因子載荷陣A為:則B=AΓ是Z=Γ′F的因子載荷陣.這相當于將由F1,F(xiàn)2確定的因子平面旋轉(zhuǎn)一個角度.利用微積分的方法可以確定選擇適當?shù)慕嵌?,使載荷陣的總方差達最大.第六十三頁,共一百一十一頁,2022年,8月28日63第八章§8.4方差最大的正交旋轉(zhuǎn)

方差最大的正交旋轉(zhuǎn)

當m>2時,可以逐次對每兩個因子Fk,Fj(k≠j)進行以上旋轉(zhuǎn).選擇正交旋轉(zhuǎn)的角度kj使這兩個因子的方差之和達最大.

m個因子的全部配對旋轉(zhuǎn),共需旋轉(zhuǎn)Cm2次,全部旋轉(zhuǎn)完畢算一次循環(huán)(或一輪),經(jīng)第一輪旋轉(zhuǎn)后計算旋轉(zhuǎn)后的因子載荷方差V(1)

,此時不能認為V(1)就是最大方差,還需從旋轉(zhuǎn)后的載荷陣出發(fā),再進行第二輪旋轉(zhuǎn),…,等等.第六十四頁,共一百一十一頁,2022年,8月28日64第八章§8.4方差最大的正交旋轉(zhuǎn)

應用例子8.4.2的繼續(xù))

在例中,考慮對因子載荷陣作方差最大的正交旋轉(zhuǎn),并由旋轉(zhuǎn)后的因子載荷陣解釋公因子的含義.

解在以下SAS程序中,PROCFACTOR語句的選項ROTATE=VARIMAX(或R=V)表示對因子載荷陣進行方差最大正交旋轉(zhuǎn),選項N=3指定公因子個數(shù)m=3.procfactordata=d832rotate=varimaxn=3;varx1-x8;run;第六十五頁,共一百一十一頁,2022年,8月28日65第八章§8.4方差最大的正交旋轉(zhuǎn)

應用例子的繼續(xù))的輸出結(jié)果

正交變換陣方差最大正交旋轉(zhuǎn)后的因子載荷陣A第六十六頁,共一百一十一頁,2022年,8月28日66第八章§8.4方差最大的正交旋轉(zhuǎn)

應用例子8.4.2的繼續(xù))的輸出結(jié)果

變量X1的共同度h12=0.944830=(0.95501)2+(0.12507)2+(-0.13094)2每個公因子解釋的方差,與旋轉(zhuǎn)前稍有些差異.三個公因子估計的總方差7.166754=3.206521+2.217780+1,742453第六十七頁,共一百一十一頁,2022年,8月28日67第八章§8.4方差最大的正交旋轉(zhuǎn)

應用例子的繼續(xù))的結(jié)果分析

從方差最大正交旋轉(zhuǎn)后的因子載荷陣A中可見,每個因子只有少數(shù)幾個指標的因子載荷較大,因此可以由因子載荷陣A對指標進行分類。八項指標按高載荷可以分三類:第一個因子在指標X1,X3,X8上有較大的載荷,這些是從GDP,固定資產(chǎn)投資,工業(yè)總產(chǎn)值這三個方面反映經(jīng)濟發(fā)展狀況的,因此命名為總量因子;

第六十八頁,共一百一十一頁,2022年,8月28日68第八章§8.4方差最大的正交旋轉(zhuǎn)

應用例子的繼續(xù))的結(jié)果分析

第二個因子在指標X2,X4,X5上有較大的載荷,這些是從居民消費水平,職工平均工資和貨物周轉(zhuǎn)量這三個方面反映經(jīng)濟發(fā)展狀況的,因此命名為消費因子;

第三個因子在指標X6和X7上有較大的載荷,這些是從居民消費價格指數(shù)和商品零售價格指數(shù)這二個方面反映經(jīng)濟發(fā)展狀況的,因此命名為價格因子;

第六十九頁,共一百一十一頁,2022年,8月28日69第八章§8.5因子得分

我們已經(jīng)討論了如何從樣本協(xié)差陣或相關陣R出發(fā),來獲得公共因子和因子載荷陣,并給出公共因子的實際背景,當我們一旦獲得公共因子和因子載荷陣以后,我們應當反過來考察每一個樣品的公共因子的估計,即所謂的因子得分,因子得分可用于模型的診斷,也可作進一步分析的原始數(shù)據(jù).

但請注意,因子得分的計算并不是通常意義下的參數(shù)估計,而是對不可觀測的隨機向量F(公共因子)取值的估計.第七十頁,共一百一十一頁,2022年,8月28日70第八章§8.5因子得分

最小二乘法

設X具有因子模型(不妨設μ=0)

X=AF+ε

假定因子載荷陣A已知,由A和X來估計F,使得達最小值

-2A’X+2A’AF=0可得F的估計為:=X’X-2X’AF+F’A’AF第七十一頁,共一百一十一頁,2022年,8月28日71第八章§8.5因子得分

最小二乘法

就是因子得分的最小二乘估計.

對樣品X(i),因子得分值為如果我們用主成分法估計因子載荷陣A,那么在計算因子得分的估計時,通常用最小二乘法.此時A’A=diag(λ1,λ2,…,λm)第七十二頁,共一百一十一頁,2022年,8月28日72第八章§8.5因子得分

最小二乘法

公因子得分向量為:第七十三頁,共一百一十一頁,2022年,8月28日73第八章§8.5因子得分

最小二乘法

對樣品X(i),代入公因子向量F,相應的因子得分為因子得分陣F為:其中zij就是主成分得分^第七十四頁,共一百一十一頁,2022年,8月28日74第八章§8.5因子得分

最小二乘法

對照第七章介紹的樣本主成分,可以看到,第i個樣品的因子得分F(i)和樣本主成分得分Z(i)的對應分量僅相差一個常數(shù):^第七十五頁,共一百一十一頁,2022年,8月28日75第八章§8.5因子得分

加權最小二乘法

設X具有正交因子模型(不妨設μ=0)

X=AF+ε

假定因子載荷陣A和特殊方差已知,而把特殊因子ε

看作誤差.因Var(εi)=σi2(

i=1,...,p)一般不相等.于是我們用加權最小二乘法估計公共因子F的值.

用誤差方差的倒數(shù)作為權數(shù)的誤差平方和第七十六頁,共一百一十一頁,2022年,8月28日76第八章§8.5因子得分

加權最小二乘法

(8.5.1)式中,A,D已知,X為可觀測的值也是已知的,求F的估計值.)令(由附錄矩陣微商的(8.2)和(8.3)式)第七十七頁,共一百一十一頁,2022年,8月28日77第八章§8.5因子得分

加權最小二乘法

這就是因子得分的加權最小二乘估計.)可得到F的估計值:第七十八頁,共一百一十一頁,2022年,8月28日78第八章§8.5因子得分

加權最小二乘法與最大似然估計

若假定X~Np(AF,D),X的似然函數(shù)的對數(shù)為

L(F)=-0.5(X-AF)′D-1(X-AF)-0.5Ln|2D|由此可得F的極大似然估計仍為(8.5.2)式,這個估計也稱為巴特萊特因子得分.

實際問題中,A,D未知,自然的作法是將它們的某種估計代入(8.5.2),對樣品X(i),因子得分值為第七十九頁,共一百一十一頁,2022年,8月28日79第八章§8.5因子得分

回歸法

在因子模型中,我們也可以反過來將公共因子表示為變量的線性組合,即用

Fj=βj1X1+…+βjpXp(j=1,…,m)(8.5.3)來計算每個樣品的公因子得分.(8.5.3)式稱為因子得分函數(shù).以下用回歸法給出(8.5.3)式中組合系數(shù)βij的估計bij.

假設變量X為標準化變量,公因子F也已標準化.在最小二乘意義下對因子得分函數(shù)進行估計,并記建立的公因子F對變量X的回歸方程為(8.5.4)第八十頁,共一百一十一頁,2022年,8月28日80第八章§8.5因子得分

回歸法

下面來估計(8.5.4)中的回歸系數(shù)bj1,bj2,…,bjp.

這是多對多的回歸問題.但Fj的值是不可觀測的,為求bij我們利用由樣本得到的因子載荷陣A=(aij).對公共因子Fj,由因子載荷的意義:即

(8.5.5)第八十一頁,共一百一十一頁,2022年,8月28日81第八章§8.5因子得分

回歸法

其中記第八十二頁,共一百一十一頁,2022年,8月28日82第八章§8.5因子得分

回歸法

則有于是利用回歸方法所建立的公因子F對變量X的回歸方程為第八十三頁,共一百一十一頁,2022年,8月28日83第八章§8.5因子得分

回歸法

由于(8.5.3)式中方程的個數(shù)m小于變量個數(shù)p,因此只能在最小二乘意義下對因子得分進行估計.

以上利用回歸分析方法所建立的公因子F對變量X的回歸方程為

F=A′R-1X(8.5.6)(8.5.6)式中R為樣本相關陣.

由樣本值計算相關陣R,并估計因子載荷A,代入(8.5.6)式,即得因子得分函數(shù)F的計算公式.

此方法是由湯姆森(Thompson)提出來的,所得因子得分在文獻上常稱為湯姆森因子得分.^第八十四頁,共一百一十一頁,2022年,8月28日84第八章§8.5因子得分

回歸法與Bayes統(tǒng)計思想

此估計也可以從Bayes統(tǒng)計的思想來求得.在因子模型X=AF+ε中,假設F和ε服從正態(tài)分布.若F有一先驗分布為Nm(0,Im),當給定F時,X的條件分布為Np(AF,D).下面用Bayes統(tǒng)計的典型手法可求得當X給定時F的條件分布(即后驗分布)仍為正態(tài)分布。已知第八十五頁,共一百一十一頁,2022年,8月28日85第八章§8.5因子得分

回歸法與Bayes統(tǒng)計思想

當X給定時F的條件分布仍為正態(tài)分布。且條件期望為E(F|X)=A'(AA'+D)-1X稱條件期望E(F|X)=A'(AA'+D)-1X為F對X的回歸。

當X=X(j)(j=1,…,n)得因子得分

Fj=A'(AA'+D)-1X(j)因子得分函數(shù)有表達式:^第八十六頁,共一百一十一頁,2022年,8月28日86第八章§8.5因子得分

回歸法與Bayes統(tǒng)計思想

用樣本值可以計算樣本協(xié)差陣作為Σ的估計,因子載荷陣的估計仍記為A.于是因子得分的計算公式為當變量X為標準化變量時,樣本協(xié)差陣S就是樣本相關陣R.故有F=A′R-1X^第八十七頁,共一百一十一頁,2022年,8月28日87第八章§8.5因子得分

兩種估計法的比較

以上兩種估計法得到的因子得分在A、D滿足約束條件:A′D-1A=對角形,且對角元素很小時,兩種估計方法得出的因子得分幾乎相等。若從無偏性考慮,第一種估計是無偏的,而湯姆森因子得分(回歸估計)是有偏的。若從平均預報誤差考慮,第二種估計(湯姆森因子得分)有較小的平均預報誤差。這兩種估計到底哪一種好,長期以來一直有爭論,至今尚未有定論。第八十八頁,共一百一十一頁,2022年,8月28日88第八章§8.5因子得分

應用例子的繼續(xù))

在例中,用回歸法求因子得分函數(shù),計算30個樣品的因子得分,并繪制第一和第二因子得分的散布圖。

在以下SAS程序中,PROCFACTOR語句的選項SCORE要求打印因子得分系數(shù)。選項OUT=O852要求把因子得分值存放到輸出SAS數(shù)據(jù)集O852中。PRINT過程打印輸出集O852中的三個因子得分向量。PLOT過程繪制第二因子得分對第一因子得分的散布圖。第八十九頁,共一百一十一頁,2022年,8月28日89第八章§8.5因子得分

應用例子8.5.2的繼續(xù))

procfactordata=d832rotate=vscoren=3out=o852;varx1-x8;run;procprintdata=o852;varfactor1factor2factor3;run;procplotdata=o852;plotfactor2*factor1$n=′*′/href=0vref=0;run;第九十頁,共一百一十一頁,2022年,8月28日90第八章§8.5因子得分

應用例子的繼續(xù))的輸出結(jié)果

用回歸法得到的因子得分系數(shù)把30個樣品的觀測值代入以上因子得分函數(shù),即得樣品的因子得分(見下面).由因子得分系數(shù)可以寫出三個因子得分函數(shù)第九十一頁,共一百一十一頁,2022年,8月28日91第八章§8.5因子得分

應用例子的繼續(xù))的輸出結(jié)果

30個樣品的因子得分(m=3)第九十二頁,共一百一十一頁,2022年,8月28日92第八章§8.5因子得分

應用例子的繼續(xù))的輸出結(jié)果30個樣品第一,二因子的因子得分的散點圖第九十三頁,共一百一十一頁,2022年,8月28日93第八章§8.6Q型因子分析

根據(jù)研究對象的不同,因子分析可分為R型和Q型兩種.當研究對象是變量時,屬于R型因子分析,前幾節(jié)討論的都是以變量作為研究對象,在樣品的基礎上研究變量之間的相關關系.而變量之間的相互關系表現(xiàn)在原始數(shù)據(jù)矩陣的列之間,由相關陣或協(xié)差陣出發(fā),研究變量的相關關系.

當研究對象是樣品時,屬于Q型因子分析,它是在變量的基礎上研究樣品之間的相互關系.而樣品之間的相互關系則表現(xiàn)在原始數(shù)據(jù)矩陣的行之間.因此進行Q型因子分析時只需把在R型因子分析中的變量和樣品的作用調(diào)換過來,其余處理方法是一致的.第九十四頁,共一百一十一頁,2022年,8月28日94第八章§8.6Q型因子分析

在進行R型因子分析時,變量間的相互關系我們常用相關系數(shù)來描述.

在進行Q型因子分析時,應當選擇樣品間合適的相似性度量.一般用相似系數(shù)(即夾角余弦)作為樣品間相似性的度量.

設X(i)=(xi1,…,xip)’X(j)=(xj1,…,xjp)’是兩個樣品向量,它們夾角的余弦為:第九十五頁,共一百一十一頁,2022年,8月28日95第八章§8.6Q型因子分析

兩樣品向量的夾角余弦反映了這兩個樣品中各變量的觀測值之間的比例關系.稱為相似系數(shù),相似系數(shù)矩陣Q=(qij)為n×n階方陣,其中qij=Cos<X(i),

X(j)>,進行Q型因子分析時,計算Q的特征值,特征向量,一般n較大,(n>>p).直接計算Q的特征值,特征向量比較困難(如超出計算機內(nèi)存,或花費太多的機時等).解決的方法是利用線性代數(shù)的結(jié)論:Z’Z和ZZ’有相同的非零特征值,對應的特征向量也有一定的關系.由此得出一種雙重型的因子分析方法--對應分析方法.第九十六頁,共一百一十一頁,2022年,8月28日96第八章§8.6Q型因子分析

應用例子

對全國30個省市自治區(qū)經(jīng)濟發(fā)展基本情況的八

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論