主成分分析與因子分析_第1頁(yè)
主成分分析與因子分析_第2頁(yè)
主成分分析與因子分析_第3頁(yè)
主成分分析與因子分析_第4頁(yè)
主成分分析與因子分析_第5頁(yè)
已閱讀5頁(yè),還剩20頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第章主成分分析與因子分析第一頁(yè),共25頁(yè)。第10章主成分分析與因子分析 實(shí)際工作中,為了全面系統(tǒng)地反映問題,往往收集的變量實(shí)際工作中,為了全面系統(tǒng)地反映問題,往往收集的變量較多,但這樣就會(huì)經(jīng)常出現(xiàn)所收集的變量間存在較強(qiáng)相關(guān)較多,但這樣就會(huì)經(jīng)常出現(xiàn)所收集的變量間存在較強(qiáng)相關(guān)關(guān)系的情況。這些變量間存在著較多的信息重復(fù),直接用關(guān)系的情況。這些變量間存在著較多的信息重復(fù),直接用它們分析現(xiàn)實(shí)問題,不但模型復(fù)雜,還會(huì)因?yàn)樽兞块g存在它們分析現(xiàn)實(shí)問題,不但模型復(fù)雜,還會(huì)因?yàn)樽兞块g存在的多重共線性而引起極大的誤差。的多重共線性而引起極大的誤差。 為了能夠充分而有效的利用數(shù)據(jù),通常希望用較少的新指為了能夠充分而有

2、效的利用數(shù)據(jù),通常希望用較少的新指標(biāo)代替原來(lái)較多的舊變量,同時(shí)要求這些新指標(biāo)盡可能地標(biāo)代替原來(lái)較多的舊變量,同時(shí)要求這些新指標(biāo)盡可能地反映原變量的信息。主成分分析和因子分析正是解決此問反映原變量的信息。主成分分析和因子分析正是解決此問題最有效的多元統(tǒng)計(jì)方法,它們能夠提取信息,使變量簡(jiǎn)題最有效的多元統(tǒng)計(jì)方法,它們能夠提取信息,使變量簡(jiǎn)化降維,從而使問題更加簡(jiǎn)單直觀,在經(jīng)濟(jì)、社會(huì)等領(lǐng)域化降維,從而使問題更加簡(jiǎn)單直觀,在經(jīng)濟(jì)、社會(huì)等領(lǐng)域得到廣泛應(yīng)用。得到廣泛應(yīng)用。第二頁(yè),共25頁(yè)。10.1 主成分分析的概念 主成分分析是考察多個(gè)變量間相關(guān)性的一種多元統(tǒng)計(jì)方法主成分分析是考察多個(gè)變量間相關(guān)性的一種多元

3、統(tǒng)計(jì)方法。它是研究如何通過少數(shù)幾個(gè)主分量來(lái)解釋多個(gè)變量間的。它是研究如何通過少數(shù)幾個(gè)主分量來(lái)解釋多個(gè)變量間的內(nèi)部結(jié)構(gòu)。內(nèi)部結(jié)構(gòu)。 也就是說,從原始變量中導(dǎo)出少數(shù)幾個(gè)主分量,使它們盡也就是說,從原始變量中導(dǎo)出少數(shù)幾個(gè)主分量,使它們盡可能多地保留原始變量的信息,且彼此間互不相關(guān)。可能多地保留原始變量的信息,且彼此間互不相關(guān)。 主成分分析的應(yīng)用目的可以被簡(jiǎn)單歸結(jié)為兩句話:數(shù)據(jù)的主成分分析的應(yīng)用目的可以被簡(jiǎn)單歸結(jié)為兩句話:數(shù)據(jù)的壓縮、數(shù)據(jù)的解釋。它常被用來(lái)尋找判斷某種事物或現(xiàn)象壓縮、數(shù)據(jù)的解釋。它常被用來(lái)尋找判斷某種事物或現(xiàn)象的綜合指標(biāo),并且給綜合指標(biāo)所包含的信息以適當(dāng)?shù)慕忉尩木C合指標(biāo),并且給綜合指標(biāo)

4、所包含的信息以適當(dāng)?shù)慕忉?,從而更加深刻的揭示事物的?nèi)在規(guī)律。,從而更加深刻的揭示事物的內(nèi)在規(guī)律。第三頁(yè),共25頁(yè)。10.2 主成分分析的數(shù)學(xué)模型通常數(shù)學(xué)上的處理是將原來(lái)的個(gè)指標(biāo)作線性組合,作為通常數(shù)學(xué)上的處理是將原來(lái)的個(gè)指標(biāo)作線性組合,作為新的綜合指標(biāo)。新的綜合指標(biāo)。如果將選取的第一個(gè)線性組合即第一個(gè)綜合指標(biāo)記為,一如果將選取的第一個(gè)線性組合即第一個(gè)綜合指標(biāo)記為,一般自然希望中盡可能多地反映原來(lái)指標(biāo)的信息,這里的般自然希望中盡可能多地反映原來(lái)指標(biāo)的信息,這里的“信息信息”用什么表示呢?用什么表示呢?最經(jīng)典的方法就是用的方差來(lái)表達(dá),即越大,則表示包含的信息最經(jīng)典的方法就是用的方差來(lái)表達(dá),即越大,

5、則表示包含的信息越多。越多。因此在所有的線性組合中所選取的第因此在所有的線性組合中所選取的第1 1主成分應(yīng)該是方差最主成分應(yīng)該是方差最大的。大的。如果第如果第1 1主成分不足以完全代表原來(lái)個(gè)指標(biāo)的信息,再考慮選第主成分不足以完全代表原來(lái)個(gè)指標(biāo)的信息,再考慮選第2 2個(gè)線性組合,即第個(gè)線性組合,即第2 2主成分,主成分,第四頁(yè),共25頁(yè)。 依次類推可以造出第依次類推可以造出第3 3,第,第4 4, ,第個(gè)主成分。這些主,第個(gè)主成分。這些主成分間互不相關(guān),且方差遞減。成分間互不相關(guān),且方差遞減。 在實(shí)際應(yīng)用中,通常只選前面幾個(gè)最大的主成分,在實(shí)際應(yīng)用中,通常只選前面幾個(gè)最大的主成分,雖然這樣損失了

6、部分信息,但抓住了主要矛盾,并雖然這樣損失了部分信息,但抓住了主要矛盾,并從原始變量中進(jìn)一步提取了某些信息,從而既減少?gòu)脑甲兞恐羞M(jìn)一步提取了某些信息,從而既減少了變量的數(shù)目又抓住了主要矛盾,有利于問題的分了變量的數(shù)目又抓住了主要矛盾,有利于問題的分析和處理。析和處理。第五頁(yè),共25頁(yè)。10.2.1 主成分模型中各統(tǒng)計(jì)量的意義()特征根:它可以被看成是主成分影響力度的指標(biāo),代表引入該主成分后可以解釋平均多少原始變量的信息。如果特征根小于,說明該主成分的解釋力度還不如直接引入一個(gè)原變量的平均解釋力度大。因此一般可以用特征根大于作為納入標(biāo)準(zhǔn)。()主成分的方差貢獻(xiàn)率:其計(jì)算公式為表明主成分的方差在全

7、部方差中的比重。這個(gè)值越大,表明主成分綜合信息的能力越強(qiáng)。第六頁(yè),共25頁(yè)。()累計(jì)貢獻(xiàn)率()累計(jì)貢獻(xiàn)率:前個(gè)主成分的累計(jì)貢獻(xiàn)率定義為,表:前個(gè)主成分的累計(jì)貢獻(xiàn)率定義為,表示前面?zhèn)€主成分累計(jì)提取了多少的信息。一般來(lái)說,如示前面?zhèn)€主成分累計(jì)提取了多少的信息。一般來(lái)說,如果前個(gè)主成分的貢獻(xiàn)率達(dá)到果前個(gè)主成分的貢獻(xiàn)率達(dá)到85,表明前個(gè)主成分基本,表明前個(gè)主成分基本包含了全部測(cè)量指標(biāo)所具有的信息,這樣既減少了變包含了全部測(cè)量指標(biāo)所具有的信息,這樣既減少了變量的個(gè)數(shù)又便于對(duì)實(shí)際問題的分析和研究。量的個(gè)數(shù)又便于對(duì)實(shí)際問題的分析和研究。第七頁(yè),共25頁(yè)。10.2.2 主成分分析的步驟主成分分析的步驟 主成分

8、分析常常通過以下步解決:主成分分析常常通過以下步解決:()對(duì)原來(lái)的個(gè)指標(biāo)進(jìn)行標(biāo)準(zhǔn)化,以消除變量在數(shù)量極()對(duì)原來(lái)的個(gè)指標(biāo)進(jìn)行標(biāo)準(zhǔn)化,以消除變量在數(shù)量極或量綱上的影響?;蛄烤V上的影響。()根據(jù)標(biāo)準(zhǔn)化后的數(shù)據(jù)矩陣求出協(xié)方差或相關(guān)陣()根據(jù)標(biāo)準(zhǔn)化后的數(shù)據(jù)矩陣求出協(xié)方差或相關(guān)陣。()求出協(xié)方差矩陣的特征根和特征向量。()求出協(xié)方差矩陣的特征根和特征向量。()確定主成分,結(jié)合專業(yè)知識(shí)給各主成分所蘊(yùn)含的信()確定主成分,結(jié)合專業(yè)知識(shí)給各主成分所蘊(yùn)含的信息給予適當(dāng)?shù)慕忉尅O⒔o予適當(dāng)?shù)慕忉?。第八?yè),共25頁(yè)。 SPSS中沒有把主成分分析作為一種獨(dú)立的分析方法,而中沒有把主成分分析作為一種獨(dú)立的分析方法,而是和

9、因子分析共用一個(gè)過程,因此在是和因子分析共用一個(gè)過程,因此在SPSS中進(jìn)行主成分中進(jìn)行主成分分析時(shí)會(huì)輸出許多因子分析中的結(jié)果,但是這并不影分析時(shí)會(huì)輸出許多因子分析中的結(jié)果,但是這并不影響分析結(jié)果的準(zhǔn)確性,而且相應(yīng)的輸出都可以根據(jù)因響分析結(jié)果的準(zhǔn)確性,而且相應(yīng)的輸出都可以根據(jù)因子分析模型和主成分分析模型之間的關(guān)系進(jìn)行轉(zhuǎn)換。子分析模型和主成分分析模型之間的關(guān)系進(jìn)行轉(zhuǎn)換。第九頁(yè),共25頁(yè)。10.2.3 主成分分析的用途主成分分析的用途如前所述,主成分分析往往會(huì)在大型研究中成為一個(gè)中間如前所述,主成分分析往往會(huì)在大型研究中成為一個(gè)中間環(huán)節(jié),用于解決數(shù)據(jù)信息濃縮等問題,這就可能產(chǎn)生各種環(huán)節(jié),用于解決數(shù)據(jù)

10、信息濃縮等問題,這就可能產(chǎn)生各種各樣的組合方法。這里僅舉最為典型的兩種應(yīng)用情況。各樣的組合方法。這里僅舉最為典型的兩種應(yīng)用情況。()主成分評(píng)價(jià)()主成分評(píng)價(jià) 在進(jìn)行多指標(biāo)綜合評(píng)價(jià)時(shí),由于要求評(píng)價(jià)結(jié)果客觀、全面在進(jìn)行多指標(biāo)綜合評(píng)價(jià)時(shí),由于要求評(píng)價(jià)結(jié)果客觀、全面,就需要從各個(gè)方面用多個(gè)指標(biāo)進(jìn)行測(cè)量,但這樣就使得,就需要從各個(gè)方面用多個(gè)指標(biāo)進(jìn)行測(cè)量,但這樣就使得觀測(cè)指標(biāo)間存在信息重疊,同時(shí)還會(huì)存在量綱、累加時(shí)如觀測(cè)指標(biāo)間存在信息重疊,同時(shí)還會(huì)存在量綱、累加時(shí)如何確定權(quán)重系數(shù)等問題。為此就可以使用主成分分析方法何確定權(quán)重系數(shù)等問題。為此就可以使用主成分分析方法進(jìn)行信息的濃縮,并解決權(quán)重的確定等問題。本

11、章最后的進(jìn)行信息的濃縮,并解決權(quán)重的確定等問題。本章最后的綜合分析實(shí)例即為此類問題。綜合分析實(shí)例即為此類問題。第十頁(yè),共25頁(yè)。()主成分回歸()主成分回歸 在線性回歸模型中,常用最小二乘法求回歸系數(shù)的估計(jì)。在線性回歸模型中,常用最小二乘法求回歸系數(shù)的估計(jì)。 但是當(dāng)存在多重共線性時(shí),最小二乘法的估計(jì)結(jié)果并不很但是當(dāng)存在多重共線性時(shí),最小二乘法的估計(jì)結(jié)果并不很理想,因?yàn)榇藭r(shí)它的均方誤差大,使估計(jì)不穩(wěn)定。理想,因?yàn)榇藭r(shí)它的均方誤差大,使估計(jì)不穩(wěn)定。 這時(shí)可考慮用主成分回歸求回歸系數(shù)的估計(jì),所謂主成分這時(shí)可考慮用主成分回歸求回歸系數(shù)的估計(jì),所謂主成分回歸是用原自變量的主成分代替原自變量作回歸分析。回

12、歸是用原自變量的主成分代替原自變量作回歸分析。 多重共線是由自變量之間關(guān)系復(fù)雜、相關(guān)性大引起的,而多重共線是由自變量之間關(guān)系復(fù)雜、相關(guān)性大引起的,而主成分既保留了原指標(biāo)的絕大部分信息,又有主成分間互主成分既保留了原指標(biāo)的絕大部分信息,又有主成分間互不相關(guān)的優(yōu)點(diǎn),故用主成分替代原指標(biāo)后,再用最小二乘不相關(guān)的優(yōu)點(diǎn),故用主成分替代原指標(biāo)后,再用最小二乘法建立主成分與目標(biāo)變量間回歸方程所得的回歸系數(shù)估計(jì)法建立主成分與目標(biāo)變量間回歸方程所得的回歸系數(shù)估計(jì)能克服能克服“估計(jì)不穩(wěn)定估計(jì)不穩(wěn)定”的缺點(diǎn)。但主成分估計(jì)不是無(wú)偏估的缺點(diǎn)。但主成分估計(jì)不是無(wú)偏估計(jì)。計(jì)。第十一頁(yè),共25頁(yè)。 10.2.4分析實(shí)例例10

13、.1我們對(duì)100個(gè)學(xué)生的成績(jī)進(jìn)行分析,具體的6項(xiàng)成績(jī)指標(biāo)是數(shù)學(xué)、物理、化學(xué)、語(yǔ)文、歷史、英語(yǔ)。的成績(jī)的數(shù)據(jù),數(shù)據(jù)文件student.sav。第十二頁(yè),共25頁(yè)。 這是一個(gè)綜合分析問題,八項(xiàng)指標(biāo)較多,可以用主成分分析法進(jìn)行綜合。打開文件后在SPSS中的操作如下:選擇菜單:【分析】【降維】【因子分析】于是出現(xiàn)如圖10.3所示的窗口。第十三頁(yè),共25頁(yè)。 選擇參與主成分分析的變量到【變量】框中,點(diǎn)擊【描述】于是出現(xiàn)如圖10.4所示的窗口第十四頁(yè),共25頁(yè)。 SPSS在調(diào)用因子分析過程進(jìn)行分析時(shí),首先會(huì)自動(dòng)對(duì)原始變量進(jìn)行標(biāo)準(zhǔn)化,因此以后的輸出結(jié)果中在通常情況下都是指標(biāo)準(zhǔn)化后的變量。在結(jié)果輸出中會(huì)涉及一

14、些因子分析中的內(nèi)容,因此這里僅給出與主成分分析有關(guān)的部分如下:表表10.1 10.1 相關(guān)矩陣相關(guān)矩陣第十五頁(yè),共25頁(yè)。表10.2給出的是各成分的方差貢獻(xiàn)率和累計(jì)貢獻(xiàn)率,由表10.2可知,只有前2個(gè)特征根大于,因此SPSS只提取了前二個(gè)主成分。第一主成分的方差所占所有主成分方差的62.254%,前二個(gè)主成分的方差貢獻(xiàn)率達(dá)到81.142%,因此選前二個(gè)主成分已足夠描述學(xué)生成績(jī)的水平。 第十六頁(yè),共25頁(yè)。在表10.3中的輸出為主成分系數(shù)矩陣,可以說明各主成分在各變量上的載荷,從而得出各主成分的表達(dá)式,這里每一列代表一個(gè)主成分作為原來(lái)變量線性組合的系數(shù)(比例)。比如第一主成分為數(shù)學(xué)、物理、化學(xué)、

15、語(yǔ)文、歷史、英語(yǔ)這六個(gè)變量的線性組合,系數(shù)(比例)為-0.806, -0.674, -0.675, 0.893, 0.825, 0.836。 第十七頁(yè),共25頁(yè)。10.3 因子分析 因子分析是由因子分析是由Charles Spearman在在1904年首次提出,并在年首次提出,并在其后半生一直致力于發(fā)展此理論,使之最終成為了現(xiàn)代統(tǒng)其后半生一直致力于發(fā)展此理論,使之最終成為了現(xiàn)代統(tǒng)計(jì)學(xué)的重要分支,因此它被公認(rèn)為因子分析之父。計(jì)學(xué)的重要分支,因此它被公認(rèn)為因子分析之父。 因子分析在某種程度上可以被看成是主成分分析的推廣和因子分析在某種程度上可以被看成是主成分分析的推廣和擴(kuò)展,它對(duì)問題的研究更為深入

16、,是將具有錯(cuò)綜復(fù)雜關(guān)系擴(kuò)展,它對(duì)問題的研究更為深入,是將具有錯(cuò)綜復(fù)雜關(guān)系的變量(或樣品)綜合為數(shù)量較少的幾個(gè)因子,以再現(xiàn)原的變量(或樣品)綜合為數(shù)量較少的幾個(gè)因子,以再現(xiàn)原始變量與因子之間的相互關(guān)系,探討多個(gè)能夠直接測(cè)量,始變量與因子之間的相互關(guān)系,探討多個(gè)能夠直接測(cè)量,并且具有一定相關(guān)性的實(shí)測(cè)指標(biāo)是如何受少數(shù)幾個(gè)內(nèi)在的并且具有一定相關(guān)性的實(shí)測(cè)指標(biāo)是如何受少數(shù)幾個(gè)內(nèi)在的獨(dú)立因子所支配的,同時(shí)根據(jù)不同因子還可以對(duì)變量進(jìn)行獨(dú)立因子所支配的,同時(shí)根據(jù)不同因子還可以對(duì)變量進(jìn)行分類,屬于多元分析中處理降維的一種統(tǒng)計(jì)方法。分類,屬于多元分析中處理降維的一種統(tǒng)計(jì)方法。第十八頁(yè),共25頁(yè)。10.4 因子分析數(shù)

17、學(xué)模型 因子分析是通過研究多個(gè)變量間相關(guān)系數(shù)矩陣(或因子分析是通過研究多個(gè)變量間相關(guān)系數(shù)矩陣(或協(xié)方差矩陣)的內(nèi)部依賴關(guān)系,找出能綜合所有變協(xié)方差矩陣)的內(nèi)部依賴關(guān)系,找出能綜合所有變量的少數(shù)幾個(gè)隨機(jī)變量,這幾個(gè)隨機(jī)變量是不可測(cè)量的少數(shù)幾個(gè)隨機(jī)變量,這幾個(gè)隨機(jī)變量是不可測(cè)量的,通常稱為因子。然后根據(jù)相關(guān)性的大小把變量的,通常稱為因子。然后根據(jù)相關(guān)性的大小把變量分組,使得同組內(nèi)的變量之間相關(guān)性較高,但不量分組,使得同組內(nèi)的變量之間相關(guān)性較高,但不同組的變量相關(guān)性較低。同組的變量相關(guān)性較低。 各個(gè)因子間互不相關(guān),所有變量都可以表示成公因子的各個(gè)因子間互不相關(guān),所有變量都可以表示成公因子的線性組合。

18、因子分析的目的就是減少變量的數(shù)目,用少線性組合。因子分析的目的就是減少變量的數(shù)目,用少數(shù)因子代替所有變量去分析整個(gè)經(jīng)濟(jì)問題。數(shù)因子代替所有變量去分析整個(gè)經(jīng)濟(jì)問題。第十九頁(yè),共25頁(yè)。第二十頁(yè),共25頁(yè)。()樣本量不能太小()樣本量不能太小。對(duì)于因子分析而言,要求樣本。對(duì)于因子分析而言,要求樣本量比較充足,否則結(jié)果可能不太可靠。一般而言,要求量比較充足,否則結(jié)果可能不太可靠。一般而言,要求樣本量至少是變量數(shù)的倍以上,如果要想得到比較理樣本量至少是變量數(shù)的倍以上,如果要想得到比較理想的結(jié)果,則應(yīng)該在倍以上。其次,除了比例關(guān)系想的結(jié)果,則應(yīng)該在倍以上。其次,除了比例關(guān)系外,樣本總量也不能太少,按理論

19、要求應(yīng)該在以外,樣本總量也不能太少,按理論要求應(yīng)該在以上。不過在實(shí)際的經(jīng)濟(jì)和社會(huì)問題中,很多時(shí)候樣本量上。不過在實(shí)際的經(jīng)濟(jì)和社會(huì)問題中,很多時(shí)候樣本量都達(dá)不到這個(gè)要求,這時(shí)也可以適當(dāng)放寬要求,通過檢都達(dá)不到這個(gè)要求,這時(shí)也可以適當(dāng)放寬要求,通過檢驗(yàn)來(lái)判斷結(jié)果的可靠性。驗(yàn)來(lái)判斷結(jié)果的可靠性。第二十一頁(yè),共25頁(yè)。()各變量間應(yīng)該具有相關(guān)性()各變量間應(yīng)該具有相關(guān)性。如果變量間彼此獨(dú)立,則。如果變量間彼此獨(dú)立,則無(wú)法從中提取公因子,也就談不上因子分析法的應(yīng)用。無(wú)法從中提取公因子,也就談不上因子分析法的應(yīng)用。在在SPSS中,可以通過中,可以通過Bartlett球形檢驗(yàn)來(lái)判斷,如果相關(guān)陣是球形檢驗(yàn)來(lái)判斷,如果相關(guān)陣是單位陣,則各變量獨(dú)立,因子分析法無(wú)效。單位陣,則各變量獨(dú)立,因子分析法無(wú)效。()()KMO檢驗(yàn)檢驗(yàn)。KMO檢驗(yàn)用于檢查變量間的偏相關(guān)性,取值在檢驗(yàn)用于檢查變量間的偏相關(guān)性,取值在01之間。之間。KMO統(tǒng)計(jì)量越接近

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論