主成份和因子分析_第1頁(yè)
主成份和因子分析_第2頁(yè)
主成份和因子分析_第3頁(yè)
主成份和因子分析_第4頁(yè)
主成份和因子分析_第5頁(yè)
已閱讀5頁(yè),還剩86頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

關(guān)于主成份和因子分析第1頁(yè),講稿共91頁(yè),2023年5月2日,星期三6.1主成分分析6.1.1主成分分析的概念與步驟6.1.2使用INSIGHT模塊作主成分分析6.1.3使用“分析家”作主成分分析6.1.4使用PRINCOMP過(guò)程進(jìn)行主成分分析第2頁(yè),講稿共91頁(yè),2023年5月2日,星期三6.1.1主成分分析的概念與步驟1.主成分分析基本思想主成分分析是數(shù)學(xué)上對(duì)數(shù)據(jù)降維的一種方法。其基本思想是設(shè)法將原來(lái)眾多的具有一定相關(guān)性的指標(biāo)(比如p個(gè)指標(biāo)),重新組合成一組新的互不相關(guān)的綜合指標(biāo)來(lái)代替原來(lái)指標(biāo)。通常數(shù)學(xué)上的處理就是將原來(lái)p個(gè)指標(biāo)作線性組合,作為新的綜合指標(biāo)。但是這種線性組合,如果不加限制,則可以有很多,應(yīng)該如何去選取呢?第3頁(yè),講稿共91頁(yè),2023年5月2日,星期三

在所有的線性組合中所選取的F1應(yīng)該是方差最大的,故稱(chēng)F1為第一主成分。如果第一主成分不足以代表原來(lái)p個(gè)指標(biāo)的信息,再考慮選取F2即選第二個(gè)線性組合。為了有效地反映原有信息,F(xiàn)1已有的信息就不需要再出現(xiàn)在F2中,用數(shù)學(xué)語(yǔ)言表達(dá)就是要求Cov(F1,F(xiàn)2)=0。稱(chēng)F2為第二主成分,依此類(lèi)推可以構(gòu)造出第三、第四、…、第p個(gè)主成分。第4頁(yè),講稿共91頁(yè),2023年5月2日,星期三2.主成分分析的數(shù)學(xué)模型設(shè)有n個(gè)樣品(多元觀測(cè)值),每個(gè)樣品觀測(cè)p項(xiàng)指標(biāo)(變量):X1,X2,…,Xp,得到原始數(shù)據(jù)資料陣:其中Xi=(x1i,x2i,…,xni)',i=1,2,…,p。第5頁(yè),講稿共91頁(yè),2023年5月2日,星期三

用數(shù)據(jù)矩陣X的p個(gè)列向量(即p個(gè)指標(biāo)向量)X1,X2,…,Xp作線性組合,得綜合指標(biāo)向量:簡(jiǎn)寫(xiě)成:Fi=a1iX1+ai2X2+…+apiXp

i=1,2,…,p第6頁(yè),講稿共91頁(yè),2023年5月2日,星期三為了加以限制,對(duì)組合系數(shù)ai'=(a1i,a2i,…,api)作如下要求:即:ai為單位向量:ai'ai=1,且由下列原則決定:

1)Fi與Fj(ij,i,j=1,…,p)互不相關(guān),即Cov(Fi,F(xiàn)j)=ai'ai=0,其中Σ是X的協(xié)方差陣。

2)F1是X1,X2,…,Xp的一切線性組合(系數(shù)滿(mǎn)足上述要求)中方差最大的,即,其中c=(c1,c2,…,cp)'

F2是與F1不相關(guān)的X1,X2,…,Xp一切線性組合中方差最大的,…,F(xiàn)p是與F1,F(xiàn)2,…,F(xiàn)p-1都不相關(guān)的X1,X2,…,Xp的一切線性組合中方差最大的。第7頁(yè),講稿共91頁(yè),2023年5月2日,星期三

滿(mǎn)足上述要求的綜合指標(biāo)向量F1,F(xiàn)2,…,F(xiàn)p就是主成分,這p個(gè)主成分從原始指標(biāo)所提供的信息總量中所提取的信息量依次遞減,每一個(gè)主成分所提取的信息量用方差來(lái)度量,主成分方差的貢獻(xiàn)就等于原指標(biāo)相關(guān)系數(shù)矩陣相應(yīng)的特征值i,每一個(gè)主成分的組合系數(shù)ai'=(a1i,a2i,…,api)就是相應(yīng)特征值i所對(duì)應(yīng)的單位特征向量ti。方差的貢獻(xiàn)率為,i越大,說(shuō)明相應(yīng)的主成分反映綜合信息的能力越強(qiáng)。第8頁(yè),講稿共91頁(yè),2023年5月2日,星期三3.主成分分析的步驟(1)計(jì)算協(xié)方差矩陣計(jì)算樣品數(shù)據(jù)的協(xié)方差矩陣:Σ=(sij)pp,其中

i,j=1,2,…,p(2)求出Σ的特征值及相應(yīng)的特征向量求出協(xié)方差矩陣Σ的特征值12…p>0及相應(yīng)的正交化單位特征向量:則X的第i個(gè)主成分為Fi=ai'X

i=1,2,…,p。第9頁(yè),講稿共91頁(yè),2023年5月2日,星期三(3)選擇主成分在已確定的全部p個(gè)主成分中合理選擇m個(gè)來(lái)實(shí)現(xiàn)最終的評(píng)價(jià)分析。一般用方差貢獻(xiàn)率解釋主成分Fi所反映的信息量的大小,m的確定以累計(jì)貢獻(xiàn)率達(dá)到足夠大(一般在85%以上)為原則。第10頁(yè),講稿共91頁(yè),2023年5月2日,星期三(4)計(jì)算主成分得分計(jì)算n個(gè)樣品在m個(gè)主成分上的得分:

i=1,2,…,m(5)標(biāo)準(zhǔn)化實(shí)際應(yīng)用時(shí),指標(biāo)的量綱往往不同,所以在主成分計(jì)算之前應(yīng)先消除量綱的影響。消除數(shù)據(jù)的量綱有很多方法,常用方法是將原始數(shù)據(jù)標(biāo)準(zhǔn)化,即做如下數(shù)據(jù)變換:其中,,j=1,2,…,p。標(biāo)準(zhǔn)化后的數(shù)據(jù)陣記為X*,其中每個(gè)列向量(標(biāo)準(zhǔn)化變量)的均值為0,標(biāo)準(zhǔn)差為1,數(shù)據(jù)無(wú)量綱。第11頁(yè),講稿共91頁(yè),2023年5月2日,星期三

標(biāo)準(zhǔn)化后變量的協(xié)方差矩陣(CovarianceMatrix)Σ=(sij)pp,即原變量的相關(guān)系數(shù)矩陣(CorrelationMatrix)R=(rij)pp:i,j=1,2,…,p

此時(shí)n個(gè)樣品在m個(gè)主成分上的得分應(yīng)為:Fj=a1jX1*+a2jX2*+...+apjXp*

j=1,2,…,m第12頁(yè),講稿共91頁(yè),2023年5月2日,星期三6.1.2使用INSIGHT模塊作主成分分析【例6-1】全國(guó)沿海10個(gè)省市經(jīng)濟(jì)指標(biāo)的主成分分析表6-1全國(guó)沿海10個(gè)省市經(jīng)濟(jì)綜合指標(biāo)假設(shè)表6-1中數(shù)據(jù)已經(jīng)存放在數(shù)據(jù)集Mylib.jjzb中,試對(duì)各地區(qū)的經(jīng)濟(jì)發(fā)展水平進(jìn)行主成分分析。地區(qū)GDPx1人均GDPx2工業(yè)增加值x3第三產(chǎn)業(yè)增加值x4固定資產(chǎn)投資x5基本建設(shè)投資x6社會(huì)消費(fèi)品零售總額x7海關(guān)出口總額x8地方財(cái)政收入x9遼寧5458.2130001376.22258.41315.95292258.4123.7399.7山東10550116433502.538512288.71070.73181.9211.1610.2河北6076.690471406.72092.61161.6597.11968.345.9302.3天津2022.622068822.8960703.7361.9941.4115.7171.8江蘇10636.3143973536.33967.223201141.33215.8384.7643.7上海5408.8406272196.22755.81970.2779.32035.2320.5709浙江7670165702356.530652296.61180.62877.5294.2566.9福建4682135101047.11859964.5397.91663.3173.7272.9廣東11769.7150304224.64793.63022.91275.55013.61843.71201.6廣西2455.45062367995.7542.2352.71025.515.1186.7第13頁(yè),講稿共91頁(yè),2023年5月2日,星期三1.使用INSIGHT模塊做主成分分析的步驟使用INSIGHT模塊做主成分分析的步驟如下:

1)在INSIGHT模塊中打開(kāi)數(shù)據(jù)集Mylib.jjzb;選擇菜單“Analyze”“Multivariate(YX)(多元分析)”,打開(kāi)“Multivariate(YX)”對(duì)話框;

2)將做主成分分析的變量x1~x9選為Y變量,將變量diqu選為L(zhǎng)abel變量,如圖所示。第14頁(yè),講稿共91頁(yè),2023年5月2日,星期三圖6-1多元分析對(duì)話框

3)單擊“Method”按鈕,在打開(kāi)的對(duì)話框中可以選擇計(jì)算協(xié)方差矩陣的特征值或是計(jì)算相關(guān)系數(shù)矩陣的特征值。系統(tǒng)默認(rèn)計(jì)算相關(guān)系數(shù)矩陣的特征值和特征向量,單擊“OK”按鈕返回。第15頁(yè),講稿共91頁(yè),2023年5月2日,星期三4)單擊“Output”按鈕,在打開(kāi)的對(duì)話框(圖左)中包括“DescriptiveStatistics”選項(xiàng)、“BivariatePlots”選項(xiàng)以及各種多元分析的選項(xiàng)。選中“PrincipalComponentAnalysis”復(fù)選框,單擊下面的“PrincipalComponentOptions”按鈕,打開(kāi)“PrincipalComponentOptions”對(duì)話框,選中“Eigenvectors”復(fù)選框,取消“Correlations(Structure)”復(fù)選框,如圖右所示。

第16頁(yè),講稿共91頁(yè),2023年5月2日,星期三2.主成分的結(jié)果分析輸出的數(shù)字分析結(jié)果有4個(gè)部分:簡(jiǎn)單統(tǒng)計(jì)量、相關(guān)系數(shù)矩陣、相關(guān)系數(shù)矩陣的特征值以及相關(guān)系數(shù)矩陣的特征向量。第17頁(yè),講稿共91頁(yè),2023年5月2日,星期三3)圖6-5給出相關(guān)系數(shù)矩陣的特征值(Eigenvalue)、上下特征值之差(Difference)、各主成分的方差貢獻(xiàn)率(Proportion)以及累積貢獻(xiàn)率(Cumulative)。

相關(guān)系數(shù)矩陣的特征值即各主成分的方差,可以看出,第一主成分的方差貢獻(xiàn)率為80.11%,前兩個(gè)主成分的累積貢獻(xiàn)率已達(dá)92.33%,因此,只需用前面2個(gè)主成分就可以概括這組數(shù)據(jù)。

第18頁(yè),講稿共91頁(yè),2023年5月2日,星期三4)圖6-6給出相關(guān)系數(shù)矩陣的兩個(gè)最大特征值的特征向量,據(jù)此可以寫(xiě)出第一和第二主成分得分:PCR1=0.35x1*+0.04x2*+0.36x3*+0.37x4*+0.37x5*+0.35x6*+0.36x7*+0.30x8*+0.36x9*PCR2=-0.21x1*+0.94x2*–0.01x3*–0.05x4*+0.10x5*–0.02x6*–0.14x7*+0.05x8*+0.18x9*對(duì)于第一主成分而言,除了x2(人均GDP)外,各變量所占比重均在0.3左右以上,因此第一主成分(Prin1)主要由x1、x3~x9八個(gè)變量解釋?zhuān)欢诙鞒煞謩t主要由x2這一個(gè)變量解釋。第19頁(yè),講稿共91頁(yè),2023年5月2日,星期三5)選擇菜單“Edit(編輯)”“Observations(觀測(cè))”“LabelinPlots”,在彈出的對(duì)話框中選中所有diqu變量值,單擊“OK”按鈕返回,顯示結(jié)果中的散點(diǎn)圖上出現(xiàn)地區(qū)名;圖中看出,上海在第二主成分PCR2的得分遠(yuǎn)遠(yuǎn)高于其他省市,而在第一主成分PCR1的得分則處于中間。廣東、江蘇、山東和浙江則在第1主成分的得分上位于前列。第20頁(yè),講稿共91頁(yè),2023年5月2日,星期三6)回到INSIGHT的數(shù)據(jù)窗口,可以看到前兩個(gè)主成分的得分情況(如圖6-8左)。單擊數(shù)據(jù)窗口左上角的箭頭,在彈出的菜單中選擇“Sort(排序)”選項(xiàng),在打開(kāi)的對(duì)話框中選定排序變量PCR1,并單擊“Asc/Des”按鈕將其設(shè)為降序(Des),如圖6-8所示。

第21頁(yè),講稿共91頁(yè),2023年5月2日,星期三

單擊“OK”按鈕返回,得到按第一主成分排序的結(jié)果如圖6-9左所示。同樣方法可以得到按第二主成分排序的結(jié)果如圖6-9右所示。從第一主成分排序情況來(lái)看,沿海19省市經(jīng)濟(jì)發(fā)展?fàn)顩r綜合排名前5位的省市依次為:廣東、江蘇、山東、浙江、上海;從第二主成分排序情況來(lái)看,人均GDP排名前5位的省市依次是:上海、天津、浙江、廣東、福建。

第22頁(yè),講稿共91頁(yè),2023年5月2日,星期三6.1.3使用“分析家”作主成分分析【例6-2】某企業(yè)為了了解其客戶(hù)的信用程度,評(píng)價(jià)客戶(hù)的信用等級(jí),采用信用評(píng)估常用的5C方法,5C的目的是說(shuō)明顧客違約的可能性。1)品格x1,指客戶(hù)的信譽(yù)。

2)能力x2,指客戶(hù)的償還能力。

3)資本x3,指客戶(hù)的財(cái)務(wù)勢(shì)力和財(cái)務(wù)狀況。

4)附帶的擔(dān)保品x4。

5)環(huán)境條件x5,指客戶(hù)的外部因素。第23頁(yè),講稿共91頁(yè),2023年5月2日,星期三

通過(guò)專(zhuān)家打分,得到10個(gè)客戶(hù)5項(xiàng)指標(biāo)的得分如表6-3所示。表6-210個(gè)客戶(hù)5項(xiàng)指標(biāo)的得分假設(shè)表6-2中數(shù)據(jù)已經(jīng)存放在數(shù)據(jù)集Mylib.xydj中,試對(duì)各客戶(hù)的信用等級(jí)進(jìn)行評(píng)估??蛻?hù)編號(hào)IDx1x2x3x4x5客戶(hù)編號(hào)IDx1x2x3x4x5176.581.57675.871.768579.280.384.476.5270.67367.668.178.57949487.589.592390.787.39181.580884.666.968.864.866.4477.573.670.969.874.8957.760.457.460.865585.668.57062.276.5107069.271.764.968.9第24頁(yè),講稿共91頁(yè),2023年5月2日,星期三1.使用“分析家”做主成分分析的步驟

1)在“分析家”中打開(kāi)數(shù)據(jù)集Mylib.xydj;

2)選擇菜單“Statistics(統(tǒng)計(jì))”“Multivariate(多元分析)”“PrincipalComponents(主成分分析)”,打開(kāi)“PrincipalComponents”對(duì)話框;

3)在對(duì)話框中輸入主成分分析的變量,如圖所示。第25頁(yè),講稿共91頁(yè),2023年5月2日,星期三4)單擊“Statistics(統(tǒng)計(jì))”按鈕,打開(kāi)“PrincipalComponents:Statistics”對(duì)話框;在“#ofcomponents:”右邊的框中指定主成分的個(gè)數(shù)4,如圖右。單擊“OK”返回;第26頁(yè),講稿共91頁(yè),2023年5月2日,星期三5)單擊“SaveData”按鈕,打開(kāi)“PrincipalComponents:SaveData”對(duì)話框,在該對(duì)話框中可選擇存儲(chǔ)數(shù)據(jù)。選中“Createandsavescoresdata”,如圖6-11所示。單擊“OK”返回;第27頁(yè),講稿共91頁(yè),2023年5月2日,星期三6)單擊“Plots”按鈕,打開(kāi)“PrincipalComponents:Plots”對(duì)話框,可以設(shè)置圖形輸出。●在“ScreePlot(碎石圖)”選項(xiàng)卡中(圖左),選中“Createscreeplot(建立碎石圖)”復(fù)選框。●在“ComponentPlot(成分圖)”選項(xiàng)卡中(圖右),選中“CreatecomponentPlot(建立成分圖)”復(fù)選框。

第28頁(yè),講稿共91頁(yè),2023年5月2日,星期三2.主成分的結(jié)果分析輸出的數(shù)字分析結(jié)果包括4個(gè)部分:簡(jiǎn)單統(tǒng)計(jì)量、相關(guān)系數(shù)矩陣、相關(guān)系數(shù)矩陣的特征值以及相關(guān)系數(shù)矩陣的特征向量。

1)圖6-13給出變量的簡(jiǎn)單統(tǒng)計(jì)量,圖中顯示5項(xiàng)指標(biāo)中品格、能力和附帶擔(dān)保品是最為重要的,其標(biāo)準(zhǔn)差高出其他變量。第29頁(yè),講稿共91頁(yè),2023年5月2日,星期三2)圖6-14給出各變量之間的相關(guān)系數(shù)矩陣??梢钥闯?,能力與資本、附帶擔(dān)保品有著較強(qiáng)的相關(guān)性,表明客戶(hù)的償還能力與其財(cái)務(wù)實(shí)力、財(cái)務(wù)狀況和抵押資產(chǎn)有著重要的關(guān)系。第30頁(yè),講稿共91頁(yè),2023年5月2日,星期三3)圖6-15給出相關(guān)系數(shù)矩陣的特征值(Eigenvalues)、上下特征值之差(Difference)、各主成分的方差貢獻(xiàn)率(proportion)以及累積貢獻(xiàn)率(Cumulative)。

相關(guān)系數(shù)矩陣的特征值即各主成分的方差,可以看出,第一主成分的方差貢獻(xiàn)率為84.22%,第二主成分的方差貢獻(xiàn)率為7.67%,第三主成分的方差貢獻(xiàn)率為5.95%。說(shuō)明第一主成分已經(jīng)具有足夠多的方差貢獻(xiàn)率,可以很好地概括這組數(shù)據(jù)。第31頁(yè),講稿共91頁(yè),2023年5月2日,星期三

在“分析家”左邊的管理窗口中雙擊“Screeplot”項(xiàng),打開(kāi)的“Screeplot”對(duì)話框顯示前4個(gè)特征值的“碎石圖”,很直觀地看到第一主成分遠(yuǎn)遠(yuǎn)大于其它特征值,說(shuō)明第一主成分已經(jīng)代表了絕大部分信息。第32頁(yè),講稿共91頁(yè),2023年5月2日,星期三4)圖6-16給出相關(guān)系數(shù)矩陣的特征向量,由最大特征值所對(duì)應(yīng)的特征向量可以寫(xiě)出第一主成分的表達(dá)式。Prin1=0.4135x1*+0.4729x2*+0.4656x3*+0.4547x4*+0.4265x5*

利用特征向量各分量的值可以對(duì)主成分進(jìn)行解釋?zhuān)瑢?duì)于第一主成分而言,各變量所占比重大致相等,且均為正數(shù),說(shuō)明第一主成份是對(duì)所有指標(biāo)的一個(gè)綜合測(cè)度,作為綜合的信用等級(jí)指標(biāo),可以用來(lái)排序。第33頁(yè),講稿共91頁(yè),2023年5月2日,星期三5)在“分析家”窗口中,雙擊左邊項(xiàng)目管理中的“ScoresTable”項(xiàng),打開(kāi)“ScoresTable”對(duì)話框;選擇菜單“File”“SaveasBySASName”,將其保存為數(shù)據(jù)表Scores;然后,在VIEWTABLE中打開(kāi)該表;選擇菜單“Data”“Sort”,按主成分Prin1排序,結(jié)果如表6-3所示。表6-3客戶(hù)的信用等級(jí)在正確評(píng)估了顧客的信用等級(jí)后,就能正確制定出對(duì)其的信用期、收賬政策等,這對(duì)于加強(qiáng)應(yīng)收賬款的管理大有幫助??蛻?hù)編號(hào)12345678910第一主成分得分3.17-9.0125.09-4.36-6.4113.6235.88-10.34-33.80-13.83名次47256318109第34頁(yè),講稿共91頁(yè),2023年5月2日,星期三6.1.4使用PRINCOMP過(guò)程進(jìn)行主成分分析1.PRINCOMP過(guò)程的功能簡(jiǎn)介

1)PRINCOMP過(guò)程計(jì)算結(jié)果有:簡(jiǎn)單統(tǒng)計(jì)量,相關(guān)陣或協(xié)方差陣,從大到小排序的特征值和相應(yīng)特征向量,每個(gè)主成分解釋的方差比例,累計(jì)比例等。由特征向量得出相應(yīng)的主成分,用少數(shù)幾個(gè)主成分代替原始變量,并計(jì)算主成分得分。

2)主成分的個(gè)數(shù)可以由用戶(hù)自己確定,主成分的名字可以用戶(hù)自己規(guī)定,主成分得分是否標(biāo)準(zhǔn)化可由用戶(hù)規(guī)定。第35頁(yè),講稿共91頁(yè),2023年5月2日,星期三3)輸入數(shù)據(jù)集可以是原始數(shù)據(jù)集、相關(guān)陣、協(xié)方差陣等。輸入為原始數(shù)據(jù)時(shí),還可以規(guī)定從協(xié)方差陣出發(fā)還是從相關(guān)陣出發(fā)進(jìn)行分析,由協(xié)方差陣出發(fā)時(shí)方差大的變量在分析中起到更大的作用。

4)該過(guò)程還可生成兩個(gè)輸出數(shù)據(jù)集:一個(gè)包含原始數(shù)據(jù)及主成分得分,它可作為主成分回歸和聚類(lèi)分析的輸入數(shù)據(jù)集;另一個(gè)包含有關(guān)統(tǒng)計(jì)量,類(lèi)型為T(mén)YPE=CORR或COV的輸出集,它也可作為其他過(guò)程的輸入SAS集。第36頁(yè),講稿共91頁(yè),2023年5月2日,星期三2.PRINCOMP過(guò)程的格式

PRINCOMP過(guò)程的常用格式如下:PROCPRINCOMP<選項(xiàng)列表>;VAR變量列表;[WEIGHT變量列表;][FREQ變量列表;][PARTIAL變量列表;][BY變量列表;]RUN;第37頁(yè),講稿共91頁(yè),2023年5月2日,星期三

其中:

1)PROCPRINCOMP語(yǔ)句用來(lái)規(guī)定輸入輸出和一些運(yùn)行選項(xiàng),其選項(xiàng)及功能見(jiàn)表6-4。表6-4PROCPRINCOMP語(yǔ)句的選項(xiàng)

2)VAR語(yǔ)句指定用于主成分分析的變量,變量必須為數(shù)值型(區(qū)間型)變量。缺省使用DATA=輸入數(shù)據(jù)集中所有數(shù)值型變量進(jìn)行主成分分析。DATA=輸入數(shù)據(jù)集,可以是原始數(shù)據(jù)集,也可以是TYPE=CORR,COV的數(shù)據(jù)集;OUT=輸出包含原始數(shù)據(jù)和主成分得分的數(shù)據(jù)集;OUTSTAT=統(tǒng)計(jì)量輸出數(shù)據(jù)集;COVARIANCE|COV要求從協(xié)方差陣出發(fā)計(jì)算主成分,缺省為從相關(guān)陣出發(fā)計(jì)算。N=要計(jì)算的主成分個(gè)數(shù),缺省時(shí)全部計(jì)算。STANDARD|STD要求在OUT=的數(shù)據(jù)集中把主成分得分標(biāo)準(zhǔn)化為單位方差。缺省時(shí)主成分得分的方差為相應(yīng)特征值。PREFIX=主成分名字的前綴,缺省時(shí)為PRIN1、PRIN2…。第38頁(yè),講稿共91頁(yè),2023年5月2日,星期三3.應(yīng)用實(shí)例【例6-3】對(duì)全國(guó)30個(gè)省市自治區(qū)經(jīng)濟(jì)發(fā)展基本情況的八項(xiàng)指標(biāo)作主成分分析,原始數(shù)據(jù)如表6-5。表6-5全國(guó)30個(gè)省市自治區(qū)經(jīng)濟(jì)發(fā)展基本情況省份GDPx1居民消費(fèi)水平x2固定資產(chǎn)投資x3職工平均工資x4貨物周轉(zhuǎn)量x5居民消費(fèi)價(jià)格指數(shù)x6商品零售價(jià)格指數(shù)x7工業(yè)總產(chǎn)值x8北京1394.892505519.018144373.9117.3112.6843.43天津920.112720345.466501342.8115.2110.6582.51河北2849.521258704.8748392033.3115.2115.81234.85山西1092.481250290.94721717.3116.9115.6697.25內(nèi)蒙832.881387250.234134781.7117.5116.8419.39遼寧2793.372397387.9949111371.1116.11141840.55吉林1129.21872320.454430497.4115.2114.2762.47黑龍江2014.532334435.734145824.8116.1114.31240.37上海2462.575343996.489279207.4118.71131642.95江蘇5155.2519261434.9559431025.5115.8114.32026.64浙江3524.7922491006.396619754.4116.6113.5916.59第39頁(yè),講稿共91頁(yè),2023年5月2日,星期三省份GDPx1居民消費(fèi)水平x2固定資產(chǎn)投資x3職工平均工資x4貨物周轉(zhuǎn)量x5居民消費(fèi)價(jià)格指數(shù)x6商品零售價(jià)格指數(shù)x7工業(yè)總產(chǎn)值x8安徽2003.5812544744609908.3114.8112.7824.14福建2160.522320553.975857609.3115.2114.4433.67江西1205.111182282.844211411.7116.9115.9571.84山東5002.3415271229.5551451196.6117.6114.22207.69河南3002.741034670.3543441574.4116.5114.91367.92湖北2391.421527571.684685849120116.61220.72湖南2195.71408422.6147971011.8119115.5843.83廣東5381.7226991639.838250656.5114111.61396.35廣西1606.151314382.595105556118.4116.4554.97海南364.171814198.355340232.1113.5111.364.33四川35341261822.544645902.3118.51171431.81貴州630.07942150.844475301.1121.4117.2324.72云南1206.6812613345149310.4121.3118.1716.65西藏55.98111017.8773824.2117.3114.95.57陜西1000.031208300.274396500.9119117600.98甘肅553.351007114.815493507119.8116.5468.79青海165.31144547.76575361.6118116.3105.8寧夏169.75135561.985079121.8117.1115.3114.4新疆834.571469376.955348339119.7116.7428.76第40頁(yè),講稿共91頁(yè),2023年5月2日,星期三(1)數(shù)據(jù)集假定上述數(shù)據(jù)已經(jīng)存放在數(shù)據(jù)集Mylib.jjfz中。(2)執(zhí)行主成分分析的PRINCOMP過(guò)程對(duì)數(shù)據(jù)集jjfz執(zhí)行主成分分析的PRINCOMP過(guò)程代碼如下:procprincompdata=Mylib.jjfzn=4out=w1outstat=w2;varx1-x8;procprintdata=w1;run;第41頁(yè),講稿共91頁(yè),2023年5月2日,星期三(3)結(jié)果分析在各變量之間的相關(guān)系數(shù)矩陣中可以看出,有較強(qiáng)相關(guān)性的變量依次為:

GDP(x1)與固定資產(chǎn)投資(x3)之間的相關(guān)系數(shù)為0.9506;

GDP(x1)與工業(yè)總產(chǎn)值(x8)之間的相關(guān)系數(shù)為0.8737;固定資產(chǎn)投資(x3)與工業(yè)總產(chǎn)值(x8)之間的相關(guān)系數(shù)為0.7919;居民消費(fèi)價(jià)格指數(shù)(x6)與商品零售價(jià)格指數(shù)(x7)之間的相關(guān)系數(shù)為0.7628;貨物周轉(zhuǎn)量(x5)與工業(yè)總產(chǎn)值(x8)之間的相關(guān)系數(shù)為0.6586,等等。第42頁(yè),講稿共91頁(yè),2023年5月2日,星期三

圖6-18給出相關(guān)系數(shù)矩陣的特征值、上下特征值之差、各主成分對(duì)方差的貢獻(xiàn)率以及累積的貢獻(xiàn)率。相關(guān)系數(shù)矩陣的特征值即各主成分的方差,可以看出,第一主成分對(duì)方差的貢獻(xiàn)率為46.94%,第二主成分對(duì)方差的貢獻(xiàn)率為27.46%,第三主成分對(duì)方差的貢獻(xiàn)率為15.19%,之后的主成分的貢獻(xiàn)率為0.05。前三個(gè)主成分的累積貢獻(xiàn)率為89.58%,因此,對(duì)第四主成分以后的主成分完全可以忽略不計(jì),用前三個(gè)主成分就可以很好地概括這組數(shù)據(jù)。第43頁(yè),講稿共91頁(yè),2023年5月2日,星期三圖6-19原始變量對(duì)于各個(gè)主成分的因子載荷量圖6-19給出相關(guān)系數(shù)矩陣前4大特征值對(duì)應(yīng)的特征向量,由此可以寫(xiě)出前三個(gè)主成分的表達(dá)式:Prin1=0.46x1*+0.31x2*+0.47x3*+0.24x4*+0.25x5*–0.26x6*–0.32x7*+0.42x8*Prin2=0.26x1*–0.40x2*+0.11x3*–0.49x4*+0.50x5*+0.17x6*+0.40x7*+0.29x8*Prin3=0.11x1*+0.25x2*+0.19x3*+0.33x4*–0.25x5*+0.72x6*+0.40x7*+0.19x8*第44頁(yè),講稿共91頁(yè),2023年5月2日,星期三

可見(jiàn),第一主成分中x3、x1、x8的系數(shù)最大;第二主成分中x5、x7具有較大的正系數(shù),x4、x2則具有較大的負(fù)系數(shù);第三主成分中x6的系數(shù)最大,遠(yuǎn)遠(yuǎn)超過(guò)其他指標(biāo)的影響。因此,可以把第一主成分看成是由固定資產(chǎn)投資(x3)、GDP(x1)、工業(yè)總產(chǎn)值(x8)所刻畫(huà)的反映經(jīng)濟(jì)發(fā)展水平的綜合指標(biāo);把第二主成分看成是由貨物周轉(zhuǎn)量(x5)、職工平均工資(x4)、居民消費(fèi)水平(x2)、商品零售價(jià)格指數(shù)(x7)所刻畫(huà)的與人民生活水平有關(guān)的綜合指標(biāo);把第三主成分單獨(dú)看成是居民消費(fèi)價(jià)格指數(shù)(x6)的影響指標(biāo)。最后輸出的是數(shù)據(jù)集w1,其中包含前4個(gè)主成分Prin1~Prin4的得分。第45頁(yè),講稿共91頁(yè),2023年5月2日,星期三(4)主成分的散點(diǎn)圖按第一主成分和第二主成分的得分作圖,又稱(chēng)為載荷圖,代碼如下:procplotdata=w1vpct=80;plotprin1*prin2$diqu='*'/haxis=-3.5to3by0.5HREF=-2,0,2vaxis=-3to4.5by1.5VREF=-2,0,2;run;顯示如圖6-20。第46頁(yè),講稿共91頁(yè),2023年5月2日,星期三

廣東、江蘇、上海、山東的第一主成分取值較高,說(shuō)明這些省市的經(jīng)濟(jì)發(fā)展水平較高,其次是浙江、遼寧、河北、河南、北京、天津等。由于在第二主成分中職工平均工資與居民消費(fèi)水平具有負(fù)的載荷量,因此處于右半圖中的河北、河南、山東等地的職工平均工資與居民消費(fèi)水平較低,商品零售價(jià)格指數(shù)較高;而左半圖中上海、天津、海南、北京等地的職工平均工資與居民消費(fèi)水平較高,商品零售價(jià)格指數(shù)較低。第47頁(yè),講稿共91頁(yè),2023年5月2日,星期三6.2因子分析6.2.1因子分析的概念與步驟6.2.2使用INSIGHT模塊作因子分析6.2.3使用FACTOR過(guò)程進(jìn)行因子分析第48頁(yè),講稿共91頁(yè),2023年5月2日,星期三6.2.1因子分析的概念與步驟1.因子分析模型設(shè)p維可觀測(cè)的隨機(jī)向量X=(X1,...,Xp)'(假定Xi為標(biāo)準(zhǔn)化變量,即E(Xi)=0,Var(Xi)=1,i=1,2,…,p)表示為第49頁(yè),講稿共91頁(yè),2023年5月2日,星期三或X=AF+ε

上式稱(chēng)為因子模型,其中F1、F2、…、Fm稱(chēng)為公共因子,簡(jiǎn)稱(chēng)因子,是不可觀測(cè)的變量;待估的系數(shù)陣A稱(chēng)為因子載荷陣,aij(i=1,2,…,p;j=1,2,…,m)稱(chēng)為第i個(gè)變量在第j個(gè)因子上的載荷(簡(jiǎn)稱(chēng)為因子載荷);

ε稱(chēng)為特殊因子,是不能被前m個(gè)公共因子包含的部分。并且滿(mǎn)足:cov(F,ε)=0,即F,ε不相關(guān);

D(F)=Im,即F1、F2、…、Fm互不相關(guān),方差為1;D(ε)=diag(12,22,…,p2),即ε1、ε2、…、εp互不相關(guān),方差不一定相等,εi~N(0,i2)。因子分析的目的就是通過(guò)模型X=AF+ε以F代替X,由于m<p,從而達(dá)到降維的愿望。第50頁(yè),講稿共91頁(yè),2023年5月2日,星期三2.因子分析模型中的幾個(gè)統(tǒng)計(jì)特征(1)因子載荷aij的統(tǒng)計(jì)意義由Xi=ai1F1+…+aimFm+εi,兩邊同乘以Fj,再求數(shù)學(xué)期望:E(XiFj)=ai1E(F1Fj)+…+aijE(FjFj)+…+aimE(FmFj)+E(εiFj)

從而有rij=E(XiFj)=aij

即載荷矩陣中第i行,第j列的元素aij是第i個(gè)變量與第j個(gè)公共因子的相關(guān)系數(shù),反映了第i個(gè)變量與第j個(gè)公共因子的相關(guān)程度。|aij|1,絕對(duì)值越大,相關(guān)程度越高。在這種意義上公共因子解釋了觀測(cè)變量間的相關(guān)性。第51頁(yè),講稿共91頁(yè),2023年5月2日,星期三(2)變量共同度的統(tǒng)計(jì)意義因子載荷矩陣第i行的元素平方和:稱(chēng)為變量Xi的共同度(i=1,2,…,p)。對(duì)Xi=ai1F1+…+aimFm+εi兩邊求方差:顯然,若因子方差hi2大,剩余方差i2必小。而hi2大就表明Xi對(duì)公因子的共同依賴(lài)程度大。設(shè)Var(Xi)=1,即所有的公共因子和特殊因子對(duì)變量Xi的貢獻(xiàn)為1。如果hi2非??拷?,則i2非常小,此時(shí)因子分析的效果好,從原變量空間到公共因子空間的轉(zhuǎn)化性質(zhì)好??梢?jiàn)hi2反映了變量Xi對(duì)公共因子F的依賴(lài)程度,故稱(chēng)hi2為變量Xi的共同度。第52頁(yè),講稿共91頁(yè),2023年5月2日,星期三(3)公共因子Fj方差貢獻(xiàn)的統(tǒng)計(jì)意義因子載荷矩陣A中各列元素的平方和:稱(chēng)為公共因子Fj對(duì)X的貢獻(xiàn),是衡量Fj相對(duì)重要性的指標(biāo),qj2越大表明Fj對(duì)X的貢獻(xiàn)越大。第53頁(yè),講稿共91頁(yè),2023年5月2日,星期三3.因子載荷矩陣的估計(jì)方法給定p個(gè)相關(guān)變量X1,...,Xp的觀測(cè)數(shù)據(jù)陣X,由X=AF+ε易推出∑

=AA'+D其中∑

=D(X)為X的協(xié)方差陣,A=(aij)為p

m的因子載荷陣,D=diag(12,22,…,p2)為p階對(duì)角陣。由p個(gè)相關(guān)變量的觀測(cè)數(shù)據(jù)可得到協(xié)差陣的估計(jì),記為S。為了建立因子模型,首先要估計(jì)因子載荷aij和特殊方差i2。常用的參數(shù)估計(jì)方法有以下三種:主成分法,主因子法和極大似然法。第54頁(yè),講稿共91頁(yè),2023年5月2日,星期三(1)主成分法設(shè)樣品協(xié)方差陣S的特征值為λ1≥λ2≥…≥λp≥0,u1,u2,…,up,為對(duì)應(yīng)的標(biāo)準(zhǔn)化特征向量,當(dāng)最后p–m個(gè)特征值較小時(shí),S可近似地分解為:其中為pm陣,,即得因子模型的一個(gè)解。載荷陣A中的第j列和X的第j個(gè)主成分的系數(shù)相差一個(gè)倍數(shù)(j=1,…,m),故這個(gè)解稱(chēng)為主成分解。第55頁(yè),講稿共91頁(yè),2023年5月2日,星期三(2)主因子法主因子方法是對(duì)主成分方法的修正,設(shè)R=AA'+D,則R*=R–D=AA'稱(chēng)為約相關(guān)矩陣,若已知特殊因子方差的初始估計(jì),也就是已知變量共同度的估計(jì):則R*對(duì)角線上的元素是,而不是1。即:第56頁(yè),講稿共91頁(yè),2023年5月2日,星期三

計(jì)算R*的特征值和特征向量,取前m個(gè)正特征值λ1*≥λ2*≥…≥λp*>0,相應(yīng)的特征向量為u1*,u2*,…,up*,則有近似分解式:R*=AA'其中,令(i=1,…,p),則A和D為因子模型的一個(gè)解,這個(gè)解稱(chēng)為主因子解。第57頁(yè),講稿共91頁(yè),2023年5月2日,星期三

在實(shí)際中特殊因子方差(或變量共同度)是未知的。以上得到的解是近似解。為了得到近似程度更好的解,常常采用迭代主因子法。即利用上面得到的D*=diag()作為特殊因子方差的初始估計(jì),重復(fù)上述步驟,直到解穩(wěn)定為止。變量共同度hi2常用的初始估計(jì)有以下幾種方法:●取第i個(gè)變量與其他所有變量的多重相關(guān)系數(shù)的平方;●取第i個(gè)變量與其他變量相關(guān)系數(shù)絕對(duì)值的最大值;●取1,它等價(jià)于主成分解。第58頁(yè),講稿共91頁(yè),2023年5月2日,星期三(3)極大似然法假定公共因子F和特殊因子ε服從正態(tài)分布,那么可得到因子載荷陣和特殊因子方差的極大似然估計(jì),設(shè)p維觀測(cè)向量X(1),...,X(n)為來(lái)自正態(tài)總體Np(μ,∑)的隨機(jī)樣品,則樣品似然函數(shù)為μ,∑的函數(shù)L(μ,∑)。設(shè)∑=AA'+D,取μ=,則似然函數(shù)為A,D的函數(shù):(A,D),求A,D使達(dá)最大。為保證得到唯一解,可附加計(jì)算上方便的唯一性條件:A'D-1A=對(duì)角陣,用迭代方法可求得極大似然估計(jì)A和D。第59頁(yè),講稿共91頁(yè),2023年5月2日,星期三4.因子旋轉(zhuǎn)(正交變換)所謂因子旋轉(zhuǎn)就是將因子載荷矩陣A右乘一個(gè)正交矩陣T后得到一個(gè)新的矩陣A*。它并不影響變量Xi的共同度hi2,卻會(huì)改變因子的方差貢獻(xiàn)qj2。因子旋轉(zhuǎn)通過(guò)改變坐標(biāo)軸,能夠重新分配各個(gè)因子解釋原始變量方差的比例,使因子更易于理解。第60頁(yè),講稿共91頁(yè),2023年5月2日,星期三

設(shè)p維可觀測(cè)向量X滿(mǎn)足因子模型:X=AF+ε。T為正交陣,則因子模型可寫(xiě)為X=ATT'F+ε=A*F*+ε其中A*=AT,F(xiàn)*=T'F。易知,∑

=AA'+D=A*A*'+D(其中A*=AT)。這說(shuō)明,若A,D是一個(gè)因子解,任給正交陣T,A*=AT,D也是因子解。在這個(gè)意義下,因子解是不惟一的。由于因子載荷陣是不惟一的,所以可對(duì)因子載荷陣進(jìn)行旋轉(zhuǎn)。目的是使因子載荷陣的結(jié)構(gòu)簡(jiǎn)化,使載荷矩陣每列或行的元素平方值向0和1兩極分化,這樣的因子便于解釋和命名。第61頁(yè),講稿共91頁(yè),2023年5月2日,星期三

有三種主要的正交旋轉(zhuǎn)法:四次方最大法、方差最大法和等量最大法。這些旋轉(zhuǎn)方法的目標(biāo)是一致的,只是策略不同。如果兩種旋轉(zhuǎn)模型導(dǎo)出不同的解釋?zhuān)@兩種解釋不能認(rèn)為是矛盾的。倒不如說(shuō)是看待相同事物的兩種不同方法,是在公因子空間中的兩個(gè)不同點(diǎn)。只取決于惟一的一種你認(rèn)為是正確旋轉(zhuǎn)的任何結(jié)論都是不成立的。在統(tǒng)計(jì)意義上所有旋轉(zhuǎn)都是一樣的,即不能說(shuō)一些旋轉(zhuǎn)比另一些旋轉(zhuǎn)好。因此,在不同的旋轉(zhuǎn)方法之間進(jìn)行的選擇必須根據(jù)非統(tǒng)計(jì)觀點(diǎn),通常選擇最容易解釋的旋轉(zhuǎn)模型。第62頁(yè),講稿共91頁(yè),2023年5月2日,星期三5.因子得分計(jì)算因子得分的途徑是用原有變量來(lái)描述因子,第j個(gè)因子在第i個(gè)樣品上的值可表示為:Fji=j1xi1+j2xi2+…+jpxip(j=1,2,…,k)

式中,xi1,xi2,…,xip分別是第1,2,…,p個(gè)原有變量在第i個(gè)樣品上的取值,j1,j2,…,jp分別是第j個(gè)因子和第1,2,…,k個(gè)原有變量間的因子值系數(shù)。可見(jiàn),它是原有變量線性組合的結(jié)果(與因子分析的數(shù)學(xué)模型正好相反),因子得分可看作各變量值的加權(quán)(j1,j2,…,jp)總和,權(quán)數(shù)的大小表示了變量對(duì)因子的重要程度。第63頁(yè),講稿共91頁(yè),2023年5月2日,星期三于是有:Fj=j1X1+j2X2+…+jpXp(j=1,2,…,k)

上式稱(chēng)為因子得分函數(shù)。由于因子個(gè)數(shù)k小于原有變量個(gè)數(shù)p,故式中方程的個(gè)數(shù)少于變量的個(gè)數(shù)。因此,對(duì)因子值系數(shù)通常采用最小二乘意義下的回歸法進(jìn)行估計(jì)??蓪⑸鲜娇醋魇且蜃幼兞縁j對(duì)p個(gè)原有變量的線性回歸方程(其中常數(shù)項(xiàng)為0)??梢宰C明,式中回歸系數(shù)的最小二乘估計(jì)滿(mǎn)足:Bj=Aj'R-1,其中Bj=(j1,j2,…,jp),Aj'=(a1j,a2j,…,apj)為第1,2,…,p個(gè)變量在第j個(gè)因子上的因子載荷,R-1為原有變量的相關(guān)系數(shù)矩陣的逆矩陣。由上式計(jì)算出因子變量Fj的因子值系數(shù),再利用因子得分函數(shù)可算出第j個(gè)因子在各個(gè)樣品上的因子得分。第64頁(yè),講稿共91頁(yè),2023年5月2日,星期三6.2.2使用INSIGHT模塊作因子分析【例6-4】今有20個(gè)鹽泉,鹽泉的水化學(xué)特征系數(shù)值見(jiàn)表6-6。試對(duì)鹽泉水的化學(xué)分析數(shù)據(jù)作因子分析。表6-6鹽泉水化學(xué)特征系數(shù)的數(shù)據(jù)利用因子分析法,可揭示觀察數(shù)據(jù)中7個(gè)指標(biāo)之間的相互關(guān)系,尋找潛在的影響因子,并用這些潛在因子對(duì)原指標(biāo)之間的相關(guān)關(guān)系進(jìn)行解釋。假定表6-6的數(shù)據(jù)已經(jīng)存入數(shù)據(jù)集mylib.yq中。序號(hào)x1(礦化度)x2(Br·103/Cl)x3(K·103/鹽)x4(K·103/Cl)x5(Na/K)x6(Mg·102/Cl)x7(Na/Cl)111.8350.48014.36025.21025.210.8100.98245.5960.52613.85024.04026.010.9100.96……………………19304.0920.2830.7891.357438.360.1931.0120202.4460.0420.7411.266309.770.2900.99第65頁(yè),講稿共91頁(yè),2023年5月2日,星期三1.使用INSIGHT模塊做因子分析的步驟在INSIGHT模塊中打開(kāi)數(shù)據(jù)集Mylib.yq。(1)求相關(guān)系數(shù)陣及其特征值選擇菜單“Analyze”“Multivariate(YX)(多元分析)”,打開(kāi)“Multivariate(YX)”對(duì)話框。將變量x1~x7選為Y變量,如圖所示。

第66頁(yè),講稿共91頁(yè),2023年5月2日,星期三

單擊“Output”按鈕,選中“PrincipalComponentAnalysis(主成分分析)”復(fù)選框,如圖所示。單擊下面的“PrincipalComponentOptions(主成分選項(xiàng))”按鈕,打開(kāi)“PrincipalComponentOptions”對(duì)話框,確認(rèn)“Correlations(Structure)(相關(guān)(結(jié)構(gòu)))”復(fù)選框被選中(默認(rèn)狀態(tài)),單擊“OK”按鈕返回;第67頁(yè),講稿共91頁(yè),2023年5月2日,星期三

兩次單擊“OK”按鈕,得到因子分析結(jié)果。輸出的數(shù)字分析結(jié)果包括5個(gè)部分:簡(jiǎn)單統(tǒng)計(jì)量、相關(guān)系數(shù)矩陣、相關(guān)系數(shù)矩陣的特征值以及默認(rèn)的兩個(gè)因子載荷陣等。其中相關(guān)系數(shù)陣及其特征值等如圖6-22所示。結(jié)果顯示,前三個(gè)特征值的方差貢獻(xiàn)率依次為:0.6063、0.1788、0.1315。第68頁(yè),講稿共91頁(yè),2023年5月2日,星期三(2)建立因子載荷陣由于前三個(gè)特征值的累積貢獻(xiàn)率已達(dá)91.66%,故取前三個(gè)特征值建立因子載荷陣。選擇菜單“Tables”“PrincipalComponents”,在彈出的“PrincipalComponentAnalysis”對(duì)話框中選擇“3”個(gè)因子,及“Correlations(Structure)”選項(xiàng),單擊“OK”,得到因子載荷陣如圖所示。

由于第1、2公因子的載荷中有一些數(shù)值在0.5附近的中等載荷,其意義含糊不清,故考慮作因子旋轉(zhuǎn)。

第69頁(yè),講稿共91頁(yè),2023年5月2日,星期三(3)因子旋轉(zhuǎn)重新回到INSIGHT的數(shù)據(jù)窗口,選擇菜單“Analyze”“Multivariate(YX)”,打開(kāi)“Multivariate(YX)”對(duì)話框,將變量x1~x7選為Y變量。首先,單擊“Method”按鈕,在打開(kāi)的對(duì)話框中單擊“RotationOptions”按鈕,打開(kāi)“RotationOptions”對(duì)話框,選擇旋轉(zhuǎn)方式為“Quartimax(最大四分位法)”,并修改“Components”的值為3,如圖6-25所示。第70頁(yè),講稿共91頁(yè),2023年5月2日,星期三

然后,單擊“Output”按鈕,在打開(kāi)的對(duì)話框中單擊“PrincipalComponentAnalysis”復(fù)選框下面的“PrincipalComponentOptions”按鈕,打開(kāi)“PrincipalComponentOptions”對(duì)話框。選中“ComponentRotation”復(fù)選框(圖左),單擊“RotationOptions”按鈕,打開(kāi)“RotationOptions”對(duì)話框,增加選中“OutputComponentScores”復(fù)選框和“CommunalityEstimates”復(fù)選框如圖右所示。

第71頁(yè),講稿共91頁(yè),2023年5月2日,星期三

結(jié)果包括正交旋轉(zhuǎn)矩陣(OrthogonalRotationMatrix)、旋轉(zhuǎn)后的因子載荷陣(RotationCorrelations(Structure))(圖左),以及各變量的共同度(圖右)。在數(shù)據(jù)集窗口還可以看到旋轉(zhuǎn)前后的因子得分。第72頁(yè),講稿共91頁(yè),2023年5月2日,星期三2.因子分析的結(jié)果分析從旋轉(zhuǎn)后的因子模型(即因子載荷陣)中可以看出,相對(duì)于旋轉(zhuǎn)前的因子模型,第一個(gè)公因子在x1、x5上的載荷增加,而在x2、x6、x7三個(gè)指標(biāo)上的載荷明顯減少。公因子1的載荷有正有負(fù),正載荷主要是x5和x1,它們是鈉鹽形成的顯示;負(fù)載荷主要是x3和x4,它們表示了鉀鹽形成的必要物質(zhì)來(lái)源。第二個(gè)公因子在x6(Mg·102/Cl)、x7(Na/Cl)兩個(gè)指標(biāo)上的載荷明顯增加,這說(shuō)明第二公因子是鉀鹽形成的條件的顯示。第三個(gè)公因子中起主要作用的是x2(Br·103/Cl),它是鉀鹽或鉀礦化的一個(gè)環(huán)境標(biāo)志。第73頁(yè),講稿共91頁(yè),2023年5月2日,星期三

回到INSIGHT數(shù)據(jù)窗口,用鼠標(biāo)單擊左上角的三角箭頭,在彈出的菜單中選擇“Extract”,打開(kāi)“Extract”對(duì)話框,按下“Ctrl”鍵,用鼠標(biāo)選定ID、RT1、RT2和RT3,如圖6-28左所示,單擊“OK”按鈕,得到只包含編號(hào)及旋轉(zhuǎn)后因子得分的數(shù)據(jù)子集如圖6-29右。

第74頁(yè),講稿共91頁(yè),2023年5月2日,星期三

利用數(shù)據(jù)窗口的排序功能,依次按三種公因子排序結(jié)果如圖6-30所示。

第75頁(yè),講稿共91頁(yè),2023年5月2日,星期三

圖6-31是根據(jù)樣品的因子得分,取RT1和RT2兩個(gè)因子軸作因子得分圖??梢?jiàn)20個(gè)鹽泉除第3號(hào)和7號(hào)外可分為三類(lèi):第一類(lèi)為第14~20號(hào)鹽泉,它們以第一因子軸上得分高,F(xiàn)2上得分絕對(duì)值低為特征;第二類(lèi)為第8~13號(hào)鹽泉,它們以F1上得分絕對(duì)值小,F(xiàn)2上得分為較大的負(fù)值為特征;第三類(lèi)為第1~6號(hào)鹽泉,它們以F1上得分為較大負(fù)值為特征。這三類(lèi)表示三種不同的鹽泉。第76頁(yè),講稿共91頁(yè),2023年5月2日,星期三6.2.3使用FACTOR過(guò)程進(jìn)行因子分析1.FACTOR過(guò)程簡(jiǎn)介PROCFACTORDATA=<數(shù)據(jù)集><選項(xiàng)>;

VAR<原始變量>;

[PRIORS<共性值列表>;][PARTIAL<變量列表>;][FREQ<變量>;][WEIGHT<變量>;][BY<變量列表>;]RUN;第77頁(yè),講稿共91頁(yè),2023年5月2日,星期三(1)PROCFACTOR語(yǔ)句

PROCFACTOR語(yǔ)句標(biāo)志FACTOR過(guò)程的開(kāi)始,同時(shí)還可通過(guò)設(shè)置其他語(yǔ)句定義數(shù)據(jù)集、指定具體分析方法和過(guò)程等??稍O(shè)置的選項(xiàng)及其功能見(jiàn)表6-7。通常只需要VAR語(yǔ)句作為PROCFACTOR語(yǔ)句的附加選項(xiàng),其余均可省略。(2)VAR語(yǔ)句

VAR語(yǔ)句用來(lái)指定需要分析的數(shù)值變量。如果該句省略,那么在其他語(yǔ)句中未做特殊規(guī)定的所有數(shù)值變量都將被分析。第78頁(yè),講稿共91頁(yè),2023年5月2日,星期三(3)PARTIAL語(yǔ)句如果想將因子分析建立在偏相關(guān)陣或協(xié)差陣的基礎(chǔ)上,可用PARTIAL語(yǔ)句,以便程序?qū)ARTIAL語(yǔ)句列出的變量的效果從整體分析中劃分出來(lái)。(4)PRIOR語(yǔ)句

PRIOR語(yǔ)句為每一個(gè)變量指定一個(gè)從0.0到1.0之間的初始共性方差估計(jì)值。第一個(gè)數(shù)值對(duì)應(yīng)于VAR語(yǔ)句中的第一個(gè)變量,第二個(gè)數(shù)值對(duì)應(yīng)第二個(gè)變量,依次類(lèi)推。給出的數(shù)值個(gè)數(shù)必須與變量個(gè)數(shù)相等。可以用“PROCFACTOR”語(yǔ)句中的“PRIORS=”選項(xiàng)指定各種各樣的共性方差估計(jì)方法。第79頁(yè),講稿共91頁(yè),2023年5月2日,星期三2.PROCSCORE得分過(guò)程

FACTOR過(guò)程的輸出結(jié)果包括特征值情況、因子載荷、公因子解釋比例,等等。為了計(jì)算因子得分,一般在PROCFACTOR語(yǔ)句中加一個(gè)SCORE選項(xiàng)和“OUTSTAT=輸出數(shù)據(jù)集”選項(xiàng),然后用如下的得分過(guò)程計(jì)算公因子得分。PROCSCOREDATA=<原始數(shù)據(jù)集>SCORE=<FACTOR過(guò)程的輸出數(shù)據(jù)集>OUT=<得分輸出數(shù)據(jù)集>;

VAR<用來(lái)計(jì)算得分的原始變量集合>;RUN;第80頁(yè),講稿共91頁(yè),2023年5月2日,星期三3.實(shí)例分析【例6-5】2004年31個(gè)省市自治區(qū)經(jīng)濟(jì)發(fā)展基本情況的八項(xiàng)指標(biāo),原始數(shù)據(jù)如表6-8所示。表6-831個(gè)省市自治區(qū)經(jīng)濟(jì)發(fā)展基本情況假定上述數(shù)據(jù)存放在數(shù)據(jù)集Mylib.jjfz中,試對(duì)經(jīng)濟(jì)發(fā)展基本情況的八項(xiàng)指標(biāo)作因子分析。地區(qū)GDPx1工業(yè)生產(chǎn)總值x2固定資產(chǎn)投資x3居民消費(fèi)水平x4貨物周轉(zhuǎn)量x5居民消費(fèi)價(jià)格指數(shù)x6商品零售價(jià)格指數(shù)x7職工平均工資x8北京4283.311290.162528.211354.23537.7100.95299.24929674天津2931.881436.731245.66806.111122

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論