主成份和因子分析_第1頁
主成份和因子分析_第2頁
主成份和因子分析_第3頁
主成份和因子分析_第4頁
主成份和因子分析_第5頁
已閱讀5頁,還剩86頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

關于主成份和因子分析第1頁,講稿共91頁,2023年5月2日,星期三6.1主成分分析6.1.1主成分分析的概念與步驟6.1.2使用INSIGHT模塊作主成分分析6.1.3使用“分析家”作主成分分析6.1.4使用PRINCOMP過程進行主成分分析第2頁,講稿共91頁,2023年5月2日,星期三6.1.1主成分分析的概念與步驟1.主成分分析基本思想主成分分析是數(shù)學上對數(shù)據降維的一種方法。其基本思想是設法將原來眾多的具有一定相關性的指標(比如p個指標),重新組合成一組新的互不相關的綜合指標來代替原來指標。通常數(shù)學上的處理就是將原來p個指標作線性組合,作為新的綜合指標。但是這種線性組合,如果不加限制,則可以有很多,應該如何去選取呢?第3頁,講稿共91頁,2023年5月2日,星期三

在所有的線性組合中所選取的F1應該是方差最大的,故稱F1為第一主成分。如果第一主成分不足以代表原來p個指標的信息,再考慮選取F2即選第二個線性組合。為了有效地反映原有信息,F(xiàn)1已有的信息就不需要再出現(xiàn)在F2中,用數(shù)學語言表達就是要求Cov(F1,F(xiàn)2)=0。稱F2為第二主成分,依此類推可以構造出第三、第四、…、第p個主成分。第4頁,講稿共91頁,2023年5月2日,星期三2.主成分分析的數(shù)學模型設有n個樣品(多元觀測值),每個樣品觀測p項指標(變量):X1,X2,…,Xp,得到原始數(shù)據資料陣:其中Xi=(x1i,x2i,…,xni)',i=1,2,…,p。第5頁,講稿共91頁,2023年5月2日,星期三

用數(shù)據矩陣X的p個列向量(即p個指標向量)X1,X2,…,Xp作線性組合,得綜合指標向量:簡寫成:Fi=a1iX1+ai2X2+…+apiXp

i=1,2,…,p第6頁,講稿共91頁,2023年5月2日,星期三為了加以限制,對組合系數(shù)ai'=(a1i,a2i,…,api)作如下要求:即:ai為單位向量:ai'ai=1,且由下列原則決定:

1)Fi與Fj(ij,i,j=1,…,p)互不相關,即Cov(Fi,F(xiàn)j)=ai'ai=0,其中Σ是X的協(xié)方差陣。

2)F1是X1,X2,…,Xp的一切線性組合(系數(shù)滿足上述要求)中方差最大的,即,其中c=(c1,c2,…,cp)'

F2是與F1不相關的X1,X2,…,Xp一切線性組合中方差最大的,…,F(xiàn)p是與F1,F(xiàn)2,…,F(xiàn)p-1都不相關的X1,X2,…,Xp的一切線性組合中方差最大的。第7頁,講稿共91頁,2023年5月2日,星期三

滿足上述要求的綜合指標向量F1,F(xiàn)2,…,F(xiàn)p就是主成分,這p個主成分從原始指標所提供的信息總量中所提取的信息量依次遞減,每一個主成分所提取的信息量用方差來度量,主成分方差的貢獻就等于原指標相關系數(shù)矩陣相應的特征值i,每一個主成分的組合系數(shù)ai'=(a1i,a2i,…,api)就是相應特征值i所對應的單位特征向量ti。方差的貢獻率為,i越大,說明相應的主成分反映綜合信息的能力越強。第8頁,講稿共91頁,2023年5月2日,星期三3.主成分分析的步驟(1)計算協(xié)方差矩陣計算樣品數(shù)據的協(xié)方差矩陣:Σ=(sij)pp,其中

i,j=1,2,…,p(2)求出Σ的特征值及相應的特征向量求出協(xié)方差矩陣Σ的特征值12…p>0及相應的正交化單位特征向量:則X的第i個主成分為Fi=ai'X

i=1,2,…,p。第9頁,講稿共91頁,2023年5月2日,星期三(3)選擇主成分在已確定的全部p個主成分中合理選擇m個來實現(xiàn)最終的評價分析。一般用方差貢獻率解釋主成分Fi所反映的信息量的大小,m的確定以累計貢獻率達到足夠大(一般在85%以上)為原則。第10頁,講稿共91頁,2023年5月2日,星期三(4)計算主成分得分計算n個樣品在m個主成分上的得分:

i=1,2,…,m(5)標準化實際應用時,指標的量綱往往不同,所以在主成分計算之前應先消除量綱的影響。消除數(shù)據的量綱有很多方法,常用方法是將原始數(shù)據標準化,即做如下數(shù)據變換:其中,,j=1,2,…,p。標準化后的數(shù)據陣記為X*,其中每個列向量(標準化變量)的均值為0,標準差為1,數(shù)據無量綱。第11頁,講稿共91頁,2023年5月2日,星期三

標準化后變量的協(xié)方差矩陣(CovarianceMatrix)Σ=(sij)pp,即原變量的相關系數(shù)矩陣(CorrelationMatrix)R=(rij)pp:i,j=1,2,…,p

此時n個樣品在m個主成分上的得分應為:Fj=a1jX1*+a2jX2*+...+apjXp*

j=1,2,…,m第12頁,講稿共91頁,2023年5月2日,星期三6.1.2使用INSIGHT模塊作主成分分析【例6-1】全國沿海10個省市經濟指標的主成分分析表6-1全國沿海10個省市經濟綜合指標假設表6-1中數(shù)據已經存放在數(shù)據集Mylib.jjzb中,試對各地區(qū)的經濟發(fā)展水平進行主成分分析。地區(qū)GDPx1人均GDPx2工業(yè)增加值x3第三產業(yè)增加值x4固定資產投資x5基本建設投資x6社會消費品零售總額x7海關出口總額x8地方財政收入x9遼寧5458.2130001376.22258.41315.95292258.4123.7399.7山東10550116433502.538512288.71070.73181.9211.1610.2河北6076.690471406.72092.61161.6597.11968.345.9302.3天津2022.622068822.8960703.7361.9941.4115.7171.8江蘇10636.3143973536.33967.223201141.33215.8384.7643.7上海5408.8406272196.22755.81970.2779.32035.2320.5709浙江7670165702356.530652296.61180.62877.5294.2566.9福建4682135101047.11859964.5397.91663.3173.7272.9廣東11769.7150304224.64793.63022.91275.55013.61843.71201.6廣西2455.45062367995.7542.2352.71025.515.1186.7第13頁,講稿共91頁,2023年5月2日,星期三1.使用INSIGHT模塊做主成分分析的步驟使用INSIGHT模塊做主成分分析的步驟如下:

1)在INSIGHT模塊中打開數(shù)據集Mylib.jjzb;選擇菜單“Analyze”“Multivariate(YX)(多元分析)”,打開“Multivariate(YX)”對話框;

2)將做主成分分析的變量x1~x9選為Y變量,將變量diqu選為Label變量,如圖所示。第14頁,講稿共91頁,2023年5月2日,星期三圖6-1多元分析對話框

3)單擊“Method”按鈕,在打開的對話框中可以選擇計算協(xié)方差矩陣的特征值或是計算相關系數(shù)矩陣的特征值。系統(tǒng)默認計算相關系數(shù)矩陣的特征值和特征向量,單擊“OK”按鈕返回。第15頁,講稿共91頁,2023年5月2日,星期三4)單擊“Output”按鈕,在打開的對話框(圖左)中包括“DescriptiveStatistics”選項、“BivariatePlots”選項以及各種多元分析的選項。選中“PrincipalComponentAnalysis”復選框,單擊下面的“PrincipalComponentOptions”按鈕,打開“PrincipalComponentOptions”對話框,選中“Eigenvectors”復選框,取消“Correlations(Structure)”復選框,如圖右所示。

第16頁,講稿共91頁,2023年5月2日,星期三2.主成分的結果分析輸出的數(shù)字分析結果有4個部分:簡單統(tǒng)計量、相關系數(shù)矩陣、相關系數(shù)矩陣的特征值以及相關系數(shù)矩陣的特征向量。第17頁,講稿共91頁,2023年5月2日,星期三3)圖6-5給出相關系數(shù)矩陣的特征值(Eigenvalue)、上下特征值之差(Difference)、各主成分的方差貢獻率(Proportion)以及累積貢獻率(Cumulative)。

相關系數(shù)矩陣的特征值即各主成分的方差,可以看出,第一主成分的方差貢獻率為80.11%,前兩個主成分的累積貢獻率已達92.33%,因此,只需用前面2個主成分就可以概括這組數(shù)據。

第18頁,講稿共91頁,2023年5月2日,星期三4)圖6-6給出相關系數(shù)矩陣的兩個最大特征值的特征向量,據此可以寫出第一和第二主成分得分:PCR1=0.35x1*+0.04x2*+0.36x3*+0.37x4*+0.37x5*+0.35x6*+0.36x7*+0.30x8*+0.36x9*PCR2=-0.21x1*+0.94x2*–0.01x3*–0.05x4*+0.10x5*–0.02x6*–0.14x7*+0.05x8*+0.18x9*對于第一主成分而言,除了x2(人均GDP)外,各變量所占比重均在0.3左右以上,因此第一主成分(Prin1)主要由x1、x3~x9八個變量解釋;而第二主成分則主要由x2這一個變量解釋。第19頁,講稿共91頁,2023年5月2日,星期三5)選擇菜單“Edit(編輯)”“Observations(觀測)”“LabelinPlots”,在彈出的對話框中選中所有diqu變量值,單擊“OK”按鈕返回,顯示結果中的散點圖上出現(xiàn)地區(qū)名;圖中看出,上海在第二主成分PCR2的得分遠遠高于其他省市,而在第一主成分PCR1的得分則處于中間。廣東、江蘇、山東和浙江則在第1主成分的得分上位于前列。第20頁,講稿共91頁,2023年5月2日,星期三6)回到INSIGHT的數(shù)據窗口,可以看到前兩個主成分的得分情況(如圖6-8左)。單擊數(shù)據窗口左上角的箭頭,在彈出的菜單中選擇“Sort(排序)”選項,在打開的對話框中選定排序變量PCR1,并單擊“Asc/Des”按鈕將其設為降序(Des),如圖6-8所示。

第21頁,講稿共91頁,2023年5月2日,星期三

單擊“OK”按鈕返回,得到按第一主成分排序的結果如圖6-9左所示。同樣方法可以得到按第二主成分排序的結果如圖6-9右所示。從第一主成分排序情況來看,沿海19省市經濟發(fā)展狀況綜合排名前5位的省市依次為:廣東、江蘇、山東、浙江、上海;從第二主成分排序情況來看,人均GDP排名前5位的省市依次是:上海、天津、浙江、廣東、福建。

第22頁,講稿共91頁,2023年5月2日,星期三6.1.3使用“分析家”作主成分分析【例6-2】某企業(yè)為了了解其客戶的信用程度,評價客戶的信用等級,采用信用評估常用的5C方法,5C的目的是說明顧客違約的可能性。1)品格x1,指客戶的信譽。

2)能力x2,指客戶的償還能力。

3)資本x3,指客戶的財務勢力和財務狀況。

4)附帶的擔保品x4。

5)環(huán)境條件x5,指客戶的外部因素。第23頁,講稿共91頁,2023年5月2日,星期三

通過專家打分,得到10個客戶5項指標的得分如表6-3所示。表6-210個客戶5項指標的得分假設表6-2中數(shù)據已經存放在數(shù)據集Mylib.xydj中,試對各客戶的信用等級進行評估??蛻艟幪朓Dx1x2x3x4x5客戶編號IDx1x2x3x4x5176.581.57675.871.768579.280.384.476.5270.67367.668.178.57949487.589.592390.787.39181.580884.666.968.864.866.4477.573.670.969.874.8957.760.457.460.865585.668.57062.276.5107069.271.764.968.9第24頁,講稿共91頁,2023年5月2日,星期三1.使用“分析家”做主成分分析的步驟

1)在“分析家”中打開數(shù)據集Mylib.xydj;

2)選擇菜單“Statistics(統(tǒng)計)”“Multivariate(多元分析)”“PrincipalComponents(主成分分析)”,打開“PrincipalComponents”對話框;

3)在對話框中輸入主成分分析的變量,如圖所示。第25頁,講稿共91頁,2023年5月2日,星期三4)單擊“Statistics(統(tǒng)計)”按鈕,打開“PrincipalComponents:Statistics”對話框;在“#ofcomponents:”右邊的框中指定主成分的個數(shù)4,如圖右。單擊“OK”返回;第26頁,講稿共91頁,2023年5月2日,星期三5)單擊“SaveData”按鈕,打開“PrincipalComponents:SaveData”對話框,在該對話框中可選擇存儲數(shù)據。選中“Createandsavescoresdata”,如圖6-11所示。單擊“OK”返回;第27頁,講稿共91頁,2023年5月2日,星期三6)單擊“Plots”按鈕,打開“PrincipalComponents:Plots”對話框,可以設置圖形輸出?!裨凇癝creePlot(碎石圖)”選項卡中(圖左),選中“Createscreeplot(建立碎石圖)”復選框?!裨凇癈omponentPlot(成分圖)”選項卡中(圖右),選中“CreatecomponentPlot(建立成分圖)”復選框。

第28頁,講稿共91頁,2023年5月2日,星期三2.主成分的結果分析輸出的數(shù)字分析結果包括4個部分:簡單統(tǒng)計量、相關系數(shù)矩陣、相關系數(shù)矩陣的特征值以及相關系數(shù)矩陣的特征向量。

1)圖6-13給出變量的簡單統(tǒng)計量,圖中顯示5項指標中品格、能力和附帶擔保品是最為重要的,其標準差高出其他變量。第29頁,講稿共91頁,2023年5月2日,星期三2)圖6-14給出各變量之間的相關系數(shù)矩陣。可以看出,能力與資本、附帶擔保品有著較強的相關性,表明客戶的償還能力與其財務實力、財務狀況和抵押資產有著重要的關系。第30頁,講稿共91頁,2023年5月2日,星期三3)圖6-15給出相關系數(shù)矩陣的特征值(Eigenvalues)、上下特征值之差(Difference)、各主成分的方差貢獻率(proportion)以及累積貢獻率(Cumulative)。

相關系數(shù)矩陣的特征值即各主成分的方差,可以看出,第一主成分的方差貢獻率為84.22%,第二主成分的方差貢獻率為7.67%,第三主成分的方差貢獻率為5.95%。說明第一主成分已經具有足夠多的方差貢獻率,可以很好地概括這組數(shù)據。第31頁,講稿共91頁,2023年5月2日,星期三

在“分析家”左邊的管理窗口中雙擊“Screeplot”項,打開的“Screeplot”對話框顯示前4個特征值的“碎石圖”,很直觀地看到第一主成分遠遠大于其它特征值,說明第一主成分已經代表了絕大部分信息。第32頁,講稿共91頁,2023年5月2日,星期三4)圖6-16給出相關系數(shù)矩陣的特征向量,由最大特征值所對應的特征向量可以寫出第一主成分的表達式。Prin1=0.4135x1*+0.4729x2*+0.4656x3*+0.4547x4*+0.4265x5*

利用特征向量各分量的值可以對主成分進行解釋,對于第一主成分而言,各變量所占比重大致相等,且均為正數(shù),說明第一主成份是對所有指標的一個綜合測度,作為綜合的信用等級指標,可以用來排序。第33頁,講稿共91頁,2023年5月2日,星期三5)在“分析家”窗口中,雙擊左邊項目管理中的“ScoresTable”項,打開“ScoresTable”對話框;選擇菜單“File”“SaveasBySASName”,將其保存為數(shù)據表Scores;然后,在VIEWTABLE中打開該表;選擇菜單“Data”“Sort”,按主成分Prin1排序,結果如表6-3所示。表6-3客戶的信用等級在正確評估了顧客的信用等級后,就能正確制定出對其的信用期、收賬政策等,這對于加強應收賬款的管理大有幫助??蛻艟幪?2345678910第一主成分得分3.17-9.0125.09-4.36-6.4113.6235.88-10.34-33.80-13.83名次47256318109第34頁,講稿共91頁,2023年5月2日,星期三6.1.4使用PRINCOMP過程進行主成分分析1.PRINCOMP過程的功能簡介

1)PRINCOMP過程計算結果有:簡單統(tǒng)計量,相關陣或協(xié)方差陣,從大到小排序的特征值和相應特征向量,每個主成分解釋的方差比例,累計比例等。由特征向量得出相應的主成分,用少數(shù)幾個主成分代替原始變量,并計算主成分得分。

2)主成分的個數(shù)可以由用戶自己確定,主成分的名字可以用戶自己規(guī)定,主成分得分是否標準化可由用戶規(guī)定。第35頁,講稿共91頁,2023年5月2日,星期三3)輸入數(shù)據集可以是原始數(shù)據集、相關陣、協(xié)方差陣等。輸入為原始數(shù)據時,還可以規(guī)定從協(xié)方差陣出發(fā)還是從相關陣出發(fā)進行分析,由協(xié)方差陣出發(fā)時方差大的變量在分析中起到更大的作用。

4)該過程還可生成兩個輸出數(shù)據集:一個包含原始數(shù)據及主成分得分,它可作為主成分回歸和聚類分析的輸入數(shù)據集;另一個包含有關統(tǒng)計量,類型為TYPE=CORR或COV的輸出集,它也可作為其他過程的輸入SAS集。第36頁,講稿共91頁,2023年5月2日,星期三2.PRINCOMP過程的格式

PRINCOMP過程的常用格式如下:PROCPRINCOMP<選項列表>;VAR變量列表;[WEIGHT變量列表;][FREQ變量列表;][PARTIAL變量列表;][BY變量列表;]RUN;第37頁,講稿共91頁,2023年5月2日,星期三

其中:

1)PROCPRINCOMP語句用來規(guī)定輸入輸出和一些運行選項,其選項及功能見表6-4。表6-4PROCPRINCOMP語句的選項

2)VAR語句指定用于主成分分析的變量,變量必須為數(shù)值型(區(qū)間型)變量。缺省使用DATA=輸入數(shù)據集中所有數(shù)值型變量進行主成分分析。DATA=輸入數(shù)據集,可以是原始數(shù)據集,也可以是TYPE=CORR,COV的數(shù)據集;OUT=輸出包含原始數(shù)據和主成分得分的數(shù)據集;OUTSTAT=統(tǒng)計量輸出數(shù)據集;COVARIANCE|COV要求從協(xié)方差陣出發(fā)計算主成分,缺省為從相關陣出發(fā)計算。N=要計算的主成分個數(shù),缺省時全部計算。STANDARD|STD要求在OUT=的數(shù)據集中把主成分得分標準化為單位方差。缺省時主成分得分的方差為相應特征值。PREFIX=主成分名字的前綴,缺省時為PRIN1、PRIN2…。第38頁,講稿共91頁,2023年5月2日,星期三3.應用實例【例6-3】對全國30個省市自治區(qū)經濟發(fā)展基本情況的八項指標作主成分分析,原始數(shù)據如表6-5。表6-5全國30個省市自治區(qū)經濟發(fā)展基本情況省份GDPx1居民消費水平x2固定資產投資x3職工平均工資x4貨物周轉量x5居民消費價格指數(shù)x6商品零售價格指數(shù)x7工業(yè)總產值x8北京1394.892505519.018144373.9117.3112.6843.43天津920.112720345.466501342.8115.2110.6582.51河北2849.521258704.8748392033.3115.2115.81234.85山西1092.481250290.94721717.3116.9115.6697.25內蒙832.881387250.234134781.7117.5116.8419.39遼寧2793.372397387.9949111371.1116.11141840.55吉林1129.21872320.454430497.4115.2114.2762.47黑龍江2014.532334435.734145824.8116.1114.31240.37上海2462.575343996.489279207.4118.71131642.95江蘇5155.2519261434.9559431025.5115.8114.32026.64浙江3524.7922491006.396619754.4116.6113.5916.59第39頁,講稿共91頁,2023年5月2日,星期三省份GDPx1居民消費水平x2固定資產投資x3職工平均工資x4貨物周轉量x5居民消費價格指數(shù)x6商品零售價格指數(shù)x7工業(yè)總產值x8安徽2003.5812544744609908.3114.8112.7824.14福建2160.522320553.975857609.3115.2114.4433.67江西1205.111182282.844211411.7116.9115.9571.84山東5002.3415271229.5551451196.6117.6114.22207.69河南3002.741034670.3543441574.4116.5114.91367.92湖北2391.421527571.684685849120116.61220.72湖南2195.71408422.6147971011.8119115.5843.83廣東5381.7226991639.838250656.5114111.61396.35廣西1606.151314382.595105556118.4116.4554.97海南364.171814198.355340232.1113.5111.364.33四川35341261822.544645902.3118.51171431.81貴州630.07942150.844475301.1121.4117.2324.72云南1206.6812613345149310.4121.3118.1716.65西藏55.98111017.8773824.2117.3114.95.57陜西1000.031208300.274396500.9119117600.98甘肅553.351007114.815493507119.8116.5468.79青海165.31144547.76575361.6118116.3105.8寧夏169.75135561.985079121.8117.1115.3114.4新疆834.571469376.955348339119.7116.7428.76第40頁,講稿共91頁,2023年5月2日,星期三(1)數(shù)據集假定上述數(shù)據已經存放在數(shù)據集Mylib.jjfz中。(2)執(zhí)行主成分分析的PRINCOMP過程對數(shù)據集jjfz執(zhí)行主成分分析的PRINCOMP過程代碼如下:procprincompdata=Mylib.jjfzn=4out=w1outstat=w2;varx1-x8;procprintdata=w1;run;第41頁,講稿共91頁,2023年5月2日,星期三(3)結果分析在各變量之間的相關系數(shù)矩陣中可以看出,有較強相關性的變量依次為:

GDP(x1)與固定資產投資(x3)之間的相關系數(shù)為0.9506;

GDP(x1)與工業(yè)總產值(x8)之間的相關系數(shù)為0.8737;固定資產投資(x3)與工業(yè)總產值(x8)之間的相關系數(shù)為0.7919;居民消費價格指數(shù)(x6)與商品零售價格指數(shù)(x7)之間的相關系數(shù)為0.7628;貨物周轉量(x5)與工業(yè)總產值(x8)之間的相關系數(shù)為0.6586,等等。第42頁,講稿共91頁,2023年5月2日,星期三

圖6-18給出相關系數(shù)矩陣的特征值、上下特征值之差、各主成分對方差的貢獻率以及累積的貢獻率。相關系數(shù)矩陣的特征值即各主成分的方差,可以看出,第一主成分對方差的貢獻率為46.94%,第二主成分對方差的貢獻率為27.46%,第三主成分對方差的貢獻率為15.19%,之后的主成分的貢獻率為0.05。前三個主成分的累積貢獻率為89.58%,因此,對第四主成分以后的主成分完全可以忽略不計,用前三個主成分就可以很好地概括這組數(shù)據。第43頁,講稿共91頁,2023年5月2日,星期三圖6-19原始變量對于各個主成分的因子載荷量圖6-19給出相關系數(shù)矩陣前4大特征值對應的特征向量,由此可以寫出前三個主成分的表達式:Prin1=0.46x1*+0.31x2*+0.47x3*+0.24x4*+0.25x5*–0.26x6*–0.32x7*+0.42x8*Prin2=0.26x1*–0.40x2*+0.11x3*–0.49x4*+0.50x5*+0.17x6*+0.40x7*+0.29x8*Prin3=0.11x1*+0.25x2*+0.19x3*+0.33x4*–0.25x5*+0.72x6*+0.40x7*+0.19x8*第44頁,講稿共91頁,2023年5月2日,星期三

可見,第一主成分中x3、x1、x8的系數(shù)最大;第二主成分中x5、x7具有較大的正系數(shù),x4、x2則具有較大的負系數(shù);第三主成分中x6的系數(shù)最大,遠遠超過其他指標的影響。因此,可以把第一主成分看成是由固定資產投資(x3)、GDP(x1)、工業(yè)總產值(x8)所刻畫的反映經濟發(fā)展水平的綜合指標;把第二主成分看成是由貨物周轉量(x5)、職工平均工資(x4)、居民消費水平(x2)、商品零售價格指數(shù)(x7)所刻畫的與人民生活水平有關的綜合指標;把第三主成分單獨看成是居民消費價格指數(shù)(x6)的影響指標。最后輸出的是數(shù)據集w1,其中包含前4個主成分Prin1~Prin4的得分。第45頁,講稿共91頁,2023年5月2日,星期三(4)主成分的散點圖按第一主成分和第二主成分的得分作圖,又稱為載荷圖,代碼如下:procplotdata=w1vpct=80;plotprin1*prin2$diqu='*'/haxis=-3.5to3by0.5HREF=-2,0,2vaxis=-3to4.5by1.5VREF=-2,0,2;run;顯示如圖6-20。第46頁,講稿共91頁,2023年5月2日,星期三

廣東、江蘇、上海、山東的第一主成分取值較高,說明這些省市的經濟發(fā)展水平較高,其次是浙江、遼寧、河北、河南、北京、天津等。由于在第二主成分中職工平均工資與居民消費水平具有負的載荷量,因此處于右半圖中的河北、河南、山東等地的職工平均工資與居民消費水平較低,商品零售價格指數(shù)較高;而左半圖中上海、天津、海南、北京等地的職工平均工資與居民消費水平較高,商品零售價格指數(shù)較低。第47頁,講稿共91頁,2023年5月2日,星期三6.2因子分析6.2.1因子分析的概念與步驟6.2.2使用INSIGHT模塊作因子分析6.2.3使用FACTOR過程進行因子分析第48頁,講稿共91頁,2023年5月2日,星期三6.2.1因子分析的概念與步驟1.因子分析模型設p維可觀測的隨機向量X=(X1,...,Xp)'(假定Xi為標準化變量,即E(Xi)=0,Var(Xi)=1,i=1,2,…,p)表示為第49頁,講稿共91頁,2023年5月2日,星期三或X=AF+ε

上式稱為因子模型,其中F1、F2、…、Fm稱為公共因子,簡稱因子,是不可觀測的變量;待估的系數(shù)陣A稱為因子載荷陣,aij(i=1,2,…,p;j=1,2,…,m)稱為第i個變量在第j個因子上的載荷(簡稱為因子載荷);

ε稱為特殊因子,是不能被前m個公共因子包含的部分。并且滿足:cov(F,ε)=0,即F,ε不相關;

D(F)=Im,即F1、F2、…、Fm互不相關,方差為1;D(ε)=diag(12,22,…,p2),即ε1、ε2、…、εp互不相關,方差不一定相等,εi~N(0,i2)。因子分析的目的就是通過模型X=AF+ε以F代替X,由于m<p,從而達到降維的愿望。第50頁,講稿共91頁,2023年5月2日,星期三2.因子分析模型中的幾個統(tǒng)計特征(1)因子載荷aij的統(tǒng)計意義由Xi=ai1F1+…+aimFm+εi,兩邊同乘以Fj,再求數(shù)學期望:E(XiFj)=ai1E(F1Fj)+…+aijE(FjFj)+…+aimE(FmFj)+E(εiFj)

從而有rij=E(XiFj)=aij

即載荷矩陣中第i行,第j列的元素aij是第i個變量與第j個公共因子的相關系數(shù),反映了第i個變量與第j個公共因子的相關程度。|aij|1,絕對值越大,相關程度越高。在這種意義上公共因子解釋了觀測變量間的相關性。第51頁,講稿共91頁,2023年5月2日,星期三(2)變量共同度的統(tǒng)計意義因子載荷矩陣第i行的元素平方和:稱為變量Xi的共同度(i=1,2,…,p)。對Xi=ai1F1+…+aimFm+εi兩邊求方差:顯然,若因子方差hi2大,剩余方差i2必小。而hi2大就表明Xi對公因子的共同依賴程度大。設Var(Xi)=1,即所有的公共因子和特殊因子對變量Xi的貢獻為1。如果hi2非??拷?,則i2非常小,此時因子分析的效果好,從原變量空間到公共因子空間的轉化性質好。可見hi2反映了變量Xi對公共因子F的依賴程度,故稱hi2為變量Xi的共同度。第52頁,講稿共91頁,2023年5月2日,星期三(3)公共因子Fj方差貢獻的統(tǒng)計意義因子載荷矩陣A中各列元素的平方和:稱為公共因子Fj對X的貢獻,是衡量Fj相對重要性的指標,qj2越大表明Fj對X的貢獻越大。第53頁,講稿共91頁,2023年5月2日,星期三3.因子載荷矩陣的估計方法給定p個相關變量X1,...,Xp的觀測數(shù)據陣X,由X=AF+ε易推出∑

=AA'+D其中∑

=D(X)為X的協(xié)方差陣,A=(aij)為p

m的因子載荷陣,D=diag(12,22,…,p2)為p階對角陣。由p個相關變量的觀測數(shù)據可得到協(xié)差陣的估計,記為S。為了建立因子模型,首先要估計因子載荷aij和特殊方差i2。常用的參數(shù)估計方法有以下三種:主成分法,主因子法和極大似然法。第54頁,講稿共91頁,2023年5月2日,星期三(1)主成分法設樣品協(xié)方差陣S的特征值為λ1≥λ2≥…≥λp≥0,u1,u2,…,up,為對應的標準化特征向量,當最后p–m個特征值較小時,S可近似地分解為:其中為pm陣,,即得因子模型的一個解。載荷陣A中的第j列和X的第j個主成分的系數(shù)相差一個倍數(shù)(j=1,…,m),故這個解稱為主成分解。第55頁,講稿共91頁,2023年5月2日,星期三(2)主因子法主因子方法是對主成分方法的修正,設R=AA'+D,則R*=R–D=AA'稱為約相關矩陣,若已知特殊因子方差的初始估計,也就是已知變量共同度的估計:則R*對角線上的元素是,而不是1。即:第56頁,講稿共91頁,2023年5月2日,星期三

計算R*的特征值和特征向量,取前m個正特征值λ1*≥λ2*≥…≥λp*>0,相應的特征向量為u1*,u2*,…,up*,則有近似分解式:R*=AA'其中,令(i=1,…,p),則A和D為因子模型的一個解,這個解稱為主因子解。第57頁,講稿共91頁,2023年5月2日,星期三

在實際中特殊因子方差(或變量共同度)是未知的。以上得到的解是近似解。為了得到近似程度更好的解,常常采用迭代主因子法。即利用上面得到的D*=diag()作為特殊因子方差的初始估計,重復上述步驟,直到解穩(wěn)定為止。變量共同度hi2常用的初始估計有以下幾種方法:●取第i個變量與其他所有變量的多重相關系數(shù)的平方;●取第i個變量與其他變量相關系數(shù)絕對值的最大值;●取1,它等價于主成分解。第58頁,講稿共91頁,2023年5月2日,星期三(3)極大似然法假定公共因子F和特殊因子ε服從正態(tài)分布,那么可得到因子載荷陣和特殊因子方差的極大似然估計,設p維觀測向量X(1),...,X(n)為來自正態(tài)總體Np(μ,∑)的隨機樣品,則樣品似然函數(shù)為μ,∑的函數(shù)L(μ,∑)。設∑=AA'+D,取μ=,則似然函數(shù)為A,D的函數(shù):(A,D),求A,D使達最大。為保證得到唯一解,可附加計算上方便的唯一性條件:A'D-1A=對角陣,用迭代方法可求得極大似然估計A和D。第59頁,講稿共91頁,2023年5月2日,星期三4.因子旋轉(正交變換)所謂因子旋轉就是將因子載荷矩陣A右乘一個正交矩陣T后得到一個新的矩陣A*。它并不影響變量Xi的共同度hi2,卻會改變因子的方差貢獻qj2。因子旋轉通過改變坐標軸,能夠重新分配各個因子解釋原始變量方差的比例,使因子更易于理解。第60頁,講稿共91頁,2023年5月2日,星期三

設p維可觀測向量X滿足因子模型:X=AF+ε。T為正交陣,則因子模型可寫為X=ATT'F+ε=A*F*+ε其中A*=AT,F(xiàn)*=T'F。易知,∑

=AA'+D=A*A*'+D(其中A*=AT)。這說明,若A,D是一個因子解,任給正交陣T,A*=AT,D也是因子解。在這個意義下,因子解是不惟一的。由于因子載荷陣是不惟一的,所以可對因子載荷陣進行旋轉。目的是使因子載荷陣的結構簡化,使載荷矩陣每列或行的元素平方值向0和1兩極分化,這樣的因子便于解釋和命名。第61頁,講稿共91頁,2023年5月2日,星期三

有三種主要的正交旋轉法:四次方最大法、方差最大法和等量最大法。這些旋轉方法的目標是一致的,只是策略不同。如果兩種旋轉模型導出不同的解釋,這兩種解釋不能認為是矛盾的。倒不如說是看待相同事物的兩種不同方法,是在公因子空間中的兩個不同點。只取決于惟一的一種你認為是正確旋轉的任何結論都是不成立的。在統(tǒng)計意義上所有旋轉都是一樣的,即不能說一些旋轉比另一些旋轉好。因此,在不同的旋轉方法之間進行的選擇必須根據非統(tǒng)計觀點,通常選擇最容易解釋的旋轉模型。第62頁,講稿共91頁,2023年5月2日,星期三5.因子得分計算因子得分的途徑是用原有變量來描述因子,第j個因子在第i個樣品上的值可表示為:Fji=j1xi1+j2xi2+…+jpxip(j=1,2,…,k)

式中,xi1,xi2,…,xip分別是第1,2,…,p個原有變量在第i個樣品上的取值,j1,j2,…,jp分別是第j個因子和第1,2,…,k個原有變量間的因子值系數(shù)??梢?,它是原有變量線性組合的結果(與因子分析的數(shù)學模型正好相反),因子得分可看作各變量值的加權(j1,j2,…,jp)總和,權數(shù)的大小表示了變量對因子的重要程度。第63頁,講稿共91頁,2023年5月2日,星期三于是有:Fj=j1X1+j2X2+…+jpXp(j=1,2,…,k)

上式稱為因子得分函數(shù)。由于因子個數(shù)k小于原有變量個數(shù)p,故式中方程的個數(shù)少于變量的個數(shù)。因此,對因子值系數(shù)通常采用最小二乘意義下的回歸法進行估計??蓪⑸鲜娇醋魇且蜃幼兞縁j對p個原有變量的線性回歸方程(其中常數(shù)項為0)??梢宰C明,式中回歸系數(shù)的最小二乘估計滿足:Bj=Aj'R-1,其中Bj=(j1,j2,…,jp),Aj'=(a1j,a2j,…,apj)為第1,2,…,p個變量在第j個因子上的因子載荷,R-1為原有變量的相關系數(shù)矩陣的逆矩陣。由上式計算出因子變量Fj的因子值系數(shù),再利用因子得分函數(shù)可算出第j個因子在各個樣品上的因子得分。第64頁,講稿共91頁,2023年5月2日,星期三6.2.2使用INSIGHT模塊作因子分析【例6-4】今有20個鹽泉,鹽泉的水化學特征系數(shù)值見表6-6。試對鹽泉水的化學分析數(shù)據作因子分析。表6-6鹽泉水化學特征系數(shù)的數(shù)據利用因子分析法,可揭示觀察數(shù)據中7個指標之間的相互關系,尋找潛在的影響因子,并用這些潛在因子對原指標之間的相關關系進行解釋。假定表6-6的數(shù)據已經存入數(shù)據集mylib.yq中。序號x1(礦化度)x2(Br·103/Cl)x3(K·103/鹽)x4(K·103/Cl)x5(Na/K)x6(Mg·102/Cl)x7(Na/Cl)111.8350.48014.36025.21025.210.8100.98245.5960.52613.85024.04026.010.9100.96……………………19304.0920.2830.7891.357438.360.1931.0120202.4460.0420.7411.266309.770.2900.99第65頁,講稿共91頁,2023年5月2日,星期三1.使用INSIGHT模塊做因子分析的步驟在INSIGHT模塊中打開數(shù)據集Mylib.yq。(1)求相關系數(shù)陣及其特征值選擇菜單“Analyze”“Multivariate(YX)(多元分析)”,打開“Multivariate(YX)”對話框。將變量x1~x7選為Y變量,如圖所示。

第66頁,講稿共91頁,2023年5月2日,星期三

單擊“Output”按鈕,選中“PrincipalComponentAnalysis(主成分分析)”復選框,如圖所示。單擊下面的“PrincipalComponentOptions(主成分選項)”按鈕,打開“PrincipalComponentOptions”對話框,確認“Correlations(Structure)(相關(結構))”復選框被選中(默認狀態(tài)),單擊“OK”按鈕返回;第67頁,講稿共91頁,2023年5月2日,星期三

兩次單擊“OK”按鈕,得到因子分析結果。輸出的數(shù)字分析結果包括5個部分:簡單統(tǒng)計量、相關系數(shù)矩陣、相關系數(shù)矩陣的特征值以及默認的兩個因子載荷陣等。其中相關系數(shù)陣及其特征值等如圖6-22所示。結果顯示,前三個特征值的方差貢獻率依次為:0.6063、0.1788、0.1315。第68頁,講稿共91頁,2023年5月2日,星期三(2)建立因子載荷陣由于前三個特征值的累積貢獻率已達91.66%,故取前三個特征值建立因子載荷陣。選擇菜單“Tables”“PrincipalComponents”,在彈出的“PrincipalComponentAnalysis”對話框中選擇“3”個因子,及“Correlations(Structure)”選項,單擊“OK”,得到因子載荷陣如圖所示。

由于第1、2公因子的載荷中有一些數(shù)值在0.5附近的中等載荷,其意義含糊不清,故考慮作因子旋轉。

第69頁,講稿共91頁,2023年5月2日,星期三(3)因子旋轉重新回到INSIGHT的數(shù)據窗口,選擇菜單“Analyze”“Multivariate(YX)”,打開“Multivariate(YX)”對話框,將變量x1~x7選為Y變量。首先,單擊“Method”按鈕,在打開的對話框中單擊“RotationOptions”按鈕,打開“RotationOptions”對話框,選擇旋轉方式為“Quartimax(最大四分位法)”,并修改“Components”的值為3,如圖6-25所示。第70頁,講稿共91頁,2023年5月2日,星期三

然后,單擊“Output”按鈕,在打開的對話框中單擊“PrincipalComponentAnalysis”復選框下面的“PrincipalComponentOptions”按鈕,打開“PrincipalComponentOptions”對話框。選中“ComponentRotation”復選框(圖左),單擊“RotationOptions”按鈕,打開“RotationOptions”對話框,增加選中“OutputComponentScores”復選框和“CommunalityEstimates”復選框如圖右所示。

第71頁,講稿共91頁,2023年5月2日,星期三

結果包括正交旋轉矩陣(OrthogonalRotationMatrix)、旋轉后的因子載荷陣(RotationCorrelations(Structure))(圖左),以及各變量的共同度(圖右)。在數(shù)據集窗口還可以看到旋轉前后的因子得分。第72頁,講稿共91頁,2023年5月2日,星期三2.因子分析的結果分析從旋轉后的因子模型(即因子載荷陣)中可以看出,相對于旋轉前的因子模型,第一個公因子在x1、x5上的載荷增加,而在x2、x6、x7三個指標上的載荷明顯減少。公因子1的載荷有正有負,正載荷主要是x5和x1,它們是鈉鹽形成的顯示;負載荷主要是x3和x4,它們表示了鉀鹽形成的必要物質來源。第二個公因子在x6(Mg·102/Cl)、x7(Na/Cl)兩個指標上的載荷明顯增加,這說明第二公因子是鉀鹽形成的條件的顯示。第三個公因子中起主要作用的是x2(Br·103/Cl),它是鉀鹽或鉀礦化的一個環(huán)境標志。第73頁,講稿共91頁,2023年5月2日,星期三

回到INSIGHT數(shù)據窗口,用鼠標單擊左上角的三角箭頭,在彈出的菜單中選擇“Extract”,打開“Extract”對話框,按下“Ctrl”鍵,用鼠標選定ID、RT1、RT2和RT3,如圖6-28左所示,單擊“OK”按鈕,得到只包含編號及旋轉后因子得分的數(shù)據子集如圖6-29右。

第74頁,講稿共91頁,2023年5月2日,星期三

利用數(shù)據窗口的排序功能,依次按三種公因子排序結果如圖6-30所示。

第75頁,講稿共91頁,2023年5月2日,星期三

圖6-31是根據樣品的因子得分,取RT1和RT2兩個因子軸作因子得分圖??梢?0個鹽泉除第3號和7號外可分為三類:第一類為第14~20號鹽泉,它們以第一因子軸上得分高,F(xiàn)2上得分絕對值低為特征;第二類為第8~13號鹽泉,它們以F1上得分絕對值小,F(xiàn)2上得分為較大的負值為特征;第三類為第1~6號鹽泉,它們以F1上得分為較大負值為特征。這三類表示三種不同的鹽泉。第76頁,講稿共91頁,2023年5月2日,星期三6.2.3使用FACTOR過程進行因子分析1.FACTOR過程簡介PROCFACTORDATA=<數(shù)據集><選項>;

VAR<原始變量>;

[PRIORS<共性值列表>;][PARTIAL<變量列表>;][FREQ<變量>;][WEIGHT<變量>;][BY<變量列表>;]RUN;第77頁,講稿共91頁,2023年5月2日,星期三(1)PROCFACTOR語句

PROCFACTOR語句標志FACTOR過程的開始,同時還可通過設置其他語句定義數(shù)據集、指定具體分析方法和過程等。可設置的選項及其功能見表6-7。通常只需要VAR語句作為PROCFACTOR語句的附加選項,其余均可省略。(2)VAR語句

VAR語句用來指定需要分析的數(shù)值變量。如果該句省略,那么在其他語句中未做特殊規(guī)定的所有數(shù)值變量都將被分析。第78頁,講稿共91頁,2023年5月2日,星期三(3)PARTIAL語句如果想將因子分析建立在偏相關陣或協(xié)差陣的基礎上,可用PARTIAL語句,以便程序將PARTIAL語句列出的變量的效果從整體分析中劃分出來。(4)PRIOR語句

PRIOR語句為每一個變量指定一個從0.0到1.0之間的初始共性方差估計值。第一個數(shù)值對應于VAR語句中的第一個變量,第二個數(shù)值對應第二個變量,依次類推。給出的數(shù)值個數(shù)必須與變量個數(shù)相等。可以用“PROCFACTOR”語句中的“PRIORS=”選項指定各種各樣的共性方差估計方法。第79頁,講稿共91頁,2023年5月2日,星期三2.PROCSCORE得分過程

FACTOR過程的輸出結果包括特征值情況、因子載荷、公因子解釋比例,等等。為了計算因子得分,一般在PROCFACTOR語句中加一個SCORE選項和“OUTSTAT=輸出數(shù)據集”選項,然后用如下的得分過程計算公因子得分。PROCSCOREDATA=<原始數(shù)據集>SCORE=<FACTOR過程的輸出數(shù)據集>OUT=<得分輸出數(shù)據集>;

VAR<用來計算得分的原始變量集合>;RUN;第80頁,講稿共91頁,2023年5月2日,星期三3.實例分析【例6-5】2004年31個省市自治區(qū)經濟發(fā)展基本情況的八項指標,原始數(shù)據如表6-8所示。表6-831個省市自治區(qū)經濟發(fā)展基本情況假定上述數(shù)據存放在數(shù)據集Mylib.jjfz中,試對經濟發(fā)展基本情況的八項指標作因子分析。地區(qū)GDPx1工業(yè)生產總值x2固定資產投資x3居民消費水平x4貨物周轉量x5居民消費價格指數(shù)x6商品零售價格指數(shù)x7職工平均工資x8北京4283.311290.162528.211354.23537.7100.95299.24929674天津2931.881436.731245.66806.111122

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論