【STATA教程】第13章-主成分分析和因子分析課件_第1頁
【STATA教程】第13章-主成分分析和因子分析課件_第2頁
【STATA教程】第13章-主成分分析和因子分析課件_第3頁
【STATA教程】第13章-主成分分析和因子分析課件_第4頁
【STATA教程】第13章-主成分分析和因子分析課件_第5頁
已閱讀5頁,還剩37頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第13章主成分分析和因子分析第13章主成分分析和因子分析13.1主成分分析13.1.1主成分分析的基本原理13.1.2主成分分析的數(shù)學模型13.1.3主成分分析的步驟13.1.4主成分分析的Stata命令13.1主成分分析13.1.1主成分分析的基本原理主成分的概念由KarlPearson在1901年提出考察多個變量間相關性一種多元統(tǒng)計方法研究如何通過少數(shù)幾個主成分(principalcomponent)來解釋多個變量間的內部結構。即從原始變量中導出少數(shù)幾個主分量,使它們盡可能多地保留原始變量的信息,且彼此間互不相關主成分分析的目的:數(shù)據的壓縮;數(shù)據的解釋常被用來尋找判斷事物或現(xiàn)象的綜合指標,并對綜合指標所包含的信息進行適當?shù)慕忉屖裁词侵鞒煞址治觯?/p>

(principalcomponentanalysis)主成分的概念由KarlPearson在1901年提出什么是對這兩個相關變量所攜帶的信息(在統(tǒng)計上信息往往是指數(shù)據的變異)進行濃縮處理假定只有兩個變量x1和x2,從散點圖可見兩個變量存在相關關系,這意味著兩個變量提供的信息有重疊主成分分析的基本思想

(以兩個變量為例)如果把兩個變量用一個變量來表示,同時這一個新的變量又盡可能包含原來的兩個變量的信息,這就是降維的過程對這兩個相關變量所攜帶的信息(在統(tǒng)計上信息往往是指數(shù)據的變異數(shù)學上的處理是將原始的p個變量作線性組合,作為新的變量設p個原始變量為,新的變量(即主成分)為

,主成分和原始變量之間的關系表示為主成分分析的數(shù)學模型主成分分析的數(shù)學模型aij為第i個主成分yi和原來的第j個變量xj之間的線性相關系數(shù),稱為載荷(loading)。比如,a11表示第1主成分和原來的第1個變量之間的相關系數(shù),a21表示第2主成分和原來的第1個變量之間的相關系數(shù)數(shù)學上的處理是將原始的p個變量作線性組合,作為新的變量主成分對原來的p個指標進行標準化,以消除變量在水平和量綱上的影響根據標準化后的數(shù)據矩陣求出相關系數(shù)矩陣求出協(xié)方差矩陣的特征根和特征向量確定主成分,并對各主成分所包含的信息給予適當?shù)慕忉屩鞒煞址治龅牟襟E對原來的p個指標進行標準化,以消除變量在水平和量綱上的影響主Stata命令pca、pcamatestatscreeplotscoreplot、loadingplotrotatepredictStata命令pca、pcamat【例】根據2008年一季度滬深兩市農業(yè)板上市公司的9項主要指標數(shù)據,進行主成分分析,找出主成分并進行適當?shù)慕忉屩鞒煞址治?/p>

(實例分析)基本情況公司成長性指標公司盈利能力性指標公司股本擴張能力指標公司名稱ROA主營收入增長率凈利潤增長率主營業(yè)務利潤率ROEEPS每股凈資產每股公積金總資產增長率禾嘉股份0.0630.2320.8220.2580.0090.011.110.050亞盛集團-0.0080.1610.7090.1430.0060.0061.1440.0060.047冠農股份0.4380.7550.2840.1070.0030.0041.6210.4210.096St中農-0.02-0.4210.9830.209001.5650.757-0.206敦煌種業(yè)0.112-0.1587.1440.3670.0250.0773.0961.988-0.057新農開發(fā)0.2770.041-2.3760.251-0.005-0.0163.461.860.392香梨股份0.107-0.0542.101-0.1480.0120.032.511.516-0.234新賽股份0.820.1940.0580.1130.020.1013.832.2850.392【例】根據2008年一季度滬深兩市農業(yè)板上市公司的9項主要指Stata的輸出結果estatsmc變量之間的存在較強的相關關系,適合作主成分分析Stata的輸出結果estatsmc變量之間的存在較強的Stata的輸出結果

(選擇主成分)該表是選則主成分的主要依據Stata的輸出結果

(選擇主成分)該表是選則主成分的主要依“InitialEigenvalues”(初始特征根)

實際上就是本例中的9個主軸的長度特征根反映了主成分對原始變量的影響程度,表示引入該主成分后可以解釋原始變量的信息特征根又叫方差,某個特征根占總特征根的比例稱為主成分方差貢獻率設特征根為,則第i個主成分的方差貢獻率為比如,第一個主成分的特征根為3.54354,占總特征根的的比例(方差貢獻率)為39.37%,這表示第一個主成分解釋了原始9個變量39.37%的信息,可見第一個主成分對原來的9個變量解釋的還不是很充分根據什么選擇主成分?“InitialEigenvalues”(初始特征根)根根據主成分貢獻率一般來說,主成分的累計方差貢獻率達到80%以上的前幾個主成分,都可以選作最后的主成分比如表中前3個主成分的累計方差貢獻率為78.13%根據特特征根的大小一般情況下,當特征根小于1時,就不再選作主成分了,因為該主成分的解釋力度還不如直接用原始變量解的釋力度大比如表中除前3個外,其他主成分的特征根都小于1。所以只選擇了3個主成分根據什么選擇主成分?根據主成分貢獻率根據什么選擇主成分?Stata還提供了一個更為直觀的圖形工具來幫助選擇主成分,即碎石圖(ScreePlot)從碎石圖可以看到9個主軸長度變化的趨勢實踐中,通常結合具體情況,選擇碎石圖中變化趨勢出現(xiàn)拐點的前幾個主成分作為原先變量的代表,該例中選擇前3個主成分即可根據什么選擇主成分?

(ScreePlot)Stata還提供了一個更為直觀的圖形工具來幫助選擇主成分,即怎樣解釋主成分?主成分的因子載荷矩陣表1中的每一列表示一個主成分作為原來變量線性組合的系數(shù),也就是主成分分析模型中的系數(shù)aij比如,第一主成分所在列的系數(shù)-0.0364表示第1個主成分和原來的第一個變量(ROA)之間的線性相關系數(shù)。這個系數(shù)越大,說明主成分對該變量的代表性就越大怎樣解釋主成分?主成分的因子載荷矩陣表1中的每一列表示一個載荷圖(LoadingPlot)直觀顯示主成分對原始9變量的解釋情況圖中橫軸表示第一個主成分與原始變量間的相關系數(shù);縱軸表示第二個主成分與原始變量之間的相關系數(shù)每一個變量對應的主成分載荷就對應坐標系中的一個點第一個主成分很充分地解釋了原始的后4個變量(與每個原始變量都有較強的正相關關系),第二個主成分則較好地var2,var3,var5,var6這2個變量(與它們的相關關系較高),而與其他變量的關系則較弱(相關系數(shù)的點靠近坐標軸)怎樣解釋主成分?

(LoadingPlot)載荷圖(LoadingPlot)直觀顯示主成分對原始9變量13.2因子分析13.2.1因子分析的基本原理13.2.2因子分析的數(shù)學模型13.2.3因子分析的步驟13.2.4因子分析的Stata命令13.2因子分析13.2.1因子分析的基本原理因子分析可以看作是主成分分析的推廣和擴展,但它對問題的研究更深入、更細致一些。實際上,主成分分析可以看作是因子分析的一個特例簡言之,因子分析是通過對變量之間關系的研究,找出能綜合原始變量的少數(shù)幾個因子,使得少數(shù)因子能夠反映原始變量的絕大部分信息,然后根據相關性的大小將原始變量分組,使得組內的變量之間相關性較高,而不同組的變量之間相關性較低。因此,因子分析屬于多元統(tǒng)計中處理降維的一種統(tǒng)計方法,其目的就是要減少變量的個數(shù),用少數(shù)因子代表多個原始變量什么是因子分析?

(factoranalysis)因子分析可以看作是主成分分析的推廣和擴展,但它對問題的研究更原始的p個變量表達為k個因子的線性組合變量設p個原始變量為,要尋找的k個因子(k<p)為,主成分和原始變量之間的關系表示為因子分析的數(shù)學模型因子分析的數(shù)學模型系數(shù)aij為第個i變量與第k個因子之間的線性相關系數(shù),反映變量與因子之間的相關程度,也稱為載荷(loading)。由于因子出現(xiàn)在每個原始變量與因子的線性組合中,因此也稱為公因子。為特殊因子,代表公因子以外的因素影響原始的p個變量表達為k個因子的線性組合變量因子分析的數(shù)學模型共同度量(Communality)因子的方差貢獻率因子分析的數(shù)學模型

(共同度量Communality和公因子的方差貢獻率)變量xi的信息能夠被k個公因子解釋的程度,用k個公因子對第i個變量xi的方差貢獻率表示第j個公因子對變量xi的提供的方差總和,反映第j個公因子的相對重要程度共同度量(Communality)因子分析的數(shù)學模型

(共同Stata命令factorestatscreeplotscoreplot、loadingplotrotatepredictStata命令factor21本章結束,謝謝觀看!21本章結束,謝謝觀看!第13章主成分分析和因子分析第13章主成分分析和因子分析13.1主成分分析13.1.1主成分分析的基本原理13.1.2主成分分析的數(shù)學模型13.1.3主成分分析的步驟13.1.4主成分分析的Stata命令13.1主成分分析13.1.1主成分分析的基本原理主成分的概念由KarlPearson在1901年提出考察多個變量間相關性一種多元統(tǒng)計方法研究如何通過少數(shù)幾個主成分(principalcomponent)來解釋多個變量間的內部結構。即從原始變量中導出少數(shù)幾個主分量,使它們盡可能多地保留原始變量的信息,且彼此間互不相關主成分分析的目的:數(shù)據的壓縮;數(shù)據的解釋常被用來尋找判斷事物或現(xiàn)象的綜合指標,并對綜合指標所包含的信息進行適當?shù)慕忉屖裁词侵鞒煞址治觯?/p>

(principalcomponentanalysis)主成分的概念由KarlPearson在1901年提出什么是對這兩個相關變量所攜帶的信息(在統(tǒng)計上信息往往是指數(shù)據的變異)進行濃縮處理假定只有兩個變量x1和x2,從散點圖可見兩個變量存在相關關系,這意味著兩個變量提供的信息有重疊主成分分析的基本思想

(以兩個變量為例)如果把兩個變量用一個變量來表示,同時這一個新的變量又盡可能包含原來的兩個變量的信息,這就是降維的過程對這兩個相關變量所攜帶的信息(在統(tǒng)計上信息往往是指數(shù)據的變異數(shù)學上的處理是將原始的p個變量作線性組合,作為新的變量設p個原始變量為,新的變量(即主成分)為

,主成分和原始變量之間的關系表示為主成分分析的數(shù)學模型主成分分析的數(shù)學模型aij為第i個主成分yi和原來的第j個變量xj之間的線性相關系數(shù),稱為載荷(loading)。比如,a11表示第1主成分和原來的第1個變量之間的相關系數(shù),a21表示第2主成分和原來的第1個變量之間的相關系數(shù)數(shù)學上的處理是將原始的p個變量作線性組合,作為新的變量主成分對原來的p個指標進行標準化,以消除變量在水平和量綱上的影響根據標準化后的數(shù)據矩陣求出相關系數(shù)矩陣求出協(xié)方差矩陣的特征根和特征向量確定主成分,并對各主成分所包含的信息給予適當?shù)慕忉屩鞒煞址治龅牟襟E對原來的p個指標進行標準化,以消除變量在水平和量綱上的影響主Stata命令pca、pcamatestatscreeplotscoreplot、loadingplotrotatepredictStata命令pca、pcamat【例】根據2008年一季度滬深兩市農業(yè)板上市公司的9項主要指標數(shù)據,進行主成分分析,找出主成分并進行適當?shù)慕忉屩鞒煞址治?/p>

(實例分析)基本情況公司成長性指標公司盈利能力性指標公司股本擴張能力指標公司名稱ROA主營收入增長率凈利潤增長率主營業(yè)務利潤率ROEEPS每股凈資產每股公積金總資產增長率禾嘉股份0.0630.2320.8220.2580.0090.011.110.050亞盛集團-0.0080.1610.7090.1430.0060.0061.1440.0060.047冠農股份0.4380.7550.2840.1070.0030.0041.6210.4210.096St中農-0.02-0.4210.9830.209001.5650.757-0.206敦煌種業(yè)0.112-0.1587.1440.3670.0250.0773.0961.988-0.057新農開發(fā)0.2770.041-2.3760.251-0.005-0.0163.461.860.392香梨股份0.107-0.0542.101-0.1480.0120.032.511.516-0.234新賽股份0.820.1940.0580.1130.020.1013.832.2850.392【例】根據2008年一季度滬深兩市農業(yè)板上市公司的9項主要指Stata的輸出結果estatsmc變量之間的存在較強的相關關系,適合作主成分分析Stata的輸出結果estatsmc變量之間的存在較強的Stata的輸出結果

(選擇主成分)該表是選則主成分的主要依據Stata的輸出結果

(選擇主成分)該表是選則主成分的主要依“InitialEigenvalues”(初始特征根)

實際上就是本例中的9個主軸的長度特征根反映了主成分對原始變量的影響程度,表示引入該主成分后可以解釋原始變量的信息特征根又叫方差,某個特征根占總特征根的比例稱為主成分方差貢獻率設特征根為,則第i個主成分的方差貢獻率為比如,第一個主成分的特征根為3.54354,占總特征根的的比例(方差貢獻率)為39.37%,這表示第一個主成分解釋了原始9個變量39.37%的信息,可見第一個主成分對原來的9個變量解釋的還不是很充分根據什么選擇主成分?“InitialEigenvalues”(初始特征根)根根據主成分貢獻率一般來說,主成分的累計方差貢獻率達到80%以上的前幾個主成分,都可以選作最后的主成分比如表中前3個主成分的累計方差貢獻率為78.13%根據特特征根的大小一般情況下,當特征根小于1時,就不再選作主成分了,因為該主成分的解釋力度還不如直接用原始變量解的釋力度大比如表中除前3個外,其他主成分的特征根都小于1。所以只選擇了3個主成分根據什么選擇主成分?根據主成分貢獻率根據什么選擇主成分?Stata還提供了一個更為直觀的圖形工具來幫助選擇主成分,即碎石圖(ScreePlot)從碎石圖可以看到9個主軸長度變化的趨勢實踐中,通常結合具體情況,選擇碎石圖中變化趨勢出現(xiàn)拐點的前幾個主成分作為原先變量的代表,該例中選擇前3個主成分即可根據什么選擇主成分?

(ScreePlot)Stata還提供了一個更為直觀的圖形工具來幫助選擇主成分,即怎樣解釋主成分?主成分的因子載荷矩陣表1中的每一列表示一個主成分作為原來變量線性組合的系數(shù),也就是主成分分析模型中的系數(shù)aij比如,第一主成分所在列的系數(shù)-0.0364表示第1個主成分和原來的第一個變量(ROA)之間的線性相關系數(shù)。這個系數(shù)越大,說明主成分對該變量的代表性就越大怎樣解釋主成分?主成分的因子載荷矩陣表1中的每一列表示一個載荷圖(LoadingPlot)直觀顯示主成分對原始9變量的解釋情況圖中橫軸表示第一個主成分與原始變量間的相關系數(shù);縱軸表示第二個主成分與原始變量之間的相關系數(shù)每一個變量對應的主成分載荷就對應坐標系中的一個點第一個主成分很充分地解釋了原始的后4個變量(與每個原始變量都有較強的正相關關系),第二個主成分則較好地var2,var3,var5,var6這2個變量(與它們的相關關系較高),而與其他變量的關系則較弱(相關系數(shù)的點靠近坐標軸)怎樣解釋主成分?

(LoadingPlot)載荷圖(LoadingPlot)直觀顯示主成分對原始9變量13.2因子分析13.2.1因子分析的基本原理13.2.2因子分析的數(shù)學模型13.2.3因子分析的步驟13.2.4因子分析的Stata命令13.2因子分析13.2.1因子分析的基本原理因子分析可以看作是主成分分析的推廣和擴展,但它對問題的研究更深入、更細致一些。實際上

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論