第13章主成分分析和因子分析_第1頁
第13章主成分分析和因子分析_第2頁
第13章主成分分析和因子分析_第3頁
第13章主成分分析和因子分析_第4頁
第13章主成分分析和因子分析_第5頁
已閱讀5頁,還剩15頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

會(huì)計(jì)學(xué)1第13章主成分分析和因子分析主成分的概念由KarlPearson在1901年提出考察多個(gè)變量間相關(guān)性一種多元統(tǒng)計(jì)方法研究如何通過少數(shù)幾個(gè)主成分(principalcomponent)來解釋多個(gè)變量間的內(nèi)部結(jié)構(gòu)。即從原始變量中導(dǎo)出少數(shù)幾個(gè)主分量,使它們盡可能多地保留原始變量的信息,且彼此間互不相關(guān)主成分分析的目的:數(shù)據(jù)的壓縮;數(shù)據(jù)的解釋常被用來尋找判斷事物或現(xiàn)象的綜合指標(biāo),并對(duì)綜合指標(biāo)所包含的信息進(jìn)行適當(dāng)?shù)慕忉屖裁词侵鞒煞址治觯?/p>

(principalcomponentanalysis)第1頁/共20頁對(duì)這兩個(gè)相關(guān)變量所攜帶的信息(在統(tǒng)計(jì)上信息往往是指數(shù)據(jù)的變異)進(jìn)行濃縮處理假定只有兩個(gè)變量x1和x2,從散點(diǎn)圖可見兩個(gè)變量存在相關(guān)關(guān)系,這意味著兩個(gè)變量提供的信息有重疊主成分分析的基本思想

(以兩個(gè)變量為例)如果把兩個(gè)變量用一個(gè)變量來表示,同時(shí)這一個(gè)新的變量又盡可能包含原來的兩個(gè)變量的信息,這就是降維的過程第2頁/共20頁數(shù)學(xué)上的處理是將原始的p個(gè)變量作線性組合,作為新的變量設(shè)p個(gè)原始變量為,新的變量(即主成分)為

,主成分和原始變量之間的關(guān)系表示為主成分分析的數(shù)學(xué)模型主成分分析的數(shù)學(xué)模型aij為第i個(gè)主成分yi和原來的第j個(gè)變量xj之間的線性相關(guān)系數(shù),稱為載荷(loading)。比如,a11表示第1主成分和原來的第1個(gè)變量之間的相關(guān)系數(shù),a21表示第2主成分和原來的第1個(gè)變量之間的相關(guān)系數(shù)第3頁/共20頁對(duì)原來的p個(gè)指標(biāo)進(jìn)行標(biāo)準(zhǔn)化,以消除變量在水平和量綱上的影響根據(jù)標(biāo)準(zhǔn)化后的數(shù)據(jù)矩陣求出相關(guān)系數(shù)矩陣求出協(xié)方差矩陣的特征根和特征向量確定主成分,并對(duì)各主成分所包含的信息給予適當(dāng)?shù)慕忉屩鞒煞址治龅牟襟E第4頁/共20頁Stata命令pca、pcamatestatscreeplotscoreplot、loadingplotrotatepredict第5頁/共20頁【例】根據(jù)2008年一季度滬深兩市農(nóng)業(yè)板上市公司的9項(xiàng)主要指標(biāo)數(shù)據(jù),進(jìn)行主成分分析,找出主成分并進(jìn)行適當(dāng)?shù)慕忉屩鞒煞址治?/p>

(實(shí)例分析)基本情況公司成長性指標(biāo)公司盈利能力性指標(biāo)公司股本擴(kuò)張能力指標(biāo)公司名稱ROA主營收入增長率凈利潤增長率主營業(yè)務(wù)利潤率ROEEPS每股凈資產(chǎn)每股公積金總資產(chǎn)增長率禾嘉股份0.0630.2320.8220.2580.0090.011.110.050亞盛集團(tuán)-0.0080.1610.7090.1430.0060.0061.1440.0060.047冠農(nóng)股份0.4380.7550.2840.1070.0030.0041.6210.4210.096St中農(nóng)-0.02-0.4210.9830.209001.5650.757-0.206敦煌種業(yè)0.112-0.1587.1440.3670.0250.0773.0961.988-0.057新農(nóng)開發(fā)0.2770.041-2.3760.251-0.005-0.0163.461.860.392香梨股份0.107-0.0542.101-0.1480.0120.032.511.516-0.234新賽股份0.820.1940.0580.1130.020.1013.832.2850.392第6頁/共20頁Stata的輸出結(jié)果estatsmc變量之間的存在較強(qiáng)的相關(guān)關(guān)系,適合作主成分分析第7頁/共20頁Stata的輸出結(jié)果

(選擇主成分)該表是選則主成分的主要依據(jù)第8頁/共20頁“InitialEigenvalues”(初始特征根)

實(shí)際上就是本例中的9個(gè)主軸的長度特征根反映了主成分對(duì)原始變量的影響程度,表示引入該主成分后可以解釋原始變量的信息特征根又叫方差,某個(gè)特征根占總特征根的比例稱為主成分方差貢獻(xiàn)率設(shè)特征根為,則第i個(gè)主成分的方差貢獻(xiàn)率為比如,第一個(gè)主成分的特征根為3.54354,占總特征根的的比例(方差貢獻(xiàn)率)為39.37%,這表示第一個(gè)主成分解釋了原始9個(gè)變量39.37%的信息,可見第一個(gè)主成分對(duì)原來的9個(gè)變量解釋的還不是很充分根據(jù)什么選擇主成分?第9頁/共20頁根據(jù)主成分貢獻(xiàn)率一般來說,主成分的累計(jì)方差貢獻(xiàn)率達(dá)到80%以上的前幾個(gè)主成分,都可以選作最后的主成分比如表中前3個(gè)主成分的累計(jì)方差貢獻(xiàn)率為78.13%根據(jù)特特征根的大小一般情況下,當(dāng)特征根小于1時(shí),就不再選作主成分了,因?yàn)樵撝鞒煞值慕忉屃Χ冗€不如直接用原始變量解的釋力度大比如表中除前3個(gè)外,其他主成分的特征根都小于1。所以只選擇了3個(gè)主成分根據(jù)什么選擇主成分?第10頁/共20頁Stata還提供了一個(gè)更為直觀的圖形工具來幫助選擇主成分,即碎石圖(ScreePlot)從碎石圖可以看到9個(gè)主軸長度變化的趨勢(shì)實(shí)踐中,通常結(jié)合具體情況,選擇碎石圖中變化趨勢(shì)出現(xiàn)拐點(diǎn)的前幾個(gè)主成分作為原先變量的代表,該例中選擇前3個(gè)主成分即可根據(jù)什么選擇主成分?

(ScreePlot)第11頁/共20頁怎樣解釋主成分?主成分的因子載荷矩陣表1中的每一列表示一個(gè)主成分作為原來變量線性組合的系數(shù),也就是主成分分析模型中的系數(shù)aij比如,第一主成分所在列的系數(shù)-0.0364表示第1個(gè)主成分和原來的第一個(gè)變量(ROA)之間的線性相關(guān)系數(shù)。這個(gè)系數(shù)越大,說明主成分對(duì)該變量的代表性就越大第12頁/共20頁載荷圖(LoadingPlot)直觀顯示主成分對(duì)原始9變量的解釋情況圖中橫軸表示第一個(gè)主成分與原始變量間的相關(guān)系數(shù);縱軸表示第二個(gè)主成分與原始變量之間的相關(guān)系數(shù)每一個(gè)變量對(duì)應(yīng)的主成分載荷就對(duì)應(yīng)坐標(biāo)系中的一個(gè)點(diǎn)第一個(gè)主成分很充分地解釋了原始的后4個(gè)變量(與每個(gè)原始變量都有較強(qiáng)的正相關(guān)關(guān)系),第二個(gè)主成分則較好地var2,var3,var5,var6這2個(gè)變量(與它們的相關(guān)關(guān)系較高),而與其他變量的關(guān)系則較弱(相關(guān)系數(shù)的點(diǎn)靠近坐標(biāo)軸)怎樣解釋主成分?

(LoadingPlot)第13頁/共20頁13.2因子分析13.2.1因子分析的基本原理13.2.2因子分析的數(shù)學(xué)模型13.2.3因子分析的步驟13.2.4因子分析的Stata命令第14頁/共20頁因子分析可以看作是主成分分析的推廣和擴(kuò)展,但它對(duì)問題的研究更深入、更細(xì)致一些。實(shí)際上,主成分分析可以看作是因子分析的一個(gè)特例簡言之,因子分析是通過對(duì)變量之間關(guān)系的研究,找出能綜合原始變量的少數(shù)幾個(gè)因子,使得少數(shù)因子能夠反映原始變量的絕大部分信息,然后根據(jù)相關(guān)性的大小將原始變量分組,使得組內(nèi)的變量之間相關(guān)性較高,而不同組的變量之間相關(guān)性較低。因此,因子分析屬于多元統(tǒng)計(jì)中處理降維的一種統(tǒng)計(jì)方法,其目的就是要減少變量的個(gè)數(shù),用少數(shù)因子代表多個(gè)原始變量什么是因子分析?

(factoranalysis)第15頁/共20頁原始的p個(gè)變量表達(dá)為k個(gè)因子的線性組合變量設(shè)p個(gè)原始變量為,要尋找的k個(gè)因子(k<p)為,主成分和原始變量之間的關(guān)系表示為因子分析的數(shù)學(xué)模型因子分析的數(shù)學(xué)模型系數(shù)aij為第個(gè)i變量與第k個(gè)因子之間的線性相關(guān)系數(shù),反映變量與因子之間的相關(guān)程度,也稱為載荷(loading)。由于因子出現(xiàn)在每個(gè)原始變量與因子的線性組合中,因此也稱為公因子。為特殊因子,代表公因子以外的因素影響第16頁/共20頁共同度量(Communality)因子的方差貢獻(xiàn)率因子分析的數(shù)學(xué)模型

(共同度量Communality和公因子的方差貢獻(xiàn)率)變量xi的信息能夠被k個(gè)公因子解釋的程度,用

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論