第八講 主成分分析和因子分析_第1頁
第八講 主成分分析和因子分析_第2頁
第八講 主成分分析和因子分析_第3頁
第八講 主成分分析和因子分析_第4頁
第八講 主成分分析和因子分析_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第八講主成分分析和因子分析第一頁,共十七頁,2022年,8月28日變量壓縮。主成分分析通過線性變換,在盡可能保留原始變量的信息的基礎,降低維度,將原來的多個變量組合成相互獨立的少數的、新的綜合變量。變量解釋。利用新變量進一步探討變量內在聯(lián)系和結構,利于簡化和解釋問題。

因子分析和主成分分析方法,往往是更復雜的統(tǒng)計分析方法的基礎。

Factor1.sav、Factor2.sav第二頁,共十七頁,2022年,8月28日二、主成分分析

1、基本原理統(tǒng)計信息實際上是指數據變異信息右圖中,在橢圓的長軸方向數據變異明顯大于短軸方向第三頁,共十七頁,2022年,8月28日F1F2F1與F2不相關沿長、短軸方向設定新坐標系,長軸變量承載大部分變異信息,短軸變量承載少量變異信息.一個長軸新變量F1就可以代表原來兩個變量的主要信息,從而起到降維作用在主成分分析中,提取出的每個新變量(主成分)都是原來多個變量的線性組合第四頁,共十七頁,2022年,8月28日如由兩個原始變量X1和X2,可提取兩個主成分:

F1=a11X1+a21X2

F2=a12X1+a22X2

依次類推:由N個原始變量可提取N個主成分,但如果將它們全部提取出來就失去了該方法簡化數據的實際意義.一般情況下按貢獻率由大到小,取累計貢獻率達到85%的前2~3個主成分,其他的忽略不計。在進行主成分回歸時,提取出的主成分能包含主要信息即可,不一定要有準確的實際含義。第五頁,共十七頁,2022年,8月28日利用主成分進行綜合評價:當進行多指標的綜合評價時,應用主成分方法將多指標中的信息集中為若干個主成分,然后加權求和,得到綜合評價指數。利用主成分進行回歸分析:通過對存在共線性的自變量進行主成分分析,從而在提取多數信息的同時解決共線性問題。2、應用第六頁,共十七頁,2022年,8月28日與主成分分析相同,也是一種多變量化簡、降維技術。在主成分分析時,要求提取出的主成分能包含主要信息即可,不一定要有準確的實際含義。但在因子分析中,目的是分解原始變量,從中歸納出潛在的“類別”,相關性較強的指標歸為一類,每一類變量代表了一個“共同因子”,即一種內在結構。因子分析就是要尋找該結構。在實際應用中,有時兩者不加區(qū)分三、因子分析

1、概述第七頁,共十七頁,2022年,8月28日為了找出變量間內在結構,要求因子分析滿足以下條件:樣本量樣本量與變量數的比例應在5:1以上總樣本量最好大于100,而且原則上越大越好各變量間必須有相關性KMO統(tǒng)計量:在(0,1)之間,大于0.9最佳,尚可,很差,0.5以下放棄Bartlett’s球形檢驗:對變量間的獨立性進行檢驗,若變量間相互獨立(Sig.大于0.05),因子分析無效2、適用條件第八頁,共十七頁,2022年,8月28日判斷數據是否符合要求,是否有必要進行主成分/因子分析對原有變量標準化,以消除計量單位和數據基數的影響(SPSS會自動對原始變量標準化)根據標準化數據計算相關矩陣或協(xié)方差矩陣,及其特征根和特征向量進行分析,按一定標準確定提取的主成分/因子數3、步驟第九頁,共十七頁,2022年,8月28日如果進行的是主成分分析,步驟到此結束如果進行的是因子分析,則考察因子的可解釋性,并在必要時進行因子旋轉,使因子載荷向0、1分化,以尋求最佳解釋如有必要,計算因子得分等中間指標供進一步分析使用第十頁,共十七頁,2022年,8月28日特征根(Eigenvalue):是因子影響力度的指標,其數值代表因子相當于原始變量平均解釋力的多少。特征根大于1,表示引入的因子解釋力度大于一個原始變量平均解釋力度。因此往往將特征根大于1作為抽取因子的標準。方差貢獻率:數值越大,表明該因子對原來變量信息的綜合能力越強。累計貢獻率4、輸出統(tǒng)計量第十一頁,共十七頁,2022年,8月28日變量Xi的變量共同度:也稱公因子方差比,是提取公因子后,各變量中信息被提取出的比例,或者說原變量的信息量(方差)由公因子決定的比例旋轉前/后因子載荷:反映因子和各個變量間的密切程度的指標,實質是兩者間的相關系數因子得分函數系數第十二頁,共十七頁,2022年,8月28日公因子數量的確定主成分的累積貢獻率:85%以上特征根:大于1

綜合判斷。因子分析時更重要的是因子的可解釋性,必要時保留特征根小于1的因子利用碎石圖幫助確定因子數量5、公因子數的確定第十三頁,共十七頁,2022年,8月28日例:在Factor2.sav中,有重慶市40個區(qū)縣的GDP、工業(yè)總產值等九個指標數據,試根據這些指標對各區(qū)縣經濟發(fā)展狀況進行綜合評價。在SPSS中的實現(xiàn):分析(Analyze)---數據降維(DataReduction)---因子分析(FactorAnalyze)在因子分析對話框中,將原變量選入“變量”列表框中在“描述”按鈕對話框,在“相關矩陣”部分選擇“系數”和“KMO和Bartlett球形度檢驗”6、在SPSS中的實現(xiàn)第十四頁,共十七頁,2022年,8月28日在“抽取”按鈕對話框,“方法”設定為“主成分”在“旋轉”按鈕對話框,“方法”設定為“最大方差法”在“得分”按鈕對話框,選擇“保存為變量”、“方法”設定為“回歸”,選擇“顯示因子得分系數矩陣”第十五頁,共十七頁,2022年,8月28日說明的總方差表:包括特征根,旋轉前/后的方差貢獻率、累計貢獻率變量共同度旋轉前/后因子載荷矩陣因子得分模型系數:求出公因子后,可以用回歸估計方法求出因子得分數學模型(在因子分析中,不能直接由載荷矩陣按

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論