第六章 因子分析_第1頁
第六章 因子分析_第2頁
第六章 因子分析_第3頁
第六章 因子分析_第4頁
第六章 因子分析_第5頁
已閱讀5頁,還剩55頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第六章因子分析1第1節(jié)因子分析概述一、因子分析的意義

1、實際研究中,考察的多個變量可能存在一些問題:(1)分析的復(fù)雜性:變量較多雖然可以提供更豐富的信息,但也會大大增加分析問題的復(fù)雜性和難度。(2)變量間的相關(guān)性:變量間信息的高度重疊(高度相關(guān))會影響分析結(jié)果。如果直接地削減變量的個數(shù),會導(dǎo)致信息丟失和不完整等問題。

2、因子分析:以最少的信息丟失為前提,將眾多的原有變量綜合成較少的幾個綜合指標(biāo)(稱為因子),從而降低變量的維數(shù)。

3、因子分析的特點:(1)因子個數(shù)大大少于原有變量的個數(shù)。(2)因子能夠反映原有變量絕大部分的信息。(3)因子之間的線性關(guān)系不顯著。(4)因子具有命名解釋性。二、因子分析的數(shù)學(xué)模型和相關(guān)概念

1、因子分析的核心:用較少的、相互獨立的因子反映原有變量的絕大部分信息。因子分析的數(shù)學(xué)模型:設(shè)有p個變量,每個變量的均值為0,標(biāo)準(zhǔn)差為1。將每個原有變量用k個(k<p)因子f1,f2,…,fk

的線性組合表示,即獨特因子公共因子

也可用矩陣形式表示:X=AF+ε,其中,F(xiàn)稱為因子。由于它們出現(xiàn)在每個原有變量的線性表達(dá)式中,因此也稱為公共因子。

因子可以理解為高維空間中相互垂直的k個坐標(biāo)軸,矩陣A稱為因子載荷矩陣,載荷矩陣的元素amn(m=1,2,…,p;n=1,2,…,k)稱為因子載荷,是第m個原有變量在第n個因子上的載荷。如果把變量xm看作k維空間中的一個向量,則amn表示fn在坐標(biāo)軸上的投影,它相當(dāng)于多元回歸分析中的標(biāo)準(zhǔn)化回歸系數(shù)。稱為特殊因子,表示原有變量不能被因子解釋的部分,其均值為0,相當(dāng)于多元回歸分析中的殘差項。

2、因子分析的相關(guān)概念:(1)因子載荷:在因子不相關(guān)的前提下,因子載荷是變量與因子的相關(guān)系數(shù)。它反映了因子對解釋變量的重要程度。(2)變量共同度:即公共方差,變量的共同度是因子載荷矩陣中第m行元素的平方和:在變量標(biāo)準(zhǔn)化時,由于變量的方差可以表示為,因此原有變量的方差可由兩部分解釋:一部分為變量的共同度,是全部因子對變量的方差解釋說明的比例;另一部分為特殊因子的平方,是全部因子對變量的方差不能解釋說明的比例。越大,或者說越小,說明變量的信息丟失越小。變量的共同度是評價變量信息丟失程度的重要指標(biāo)。

(3)因子的方差貢獻(xiàn):因子的方差貢獻(xiàn)是因子載荷矩陣第n列元素的平方和:因子的方差貢獻(xiàn)反映了因子對原有變量總方差的解釋能力,該值越高,說明相應(yīng)的因子越重要。因子的方差貢獻(xiàn)和方差貢獻(xiàn)率是衡量因子重要性的關(guān)鍵指標(biāo)。

9尋找基本結(jié)構(gòu)

在多元統(tǒng)計中,經(jīng)常遇到諸多變量之間存在強(qiáng)相關(guān)的問題,它會對分析帶來許多困難。通過因子分析,可以找出幾個較少的有實際意義的因子,反映出原來數(shù)據(jù)的基本結(jié)構(gòu)。

例如:調(diào)查汽車配件的價格中,通過因子分析從20個指標(biāo)中概括出原材料供應(yīng)商、配件廠商、新進(jìn)入者、后市場零部件廠商、整車廠和消費者6個基本指標(biāo)。從而找出對企業(yè)配件價格起決定性作用的幾個指標(biāo)。10數(shù)據(jù)化簡

通過因子分析,可以找出少數(shù)的幾個因子來代替原來的變量做回歸分析、聚類分析、判別分析等。

11

主成分分析:通過對一組變量的幾個線性組合來解釋這組變量的方差和協(xié)方差結(jié)構(gòu),以達(dá)到數(shù)據(jù)的壓縮和數(shù)據(jù)的解釋的目的。

若有一些指標(biāo)

,取綜合指標(biāo)即它們的線性組合F,當(dāng)然有很多,我們希望線性組合F包含很多的信息,即var(F)最大,這樣得到F記為F1,然后再找F2,F1與

F2無關(guān),以此類推,我們找到了一組綜合變量

F1,F2,…,Fm,這組變量基本包含了原來變量的所有信息。

主成分分析與因子分析的區(qū)別12主成分分析的數(shù)學(xué)模型13主成分分析與因子分析公式上的區(qū)別因子分析(m<p)主成分分析14第2節(jié)因子分析的基本內(nèi)容一、考察變量是否適合進(jìn)行因子分析

1、因子分析的目的是從眾多的原有變量中綜合出少數(shù)具有代表性的因子,因此它要求原有變量之間應(yīng)存在較強(qiáng)的相關(guān)關(guān)系。

2、變量相關(guān)程度的度量指標(biāo):先將變量標(biāo)準(zhǔn)化(1)相關(guān)系數(shù)矩陣:計算簡單相關(guān)系數(shù),如果大部分相關(guān)系數(shù)值均小于0.3(即為弱相關(guān)),那么原則上這些變量是不適合進(jìn)行因子分析的。(2)反映像矩陣:主要包括反映像協(xié)方差矩陣和反映像相關(guān)系數(shù)矩陣。反映像相關(guān)系數(shù)矩陣對角線上的元素為對應(yīng)變量的MSA(MeasureofSamplingAdequacy)統(tǒng)計量:

是變量與的簡單相關(guān)系數(shù),是變量與在控制了剩余變量下的偏相關(guān)系數(shù)。如果反映像相關(guān)矩陣對角線上的元素(即MSA)的絕對值接近于1,其他值均較小,說明這些變量的相關(guān)性較強(qiáng),適合進(jìn)行因子分析。(3)巴特利特球度檢驗(Bartlett’sTestofSphericity):零假設(shè):相關(guān)系數(shù)矩陣是單位陣。巴特利特球度檢驗統(tǒng)計量近似服從分布。如果該統(tǒng)計量的觀測值比較大,對應(yīng)的P值小于給定的顯著性水平,則拒絕零假設(shè),認(rèn)為相關(guān)系數(shù)矩陣不大可能是單位陣,即原有變量適合進(jìn)行因子分析。

(4)KMO(Kaiser-Meyer-Olkin)檢驗。KMO統(tǒng)計量用于檢驗變量間的偏相關(guān)性是否足夠小,是簡單相關(guān)量和偏相關(guān)量的一個相對指數(shù),由下式求得:KMO>0.9非常適合0.8<KMO<0.9適合0.7<KMO<0.8一般0.6<KMO<0.7不太適合KMO<0.5不適合18

簡單相關(guān)系數(shù)

相關(guān)系數(shù):表示兩要素之間的相關(guān)程度的統(tǒng)計指標(biāo)。

對于兩個要素x與y,如果它們的樣本值分別為xi與yi(i=1,2,...,n),它們之間的相關(guān)系數(shù):19偏相關(guān)系數(shù)在多要素構(gòu)成的系統(tǒng)中,當(dāng)研究某一個要素對另一個要素的影響或相關(guān)程度時,把其它要素的影響視為常數(shù),而單獨研究兩個要素之間的相互關(guān)系的密切程度時,稱為偏相關(guān)。用以度量偏相關(guān)程度的統(tǒng)計量,稱為偏相關(guān)系數(shù)。一級偏相關(guān)系數(shù):假設(shè)有三個要素x1、x2、x3,它們之間的偏相關(guān)系數(shù)共有三個,即r12.3,r13.2,r23.1其計算公式分別如下:20r12.3,r13.2,r23.1又稱為一級偏相關(guān)系數(shù)21二級偏相關(guān)系數(shù):若有四個要素x1、x2、x3和x4,則有六個偏相關(guān)系數(shù),即r12.34,r13.24,r14.23,r23.14,r24.13,r34.12,稱為二級偏相關(guān)系數(shù),計算公式如下:22二、因子提取和因子載荷矩陣的求解

1、因子分析的關(guān)鍵:根據(jù)樣本數(shù)據(jù)求解因子載荷矩陣。因子載荷矩陣的求解方法主要有:主成分法、主軸因子法、最大似然法、最小二乘法、因子提取法和映像因子法等。其中,主成分法使用最廣泛,它能夠為因子分析提供初始解,因子分析是主成分分析結(jié)果的延伸和拓展。

2、主成分分析法通過坐標(biāo)變換的方法將原有的p個相關(guān)變量標(biāo)準(zhǔn)化,再進(jìn)行線性組合轉(zhuǎn)換成另一組不相關(guān)的變量,于是有:其中,(1)求解系數(shù)矩陣的原則:

①Fm與Fn(m≠n)不相關(guān)。②F1是原有變量x1,x2,…,xp

的一切線性組合中方差最大的,F(xiàn)2是與F1不相關(guān)的原有變量的一切線性組合中方差最大的,……,F(xiàn)p是與F1,F2,…,Fp-1都不相關(guān)的原有變量的一切線性組合中方差最大的。綜合變量F1,F1,…,Fp依次稱為原有變量的第1個、第2個、…、第p個主成分。它們綜合原有變量的能力是依次遞減的。由于umn為隨機(jī)向量X的相關(guān)矩陣的特征值對應(yīng)的特征向量的分量,特征向量之間彼此正交,實際上從X到F的轉(zhuǎn)換關(guān)系是可逆的,即:我們只保留前k個主成分,把后面的用代替,即:(2)主成分分析法的步驟:①將原有變量的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。②根據(jù)變量特性選擇計算相關(guān)矩陣還是協(xié)方差矩陣。由于變量標(biāo)準(zhǔn)化會抹殺一部分重要信息,所以對同度量或同數(shù)量級的數(shù)據(jù),直接從協(xié)方差矩陣求解主成分為宜。建議實際研究中從不同角度出發(fā)求解主成分并研究其結(jié)果的差異。③求相關(guān)矩陣或協(xié)方差矩陣的特征根及對應(yīng)的特征向量然后計算,即得各個主成分。通常我們只需要用前幾個主成分,這幾個主成分即為所求的初始因子。

3、求原有變量的因子載荷矩陣(成分矩陣)。確定提取因子數(shù)的兩個方法:(1)根據(jù)特征根大小確定因子數(shù):一般取特征根大于1的因子。(2)根據(jù)累計方差貢獻(xiàn)率確定因子數(shù):通常選取累計方差貢獻(xiàn)率大于0.80時的特征根個數(shù)為因子個數(shù)。很多人習(xí)慣使用方法(1),但它缺乏完善的理論支持,大多數(shù)情況是使用方法二。

在提取因子的過程中涉及下列名詞,現(xiàn)分別說明:30(1)特征值

特征值是指每個變量在某一公共因子上的因子負(fù)荷的平方總和,又叫特征根。在因子分析的公共因子提取中,特征值最大的公共因子會最先被提取,最后提取特征值最小的公共因子。因子分析的目的就是使因子維度簡單化,希望以最小的公共因子能對總變異量作最大的解釋,因而提取的因素愈少愈好,而提取因子之累積解釋的變異量則愈大愈好。31

每個公共因子對原始數(shù)據(jù)的解釋能力,可以用該因子所解釋的總方差來衡量,通常稱為該因子的貢獻(xiàn)率,它等于和該因子有關(guān)的因子負(fù)荷的平方和,實際中常用相對指標(biāo)來表示。相對指標(biāo)體現(xiàn)公共因子的相對重要性,即每個公共因子所解釋的方差占所有變量總方差的比例。(2)因子的貢獻(xiàn)率32三、因子旋轉(zhuǎn)使因子具有命名可解釋性

1、因子載荷矩陣第m行多個列上元素的絕對值都較大(通常大于0.5),則表明原有變量與多個因子同時具有較強(qiáng)的相關(guān)關(guān)系。通過因子旋轉(zhuǎn)可以使一個變量只在盡可能少的因子上具有比較高的載荷,因子的含義就變清楚了。

2、因子矩陣旋轉(zhuǎn):將因子載荷矩陣右乘一個正交矩陣,得到一個新矩陣。它不影響原有變量的共同度,但會改變因子的方差貢獻(xiàn),即會重新分配各因子解釋原有變量方差的比例,使因子更易于理解。

(1)正交旋轉(zhuǎn):坐標(biāo)軸在旋轉(zhuǎn)過程中始終保持垂直,新生成的因子保持不相關(guān)。正交旋轉(zhuǎn)方法主要有:四次方最大法(Quartimax)、方差最大法(Varimax)和等量最大法(Equamax)等,方差最大法使用較多。(2)斜交旋轉(zhuǎn):坐標(biāo)軸可以是任意角度的,新生成的因子不能保證不相關(guān)。

使因子具有命名可解釋性方面,斜交旋轉(zhuǎn)通常優(yōu)于正交旋轉(zhuǎn),但卻以不能保持因子的不相關(guān)性為代價。因此,一般選擇正交旋轉(zhuǎn)方法。

四、計算因子得分

1、因子得分(即標(biāo)準(zhǔn)化主成分)是因子分析的最終體現(xiàn)。計算因子得分的方法:回歸法、Bartlett法和Anderson-Rubin法。

2、計算因子得分是用原有變量描述因子:

因為原始變量和公共因子均為標(biāo)準(zhǔn)化變量,因此回歸模型中不存在常數(shù)項。

因子分析的對話框介紹在FactorAnalysis對話框中,左邊較大的矩形框是源變量框,右邊“Variables”框為選入分析的變量框36各變量的基本統(tǒng)計量(包括均數(shù),標(biāo)準(zhǔn)差和樣本量)因子分析的初始解(包括原變量的公因子方差,與變量數(shù)目相同的因子,各因子的特征值及其所占總方差的百分比和累計百分比)相關(guān)系數(shù)矩陣相關(guān)系數(shù)矩陣單側(cè)檢驗的概率值相關(guān)系數(shù)矩陣的行列式KMO和巴特利球型檢驗相關(guān)系數(shù)矩陣的逆矩陣反映象協(xié)方差陣和相關(guān)陣再生相關(guān)陣(給出因子分析后的相關(guān)陣及其殘差,下三角為再生相關(guān)陣,上三角為殘差,即再生相關(guān)系數(shù)與原始相關(guān)系數(shù)之差)Descriptives按鈕37“Analyze”指定提取因子的依據(jù):Correlationmatrix:相關(guān)系數(shù)矩陣(系統(tǒng)默認(rèn),當(dāng)原有變量存在數(shù)量級的差異時,通常選擇該選項)Covariancematrix:協(xié)方差矩陣“Extract”提取標(biāo)準(zhǔn):Eigenvalusover:以特征值大于某數(shù)值為提取標(biāo)準(zhǔn)Numberoffactors:自定義提取因子的數(shù)量(正整數(shù))“Display”輸出內(nèi)容:Unrotatedfactorsolution:未旋轉(zhuǎn)的因子負(fù)荷陣Screeplot:碎石圖(以特征值大小排列的原始變量序號為橫軸,特征值為縱軸的加連線的散點圖)MaximumIterationsforConvergence:最大迭代次數(shù)(正整數(shù)),系統(tǒng)默認(rèn)25次Extraction按鈕38Rotation按鈕“Mothod”因子旋轉(zhuǎn)方法:正交法None:不旋轉(zhuǎn)(系統(tǒng)默認(rèn))Varimax:最大方差旋轉(zhuǎn)法Quartimax:四次方最大正交旋轉(zhuǎn)法Equamax:平均正交旋轉(zhuǎn)法“Display”輸出內(nèi)容:Rotatedsolution:旋轉(zhuǎn)后的因子負(fù)荷矩陣Loading

plot(s):旋轉(zhuǎn)后的因子負(fù)荷散點圖斜交法DirectOblimin:最大斜交旋轉(zhuǎn)法,選此項,下方的Delta框被激活,可填入小等于0.8的值,系統(tǒng)默認(rèn)0,即產(chǎn)生最高相關(guān)因子。Promax:斜交旋轉(zhuǎn)法,選此項,下方的Kappa框被激活,系統(tǒng)默認(rèn)4。該法允許因子間相關(guān),遠(yuǎn)較最大斜交旋轉(zhuǎn)法計算速度快,適于大型數(shù)據(jù)處理。

-----------------------------------------------------------------------39FactorScores按鈕“Method”求因子得分方法:Regression:回歸法(系統(tǒng)默認(rèn))Bartlett:Bartlett法Anderson-Rubin:Anderson-Rubin法Displayfactorscorecoefficientmatrix:輸出因子得分系數(shù)矩陣40Option按鈕“MissingValues”缺失值處理:Excludecaseslistwise:剔除含有缺失值的所有觀察單位(系統(tǒng)默認(rèn))Excludecasespairwise:剔除各對變量中含有缺失值的觀察單位Replacewithmean:用各變量的均值替代缺失值“CoefficientDisplayFormat”因子矩陣的輸出格式:Sortedbysize:按因子系數(shù)由大到小排列Suppressabsolutevalueslessthan:只列出大于某一數(shù)值的因子系數(shù)(系統(tǒng)默認(rèn)0.1)41第3節(jié)案例分析案例X1:每萬人中等職業(yè)教育在校生數(shù)X2:每萬人中等職業(yè)教育招生數(shù)X3:每萬人中等職業(yè)教育畢業(yè)生數(shù)X4:每萬人中等職業(yè)教育專任教師數(shù)X5:本科以上學(xué)校教師占專任教師的比例X6:高級教師占專任教師的比例X7:學(xué)校平均在校生人數(shù)X8:國家財政預(yù)算中等職業(yè)教育經(jīng)費占國內(nèi)生產(chǎn)總值的比例X9:生均教育經(jīng)費

對北京18個區(qū)縣中等職業(yè)教育發(fā)展水平的9個指標(biāo)進(jìn)行因子分析,然后進(jìn)行綜合評價。數(shù)據(jù)如有表所示,9個指標(biāo)分別表示如下含義:42操作步驟定義變量:變量“qx”為字符型變量,表示區(qū)縣;變量x1,x2,…,x9均為數(shù)值型變量,表示中等教育發(fā)展水平的狀況。

3.從左側(cè)的變量列表中選擇x1,x2,…,x9變量進(jìn)入“Variables”框中。

43444546結(jié)果分析上表顯示原有變量的相關(guān)系數(shù)矩陣及其檢驗??梢钥吹?,大部分的相關(guān)系數(shù)都較高(大于0.3,單邊檢驗值小于0.05),各變量呈較高的線性關(guān)系,能夠從中提取公共因子,適合進(jìn)行因子分析。大部分的相關(guān)系數(shù)值大于0.3大部分的檢驗值小于0.0547

巴特利球形檢驗統(tǒng)計量為131.051,相應(yīng)的概率Sig為0.000,因此可認(rèn)為相關(guān)系數(shù)矩陣與單位陣有顯著差異。同時,KMO值為0.762,根據(jù)Kaiser給出的KMO度量標(biāo)準(zhǔn)可知原有變量適合作因子分析。48

右表是因子分析的初始解,顯示了所有變量的共同方差數(shù)據(jù)?!癐nitial”列是因子分析初始解下的變量共同方差。它表示,對原有9個變量如果采用主成分分析方法提取所有特征值(9個),那么原有變量的所有方差都可被解釋,變量的共同方差均為1(原有變量標(biāo)準(zhǔn)化后的方差為1)?!癊xtraction”列是在按指定提取條件(本例提取3個因子)提取特征值時的共同方差??梢钥吹?,所有變量的共同方差均較高,各個變量的信息丟失都較少。因此本次因子分析提取的總體效果較理想49上表中,第一列是因子編號,以后三列組成一組,每組中數(shù)據(jù)項的含義依次是特征根值,方差貢獻(xiàn)率和累計方差貢獻(xiàn)率。

第一組數(shù)據(jù)項描述了因子初始解的情況??煽吹?,第1個因子的特征值是4.975,解釋原有9個變量總方差的

55.275%(4.975÷9×100),累計方差貢獻(xiàn)率為55.275%;其余數(shù)據(jù)含義類似。

第二組數(shù)據(jù)項描述了因子解的情況??煽吹?,由于指定提取3個因子,3個因子共解釋了原有變量總方差的84.466%??傮w上,3個因子反映了原有變量的大部分信息,因子分析效果較理想。第三組數(shù)據(jù)描述了經(jīng)過旋轉(zhuǎn)后最終因子解的情況??梢姡蜃有D(zhuǎn)后累計方差比沒有改變,但重新分配了

各個因子解釋原有變量的方差,改變了各個因子的方差貢獻(xiàn),使得因子更易于解釋。50右圖中,橫坐標(biāo)為因子數(shù)目,縱坐標(biāo)為特征值??梢姡?個因子的特征值很高,對解釋原有變量的貢獻(xiàn)最大;第4個以后的因子特征值都較小,對解釋原有變量的貢獻(xiàn)很小,已經(jīng)成為可被忽略的“高山腳下的碎石”,因此提取3個因子是適合的。3個主要因子51

從表中可以看到,9個變量在第1個因子上的負(fù)荷都很高,意味著它

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論