




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第8章主成分與因子分析
主成分分析與因子分析的目的在于降維,即在眾多存在的相關(guān)性的變量中,找出少數(shù)幾個(gè)綜合性變量,來(lái)反映原來(lái)變量所反映的主要信息,使問(wèn)題簡(jiǎn)化。主要作用能降低所研究的數(shù)據(jù)空間的維數(shù);可用于分析篩選回歸變量,構(gòu)造回歸模型;可用于綜合評(píng)價(jià);可對(duì)變量進(jìn)行分類(lèi)導(dǎo)入案例:如何對(duì)學(xué)生成績(jī)進(jìn)行綜合評(píng)價(jià)我國(guó)歷來(lái)是采用原始分?jǐn)?shù)報(bào)告學(xué)生的學(xué)習(xí)成績(jī),并作為選拔考試擇優(yōu)錄取的重要依據(jù)。由于各科試題難度不同,學(xué)生各科成績(jī)分布也不相同,因而用學(xué)生各科原始分?jǐn)?shù)相加后的總分來(lái)反映學(xué)生個(gè)體在總體中的相對(duì)位置有較大的局限性。為了克服這種局限性,我國(guó)在1998年高考中開(kāi)始實(shí)行用標(biāo)準(zhǔn)分錄取新生。它是高考制度具體措施的一大改革。標(biāo)準(zhǔn)分是一種由原始分推導(dǎo)出來(lái)的相對(duì)地位量數(shù),它是用來(lái)說(shuō)明原始分在所屬的那批分?jǐn)?shù)中的相對(duì)位置的。但是截止到2007年,只有海南省還在使用標(biāo)準(zhǔn)分,其它省份都使用原始分錄取新生。主要內(nèi)容8.1主成分分析8.2因子分析8.3主成分分析和因子分析的區(qū)別8.4用SPSS進(jìn)行因子分析§8.1主成分分析8.1.1主成分分析的數(shù)學(xué)模型1.主成分(PrincipalComponents)含義:
例:上衣尺寸主要包括領(lǐng)長(zhǎng)、袖長(zhǎng)、衣長(zhǎng)、
號(hào)領(lǐng)圍、肩寬、臂圍、胸圍、腰圍、臀圍、袖寬等14
型個(gè)變量,顯然它們是相關(guān)的,因此可以找出反映上衣特征的兩個(gè)不相關(guān)的綜合變量,就是上衣的號(hào)和型。如:(男)180/100A、175/96A;(女)165/84A等F1**
******2.如何實(shí)現(xiàn):
兒童身高(X1)和體重(X2)兩個(gè)變量之間的關(guān)系可以用散點(diǎn)圖表示出來(lái),如圖8.1所示。顯然,這兩個(gè)變量之間存在線性關(guān)系?,F(xiàn)在以直線P1為橫坐標(biāo),以該軸的垂直線P2為縱坐標(biāo),建立一個(gè)新的平面直角坐標(biāo)系,則所有觀測(cè)點(diǎn)均在坐標(biāo)軸P1周?chē)?即沿該方向觀測(cè)值方差最大),而在坐標(biāo)軸P2方向上的波動(dòng)很小,可以忽略。這樣,二維問(wèn)題即可以降為一維問(wèn)題,只取一個(gè)綜合變量P1(主成分)即可。
X2F2*
**
θ
X1
相當(dāng)于在平面上做一個(gè)坐標(biāo)變換,即按逆時(shí)針?lè)较蛐D(zhuǎn)角度θ,根據(jù)旋轉(zhuǎn)變換公式,新舊坐標(biāo)之間有如下關(guān)系主成分就是P個(gè)原始變量的某種線性組合;從幾何意義上看,這些線性組合正是由X1,X2,…,XP構(gòu)成的坐標(biāo)系經(jīng)旋轉(zhuǎn)而產(chǎn)生的新坐標(biāo)系,新坐標(biāo)系使之通過(guò)變差最大的方向(或者說(shuō)具有最大的樣本方差)。3.建立主成分分析的數(shù)學(xué)模型:
假設(shè)觀測(cè)p項(xiàng)變量(指標(biāo)),記為X1,X2,…,Xp,取n件樣品,原始數(shù)據(jù)資料陣為指標(biāo)1(X1)指標(biāo)2(X2)指標(biāo)p(Xp)……第1次觀測(cè)值第n次觀測(cè)值為找出主成分,尋求原變量X1,X2,…,Xp的線性組合Fi,其數(shù)學(xué)模型模型可簡(jiǎn)寫(xiě)為P=u1X1+u2X2+…+upXp
=UTX若令式中U=(u1,u2,…,up)T,X=(X1,X2,…,XP)T滿足如下的條件:(1)Pi和Pj不相關(guān),即(2)主成分的方差依次遞減,重要性依次遞減,即稱(chēng)Pi為第i主成分(i=1,2,…,p)。(3)總方差不變,即(4)每個(gè)主成分的系數(shù)平方和為1,即4.主成分的求法(見(jiàn)板書(shū))5.主成分個(gè)數(shù)的提取為簡(jiǎn)化問(wèn)題,通常提取q(q<p)個(gè)主成分,原則是這q個(gè)主成分能夠反映出原來(lái)P個(gè)變量的絕大部分的方差。幾個(gè)概念:1)主成分的方差貢獻(xiàn)率第i個(gè)主成分的方差在全部方差中所占的比重:稱(chēng)為第i個(gè)主成分的方差貢獻(xiàn)率,反映了第i個(gè)主成分綜合原來(lái)P個(gè)變量信息的能力。2)主成分的累積方差貢獻(xiàn)率前q個(gè)主成分共有多大的信息綜合能力,用這q個(gè)主成分的方差和在全部方差中所占比重來(lái)描述,稱(chēng)為前q個(gè)主成分的~即即知識(shí)要點(diǎn)提醒1:主成分的計(jì)算需要說(shuō)明的是,從協(xié)差陣和相關(guān)陣計(jì)算主成分一般是不同的,當(dāng)變量取值范圍彼此相差很大或度量單位不同時(shí),可以考慮標(biāo)準(zhǔn)化,以便使計(jì)算結(jié)果有合理的解釋?zhuān)苊獬霈F(xiàn)誤解。如沒(méi)有上述度量單位和數(shù)量級(jí)的差異,從協(xié)差陣和相關(guān)陣出發(fā)計(jì)算的結(jié)果對(duì)主成分的解釋或計(jì)算方差貢獻(xiàn)時(shí),一般不會(huì)矛盾。知識(shí)要點(diǎn)提醒2:主成分分析的數(shù)據(jù)要求無(wú)論是從原始變量協(xié)差陣出發(fā)求解主成分,還是從相關(guān)陣求解主成分,均沒(méi)有涉及總體分布問(wèn)題。也就是說(shuō),與很多多元統(tǒng)計(jì)方法不同,主成分分析不要求數(shù)據(jù)來(lái)自正態(tài)總體。主成分分析就是對(duì)矩陣結(jié)構(gòu)的分析。對(duì)多元隨機(jī)變量而言,其協(xié)差陣或其相關(guān)陣都是非負(fù)定的,這樣就可以按照求解主成分的步驟求出其特征值、標(biāo)準(zhǔn)正交特征向量,進(jìn)而求出主成分,達(dá)到縮減數(shù)據(jù)維數(shù)的目的。主成分分析的這一特性大大擴(kuò)展了其應(yīng)用范圍,對(duì)多維數(shù)據(jù),只要是涉及降維的處理,我們都可以嘗試用主成分分析,而不用花太多精力考慮其分布情況。8.1.2主成分分析的步驟及應(yīng)用1.主成分分析的步驟第一步:確定分析變量,收集數(shù)據(jù)資料。第二步:對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。第三步:對(duì)標(biāo)準(zhǔn)化后的樣本數(shù)據(jù)資料計(jì)算協(xié)差陣或相關(guān)陣。第四步:計(jì)算∑或R的特征值及相應(yīng)的特征向量Ui,并按λi
的大小排序(i=1,2,…,p)。第五步:計(jì)算主成分的貢獻(xiàn)率及累計(jì)貢獻(xiàn)率。第六步:確定主成分個(gè)數(shù)。1.取累計(jì)貢獻(xiàn)率≥80%的前q個(gè)主成分2.選用特征值≥1的前q個(gè)主成分。第七步:將樣本數(shù)據(jù)代入前q個(gè)主成分的表達(dá)式,可分別計(jì)算出各單位前q個(gè)主成分的得分。2.主成分分析的應(yīng)用【例8.1】某地區(qū)為了對(duì)14家工業(yè)企業(yè)進(jìn)行經(jīng)濟(jì)效益的綜合評(píng)估,選擇了8項(xiàng)不同的利潤(rùn)指標(biāo),包括凈產(chǎn)值利潤(rùn)率X1(%)、固定資產(chǎn)利潤(rùn)率X2(%)、總產(chǎn)值利潤(rùn)率X3(%)、銷(xiāo)售收入利潤(rùn)率X4(%)、產(chǎn)品成本利潤(rùn)率X5(%)、物耗利潤(rùn)率X6(%)、人均利潤(rùn)率X7(%)、流動(dòng)資金利潤(rùn)率X8(%)。統(tǒng)計(jì)數(shù)據(jù)資料如下表8-1所示。(見(jiàn)書(shū))
8.2因子分析8.2.1因子分析的數(shù)學(xué)模型1.因子分析的含義因子分析是主成分分析的推廣,它是探討存在相關(guān)關(guān)系的變量之間,是否存在不能直接觀測(cè)到但對(duì)可觀測(cè)指標(biāo)的變化起支配作用的潛在因子(factor)的分析方法。
2.因子分析的基本原理因子分析就是通過(guò)變量的相關(guān)系數(shù)矩陣內(nèi)部結(jié)構(gòu)的研究,找出能控制所有變量的少數(shù)幾個(gè)公共因子去描述多個(gè)變量之間的相關(guān)關(guān)系,然后根據(jù)相關(guān)性的大小把變量分組.共享這4個(gè)公共因子,但是每個(gè)變量又有自己的個(gè)性,即不被包含的特殊因子例:某公司招聘人才,對(duì)每位應(yīng)聘者進(jìn)行外貌、求職信的形式、專(zhuān)業(yè)能力、討人喜歡的能力、自信心、洞察力、誠(chéng)實(shí)、推銷(xiāo)本領(lǐng)、經(jīng)驗(yàn)、積極性、抱負(fù)、理解能力、潛在能力、實(shí)際能力、適應(yīng)性等15個(gè)方面的考核。這15個(gè)方面可歸結(jié)為應(yīng)聘者的外露能力、討人喜歡的能力、經(jīng)驗(yàn)、專(zhuān)業(yè)能力4個(gè)方面,每一方面稱(chēng)之為一個(gè)公共因子。企業(yè)可根據(jù)這4個(gè)公共因子的情況來(lái)衡量應(yīng)聘者的綜合水平。這4個(gè)公共因子可以表示為是不可觀測(cè)的潛在因子,即公共因子。15個(gè)變量
3.因子分析的數(shù)學(xué)模型假設(shè)有n個(gè)樣品,每個(gè)樣品觀測(cè)p項(xiàng)變量(指標(biāo)),記為X1,X2,…,Xp,原始數(shù)據(jù)資料陣=(X1,X2,…,Xp)則因子分析的一般數(shù)學(xué)模型為矩陣形式為稱(chēng)為公共因子A=[aij](i=1,2,…,p;j=1,2,…,m)稱(chēng)為載荷矩陣aij為第i個(gè)變量在第j個(gè)公共因子上的載荷,簡(jiǎn)稱(chēng)因子載荷,是不可觀測(cè)的潛在因子是特殊因子,是不能被前m個(gè)公共因子包含的部分滿足如下的條件:(1)m≤p。(2)假定特殊因子服從(3)(4)假定原始變量、公共因子和特殊因子都已標(biāo)準(zhǔn)化,即平均值為0,方差為1。8.2.2因子載荷在上式的兩邊右乘以,再求數(shù)學(xué)期望
由于在標(biāo)準(zhǔn)化下,原始指標(biāo)X、公共因子F和特殊因子ε都已標(biāo)準(zhǔn)化,平均值為0,方差為1;而且各因子不相關(guān)。因此,有可知,因子載荷是變量Xi與公共因子Fj的相關(guān)系數(shù)(即載荷矩陣中第i行第j列的元素),反映了變量Xi與公共因子Fj的相關(guān)程度。,絕對(duì)值越接近于1,表明公共因子Fj與變量Xi的相關(guān)性越強(qiáng)。同時(shí)因子載荷也反映了公共因子Fj對(duì)原始變量Xi的重要作用和程度。1.因子載荷矩陣中的幾個(gè)統(tǒng)計(jì)特征1)因子載荷aij的統(tǒng)計(jì)意義2)變量共同度的統(tǒng)計(jì)意義變量Xi的共同度也就是變量Xi的方差解釋對(duì)兩邊求方差有由于X和F已標(biāo)準(zhǔn)化了,所以有hi2,是全部公共因子對(duì)Xi的總方差的貢獻(xiàn),即全部公共因子對(duì)Xi的解釋貢獻(xiàn)程度ε2,僅與Xi本身的變化有關(guān),即變量Xi的方差中不能由全體公共因子解釋說(shuō)明的比例,ε2越小,說(shuō)明變量Xi的信息損失越少。3)公共因子方差貢獻(xiàn)的統(tǒng)計(jì)意義公共因子Fj的方差貢獻(xiàn)是因子載荷矩陣中各列元素的平方和公共因子Fj的方差貢獻(xiàn)反映了公共因子Fj對(duì)原始變量的解釋能力。該值越高,說(shuō)明相應(yīng)公共因子的重要性越高。2.因子載荷矩陣的估計(jì)方法要建立實(shí)際問(wèn)題的因子分析模型,關(guān)鍵是要根據(jù)樣本數(shù)據(jù)估計(jì)因子載荷矩陣A,目前較為普遍使用的是主成分分析法1)先對(duì)數(shù)據(jù)進(jìn)行一次主成分分析得到主成分分析的模型為樣本協(xié)差陣S的特征值對(duì)應(yīng)的單位正交特征向量u1,u2,…,up
然后計(jì)算p個(gè)主成分當(dāng)略去特殊因子時(shí),因子分析模型變?yōu)閄=AF所以因子載荷矩陣A的第j列應(yīng)為,即載荷矩陣A的樣本估計(jì)量為當(dāng)相關(guān)變量所取單位不同時(shí),我們常常先對(duì)變量標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)化樣本協(xié)差陣S就是原始變量的樣本相關(guān)陣R,再用R代替S,與上類(lèi)似,進(jìn)行載荷矩陣的估計(jì)。實(shí)際應(yīng)用時(shí)通常根據(jù)公共因子的累積貢獻(xiàn)率是否達(dá)到8
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 工程設(shè)備贈(zèng)與合同
- 樣品買(mǎi)賣(mài)合同范本
- 員工宿舍租賃協(xié)議書(shū)范本
- 2025年-重慶市安全員C證考試(專(zhuān)職安全員)題庫(kù)及答案
- 農(nóng)村房屋及土地承租合同
- 東城區(qū)定向強(qiáng)化培訓(xùn)協(xié)議
- 高利貸合同范例二零二五年
- 放射科在新冠疫情中的輔助檢查流程
- 2025年秋季高校外語(yǔ)學(xué)習(xí)交流計(jì)劃
- 二零二五房產(chǎn)抵押擔(dān)保合同范例
- 機(jī)臺(tái)驗(yàn)收?qǐng)?bào)告模板
- 《平臺(tái)經(jīng)濟(jì)從業(yè)者職業(yè)傷害保障制度研究》
- 過(guò)氧化氫溶液含量>8%安全技術(shù)說(shuō)明書(shū)MSDS
- 創(chuàng)傷失血性休克中國(guó)急診專(zhuān)家共識(shí)(2023)解讀課件
- 項(xiàng)目管理工程師招聘筆試題與參考答案(某大型集團(tuán)公司)2024年
- 咨詢(xún)實(shí)施顧問(wèn)能力素質(zhì)模型
- TGDNAS 043-2024 成人靜脈中等長(zhǎng)度導(dǎo)管置管技術(shù)
- 2024年全國(guó)證券投資顧問(wèn)之證券投資顧問(wèn)業(yè)務(wù)考試經(jīng)典測(cè)試題(附答案)
- TD/T 1039-2013 土地整治項(xiàng)目工程量計(jì)算規(guī)則(正式版)
- 《陸上風(fēng)電場(chǎng)工程概算定額》NBT 31010-2019
- 2024年成都都江堰投資發(fā)展集團(tuán)有限公司招聘筆試沖刺題(帶答案解析)
評(píng)論
0/150
提交評(píng)論