![主成分分析因子分析數(shù)據(jù)相關(guān)性降維_第1頁(yè)](http://file4.renrendoc.com/view/5866d3cdb5cbd42b5b63bf349d0eab76/5866d3cdb5cbd42b5b63bf349d0eab761.gif)
![主成分分析因子分析數(shù)據(jù)相關(guān)性降維_第2頁(yè)](http://file4.renrendoc.com/view/5866d3cdb5cbd42b5b63bf349d0eab76/5866d3cdb5cbd42b5b63bf349d0eab762.gif)
![主成分分析因子分析數(shù)據(jù)相關(guān)性降維_第3頁(yè)](http://file4.renrendoc.com/view/5866d3cdb5cbd42b5b63bf349d0eab76/5866d3cdb5cbd42b5b63bf349d0eab763.gif)
![主成分分析因子分析數(shù)據(jù)相關(guān)性降維_第4頁(yè)](http://file4.renrendoc.com/view/5866d3cdb5cbd42b5b63bf349d0eab76/5866d3cdb5cbd42b5b63bf349d0eab764.gif)
![主成分分析因子分析數(shù)據(jù)相關(guān)性降維_第5頁(yè)](http://file4.renrendoc.com/view/5866d3cdb5cbd42b5b63bf349d0eab76/5866d3cdb5cbd42b5b63bf349d0eab765.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、主成分分析因子分析數(shù)據(jù)相關(guān)性降維第1頁(yè),共25頁(yè),2022年,5月20日,6點(diǎn)46分,星期日主成分分析與因子分析的概念需要與可能:在各個(gè)領(lǐng)域的科學(xué)研究中,往往需要對(duì)反映事物的多個(gè)變量進(jìn)行大量的觀測(cè),收集大量數(shù)據(jù)以便進(jìn)行分析尋找規(guī)律。多變量大樣本無(wú)疑會(huì)為科學(xué)研究提供豐富的信息,但也在一定程度上增加了數(shù)據(jù)采集的工作量,更重要的是在大多數(shù)情況下,許多變量之間可能存在相關(guān)性而增加了問(wèn)題分析的復(fù)雜性,同時(shí)對(duì)分析帶來(lái)不便。如果分別分析每個(gè)指標(biāo),分析又可能是孤立的,而不是綜合的。盲目減少指標(biāo)會(huì)損失很多信息,容易產(chǎn)生錯(cuò)誤的結(jié)論。因此需要找到一個(gè)合理的方法,減少分析指標(biāo)的同時(shí),盡量減少原指標(biāo)包含信息的損失,對(duì)所
2、收集的資料作全面的分析。由于各變量間存在一定的相關(guān)關(guān)系,因此有可能用較少的綜合指標(biāo)分別綜合存在于各變量中的各類(lèi)信息。主成分分析與因子分析就是這樣一種降維的方法。主成分分析與因子分析是將多個(gè)實(shí)測(cè)變量轉(zhuǎn)換為少數(shù)幾個(gè)不相關(guān)的綜合指標(biāo)的多元統(tǒng)計(jì)分析方法直線綜合指標(biāo)往往是不能直接觀測(cè)到的,但它更能反映事物的本質(zhì)。因此在醫(yī)學(xué)、心理學(xué)、經(jīng)濟(jì)學(xué)等科學(xué)領(lǐng)域以及社會(huì)化生產(chǎn)中得到廣泛的應(yīng)用。第2頁(yè),共25頁(yè),2022年,5月20日,6點(diǎn)46分,星期日主成分分析與因子分析的概念(續(xù))由于實(shí)測(cè)的變量間存在一定的相關(guān)關(guān)系,因此有可能用較少數(shù)的綜合指標(biāo)分別綜合存在于各變量中的各類(lèi)信息,而綜合指標(biāo)之間彼此不相關(guān),即各指標(biāo)代表
3、的信息不重疊。綜合指標(biāo)稱為因子或主成分(提取幾個(gè)因子),一般有兩種方法:特征值1累計(jì)貢獻(xiàn)率0.8第3頁(yè),共25頁(yè),2022年,5月20日,6點(diǎn)46分,星期日匯報(bào)什么?假定你是一個(gè)公司的財(cái)務(wù)經(jīng)理,掌握了公司的所有數(shù)據(jù),比如固定資產(chǎn)、流動(dòng)資金、每一筆借貸的數(shù)額和期限、各種稅費(fèi)、工資支出、原料消耗、產(chǎn)值、利潤(rùn)、折舊、職工人數(shù)、職工的分工和教育程度等等。如果讓你向上面介紹公司狀況,你能夠把這些指標(biāo)和數(shù)字都原封不動(dòng)地?cái)[出去嗎? 當(dāng)然不能。你必須要把各個(gè)方面作出高度概括,用一兩個(gè)指標(biāo)簡(jiǎn)單明了地把情況說(shuō)清楚。 第4頁(yè),共25頁(yè),2022年,5月20日,6點(diǎn)46分,星期日主成分分析每個(gè)人都會(huì)遇到有很多變量的數(shù)
4、據(jù)。比如全國(guó)或各個(gè)地區(qū)的帶有許多經(jīng)濟(jì)和社會(huì)變量的數(shù)據(jù);各個(gè)學(xué)校的研究、教學(xué)等各種變量的數(shù)據(jù)等等。這些數(shù)據(jù)的共同特點(diǎn)是變量很多,在如此多的變量之中,有很多是相關(guān)的。人們希望能夠找出它們的少數(shù)“代表”來(lái)對(duì)它們進(jìn)行描述。本章就介紹兩種把變量維數(shù)降低以便于描述、理解和分析的方法:主成分分析(principal component analysis)和因子分析(factor analysis)。實(shí)際上主成分分析可以說(shuō)是因子分析的一個(gè)特例。在引進(jìn)主成分分析之前,先看下面的例子。第5頁(yè),共25頁(yè),2022年,5月20日,6點(diǎn)46分,星期日成績(jī)數(shù)據(jù)(student.sav)100個(gè)學(xué)生的數(shù)學(xué)、物理、化學(xué)、語(yǔ)文
5、、歷史、英語(yǔ)的成績(jī)?nèi)缦卤恚ú糠郑?第6頁(yè),共25頁(yè),2022年,5月20日,6點(diǎn)46分,星期日從本例可能提出的問(wèn)題目前的問(wèn)題是,能不能把這個(gè)數(shù)據(jù)的6個(gè)變量用一兩個(gè)綜合變量來(lái)表示呢?這一兩個(gè)綜合變量包含有多少原來(lái)的信息呢?能不能利用找到的綜合變量來(lái)對(duì)學(xué)生排序呢?這一類(lèi)數(shù)據(jù)所涉及的問(wèn)題可以推廣到對(duì)企業(yè),對(duì)學(xué)校進(jìn)行分析、排序、判別和分類(lèi)等問(wèn)題。第7頁(yè),共25頁(yè),2022年,5月20日,6點(diǎn)46分,星期日主成分分析例中的的數(shù)據(jù)點(diǎn)是六維的;也就是說(shuō),每個(gè)觀測(cè)值是6維空間中的一個(gè)點(diǎn)。我們希望把6維空間用低維空間表示。先假定只有二維,即只有兩個(gè)變量,它們由橫坐標(biāo)和縱坐標(biāo)所代表;因此每個(gè)觀測(cè)值都有相應(yīng)于這兩
6、個(gè)坐標(biāo)軸的兩個(gè)坐標(biāo)值;如果這些數(shù)據(jù)形成一個(gè)橢圓形狀的點(diǎn)陣(這在變量的二維正態(tài)的假定下是可能的)那么這個(gè)橢圓有一個(gè)長(zhǎng)軸和一個(gè)短軸。在短軸方向上,數(shù)據(jù)變化很少;在極端的情況,短軸如果退化成一點(diǎn),那只有在長(zhǎng)軸的方向才能夠解釋這些點(diǎn)的變化了;這樣,由二維到一維的降維就自然完成了。第8頁(yè),共25頁(yè),2022年,5月20日,6點(diǎn)46分,星期日主成分分析當(dāng)坐標(biāo)軸和橢圓的長(zhǎng)短軸平行,那么代表長(zhǎng)軸的變量就描述了數(shù)據(jù)的主要變化,而代表短軸的變量就描述了數(shù)據(jù)的次要變化。但是,坐標(biāo)軸通常并不和橢圓的長(zhǎng)短軸平行。因此,需要尋找橢圓的長(zhǎng)短軸,并進(jìn)行變換,使得新變量和橢圓的長(zhǎng)短軸平行。如果長(zhǎng)軸變量代表了數(shù)據(jù)包含的大部分信息
7、,就用該變量代替原先的兩個(gè)變量(舍去次要的一維),降維就完成了。橢圓(球)的長(zhǎng)短軸相差得越大,降維也越有道理。第9頁(yè),共25頁(yè),2022年,5月20日,6點(diǎn)46分,星期日第10頁(yè),共25頁(yè),2022年,5月20日,6點(diǎn)46分,星期日主成分分析對(duì)于多維變量的情況和二維類(lèi)似,也有高維的橢球,只不過(guò)無(wú)法直觀地看見(jiàn)罷了。首先把高維橢球的主軸找出來(lái),再用代表大多數(shù)數(shù)據(jù)信息的最長(zhǎng)的幾個(gè)軸作為新變量;這樣,主成分分析就基本完成了。注意,和二維情況類(lèi)似,高維橢球的主軸也是互相垂直的。這些互相正交的新變量是原先變量的線性組合,叫做主成分(principal component)。 第11頁(yè),共25頁(yè),2022年
8、,5月20日,6點(diǎn)46分,星期日主成分分析正如二維橢圓有兩個(gè)主軸,三維橢球有三個(gè)主軸一樣,有幾個(gè)變量,就有幾個(gè)主成分。選擇越少的主成分,降維就越好。什么是標(biāo)準(zhǔn)呢?那就是這些被選的主成分所代表的主軸的長(zhǎng)度之和占了主軸長(zhǎng)度總和的大部分。有些文獻(xiàn)建議,所選的主軸總長(zhǎng)度占所有主軸長(zhǎng)度之和的大約85%即可,其實(shí),這只是一個(gè)大體的說(shuō)法;具體選幾個(gè),要看實(shí)際情況而定。第12頁(yè),共25頁(yè),2022年,5月20日,6點(diǎn)46分,星期日對(duì)于我們的數(shù)據(jù),SPSS輸出為這里的Initial Eigenvalues就是這里的六個(gè)主軸長(zhǎng)度,又稱特征值(數(shù)據(jù)相關(guān)陣的特征值)。頭兩個(gè)成分特征值累積占了總方差的81.142%。后
9、面的特征值的貢獻(xiàn)越來(lái)越少。 第13頁(yè),共25頁(yè),2022年,5月20日,6點(diǎn)46分,星期日特征值的貢獻(xiàn)還可以從SPSS的所謂碎石圖看出第14頁(yè),共25頁(yè),2022年,5月20日,6點(diǎn)46分,星期日怎么解釋這兩個(gè)主成分。前面說(shuō)過(guò)主成分是原始六個(gè)變量的線性組合。是怎么樣的組合呢?SPSS可以輸出下面的表。 這里每一列代表一個(gè)主成分作為原來(lái)變量線性組合的系數(shù)(比例)。比如第一主成分作為數(shù)學(xué)、物理、化學(xué)、語(yǔ)文、歷史、英語(yǔ)這六個(gè)原先變量的線性組合,系數(shù)(比例)為-0.806, -0.674, -0.675, 0.893, 0.825, 0.836。 第15頁(yè),共25頁(yè),2022年,5月20日,6點(diǎn)46分
10、,星期日如用x1,x2,x3,x4,x5,x6分別表示原先的六個(gè)變量,而用y1,y2,y3,y4,y5,y6表示新的主成分,那么,原先六個(gè)變量x1,x2,x3,x4,x5,x6與第一和第二主成分y1,y2的關(guān)系為:X1=-0.806y1 + 0.353y2X2=-0.674y1 + 0.531y2X3=-0.675y1 + 0.513y2X4= 0.893y1 + 0.306y2x5= 0.825y1 + 0.435y2x6= 0.836y1 + 0.425y2這些系數(shù)稱為主成分載荷(loading),它表示主成分和相應(yīng)的原先變量的相關(guān)系數(shù)。比如x1表示式中y1的系數(shù)為-0.806,這就是說(shuō)第
11、一主成分和數(shù)學(xué)變量的相關(guān)系數(shù)為-0.806。相關(guān)系數(shù)(絕對(duì)值)越大,主成分對(duì)該變量的代表性也越大。可以看得出,第一主成分對(duì)各個(gè)變量解釋得都很充分。而最后的幾個(gè)主成分和原先的變量就不那么相關(guān)了。 第16頁(yè),共25頁(yè),2022年,5月20日,6點(diǎn)46分,星期日可以把第一和第二主成分的載荷點(diǎn)出一個(gè)二維圖以直觀地顯示它們?nèi)绾谓忉屧瓉?lái)的變量的。這個(gè)圖叫做載荷圖。第17頁(yè),共25頁(yè),2022年,5月20日,6點(diǎn)46分,星期日該圖左面三個(gè)點(diǎn)是數(shù)學(xué)、物理、化學(xué)三科,右邊三個(gè)點(diǎn)是語(yǔ)文、歷史、外語(yǔ)三科。圖中的六個(gè)點(diǎn)由于比較擠,不易分清,但只要認(rèn)識(shí)到這些點(diǎn)的坐標(biāo)是前面的第一二主成分載荷,坐標(biāo)是前面表中第一二列中的數(shù)
12、目,還是可以識(shí)別的。第18頁(yè),共25頁(yè),2022年,5月20日,6點(diǎn)46分,星期日因子分析主成分分析從原理上是尋找橢球的所有主軸。因此,原先有幾個(gè)變量,就有幾個(gè)主成分。而因子分析是事先確定要找?guī)讉€(gè)成分,這里叫因子(factor)(比如兩個(gè)),那就找兩個(gè)。這使得在數(shù)學(xué)模型上,因子分析和主成分分析有不少區(qū)別。而且因子分析的計(jì)算也復(fù)雜得多。根據(jù)因子分析模型的特點(diǎn),它還多一道工序:因子旋轉(zhuǎn)(factor rotation);這個(gè)步驟可以使結(jié)果更好。當(dāng)然,對(duì)于計(jì)算機(jī)來(lái)說(shuō),因子分析并不比主成分分析多費(fèi)多少時(shí)間。從輸出的結(jié)果來(lái)看,因子分析也有因子載荷(factor loading)的概念,代表了因子和原先變
13、量的相關(guān)系數(shù)。但是在輸出中的因子和原來(lái)變量相關(guān)系數(shù)的公式中的系數(shù)不是因子載荷,也給出了二維圖;該圖雖然不是載荷圖,但解釋和主成分分析的載荷圖類(lèi)似。 第19頁(yè),共25頁(yè),2022年,5月20日,6點(diǎn)46分,星期日主成分分析與因子分析的公式上的區(qū)別主成分分析 P312因子分析(mp) P314因子得分 P315第20頁(yè),共25頁(yè),2022年,5月20日,6點(diǎn)46分,星期日對(duì)于我們的數(shù)據(jù),SPSS因子分析輸出為這里,第一個(gè)因子主要和語(yǔ)文、歷史、英語(yǔ)三科有很強(qiáng)的正相關(guān);而第二個(gè)因子主要和數(shù)學(xué)、物理、化學(xué)三科有很強(qiáng)的正相關(guān)。因此可以給第一個(gè)因子起名為“文科因子”,而給第二個(gè)因子起名為“理科因子”。從這個(gè)
14、例子可以看出,因子分析的結(jié)果比主成分分析解釋性更強(qiáng)。 第21頁(yè),共25頁(yè),2022年,5月20日,6點(diǎn)46分,星期日這兩個(gè)因子的系數(shù)所形成的散點(diǎn)圖(雖然不是載荷,在SPSS中也稱載荷圖,可以直觀看出每個(gè)因子代表了一類(lèi)學(xué)科 第22頁(yè),共25頁(yè),2022年,5月20日,6點(diǎn)46分,星期日計(jì)算因子得分可以根據(jù)前面的因子得分公式(因子得分系數(shù)和原始變量的標(biāo)準(zhǔn)化值的乘積之和),算出每個(gè)學(xué)生的第一個(gè)因子和第二個(gè)因子的大小,即算出每個(gè)學(xué)生的因子得分f1和f2。人們可以根據(jù)這兩套因子得分對(duì)學(xué)生分別按照文科和理科排序。當(dāng)然得到因子得分只是SPSS軟件的一個(gè)選項(xiàng)(可將因子得分存為新變量、顯示因子得分系數(shù)矩陣)第2
15、3頁(yè),共25頁(yè),2022年,5月20日,6點(diǎn)46分,星期日因子分析和主成分分析的一些注意事項(xiàng) 可以看出,因子分析和主成分分析都依賴于原始變量,也只能反映原始變量的信息。所以原始變量的選擇很重要。另外,如果原始變量都本質(zhì)上獨(dú)立,那么降維就可能失敗,這是因?yàn)楹茈y把很多獨(dú)立變量用少數(shù)綜合的變量概括。數(shù)據(jù)越相關(guān),降維效果就越好。在得到分析的結(jié)果時(shí),并不一定會(huì)都得到如我們例子那樣清楚的結(jié)果。這與問(wèn)題的性質(zhì),選取的原始變量以及數(shù)據(jù)的質(zhì)量等都有關(guān)系在用因子得分進(jìn)行排序時(shí)要特別小心,特別是對(duì)于敏感問(wèn)題。由于原始變量不同,因子的選取不同,排序可以很不一樣。第24頁(yè),共25頁(yè),2022年,5月20日,6點(diǎn)46分,
16、星期日SPSS實(shí)現(xiàn)(因子分析與主成分分析)拿student.sav為例,選AnalyzeData ReductionFactor進(jìn)入主對(duì)話框;把math、phys、chem、literat、history、english選入Variables,然后點(diǎn)擊Extraction,在Method選擇一個(gè)方法(如果是主成分分析,則選Principal Components),下面的選項(xiàng)可以隨意,比如要畫(huà)碎石圖就選Scree plot,另外在Extract選項(xiàng)可以按照特征值的大小選主成分(或因子),也可以選定因子的數(shù)目;之后回到主對(duì)話框(用Continue)。然后點(diǎn)擊Rotation,再在該對(duì)話框中的Metho
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年義診活動(dòng)總結(jié)(3篇)
- 2025年臨床醫(yī)學(xué)生實(shí)習(xí)心得總結(jié)樣本(二篇)
- 2025年義工服務(wù)心得體會(huì)范文(2篇)
- 2025年個(gè)人教學(xué)工作心得體會(huì)例文(6篇)
- 2025年鄉(xiāng)節(jié)能宣傳周活動(dòng)總結(jié)(3篇)
- 2025年交投公司上半年總結(jié)及下半年打算(二篇)
- 2025年義務(wù)教育條例學(xué)習(xí)心得模版(3篇)
- 2025年中藥材種植合作協(xié)議樣本(2篇)
- 2025年中層干部工作心得樣本(3篇)
- 2025年倉(cāng)庫(kù)工作崗位工作心得體會(huì)模版(3篇)
- 手術(shù)安全管理之手術(shù)部位標(biāo)識(shí)安全
- 2022年版煤礦安全規(guī)程
- 高質(zhì)量社區(qū)建設(shè)的路徑與探索
- 數(shù)字化時(shí)代的酒店員工培訓(xùn):技能升級(jí)
- 足球守門(mén)員撲救技巧:撲救結(jié)合守護(hù)球門(mén)安全
- 《學(xué)術(shù)規(guī)范和論文寫(xiě)作》課件全套 第1-10章 知:認(rèn)識(shí)研究與論文寫(xiě)作 - 引文規(guī)范
- 帶式輸送機(jī)滾筒出廠檢驗(yàn)規(guī)范
- 起重機(jī)更換卷筒施工方案
- 《信息檢索基礎(chǔ)知識(shí)》課件
- 具有履行合同所必須的設(shè)備和專(zhuān)業(yè)技術(shù)能力的承諾函-設(shè)備和專(zhuān)業(yè)技術(shù)能力承諾
- 01智慧物流信息技術(shù)概述
評(píng)論
0/150
提交評(píng)論