




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第第16章章 主成分分析主成分分析中國疾病預(yù)防控制中心學(xué)習(xí)目的v了解主成分分析的數(shù)學(xué)模型;v熟習(xí)主成分分析的方法步驟;v掌握主成分分析的作用和運用領(lǐng)域;v掌握PRINCOMP過程并運用此過程進展數(shù)據(jù)分析。概述v主成分分析也稱主分量分析,旨在利用降維的思想,把多目的轉(zhuǎn)化為少數(shù)幾個綜合目的。在實證問題研討中,為了全面、系統(tǒng)地分析問題,我們必需思索眾多影響要素。這些涉及的要素普通稱為目的,在統(tǒng)計分析中也稱為變量。由于每個變量都不同程度地反映了所研討問題的某些信息,并且目的之間有一定的相關(guān)性,因此所得的統(tǒng)計數(shù)據(jù)反映的信息在一定程度上有重疊。在用統(tǒng)計方法研討多變量問題時,變量太多會添加計算量和添加分析問
2、題的復(fù)雜性,人們希望在進展定量分析的過程中,涉及的變量較少,得到的信息量較多。 概述v科學(xué)研討所涉及的課題往往比較復(fù)雜,是由于影響客觀事物的要素多,需求調(diào)查的變量多。例如,糖尿病、動脈硬化等疾病的病因是多種多樣的,搜集的資料中包含的信息是豐富多彩的。再如,在心思學(xué)研討中,描畫兒童氣質(zhì)的目的可以有9個,描畫兒童活動才干的目的可以有6個,;在臨床醫(yī)學(xué)研討中,描畫兒童生長發(fā)育的的可以有12個目的,鑒別闌尾炎病型的可以有27個目的。然而,重疊的、低質(zhì)量的信息越多,越不利于醫(yī)生作出診斷。目的較多時,給資料分析帶來很多費事,添加了分析問題的復(fù)雜性和難度。例如,在線性回歸分析中,要求模型中的自變量是相互獨立
3、的,否那么,估計的結(jié)果是不準確的,甚至是相反的結(jié)論,產(chǎn)生誤導(dǎo)。概述v在大部分實踐問題中,變量之間是有一定的相關(guān)性的,人們自然希望找到較少的幾個彼此不相關(guān)的綜合目的盡能夠多地反映原來眾多變量的信息。比如描畫兒童生長發(fā)育的目的中,身高、腿長和臂長這三個目的能夠是相關(guān)的,而胸圍、大腿圍和臂圍這三個圍度目的也會有一定的相關(guān)性。假設(shè)分別用每一個目的對兒童的生長發(fā)育做出評價,那么這種評價就是孤立的、片面的,而不是綜合的。僅選用幾個“重要的或“有代表性的目的來評價,就失去了許多有用的信息,容易得出片面的結(jié)論。所以,我們需求一種綜合性的分析方法,既可減少目的變量的個數(shù),又盡量不損失原目的變量所包含的信息,對資
4、料進展全面的綜合分析。主成分分析正是順應(yīng)這一要求產(chǎn)生的,是處理這類題的理想工具。概述v主成份分析的根本思想就是將彼此相關(guān)的一組目的變量轉(zhuǎn)化為彼此獨立的一組新的目的變量,并用其中較少的幾個新目的變量就能綜合反響原多個目的變量中所包含的主要信息,符合專業(yè)含義。何為主成分?簡而言之,主成分實踐上就是由原變量X1Xm線性組合出來的個互不相關(guān)、且未喪失任何信息的新變量,也稱為綜合變量。多目的的主成分分析常被用來尋覓判別某種事物或景象的綜合目的,并給綜合目的所蘊藏的信息以恰當解釋,以便更深化地提示事物內(nèi)在的規(guī)律。主成分分析簡介 v主成分分析法是一種數(shù)學(xué)變換的方法, 它把給定的一組相關(guān)變量經(jīng)過線性變換轉(zhuǎn)成另
5、一組不相關(guān)的變量,這些新的變量按照方差依次遞減的順序陳列。在數(shù)學(xué)變換中堅持變量的總方差不變,使第一變量具有最大的方差,稱為第一主成分,第二變量的方差次大,并且和第一變量不相關(guān),稱為第二主成分。依次類推,I個變量就有I個主成分。v主成分分析是把原來多個變量劃為少數(shù)幾個綜合目的的一種統(tǒng)計分析方法,是一種降維處置技術(shù)。主成分分析的方法步驟 v主成分分析的過程,就是確定原來變量xj 在各主成分zi 上的載荷lij。v從主成分分析的根本原理和數(shù)學(xué)模型可以看出,主成分分析的義務(wù)是估計主成分,確定主成分的個數(shù),解釋主成分的實踐意義和計算主成分得分。v假設(shè)有k個目的x1,x2,xk,每一個目的有n個觀測值,它
6、們的規(guī)范化目的變量是 ,kj, 2 , 1 ki, 2 , 1kXXX,21主成分分析的方法步驟v對原始目的數(shù)據(jù)進展規(guī)范化變換:v將原始數(shù)據(jù)規(guī)范化,然后利用規(guī)范化的數(shù)據(jù)計算主成分。X為規(guī)范化后的數(shù)據(jù)矩陣,那么:kjsxxXjjijij, 2 , 1,nknnkkXXXXXXXXXX212222111211主成分分析的方法步驟v計算相關(guān)系數(shù)矩陣:v其中,111)(21221112212222111211kkkkkkkkkkrrrrrrrrrrrrrrrXCovRnknkjkjikinkjkjikiijxxxxxxxxr11221)()()(主成分分析的方法步驟v計算相關(guān)矩陣的特征值和特征值所對應(yīng)
7、的特征向量:v求主成分的問題,實踐上就是要求出規(guī)范化目的變量X的協(xié)方差矩陣CovX的特征值和特征向量。X的協(xié)方差矩陣為:)(0)(0)()(21kZVarZVarZVarLLXCov主成分分析的方法步驟v求得k個非負特征值 ,將這些特征值按從小到大的順序陳列為:v再由v解得每一特征值對應(yīng)的特征向量,從而求得各主成分:), 2 , 1(kii021kkilllIRiii, 2 , 110)(1kikiiiiXlXlXlXlZ2211主成分分析的方法步驟v計算主成分奉獻率及累計奉獻率v各主成分互不相關(guān),即的相關(guān)系數(shù):v于是,各主成分間的相關(guān)系數(shù)矩陣為單位矩陣。v普通地,主成分Zi的奉獻率為:)(0
8、),(),(),(,jiZZCovZZCovZZCovrjjiijiZZji), 2 , 1(1kikikiii主成分分析的方法步驟v確定主成分的個數(shù)v當?shù)玫搅薻個主成分后,要根據(jù)確定主成分個數(shù)的準那么和主成分的實踐意義來確定主成分的個數(shù)。普通說,確定主成分個數(shù)的準那么有兩個:以累積奉獻率來確定:當前P個主成分的累積奉獻率到達某一特定值時普通采用70%85%為準那么,那么保管前P個主成分。根據(jù)特征值大小來確定,普通地,取特征值大于或等于1為準那么。假設(shè)有s個特征值大于或等于1,那么就可以確定主成分的個數(shù)為s個。普通可以將兩種確定主成分個數(shù)的方法結(jié)合起來,選出有實踐意義的主成分。主成分分析的方法
9、步驟v計算主成分載荷v第i個主成分Zi的特征值的平方根與第j原始目的Xj的系數(shù)lij的乘積v為因子載荷。由因子載荷所構(gòu)成的矩陣為因子載荷陣。實踐數(shù),因子載荷qij就是第i主成分Zi與第j原始目的Xj之間的相關(guān)系數(shù),它反映了主成分Zi與原始目的Xj之間聯(lián)絡(luò)的親密程度與作用方向。ijiijlq主成分分析的方法步驟v計算主成分得分v假設(shè)規(guī)范化目的變量 的第i個主成分是:v其中, ,v是xj的規(guī)范化目的變量。那么,第i個主成分可以轉(zhuǎn)換為原始目的變量的線性組合:v v kXXX,21kikiiiiXlXlXlXlZ2211kjsxxXjjijij, 2 , 1,kisxlsxlsxlxslxslxslz
10、kkikiikkikiii, 2 , 1),(222111222111主成分分析的運用 v研討多個目的變量之間的依存關(guān)系,是醫(yī)學(xué)研討中很重要的一件事情。但是,在研討多個目的變量之間的依存關(guān)系時,經(jīng)常會遇到兩個問題:目的變量過多,使得分析難度添加;變量之間的共線性存在,即變量之間不完全獨立,這種情況呵斥分析結(jié)果不穩(wěn)定或不正確。因此,處理自變量之間的多重共線性和減少變量個數(shù)對依存關(guān)系的分析就很重要了。主成分分析的運用v根據(jù)主成分分析原理,它一方面可以將k個不獨立的目的變量經(jīng)過線性變換變成k個相互獨立的新變量,這是處理多重共線性問題的一個重要方法。另一方面,主成分分析可以用較少的變量取代較多的不獨立
11、的原變量,減少分析中變量的個數(shù)。概括地說,主成分分析有以下幾方面的運用:主成分分析的運用v對原始目的進展綜合:主成分分析的主要作用是在根本保管原始目的信息的前提下,以互不相關(guān)的較少個數(shù)的綜合目的來反映原來目的所提供的信息。v探求多個原始目的對個體特征的影響:對于多個原始目的,求出主成分后,可以利用因子載荷陣的構(gòu)造,進一步探求各主成分與多個原始目的之間的相互關(guān)系,分析各原始目的對各主成分的影響作用。v對樣本進展分類:求出主成分后,假設(shè)各主成分的專業(yè)意義較為明顯,可以利用各樣品的主成分得分來進展樣品的分類。主成份分析SAS程序 vSAS系統(tǒng)中利用PRINCOMP過程對數(shù)據(jù)進展主成分分析。vPRIN
12、COMP過程的語法格式如下:vPROC PRINCOMP DATA= OUT= OUTSTAT= NOINT COV N STD VARDEF 選項;vVAR 變量/選項;vPARTIAL 變量;vRUN;主成份分析SAS程序vDATA語句指定要分析的數(shù)據(jù)集名及一些選項,它可以是原SAS數(shù)據(jù)集,也可以是corr、cov、ucorr、ucov等矩陣。vOUT選擇項指定統(tǒng)計量的輸出數(shù)據(jù)集名,該數(shù)據(jù)集保管的是樣本的原始目的變量和主成分得分變量。vOUTSTAT指定輸出結(jié)果的SAS數(shù)據(jù)集名,該數(shù)據(jù)集保管的是每一個目的的均值、規(guī)范差、樣本數(shù)、相關(guān)系數(shù)矩陣、特征值和得分系數(shù)。vNOINT選擇項指令系統(tǒng)運用
13、未對均值校正的相關(guān)系數(shù)矩陣或方差協(xié)方差矩陣進展主成分分析,它等價于主成分模型中不含常數(shù)項。主成份分析SAS程序vCOV選擇項指令系統(tǒng)用方差協(xié)方差矩陣計算主成分,假設(shè)該選擇項缺省,系統(tǒng)用相關(guān)系數(shù)矩陣計算主成分。vN選擇項給出主成分的個數(shù)。vSTD選擇項指令系統(tǒng)在輸出數(shù)據(jù)集中,主成分得分變量的方差被規(guī)范化為1。vVAR語句用于列出要分析的原始變量。假設(shè)該語句缺省,系統(tǒng)分析其它語句中未涉及到的一切目的變量。vPARTIAL語句用于列出混雜變量,指定系統(tǒng)運用偏相關(guān)系數(shù)或偏方差、協(xié)方差來計算主成分。例如,PARTIAL X;它表示偏相關(guān)系數(shù)或偏方差、協(xié)方差是以變量X為混雜變量的,即一切的相關(guān)系數(shù)都表示的
14、是在X不變的情況下,兩個變量之間的關(guān)聯(lián)程度。但是,該語句列出的變量不能出如今VAR語句中。本章小節(jié) v在大部分實踐問題中,變量之間是有一定的相關(guān)性的,人們自然希望找到較少的幾個彼此不相關(guān)的綜合目的盡能夠多地反映原來眾多變量的信息。本章引見了主成分分析的數(shù)學(xué)模型、方法步驟以及主成分分析的運用。我們需求一種綜合性的分析方法,既可減少目的變量的個數(shù),又盡量不損失原目的變量所包含的信息,對資料進展全面的綜合分析。主成分分析正是順應(yīng)這一要求產(chǎn)生的,是處理這類題的理想工具。主成份分析的根本思想就是將彼此相關(guān)的一組目的變量轉(zhuǎn)化為彼此獨立的一組新的目的變量,并用其中較少的幾個新目的變量就能綜合反響原多個目的變量中所包含的主要信息,符合專業(yè)含義。本章小節(jié)v本章對主成分分析的數(shù)學(xué)模型、分析方法步驟以及運用問題進展了詳細地論述。我們在學(xué)習(xí)的過程中,要熟習(xí)主成分分析的方法步驟:對原始目的數(shù)據(jù)進展規(guī)范化變換、計算相關(guān)系數(shù)矩陣、計算相關(guān)矩陣的特征值和特征值所對應(yīng)的特征向量、計算主成分奉獻率及累計奉獻率、確定主成分的個數(shù)、計算主成分載荷和計算主成分得分。本章小節(jié)v主成分分析有以下幾方面的運用:對原始目的進展綜合:主成分分析的主要作用是在根本保管原始目的信息的前提下,以互不相關(guān)的較少個數(shù)的綜合目的來反映原來目的所提供的信息。探求多個原始目的對個體特征的影響:對于多個原始目的,求出主成分后,可以利用
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 產(chǎn)品差異化與供應(yīng)鏈金融創(chuàng)新考核試卷
- 體育會展項目融資工具創(chuàng)新考核試卷
- 電氣系統(tǒng)維護考核試卷
- 人工智能在罕見內(nèi)分泌疾病診斷中的多模態(tài)數(shù)據(jù)應(yīng)用考核試卷
- 供應(yīng)鏈金融創(chuàng)新服務(wù)考核試卷
- 傳動部件的動態(tài)性能仿真分析考核試卷
- 2025年中國PVC便箋盒數(shù)據(jù)監(jiān)測研究報告
- 2025年中國FR挾口杯數(shù)據(jù)監(jiān)測研究報告
- 2025至2030年中國面罩市場分析及競爭策略研究報告
- 2025至2030年中國鋁研磨面板材市場分析及競爭策略研究報告
- 圖解《黨政機關(guān)國內(nèi)公務(wù)接待管理規(guī)定》
- 自考高級英語上冊課文中英文對照
- 招聘策略(培訓(xùn)課件)
- 全套行政人事管理制度匯編全套
- 工業(yè)產(chǎn)品質(zhì)量安全風(fēng)險管控清單
- 干部履歷表(99年標準版)
- 挖掘機安全技術(shù)交底主要內(nèi)容
- 新時代大中小學(xué)思政課一體化建設(shè)研究
- 幼兒生活常規(guī)教育的現(xiàn)狀研究
- 建設(shè)工程法定手續(xù)辦理流程圖
- 完整版-第八版內(nèi)科冠心病課件
評論
0/150
提交評論