醫(yī)學(xué)統(tǒng)計(jì)學(xué)ppt課件-主成分分析與因子分析(第20章)_第1頁(yè)
醫(yī)學(xué)統(tǒng)計(jì)學(xué)ppt課件-主成分分析與因子分析(第20章)_第2頁(yè)
醫(yī)學(xué)統(tǒng)計(jì)學(xué)ppt課件-主成分分析與因子分析(第20章)_第3頁(yè)
醫(yī)學(xué)統(tǒng)計(jì)學(xué)ppt課件-主成分分析與因子分析(第20章)_第4頁(yè)
醫(yī)學(xué)統(tǒng)計(jì)學(xué)ppt課件-主成分分析與因子分析(第20章)_第5頁(yè)
已閱讀5頁(yè),還剩63頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

析Princ與i與pal

C因ompo子nents分Analysis&

Fact析or

Analysis8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)1第二軍醫(yī)大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室 張羅漫第20章講課內(nèi)容:第一節(jié) 主成分分析

第二節(jié) 因子分析8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)2第一節(jié)

主成分分析8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)3Principal

Components

Analysis一、基本思想8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)4

數(shù)據(jù)的降維、數(shù)據(jù)的解釋將原來(lái)眾多具有一定相關(guān)性的指標(biāo),組合成一組新的相互無(wú)關(guān)的綜合指標(biāo)。

從中選取幾個(gè)較少的綜合指標(biāo)盡可能多的反映原來(lái)眾多指標(biāo)的信息。

這種既減少了指標(biāo)的數(shù)目又抓住了主要矛盾的做法有利于問(wèn)題的分析和處理。8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)5如何利用這些指標(biāo)對(duì)每一兒童的生長(zhǎng)發(fā)育作出正確評(píng)價(jià)??jī)H用單一指標(biāo): 結(jié)論片面;沒有充分利用原有數(shù)據(jù)信息。利用所有指標(biāo):各指標(biāo)評(píng)價(jià)的結(jié)論可能不一致,使綜合評(píng)價(jià)困難;工作量大。8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)6找出幾個(gè)綜合指標(biāo)(長(zhǎng)度、圍度、特體),這些綜合指標(biāo)是原始指標(biāo)的線性組合,既保留了原始指標(biāo)的信息,且互不相關(guān)。各綜合指標(biāo)提供的“信息”量大小用其方差來(lái)衡量。衡量一個(gè)指標(biāo)的好壞除了正確性與精確性外,還必須能充分反映個(gè)體間的變異,一項(xiàng)指標(biāo)在個(gè)體間的變異越大,提供的信息量越多。8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)7二、數(shù)學(xué)模型及幾何意義8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)8Z

=

A

X8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)9第一主成分在所有Zi中最大8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)10第二主成分無(wú)關(guān),互相垂直:在所有Zi中為第2大?!碚撋现鞒煞謧€(gè)數(shù)最多為m個(gè)(指標(biāo)個(gè)數(shù))實(shí)際工作中確定的主成分個(gè)數(shù)總是小于m個(gè)8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)11X1X21-28/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)1212-2-1-120相關(guān)變異X1X2Z1Z21-28/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)1312-2-2-211-1-1-1-12220Z1Z2-2-28/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)1411-1-1220相關(guān)變異三、主成分的求法及性質(zhì)8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)15(一)主成分的求法1.

對(duì)各原始指標(biāo)值進(jìn)行標(biāo)準(zhǔn)化為了方便,仍用Xij表示Xij’。8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)16標(biāo)準(zhǔn)化后的數(shù)據(jù)矩陣X

=8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)172.

求出X1,X2,…,Xm

的相關(guān)矩陣RR=Cov(X)

=8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)18Pearson

相關(guān)系數(shù)標(biāo)準(zhǔn)化后的協(xié)方差協(xié)方差8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)193.

求出矩陣R的全部特征值(eigenvalue)λi,第i個(gè)主成分的組合系數(shù)ai1,ai2,

,aim滿足方程組:(r11-

λi)

ai1+

r12

ai2+

+

r1m

aim

=0r21

ai1+

(r22-

λi)

ai2+

+

r2m

aim=0

rm1

ai1+

rm2

ai2+

+

(rmm-

λi)

aim

=08/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)20(r11-

λi)

ai1+

r12

ai2+

+

r1m

aim

=0r21

ai1+

(r22-

λi)

ai2+

+

r2m

aim=0

rm1

ai1+

rm2

ai2+

+

(rmm-

λi)

aim

=0λi為矩陣R的第i個(gè)特征值, 共有m個(gè)非負(fù)特征值,由大到小的順序排列為:λ1≥

λ2≥

λm≥0λi=Var(Zi)8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)214.

由以上方程組,求出相應(yīng)于特征值λi

的特征向量(eigenvector)(ai1

,ai2

,

,

aim)’8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)22(二)主成分的性質(zhì)1.各主成分互不相關(guān)8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)232.主成分的貢獻(xiàn)率與累積貢獻(xiàn)率

(原始指標(biāo)值標(biāo)準(zhǔn)化)(指標(biāo)個(gè)數(shù))貢獻(xiàn)率8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)24累積貢獻(xiàn)率3.主成分個(gè)數(shù)的選取前k個(gè)主成分的累積貢獻(xiàn)率>70%。主成分Zi的特征值λi

≥1。4.因子載荷(第i主成分Zi與第j原始指標(biāo)Xi間相關(guān)系數(shù))8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)255.樣品的主成分得分8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)26四、實(shí)例8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)278/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)288/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)298/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)301.主成分個(gè)數(shù)的選取λ3很接近于1;λ3與λ2的貢獻(xiàn)率相差不大,為25%左右,若舍去λ3不合理。取前三個(gè)主成分。8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)312.列出主成分表達(dá)式8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)32Z1為急性炎癥成分(X1轉(zhuǎn)氨酶、X2肝大指數(shù))Z2為慢性炎癥成分(X3硫酸鋅濁度

)Z3為癌變成分(X4甲胎球蛋白

)3.求出因子載荷陣8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)334.主成分得分8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)34標(biāo)準(zhǔn)化指標(biāo)主成分還原為原始指標(biāo)主成分8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)35

將該肝病患者的四項(xiàng)肝功能指標(biāo)代入原始指標(biāo)主成分表達(dá)式:Z1=2.50865Z2=-1.06626Z3=-1.22943該肝病患者可能為急性炎癥。8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)36五、主成分分析的應(yīng)用對(duì)原始指標(biāo)進(jìn)行綜合以互不相關(guān)的較少個(gè)綜合指標(biāo)反應(yīng)眾多原始指標(biāo)提供的信息。主成分回歸(解決多元共線問(wèn)題)。進(jìn)行綜合評(píng)價(jià)8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)373.進(jìn)行探索性分析利用因子載荷陣,找出影響各綜合指標(biāo)的38主要原始指標(biāo)。4.對(duì)樣品進(jìn)行分類利用主成分得分對(duì)樣品進(jìn)行分類:Z1為急性炎癥成分

Z2為慢性炎癥成分8/30/20Z23

3為癌變成分醫(yī)學(xué)統(tǒng)計(jì)學(xué)第二節(jié)

因子分析8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)39Factor

Analysis一、因子分析基本思想8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)40從分析多個(gè)可觀測(cè)的原始指標(biāo)的相關(guān)關(guān)系入手,找到支配這種相關(guān)關(guān)系的有限個(gè)不可觀測(cè)的潛在變量。是多元分析中處理降維的一種統(tǒng)計(jì)方法。如:腦部疾病患者的意識(shí)清醒狀態(tài)可由語(yǔ)言能力、辯識(shí)能力、記憶能力、理解能力與思維邏輯能力等可觀測(cè)的指標(biāo)反映。二、因子分析數(shù)學(xué)模型X1:收縮壓

X2:舒張壓

X3:心跳間隔

X4:呼吸間隔

X5:舌下溫度F1:交感神經(jīng)F2:副交感神經(jīng)common

factor8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)41specific

factorcommon

factor8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)42Xi:觀測(cè)指標(biāo)(標(biāo)準(zhǔn)化數(shù)據(jù))Fi:公因子

ei:特殊因子aij:因子載荷(計(jì)算關(guān)鍵項(xiàng))8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)43X =

AF

+

e8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)448/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)458/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)46三、因子模型的性質(zhì)矩陣A的統(tǒng)計(jì)意義1.公共度(共性方差

)8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)47因子的共性方差8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)482.因子貢獻(xiàn)與因子貢獻(xiàn)率矩陣A第j列元素 反映了第j個(gè)公因子Fj對(duì)所有原始指標(biāo)的影響;數(shù)據(jù)標(biāo)準(zhǔn)化后全部原始指標(biāo)的總方差為指標(biāo)個(gè)數(shù)m。Fj對(duì)原始指標(biāo)的方差貢獻(xiàn)率8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)49各因子的貢獻(xiàn)8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)503.因子載荷及因子載荷陣A8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)51四、因子載荷陣的求解及計(jì)算步驟8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)521.

收集原始數(shù)據(jù)并整理為下表對(duì)各指標(biāo)進(jìn)行標(biāo)準(zhǔn)化求指標(biāo)間的相關(guān)系數(shù)矩陣RX求指標(biāo)間的約相關(guān)系數(shù)矩陣R*(1)R*的非對(duì)角線元素與相關(guān)矩陣RX的非對(duì)角線元素相等(2)R*的對(duì)角線元素為共性方差8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)535.

求出約關(guān)系數(shù)矩陣R*所有大于零的特征值及相應(yīng)的特征向量8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)546.

寫出因子載荷陣A,得出原始指標(biāo)X的公因子表達(dá)式要求:保留公因子個(gè)數(shù)q小于指標(biāo)個(gè)數(shù)m,原則:λj≥1前k個(gè)公因子累積貢獻(xiàn)率≥70%各共性方差 接近于1。各原始指標(biāo)在同一公因子Fj上的因子載荷 之間的差別應(yīng)盡可能大。8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)55五、實(shí)例8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)561.主成分解8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)578/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)588/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)59主成分解:除因子1可初步認(rèn)定為綜合因子外,其余3個(gè)因子的專業(yè)意義不明顯。2.主因子解:除因子1可初步認(rèn)定為綜合因子外,其余3個(gè)因子的專業(yè)意義不明顯。8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)60六、因子旋轉(zhuǎn)

當(dāng)各公因子的專業(yè)意義難以解釋時(shí),可以通過(guò)因子旋轉(zhuǎn)來(lái)解決。

如求得的因子載荷陣A不甚理想,可右乘

一個(gè)正交陣T,使AT有更好的實(shí)際意義,使各原始指標(biāo)在同一公因子上之間差別盡可能增大。稱因子正交旋轉(zhuǎn)。

正交旋轉(zhuǎn)可保持各指標(biāo)的共性方差不變;各公因子互不相關(guān)。

常用方差最大旋轉(zhuǎn)法等。618/30/2023

醫(yī)學(xué)統(tǒng)計(jì)學(xué)8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)628/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)63七、幾點(diǎn)注意8/30/2023醫(yī)學(xué)統(tǒng)計(jì)學(xué)641.因子分析的解不唯一同一問(wèn)題可以有不同的因子分析解: 主成分解、主因子解、極大似然解進(jìn)行因子旋轉(zhuǎn)以獲得更為滿意的解。2.因子得分不能直接進(jìn)行計(jì)算,但可以估計(jì)。3.主成分分析與因子分析間的關(guān)系(1)兩者的分析重點(diǎn)不一致Z=AX主成分為原始變量線性組合,重點(diǎn)在綜合原始變量信息。X=AF+e原始變量為公因子與特殊因子線性組合,公因子重點(diǎn)反映支配原始變量的不可觀測(cè)的潛在因素。重要8/30/2023

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論