典型相關(guān)分析宇傳華_第1頁
典型相關(guān)分析宇傳華_第2頁
典型相關(guān)分析宇傳華_第3頁
典型相關(guān)分析宇傳華_第4頁
典型相關(guān)分析宇傳華_第5頁
已閱讀5頁,還剩79頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、Canonical Correlation Analysis典型相關(guān)分析1一、引言 1. 兩個(gè)隨機(jī)變量Y與X 簡單相關(guān)系數(shù)2. 一個(gè)隨機(jī)變量Y與一組隨機(jī)變量X1,X2, Xp 多重相關(guān)(復(fù)相關(guān)系數(shù))3. 一組隨機(jī)變量Y1,Y2,Yq與另一組隨機(jī)變量X1,X2,Xp 典型(則)相關(guān)系數(shù)(一)何時(shí)采用典型相關(guān)分析 典型相關(guān)是簡單相關(guān)、多重相關(guān)的推廣;或者說簡單相關(guān)系數(shù)、復(fù)相關(guān)系數(shù)是典型相關(guān)系數(shù)的特例。 典型相關(guān)是研究兩組變量之間相關(guān)性的一種統(tǒng)計(jì)分析方法。也是一種降維技術(shù)。 由Hotelling (1935, 1936)最早提出,Cooley and Lohnes (1971)、 Kshirsaga

2、r (1972)和 Mardia, Kent, and Bibby (1979) 推動(dòng)了它的應(yīng)用。 實(shí)例(X與Y地位相同) 1985年中國28 省市城市男生(1922歲)的調(diào)查數(shù)據(jù)。記形態(tài)指標(biāo)身高(cm)、坐高、體重(kg)、胸圍、肩寬、盆骨寬分別為X1,X2,X6;機(jī)能指標(biāo)脈搏(次/分)、收縮壓(mmHg) 、舒張壓(變音)、舒張壓(消音)、肺活量(ml)分別為Y1,Y2,Y5?,F(xiàn)欲研究這兩組變量之間的相關(guān)性。簡單相關(guān)系數(shù)矩陣簡單相關(guān)系數(shù)公式符號Corr(X)R11Corr(Y)R22Corr(Y,X)R21Corr(X,Y)R12簡單相關(guān)系數(shù)描述兩組變量的相關(guān)關(guān)系的缺點(diǎn)只是孤立考慮單個(gè)X與

3、單個(gè)Y間的相關(guān),沒有考慮X、Y變量組內(nèi)部各變量間的相關(guān)。兩組間有許多簡單相關(guān)系數(shù)(實(shí)例為30個(gè)),使問題顯得復(fù)雜,難以從整體描述。(復(fù)相關(guān)系數(shù)也如此)(二)典型相關(guān)分析的思想采用主成分思想尋找第i對典型(相關(guān))變量(Ui,Vi):典型相關(guān)系數(shù)典型變量系數(shù)或典型權(quán)重 X*1,X*2,X*p和Y*1,Y*2,Y*q分別為X1,X2,Xp和Y1,Y2,Yq的正態(tài)離差標(biāo)準(zhǔn)化值。記第一對典型相關(guān)變量間的典型相關(guān)系數(shù)為: CanR1Corr(U1,V1)(使U1與V1 間最大相關(guān)) 第二對典型相關(guān)變量間的典型相關(guān)系數(shù)為: CanR2Corr(U2,V2)(與U1、V1 無關(guān); 使U2與V2 間最大相關(guān))

4、第五對典型相關(guān)變量間的典型相關(guān)系數(shù)為: CanR5Corr(U5,V5) (與U1、V1 、 U4、V4無關(guān); U5與V5 間最大相關(guān))有: 1CanR1CanR2CanR50典型相關(guān)變量的性質(zhì)(三)典型相關(guān)分析示意圖X1Y1Y2Y3Y4Y5X2X3X4X5X6XYU1U2U3U4U5V1V2V3V4V5CanR1CanR2CanR3CanR4CanR5二、典型相關(guān)系數(shù)及其檢驗(yàn) (一)求解典型相關(guān)系數(shù)的步驟求X,Y變量組的相關(guān)陣R=求矩陣A、B 可以證明A、B有相同的非零特征根3. 求A或B的i(相關(guān)平方)與CanRi,i1,m4. 求A、B關(guān)于i的特征根向量即變量系數(shù)(二)典型相關(guān)系數(shù)計(jì)算實(shí)

5、例求X,Y變量組的相關(guān)陣R=Corr(X)R11Corr(Y)R22Corr(Y,X)R21Corr(X,Y)R122. 求矩陣A、BA矩陣(pp)0.5298 0.4586 0.3053 0.3986 -0.2919 -0.1778 -0.0912 -0.0701 -0.1669 -0.1939 -0.0007 -0.0168 0.2274 0.2739 0.5489 0.0840 0.5238 0.4468 0.0966 0.0376 0.0510 0.3877 -0.2523 -0.1759 -0.0915 -0.0979 -0.0669 -0.0377 0.0061 -0.0806 0

6、.0949 0.1421 0.1757 -0.0210 0.2171 0.3142 B矩陣(qq)0.2611 -0.0560 -0.0337 -0.0551 -0.0312 -0.0053 0.5572 0.1009 0.0034 -0.0543 -0.0632 -0.0843 0.0859 0.0013 0.1743 -0.1175 -0.0007 0.1183 0.2550 0.1490 -0.1052 0.1390 0.3531 0.2912 0.5573 3. 求矩陣A、B的(相關(guān)系數(shù)的平方)A、B有相同的非零特征值B矩陣求(典型相關(guān)系數(shù)的平方)0.2611- -0.0560 -0.

7、0337 -0.0551 -0.0312 -0.0053 0.5572 - 0.1009 0.0034 -0.0543 -0.0632 -0.0843 0.0859 - 0.0013 0.1743 -0.1175 -0.0007 0.1183 0.2550 - 0.1490 -0.1052 0.1390 0.3531 0.2912 0.5573 - 5個(gè)與典型相關(guān)系數(shù)1 0.76432 0.5436 3 0.2611 40.1256 50.02204. 求A、B關(guān)于i的變量系數(shù)(求解第1典型變量系數(shù))求解第2典型變量系數(shù)求解第5典型變量系數(shù)5組(標(biāo)準(zhǔn)化)典型變量系數(shù)(X)5組(標(biāo)準(zhǔn)化)典型變量

8、系數(shù)(X)由標(biāo)準(zhǔn)化典型變量系數(shù)獲得原變量X對應(yīng)的粗典型變量系數(shù)粗典型變量系數(shù)可由標(biāo)準(zhǔn)典型變量系數(shù)與相應(yīng)的標(biāo)準(zhǔn)差之比獲得。5組(標(biāo)準(zhǔn)化)典型變量系數(shù)(Y)(三)典型相關(guān)系數(shù)的特點(diǎn) 兩變量組的變量單位改變,典型相關(guān)系數(shù)不變,但典型變量系數(shù)改變。(無論原變量標(biāo)準(zhǔn)化否,獲得的典型相關(guān)系數(shù)不變)第一對典則相關(guān)系數(shù)較兩組變量間任一個(gè)簡單相關(guān)系數(shù)或復(fù)相關(guān)系數(shù)之絕對值都大,即CanR1max(|Corr(Xi,Yj)|) 或CanR1max(|Corr(X,Yj)|) max(|Corr(Xi,Y)|)(四)校正典型相關(guān)系數(shù)(Adjusted Canonical Correlation) 為了使結(jié)果更加明了,

9、增加大值或小值,減少之間大小的值,將典型變量系數(shù)旋轉(zhuǎn),可得到校正的典型相關(guān)系數(shù)。缺點(diǎn):1.可能影響max(U1,V1); 2. 影響(U1,V1)與其他典型變量間的獨(dú)立性。(五)典型相關(guān)系數(shù)的標(biāo)準(zhǔn)誤 (六)E1H的特征值(見典型判別、MANOVA,E誤差項(xiàng),H組間變異) Eigenvalues of Inv(E)*H = CanRsq/(1-CanRsq) Eigenvalue Difference Proportion Cumulative 1 3.2422 2.0510 0.6546 0.6546 2 1.1912 0.8379 0.2405 0.8951 3 0.3533 0.2097

10、0.0713 0.9665 4 0.1436 0.1212 0.0290 0.9955 5 0.0225 0.0045 1.0000(七)典型相關(guān)系數(shù)的假設(shè)檢驗(yàn) 全部總體典型相關(guān)系數(shù)均為0部分總體典型相關(guān)系數(shù)為01. 全部總體典型相關(guān)系數(shù)為0F近似檢驗(yàn)(SAS結(jié)果) Test of H0: The canonical correlations in the current row and all that follow are zeroLikelihood Approximate Ratio F Value Num DF Den DF Pr F1 0.06798466 2.24 30 70 0

11、.00302 0.28840509 1.38 20 60.649 0.16863 0.63195301 0.80 12 50.561 0.65044 0.85521598 0.54 6 40 0.77295 0.97803479 0.24 2 21 0.7920F近似檢驗(yàn)(計(jì)算公式)多變量統(tǒng)計(jì)量與F近似檢驗(yàn) Multivariate Statistics and F ApproximationsStatistic Value F Value Num DF Den DF Pr FWilks Lambda 0.06798 2.24 30 70 0.0030Pillais Trace 1.71651

12、 1.83 30 105 0.0133Hotelling-Lawley Trace 4.95277 2.62 30 35.396 0.0032 Roys Greatest Root 3.24221 11.35 6 21 F 1 1.6532 1.6465 0.9959 0.9959 0.37438667 6.66 4 42 0.0003 2 0.0067 0.0041 1.0000 0.99332139 0.15 1 22 0.7042簡單實(shí)例(P293頁9.2題)計(jì)算7. 典型相關(guān)系數(shù)的多變量統(tǒng)計(jì)量及其假設(shè)檢驗(yàn) Multivariate Statistics and F Approximat

13、ions Statistic Value F Value Num DF Den DF Pr F Wilks Lambda 0.37438667 6.66 4 42 0.0003 Pillais Trace 0.62977475 5.06 4 44 0.0019 Hotelling-Lawley Trace 1.65991998 8.60 4 24.198 0.0002 Roys Greatest Root 1.65319646 18.19 2 22 .0001 NOTE: F Statistic for Roys Greatest Root is an upper bound. NOTE: F

14、 Statistic for Wilks Lambda is exact.簡單實(shí)例(P293頁9.2題)計(jì)算8.求A、B關(guān)于i的特征向量,即典型變量系數(shù) Canonical Correlation Analysis Standardized Canonical Coefficients for the VAR Variables u1 u2 x1 0.5667 -1.3604 x2 0.5069 1.3838 Standardized Canonical Coefficients for the WITH Variables v1 v2 y1 0.5184 -1.7857 y2 0.5233

15、1.7842簡單實(shí)例(P293頁9.2題)計(jì)算矩陣A的第1特征值為0.623096簡單實(shí)例(P293頁9.2題)計(jì)算典型變量的表達(dá)式簡單實(shí)例(P293頁9.2題)計(jì)算9.典型結(jié)構(gòu)分析(可觀察典型變量的意義) u1 u2 x1 0.9390 -0.3439 x2 0.9231 0.3845 v1 v2 y1 0.9596 -0.2814 y2 0.9604 0.2788 v1 v2 x1 0.7412 -0.0281 x2 0.7287 0.0314 u1 u2 y1 0.7575 -0.0230 y2 0.7581 0.0228簡單實(shí)例(P293頁9.2題)計(jì)算10.冗余分析(對方典型變量可解

16、釋的信息) Canonical Redundancy Analysis Standardized Variance of the VAR Variables Explained by Their Own The Opposite Canonical Variables Canonical Variables Canonical Variable Cumulative Canonical Cumulative Number Proportion Proportion R-Square Proportion ProportionX 1 0.8669 0.8669 0.6231 0.5402 0.5

17、402 2 0.1331 1.0000 0.0067 0.0009 0.5411 Y 1 0.9215 0.9215 0.6231 0.5742 0.5742 2 0.0785 1.0000 0.0067 0.0005 0.5747簡單實(shí)例(P293頁9.2題)計(jì)算11.基于典型變量回歸的確定系數(shù) Squared Multiple Correlations Between the VAR Variables and the First M Canonical Variables of the WITH Variables M 1 2 x1 0.5494 0.5502 x2 0.5310 0.5

18、320 M 1 2 y1 0.5737 0.5743 y2 0.5747 0.5752九、SAS計(jì)算程序(1)PROC CANCORR ALL VPREFIX=u WPREFIX=v OUT=b1 OUTSTAT=b2; VAR x1 x2; WITH y1 y2;RUN;九、SAS計(jì)算程序(2)DATA canocorr (TYPE=CORR); INPUT _NAME_ $ x1 x2 y1 y2; _ TYPE_=CORR;CARDS;x110.734560.719150.70398x20.7345610.690380.70855y10.719150.6903810.84307y20.703980.708550.843071; PROC CANCORR DATA=canocorr ALL EDF=24 ; * EDF=n-1; VAR x1 x2; WITH y1 y2; RUN;九、SPSS進(jìn)行典型相關(guān)分析(3) 無直接菜單點(diǎn)擊可借用Analyze General Linear Model Multivariate可采用File

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論