兩個多重相關(guān)變量組的統(tǒng)計分析數(shù)學(xué)畢業(yè)論文_第1頁
兩個多重相關(guān)變量組的統(tǒng)計分析數(shù)學(xué)畢業(yè)論文_第2頁
兩個多重相關(guān)變量組的統(tǒng)計分析數(shù)學(xué)畢業(yè)論文_第3頁
兩個多重相關(guān)變量組的統(tǒng)計分析數(shù)學(xué)畢業(yè)論文_第4頁
兩個多重相關(guān)變量組的統(tǒng)計分析數(shù)學(xué)畢業(yè)論文_第5頁
已閱讀5頁,還剩12頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、兩個多重相關(guān)變量組的統(tǒng)計分析摘 要本文介紹兩組相關(guān)變量問的典型相關(guān)與典型冗余分析的統(tǒng)計分析方法,以及在SAS軟件包中如何實現(xiàn),文中給出了一個典型的例子。關(guān)鍵詞:統(tǒng)計分析;典型相關(guān);典型冗余分析 在實際問題中,經(jīng)常遇到需要研究兩組變量間的相關(guān)關(guān)系,而且每組變量中間常常存在多重相關(guān)性。比如工廠生產(chǎn)的產(chǎn)品質(zhì)量指標(biāo)與原材料、工藝指標(biāo)間的相關(guān)關(guān)系;體育科研中運動員的體力測試指標(biāo)與運動能力指標(biāo)間的相關(guān)關(guān)系;經(jīng)濟領(lǐng)域中投資性變量與國民收入變量間的相關(guān)關(guān)系;教育學(xué)中學(xué)生高考各科成績與高二年級各主科成績間的相關(guān)關(guān)系;醫(yī)學(xué)研究中患某種疾病病人的各種癥狀程度與用科學(xué)方法檢查的一些指標(biāo)間的相關(guān)關(guān)系等等。 研究兩個變量

2、組之間相關(guān)關(guān)系的常用方法是多元統(tǒng)計中的典型相關(guān)分析(參考2和 3)。如果進一步研究這兩組多重相關(guān)變量間的相互依賴關(guān)系,即考慮多對多的回歸建模問題,除了最小二乘準則下的多對多回歸分析、雙重篩選逐步回歸分析,以及提取自變量成分的主成分回歸等方法外,還有近年發(fā)展起來的偏最小二乘(PLS)回歸方法。關(guān)于多對多回歸建模問題,我們將另文介紹。本文介紹典型相關(guān)與典型冗余分析,它是偏最小二乘回歸的理論基礎(chǔ)。 一 典型相關(guān)分析的基本思想與解法 第一組變量記為X= ,第二組變量記為Y= (不妨設(shè)pq)。典型相關(guān)分析借助于主成分分析提取成分的思想,從第一組變量X提取典型成分V (V是X1,Xp的線性組合);再從第二

3、組變量Y提取典型成分W(W是Y1,Yq的線性組合), 并要求V和W 的相關(guān)程度達到最大。這時V和W 的相關(guān)程度可以大致反映兩組變量X和Y的相關(guān)關(guān)系。記p+q維隨機向量Z=的協(xié)差陣=,其中11一是X的協(xié)差陣,22:是Y的協(xié)差陣,l2=21是X,Y的協(xié)差陣。我們用X和Y的線性組合V=X和W=Y之問的相關(guān)來研究X和Y之間的相關(guān)。我們希望找到a和b,使(V,W)最大。由相關(guān)系數(shù)的定義, (V,W)=分析上式將發(fā)現(xiàn):在使得V,W的相關(guān)達最大的同時, V和W的方差將達最小,這說明按此準則得到的典型成分V和W,對原變量組X和Y的代表性最差,它們無法更多地反映原變量組的變異信息。另方面因V,W任意線性組合的相

4、關(guān)系數(shù)與 V,W 的相關(guān)系數(shù)相等,即使得相關(guān)系數(shù)最大的V=X和W=X并不唯一。故在典型相關(guān)分析解法中附加了約束條件: Var(U) = 11a = 1 Var(V)= 22b = 1。問題化為在約束條件Var(U)=1,Var(V)=1下,求a和b,使得(U,V)= l2b達最大。定義l 設(shè)X=,Y=,p+q維隨機向量的均值向量為 O,協(xié)差陣O(不妨設(shè)pq)。如果存在a1 = (al1,alp)和b1 = (b1l,b1q)使得 1=(1X, lY)= 則稱X , Y是X,Y的第一對典型相關(guān)變量,它們之間的相關(guān)系數(shù)稱為第一個典型相關(guān)系數(shù)。 如果存在和使得 kX , kY和前面 k-1對典型變量

5、都不關(guān); Var(kX) = l,Var( kY) = 1; kX與 kY的相關(guān)系數(shù) 最大,則稱kX , kY是X,Y的第k對典型相關(guān)變量,它們之間的相關(guān)系數(shù)稱為第k個典型相關(guān)系數(shù)。已知p+q維總體Z的n次中心化觀測數(shù)據(jù)陣為:若假定,則協(xié)差陣的最大似然估計為 下面我們將從樣本協(xié)差陣S出發(fā),來討論兩組變量問的相關(guān)關(guān)系。 令為pq陣,則pq陣和qq陣的非零特征根相同,且非零特征根均為正的。若rk(T)=rk(S12)=rp(因pq),非零特征根依次為 O(且iO,i=1,r)。記r階對角陣D=diag(i,r)。利用pq陣T的奇異值分解定理(參考4)有其中口(i=l,r)為對應(yīng)于的單位正交特征向量

6、;(i=1,r)為對應(yīng)于的單位正交特征向量,且與滿足關(guān)系式: 。令 ,容易驗證與滿足:則為X,Y的第i對樣本典型相關(guān)變量,為第i個樣本典型相關(guān)系數(shù)。二 典型相關(guān)系數(shù)的顯著性檢驗 總體z的兩組變量X=和Y=如果不相關(guān),即Cov(X,Y)= 12=0,以上有關(guān)兩組變量典型相關(guān)的討論就毫無意義.故在討論兩組變量間的相關(guān)關(guān)系之前,應(yīng)首先對假設(shè)H0:l2=0作統(tǒng)計檢驗,它等價于檢驗H0:l=0。 設(shè)總體,用似然比方法可導(dǎo)出檢驗H0:l2=0的似然比統(tǒng)計量,利用矩陣行列式及其分塊行列式的關(guān)系,可得出 其中p+q階方陣s是的最大似然估計量,Sy分別是ij (i,j=1,2)的最大似然估計是的特征值。 統(tǒng)計量

7、的精確分布已由Hotelting(1936年)等人給出,但表達式很復(fù)雜。由統(tǒng)計量 出發(fā)可導(dǎo)出檢驗H0的近似檢驗方法,如 Willks統(tǒng)計量,Pillai的跡,Hotettintg-Lawley跡和Roy的極大根等(參閱2)。 當(dāng)否定H0時,表明X,Y相關(guān),進而可得出至少第一個典型相關(guān)系數(shù)10。相應(yīng)的第一 對典型相關(guān)變量V1,W1可能已經(jīng)提取了兩組變量相關(guān)關(guān)系的絕大部分信息。兩組變量余下的部分可認為不相關(guān),這時1(i=2,p)。故在否定H0后,有必要檢驗即第i個及以后的所有典型相關(guān)系數(shù)均為0。利用似然比方法可導(dǎo)出檢驗的似然比統(tǒng)計量,并給出該統(tǒng)計量的近似分布。從i=2開始逐個檢驗,直到某個i0,使

8、相容時為止。這時說明第i0個及以后的所有典型相關(guān)系數(shù)均為0。假定經(jīng)檢驗,前m個典型相關(guān)系數(shù)顯著地不等于0(mp)。 三 典型結(jié)構(gòu)與典型冗余分析 1典型結(jié)構(gòu) 求出典型變量后,進一步可以來計算原始變量與典型變量之問的相關(guān)系數(shù)陣典型結(jié) 構(gòu)。 記A=(al,a2,ar)為Pr矩陣,B=(bl,b2,br)為qr矩陣,典型隨機向量;隨機向量Z的協(xié)差陣為=0, 隨機向量的協(xié)差陣為是的最大似然然估計。則 Cov(X,V)=Cov(X,X)=11A,Cov(X,W)=Cov(X,Y)=12B, Cov(Y,V)=Gov(Y,X)= 12A,Cov(Y,W)=Coy(X,Y)=22B。 用Sij代替以上公式中的

9、ij(i,j=1,2),即可計算出原始變量與典型變量之間的協(xié)差陣。由協(xié)差陣還可以計算原始變量與典型變量之間的相關(guān)系數(shù)陣。若假定原始變量均為標(biāo)準化變量,則以上計算得到的原始變量與典型變量的協(xié)方差陣就是相關(guān)系數(shù)陣。若計算這四個相關(guān)系數(shù)陣中各列(或各行)相關(guān)系數(shù)的平方和,還將得出下面一些有關(guān)的概念。 2幾個概念 類似于主成分分析,把Vk看成是由第一組標(biāo)準化變量X提取的成分,Wk看成是由第二組標(biāo)準化變量Y提取的成分,由相關(guān)陣R(X,V)=S11A=r(Xj,Vk)(p,r)和R(Y,W)=S11B=r(Xj,Vk)(q,r)分別計算第k列的平方和。記 并稱)(或)為第k個典型變量 Vk(或Wk)解釋本

10、組變量X(或Y)總變差的百分比。記 并稱 (或)為前m(mr)個典型變量 ()解釋本組變量X(或Y)總變差的累計百分比。 在典型相關(guān)分析中,從兩組變量分別提取的兩個典型成分首先要求相關(guān)程度最大,同時也希望每個典型成分解釋各組變差的百分比也盡可能的大。百分比的多少反映由每組變量提取的用于典型相關(guān)分析的變差的多少。 類似于主成分分析,還可以引入前m個典型變量對本組第j個變量Xi(或Yj,)的貢獻等概念(參考1)。 3典型冗余分析 我們進一步來討論典型變量解釋另一組變量總變差百分比的問題。在典型相關(guān)分析中,因所提取的每對典型成分保證其相關(guān)程度達最大,故每個典型成分不僅解釋了本組變量韻信息,還解釋了另

11、一組變量的信息。典型相關(guān)系數(shù)越大,典型成分解釋對方變量組變差的信息也將越多。類似可以定義)(或)為Wk (或Vk)解釋另一組總變差的百分比。以下給出利用典型變量解釋本組變差的百分比來計算解釋另一組變差百分比的公式: ,事實上,由典型變量的系數(shù)ak與bk之間的關(guān)系:以及典型變量與原始變量(假定已標(biāo)準化)的相關(guān)陣即得:r(Xj,Wk)= k(Xj;Vk),故有=,類似可證明另一式。 表示第一組中典型變量解釋的變差被第二組中典型變量重復(fù)解釋的百分比,簡稱為第一組典型變量的冗余測度;表示第二組中典型變量解釋的變差被第一組中典型變量重復(fù)解釋的百分比,簡稱為第二組典型變量的冗余測度。冗余測度的大小表示這對

12、典型變量能夠?qū)α硪唤M變差相互解釋的程度大小。它將為進一步討論多對多建模提供一些有用信息。四 應(yīng)用例子一康復(fù)俱樂20名成員測試數(shù)據(jù)的典型相關(guān)分析 康復(fù)俱樂部對20名中年人測量了三個生理指標(biāo):WEIGHT(體重),WAIST(腰圍),PULSE(脈膊)和三個訓(xùn)練指標(biāo):CHINS(拉單杠次數(shù)),SITUPS(仰臥起坐次數(shù)),JUMPS(跳高)(數(shù)據(jù)見以下數(shù)據(jù)行)。試分析生理指標(biāo)和訓(xùn)練指標(biāo)這二組變量間的相關(guān)性。解 使用SAS/STAT軟件中的CANCORR過程來完成典型相關(guān)分析。首先把測試數(shù)據(jù)生成SAS數(shù)據(jù)集,SAS程序如下:data da20x6; input weight waist pulse

13、chins situps jumps;label wight =體重 waist=腰圍 pulse=脈搏 chins=單杠 situps=仰臥起坐 jumps=跳高;cards;191 36 50 5 162 60 189 37 52 2 110 60193 38 58 12 101 101 162 35 62 12 105 37189 35 46 13 155 58 182 36 56 4 101 42211 38 56 8 101 38 167 34 60 6 125 40176 31 74 15 200 40 154 33 56 17 251 250169 34 50 17 120 38

14、 166 33 52 13 210 115154 34 64 14 215 105 247 46 50 1 50 50193 36 46 6 70 31 202 37 62 12 210 120156 33 54 15 225 73 138 33 68 2 110 43;run;proc cancorr data=da20x6 all vname=生理指標(biāo)wname=訓(xùn)練指標(biāo); var weight waist pulse; with chins situps jumps;run; DATA步創(chuàng)建康復(fù)俱樂部測試數(shù)據(jù)的SAS數(shù)據(jù)集(名為DA20X6),它有20個觀測,6個變量。CANCORR過程

15、用于對輸入數(shù)據(jù)集DA20X6做典型相關(guān)分析。選項ALL要求輸出所有可選擇的計算結(jié)果;VNAIVIE=給出VAR語句中變量組的標(biāo)簽為生理指標(biāo) ;WNAIVIE=對WITH語句給出的第二組變量規(guī)定標(biāo)簽為訓(xùn)練指標(biāo) 。VAR語句列出第一組變量的名字,WITH列出第二組變量的名字。部分計算結(jié)果見輸出1至輸出5。 輸出1 均值、標(biāo)準差和兩組變量問的相關(guān)系數(shù) 輸出1列出6個變量的均值和標(biāo)準差及生理指標(biāo)和訓(xùn)練指標(biāo)之間的相數(shù)。理指標(biāo)和訓(xùn)練指標(biāo)之間的相關(guān)性是中等的,其中WAIST和SITUPS 相關(guān)系數(shù)最大為-0.6456。 輸出2 典型相關(guān)分析系數(shù)及顯著性檢驗 輸出2給出典型相關(guān)分析的一般結(jié)果。第一典型相關(guān)系數(shù)

16、為07956,它比生理指標(biāo)和訓(xùn)練指標(biāo)兩組間的任一個相關(guān)系數(shù)都大 檢驗總體中所有典型相關(guān)均為O的零假設(shè)時顯著性概率為0.0635(即PrF的值),故在=0.10的顯著水平下,否定所有典型相關(guān)為0的假設(shè)。也就是至少有一個典型相關(guān)是顯著的。從后面的檢驗結(jié)果可知,只有第一典型相關(guān)系數(shù)是顯著不等于0的。因此,兩組變量相關(guān)性的研究可轉(zhuǎn)化為研究第一對典型相關(guān)變量的相關(guān)性。輸出3 標(biāo)準化后典型變量的系數(shù) 輸出結(jié)果中還給出原始變量和標(biāo)準化變量的典型相關(guān)變量的系數(shù)。因六個變量沒有用相同單位測量,我們來分析標(biāo)準化后的系數(shù)(見輸出3)。來自生理指標(biāo)的第一典型變量V1為(右上角帶“*”的變量表示標(biāo)準化變量): V1=-

17、0.7754WEIGHT* + 1.5793WAIST* - 00591PULSE* 它近似地是WAIST*和4WEIGHT*的加權(quán)差,在WAIST*上的權(quán)數(shù)更大些。V1在 PULSE上系數(shù)近似為0 來自訓(xùn)練指標(biāo)的第一典型變量W1為 W1=-0.3495CHINS* - 1054SITUPS* + O7164JUMPS*它在SITUPS*上的系數(shù)最大 這一對典型變量主要是反映腰圍(WAIST*)和仰臥起坐(SITUPS)的負相關(guān)關(guān)系。輸出4 典型結(jié)構(gòu)原始變量和典型變量的相關(guān)系數(shù)陣 由輸出4可看出來自生理指標(biāo)的第一典型變量v1與腰圍(WAIST)的相關(guān)系數(shù)為0.92,V與體重(WEIGHT)的相

18、關(guān)為0.6206,它們都是正的。但典型變量V1在體重上的系數(shù)為負的(-0.7754),即體重在V1的系數(shù)和它與V1的相關(guān)反號。來自訓(xùn)練指標(biāo)的第一典型變量Wl與三個訓(xùn)練指標(biāo)的相關(guān)都是負值,其中跳高(JUMPS)在W1的系數(shù)(0.7164)和它與Wl的相關(guān)(-0.1622)也是反號。因此,體重和跳高在這兩組變量中是一個校正(或抑制)變量。 一個變量同典型變量的相關(guān)與在典型變量上的系數(shù)符號相反似乎是矛盾的。下面以體重為例來說明這一現(xiàn)象,我們知道肥胖性同腰圍和體重之間的關(guān)系很密切的。一般說來,有理由認為胖的人比瘦的人仰臥起坐的次數(shù)少。假定這組樣本中沒有身高非常高的人,因此體重和腰圍之間的相關(guān)(0870

19、2)是很強的。 腰圍大的人傾向于比腰圍小的人胖。因此腰圍與仰臥起坐為負相關(guān)(-0.6456)。 體重大的人傾向于比體重小的人胖。于是體重與仰臥起坐為負相關(guān)(-0.4931)。 考慮用多元回歸方法由WAIST* (腰圍)和WEIGHT* (體重)來預(yù)測SITUPS* (仰臥起坐),得到的回歸式為:SITUPS* =0.2833 WEIGHT* 0.8921 WAIST* ,回歸式中WEIGHT* 系數(shù)的符號為正似乎不合理,關(guān)于系數(shù)的符號可解釋如下: 若固定體重的值,腰圍大的人傾向于較強壯和較胖,故而仰臥起坐次數(shù)少,于是腰圍的多元回歸系數(shù)(-0.8921)應(yīng)是負的。 若固定腰圍的值,體重大的人傾向于比較高和比較瘦,故而仰臥起坐次數(shù)多;因此體重的多元回歸系數(shù)(0.2833)應(yīng)為正的。這里體重與仰臥起坐的相關(guān)同體重的回歸系數(shù)符號相反。因此,第一典型相關(guān)一般解釋為以體重(WEIGHT)和跳高(JUMPS)作為校正(或抑制)變量來強化腰圍(WAIST)和抑臥起坐(SITUPS)之間的負相關(guān)關(guān)系。輸

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論