典型相關(guān)分析_第1頁(yè)
典型相關(guān)分析_第2頁(yè)
典型相關(guān)分析_第3頁(yè)
典型相關(guān)分析_第4頁(yè)
典型相關(guān)分析_第5頁(yè)
已閱讀5頁(yè),還剩8頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

多元數(shù)據(jù)處理(典型相關(guān)分析)引言在一元統(tǒng)計(jì)分析中,用相關(guān)系數(shù)來(lái)衡量?jī)蓚€(gè)隨機(jī)變量之間的線性相關(guān)關(guān)系;用復(fù)相關(guān)系數(shù)研究一個(gè)隨機(jī)變量和多個(gè)隨機(jī)變量的線性相關(guān)關(guān)系。然而,這些統(tǒng)計(jì)方法在研究?jī)山M變量之間的相關(guān)關(guān)系時(shí)卻無(wú)能為力。比如要研究生理指標(biāo)與訓(xùn)練指標(biāo)的關(guān)系,居民生活環(huán)境與健康狀況的關(guān)系,人口統(tǒng)計(jì)變量與消費(fèi)變量(之間是否具有相關(guān)關(guān)系。閱讀能力變量(閱讀速度、閱讀才能)與數(shù)學(xué)運(yùn)算能力變量(數(shù)學(xué)運(yùn)算速度、數(shù)學(xué)運(yùn)算才能)是否相關(guān)。典型相關(guān)分析(CanonicalCorrelation)是研究?jī)山M變量之間相關(guān)關(guān)系的一種多元統(tǒng)計(jì)方法。它能夠揭示出兩組變量之間的內(nèi)在聯(lián)系。1936年霍特林(Hotelling)最早就“大學(xué)表現(xiàn)”和“入學(xué)前成績(jī)”的關(guān)系、政府政策變量與經(jīng)濟(jì)目標(biāo)變量的關(guān)系等問(wèn)題進(jìn)行了研究,提出了典型相關(guān)分析技術(shù)。之后,Cooley和Hohnes(1971),Tatsuoka(1971)及Mardia,Kent和Bibby(1979)等人對(duì)典型相關(guān)分析的應(yīng)用進(jìn)行了討論,Kshirsagar(1972)則從理論上給出了最好的分析。典型相關(guān)分析的目的是識(shí)別并量化兩組變量之間的聯(lián)系,將兩組變量相關(guān)關(guān)系的分析,轉(zhuǎn)化為一組變量的線性組合與另一組變量線性組合之間的相關(guān)關(guān)系分析。目前,典型相關(guān)分析已被應(yīng)用于心理學(xué)、市場(chǎng)營(yíng)銷等領(lǐng)域。如用于研究個(gè)人性格與職業(yè)興趣的關(guān)系,市場(chǎng)促銷活動(dòng)與消費(fèi)者響應(yīng)之間的關(guān)系等問(wèn)題的分析研究。第一章、典型相關(guān)的基本理論1.1典型相關(guān)分析的基本概念典型相關(guān)分析由Hotelling提出,其基本思想和主成分分析非常相似。首先在每組變量中找出變量的線性組合,使得兩組的線性組合之間具有最大的相關(guān)系數(shù)。然后選取和最初挑選的這對(duì)線性組合不相關(guān)的線性組合,使其配對(duì),并選取相關(guān)系數(shù)最大的一對(duì),如此繼續(xù)下去,直到兩組變量之間的相關(guān)性被提取完畢為此。被選出的線性組合配對(duì)稱為典型變量,它們的相關(guān)系數(shù)稱為典型相關(guān)系數(shù)。典型相關(guān)系數(shù)度量了這兩組變量之間聯(lián)系的強(qiáng)度。設(shè),是兩個(gè)相互關(guān)聯(lián)的隨機(jī)向量,分別在兩組變量中選取若干有代表性的綜合變量、,使得每一個(gè)綜合變量是原變量的線性組合,即:(1-1)(1-2)為了確保典型變量的唯一性,只考慮方差為1的,的線性函數(shù)與,求使得它們相關(guān)系數(shù)達(dá)到最大的這一組。若存在常量,,在的條件下,使得相關(guān)系數(shù)為最大值,則稱與是、的第一對(duì)典型相關(guān)變量。求出第一對(duì)典型相關(guān)變量之后,可以類似的求出各對(duì)之間互不相關(guān)的第二對(duì)、第三對(duì)等典型相關(guān)變量。這些相關(guān)變量就反映了與之間的線性相關(guān)情況。1.2典型相關(guān)分析原理及方法設(shè)有兩組隨機(jī)向量,代表第一組的p個(gè)變量,代表第二組的q個(gè)變量,假設(shè)。令,則:(1-3)(1-4)根據(jù)典型相關(guān)分析的基本思想,要進(jìn)行兩組隨機(jī)向量間的相關(guān)分析,首先要計(jì)算出各變量的線性組合,即典型變量。并使其相關(guān)系數(shù)達(dá)到最大。因此,設(shè)兩組變量的線性組合分別為:(1-5)(1-6)即有:(1-7)(1-8)(1-9)(1-10)希望尋找使相關(guān)系數(shù)達(dá)到最大的向量a與b,由于隨機(jī)向量乘以常數(shù)時(shí)并不改變它們的相關(guān)關(guān)系,所以,為防止結(jié)果的重復(fù)出現(xiàn),令:(1-11)(1-12)那么:(1-13)在式(1-11)與(1-12)的約束條件下,求時(shí)達(dá)到最大的系數(shù)向量a與b。根據(jù)條件極值的求法引入Lagrange乘數(shù),將問(wèn)題轉(zhuǎn)化為求解,(1-14)的極大值,其中是Lagrange乘數(shù)。根據(jù)求極值的必要條件有:(1-15)將式(1-15)分別左乘與得到:(1-16)即有:(1-17)因?yàn)?,所以,知為線性組合U,V的相關(guān)系數(shù)。用代替方程組(1-15)中的,則為:(1-18)假定各隨機(jī)變量協(xié)差陣的逆矩陣存在,則由方程組(1-18)中的第二式,可得:(1-19)將(1-19)代入方程組(1-18)的第一式,得,即有:(1-20)同理,由方程組(1-17)可得:(1-21)用分別左乘(1-20)和(1-21),得到:(1-22)即:(1-21)由此可見(jiàn),具有相同的特征根,a,b則是其相應(yīng)的特征向量,為了表示方便,令,其中A為階矩陣,B為階矩陣。因?yàn)椋笞畲笾狄簿褪乔蟮淖畲笾?,而求的最大值又轉(zhuǎn)化為求A和B的最大特征根??梢宰C明,A和B的特征根和特征向量有如下性質(zhì):(1)A和B具有相同的非零特征根,且所有的特征根非負(fù);(2)A和B具有相同的特征根均在0~1之間;(3)設(shè)A和B具有相同的非零特征根為,,為A對(duì)應(yīng)于的特征向量,為B對(duì)應(yīng)于的特征向量。由于我們所求的是最大特征值及其對(duì)應(yīng)的特征向量,因此,最大特征根對(duì)應(yīng)的特征向量就是所求的典型變量的系數(shù)向量,即可得:(1-22)(1-23)稱其為第一對(duì)典型變量,最大特征根的平方根即為兩典型變量的相關(guān)系數(shù),稱其為第一典型相關(guān)系數(shù)。如果第一典型變量不足以代表兩組原始變量的信息,則需要求得第二對(duì)典型變量。所以,典型變量和典型相關(guān)系數(shù)的計(jì)算可歸結(jié)為矩陣A和B特征根及相應(yīng)特征向量的求解。如果矩陣A和B的秩為r,則共有r對(duì)典型變量,第k對(duì)()典型變量的系數(shù)向量分別是矩陣A和B第k特征根相應(yīng)的特征向量,典型相關(guān)系數(shù)為。典型變量具有如下性質(zhì):(1)(2)第二章、樣本典型相關(guān)分析2.1樣本典型相關(guān)變量及典型相關(guān)系數(shù)的計(jì)算在實(shí)際分析應(yīng)用中,總體的協(xié)差陣通常是未知的,往往需要從研究的總體中隨機(jī)抽取一個(gè)樣本,根據(jù)樣本估計(jì)出總體的協(xié)差陣,并在此基礎(chǔ)上進(jìn)行典型相關(guān)分析。設(shè)服從正態(tài)分布,從總體中抽取樣本容量為n的樣本,得到下列數(shù)據(jù)矩陣:,(2-1)樣本均值向量,,其中。樣本協(xié)差陣,,其中,,由此可得矩陣A和B的樣本估計(jì):(2-2)如上所述,求解的特征根及其相應(yīng)的特征向量,即可得到所要求的典型相關(guān)變量及其典型相關(guān)系數(shù)。若樣本數(shù)據(jù)已經(jīng)標(biāo)準(zhǔn)化處理,此時(shí)樣本的協(xié)差陣就等于樣本的相關(guān)系數(shù)矩陣。由此可得矩陣A和B的樣本估計(jì):(2-3)求解的特征根及相應(yīng)的特征向量,即可得到典型變量及典型相關(guān)系數(shù)。此時(shí)相當(dāng)于從相關(guān)矩陣出發(fā)計(jì)算典型變量。2.2典型相關(guān)系數(shù)的顯著性檢驗(yàn)本進(jìn)行兩組變量的典型相關(guān)分析時(shí),應(yīng)就兩組變量的相關(guān)性進(jìn)行檢驗(yàn)。這是因?yàn)槿绻麅蓚€(gè)隨機(jī)變量、互不相關(guān),則兩組變量協(xié)差陣。但是有可能得到的兩組變量的樣本協(xié)差陣不為零,因此,在用樣本數(shù)據(jù)進(jìn)行典型相關(guān)分析時(shí)應(yīng)就兩組變量的協(xié)差陣是否為零進(jìn)行檢驗(yàn)。即檢驗(yàn)假設(shè),根據(jù)隨機(jī)向量的檢驗(yàn)理論可知,用于檢驗(yàn)的似然比統(tǒng)計(jì)量為:(2-4)在上式中的是矩陣A的第i特征值的估計(jì)值,。巴特萊特證明,當(dāng)成立時(shí),近似服從分布,其中,自由度。在給定的顯著性水平下,當(dāng)由樣本計(jì)算的臨界值時(shí),拒絕原假設(shè),認(rèn)為兩組變量間存在相關(guān)性。若總體典型相關(guān)系數(shù),則相應(yīng)的典型變量之間無(wú)相關(guān)關(guān)系,因此對(duì)分析與的影響不起作用,這樣的典型變量可以不予考慮,于是提出如何根據(jù)樣本資料來(lái)判斷總體典型相關(guān)系數(shù)是否為零,以便確定應(yīng)該取幾個(gè)典型變量的問(wèn)題。巴特萊特提出了一個(gè)根據(jù)樣本數(shù)據(jù)檢驗(yàn)總體典型相關(guān)系數(shù)是否等于零的方法。檢驗(yàn)假設(shè)為:,用于檢驗(yàn)的似然比統(tǒng)計(jì)量為:(2-5)由此可以證明,近似服從,其自由度為。首先檢驗(yàn)。此時(shí),則:(2-6)若,則拒絕原假設(shè),也就是說(shuō)至少有一個(gè)典型相關(guān)系數(shù)大于零,自然是最大的典型相關(guān)系數(shù)。若已判定,則再檢驗(yàn),此時(shí),,則:(2-7)(2-8)近似服從,其中,如果,則拒絕原假設(shè),也即認(rèn)為至少有一個(gè)大于零,自然是。若已判斷大于零,重復(fù)以上步驟直至。例2.1樂(lè)部對(duì)20名中年人測(cè)量了三個(gè)生理指標(biāo):體重()腰圍(),脈搏();三個(gè)訓(xùn)練指標(biāo):引體向上次數(shù)(),起坐次數(shù)(),跳躍次數(shù)()。分析生理指標(biāo)與訓(xùn)練指標(biāo)的相關(guān)性。數(shù)據(jù)詳見(jiàn)表2.1。表2.1康復(fù)俱樂(lè)部數(shù)據(jù)由表2.1數(shù)據(jù)可得:,,,代入可計(jì)算,。求得特征值為,,。和的相應(yīng)的特征向量分別為:;根據(jù)前述的典型相關(guān)系數(shù)顯著性檢驗(yàn)方法,對(duì)于,至少有一個(gè)不為零。,故在下,生理指標(biāo)與訓(xùn)練指標(biāo)之間不存在相關(guān)性;而在下,,生理指標(biāo)與訓(xùn)練指標(biāo)之間存在相關(guān)性,且第一對(duì)典型變量相關(guān)顯著。此時(shí),,故在下,第二對(duì)典型變量間相關(guān)性不顯著。說(shuō)明生理指標(biāo)和訓(xùn)練指標(biāo)之間只有一對(duì)典型變量,即:第三章、典型相關(guān)分析應(yīng)用3.1從相關(guān)矩陣出發(fā)計(jì)算典型相關(guān)典型相關(guān)分析涉及多個(gè)變量,不同的變量往往具有不同的量綱及不同的數(shù)量級(jí)別。在進(jìn)行典型相關(guān)分析時(shí),由于典型變量是原始變量的線性組合,具有不同量綱變量的線性組合顯然失去了實(shí)際意義。其次,不同的數(shù)量級(jí)別會(huì)導(dǎo)致“以大吃小”,即數(shù)量級(jí)別小的變量的影響會(huì)被忽略,從而影響了分析結(jié)果的合理性。因此,為了消除量綱和數(shù)量級(jí)別的影響,必須對(duì)數(shù)據(jù)先做標(biāo)準(zhǔn)化變換處理,然后再做典型相關(guān)分析。顯然,經(jīng)標(biāo)準(zhǔn)化變換之后的協(xié)差陣就是相關(guān)系數(shù)矩陣,因而,也即通常應(yīng)從相關(guān)矩陣出發(fā)進(jìn)行典型相關(guān)分析。例3.1對(duì)于例2.1從相關(guān)系數(shù)矩陣出發(fā)進(jìn)行典型相關(guān)分析。由計(jì)算得的特征值為:,,。其結(jié)果同協(xié)差陣出發(fā)計(jì)算得特征值相同,因此檢驗(yàn)結(jié)果也相同,提取第一典型變量,按照類似的方法可求得典型變量系數(shù)向量:,進(jìn)而標(biāo)準(zhǔn)化的第一對(duì)典型變量:3.2典型載荷分析載荷分析有助于更好地解釋分析已提取的p對(duì)典型變量。所謂的典型載荷分析是指原始變量與典型變量之間的相關(guān)分析。令:(3-1)其中為p對(duì)典型變量系數(shù)向量組成的矩陣,U和V為p對(duì)典型變量組成的向量。則:(3-2)(3-3)故有:(3-4)同理可得,,,。對(duì)于經(jīng)過(guò)標(biāo)準(zhǔn)化后的典型變量有:;;;。3.3典型冗余分析本典型相關(guān)分析時(shí),為了了解每組變量提取出的典型變量所能解釋的該組樣本總體方差的比例,從而定量測(cè)度典型變量所包含的原始信息量的大小。對(duì)于標(biāo)準(zhǔn)化變換處理的樣本數(shù)據(jù)協(xié)差陣就等于相關(guān)系數(shù)矩陣。因而,第一組變量樣本的總方差為,第二組變量樣本的總方差為。由上述典型載荷可知,和是樣本典型相關(guān)系數(shù)矩陣,典型系數(shù)向量是矩陣的,,。那么,;。定義前r對(duì)典型變量對(duì)樣本總方差的貢獻(xiàn)為:(3-5)(3-6)則第一組樣本方差由前r個(gè)典型變量解釋的比例為:(3-7)第二組樣本方差由前r個(gè)典型變量解釋的比例為:(3-8)第四章、實(shí)例分析與計(jì)算實(shí)現(xiàn)試者的身體形態(tài)以及健康情況指標(biāo),如下表。第一組是身體形態(tài)變量,有年齡、體重、胸圍和日抽煙量;第二組是健康狀況變量,有脈搏、收縮壓和舒張壓。要求測(cè)量身體形態(tài)以及健康狀況這兩組變量之間的關(guān)系,用SPSS進(jìn)行仿真,其主要過(guò)程如下:主要運(yùn)行結(jié)果解釋:CorrelationsforSet-1、CorrelationsforSet-2、CorrelationsBetweenSet-1andSet-2(分別給出兩組變量?jī)?nèi)部以及兩組變量之間的相關(guān)系數(shù)矩陣)2.CanonicalCorrelations(給出典型相關(guān)系數(shù))可以看出第一典型相關(guān)系數(shù)達(dá)到0.957,第二典型相關(guān)系數(shù)為0.582,第三典型相關(guān)系數(shù)為0.180。從上表可以看出,來(lái)自身體形態(tài)指標(biāo)的第一典型變量為:(抽煙量)的系數(shù)-0.721絕對(duì)值最大,反映身體形態(tài)的典型變量主要由抽煙量決定。而來(lái)自健康狀況指標(biāo)的第一典型變量為:脈搏)的系數(shù)-0.694絕對(duì)值最大,說(shuō)明健康狀況的典型變量主要由脈搏所決定。同時(shí),由于兩個(gè)典型變量中抽煙量和脈搏的系數(shù)是同號(hào)的(都為負(fù)),反映抽煙量和脈搏的正相關(guān),即日抽煙越多則每分鐘的脈搏跳動(dòng)次數(shù)也越多。抽煙對(duì)身體健康有害,這和客觀事實(shí)是相符

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論