MBA統(tǒng)計學典型相關(guān)_第1頁
MBA統(tǒng)計學典型相關(guān)_第2頁
MBA統(tǒng)計學典型相關(guān)_第3頁
MBA統(tǒng)計學典型相關(guān)_第4頁
MBA統(tǒng)計學典型相關(guān)_第5頁
已閱讀5頁,還剩27頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

統(tǒng)計學─從數(shù)據(jù)到結(jié)論第十三章典型相關(guān)分析13.1兩組變量的相關(guān)問題

我們知道如何衡量兩個變量之間是否相關(guān)的問題;這是一個簡單的公式就可以解決的問題(Pearson相關(guān)系數(shù)、Kendall’st、Spearman秩相關(guān)系數(shù))。公式如果我們有兩組變量,如何能夠表明它們之間的關(guān)系呢?

例子(數(shù)據(jù)tv.txt)

業(yè)內(nèi)人士和觀眾對于一些電視節(jié)目的觀點有什么樣的關(guān)系呢?該數(shù)據(jù)是不同的人群對30個電視節(jié)目所作的平均評分。觀眾評分來自低學歷(led)、高學歷(hed)和網(wǎng)絡(luò)(net)調(diào)查三種,它們形成第一組變量;而業(yè)內(nèi)人士分評分來自包括演員和導演在內(nèi)的藝術(shù)家(arti)、發(fā)行(com)與業(yè)內(nèi)各部門主管(man)三種,形成第二組變量。人們對這樣兩組變量之間的關(guān)系感到興趣。尋找代表

如直接對這六個變量的相關(guān)進行兩兩分析,很難得到關(guān)于這兩組變量之間關(guān)系的一個清楚的印象。希望能夠把多個變量與多個變量之間的相關(guān)化為兩個變量之間的相關(guān)?,F(xiàn)在的問題是為每一組變量選取一個綜合變量作為代表;而一組變量最簡單的綜合形式就是該組變量的線性組合。13.2典型相關(guān)分析由于一組變量可以有無數(shù)種線性組合(線性組合由相應的系數(shù)確定),因此必須找到既有意義又可以確定的線性組合。典型相關(guān)分析(canonicalcorrelationanalysis)就是要找到這兩組變量線性組合的系數(shù)使得這兩個由線性組合生成的變量(和其他線性組合相比)之間的相關(guān)系數(shù)最大。

典型變量假定兩組變量為X1,X2…,Xp和Y1,Y2,…,Yq,那么,問題就在于要尋找系數(shù)a1,a2…,ap和b1,b2,…,bq,和使得新的綜合變量(亦稱為典型變量(canonicalvariable))之間的相關(guān)關(guān)系最大。這種相關(guān)關(guān)系是用典型相關(guān)系數(shù)(canonicalcorrelationcoefficient)來衡量的。典型相關(guān)系數(shù)

這里所涉及的主要的數(shù)學工具還是矩陣的特征值和特征向量問題。而所得的特征值與V和W的典型相關(guān)系數(shù)有直接聯(lián)系。由于特征值問題的特點,實際上找到的是多組典型變量(V1,W1),(V2,W2),…,其中V1和W1最相關(guān),而V2和W2次之等等,典型相關(guān)系數(shù)

而且V1,V2,V3,…之間及而且W1,W2,W3,…之間互不相關(guān)。這樣又出現(xiàn)了選擇多少組典型變量(V,W)的問題了。實際上,只要選擇特征值累積總貢獻占主要部分的那些即可。軟件還會輸出一些檢驗結(jié)果;于是只要選擇顯著的那些(V,W)。對實際問題,還要看選取的(V,W)是否有意義,是否能夠說明問題才行。至于得到(V,W)的計算,則很簡單,下面就tv.txt數(shù)據(jù)進行分析。數(shù)學原理?計算結(jié)果第一個表為判判斷這兩組變變量相關(guān)性的的若干檢驗,,包括Pillai跡檢檢驗,Hotelling-Lawley跡檢檢驗,Wilksl檢驗和Roy的最大根檢檢驗;它們都都是有兩個自自由度的F檢檢驗。該表給給出了每個檢檢驗的F值,,兩個自由度度和p值(均為0.000)。。計算結(jié)果下面一個表給給出了特征根根(Eigenvalue),特征征根所占的百百分比(Pct)和累積積百分比(Cum.Pct)和典典型相關(guān)系數(shù)數(shù)(CanonCor)及其平方方(Sq.Cor)。??磥?,頭兩兩對典型變量量(V,W)的累積特征征根已經(jīng)占了了總量的99.427%。它們的典典型相關(guān)系數(shù)數(shù)也都在0.95之上。。計算結(jié)果對于眾多的計計算機輸出挑挑出一些來介介紹。下面表表格給出的是是第一組變量量相應于上面面三個特征根根的三個典型型變量V1、V2和V3的系數(shù),即典典型系數(shù)(canonicalcoefficient)。注意,,SPSS把把第一組變量量稱為因變量量(dependentvariables),而把第第二組稱為協(xié)協(xié)變量(covariates);;顯然,這兩兩組變量是完完全對稱的。。這種命名僅僅僅是為了敘敘述方便。這些系數(shù)以兩兩種方式給出出;一種是沒沒有標準化的的原始變量的的線性組合的的典型系數(shù)(rawcanonicalcoefficient),一種是是標準化之后的典型系系數(shù)(standardizedcanonicalcoefficient)。標準準化的典型系系數(shù)直觀上對對典型變量的的構(gòu)成給人以以更加清楚的的印象??梢钥闯?,頭頭一個典型變變量V1相應于前面第第一個(也是是最重要的))特征值,主主要代表高學學歷變量hed;而相應應于前面第二二個(次要的的)特征值的的第二個典型型變量V2主要代表低學學歷變量led和部分的的網(wǎng)民變量net,但高高學歷變量在在這里起負面面作用。計算結(jié)果類似地,也可可以得到被稱稱為協(xié)變量(covariate)的標準化的的第二組變量量的相應于頭頭三個特征值值得三個典型型變量W1、W2和W2的系數(shù):。。例子結(jié)論從這兩個表中中可以看出,,V1主要和變量hed相關(guān),,而V2主要和led及net相相關(guān);W1主要和變量arti及man相關(guān),,而W2主要和com相關(guān);這和和它們的典型型系數(shù)是一致致的。由于V1和W1最相關(guān),這說說明V1所代表的高學學歷觀眾和W1所主要代表的的藝術(shù)家(arti)及及各部門經(jīng)理理(man)觀點相關(guān);;而由于V2和W2也相關(guān)關(guān),這這說明明V2所代表表的低低學歷歷(led)及及以年年輕人人為主主的網(wǎng)網(wǎng)民(net)觀眾眾和W2所主主要要代代表表的的看看重重經(jīng)經(jīng)濟濟效效益益的的發(fā)發(fā)行行人人(com)觀觀點點相相關(guān)關(guān),,但但遠遠遠遠不不如如V1和W1的相相關(guān)關(guān)那那么么顯顯著著((根根據(jù)據(jù)特特征征值值的的貢貢獻獻率率))。。SPSS的的實現(xiàn)現(xiàn)對例例tv.sav,,首首先先打打開開例例14.1的的SPSS數(shù)數(shù)據(jù)據(jù)tv.sav,,通過過File--New--Syntax打打開開一一個個空空白白文文件件((默默認認文文件件名名為為Syntax1.sps)),,再再在在其其中中鍵鍵入入下下面面命命令令行行::MANOVAledhednetWITHarticomman/DISCRIMALLALPHA(1)/PRINT=SIG(EIGENDIM).再點擊一一個向右右的三角角形圖標標(運行目前前程序,,Runcurrent),就可以以得到所所需結(jié)果果了。還可以把把Syntax1.sps另以以其他名名字(比比如tv.sps)存存入一個個文件夾夾。下次次使用時時就可以以通過File-Open--Syntax來打開開這個文文件了。。SPSS的實現(xiàn)注意1::典型相相關(guān)分析析是本書書內(nèi)容中中唯一不不能用SPSS的點擊擊鼠標的的“傻瓜瓜”方式式,而必必須用寫寫入程序序行來運運行的模模型。讀讀者不必必要再去去研究語語法的細細節(jié),只只要能夠夠舉一反反三,套套用這個個例子的的程序即即可。當然,如如果讀者者愿意學學習SPSS的的語法,,則在處處理數(shù)據(jù)據(jù)時,肯肯定會更更方便。。SPSS的實現(xiàn)注意2::一些SPSS的輸出出很長,,這時輸輸出窗口口截去了了一些內(nèi)內(nèi)容沒有有顯示((這有些些隨意性性)。這這時輸出出窗口(SPSSViewer)中結(jié)果果的左下下角有一一個紅色色的三角角型。如果想要要看全部部內(nèi)容,,可以先先點擊鼠鼠標左鍵鍵,選中中輸出結(jié)結(jié)果,然然后從點點右鍵得得到的菜菜單中選選擇Export,就就可以把把全部結(jié)結(jié)果(包包括截去去的部分分)存入入一個htm形形式的文文件了供供研究和和打印之之用。附錄兩個變量量時,用用線性相相關(guān)系數(shù)數(shù)研究兩個個變量之之間的線線性相關(guān)關(guān)性:返回典型相關(guān)關(guān)分析目的:研究多個個變量之之間的相相關(guān)性方法:利利用主成成分思想想,可以以把多個個變量與與多個變變量之間間的相關(guān)關(guān)化為兩兩個變量量之間的的相關(guān).即找找一組系系數(shù)(向向量)l和m,使新新變量U=l’’X(1)和V=m’’X(2)有最大可可能的相相關(guān)關(guān)系系.數(shù)學:設(shè)兩組隨隨機變量量而的協(xié)方差差陣S>0,均均值向量量m=0,S的剖分為為:對于前面面的新變變量U=l’’X(1)和V=m’’X(2)Var(U)=Var(l’’X(1))=l’’S11lVar(V)=Var(m’X(2))=m’S22mCov(U,V)=l’’S12m,rUV=l’S12m/[(l’’S11l)(m’S22m)]?我們試圖在約約束條件Var(U)=1,Var(V)=1下尋求l和m使rUV=Cov(U,V)=l’S12m達到最大.這是Lagrange乘乘數(shù)法求下面面f的極大值經(jīng)過求偏導數(shù)數(shù)和解方程,得到l=n=l’S12m=Cov(U,V),及及因此l2既是A又是B的特征值,而相應的的特征向量為為l,m可得到p1對線性組合Ui=l(i)’X(1),Vi=m(i)’X(2),稱每一對變變量為典型變量.其極大值稱為第一典型相關(guān)關(guān)系數(shù).一般只取前幾幾個影響大的的典型變量和和典型相關(guān)系系數(shù)來分析.A和B的特征征根有如下性性質(zhì):(1)A和B有相同的非非零特征根,(2)其其數(shù)目為p1.A和B的的特征根非負負.(3)A和B的的特征根均在在0和1之間間.我們表示這些些稱為典型相關(guān)系數(shù)數(shù)的非零特征值值和相應的特特征向量為典型變量的性性質(zhì):(1)X(1)和X(2)中的一切典型型變量都不相相關(guān).(2)X(1)和X(2)的同一對典型型變量Ui和Vi之間的相關(guān)系系數(shù)為li,不同對的的Ui和Vj(i≠j)之間不相關(guān)關(guān).樣本情況,只只要把S用樣本協(xié)差陣陣或樣本相關(guān)關(guān)陣R代替.下面回到我們們的例子。典型相關(guān)系數(shù)數(shù)的顯著性檢檢驗:首先看X(1)和X(2)是否相關(guān),如如不相關(guān),就就不必討論論.如果這是為檢驗第第1個典型相相關(guān)系數(shù)的顯顯著性檢驗統(tǒng)計量為為其中為為的的特征根.如果H0為檢驗第r(r<k)個個典型相關(guān)系系數(shù)的顯著性性檢驗統(tǒng)計量為為當然然在在實實際際例例子子中中一一般般并并不不知知道道S。因因此此在在只只有有樣樣本本數(shù)數(shù)據(jù)據(jù)的的情情況況下下,只只要要把把S用樣樣本本協(xié)協(xié)差差陣陣或或樣樣本本相相關(guān)關(guān)陣陣代代替替就就行行了了。。但但是是這這時時的的特特征征根根可可能能不不在在0和和1的的范范圍圍,,因因此此會會出出現(xiàn)現(xiàn)軟軟件件輸輸出出中中

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論