MBA統(tǒng)計學-典型相關分析課件_第1頁
MBA統(tǒng)計學-典型相關分析課件_第2頁
MBA統(tǒng)計學-典型相關分析課件_第3頁
MBA統(tǒng)計學-典型相關分析課件_第4頁
MBA統(tǒng)計學-典型相關分析課件_第5頁
已閱讀5頁,還剩59頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

統(tǒng)計學─從數(shù)據(jù)到結論統(tǒng)計學─從數(shù)據(jù)到結論1第十三章典型相關分析第十三章典型相關分析213.1兩組變量的相關問題

我們知道如何衡量兩個變量之間是否相關的問題;這是一個簡單的公式就可以解決的問題(Pearson相關系數(shù)、Kendall’st、Spearman秩相關系數(shù))。公式如果我們有兩組變量,如何能夠表明它們之間的關系呢?

13.1兩組變量的相關問題我們知道如何衡量兩個變量之間是否3例子(數(shù)據(jù)tv.txt)

業(yè)內(nèi)人士和觀眾對于一些電視節(jié)目的觀點有什么樣的關系呢?該數(shù)據(jù)是不同的人群對30個電視節(jié)目所作的平均評分。觀眾評分來自低學歷(led)、高學歷(hed)和網(wǎng)絡(net)調(diào)查三種,它們形成第一組變量;而業(yè)內(nèi)人士分評分來自包括演員和導演在內(nèi)的藝術家(arti)、發(fā)行(com)與業(yè)內(nèi)各部門主管(man)三種,形成第二組變量。人們對這樣兩組變量之間的關系感到興趣。例子(數(shù)據(jù)tv.txt)業(yè)內(nèi)人士和觀眾對于一些電視節(jié)目的觀4MBA統(tǒng)計學--典型相關分析課件5尋找代表

如直接對這六個變量的相關進行兩兩分析,很難得到關于這兩組變量之間關系的一個清楚的印象。希望能夠把多個變量與多個變量之間的相關化為兩個變量之間的相關?,F(xiàn)在的問題是為每一組變量選取一個綜合變量作為代表;而一組變量最簡單的綜合形式就是該組變量的線性組合。尋找代表如直接對這六個變量的相關進行兩兩分析,很難得到關于613.2典型相關分析由于一組變量可以有無數(shù)種線性組合(線性組合由相應的系數(shù)確定),因此必須找到既有意義又可以確定的線性組合。典型相關分析(canonicalcorrelationanalysis)就是要找到這兩組變量線性組合的系數(shù)使得這兩個由線性組合生成的變量(和其他線性組合相比)之間的相關系數(shù)最大。

13.2典型相關分析由于一組變量可以有無數(shù)種線性組合(線性7典型變量假定兩組變量為X1,X2…,Xp和Y1,Y2,…,Yq,那么,問題就在于要尋找系數(shù)a1,a2…,ap和b1,b2,…,bq,和使得新的綜合變量(亦稱為典型變量(canonicalvariable))之間的相關關系最大。這種相關關系是用典型相關系數(shù)(canonicalcorrelationcoefficient)來衡量的。典型變量假定兩組變量為X1,X2…,Xp和Y1,Y2,…,Y8典型相關系數(shù)

這里所涉及的主要的數(shù)學工具還是矩陣的特征值和特征向量問題。而所得的特征值與V和W的典型相關系數(shù)有直接聯(lián)系。由于特征值問題的特點,實際上找到的是多組典型變量(V1,W1),(V2,W2),…,其中V1和W1最相關,而V2和W2次之等等,典型相關系數(shù)這里所涉及的主要的數(shù)學工具還是矩陣的特征值和特9典型相關系數(shù)

而且V1,V2,V3,…之間及而且W1,W2,W3,…之間互不相關。這樣又出現(xiàn)了選擇多少組典型變量(V,W)的問題了。實際上,只要選擇特征值累積總貢獻占主要部分的那些即可。軟件還會輸出一些檢驗結果;于是只要選擇顯著的那些(V,W)。對實際問題,還要看選取的(V,W)是否有意義,是否能夠說明問題才行。至于得到(V,W)的計算,則很簡單,下面就tv.txt數(shù)據(jù)進行分析。數(shù)學原理?典型相關系數(shù)而且V1,V2,V3,…之間及而且W1,10計算結果

第一個表為判斷這兩組變量相關性的若干檢驗,包括Pillai跡檢驗,Hotelling-Lawley跡檢驗,Wilksl檢驗和Roy的最大根檢驗;它們都是有兩個自由度的F檢驗。該表給出了每個檢驗的F值,兩個自由度和p值(均為0.000)。計算結果第一個表為判斷這兩組變量相關性的若干檢驗,包括Pi11計算結果

下面一個表給出了特征根(Eigenvalue),特征根所占的百分比(Pct)和累積百分比(Cum.Pct)和典型相關系數(shù)(CanonCor)及其平方(Sq.Cor)??磥?,頭兩對典型變量(V,W)的累積特征根已經(jīng)占了總量的99.427%。它們的典型相關系數(shù)也都在0.95之上。計算結果下面一個表給出了特征根(Eigenvalue),特12計算結果

對于眾多的計算機輸出挑出一些來介紹。下面表格給出的是第一組變量相應于上面三個特征根的三個典型變量V1、V2和V3的系數(shù),即典型系數(shù)(canonicalcoefficient)。注意,SPSS把第一組變量稱為因變量(dependentvariables),而把第二組稱為協(xié)變量(covariates);顯然,這兩組變量是完全對稱的。這種命名僅僅是為了敘述方便。這些系數(shù)以兩種方式給出;一種是沒有標準化的原始變量的線性組合的典型系數(shù)(rawcanonicalcoefficient),一種是標準化之后的典型系數(shù)(standardizedcanonicalcoefficient)。標準化的典型系數(shù)直觀上對典型變量的構成給人以更加清楚的印象。計算結果對于眾多的計算機輸出挑出一些來介紹。下面表格給出的13可以看出,頭一個典型變量V1相應于前面第一個(也是最重要的)特征值,主要代表高學歷變量hed;而相應于前面第二個(次要的)特征值的第二個典型變量V2主要代表低學歷變量led和部分的網(wǎng)民變量net,但高學歷變量在這里起負面作用??梢钥闯觯^一個典型變量V1相應于前面第一個(也是最重要的)14計算結果

類似地,也可以得到被稱為協(xié)變量(covariate)的標準化的第二組變量的相應于頭三個特征值得三個典型變量W1、W2和W2的系數(shù):。計算結果類似地,也可以得到被稱為協(xié)變量(covariate15MBA統(tǒng)計學--典型相關分析課件16例子結論

從這兩個表中可以看出,V1主要和變量hed相關,而V2主要和led及net相關;W1主要和變量arti及man相關,而W2主要和com相關;這和它們的典型系數(shù)是一致的。由于V1和W1最相關,這說明V1所代表的高學歷觀眾和W1所主要代表的藝術家(arti)及各部門經(jīng)理(man)觀點相關;而由于V2和W2也相關,這說明V2所代表的低學歷(led)及以年輕人為主的網(wǎng)民(net)觀眾和W2所主要代表的看重經(jīng)濟效益的發(fā)行人(com)觀點相關,但遠遠不如V1和W1的相關那么顯著(根據(jù)特征值的貢獻率)。例子結論從這兩個表中可以看出,V1主要和變量hed相關,而17SPSS的實現(xiàn)對例tv.sav,首先打開例14.1的SPSS數(shù)據(jù)tv.sav,通過File-New-Syntax打開一個空白文件(默認文件名為Syntax1.sps),再在其中鍵入下面命令行:MANOVAledhednetWITHarticomman/DISCRIMALLALPHA(1)/PRINT=SIG(EIGENDIM).再點擊一個向右的三角形圖標(運行目前程序,Runcurrent),就可以得到所需結果了。還可以把Syntax1.sps另以其他名字(比如tv.sps)存入一個文件夾。下次使用時就可以通過File-Open-Syntax來打開這個文件了。SPSS的實現(xiàn)對例tv.sav,首先打開例14.1的SPSS18SPSS的實現(xiàn)注意1:典型相關分析是本書內(nèi)容中唯一不能用SPSS的點擊鼠標的“傻瓜”方式,而必須用寫入程序行來運行的模型。讀者不必要再去研究語法的細節(jié),只要能夠舉一反三,套用這個例子的程序即可。當然,如果讀者愿意學習SPSS的語法,則在處理數(shù)據(jù)時,肯定會更方便。SPSS的實現(xiàn)注意1:典型相關分析是本書內(nèi)容中唯一不能用SP19SPSS的實現(xiàn)注意2:一些SPSS的輸出很長,這時輸出窗口截去了一些內(nèi)容沒有顯示(這有些隨意性)。這時輸出窗口(SPSSViewer)中結果的左下角有一個紅色的三角型。如果想要看全部內(nèi)容,可以先點擊鼠標左鍵,選中輸出結果,然后從點右鍵得到的菜單中選擇Export,就可以把全部結果(包括截去的部分)存入一個htm形式的文件了供研究和打印之用。SPSS的實現(xiàn)注意2:一些SPSS的輸出很長,這時輸出窗口截20附錄附錄21兩個變量時,用線性相關系數(shù)研究兩個變量之間的線性相關性:返回兩個變量時,用線性相關系數(shù)研究兩個變量之間的線性相關性:返回22典型相關分析目的:研究多個變量之間的相關性方法:利用主成分思想,可以把多個變量與多個變量之間的相關化為兩個變量之間的相關.即找一組系數(shù)(向量)l和m,使新變量U=l’X(1)和V=m’X(2)有最大可能的相關關系.典型相關分析目的:研究多個變量之間的相關性23數(shù)學:設兩組隨機變量而的協(xié)方差陣S>0,均值向量m=0,S的剖分為:對于前面的新變量U=l’X(1)和V=m’X(2)Var(U)=Var(l’X(1))=l’S11lVar(V)=Var(m’X(2))=m’S22mCov(U,V)=l’S12m,rUV=l’S12m/[(l’S11l)(m’S22m)]?我們試圖在約束條件Var(U)=1,Var(V)=1下尋求l和m使rUV=Cov(U,V)=l’S12m達到最大.數(shù)學:設兩組隨機變量而的協(xié)方差陣S>0,均值向量m=0,24這是Lagrange乘數(shù)法求下面f的極大值經(jīng)過求偏導數(shù)和解方程,得到l=n=l’S12m=Cov(U,V),及因此l2既是A又是B的特征值,而相應的特征向量為l,m這是Lagrange乘數(shù)法求下面f的極大值經(jīng)過求偏導數(shù)和解方25可得到p1對線性組合Ui=l(i)’X(1),Vi=m(i)’X(2),稱每一對變量為典型變量.其極大值稱為第一典型相關系數(shù).一般只取前幾個影響大的典型變量和典型相關系數(shù)來分析.A和B的特征根有如下性質:(1)A和B有相同的非零特征根,(2)其數(shù)目為p1.A和B的特征根非負.(3)A和B的特征根均在0和1之間.我們表示這些稱為典型相關系數(shù)的非零特征值和相應的特征向量為可得到p1對線性組合Ui=l(i)’X(1),Vi=m(i26典型變量的性質:

(1)X(1)和X(2)中的一切典型變量都不相關.(2)X(1)和X(2)的同一對典型變量Ui和Vi之間的相關系數(shù)為li,不同對的Ui和Vj(i≠j)之間不相關.樣本情況,只要把S用樣本協(xié)差陣或樣本相關陣R代替.下面回到我們的例子。典型變量的性質:27典型相關系數(shù)的顯著性檢驗:首先看X(1)和X(2)是否相關,如不相關,就不必討論.如果這是為檢驗第1個典型相關系數(shù)的顯著性檢驗統(tǒng)計量為其中為 的特征根.典型相關系數(shù)的顯著性檢驗:首先看X(1)和X(2)是否相關28如果H0為檢驗第r(r<k)個典型相關系數(shù)的顯著性檢驗統(tǒng)計量為如果H0為檢驗第r(r<k)個典型相關系數(shù)的顯著性檢驗統(tǒng)計量29當然在實際例子中一般并不知道S。因此在只有樣本數(shù)據(jù)的情況下,只要把S用樣本協(xié)差陣或樣本相關陣代替就行了。但是這時的特征根可能不在0和1的范圍,因此會出現(xiàn)軟件輸出中的特征根(比如大于1)不等于相關系數(shù)的平方的情況,這時,各種軟件會給出調(diào)整后的相關系數(shù)。當然在實際例子中一般并不知道S。因此在只有樣本數(shù)據(jù)的情況下,30典型相關和回歸分析的關系把X(1)和X(2)換成回歸中的X和Y,這就是因變量和自變量之間的相關問題.而Y在X上的投影,就是回歸了.典型相關和回歸分析的關系31演講完畢,謝謝觀看!演講完畢,謝謝觀看!32統(tǒng)計學─從數(shù)據(jù)到結論統(tǒng)計學─從數(shù)據(jù)到結論33第十三章典型相關分析第十三章典型相關分析3413.1兩組變量的相關問題

我們知道如何衡量兩個變量之間是否相關的問題;這是一個簡單的公式就可以解決的問題(Pearson相關系數(shù)、Kendall’st、Spearman秩相關系數(shù))。公式如果我們有兩組變量,如何能夠表明它們之間的關系呢?

13.1兩組變量的相關問題我們知道如何衡量兩個變量之間是否35例子(數(shù)據(jù)tv.txt)

業(yè)內(nèi)人士和觀眾對于一些電視節(jié)目的觀點有什么樣的關系呢?該數(shù)據(jù)是不同的人群對30個電視節(jié)目所作的平均評分。觀眾評分來自低學歷(led)、高學歷(hed)和網(wǎng)絡(net)調(diào)查三種,它們形成第一組變量;而業(yè)內(nèi)人士分評分來自包括演員和導演在內(nèi)的藝術家(arti)、發(fā)行(com)與業(yè)內(nèi)各部門主管(man)三種,形成第二組變量。人們對這樣兩組變量之間的關系感到興趣。例子(數(shù)據(jù)tv.txt)業(yè)內(nèi)人士和觀眾對于一些電視節(jié)目的觀36MBA統(tǒng)計學--典型相關分析課件37尋找代表

如直接對這六個變量的相關進行兩兩分析,很難得到關于這兩組變量之間關系的一個清楚的印象。希望能夠把多個變量與多個變量之間的相關化為兩個變量之間的相關?,F(xiàn)在的問題是為每一組變量選取一個綜合變量作為代表;而一組變量最簡單的綜合形式就是該組變量的線性組合。尋找代表如直接對這六個變量的相關進行兩兩分析,很難得到關于3813.2典型相關分析由于一組變量可以有無數(shù)種線性組合(線性組合由相應的系數(shù)確定),因此必須找到既有意義又可以確定的線性組合。典型相關分析(canonicalcorrelationanalysis)就是要找到這兩組變量線性組合的系數(shù)使得這兩個由線性組合生成的變量(和其他線性組合相比)之間的相關系數(shù)最大。

13.2典型相關分析由于一組變量可以有無數(shù)種線性組合(線性39典型變量假定兩組變量為X1,X2…,Xp和Y1,Y2,…,Yq,那么,問題就在于要尋找系數(shù)a1,a2…,ap和b1,b2,…,bq,和使得新的綜合變量(亦稱為典型變量(canonicalvariable))之間的相關關系最大。這種相關關系是用典型相關系數(shù)(canonicalcorrelationcoefficient)來衡量的。典型變量假定兩組變量為X1,X2…,Xp和Y1,Y2,…,Y40典型相關系數(shù)

這里所涉及的主要的數(shù)學工具還是矩陣的特征值和特征向量問題。而所得的特征值與V和W的典型相關系數(shù)有直接聯(lián)系。由于特征值問題的特點,實際上找到的是多組典型變量(V1,W1),(V2,W2),…,其中V1和W1最相關,而V2和W2次之等等,典型相關系數(shù)這里所涉及的主要的數(shù)學工具還是矩陣的特征值和特41典型相關系數(shù)

而且V1,V2,V3,…之間及而且W1,W2,W3,…之間互不相關。這樣又出現(xiàn)了選擇多少組典型變量(V,W)的問題了。實際上,只要選擇特征值累積總貢獻占主要部分的那些即可。軟件還會輸出一些檢驗結果;于是只要選擇顯著的那些(V,W)。對實際問題,還要看選取的(V,W)是否有意義,是否能夠說明問題才行。至于得到(V,W)的計算,則很簡單,下面就tv.txt數(shù)據(jù)進行分析。數(shù)學原理?典型相關系數(shù)而且V1,V2,V3,…之間及而且W1,42計算結果

第一個表為判斷這兩組變量相關性的若干檢驗,包括Pillai跡檢驗,Hotelling-Lawley跡檢驗,Wilksl檢驗和Roy的最大根檢驗;它們都是有兩個自由度的F檢驗。該表給出了每個檢驗的F值,兩個自由度和p值(均為0.000)。計算結果第一個表為判斷這兩組變量相關性的若干檢驗,包括Pi43計算結果

下面一個表給出了特征根(Eigenvalue),特征根所占的百分比(Pct)和累積百分比(Cum.Pct)和典型相關系數(shù)(CanonCor)及其平方(Sq.Cor)??磥?,頭兩對典型變量(V,W)的累積特征根已經(jīng)占了總量的99.427%。它們的典型相關系數(shù)也都在0.95之上。計算結果下面一個表給出了特征根(Eigenvalue),特44計算結果

對于眾多的計算機輸出挑出一些來介紹。下面表格給出的是第一組變量相應于上面三個特征根的三個典型變量V1、V2和V3的系數(shù),即典型系數(shù)(canonicalcoefficient)。注意,SPSS把第一組變量稱為因變量(dependentvariables),而把第二組稱為協(xié)變量(covariates);顯然,這兩組變量是完全對稱的。這種命名僅僅是為了敘述方便。這些系數(shù)以兩種方式給出;一種是沒有標準化的原始變量的線性組合的典型系數(shù)(rawcanonicalcoefficient),一種是標準化之后的典型系數(shù)(standardizedcanonicalcoefficient)。標準化的典型系數(shù)直觀上對典型變量的構成給人以更加清楚的印象。計算結果對于眾多的計算機輸出挑出一些來介紹。下面表格給出的45可以看出,頭一個典型變量V1相應于前面第一個(也是最重要的)特征值,主要代表高學歷變量hed;而相應于前面第二個(次要的)特征值的第二個典型變量V2主要代表低學歷變量led和部分的網(wǎng)民變量net,但高學歷變量在這里起負面作用。可以看出,頭一個典型變量V1相應于前面第一個(也是最重要的)46計算結果

類似地,也可以得到被稱為協(xié)變量(covariate)的標準化的第二組變量的相應于頭三個特征值得三個典型變量W1、W2和W2的系數(shù):。計算結果類似地,也可以得到被稱為協(xié)變量(covariate47MBA統(tǒng)計學--典型相關分析課件48例子結論

從這兩個表中可以看出,V1主要和變量hed相關,而V2主要和led及net相關;W1主要和變量arti及man相關,而W2主要和com相關;這和它們的典型系數(shù)是一致的。由于V1和W1最相關,這說明V1所代表的高學歷觀眾和W1所主要代表的藝術家(arti)及各部門經(jīng)理(man)觀點相關;而由于V2和W2也相關,這說明V2所代表的低學歷(led)及以年輕人為主的網(wǎng)民(net)觀眾和W2所主要代表的看重經(jīng)濟效益的發(fā)行人(com)觀點相關,但遠遠不如V1和W1的相關那么顯著(根據(jù)特征值的貢獻率)。例子結論從這兩個表中可以看出,V1主要和變量hed相關,而49SPSS的實現(xiàn)對例tv.sav,首先打開例14.1的SPSS數(shù)據(jù)tv.sav,通過File-New-Syntax打開一個空白文件(默認文件名為Syntax1.sps),再在其中鍵入下面命令行:MANOVAledhednetWITHarticomman/DISCRIMALLALPHA(1)/PRINT=SIG(EIGENDIM).再點擊一個向右的三角形圖標(運行目前程序,Runcurrent),就可以得到所需結果了。還可以把Syntax1.sps另以其他名字(比如tv.sps)存入一個文件夾。下次使用時就可以通過File-Open-Syntax來打開這個文件了。SPSS的實現(xiàn)對例tv.sav,首先打開例14.1的SPSS50SPSS的實現(xiàn)注意1:典型相關分析是本書內(nèi)容中唯一不能用SPSS的點擊鼠標的“傻瓜”方式,而必須用寫入程序行來運行的模型。讀者不必要再去研究語法的細節(jié),只要能夠舉一反三,套用這個例子的程序即可。當然,如果讀者愿意學習SPSS的語法,則在處理數(shù)據(jù)時,肯定會更方便。SPSS的實現(xiàn)注意1:典型相關分析是本書內(nèi)容中唯一不能用SP51SPSS的實現(xiàn)注意2:一些SPSS的輸出很長,這時輸出窗口截去了一些內(nèi)容沒有顯示(這有些隨意性)。這時輸出窗口(SPSSViewer)中結果的左下角有一個紅色的三角型。如果想要看全部內(nèi)容,可以先點擊鼠標左鍵,選中輸出結果,然后從點右鍵得到的菜單中選擇Export,就可以把全部結果(包括截去的部分)存入一個htm形式的文件了供研究和打印之用。SPSS的實現(xiàn)注意2:一些SPSS的輸出很長,這時輸出窗口截52附錄附錄53兩個變量時,用線性相關系數(shù)研究兩個變量之間的線性相關性:返回兩個變量時,用線性相關系數(shù)研究兩個變量之間的線性相關性:返回54典型相關分析目的:研究多個變量之間的相關性方法:利用主成分思想,可以把多個變量與多個變量之間的相關化為兩個變量之間的相關.即找一組系數(shù)(向量)l和m,使新變量U=l’X(1)和V=m’X(2)有最大可能的相關關系.典型相關分析目的:研究多個變量之間的相關性55數(shù)學:設兩組隨機變量而的協(xié)方差陣S>0,均值向量m=0,S的剖分為:對于前面的新變量U=l’X(1)和V=m’X(2)Var(U)=Var(l’X(1))=l’S11lVar(V)=Var(m’X(2))=m’S22mCov(U,V)=l’S12m,rUV=l’S12m/[(l’S11l)(m’S22m)]?我們試圖在約束條件Var(U)=1,Var(V)=1下尋求l和m使rUV=Cov(U,V)=l’S12m達到最大.數(shù)學:設兩組隨機變量而的協(xié)方差陣S>0,均值向量m=0,56這是Lagrange乘數(shù)法求下面

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論