第七講典型相關(guān)分析_第1頁
第七講典型相關(guān)分析_第2頁
第七講典型相關(guān)分析_第3頁
第七講典型相關(guān)分析_第4頁
第七講典型相關(guān)分析_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第七講典型相關(guān)分析第1頁,共45頁,2023年,2月20日,星期一第七講典型相關(guān)分析第2頁,共45頁,2023年,2月20日,星期一兩組變量的相關(guān)問題我們知道如何衡量?jī)蓚€(gè)變量之間是否相關(guān)的問題;這是一個(gè)簡(jiǎn)單的公式就可以解決的問題(Pearson相關(guān)系數(shù)、Kendall’st、Spearman秩相關(guān)系數(shù))。如果我們有兩組變量,如何表明它們之間的關(guān)系呢?第3頁,共45頁,2023年,2月20日,星期一例.1(數(shù)據(jù)tv.sav)例如:業(yè)內(nèi)人士和觀眾對(duì)于一些電視節(jié)目的觀點(diǎn)有什么樣的關(guān)系呢?數(shù)據(jù)tv.sav是不同的人群對(duì)30個(gè)電視節(jié)目所作的平均評(píng)分。觀眾評(píng)分來自低學(xué)歷(led)、高學(xué)歷(hed)和網(wǎng)絡(luò)(net)調(diào)查三種,它們形成第一組變量;而業(yè)內(nèi)人士分評(píng)分來自包括演員和導(dǎo)演在內(nèi)的藝術(shù)家(arti)、發(fā)行(com)與業(yè)內(nèi)各部門主管(man)三種,形成第二組變量。人們對(duì)這樣兩組變量之間的關(guān)系感到興趣。第4頁,共45頁,2023年,2月20日,星期一第5頁,共45頁,2023年,2月20日,星期一第一組變量:觀眾第二組變量:業(yè)內(nèi)人士低學(xué)歷高學(xué)歷網(wǎng)絡(luò)主管發(fā)行人藝術(shù)家典型相關(guān)第6頁,共45頁,2023年,2月20日,星期一如何進(jìn)行典型相關(guān)如果直接對(duì)這六個(gè)變量的相關(guān)進(jìn)行兩兩分析,很難得到關(guān)于這兩組變量之間關(guān)系的一個(gè)清楚的印象。希望能夠把多個(gè)變量與多個(gè)變量之間的相關(guān)化為兩個(gè)變量之間的相關(guān)?,F(xiàn)在的問題是為每一組變量選取一個(gè)綜合變量作為代表;而一組變量最簡(jiǎn)單的綜合形式就是該組變量的線性組合。第7頁,共45頁,2023年,2月20日,星期一如何進(jìn)行典型相關(guān)由于一組變量可以有無數(shù)種線性組合(線性組合由相應(yīng)的系數(shù)確定),因此必須找到既有意義又可以確定的線性組合。典型相關(guān)分析(canonicalcorrelationanalysis)就是要找到這兩組變量線性組合的系數(shù),使得這兩個(gè)由線性組合生成的變量(和其他線性組合相比)之間的相關(guān)系數(shù)最大。

第8頁,共45頁,2023年,2月20日,星期一XV1V2|VdYW1W2|Wdx1x2xiy1y2yjcr1cr2crdd=min(i,j)(V=a0+a1x1+…+aixi)(W=b0+b1y1+…+bjyj)第9頁,共45頁,2023年,2月20日,星期一建立第一對(duì)典型變量(函數(shù))的原則盡量使所建的兩個(gè)典型變量之間的相關(guān)系數(shù)最大化,就是在兩個(gè)變量組各自的總變化中先尋求他們之間最大的一部分共變關(guān)系,并用一對(duì)典型變量所描述。因而,第一維度上的典型相關(guān)系數(shù)也隨之求的。第10頁,共45頁,2023年,2月20日,星期一建立第二對(duì)典型變量(函數(shù))的原則繼續(xù)在兩組變量剩余的變化中尋找第二個(gè)最大的共變部分,形成第二對(duì)典型變量,并解出第二維度上的典型相關(guān)系數(shù)。依此類推,直至所有變化部分被剝離完畢。第11頁,共45頁,2023年,2月20日,星期一典型相關(guān)系數(shù)這里所涉及的主要的數(shù)學(xué)工具還是矩陣的特征值和特征向量問題。而所得的特征值與V和W的典型相關(guān)系數(shù)有直接聯(lián)系。由于特征值問題的特點(diǎn),實(shí)際上找到的是多組典型變量(V1,W1),(V2,W2),…,其中V1和W1最相關(guān),而V2和W2次之等等,而且V1,V2,V3,…之間及而且W1,W2,W3,…之間互不相關(guān)。這樣又出現(xiàn)了選擇多少組典型變量(V,W)的問題了。實(shí)際上,只要選擇特征值累積總貢獻(xiàn)占主要部分的那些即可。第12頁,共45頁,2023年,2月20日,星期一注意嚴(yán)格地說,一個(gè)典型相關(guān)系數(shù)描述的只是一對(duì)典型變量之間的相關(guān),而不是兩個(gè)變量組之間的相關(guān)。而各對(duì)典型變量之間構(gòu)成的多維典型相關(guān)才共同揭示了兩個(gè)觀測(cè)變量組之間的相關(guān)形式。第13頁,共45頁,2023年,2月20日,星期一典型相關(guān)模型的基本假設(shè)和數(shù)據(jù)要求要求兩組變量之間為線性關(guān)系,即每對(duì)典型變量之間為線性關(guān)系;每個(gè)典型變量與本組所有觀測(cè)變量的關(guān)系也是線性關(guān)系。如果不是線性關(guān)系,可先線性化:如經(jīng)濟(jì)水平和收入水平與其他一些社會(huì)發(fā)展水之間并不是線性關(guān)系,可先取對(duì)數(shù)。即log經(jīng)濟(jì)水平,log收入水平。第14頁,共45頁,2023年,2月20日,星期一典型相關(guān)模型的基本假設(shè)和數(shù)據(jù)要求所有觀測(cè)變量為定量數(shù)據(jù)。同時(shí)也可將定性數(shù)據(jù)按照一定形式設(shè)為虛擬變量后,再放入典型相關(guān)模型中進(jìn)行分析。檢驗(yàn)假設(shè):第15頁,共45頁,2023年,2月20日,星期一典型相關(guān)分析說明下面就tv.sav數(shù)據(jù)進(jìn)行典型相關(guān)分析的說明頭兩對(duì)典型變量(V,W)的累積特征根已經(jīng)占了總量的99.427%。它們的典型相關(guān)系數(shù)也都在0.95之上。第16頁,共45頁,2023年,2月20日,星期一典型相關(guān)系數(shù)的平方與簡(jiǎn)單相關(guān)系數(shù)一樣,典型相關(guān)系數(shù)的實(shí)際意義并不十分明確。所以,由經(jīng)驗(yàn)的研究人員往往更愿意采用典型相關(guān)系數(shù)的平方(相當(dāng)于回歸分析中的確定系數(shù))。由于相關(guān)涉及的兩個(gè)典型變量都是標(biāo)準(zhǔn)化的,所以雙方的方差都等于1。典型相關(guān)系數(shù)的平方的實(shí)際意義是一對(duì)典型變量之間的共享方差在兩個(gè)典型變量各自方差中的比例。第17頁,共45頁,2023年,2月20日,星期一典型相關(guān)系數(shù)的檢驗(yàn)整體檢驗(yàn):第18頁,共45頁,2023年,2月20日,星期一典型相關(guān)系數(shù)的檢驗(yàn)維度遞減檢驗(yàn):仍然是一種多元檢驗(yàn),但可以提供每對(duì)典型變量的典型相關(guān)是否顯著的信息。DimensionReductionAnalysisRootsWilksL.FHypothDFErrorDFSig.ofF1to32to33to30.000500.054710.59382141.5804640.9404917.78432

9.004.001.00

58.5650.0026.00

0.0000.0000.000第19頁,共45頁,2023年,2月20日,星期一典型系數(shù)下面表格給出的是第一組變量相應(yīng)于上面三個(gè)特征根的三個(gè)典型變量V1、V2和V3的系數(shù),即典型系數(shù)(canonicalcoefficient)。這些系數(shù)以兩種方式給出;一種是沒有標(biāo)準(zhǔn)化的原始變量的線性組合的典型系數(shù)(rawcanonicalcoefficient),一種是標(biāo)準(zhǔn)化之后的典型系數(shù)(standardizedcanonicalcoefficient)。標(biāo)準(zhǔn)化的典型系數(shù)直觀上對(duì)典型變量的構(gòu)成給人以更加清楚的印象。第20頁,共45頁,2023年,2月20日,星期一第21頁,共45頁,2023年,2月20日,星期一典型系數(shù)可以看出,頭一個(gè)典型變量V1相應(yīng)于前面第一個(gè)(也是最重要的)特征值,主要代表高學(xué)歷變量hed;而相應(yīng)于前面第二個(gè)(次要的)特征值的第二個(gè)典型變量V2主要代表低學(xué)歷變量led和部分的網(wǎng)民變量net,但高學(xué)歷變量在這里起負(fù)面作用。

第22頁,共45頁,2023年,2月20日,星期一典型系數(shù)類似地,也可以得到被稱為協(xié)變量(covariate)的標(biāo)準(zhǔn)化的第二組變量的相應(yīng)于頭三個(gè)特征值得三個(gè)典型變量W1、W2和W2的系數(shù):第23頁,共45頁,2023年,2月20日,星期一典型負(fù)載(相關(guān))系數(shù)也稱為因變量或協(xié)變量與典型變量之間的兩兩相關(guān)系數(shù)。第24頁,共45頁,2023年,2月20日,星期一第25頁,共45頁,2023年,2月20日,星期一例子結(jié)論從這兩個(gè)表中可以看出,V1主要和變量hed相關(guān),而V2主要和led及net相關(guān);W1主要和變量arti及man相關(guān),而W2主要和com相關(guān);這和它們的典型系數(shù)是一致的。由于V1和W1最相關(guān),這說明V1所代表的高學(xué)歷觀眾和W1所主要代表的藝術(shù)家(arti)及各部門經(jīng)理(man)觀點(diǎn)相關(guān);而由于V2和W2也相關(guān),這說明V2所代表的低學(xué)歷(led)及以年輕人為主的網(wǎng)民(net)觀眾和W2所主要代表的看重經(jīng)濟(jì)效益的發(fā)行人(com)觀點(diǎn)相關(guān),但遠(yuǎn)遠(yuǎn)不如V1和W1的相關(guān)那么顯著(根據(jù)特征值的貢獻(xiàn)率)。

第26頁,共45頁,2023年,2月20日,星期一相關(guān)分析的冗余分析主要說明典型變量對(duì)各組觀測(cè)變量總方差的代表比例和解釋比例。VarianceindependentvariablesexplainedbycanonicalvariablesCAN.VARPctVarDECumPctDEPctVarCOCumPctCO12341.45547.75310.79241.45589.208100.0041.07843.3534.38441.07884.43188.814第27頁,共45頁,2023年,2月20日,星期一相關(guān)分析的冗余分析其中:DE——因變量組

CO——協(xié)變量組VarianceincovariatesvariablesexplainedbycanonicalvariablesCAN.VARPctVarDECumPctDEPctVarCOCumPctCO12371.69122.3101.24971.69194.00195.25172.34924.5753.07672.34996.924100.00第28頁,共45頁,2023年,2月20日,星期一相關(guān)分析的冗余分析解釋比例=代表比例×典型相關(guān)系數(shù)的平方對(duì)于因變量則有:

VarCO=VarDE×Sq.Cor41.078=41.455×0.991所以典型相關(guān)系數(shù)高時(shí),并不說明典型變量對(duì)觀測(cè)組變量的解釋程度高,代表程度高。第29頁,共45頁,2023年,2月20日,星期一相關(guān)分析的冗余分析通過不同觀察變量組的代表比例和解釋比例相乘,可以得到因變量組總方差與協(xié)變量組總方差的共享比例。即:因變量組的VarDE×協(xié)變量組的VarDE或:因變量組的VarCO×協(xié)變量組的VarCO兩個(gè)變量組的共享方差第30頁,共45頁,2023年,2月20日,星期一相關(guān)分析的冗余分析第一典型相關(guān)的共享方差為:0.41078×0.72349=0.29720=29.720%第二典型相關(guān)的共享方差為:0.43353×0.24575=0.10354=10.654%第三典型相關(guān)的共享方差為:0.04384×0.03076=0.00135=0.135%第31頁,共45頁,2023年,2月20日,星期一例12.2(科技經(jīng)費(fèi)投入.sav)我國(guó)科技市場(chǎng)產(chǎn)出情況與R&D經(jīng)費(fèi)支出變量的典型相關(guān)分析“科學(xué)技術(shù)是第一生產(chǎn)力”,近幾年來,我國(guó)在科研方面的投入不斷增加,國(guó)家的研究與試驗(yàn)發(fā)展(R&D)經(jīng)費(fèi)內(nèi)部支出到2001年已達(dá)到8956.6億元。那么,科技市場(chǎng)的產(chǎn)出情況是否與經(jīng)費(fèi)投入密切相關(guān)?各種類型的經(jīng)費(fèi)投入對(duì)科技市場(chǎng)的發(fā)展具體有怎樣的影響?通過對(duì)R&D各種項(xiàng)目的支出變量與科技市場(chǎng)在某些方面的產(chǎn)出變量做典型相關(guān)分析,找出兩者之間的聯(lián)系。第32頁,共45頁,2023年,2月20日,星期一數(shù)據(jù)說明R&D經(jīng)費(fèi)投入變量包括三個(gè):基礎(chǔ)研究的R&D經(jīng)費(fèi)支出、應(yīng)用研究的R&D經(jīng)費(fèi)支出和試驗(yàn)發(fā)展的R&D經(jīng)費(fèi)支出(協(xié)變量)。科技市場(chǎng)產(chǎn)出變量也選擇了三個(gè),分別為:新產(chǎn)品產(chǎn)值、專利授予量和科技市場(chǎng)成交額(因變量)。資料來源于2002年《統(tǒng)計(jì)年鑒》。第33頁,共45頁,2023年,2月20日,星期一使用SPSS進(jìn)行典型相關(guān)分析

使用MANOVA進(jìn)行典型相關(guān)分析。程序命令如下(syntax-manova12.2):MANOVAxchzhlchjWITHjchyyshy/DISCRIMALLALPHA(1)/PRINT=SIG(EIGENDIM).第34頁,共45頁,2023年,2月20日,星期一主要結(jié)果的解釋TestNameValueApprox.FHypoth.DFErrorDFSig.ofFPillais1.8628111.466539.0063.00.000Hotellings13.3672626.239439.0053.00.000Wilks.0153323.533539.0046.39.000Roys.88531MultivariateTestsofSignificance(S=3,M=-1/2,N=81/2)第35頁,共45頁,2023年,2月20日,星期一主要結(jié)果的解釋EigenvaluesandCanonicalCorrelations

RootNo.EigenvaluePct.Cum.Pct.CanonCor.Sq.Cor

17.71957.74657.746.941.88525.49741.12298.868.920.8463.1511.132100.000.363.131

第36頁,共45頁,2023年,2月20日,星期一維度遞減檢驗(yàn)DimensionReductionAnalysisRootsWilksL.FHypothDFErrorDFSig.ofF1to32to33to30.015330.133690.86858

23.5335317.349403.17735

9.004.001.00

46.3940.0021.00

0.0000.0000.089第37頁,共45頁,2023年,2月20日,星期一StandardizedcanonicalcoefficientsforDEPENDENTvariables

可以得到典型變量V1、V2和V3對(duì)于標(biāo)準(zhǔn)化的變量xch,zhl,chj的表示式。由前所示,前兩對(duì)典型變量的累積百分比已達(dá)到98.868%,所以我們主要看V1和V2的表達(dá)式:

V1=0.003xch+0.593zhl+0.566chj

V2=0.261xch+0.834zhl-0.948chj

FunctionNo.Variable123

XCH.003.2611.067ZHL.593.834-.709CHJ.566-.948.316第38頁,共45頁,2023年,2月20日,星期一CorrelationsbetweenDEPENDENTandcanonicalvariables

從典型變量與科技投入變量組的相關(guān)系數(shù)也能看出,V1主要代表專利授予量和科技市場(chǎng)成交量指標(biāo)。

FunctionNo.Variable123

XCH.325.468.822ZHL.870.479-.119CHJ.855-.505.121第39頁,共45頁,2023年,2月20日,星期一StandardizedcanonicalcoefficientsforCOVARIATES

variables典型變量W1、W2和W3對(duì)科技投入組各變量的關(guān)系式見結(jié)果(5)。W1=0.370jch-0.350yy+1.006shyW2=0.334jch-1.092yy+1.034shy

FunctionNo.Variable123

JCH.370-.334-3.993YY-.350-1.0924.241SHY1.0061.034-.358

第40頁,共45頁,2023年,2月20日,星期一CorrelationsbetweenCOVARIATESandcanonicalvariables

從W1、W2和各投入變量的相關(guān)系數(shù)看,這兩個(gè)典型變量都與“試驗(yàn)發(fā)展”變量關(guān)系緊密。

FunctionNo.Variable123

JCH.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論