北京大學(xué)統(tǒng)計(jì)學(xué)經(jīng)典課件第四章-變量間的關(guān)系.ppt_第1頁(yè)
北京大學(xué)統(tǒng)計(jì)學(xué)經(jīng)典課件第四章-變量間的關(guān)系.ppt_第2頁(yè)
北京大學(xué)統(tǒng)計(jì)學(xué)經(jīng)典課件第四章-變量間的關(guān)系.ppt_第3頁(yè)
北京大學(xué)統(tǒng)計(jì)學(xué)經(jīng)典課件第四章-變量間的關(guān)系.ppt_第4頁(yè)
北京大學(xué)統(tǒng)計(jì)學(xué)經(jīng)典課件第四章-變量間的關(guān)系.ppt_第5頁(yè)
已閱讀5頁(yè),還剩28頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

變量間的關(guān)系,直到現(xiàn)在我們所涉及的僅僅是對(duì)一些互相沒(méi)有關(guān)系的變量的描述。但是現(xiàn)實(shí)世界的問(wèn)題都是相互聯(lián)系的。不討論變量之間的關(guān)系,就無(wú)從談起任何有深度的應(yīng)用;而沒(méi)有應(yīng)用,前面講過(guò)的那些基本概念就僅僅是擺設(shè)而已。,變量間的關(guān)系,人們每時(shí)每刻都在關(guān)心事物之間的關(guān)系。比如,職業(yè)種類和收入之間的關(guān)系、政府投入和經(jīng)濟(jì)增長(zhǎng)之間的關(guān)系、廣告投入和經(jīng)濟(jì)效益之間的關(guān)系、治療手段和治愈率之間的關(guān)系等等。這些都是二元的關(guān)系。還有更加復(fù)雜的諸多變量之間的相互關(guān)系,比如企業(yè)的固定資產(chǎn)、流動(dòng)資產(chǎn)、預(yù)算分配、管理模式、生產(chǎn)率、債務(wù)和利潤(rùn)等諸因素的關(guān)系是不能用簡(jiǎn)單的一些二元關(guān)系所描述的。,例1廣告投入和銷售之間的關(guān)系(數(shù)據(jù)ads.sav),這是什么關(guān)系?,這兩個(gè)變量是否有關(guān)系?顯然,它們有關(guān)系;這從散點(diǎn)圖就很容易看出?;旧箱N售額是隨著廣告投入的遞增而遞增。如果有關(guān)系,它們的關(guān)系是否顯著?這也可以從散點(diǎn)圖得到。當(dāng)廣告投入在6萬(wàn)元以下,銷售額增長(zhǎng)很快;但大于這個(gè)投入時(shí),銷售額增長(zhǎng)就不明顯了。因此,這兩個(gè)變量的關(guān)系是由強(qiáng)變?nèi)酢_@些關(guān)系是什么關(guān)系,是否可以用數(shù)學(xué)模型來(lái)描述?本例看上去是可以擬合一個(gè)回歸模型(后面會(huì)介紹),但絕不是線性的(用一條直線可以描述的)。具體細(xì)節(jié)需要進(jìn)一步的分析,這是什么關(guān)系?,這個(gè)關(guān)系是否帶有普遍性?也就是說(shuō),僅僅這一個(gè)樣本有這樣的關(guān)系,還是對(duì)于其他企業(yè)也有類似的規(guī)律。這里的數(shù)據(jù)還不足以回答這個(gè)問(wèn)題??赡苄枰紤]更多的變量和收集更多的數(shù)據(jù)。一般來(lái)說(shuō),人們希望能夠從一些特殊的樣本,得到普遍的結(jié)論,以利于預(yù)測(cè)。這個(gè)關(guān)系是不是因果關(guān)系?在本問(wèn)題中,看來(lái)有因果關(guān)系。這類似于一種試驗(yàn);而試驗(yàn)時(shí)是容易找到因果關(guān)系的。但是,一般來(lái)說(shuō),變量之間有關(guān)系但絕不意味著存在因果關(guān)系。,定性變量間的關(guān)系(關(guān)于某項(xiàng)政策調(diào)查所得結(jié)果:table7.sav),大致可以看出女性贊成的多,低收入贊成的多,定性和定量變量間的混和關(guān)系,假想關(guān)于高等學(xué)校的數(shù)據(jù)的一些指標(biāo)包括:在校生人數(shù)(S),研究生比例(G),教師人數(shù)(F),職工人數(shù)(ST),SCI和SSCI文章數(shù)目(P),SCI和SSCI文章引用數(shù)目(Q),科研項(xiàng)目數(shù)(PR),科研經(jīng)費(fèi)(B),總經(jīng)費(fèi)及招生范圍(N)等,從這個(gè)數(shù)據(jù)很難馬上看到任何關(guān)系。但是從這個(gè)數(shù)據(jù)可以得到許多有用的關(guān)系和結(jié)論。比如,可以得到任何一個(gè)變量和其余變量之間的定量關(guān)系或者多個(gè)變量之間的定量關(guān)系(因而可以建立模型,進(jìn)行預(yù)測(cè)和各種推斷);也可以利用其中一些變量把各個(gè)高等學(xué)校分類;還可以把眾多的變量用少數(shù)幾個(gè)變量代替以利于分析和理解;此外這個(gè)數(shù)據(jù)可以作為高校排名的根據(jù)之一。所有這些都是未來(lái)章節(jié)的內(nèi)容。,相關(guān)和回歸分析,相關(guān)和回歸分析,顧客對(duì)商品和服務(wù)的反映對(duì)于商家是至關(guān)重要的,但是僅僅有滿意顧客的比例是不夠的,商家希望了解什么是影響顧客觀點(diǎn)的因素以及這些因素是如何起作用的。一般來(lái)說(shuō),統(tǒng)計(jì)可以根據(jù)目前所擁有的信息(數(shù)據(jù))建立人們所關(guān)心的變量和其他有關(guān)變量的關(guān)系(稱為模型)。假如用Y表示感興趣的變量,用X表示其他可能有關(guān)的變量(可能是若干變量組成的向量)。則所需要的是建立一個(gè)函數(shù)關(guān)系Y=f(X)。這里Y稱為因變量或響應(yīng)變量,而X稱為自變量或解釋變量或協(xié)變量。建立這種關(guān)系的過(guò)程就叫做回歸。,相關(guān)和回歸分析,一旦建立了回歸模型可以對(duì)各種變量的關(guān)系有了進(jìn)一步的定量理解還可以利用該模型(函數(shù))通過(guò)自變量對(duì)因變量做預(yù)測(cè)。這里所說(shuō)的預(yù)測(cè),是用已知的自變量的值通過(guò)模型對(duì)未知的因變量值進(jìn)行估計(jì);它并不一定涉及時(shí)間先后的概念。,例1有50個(gè)從初中升到高中的學(xué)生.為了比較初三的成績(jī)是否和高中的成績(jī)相關(guān),得到了他們?cè)诔跞透咭坏母骺破骄煽?jī)(數(shù)據(jù):highschool.sav),從這張圖可以看出什么呢?,問(wèn)題是,怎么判斷這兩個(gè)變量是否相關(guān)?如何相關(guān)?相關(guān)的度量是什么?進(jìn)一步的問(wèn)題是能否以初三成績(jī)?yōu)樽宰兞浚咭怀煽?jī)?yōu)橐蜃兞縼?lái)建立一個(gè)回歸模型以描述這樣的關(guān)系,或用于預(yù)測(cè)。,還有定性變量,該數(shù)據(jù)中,除了初三和高一的成績(jī)之外,還有一個(gè)定性變量它是學(xué)生在高一時(shí)的家庭收入狀況;它有三個(gè)水平:低、中、高,分別在數(shù)據(jù)中用1、2、3表示。,還有定性變量,下面是對(duì)三種收入對(duì)高一成績(jī)和高一與初三成績(jī)差的盒形圖,例2這是200個(gè)不同年齡和性別的人對(duì)某項(xiàng)服務(wù)產(chǎn)品的認(rèn)可的數(shù)據(jù)(logi.sav).年齡是連續(xù)變量,性別是有男和女(分別用1和0表示)兩個(gè)水平的定性變量,而(定性)變量“觀點(diǎn)”則為包含認(rèn)可(用1表示)和不認(rèn)可(用0表示)兩個(gè)水平的定性變量。,從這兩張圖又可以看出什么呢?,兩個(gè)定量變量的相關(guān),如果兩個(gè)定量變量沒(méi)有關(guān)系,就談不上建立模型或進(jìn)行回歸。但怎樣才能確定兩個(gè)變量有沒(méi)有關(guān)系呢?最簡(jiǎn)單的辦法就是畫(huà)出它們的散點(diǎn)圖。,四組數(shù)據(jù)(每個(gè)有兩個(gè)變量的樣本)的散點(diǎn)圖,幾種相關(guān)的度量,Pearson相關(guān)系數(shù),又叫相關(guān)系數(shù)或線性相關(guān)系數(shù)。它一般用字母r表示.Kendallt相關(guān)系數(shù)(Kendallst)這里的度量原理是把所有的樣本點(diǎn)配對(duì),看每一對(duì)中的x和y是否都增加來(lái)判斷總體模式.Spearman秩相關(guān)系數(shù),它和Pearson相關(guān)系數(shù)定義有些類似,只不過(guò)在定義中把點(diǎn)的坐標(biāo)換成各自樣本的秩.它們各自都有以不相關(guān)為零假設(shè)的檢驗(yàn),即p-值小則相關(guān).但各自的相關(guān)含義不盡相同.現(xiàn)在再來(lái)看例1的數(shù)據(jù)(highschool.sav).關(guān)于初三和高一成績(jī)的相關(guān)系數(shù)的結(jié)果是Pearson相關(guān)系數(shù),Kendallt和Spearman秩相關(guān)系數(shù)分別為0.795,0.595和0.758。,定量變量的線性回歸分析,對(duì)例1中的兩個(gè)變量的數(shù)據(jù)進(jìn)行線性回歸,就是要找到一條直線來(lái)最好地代表散點(diǎn)圖中的那些點(diǎn)。,檢驗(yàn)問(wèn)題等,對(duì)于系數(shù)b1=0的檢驗(yàn)對(duì)于擬合的F檢驗(yàn)R2(決定系數(shù))及修正的R2.,多個(gè)自變量的回歸,如何解釋擬合直線?,什么是逐步回歸方法?,自變量中有定性變量的回歸,例1的數(shù)據(jù)中,還有一個(gè)自變量是定性變量“收入”,以虛擬變量或啞元(dummyvariable)的方式出現(xiàn);這里收入的“低”,“中”,“高”,用1,2,3來(lái)代表.所以,如果要用這種啞元進(jìn)行前面回歸就沒(méi)有道理了.以例1數(shù)據(jù)為例,可以用下面的模型來(lái)描述:,自變量中有定性變量的回歸,現(xiàn)在只要估計(jì)b0,b1,和a1,a2,a3即可。啞元的各個(gè)參數(shù)a1,a2,a3本身只有相對(duì)意義,無(wú)法三個(gè)都估計(jì),只能夠在有約束條件下才能夠得到估計(jì)。約束條件可以有很多選擇,一種默認(rèn)的條件是把一個(gè)參數(shù)設(shè)為0,比如a3=0,這樣和它有相對(duì)意義的a1和a2就可以估計(jì)出來(lái)了。對(duì)于例1,對(duì)b0,b1,a1,a2,a3的估計(jì)分別為28.708,0.688,-11.066,-4.679,0。這時(shí)的擬合直線有三條,對(duì)三種家庭收入各有一條:,SPSSS實(shí)現(xiàn)(hischool.sav),AnalizeGenerallinearmodelUnivariate,在Options中選擇ParameterEstimates,再在主對(duì)話框中把因變量(s1)選入DependentVariable,把定量自變量(j3)選入Covariate,把定量因變量(income)選入Factor中。然后再點(diǎn)擊Model,在SpecifyModel中選Custom,再把兩個(gè)有關(guān)的自變量選入右邊,再在下面BuildingTerm中選Maineffect。Continue-OK,就得到結(jié)果了。輸出的結(jié)果有回歸系數(shù)和一些檢驗(yàn)結(jié)果。,SPSSSyntax:UNIANOVAs1BYincomeWITHj3/METHOD=SSTYPE(3)/INTERCEPT=INCLUDE/CRITERIA=ALPHA(.05)/DESIGN=incomej3.,注意,這里進(jìn)行的線性回歸,僅僅是回歸的一種,也是歷史最悠久的一種。但是,任何模型都是某種近似;線性回歸當(dāng)然也不另外。它被長(zhǎng)期廣泛深入地研究主要是因?yàn)閿?shù)學(xué)上相對(duì)簡(jiǎn)單。它已經(jīng)成為其他回歸的一個(gè)基礎(chǔ)??倯?yīng)該用批判的眼光看這些模型。,Logistic回歸,例2是關(guān)于200個(gè)不同年齡,性別的人對(duì)某項(xiàng)服務(wù)產(chǎn)品的觀點(diǎn)(二元定性變量)的數(shù)據(jù)(logi.sav).這里觀點(diǎn)是因變量,只有兩個(gè)值;所以可以把它看作成功概率為p的Bernoulli試驗(yàn)的結(jié)果.但是和單純的Bernoulli試驗(yàn)不同,這里的概率p為年齡和性別的函數(shù).可以假定下面的(logistic回歸)模型,Logistic回歸,為了循序漸近,先擬合沒(méi)有性別作為自變量(只有年齡x)的模型,Logistic模型擬合結(jié)果,依靠計(jì)算機(jī),很容易得到b0和b1的估計(jì)分別為0.520和-0.069。擬合的模型為,Logistic模型擬合結(jié)果,再加上性別變量進(jìn)行擬合,得到的b0,b1和a0,a1的估計(jì)(同樣事先確定為a1=0)分別為1.722,-0.072,1.778,0.可以看出年齡影響對(duì)男女混和時(shí)(0.069)差不多,而女性相對(duì)于男性認(rèn)可的可能性大(a0-a1=1.778)。,擬合的年齡-概率圖,SPSSS實(shí)現(xiàn)(logi.sav),AnalizeRegressionBinaryLogistic,再把因變量(opinion)選入DependentVariable,把自變量(age和sex)選入Covaria

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論