MBA統(tǒng)計(jì)學(xué)相關(guān)和回歸課件_第1頁(yè)
MBA統(tǒng)計(jì)學(xué)相關(guān)和回歸課件_第2頁(yè)
MBA統(tǒng)計(jì)學(xué)相關(guān)和回歸課件_第3頁(yè)
MBA統(tǒng)計(jì)學(xué)相關(guān)和回歸課件_第4頁(yè)
MBA統(tǒng)計(jì)學(xué)相關(guān)和回歸課件_第5頁(yè)
已閱讀5頁(yè),還剩41頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

統(tǒng)計(jì)學(xué)─從數(shù)據(jù)到結(jié)論第七章相關(guān)和回歸分析§7.1問(wèn)題的提出對(duì)于現(xiàn)實(shí)世界,不僅要知其然,而且要知其所以然。顧客對(duì)商品和服務(wù)的反映對(duì)于企業(yè)是至關(guān)重要的,但是僅僅有滿(mǎn)意顧客的比例是不夠的;商家希望了解什么是影響顧客觀點(diǎn)的因素,及這些因素如何起作用。類(lèi)似地,醫(yī)療衛(wèi)生部門(mén)不能僅僅知道某流行病的發(fā)病率,而且想知道什么變量影響發(fā)病率,以及如何影響?!?.1問(wèn)題的提出發(fā)現(xiàn)變量之間的統(tǒng)計(jì)關(guān)系,并且用此規(guī)律來(lái)幫助我們進(jìn)行決策才是統(tǒng)計(jì)實(shí)踐的最終目的。一般來(lái)說(shuō),統(tǒng)計(jì)可以根據(jù)目前所擁有的信息(數(shù)據(jù))來(lái)建立人們所關(guān)心的變量和其他有關(guān)變量的關(guān)系。這種關(guān)系一般稱(chēng)為模型(model)。§7.1問(wèn)題的提出假如用Y表示感興趣的變量,用X表示其他可能與Y有關(guān)的變量(X也可能是若干變量組成的向量)。則所需要的是建立一個(gè)函數(shù)關(guān)系Y=f(X)。這里Y稱(chēng)為因變量或響應(yīng)變量(dependentvariable,responsevariable),而X稱(chēng)為自變量,也稱(chēng)為解釋變量或協(xié)變量(independentvariable,explanatoryvariable,covariate)。建立這種關(guān)系的過(guò)程就叫做回歸(regression)?!?.1問(wèn)題的提出一旦建立了回歸模型,除了對(duì)變量的關(guān)系有了進(jìn)一步的定量理解之外,還可以利用該模型(函數(shù))通過(guò)自變量對(duì)因變量做預(yù)測(cè)(prediction)。這里所說(shuō)的預(yù)測(cè),是用已知的自變量的值通過(guò)模型對(duì)未知的因變量值進(jìn)行估計(jì);它并不一定涉及時(shí)間先后。先看幾個(gè)后面還要討論的數(shù)值例子?!?.1問(wèn)題的提出例7.1有50個(gè)從初中升到高中的學(xué)生。為了比較初三的成績(jī)是否和高中的成績(jī)相關(guān),得到了他們?cè)诔跞透咭坏母骺破骄煽?jī)(數(shù)據(jù)在highschool.txt)。這兩個(gè)成績(jī)的散點(diǎn)圖展示在圖7.1中。有個(gè)上升趨勢(shì);即初三時(shí)成績(jī)相對(duì)較高的學(xué)生,在高一時(shí)的成績(jī)也較高。但對(duì)于具體個(gè)人來(lái)說(shuō),大約有一半的學(xué)生的高一平均成績(jī)比初三時(shí)下降,而另一半沒(méi)有變化或有進(jìn)步§7.1問(wèn)題的提出目前的問(wèn)題是怎么判斷這兩個(gè)變量是否相關(guān)、如何相關(guān)及如何度量相關(guān)?能否以初三成績(jī)?yōu)樽宰兞?,高一成?jī)?yōu)橐蜃兞縼?lái)建立一個(gè)回歸模型以描述這樣的關(guān)系,或用于預(yù)測(cè)?!?.1問(wèn)題的提出該數(shù)據(jù)中,除了初三和高一的成績(jī)之外,還有一個(gè)定性變量(沒(méi)有出現(xiàn)在上面的散點(diǎn)圖中)。它是學(xué)生在高一時(shí)的家庭收入狀況;它有三個(gè)水平:低、中、高,分別在數(shù)據(jù)中用1、2、3表示。為研究家庭收收入情況對(duì)學(xué)學(xué)生成績(jī)變化化的影響,下下面點(diǎn)出兩個(gè)個(gè)盒形圖,左左邊一個(gè)是不不同收入群體體的高一成績(jī)績(jī)的盒形圖,,右邊一個(gè)是是不同收入群群體的高一和和初三成績(jī)之之差的盒形圖圖。可以看出收入入高低對(duì)高一一成績(jī)稍有影影響,但不如如收入對(duì)成績(jī)績(jī)的變化(高高一和初三成成績(jī)之差)的的影響那么明明顯。§7.1問(wèn)問(wèn)題的提出到底學(xué)生在高高一的家庭收收入對(duì)成績(jī)有有影響嗎?是是什么樣的影影響?是否可以取初初三成績(jī)(這這是定量變量量)或(和))家庭收入((定性變量))為自變量,,而取高一成成績(jī)?yōu)橐蜃兞苛?,?lái)建立一一個(gè)描述這些些變量之間關(guān)關(guān)系的回歸模模型呢?§7.1問(wèn)問(wèn)題的提出例7.2這是200個(gè)個(gè)不同年齡和和性別的人對(duì)對(duì)某項(xiàng)服務(wù)產(chǎn)產(chǎn)品的認(rèn)可的的數(shù)據(jù)(logi.txt)。。這里年齡是連續(xù)變量,,性別是有男和女((分別用1和和0表示)兩兩個(gè)水平的定定性變量,而而變量觀點(diǎn)則為包含認(rèn)可可(用1表示示)和不認(rèn)可(用用0表示)兩兩個(gè)水平的定定性變量(見(jiàn)見(jiàn)下頁(yè)數(shù)據(jù)))。想要知道的是是年齡和性別別對(duì)觀點(diǎn)有沒(méi)沒(méi)有影響,有有什么樣的影影響,以及能能否用統(tǒng)計(jì)模模型表示出這這個(gè)關(guān)系。年齡齡和和觀觀點(diǎn)點(diǎn)的的散散點(diǎn)點(diǎn)圖圖(左左)和和性性別別與與觀觀點(diǎn)點(diǎn)的的條條形形圖圖;;§7.2定定量量變變量量的的相相關(guān)關(guān)如果果兩兩個(gè)個(gè)定定量量變變量量沒(méi)沒(méi)有有關(guān)關(guān)系系,,就就談?wù)劜徊簧仙辖ń⒘⒛DP托突蚧蜻M(jìn)進(jìn)行行回回歸歸。。但但怎怎樣樣才才能能發(fā)發(fā)現(xiàn)現(xiàn)兩兩個(gè)個(gè)變變量量有有沒(méi)沒(méi)有有關(guān)關(guān)系系呢呢??最簡(jiǎn)簡(jiǎn)單單的的直直觀觀辦辦法法就就是是畫(huà)畫(huà)出出它它們們的的散散點(diǎn)點(diǎn)圖圖。。下下面面是是四四組組數(shù)數(shù)據(jù)據(jù)的的散散點(diǎn)點(diǎn)圖圖;;每每一一組組數(shù)數(shù)據(jù)據(jù)表表示示了了兩兩個(gè)個(gè)變變量量x和y的樣樣本本。。不相相關(guān)關(guān)正線線性性相相關(guān)關(guān)負(fù)線線性性相相關(guān)關(guān)相關(guān)關(guān)但但非非線線性性相相關(guān)關(guān)§7.2定定量量變變量量的的相相關(guān)關(guān)但如如何何在在數(shù)數(shù)量量上上描描述述相相關(guān)關(guān)呢呢??下下面面引引進(jìn)進(jìn)幾幾種種對(duì)對(duì)相相關(guān)關(guān)程程度度的的度度量量。。Pearson相相關(guān)關(guān)系系數(shù)數(shù)((Pearson’’scorrelationcoefficient))又叫叫相相關(guān)關(guān)系系數(shù)數(shù)或或線線性性相相關(guān)關(guān)系系數(shù)數(shù)。。它它一一般般用用字字母母r表示。它它是由兩兩個(gè)變量量的樣本本取值得得到,這這是一個(gè)個(gè)描述線線性相關(guān)關(guān)強(qiáng)度的的量,取取值于-1和1之間。。當(dāng)兩個(gè)個(gè)變量有有很強(qiáng)的的線性相相關(guān)時(shí),,相關(guān)系系數(shù)接近近于1((正相關(guān)關(guān))或-1(負(fù)負(fù)相關(guān))),而當(dāng)當(dāng)兩個(gè)變變量不那那么線性性相關(guān)時(shí)時(shí),相關(guān)關(guān)系數(shù)就就接近0?!?.2定量量變量的的相關(guān)Kendallt相關(guān)系數(shù)數(shù)(Kendall’’st)這里的度度量原理理是把所所有的樣樣本點(diǎn)配配對(duì)(如如果每一一個(gè)點(diǎn)由由x和y組成的坐坐標(biāo)(x,y)代表,,一對(duì)點(diǎn)點(diǎn)就是諸諸如(x1,y1)和(x2,y2)的點(diǎn)對(duì)對(duì)),然然后看每每一對(duì)中中的x和y的觀測(cè)值值是否同同時(shí)增加加(或減減少)。。比如由由點(diǎn)對(duì)(x1,y1)和(x2,y2),可以以算出乘乘積(x2-x1)(y2-y1)是否大于于0;如果果大于0,,則說(shuō)明x和y同時(shí)增長(zhǎng)或或同時(shí)下降降,稱(chēng)這兩兩點(diǎn)協(xié)同(concordant);否則就就是不協(xié)同同。如果樣樣本中協(xié)同同的點(diǎn)數(shù)目目多,兩個(gè)個(gè)變量就更更加相關(guān)一一些;如果果樣本中不不協(xié)同(discordant)的點(diǎn)點(diǎn)數(shù)目多,,兩個(gè)變量量就不很相相關(guān)?!?.2定定量變量量的相關(guān)Spearman秩秩相關(guān)系系數(shù)(Spearmanrankcorrelationcoefficient或或Spearman’sr)它和Pearson相關(guān)系數(shù)數(shù)定義有些些類(lèi)似,只只不過(guò)在定定義中把點(diǎn)點(diǎn)的坐標(biāo)換換成各自樣樣本的秩((即樣本點(diǎn)點(diǎn)大小的““座次”))。Spearman相關(guān)系系數(shù)也是取取值在-1和1之間間,也有類(lèi)類(lèi)似的解釋釋。通過(guò)它它也可以進(jìn)進(jìn)行不依賴(lài)賴(lài)于總體分分布的非參參數(shù)檢驗(yàn)。?!?.2定定量變量量的相關(guān)人們可能會(huì)會(huì)問(wèn),上面面的三種對(duì)對(duì)相關(guān)的度度量都是在在其值接近近1或-1時(shí)相關(guān),,而接近于于0時(shí)不相相關(guān)。到底底如何才能能夠稱(chēng)為““接近”呢呢?這很難一概概而論。但但在計(jì)算機(jī)機(jī)輸出中都都有和這些些相關(guān)度量量相應(yīng)的檢檢驗(yàn)和p-值;因此此可以根據(jù)據(jù)這些結(jié)果果來(lái)判斷是是否相關(guān)(見(jiàn)下面例例7.1的的繼續(xù))。。§7.2定定量變量量的相關(guān)例7.1((繼續(xù))得得到初三和和高一成績(jī)績(jī)的Pearson相關(guān)系數(shù)數(shù),Kendallt相關(guān)系數(shù)和和Spearman秩相關(guān)關(guān)系數(shù)分別別為0.795,0.595和0.758。。這三個(gè)統(tǒng)計(jì)計(jì)量相關(guān)的的檢驗(yàn)(零零假設(shè)均為為不相關(guān))全部顯著著,p-值都是0.000。注意這這種0.000的表表示并不表表示這些p-值恰好等等于零,只只是小數(shù)點(diǎn)點(diǎn)前三位是是0而已。?!?.3定定量變量量的線性回回歸分析對(duì)例7.1中的兩個(gè)個(gè)變量的數(shù)數(shù)據(jù)進(jìn)行線線性回歸,,就是要找找到一條直直線來(lái)適當(dāng)當(dāng)?shù)卮韴D圖1中的那那些點(diǎn)的趨趨勢(shì)。首先需要確確定選擇這這條直線的的標(biāo)準(zhǔn)。這這里介紹最小二乘回回歸(leastsquaresregression)。古漢語(yǔ)““二乘”是是平方的意意思。這就是尋找找一條直線線,使得所所有點(diǎn)到該該直線的豎豎直距離的的平方和最最小。用數(shù)數(shù)據(jù)尋找一一條直線的的過(guò)程也叫叫做擬合(fit)一條直線。?!?.3定定量變量量的線性回回歸分析例7.1((繼續(xù))根根據(jù)計(jì)算,,找到初三三成績(jī)和高高一成績(jī)的的回歸直線線。計(jì)算機(jī)機(jī)輸出給出出來(lái)截距((Constant)26.444和和斜率(變變量j3的的系數(shù))0.651。截距=26.444;斜率率=0.651§7.3定定量變量量的線性回回歸分析這個(gè)直線實(shí)實(shí)際上是對(duì)對(duì)所假設(shè)的的下面線性性回歸模型型的估計(jì)((這里的e是隨機(jī)誤差差):我們得到的的截距和斜斜率(26.444和0.651)是是對(duì)b0和b1的估計(jì)。§7.3定定量變量量的線性回回歸分析由于不同的的樣本產(chǎn)生生不同的估估計(jì),所以以估計(jì)量是是個(gè)隨機(jī)變變量,它們們也有分布布,也可以以用由他們們構(gòu)造檢驗(yàn)驗(yàn)統(tǒng)計(jì)量來(lái)來(lái)檢驗(yàn)b0和b1是不是顯著。。拿回歸主要要關(guān)心的來(lái)說(shuō)說(shuō),假設(shè)檢驗(yàn)驗(yàn)問(wèn)題是計(jì)算機(jī)輸出也也給出了這個(gè)個(gè)檢驗(yàn):t檢檢驗(yàn)統(tǒng)計(jì)量為為9.089,而p-值為0.000?!?.3定定量變量的線線性回歸分析析除了對(duì)的檢檢驗(yàn)之外,,還有一個(gè)個(gè)說(shuō)明自變變量解釋因因變量變化化百分比的的度量,叫叫做決定系數(shù)((coefficientofdetermination,也叫測(cè)定系數(shù)或可決系數(shù)),用R2表示。對(duì)于例1,,R2=0.632;這說(shuō)說(shuō)明這里的的自變量可可以大約解解釋63%%的因變量量的變化。。R2越接近1,,回歸就越越成功。由由于R2有當(dāng)變量數(shù)數(shù)目增加而而增大的缺缺點(diǎn),人們們對(duì)其進(jìn)行行修改;有有一修正的R2(adjustedRsquare)?!?.3定定量變量量的線性回回歸分析此外,計(jì)算算機(jī)還計(jì)算算了一個(gè)在在零假設(shè)下下有F分布布的檢驗(yàn)統(tǒng)統(tǒng)計(jì)量,它它是用來(lái)檢檢驗(yàn)回歸擬擬合好壞的的(零假設(shè)設(shè)是因變量量和自變量量沒(méi)有關(guān)系系)?!?.3定定量變量量的線性回回歸分析和剛才簡(jiǎn)單單的回歸模模型類(lèi)似,,一般的有有k個(gè)(定量))自變量x1,x2…,xk的對(duì)因變量量y的線性回歸歸模型為((稱(chēng)為多元元回歸)這里b0,b1,…,bk稱(chēng)為回歸系系數(shù)。對(duì)計(jì)計(jì)算機(jī)來(lái)說(shuō)說(shuō),計(jì)算多多個(gè)自變量量的回歸和和計(jì)算一個(gè)個(gè)自變量的的情況類(lèi)似似,計(jì)算機(jī)機(jī)也會(huì)自動(dòng)動(dòng)輸出相應(yīng)應(yīng)的檢驗(yàn)結(jié)結(jié)果。§7.3定定量變量量的線性回回歸分析并且用數(shù)據(jù)據(jù)來(lái)擬合所所選的一個(gè)個(gè)模型時(shí),,并不一定定所有的變變量都顯著著(并不一一定所有的的系數(shù)都有有意義)。。軟件有一一種一邊邊回歸,,一邊檢檢驗(yàn)的所所謂逐步回歸歸(stepwiseregression))方法。該方法或或者從只只有常數(shù)數(shù)項(xiàng)開(kāi)始始,逐個(gè)個(gè)地把顯顯著的變變量加入入;或者者從包含含所有變變量的模模型開(kāi)始始,逐步步把不顯顯著的變變量減去去。注意意不同方方向逐步步回歸的的結(jié)果也也不一定定相同。?!?.4自變變量中有有定性變變量的回回歸在例7.1的數(shù)數(shù)據(jù)中,,還有一一個(gè)自變變量是收收入,但但它是定定性變量量,以虛擬變量量或啞元(dummyvariable)的方式出出現(xiàn)。((這里收收入的““低”,,“中””,“高高”,用用1,2,3來(lái)來(lái)代表))。如果果要用這這種啞元元進(jìn)行7.2節(jié)節(jié)的回歸歸就沒(méi)有有道理了了??梢砸杂孟旅婷婺P兔杳枋觯骸?.4自變變量中有有定性變變量的回回歸注意,啞啞元的各各個(gè)參數(shù)數(shù)a1,a2,a3本身只有有相對(duì)意意義,無(wú)法三三個(gè)都估估計(jì),只只能夠在在有約束束條件下下才能夠夠得到估估計(jì)。約約束條件件可以有有很多選選擇,一一種默認(rèn)認(rèn)的條件件是把一一個(gè)參數(shù)數(shù)設(shè)為0,比如如a3=0,這這樣和它它有相對(duì)對(duì)意義的的a1和a2就可以估估計(jì)出來(lái)來(lái)了。對(duì)對(duì)于例7.1得得到對(duì)于例7.1,,對(duì)b0,b1,a1,a2,a3的估計(jì)分分別為28.708,0.688,-11.066,-4.679,0。。§7.5Logistic回歸歸但是如果果因變量量為取兩兩個(gè)值的的定性變變量,前前面介紹紹的回歸歸模型就就無(wú)法解解決了。。我們通過(guò)過(guò)例7.2來(lái)介介紹另一一種回歸歸,即Logistic回歸歸(logisticregression))。例7.2數(shù)據(jù)前前面已經(jīng)經(jīng)見(jiàn)到,,有自變變量性別別、年齡齡和因變變量觀點(diǎn)點(diǎn)§7.5Logistic回歸歸對(duì)此,人人們通常常會(huì)考慮慮下面的的模型((稱(chēng)為logistic回歸歸模型))為了循序序漸近,,先擬合合沒(méi)有性性別作為為自變量量(只有有年齡x)的模型型§7.5Logistic回歸歸很容易得得到b0和b1的估計(jì)分分別為2.381和-0.069。。擬合的的模型為為§7.5Logistic回歸歸下面再加上性性別變量進(jìn)行行擬合,,得到對(duì)對(duì)b0,b1和a0,a1的估計(jì)((同樣事事先確定定為a1=0)分分別為1.722,-0.072,1.778,0。對(duì)對(duì)于女性性和男性性,該擬擬合模型型分別可可以表示示為SPSS實(shí)現(xiàn)(logi.sav)Analize-Regression--BinaryLogistic,再把因變變量(opinion)選入入DependentVariable,把自自變量((age和sex)選選入Covariates,,Categorical,再再把定性性變量sex選選入CategoricalCovariate,回到主對(duì)對(duì)話框,,點(diǎn)擊OK即可可得到結(jié)結(jié)果。注:SPSS的的syntax:LOGISTICREGRESSIONVAR=opinion/METHOD=ENTERagesex/CONTRAST(sex)=Indicator/CRITERIAPIN(.05)POUT(.10)ITERATE(20)CUT(.5).SPSS的的數(shù)據(jù)輸入數(shù)據(jù)的鍵入入(T01.sav)數(shù)據(jù)從其他他文本讀入入:File-Open-Data-文件件類(lèi)型(Sav,Excel,SAS,dBase,TXT等等等)(T02.txt);散點(diǎn)圖定性變量的的加權(quán)(每一行的的權(quán)數(shù)等于于該行被觀觀測(cè)到的次次數(shù))(T03.sav)和不加權(quán)(T04.sav);條形圖,餅餅圖數(shù)據(jù)的變換換(T01.sav)(多重散點(diǎn)點(diǎn)圖,圖的的編輯)SPSS的的相關(guān)分析相關(guān)分析(hischool.sav)利用SPSS選項(xiàng)::Analize--Correlate-Bivariate再把兩個(gè)有有關(guān)的變量量(這里為為j3和s1)選入入,選擇Pearson,Spearman和和Kendall就就可以得出出這三個(gè)相相關(guān)系數(shù)和和有關(guān)的檢檢驗(yàn)結(jié)果了了(零假設(shè)設(shè)均為不相相關(guān))。SPSS的的回歸歸分分析析自變變量量和和因因變變量量都都是是定定量量變變量量時(shí)時(shí)的的線線性性回回歸歸分分析析(hischool.sav)利用用SPSS選項(xiàng)項(xiàng)::Analize-Regression-Linear再把把有有關(guān)關(guān)的的自自變變量量選選入入Independent,把把因因變變量量選選入入Dependent,然然后后OK即可可。。如如果果自自變變量量有有多多個(gè)個(gè)((多多元元回回歸歸模模型型)),,只只要要都都選選入入就就行行。。SPSS的的回歸歸分分析析自變變量量中中有有定定性性變變量量((啞啞元元))和和定定量量變變量量而而因因變變量量為為定定量量變變量量時(shí)時(shí)的的線線性性回回歸歸分分析析(

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論