數(shù)據(jù)模型與決策課件DMD06回歸分析_第1頁(yè)
數(shù)據(jù)模型與決策課件DMD06回歸分析_第2頁(yè)
數(shù)據(jù)模型與決策課件DMD06回歸分析_第3頁(yè)
數(shù)據(jù)模型與決策課件DMD06回歸分析_第4頁(yè)
數(shù)據(jù)模型與決策課件DMD06回歸分析_第5頁(yè)
已閱讀5頁(yè),還剩89頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第6章 回歸分析線性回歸Logistic回歸第6章 回歸分析線性回歸Logistic回歸回歸分析顧客對(duì)商品和服務(wù)的反映對(duì)于商家是至關(guān)重要的,但是僅僅有滿意顧客的比例是不夠的,商家希望了解什么是影響顧客觀點(diǎn)的因素以及這些因素是如何起作用的。 類似地,醫(yī)療衛(wèi)生部門不能僅僅知道某流行病的發(fā)病率,而且想知道什么變量影響發(fā)病率,以及如何影響。一般來(lái)說,統(tǒng)計(jì)可以根據(jù)目前所擁有的信息(數(shù)據(jù))建立人們所關(guān)心的變量和其他有關(guān)變量的關(guān)系(稱為模型)。假如用Y表示感興趣的變量,用X表示其他可能有關(guān)的變量(可能是若干變量組成的向量)。則所需要的是建立一個(gè)函數(shù)關(guān)系Y=f(X)。這里Y稱為因變量或響應(yīng)變量,而X稱為自變量

2、或解釋變量或協(xié)變量。建立這種關(guān)系的過程就叫做回歸。2回歸分析顧客對(duì)商品和服務(wù)的反映對(duì)于商家是至關(guān)重要的,但是僅僅回歸分析一旦建立了回歸模型可以對(duì)各種變量的關(guān)系有了進(jìn)一步的定量理解還可以利用該模型(函數(shù))通過自變量對(duì)因變量做預(yù)測(cè)。這里所說的預(yù)測(cè),是用已知的自變量的值通過模型對(duì)未知的因變量值進(jìn)行估計(jì);它并不一定涉及時(shí)間先后的概念。 3回歸分析一旦建立了回歸模型3例1 有50個(gè)從初中升到高中的學(xué)生.為了比較初三的成績(jī)是否和高中的成績(jī)相關(guān),得到了他們?cè)诔跞透咭坏母骺破骄煽?jī)(數(shù)據(jù):highschool.sav)4從這張圖可以看出什么呢?有個(gè)上升趨勢(shì);即初三時(shí)成績(jī)相對(duì)較高的學(xué)生,在高一時(shí)的成績(jī)也較高。

3、但對(duì)于具體個(gè)人來(lái)說,大約有一半的學(xué)生的高一平均成績(jī)比初三時(shí)下降,而另一半沒有變化或有進(jìn)步例1 有50個(gè)從初中升到高中的學(xué)生.為了比較初三的成績(jī)是否和還有定性變量該數(shù)據(jù)中,除了初三和高一的成績(jī)之外,還有一個(gè)定性變量它是學(xué)生在高一時(shí)的家庭收入狀況;它有三個(gè)水平:低、中、高,分別在數(shù)據(jù)中用1、2、3表示。 目前的問題是怎么判斷這兩個(gè)變量是否相關(guān)、如何相關(guān)及如何度量相關(guān)?能否以初三成績(jī)?yōu)樽宰兞?,高一成?jī)?yōu)橐蜃兞縼?lái)建立一個(gè)回歸模型以描述這樣的關(guān)系,或用于預(yù)測(cè)。5還有定性變量該數(shù)據(jù)中,除了初三和高一的成績(jī)之外,還有一個(gè)定性還有定性變量下面是對(duì)三種收入對(duì)高一成績(jī)和高一與初三成績(jī)差的盒形圖6可以看出收入高低對(duì)

4、高一成績(jī)稍有影響,但不如收入對(duì)成績(jī)的變化(高一和初三成績(jī)之差)的影響那么明顯。還有定性變量下面是對(duì)三種收入對(duì)高一成績(jī)和高一與初三成績(jī)差的盒問題的提出到底學(xué)生在高一的家庭收入對(duì)成績(jī)有影響嗎?是什么樣的影響?是否可以取初三成績(jī)(這是定量變量)或(和)家庭收入(定性變量)為自變量,而取高一成績(jī)?yōu)橐蜃兞?,?lái)建立一個(gè)描述這些變量之間關(guān)系的回歸模型呢?7問題的提出到底學(xué)生在高一的家庭收入對(duì)成績(jī)有影響嗎?是什么樣的問題的提出例2 這是200個(gè)不同年齡和性別的人對(duì)某項(xiàng)服務(wù)產(chǎn)品的認(rèn)可的數(shù)據(jù)(logi.txt)。這里年齡是連續(xù)變量,性別是有男和女(分別用1和0表示)兩個(gè)水平的定性變量,而變量觀點(diǎn)則為包含認(rèn)可(用1

5、表示)和不認(rèn)可(用0表示)兩個(gè)水平的定性變量(見下頁(yè)數(shù)據(jù))。想要知道的是年齡和性別對(duì)觀點(diǎn)有沒有影響,有什么樣的影響,以及能否用統(tǒng)計(jì)模型表示出這個(gè)關(guān)系。8問題的提出例2 這是200個(gè)不同年齡和性別的人對(duì)某項(xiàng)服務(wù)產(chǎn)品9910年齡和觀點(diǎn)的散點(diǎn)圖(左)和性別與觀點(diǎn)的條形圖; 10年齡和觀點(diǎn)的散點(diǎn)圖(左)和性別與觀點(diǎn)的條形圖; 例3 阿姆德比薩餅連鎖店的問題 阿姆得(Armand)比薩餅連鎖店坐落在美國(guó)的5個(gè)州內(nèi),它們通常的位置是在大學(xué)旁邊,而且管理人員相信附近大學(xué)的人數(shù)與這些連鎖店的季度銷售額是有關(guān)系的。下面是10家連鎖店附近大學(xué)的學(xué)生人數(shù)和季度銷售收入的數(shù)據(jù): 根據(jù)以上數(shù)據(jù),你能否判斷學(xué)生人數(shù)(x)

6、如何影響到銷售收入(y)?根據(jù)一家連鎖店附近大學(xué)的人數(shù),你能夠預(yù)測(cè)該家連鎖店的季度銷售收入嗎?11例3 阿姆德比薩餅連鎖店的問題 阿姆得描述學(xué)生人數(shù)和銷售收入之間的關(guān)系協(xié)方差(315.56)和相關(guān)系數(shù)(0.95),散點(diǎn)圖;根據(jù)這些你可以得到什么結(jié)論? 12描述學(xué)生人數(shù)和銷售收入之間的關(guān)系協(xié)方差(315.56)和相關(guān)Types of Regression Models 13Positive Linear RelationshipNegative Linear RelationshipRelationship NOT LinearNo RelationshipTypes of Regression

7、 Models 13P某鋼廠生產(chǎn)的某種合金鋼有兩個(gè)重要的質(zhì)量指標(biāo):抗拉強(qiáng)度(kg/mm2)和延伸率(%)。該合金鋼的質(zhì)量標(biāo)準(zhǔn)要求:抗拉強(qiáng)度應(yīng)大于32kg/mm2;延伸率應(yīng)大于33%。根據(jù)冶金學(xué)的專業(yè)知識(shí)和實(shí)踐經(jīng)驗(yàn),該合金鋼的含碳量是影響抗拉強(qiáng)度和延伸率的主要因素。其中含碳量高,則抗拉強(qiáng)度也就會(huì)相應(yīng)提高,但與此同時(shí)延伸率則會(huì)降低。為降低生產(chǎn)成本,提高產(chǎn)品質(zhì)量和競(jìng)爭(zhēng)能力,該廠質(zhì)量控制部門要求該種合金鋼產(chǎn)品的上述兩項(xiàng)質(zhì)量指標(biāo)的合格率都應(yīng)達(dá)到99%以上。 14質(zhì)量控制應(yīng)用案例某鋼廠生產(chǎn)的某種合金鋼有兩個(gè)重要的質(zhì)量指標(biāo):抗拉強(qiáng)度(kg/為達(dá)到以上質(zhì)量控制要求,就需要制定該合金鋼冶煉中含碳量的工藝控制標(biāo)準(zhǔn)

8、,也即要確定在冶煉中應(yīng)將含碳量控制在什么范圍內(nèi),可以有99%的把握使抗拉強(qiáng)度和延伸率這兩項(xiàng)指標(biāo)都達(dá)到要求。這是一個(gè)典型的產(chǎn)品質(zhì)量控制問題,可以使用回歸分析方法求解。 15如何制訂含碳量的控制標(biāo)準(zhǔn)?為達(dá)到以上質(zhì)量控制要求,就需要制定該合金鋼冶煉中含碳量的工藝6.2 定量變量的相關(guān)如果兩個(gè)定量變量沒有關(guān)系,就談不上建立模型或進(jìn)行回歸。但怎樣才能發(fā)現(xiàn)兩個(gè)變量有沒有關(guān)系呢?最簡(jiǎn)單的直觀辦法就是畫出它們的散點(diǎn)圖。下面是四組數(shù)據(jù)的散點(diǎn)圖;每一組數(shù)據(jù)表示了兩個(gè)變量x和y的樣本。166.2 定量變量的相關(guān)如果兩個(gè)定量變量沒有關(guān)系,就談不上建17不相關(guān) 正線性相關(guān) 負(fù)線性相關(guān) 相關(guān)但非線性相關(guān) 17不相關(guān) 正線

9、性相關(guān) 負(fù)線性相關(guān) 相關(guān)但非線性相關(guān) 6.2 定量變量的相關(guān)但如何在數(shù)量上描述相關(guān)呢?下面引進(jìn)幾種對(duì)相關(guān)程度的度量。Pearson相關(guān)系數(shù)(Pearsons correlation coefficient)又叫相關(guān)系數(shù)或線性相關(guān)系數(shù)。它一般用字母r表示。它是由兩個(gè)變量的樣本取值得到,這是一個(gè)描述線性相關(guān)強(qiáng)度的量,取值于-1和1之間。當(dāng)兩個(gè)變量有很強(qiáng)的線性相關(guān)時(shí),相關(guān)系數(shù)接近于1(正相關(guān))或-1(負(fù)相關(guān)),而當(dāng)兩個(gè)變量不那么線性相關(guān)時(shí),相關(guān)系數(shù)就接近0。186.2 定量變量的相關(guān)但如何在數(shù)量上描述相關(guān)呢?下面引進(jìn)幾6.2 定量變量的相關(guān)Kendall t 相關(guān)系數(shù)(Kendalls t)這里的度

10、量原理是把所有的樣本點(diǎn)配對(duì)(如果每一個(gè)點(diǎn)由x和y組成的坐標(biāo)(x,y)代表,一對(duì)點(diǎn)就是諸如(x1,y1)和(x2,y2)的點(diǎn)對(duì)),然后看每一對(duì)中的x和y的觀測(cè)值是否同時(shí)增加(或減少)。比如由點(diǎn)對(duì)(x1,y1)和(x2,y2),可以算出乘積(x2-x1)(y2-y1)是否大于0;如果大于0,則說明x和y同時(shí)增長(zhǎng)或同時(shí)下降,稱這兩點(diǎn)協(xié)同(concordant);否則就是不協(xié)同。如果樣本中協(xié)同的點(diǎn)數(shù)目多,兩個(gè)變量就更加相關(guān)一些;如果樣本中不協(xié)同(discordant)的點(diǎn)數(shù)目多,兩個(gè)變量就不很相關(guān)。196.2 定量變量的相關(guān)Kendall t 相關(guān)系數(shù)(Ken6.2 定量變量的相關(guān)Spearman 秩

11、相關(guān)系數(shù)(Spearman rank correlation coefficient 或Spearmans r)它和Pearson相關(guān)系數(shù)定義有些類似,只不過在定義中把點(diǎn)的坐標(biāo)換成各自樣本的秩(即樣本點(diǎn)大小的“座次”)。Spearman相關(guān)系數(shù)也是取值在-1和1之間,也有類似的解釋。通過它也可以進(jìn)行不依賴于總體分布的非參數(shù)檢驗(yàn)。206.2 定量變量的相關(guān)Spearman 秩相關(guān)系數(shù)(Spe6.2 定量變量的相關(guān)人們可能會(huì)問,上面的三種對(duì)相關(guān)的度量都是在其值接近1或-1時(shí)相關(guān),而接近于0時(shí)不相關(guān)。到底如何才能夠稱為“接近”呢?這很難一概而論。但在計(jì)算機(jī)輸出中都有和這些相關(guān)度量相應(yīng)的檢驗(yàn)和p-值;

12、因此可以根據(jù)這些結(jié)果來(lái)判斷是否相關(guān)(見下面例6.1的繼續(xù))。例6.1(繼續(xù))得到初三和高一成績(jī)的Pearson相關(guān)系數(shù),Kendall t 相關(guān)系數(shù)和Spearman 秩相關(guān)系數(shù)分別為0.795, 0.595和0.758。這三個(gè)統(tǒng)計(jì)量相關(guān)的檢驗(yàn)(零假設(shè)均為不相關(guān))全部顯著,p-值都是0.000。注意這種0.000的表示并不表示這些p-值恰好等于零,只是小數(shù)點(diǎn)前三位是0而已。216.2 定量變量的相關(guān)人們可能會(huì)問,上面的三種對(duì)相關(guān)的度量SPSS的相關(guān)分析相關(guān)分析(hischool.sav)利用SPSS選項(xiàng):AnalizeCorrelateBivariate再把兩個(gè)有關(guān)的變量(這里為j3和s1)選

13、入,選擇Pearson,Spearman和Kendall就可以得出這三個(gè)相關(guān)系數(shù)和有關(guān)的檢驗(yàn)結(jié)果了(零假設(shè)均為不相關(guān))。22SPSS的相關(guān)分析相關(guān)分析(hischool.sav)22例1:相關(guān)系數(shù) 23例1:相關(guān)系數(shù) 236.3 定量變量的線性回歸分析對(duì)例6.1中的兩個(gè)變量的數(shù)據(jù)進(jìn)行線性回歸,就是要找到一條直線來(lái)適當(dāng)?shù)卮韴D1中的那些點(diǎn)的趨勢(shì)。首先需要確定選擇這條直線的標(biāo)準(zhǔn)。這里介紹最小二乘回歸(least squares regression)。古漢語(yǔ)“二乘”是平方的意思。這就是尋找一條直線,使得所有點(diǎn)到該直線的豎直距離的平方和最小。用數(shù)據(jù)尋找一條直線的過程也叫做擬合(fit)一條直線。例6

14、.1(繼續(xù))根據(jù)計(jì)算,找到初三成績(jī)和高一成績(jī)的回歸直線。計(jì)算機(jī)輸出給出了截距(Constant)26.444和斜率(變量j3的系數(shù)) 0.651。246.3 定量變量的線性回歸分析對(duì)例6.1中的兩個(gè)變量的數(shù)據(jù)25截距=26.444; 斜率=0.65125截距=26.444; 斜率=0.6516.3 定量變量的線性回歸分析這個(gè)直線實(shí)際上是對(duì)所假設(shè)的下面線性回歸模型的估計(jì)(這里的e是隨機(jī)誤差):26我們得到的截距和斜率(26.444和0.651)是對(duì)b0和b1的估計(jì)。由于不同的樣本產(chǎn)生不同的估計(jì),所以估計(jì)量是個(gè)隨機(jī)變量,它們也有分布,也可以用由他們構(gòu)造檢驗(yàn)統(tǒng)計(jì)量來(lái)檢驗(yàn)b0和b1是不是顯著。拿回歸主

15、要關(guān)心的來(lái)說,假設(shè)檢驗(yàn)問題是計(jì)算機(jī)輸出也給出了這個(gè)檢驗(yàn):t檢驗(yàn)統(tǒng)計(jì)量為9.089,而p-值為0.000。6.3 定量變量的線性回歸分析這個(gè)直線實(shí)際上是對(duì)所假設(shè)的下6.3 定量變量的線性回歸分析除了對(duì)系數(shù)的檢驗(yàn)之外,還有一個(gè)說明自變量解釋因變量變化百分比的度量,叫做決定系數(shù)(coefficient of determination,也叫測(cè)定系數(shù)或可決系數(shù)),用R2表示。對(duì)于例1,R2=0.632;這說明這里的自變量可以大約解釋63的因變量的變化。R2越接近1,回歸就越成功。由于R2有當(dāng)變量數(shù)目增加而增大的缺點(diǎn),人們對(duì)其進(jìn)行修改;有一修正的R2(adjusted R square)。276.3 定

16、量變量的線性回歸分析除了對(duì)系數(shù)的檢驗(yàn)之外,還有一6.3 定量變量的線性回歸分析此外,計(jì)算機(jī)還計(jì)算了一個(gè)在零假設(shè)下有F分布的檢驗(yàn)統(tǒng)計(jì)量,它是用來(lái)檢驗(yàn)回歸擬合好壞的(零假設(shè)是因變量和自變量沒有關(guān)系)。286.3 定量變量的線性回歸分析此外,計(jì)算機(jī)還計(jì)算了一個(gè)在零模型的引入對(duì)于給定的學(xué)生人數(shù),銷售收入是唯一確定的一個(gè)數(shù),還是一個(gè)隨機(jī)變量?學(xué)生人數(shù)的變化如何影響到銷售收入?使用的模型 29模型的引入對(duì)于給定的學(xué)生人數(shù),銷售收入是唯一確定的一個(gè)數(shù),還簡(jiǎn)單線性回歸模型30 Y 的截距斜率 隨機(jī)誤差因變量(響應(yīng)變量,被預(yù)測(cè)變量)自變量(解釋變量,預(yù)測(cè)變量)簡(jiǎn)單線性回歸模型30 Y 的截距斜率 隨機(jī)誤差因變量

17、(響應(yīng)變簡(jiǎn)單線性回歸模型31i = 隨機(jī)誤差YX觀測(cè)值觀測(cè)值YX01YXiii01簡(jiǎn)單線性回歸模型31i = 隨機(jī)誤差YX觀測(cè)值觀測(cè)值Y 模型的假定1) E()=0; (E(y)=x)2) 對(duì)于所有的x,Var()=.3) 是服從正態(tài)分布N(0, ) 的.4) 對(duì)于不同的x, 是相互獨(dú)立的.這些假定意味著什么?32 模型的假定1) E()=0; (E(y)=33X1X2XY fy 服從在回歸直線附近的正態(tài)分布對(duì)每個(gè) x 值, y分布的方差相同.回歸直線33X1X2XY fy 服從在回歸直線附近的正態(tài)分布回歸直線估計(jì)的回歸方程如何估計(jì)參數(shù)和?最小二乘準(zhǔn)則 34估計(jì)的回歸方程如何估計(jì)參數(shù)和?34阿

18、姆德連鎖店的回歸直線估計(jì)參數(shù) b1=5 b0=60回歸直線你對(duì)系數(shù)的含義怎么理解? 35阿姆德連鎖店的回歸直線估計(jì)參數(shù)35回歸方程的判定系數(shù)y的總變差的分解定義判定系數(shù)R2=SSR/SST.判定系數(shù)的含義是什么?阿姆德比薩餅連鎖店的例子:R2=0.9027.判定系數(shù)和相關(guān)系數(shù)的關(guān)系。 36回歸方程的判定系數(shù)y的總變差的分解36Coefficients of Determination (r2) and Correlation (r) 37r2 = 1,r2 = 1,r2 = .8,r2 = 0,YXY XY YXr = +1r = -1r = +0.9r = 0XCoefficients of

19、 Determination 的估計(jì)理解誤差平方和的一個(gè)無(wú)偏估計(jì) s2=MSE=SSE/(n-2) 38的估計(jì)38關(guān)于回歸系數(shù)的假設(shè)檢驗(yàn)檢驗(yàn)統(tǒng)計(jì)量給定顯著水平時(shí),選擇拒絕域 39關(guān)于回歸系數(shù)的假設(shè)檢驗(yàn)39關(guān)于回歸方程整體的檢驗(yàn)變量x的確對(duì)y有解釋作用嗎?(H0: =0)檢驗(yàn)統(tǒng)計(jì)量 F=MSR/MSE 其中MSR=SSR/自變量的個(gè)數(shù)拒絕域 FF(1, n-2)40關(guān)于回歸方程整體的檢驗(yàn)變量x的確對(duì)y有解釋作用嗎?(H0: 回歸方程的方差分析表41回歸方程的方差分析表41阿姆德連鎖店的情形 使用SPSS對(duì)阿姆德連鎖店的數(shù)據(jù)建立模型,并進(jìn)行分析,基于SPSS的輸出結(jié)果,你對(duì)該模型有些什么認(rèn)識(shí)?42

20、阿姆德連鎖店的情形 42使用你建立的模型(一)問題一:對(duì)于那些附近學(xué)校人數(shù)是1萬(wàn)的連鎖店,他們的季度銷售收入一定是一樣嗎?這種連鎖店平均的季度銷售收入是多少?你能夠給出一個(gè)估計(jì)嗎?問題二:某家連鎖店附近學(xué)生總數(shù)約1萬(wàn)人,你能夠給出它的季度銷售收入的一個(gè)估計(jì)值嗎?點(diǎn)估計(jì):11043使用你建立的模型(一)問題一:對(duì)于那些附近學(xué)校人數(shù)是1萬(wàn)的連使用你建立的模型(二)對(duì)于問題一,如何得到這種連鎖店平均銷售收入的一個(gè)95%的置信區(qū)間? 44( 98.58, 121.42)使用你建立的模型(二)對(duì)于問題一,如何得到這種連鎖店平均銷售使用你建立的模型(三)對(duì)于問題二,如何給出一個(gè)預(yù)測(cè)區(qū)間,使得這家連鎖店的季

21、度銷售收入落在該區(qū)間里面的概率是1-?45( 76.13, 143.87)使用你建立的模型(三)對(duì)于問題二,如何給出一個(gè)預(yù)測(cè)區(qū)間,使得兩種區(qū)間的關(guān)系46xp預(yù)測(cè)區(qū)間邊界均值的置信區(qū)間兩種區(qū)間的關(guān)系46xp預(yù)測(cè)區(qū)間邊界均值的置信區(qū)間對(duì)模型作進(jìn)一步的探討回憶我們使用的模型;對(duì)模型作了什么假定?邏輯問題:如何判斷我們的問題符合這些假定?分析的方案:殘差分析 47對(duì)模型作進(jìn)一步的探討回憶我們使用的模型;47通過殘差你能夠了解什么?對(duì)誤差項(xiàng)作的假定適合嗎? 1)等方差; 2)相互獨(dú)立; 3)正態(tài)分布;哪些數(shù)據(jù)屬于異常值?哪些觀測(cè)屬于對(duì)回歸模型有很大影響的?48通過殘差你能夠了解什么?對(duì)誤差項(xiàng)作的假定適合

22、嗎?48殘差圖關(guān)于自變量的殘差圖;關(guān)于因變量的預(yù)測(cè)值的殘差圖;學(xué)生化的標(biāo)準(zhǔn)殘差圖: 49殘差圖關(guān)于自變量的殘差圖;49如何分析殘差圖如果模型是符合的,那么殘差圖上的散點(diǎn)應(yīng)該落在一條水平帶中間,除此之外,殘差圖上的點(diǎn)不應(yīng)呈現(xiàn)出什么規(guī)律性。使用SPSS對(duì)阿姆德連鎖店的數(shù)據(jù)產(chǎn)生殘差圖。你能得到什么結(jié)論?50如何分析殘差圖如果模型是符合的,那么殘差圖上的散點(diǎn)應(yīng)該落在一51非線性線性X X51非線性線性X X52方差不等方差相等XX52方差不等方差相等XX53不獨(dú)立獨(dú)立XX53不獨(dú)立獨(dú)立XX異常值的檢測(cè)異常值是與其它點(diǎn)顯示的趨勢(shì)不合的點(diǎn)。檢查它是否可能是被錯(cuò)誤輸入的數(shù)據(jù)。檢測(cè)異常值的方法: 散點(diǎn)圖; 利

23、用學(xué)生化標(biāo)準(zhǔn)殘差基本服從標(biāo)準(zhǔn)正態(tài)分布來(lái)檢測(cè)(落在2個(gè)標(biāo)準(zhǔn)差之外時(shí))。 54異常值的檢測(cè)異常值是與其它點(diǎn)顯示的趨勢(shì)不合的點(diǎn)。54帶有異常值的散點(diǎn)圖示例55帶有異常值的散點(diǎn)圖示例55檢測(cè)有影響的觀測(cè)值什么是有影響的觀測(cè)?觀測(cè)的杠桿率:高杠桿率的點(diǎn)意味著它的自變量距離別的自變量的值距離較大的點(diǎn)。識(shí)別影響的觀測(cè): 杠桿率6/n的觀測(cè). 56檢測(cè)有影響的觀測(cè)值什么是有影響的觀測(cè)?56對(duì)于建立簡(jiǎn)單線性回歸模型,你知道了些什么?什么情況下需要建立簡(jiǎn)單線性回歸模型?對(duì)模型的假定有哪些?如何估計(jì)模型的參數(shù)?如何檢驗(yàn)?zāi)P图捌鋮?shù)的顯著性?如何使用你建立的模型進(jìn)行預(yù)測(cè)?如何分析你的問題符合對(duì)模型做的假定?57對(duì)于建

24、立簡(jiǎn)單線性回歸模型,你知道了些什么?什么情況下需要建6.3 定量變量的線性回歸分析和剛才簡(jiǎn)單的回歸模型類似,一般的有k個(gè)(定量)自變量x1, x2, xk的對(duì)因變量y的線性回歸模型為(稱為多元回歸)58這里b0, b1, bk稱為回歸系數(shù)。對(duì)計(jì)算機(jī)來(lái)說,計(jì)算多個(gè)自變量的回歸和計(jì)算一個(gè)自變量的情況類似,計(jì)算機(jī)也會(huì)自動(dòng)輸出相應(yīng)的檢驗(yàn)結(jié)果。并且用數(shù)據(jù)來(lái)擬合所選的一個(gè)模型時(shí),并不一定所有的變量都顯著(并不一定所有的系數(shù)都有意義)軟件有一種一邊回歸,一邊檢驗(yàn)的所謂逐步回歸(stepwise regression)方法。該方法或者從只有常數(shù)項(xiàng)開始,逐個(gè)地把顯著的變量加入;或者從包含所有變量的模型開始,逐步

25、把不顯著的變量減去。注意不同方向逐步回歸的結(jié)果也不一定相同。6.3 定量變量的線性回歸分析和剛才簡(jiǎn)單的回歸模型類似,一例子:RISKFAC.sav不算序號(hào)和(192個(gè))國(guó)家有21個(gè)變量包括地區(qū)(Region)、(在城鎮(zhèn)和鄉(xiāng)村)使用干凈水的、生活污水處理的、飲酒量(litre/yearperson)、(每萬(wàn)人中)內(nèi)科醫(yī)生數(shù)目、護(hù)士和助產(chǎn)士數(shù)、衛(wèi)生工作者數(shù)、病床數(shù)、護(hù)士助產(chǎn)士和內(nèi)科醫(yī)生之比、衛(wèi)生開支占總開支的、占政府開支的、人均衛(wèi)生開支$、成人識(shí)字率、人均收入$、每千個(gè)出生中5歲前死亡人數(shù)、人口增長(zhǎng)率、(男女的)預(yù)期壽命(年)、每10萬(wàn)生育的母親死亡數(shù)59例子:RISKFAC.sav不算序號(hào)和(1

26、92個(gè))國(guó)家有216060例子:RISKFAC.sav該數(shù)據(jù)有許多相關(guān)的變量和許多缺失值假定要用各種變量描述每千個(gè)出生中5歲前死亡人數(shù)(因變量)可以先做兩兩相關(guān)也可以做定量變量的兩兩散點(diǎn)圖等等或者用逐步回歸淘汰變量目的在于摸清關(guān)系的底細(xì)61例子:RISKFAC.sav該數(shù)據(jù)有許多相關(guān)的變量和許多缺失例子:RISKFAC.sav:相關(guān)62例子:RISKFAC.sav:相關(guān)62例子:RISKFAC.sav:逐步回歸63選中女性預(yù)期壽命和農(nóng)村干凈水的作為自變量(第二個(gè)自變量相對(duì)不那么顯著pvalue=0.019)模型:女性預(yù)期壽命模型:農(nóng)村干凈水的例子:RISKFAC.sav:逐步回歸63選中女性預(yù)

27、期壽命和RISKFAC.sav:散點(diǎn)圖及自變量相關(guān)性Pearson相關(guān)64RISKFAC.sav:散點(diǎn)圖及自變量相關(guān)性Pearson相RISKFAC.sav:散點(diǎn)圖及自變量相關(guān)性非參數(shù)度量KendallSpearman65RISKFAC.sav:散點(diǎn)圖及自變量相關(guān)性非參數(shù)度量K介紹三個(gè)檢查異常點(diǎn)的統(tǒng)計(jì)量殘差(Residual).(本例用SPSS中的一種),它描述了樣本點(diǎn)到回歸直線的遠(yuǎn)近程度。杠桿值(Levarage)。 它描述距離數(shù)據(jù)總體的遠(yuǎn)近。高杠桿點(diǎn)對(duì)回歸的參數(shù)影響較大,但其殘差通常較小。Cook統(tǒng)計(jì)量。它結(jié)合了殘差和杠桿值,因此反映了殘差和杠桿二者的影響(較全面)66介紹三個(gè)檢查異常點(diǎn)的

28、統(tǒng)計(jì)量殘差(Residual).(本例用全模型(兩個(gè)自變量:女性預(yù)期壽命和農(nóng)村干凈水的)全模型(兩個(gè)自變量:女性預(yù)期壽命和農(nóng)村干凈水的)RISKFAC.sav:全模型異常點(diǎn)診斷:殘差6896(Lesotho )23(Botswana)153(Sierra Leone )192(Zimbabwe )模型:女性預(yù)期壽命模型:農(nóng)村干凈水的RISKFAC.sav:全模型異常點(diǎn)診斷:殘差6896(69模型1因變量和自變量之一的散點(diǎn)圖X:女性預(yù)期壽命(年)Y:每千個(gè)出生中5歲前死亡人數(shù)69模型1RISKFAC.sav:只用女性預(yù)期壽命作為自變量70模型:全模型模型:農(nóng)村干凈水的RISKFAC.sav:只用

29、女性預(yù)期壽命作為自變量70模型:RISKFAC.sav模型1異常點(diǎn)診斷殘差7123(Botswana)96(Lesotho)192(Zimbabwe )模型:全模型模型:農(nóng)村干凈水的RISKFAC.sav模型1異常點(diǎn)診斷殘差7123(Bo72模型2因變量和自變量之一的散點(diǎn)圖X:農(nóng)村干凈水使用Y:每千個(gè)出生中5歲前死亡人數(shù)72模型2RISKFAC.sav:只用農(nóng)村凈水使用73模型:全模型模型:女性預(yù)期壽命RISKFAC.sav:只用農(nóng)村凈水使用73模型:全模型74140(Romania )RISKFAC.sav模型2異常點(diǎn)診斷殘差模型:全模型模型:女性預(yù)期壽命74140(Romania )RIS

30、KFAC.sav模型2對(duì)該例子(RISKFAC.sav)的結(jié)果解釋單獨(dú)用第一個(gè)自變量比單獨(dú)用第二個(gè)較好模型1(相應(yīng)于模型)的“異常點(diǎn)”為一些非洲國(guó)家;它們可能不適合用這個(gè)模型。模型2(相應(yīng)于模型)的“異常點(diǎn)”為Romania;它可能不適合用這個(gè)模型。從散點(diǎn)圖來(lái)看,第一個(gè)模型更加線性。兩個(gè)自變量的模型的“異常點(diǎn)”為單獨(dú)模型“異常點(diǎn)”的混合。其實(shí),用一個(gè)自變量就夠了。這兩個(gè)自變量是相關(guān)的。當(dāng)然是用第一個(gè)了??赡馨旬惓|c(diǎn)排除后再重新建模更好。75對(duì)該例子(RISKFAC.sav)的結(jié)果解釋單獨(dú)用第一個(gè)自變家電商品的需求量 Y 與其價(jià)格 X1 及居民家庭平均收入 X2 有關(guān)。下表給出了某市 10 年中

31、某家電商品需求量與價(jià)格和家庭年平均收入水平間的數(shù)據(jù)。76 求該商品年需求量 Y 關(guān)于價(jià)格 X1和家庭年平均收入 X2 的回歸方程。 【案例4】需求量與價(jià)格及收入間的關(guān)系家電商品的需求量 Y 與其價(jià)格 X1 及居民家庭平均收入 X用 SPSS求解案例 4,可得回歸方程如下:77 由方差分析表,Significance F = 0.0001,因而回歸方程高度顯著。 對(duì)回歸系數(shù)的顯著性檢驗(yàn)結(jié)果為: X1 的P-value = 0.0268,X2 的 P-value = 0.0262都是一般顯著。 此外還得到回歸方程的標(biāo)準(zhǔn)誤差:該值在求預(yù)測(cè)區(qū)間和控制范圍時(shí)要用到。 案例 4 分析用 SPSS求解案例

32、4,可得回歸方程如下:77 由方 預(yù)計(jì)下一年度該商品的價(jià)格水平為1800元,家庭年平均收入為30000元,希望預(yù)測(cè)該商品下一年的需求量。 假定下一年度居民家庭年平均收入估計(jì)在30000-31000元之間。 若要以90%的概率使該商品的年需求量不低于12萬(wàn)臺(tái),則應(yīng)將價(jià)格控制在什么范圍內(nèi)? 78案例 4 需要進(jìn)一步分析的問題 預(yù)計(jì)下一年度該商品的價(jià)格水平為1800元,家庭年平 1. 預(yù)測(cè) 在給定解釋變量的一組取值 ( x01, x02 , x0P ),由回歸方程可得回歸值79 它是 Y0 = 0 + 1X01 + 2X02 + + pX0p+ 0 的一個(gè)點(diǎn)估計(jì)。 可以證明,Y0 的置信度為 1-

33、的預(yù)測(cè)區(qū)間為 預(yù)測(cè)和控制 1. 預(yù)測(cè)79 它是 Y0 = 0 + 1預(yù)計(jì)下一年度該商品的價(jià)格水平為1800元,家庭年平均收入為30000元,求該商品年需求量的置信度為90%的預(yù)測(cè)區(qū)間。解:由所得回歸方程,可求得 80 該商品在該市下一年的年需求量的置信度為90%的預(yù)測(cè)區(qū)間為案例 4 的預(yù)測(cè)分析= t0.05(7)0.8618= 1.63= (11.20萬(wàn)臺(tái),14.46萬(wàn)臺(tái)) 預(yù)計(jì)下一年度該商品的價(jià)格水平為1800元,家庭年平均收入為3812. 控制在多元回歸情況下,由于解釋變量有多個(gè),若控制問題的提法是:當(dāng)要求以 1- 的概率將 Y 控制在某一給定范圍內(nèi),問應(yīng)將各解釋變量控制在什么范圍內(nèi)?顯然

34、此問題可以有無(wú)窮多個(gè)解。因此多元回歸控制問題的一般提法是:若要將 Y 控制在某給定范圍內(nèi),在給定其中 P-1 個(gè)解釋變量的取值范圍時(shí),應(yīng)將另一個(gè)解釋變量控制在什么范圍之內(nèi)?多元回歸的控制分析方法與一元回歸是完全類似的。 812. 控制在多元回歸情況下,由于解釋變量有多個(gè),若控制問假定下一年度居民家庭的年平均收入估計(jì)在30000-31000元之間,若要以90概率使該商品在的年需求量不低于12萬(wàn)臺(tái),問應(yīng)將價(jià)格控制在什么范圍內(nèi)?。解:此問題仍是單測(cè)控制問題,即要控制 X1 的取值范圍,使82其中案例 4 的控制要求分析= t0.1(7)0.8618= 1.2194 假定下一年度居民家庭的年平均收入估

35、計(jì)在30000-3100083 可解得:x1 1211.167 - 1.903x1 + 0.169531 - 1.2194 12案例 4 的控制要求分析(續(xù))83 可解得:x1 1.594 (千元)0yx11自變量中有定性變量的回歸 例1的數(shù)據(jù)中,還有一個(gè)自變量是定性變量“收入”,以虛擬變量或啞元(dummy variable)的方式出現(xiàn);這里收入的“低”,“中”,“高”,用1,2,3來(lái)代表.所以,如果要用這種啞元進(jìn)行前面回歸就沒有道理了. 以例1數(shù)據(jù)為例,可以用下面的模型來(lái)描述:84自變量中有定性變量的回歸 例1的數(shù)據(jù)中,還有一個(gè)自變量是定性自變量中有定性變量的回歸 現(xiàn)在只要估計(jì)b0, b1

36、,和a1, a2, a3即可。啞元的各個(gè)參數(shù)a1, a2, a3本身只有相對(duì)意義,無(wú)法三個(gè)都估計(jì),只能夠在有約束條件下才能夠得到估計(jì)。約束條件可以有很多選擇,一種默認(rèn)的條件是把一個(gè)參數(shù)設(shè)為0,比如a3=0,這樣和它有相對(duì)意義的a1和a2就可以估計(jì)出來(lái)了。對(duì)于例1,對(duì)b0, b1, a1, a2, a3的估計(jì)分別為28.708, 0.688, -11.066, -4.679, 0。這時(shí)的擬合直線有三條,對(duì)三種家庭收入各有一條: 85自變量中有定性變量的回歸 現(xiàn)在只要估計(jì)b0, b1,和a1,86例子:RISKFAC.sav:因變量:成人識(shí)字率,自變量:區(qū)域(屬性變量)、人口增長(zhǎng)率、人均收入86例

37、子:RISKFAC.sav:因變量:成人識(shí)字率,8787SPSS實(shí)現(xiàn)(hischool.sav)AnalyzeGeneral linear modelUnivariate,在Options中選擇Parameter Estimates,再在主對(duì)話框中把因變量(s1)選入Dependent Variable,把定量自變量(j3)選入Covariate,把定量因變量(income)選入Factor中。然后再點(diǎn)擊Model,在Specify Model中選Custom,再把兩個(gè)有關(guān)的自變量選入右邊,再在下面Building Term中選Main effect。Continue-OK,就得到結(jié)果了(系數(shù)和檢驗(yàn)等) 88SPSS實(shí)現(xiàn)(hischool.sav)AnalyzeGe注意 這里進(jìn)行的線性回歸,僅僅是回歸的一種,也是歷史最悠久的一種。但是,任何模型都是某種近似;線性回歸當(dāng)然也不另外。它被長(zhǎng)期廣泛深入地研究主要是因?yàn)閿?shù)學(xué)上相對(duì)簡(jiǎn)單。它已經(jīng)成為其他回歸的一個(gè)基礎(chǔ)??倯?yīng)該用批判的眼光看這些模型。89注意 這里進(jìn)行的線性回歸,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論