《應(yīng)用統(tǒng)計學》第九章_第1頁
《應(yīng)用統(tǒng)計學》第九章_第2頁
《應(yīng)用統(tǒng)計學》第九章_第3頁
《應(yīng)用統(tǒng)計學》第九章_第4頁
《應(yīng)用統(tǒng)計學》第九章_第5頁
已閱讀5頁,還剩92頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第九章回歸分析引導(dǎo)案例

如何估計每戶每月日用雜貨支出?一家超級市場股份有限公司正在考慮向一個新的地區(qū)發(fā)展業(yè)務(wù),計劃部主管必須向公司董事會的執(zhí)行委員會提交一份有關(guān)發(fā)展計劃的分析報告。作為報告中的一個關(guān)鍵部分,她需要提供那個地區(qū)居民每月在日用雜貨項目上的支出信息。為此她以居民家庭為對象,就每戶家庭的“每月日用雜貨支出”“月收入”等變量收集了一個容量為40的樣本數(shù)據(jù),并針對“每月日用雜貨支出”的數(shù)據(jù),估計出“平均每戶每月日用雜貨支出”為840.63元。正準備引用這一數(shù)字時,計劃部主管卻突然發(fā)現(xiàn)有些不妥。分析報告中的有關(guān)部分已經(jīng)細化到針對不同收入水平居民的經(jīng)營策略,而“平均每戶每月日用雜貨支出”的估計值,還只是一個籠統(tǒng)的估計數(shù)字,其中并未包含不同居民家庭收入水平差異的信息。因此,有必要與“月收入”關(guān)聯(lián)起來,估計出不同收入水平居民家庭的“平均每戶每月日用雜貨支出”,這才符合分析報告寫作的要求?!懊吭氯沼秒s貨支出”與“月收入”兩變量的樣本數(shù)據(jù)如表9-1所示。第一節(jié)相關(guān)分析概述第二節(jié)回歸模型與回歸方程第三節(jié)估計的回歸方程第四節(jié)檢驗和預(yù)測第五節(jié)殘差分析第六節(jié)運用SPSS進行回歸分析第一節(jié)相關(guān)分析概述第二節(jié)回歸模型與回歸方程第三節(jié)估計的回歸方程第四節(jié)檢驗和預(yù)測第五節(jié)殘差分析第六節(jié)運用SPSS進行回歸分析一、相關(guān)關(guān)系如果反復(fù)觀察表9-1中的樣本數(shù)據(jù),或許會隱約察覺到“月支出”與“月收入”兩個變量之間的確有著某種關(guān)聯(lián)。隨著月收入的增加,月支出相應(yīng)地也在增加。但這種判斷是非常不明確的,關(guān)聯(lián)的具體狀態(tài)如何?關(guān)聯(lián)的密切程度如何?這無法直接從表中數(shù)值看出答案。用表9-1中的數(shù)值繪制散點圖,橫軸代表月收入,縱軸代表月支出,如圖9-1所示,圖中各點分別由每一個觀測點的月支出和月收入決定。此圖直觀地顯示了數(shù)據(jù)中40戶家庭月支出與月收入之間的關(guān)系。相關(guān)關(guān)系的概念(一)觀察圖9-1可知,這40戶家庭月支出的觀測值,除自身的上下波動之外,與月收入之間同時又具有一種協(xié)變關(guān)系。盡管這種協(xié)變關(guān)系表現(xiàn)出了某種不確定性,但從整體上看,月支出是沿著一定的方向,隨著月收入的變化而變化。統(tǒng)計中將兩變量之間的這種相對關(guān)系稱作相關(guān)關(guān)系。散點圖是從樣本數(shù)據(jù)上直觀判斷兩個數(shù)值型變量之間是否具有相關(guān)關(guān)系的常用工具。相關(guān)關(guān)系與函數(shù)關(guān)系是不同的。在函數(shù)關(guān)系中,當一個變量的取值發(fā)生變化時,另一個變量有唯一確定的值與之相對應(yīng)。在相關(guān)關(guān)系中,當一個變量的取值發(fā)生變化時,另一個變量的取值是不確定的,它遵循某種規(guī)律在一定范圍內(nèi)變化。相關(guān)關(guān)系與函數(shù)關(guān)系的區(qū)別(二)按相關(guān)形式不同,相關(guān)關(guān)系可分為線性相關(guān)和非線性相關(guān)。當一個變量的取值變動時,另一變量的取值整體上沿著一條直線變動,則稱兩者之間是線性相關(guān)關(guān)系或直線相關(guān)關(guān)系。例如,圖9-1所示的月支出與月收入之間的關(guān)系就是具有一定程度的線性相關(guān)關(guān)系。按變動方向不同,線性相關(guān)又可分為正線性相關(guān)和負線性相關(guān),如圖9-2(a)~(d)所示。正線性相關(guān)的兩個變量,它們的變動方向相同;負線性相關(guān)的兩個變量,它們的變動方向相反。相關(guān)關(guān)系的類型(三)當一個變量的取值變動時,另一變量的取值沿著一條曲線變動,則稱兩者之間是非線性相關(guān)關(guān)系或曲線相關(guān)關(guān)系,如圖9-2(e)所示。如果兩個變量各自獨立、互不影響,則稱兩者不相關(guān),如圖9-2(f)所示。二、相關(guān)系數(shù)雖然散點圖有助于觀察和判斷兩個變量之間相關(guān)關(guān)系的類型及密切程度,但它畢竟是依賴肉眼觀察,判斷結(jié)果往往帶有很強的主觀性,不同的人甚至可能會得出不同的判斷結(jié)果,這就需要一種尺度來客觀地衡量兩個變量之間相關(guān)關(guān)系的類型及密切程度。相關(guān)系數(shù)就可以充當這個尺度,它是反映變量之間相關(guān)關(guān)系密切程度的統(tǒng)計指標,用r表示,計算公式為:

(9-1)相關(guān)系數(shù)的概念(一)相關(guān)系數(shù)的構(gòu)造原理如圖9-3所示。圖9-3中標出了40個家庭的平均月日用雜貨支出與平均月收入的位置。與將所有的點劃分為4個象限。正的線性相關(guān)表現(xiàn)出這樣的特點:落在第1象限和第3象限的點多于落在第2象限和第4象限中的點。落在第1象限和第3象限中的點稱為正相關(guān)點;落在第2象限和第4象限中的點稱為負相關(guān)點;落在均值線或上的點稱為零相關(guān)點。顯然,對于正相關(guān)點,必然有;對于負相關(guān)點,必然有;對于零相關(guān)點,必然有。稱為積差。所有點的積差之和稱為積差和,即。相關(guān)系數(shù)的構(gòu)造原理(二)從積差和公式不難看出,如果積差和大于零,則表明正的方面的積差多于負的方面的積差,x和y之間將呈現(xiàn)出正的線性相關(guān)關(guān)系;如果積差和小于零,則表明負的方面的積差多于正的方面的積差,x和y之間將呈現(xiàn)出負的線性相關(guān)關(guān)系;如果積差和等于零,則表明正的方面的積差與負的方面的積差相互抵消,此時意味著x和y之間不存在線性相關(guān)關(guān)系。因此,積差和就成為x和y之間是否具有線性相關(guān)關(guān)系以及線性相關(guān)關(guān)系強弱的一種度量。積差和與線性相關(guān)的關(guān)系(三)但是,用積差和來度量x和y之間的線性相關(guān)關(guān)系有許多不便之處。首先,積差和的取值要受到x和y所采用的計量單位的影響;其次,樣本點的多少對積差和的值也有影響,樣本點越多,積差和絕對值的取值就傾向于越大。然而,變量間的線性關(guān)系的強弱根本上取決于兩個變量本身的性質(zhì),與計量單位的變化或樣本點的多少沒有關(guān)系,并不會因為計量單位或樣本點的變化而改變變量之間本身所固有的線性相關(guān)關(guān)系的強弱。因此,需要進一步尋求測定線性相關(guān)關(guān)系強弱的普遍適用的尺度。因為:

所以:

即:。相關(guān)系數(shù)r消除了積差和中樣本量和計量單位的影響因素,以一個系數(shù)來衡量兩個變量之間線性相關(guān)關(guān)系的強弱。當時,表明x和y之間不存在線性相關(guān)關(guān)系;當時,表明存在正的線性相關(guān)關(guān)系;當時,表明存在負的線性相關(guān)關(guān)系。r的絕對值越接近于1,表明線性相關(guān)關(guān)系越強,當r的絕對值等于1時,表明x與y完全正相關(guān)或完全負相關(guān)。相關(guān)系數(shù)的取值范圍(四)相關(guān)系數(shù)的計算公式還可以等價變換為另外一種形式:

(9-2)這個公式雖然表面上看起來比先前的理論公式顯得繁瑣一些,但由于避免了計算均值與的過程,也避免了計算離差與的過程,并由此減少了計算過程中四舍五入的誤差,因此在實際運用中更便于手工計算。依此公式,只需根據(jù)樣本數(shù)據(jù)計算出,,,和這5個數(shù)據(jù)項,再將樣本量n代入公式,即可得出相關(guān)系數(shù)的計算結(jié)果。相關(guān)系數(shù)的等價公式(五)由表9-1中的樣本數(shù)據(jù)計算所得的相關(guān)系數(shù)為0.945,這表明在月支出與月收入之間存在著很強的正線性相關(guān)關(guān)系。通常,當時,經(jīng)驗表明變量間具有中等強度的線性相關(guān)關(guān)系;而當時,則認為變量間的線性相關(guān)關(guān)系很強。若總體中兩個變量的全部取值已知,則可以根據(jù)總體的數(shù)據(jù)計算出兩個變量之間相關(guān)系數(shù)的理論真值。但這在現(xiàn)實中是做不到的,也就是說,兩變量之間總體上的相關(guān)系數(shù)的理論真值總是未知的。一般情況下,只能根據(jù)隨機樣本數(shù)據(jù)計算出樣本相關(guān)系數(shù),再由樣本相關(guān)系數(shù)來對總體相關(guān)系數(shù)的理論真值作出具有一定置信水平的推斷。統(tǒng)計學家的研究表明,當總體相關(guān)系數(shù)等于零時,存在一個與樣本相關(guān)系數(shù)相關(guān)的自由度為的t統(tǒng)計量:(9-3)三、相關(guān)系數(shù)的顯著性檢驗若總體相關(guān)系數(shù)等于零,則與樣本相關(guān)系數(shù)有關(guān)的上述t統(tǒng)計量的值就不應(yīng)過大或過小,因為t統(tǒng)計量過大或過小都是總體上兩個變量之間具備線性相關(guān)關(guān)系的證據(jù)。因此,給定一個顯著性水平,就可以在自由度為的t分布下,確定衡量這個t統(tǒng)計量的值過大或過小的一個標準,即臨界值。如果,則表明相關(guān)系數(shù)r在統(tǒng)計上是顯著的,也就是說在的置信水平下,可以認為總體上兩個變量之間是線性相關(guān)的。如果,則表明相關(guān)系數(shù)在統(tǒng)計上是不顯著的,也就是說在的置信水平下,不能認為總體上兩個變量之間是線性相關(guān)的。由表9-1中的樣本數(shù)據(jù)所計算出來的樣本相關(guān)系數(shù)為:。在的顯著性水平上進行相關(guān)系數(shù)顯著性檢驗的步驟如下。(1)提出原假設(shè)和備擇假設(shè),即:總體相關(guān)系數(shù),:總體相關(guān)系數(shù)。(2)計算檢驗統(tǒng)計量的值,即(3)作出統(tǒng)計決策。若給定顯著性水平,在自由度為的t分布下,可確定相應(yīng)的臨界值。因為,所以拒絕原假設(shè),也就是說,總體中在月支出與月收入之間存在著顯著的線性相關(guān)關(guān)系,作出這一推斷的置信水平為95%。當然也可采用P值進行決策,決策結(jié)果是相同的。針對表9-1中的樣本數(shù)據(jù),通過觀察散點圖,并計算相關(guān)系數(shù),可以在一定的置信水平上確認:在月支出與月收入之間存在著正的線性相關(guān)關(guān)系。也就是說,隨著月收入的增加,該地區(qū)居民家庭的每月日用雜貨支出也將隨之線性增加。接下來的問題就是要找到這條直線,并確定下來,從而可根據(jù)“月收入”的不同取值,來估計“每月日用雜貨支出”的取值。這就是線性回歸分析方法要解決的問題。第一節(jié)相關(guān)分析概述第二節(jié)回歸模型與回歸方程第三節(jié)估計的回歸方程第四節(jié)檢驗和預(yù)測第五節(jié)殘差分析第六節(jié)運用SPSS進行回歸分析一、回歸模型假定自變量x與因變量y在總體上存在著線性相關(guān)關(guān)系,可以用以下等式來模擬x與y之間的這種線性相關(guān)關(guān)系:(9-4)這個等式稱為x與y的一元線性回歸模型。模型中,因變量y的第i個取值是以自變量x的第i個取值為自變量的線性函數(shù)值再加上一個。其中,;和分別為線性函數(shù)的截距和斜率,稱作模型參數(shù)。模型中的是誤差項的隨機變量,它反映除x與y之間線性關(guān)系之外的隨機因素對y的影響。在現(xiàn)實的總體中,y不是完全的線性依賴于x,它的取值除受x影響之外,還要受到其他各種可能因素的無法確定的或者說是隨機的影響。因此,在回歸模型中加上一個作為隨機變量的誤差項,是符合實際情況的,它代表了包含在之中,但不能被x與y之間的線性關(guān)系所解釋的變異性。但僅有這個回歸模型還是遠遠不夠的,由于誤差項隨機變量的存在,給定一個自變量x的取值,仍然無法確切地估計出變量y的相應(yīng)取值。二、回歸方程為使分析更富于成效,必須對模型誤差項隨機變量的概率分布情況作出如下假定:(1)是期望值為零的隨機變量,即;(2)的方差是相等的,即在自變量x的不同取值下,對應(yīng)的誤差項隨機變量的方差都是相同的,可記作;(3)服從正態(tài)分布,即;(4)相互獨立。在上述關(guān)于的模型假定中,由于,將回歸模型兩邊同時取數(shù)學期望,可得:(9-5)上式稱為一元線性回歸方程,表明的期望值是的線性函數(shù)。其中,為直線的截距;為直線的斜率。由于的取值是在確定的線性函數(shù)值的基礎(chǔ)上,再加上一個誤差項隨機變量,因此也是一個隨機變量,其隨機性完全由的隨機性來決定。的方差為,的方差也是。服從正態(tài)分布,即;也服從正態(tài)分布,即?;貧w模型中關(guān)于的理論假定及其有關(guān)推論的內(nèi)容,可通過圖9-4較為直觀地理解和把握。對應(yīng)x的不同取值,的取值是隨機的,且服從以為數(shù)學期望,以為方差的正態(tài)分布。總體回歸函數(shù)中的誤差項隨機變量應(yīng)滿足同方差性,即它們都有相同的方差。如果這一假定不滿足,則稱線性回歸模型存在異方差性。如圖9-5所示,各個概率密度曲線的形狀是不盡相同的,說明線性回歸模型存在異方差性。如果實際問題中出現(xiàn)違反此種模型假定的情況,一般的線性回歸分析方法原理也就失去了意義。第一節(jié)相關(guān)分析概述第二節(jié)回歸模型與回歸方程第三節(jié)估計的回歸方程第四節(jié)檢驗和預(yù)測第五節(jié)殘差分析第六節(jié)運用SPSS進行回歸分析一、估計回歸方程的概念與分別為回歸方程所代表的直線上的截距和斜率。如果與是已知的,回歸方程就代表了一條確定的直線,只要給定自變量x的一個取值,就可以此方程得出對應(yīng)的的期望值。然而,總體中的與通常都是未知的。一個現(xiàn)實的解決方法是:按隨機原則從總體中抽取樣本,根據(jù)樣本數(shù)據(jù)計算出與和相對應(yīng)的統(tǒng)計量的值作為對與的估計值。通過觀察和研究樣本數(shù)據(jù),如果能夠斷定x與y之間確實存在著線性關(guān)系,那么就可以通過某種方法為它們擬合出一個確定的直線方程,這個直線方程代表著x與y之間的線性相關(guān)關(guān)系,它是對總體回歸方程的一個估計,故稱之為估計的回歸方程。估計回歸方程的一般形式為(9-6)式中,是的一個估計值,是的一個估計值,因而是對的估計。原問題歸結(jié)為:如何針對樣本數(shù)據(jù)計算得出與的具體值,從而確定估計回歸方程的具體形式。二、參數(shù)的最小二乘估計仔細觀察圖9-1所給出的40戶家庭月支出與月收入的散點圖,盡管40個數(shù)據(jù)點處于一種分散狀態(tài),但他們整體上都圍繞著一條向上的直線上下波動。這表明月支出y與月收入x之間具有一種正的線性關(guān)系,相關(guān)系數(shù)的計算結(jié)果支持這一判斷。現(xiàn)在需要為這些散點擬合一條直線,即確定估計回歸方程的具體形式。直線擬合的最常用方法是最小二乘法,如圖9-6所示。理論上講,介于這些散點之間的直線有無數(shù)條,應(yīng)當從中找出與所有的點擬合效果最優(yōu)的那一條。最優(yōu)的擬合效果要求各個月支出的觀測值與對應(yīng)的估計值之間的距離應(yīng)最短,即要取得最小值。但由于該式中的絕對值符號在數(shù)學處理上非常麻煩,因此轉(zhuǎn)而要求各個距離的平方和要達到最小值,即為最小值。這就是最小二乘法的基本思想。在上式中,,以及n都是已知的樣本數(shù)據(jù),與則是未知的。根據(jù)微積分的極值原理,與在滿足下列方程組時,上式中的距離平方和可以取得最小值,即

整理得(9-7)式中,代表第次觀測自變量的觀測值;代表第

次觀測因變量的觀測值;n代表觀測次數(shù)或樣本量。將樣本數(shù)據(jù)代入式(9-7)中,即可解得與的數(shù)值,從而可確定估計的回歸方程。在引導(dǎo)案例中,經(jīng)過簡單計算可得:,,,,。將它們代入式(9-7)得解得

因此,通過最小二乘法所獲得的估計的回歸方程為:。對于自變量x的任意給定值,的取值將處于圖9-6所示的同一條直線上。所得到的估計回歸方程的斜率為正,這表明隨著月收入的增加,月支出也隨之增加。其截距為負值,在此處它僅起到?jīng)Q定估計回歸方程所代表直線在圖形中位置的作用。三、判定系數(shù)與之間的離差,即,稱為樣本中第次觀測的殘差,如圖9-7所示,它是用來估計時產(chǎn)生的誤差。當所有樣本點的殘差平方和是一個最小化的量時,這個最小化的量稱為殘差平方和或誤差平方和,記作SSE,其計算公式為(9-8)估計的回歸方程用自變量來估計因變量的取值總是要產(chǎn)生誤差的,SSE從整體上度量了這種誤差的大小,其值越小越好。判定系數(shù)的概述(一)殘差平方和1樣本中第

次觀測的因變量估計值與因變量均值之間的離差稱為第

個回歸離差,即,如圖9-7所示。所有回歸離差的平方和稱為回歸平方和,記作SSR,其計算公式為

(9-9)回歸平方和2樣本中第

次觀測因變量的觀測值與因變量均值之間的離差稱為第

個總離差,即,它是用去估計時所產(chǎn)生的誤差。所有離差的平方和被稱為總離差平方和或稱總平方和,記作SST,其計算公式為(9-10)SST從整體上度量估計所產(chǎn)生的誤差,反映了因變量觀測值總的變異性。顯然,同一問題中總離差平方和SST大于誤差平方和SSE。式(9-10)可分解為總離差平方和3由回歸分析的獨立性假定,可得,所以有

即(9-11)式(9-11)表明,總離差平方和可以分解為回歸平方和與殘差平方和兩部分?;貧w平方和(SSR)與總離差平方和(SST)的比值稱為判定系數(shù),用表示,計算公式為(9-12)判定系數(shù)的取值范圍為。越接近于1,表明估計回歸方程對樣本數(shù)據(jù)的擬合效果越好;越接近于0,表明估計回歸方程擬合效果越差。判定系數(shù)的概念4在引導(dǎo)案例中,通過計算可得殘差平方和,這從整體上度量了估計的回歸方程估計月支出時所產(chǎn)生的誤差大??;回歸平方和,它從整體上度量了與之間偏差的大??;總離差平方和。因此,判定系數(shù)為

結(jié)果表明,總離差平方和中的89.25%的變異性,能夠被估計的回歸方程所解釋。換句話說,40戶家庭每月日用雜貨支出的變異性,89.25%能夠被月日用雜貨支出與月收入之間的線性關(guān)系所解釋。判定系數(shù)的應(yīng)用(二)第一節(jié)相關(guān)分析概述第二節(jié)回歸模型與回歸方程第三節(jié)估計的回歸方程第四節(jié)檢驗和預(yù)測第五節(jié)殘差分析第六節(jié)運用SPSS進行回歸分析一、F檢驗理論分析(一)在回歸方程中,如果其斜率,則有,回歸方程此時為一條水平直線,這表明的均值不依賴于變化,意味著總體中y與x之間不存在線性相關(guān)關(guān)系。因此,總體中y與x存在線性相關(guān)關(guān)系的充要條件是。估計的回歸方程是對回歸方程的一個估計。回歸方程代表了總體中y與x兩個變量之間確定的線性相關(guān)關(guān)系,估計回歸方程所代表的則是通過最小二乘法處理樣本數(shù)據(jù),擬合得到的一條隨機直線。估計回歸方程的隨機性來源于樣本數(shù)據(jù)的隨機性。估計的回歸方程與回歸方程之間存在著隨機誤差。也就是說,不能依據(jù)直接推斷;也不能依據(jù)直接推斷。y與x兩個變量之間的關(guān)系由樣本到總體的推斷,需要通過假設(shè)檢驗方法來完成?;貧w模型中曾假定在自變量x的不同取值下,對應(yīng)的誤差項隨機變量的方差是相同的,都是。如果根據(jù)樣本數(shù)據(jù)來估計,統(tǒng)計上存在著兩個估計量。一個是運用殘差平方和除以其自由度來估計,這個估計量稱做均方誤差,記作MSE;另一個是運用回歸平方和除以其自由度來估計,這個估計量稱做均方回歸,記作MSR。殘差平方和的自由度是樣本量減去1以及問題中自變量的個數(shù)p,即;回歸平方和的自由度就是問題中自變量的個數(shù)p,在一元線性回歸分析中。均方誤差與均方回歸作為的兩個獨立的估計量,它們的性質(zhì)有所不同。當,MSR與MSE都是對的無偏估計,此時MSR與MSE的比值會接近于1;當,MSE仍然是對的無偏估計,而MSR則會出現(xiàn)估計偏高的傾向,此時MSR與MSE的比值就會遠遠大于1。利用這一特點,可以構(gòu)造統(tǒng)計量F來檢驗的假設(shè)是否成立,統(tǒng)計量F的計算公式為(9-13)

根據(jù)回歸模型中關(guān)于的正態(tài)性假設(shè),不難推出該統(tǒng)計量應(yīng)服從分子自由度為1,分母自由度為的F分布。給定一個顯著性水平,如果,則拒絕的原假設(shè),這表明可以在的置信水平上推斷總體中y與x這兩個變量之間存在線性相關(guān)關(guān)系。否則,沒有理由拒絕原假設(shè)。案例分析(二)在引導(dǎo)案例中,設(shè)原假設(shè)為,檢驗統(tǒng)計量F的值為:

如果給定的顯著性水平,則有。因為,所以拒絕的原假設(shè)。即在0.05的顯著性水平下,可以認為總體中每月日用雜貨支出與月收入之間,存在著估計的回歸方程所代表的線性相關(guān)關(guān)系。通常人們習慣采用方差分析表來表述F檢驗的具體步驟,具體如表9-2所示。

通常人們習慣采用方差分析表來表述F檢驗的具體步驟,具體如表9-2所示。引導(dǎo)案例的F檢驗方差分析表如表9-3所示。二、回歸預(yù)測和的點估計(一)預(yù)測有兩種情形。第一種情形是用自變量的值來預(yù)測因變量的均值,即用來預(yù)測,稱為均值估計。例如,已知某地區(qū)的某一月收入水平,預(yù)測該地區(qū)平均月日用雜貨支出是多少。第二種情形是用自變量的值來預(yù)測因變量的個別值,即用來預(yù)測,稱為個別值估計。例如,已知某個家庭的月收入,預(yù)測這個家庭的月日用雜貨支出是多少。值得注意的是,點估計不能給出估計置信水平。在引導(dǎo)案例中,這兩種情形下的點估計值都是。例如,選取月收入為8000元的全部家庭,他們的平均月日用雜貨支出的點估計為(元)如果知道某戶家庭的月收入為8000元,預(yù)測這戶家庭的月日用雜貨支出,也只能從平均意義說這戶家庭的月日用雜貨支出的點估計為997.635元。表9-4給出了樣本數(shù)據(jù)范圍內(nèi)不同月收入水平下,總體均值和個別值的點估計值。的區(qū)間估計(二)理論分析1案例分析2在引導(dǎo)案例中,已知,經(jīng)計算可得,,

。如果要在的顯著水平下,作出月收入為8000元全體家庭的平均月日用雜貨支出的估計區(qū)間,則有,,且

因此,在顯著水平下,平均月日用雜貨支出的估計區(qū)間為

計算結(jié)果表明,月收入水平為8000元全體家庭的平均月日用雜貨支出在955.06元與1040.21元之間,作出這種推斷的置信水平為99%。當顯著水平時,樣本數(shù)據(jù)范圍內(nèi)不同月收入水平下的估計區(qū)間如表9-5所示。

的區(qū)間估計(三)理論分析1案例分析2在引導(dǎo)案例中,已知,經(jīng)計算可得,,

。如果要在的顯著水平下,作出某一月收入為8000元家庭的月日用雜貨支出的區(qū)間估計,則有,,且

因此,在顯著水平下,該月收入水平為8000元家庭的月日用雜貨支出的估計區(qū)間為

計算結(jié)果表明,該月收入水平為8000元家庭的月日用雜貨支出在770.37元與1224.90元之間,作出這種推斷的置信水平為99%。當顯著水平時,樣本數(shù)據(jù)范圍內(nèi)不同月收入水平下的估計區(qū)間如表9-6所示。將表9-5與表9-6進行比較可以看出,的估計區(qū)間要略大于的估計區(qū)間。這是由于兩種方差的不同所造成的。如前所述,當時,的估計區(qū)間是最精確的。第一節(jié)相關(guān)分析概述第二節(jié)回歸模型與回歸方程第三節(jié)估計的回歸方程第四節(jié)檢驗和預(yù)測第五節(jié)殘差分析第六節(jié)運用SPSS進行回歸分析一、殘差圖殘差圖的概念(一)殘差圖是指以回歸方程的自變量為橫坐標,以殘差為縱坐標的散點圖。殘差圖中包含著有關(guān)模型假定的有用信息。觀察圖中各個點的分布狀況,有助于判斷模型假定的真實性。殘差圖中各點的分布情況主要有3種,如圖9-8至圖9-10所示。一元線性回歸模型的殘差圖(二)一元線性回歸模型曾假定:總體中變量x與變量y之間具有線性關(guān)系,而且各個誤差項都服從數(shù)學期望為零,方差為的同一種正態(tài)分布。如果這種假定是真實的,那么殘差圖中各個點就應(yīng)當是分布在一條水平帶中間,如圖9-8所示。如果這種假定是不真實的,且總體中對應(yīng)較大的,的方差也較大,那么殘差圖中各個點會分布在一條逐漸加寬的帶內(nèi),如圖9-9所示;或變量x與變量y之間不具有線性關(guān)系,那么殘差圖中各個點會分布在一條變得彎曲的帶內(nèi),如圖9-10所示。殘差圖的應(yīng)用(三)在引導(dǎo)案例中,對應(yīng)于各個樣本點的殘差的計算結(jié)果及殘差圖分別如表9-7和圖9-11所示。圖中各個殘差圍繞著的水平線上下波動,大體上分布在一條水平帶內(nèi),沒有證據(jù)表明模型假定是不合理的。二、標準化殘差圖概述(一)如果關(guān)于的同方差正態(tài)性假定是真實的,那么,作為隨機變量的殘差都應(yīng)服從期望值為零,方差為的正態(tài)分布。利用正態(tài)分布的性質(zhì),可定義服從標準正態(tài)分布的統(tǒng)計量:(9-24)由于均方誤差MSE是方差的一個無偏估計,且其自由度為。因此,以MSE估計方差,可得自由度為的t統(tǒng)計量,稱為標準化殘差,又稱為皮爾遜殘差,記作,計算公式為(9-25)標準化殘差圖是指以回歸方程的自變量為橫坐標,以標準化殘差為縱坐標的散點圖。如果模型假定是真實的,那么在樣本量充分大的前提下,可以期望得到大約有95%的標準化殘差介于-2和+2之間。如果有過多的點分布在這個范圍之外,那就是違反模型假定的證據(jù)。標準化殘差圖的應(yīng)用(二)引導(dǎo)案例中,40戶家庭月日用雜貨支出與月收入樣本數(shù)據(jù)所計算的標準化殘差如表9-7所示,其標準化殘差圖如圖9-12所示。圖中幾乎所有的標準化殘差都落在了-2和+2之間,沒有證據(jù)表明誤差項隨機變量服從同方差正態(tài)分布的假定是不真實的。標準化殘差的分布狀態(tài)也可用直方圖表示,如圖9-13所示。如果模型假定是真實的,將會看到一個大體以0為中心的對稱的鐘形分布。觀察圖9-13,同樣沒有發(fā)現(xiàn)明顯違反服從同方差正態(tài)分布這一假定的證據(jù)。三、正態(tài)概率圖假如要從一個標準正態(tài)分布中,隨機抽取容量為n的樣本,并有能力將這一抽樣過程無限次地重復(fù)進行下去,那么將會得到無數(shù)個容量為n的樣本。此時,每一個可能樣本中最小的那個觀測是一個隨機變量,第二小的那個觀測也是一個隨機變量。依此類推,第n小即最大的那個觀測也是一個隨機變量,這種隨機變量稱為順序統(tǒng)計量。由于樣本量為n,所以就會有n個順序統(tǒng)計量。各個順序統(tǒng)計量的數(shù)學期望稱為正態(tài)分數(shù)。這樣就會有n個正態(tài)分數(shù)。顯然,第n小的順序統(tǒng)計量的正態(tài)分數(shù),將大于第小的正態(tài)分數(shù)的累積概率,以此類推。假如抽取了一個容量為n的樣本,并根據(jù)樣本中的各個觀測計算出n個標準化殘差值,用標準正態(tài)分布分別計算出從負無窮大到每一個標準化殘差值的累積概率。按從小到大的順序?qū)⑦@n個累積概率排成一列,并與根據(jù)n個正態(tài)分數(shù)計算得出的從小到大排序的累積概率放在一起進行比較。如果誤差項服從正態(tài)分布的假定是真實的話,那么最小的標準化殘差所對應(yīng)的累積概率,就應(yīng)當接近于最小的正態(tài)分數(shù)所對應(yīng)的累積概率;第二小的標準化殘差所對應(yīng)的累積概率,就應(yīng)當接近于第二小的正態(tài)分數(shù)所對應(yīng)的累積概率,依此類推。如果用縱軸表示正態(tài)分數(shù)所對應(yīng)的,即期望的累積概率;用橫軸表示標準化殘差所對應(yīng)的,即實際觀測的累積概率,那么在圖上描繪出的各個散點就應(yīng)當密集地分布在通過坐標原點的線附近,此散點圖稱為正態(tài)概率圖。一般來說,若較多的點密集地分布在線附近,這是支持回歸模型中正態(tài)性假定的有力證據(jù)。引導(dǎo)案例的正態(tài)概率圖如圖9-14所示。圖中各散點都分布在線附近,沒有證據(jù)表明誤差項服從正態(tài)分布的假定是不真實的。四、異常值的檢測概述(一)異常值是指數(shù)據(jù)集中過大或過小的檢測值。異常值的存在對回歸直線方程的擬合、判定系數(shù)和顯著性檢驗的結(jié)果都有很大的影響。因此,檢測數(shù)據(jù)集中是否存在異常值,是數(shù)據(jù)分析人員進行回歸分析時的首要工作。造成異常值產(chǎn)生的原因主要有3種:①原始數(shù)據(jù)的檢測或登記錯誤,需重新訂正數(shù)據(jù);②抽樣的隨機性所造成的異常值,需保留這些數(shù)據(jù);③異常值的出現(xiàn)是總體本來數(shù)據(jù)結(jié)構(gòu)的一種暗示,需考慮是否增加樣本量,或考慮其他形式的模型。數(shù)據(jù)散點圖法識別異常值(二)當數(shù)據(jù)集較大時,異常值是很難直接識別的,而數(shù)據(jù)散點圖有助于識別異常值。如圖9-15所示,圖中存在一個異常值,它表現(xiàn)出與數(shù)據(jù)整體分布不相吻合的傾向。標準化殘差圖法識別異常值(三)對于一元線性回歸分析,散點圖法可以直接識別異常值。更通用、精確的識別異常值的方法是觀察標準化殘差圖。如果一個檢測值在散點圖上比其余數(shù)據(jù)點的分布趨勢有較大的偏離,那么其對應(yīng)的標準化殘差的絕對值也將會較大。如果某一觀測值的標準化殘差小于-2或大于+2,一般情況下可將它識別為異常值。如圖9-16所示,圖中存在一個異常值,其標準化殘差遠大于+2。高杠桿率點(四)自變量的觀測值是極端值的樣本稱為高杠桿率點。如圖9-17所示,該點的自變量觀測值異常地大,它的存在對回歸分析結(jié)果的影響特別大?;貧w分析若包含該點進行運算,回歸直線的斜率較小;若剔除該點,回歸直線的斜率急劇增大。對于一元線性回歸分析,借助散點圖即可識別高杠桿點。更通用和精確的識別方法是計算杠桿率的統(tǒng)計量,其計算公式為(9-26)對于一個給定的樣本數(shù)據(jù),其樣本量n和樣本均值都是確定的值,因而離差平方和也是一個確定的數(shù)。因此,對于單個檢測來說,其杠桿率值的大小變化完全取決于。是其離群傾向大小的度量,越大,其對應(yīng)的杠桿率值也就越高。通常情況下,如果一個觀測值的杠桿率,則應(yīng)將其識別為高杠桿率點。一旦發(fā)現(xiàn)高杠桿率點,首先應(yīng)查明是否為數(shù)據(jù)采集或數(shù)據(jù)錄入的錯誤。如果一個高杠桿率點的觀測值是有效的,那么就可能暗示著總體數(shù)據(jù)結(jié)構(gòu)的一種不為人知的特征,這需要擴大樣本量,獲取有關(guān)變量的一些補充數(shù)據(jù),以獲得更為合理的模型估計。第一節(jié)相關(guān)分析概述第二節(jié)回歸模型與回歸方程第三節(jié)估計的回歸方程第四節(jié)檢驗和預(yù)測第五節(jié)殘差分析第六節(jié)運用SPSS進行回歸分析一、運用SPSS進行一元線性回歸分析計算相關(guān)系數(shù)(一)(1)打開“表9-1”對應(yīng)的SPSS數(shù)據(jù)集“data9.1”。在SPSS主窗口選擇【Analyze】→【Correlate】→【Bivariate…】菜單命令,系統(tǒng)彈出如圖9-18所示的“BivariateCorrelations”對話框。(2)在此對話框中,選擇變量“月支出[yzc]”和“月收入[ysr]”,單擊按鈕,將其移到“variables:”列表框內(nèi)。單擊【OK】按鈕,系統(tǒng)輸出結(jié)果如表9-8所示。進行回歸分析(二)打開“表9-1”對應(yīng)的SPSS數(shù)據(jù)集“data9.1”。在SPSS主窗口選擇【Analyze】→【Regression】→【Linear】菜單命令,系統(tǒng)彈出如圖9-19所示的“LinearRegression”主對話框。在此對話框中選擇變量“月支出[yzc]”,單擊第一個按鈕,將其移到“Dependent”列表框內(nèi);選擇變量“月收入[ysr]”,單擊第二個按鈕,將其移到“Independent(s)”列表框內(nèi)。因為一元線性回歸分析只有一個自變量,所以在“Method”下拉列表中選擇默認項“Enter”選項即可。單擊【Statistics】按鈕,系統(tǒng)彈出如圖9-20所示的“LinearRegression:Statistics”對話框。輸出估計的線性回歸方程1在“RegressionCoefficients”欄內(nèi)選擇“Estimates”復(fù)選框,再單擊【Continue】→【OK】按鈕,系統(tǒng)輸出結(jié)果如表9-9所示。在“LinearRegression:Statistics”對話框中選擇“Modelfit”復(fù)選框,單擊【Continue】→【OK】按鈕,系統(tǒng)輸出結(jié)果如表9-10和表9-11所示。輸出F檢驗及判定系數(shù)的計算結(jié)果2在“LinearRegression:Statistics”對話框中“Residuals”欄內(nèi)選擇“CasewiseDiagnostics”進行樣本異常值檢驗,并在“Outliersoutside”的編輯框中鍵入2,設(shè)置標準化殘差的絕對值大于等于2時識別為異常值。單擊【Continue】→【OK】按鈕,系統(tǒng)輸出結(jié)果如表9-12所示。結(jié)果表明,第11號和第12號觀測值被識別為異常值。檢測異常值3在“LinearRegression”主對話框中點擊【Plots】按鈕,系統(tǒng)彈出如圖9-21所示的“LinearRegression:Plots”對話框。在此對話框中,選擇變量“*ZRESID”,單擊第一個按鈕,將其移到“Y:”列表框內(nèi);選擇變量“DEPENDNT”,單擊第二個按鈕,將其移到“X:”列表框內(nèi),系統(tǒng)將輸出關(guān)于因變量的標準化殘差圖。在“StandardizedResidualPlots”欄內(nèi)選擇“Histogram”和“Normalprobabilityplot”復(fù)選框,系統(tǒng)將輸出標準化殘差的直方圖和正態(tài)概率圖。單擊【Continue】→【OK】按鈕,系統(tǒng)輸出結(jié)果分別如圖9-11、圖9-12和圖9-13所示。繪制標準化殘差圖、標準化殘差直方圖及正態(tài)概率圖4在“LinearRegression

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論