建模講座相關(guān)與回歸分析_第1頁
建模講座相關(guān)與回歸分析_第2頁
建模講座相關(guān)與回歸分析_第3頁
建模講座相關(guān)與回歸分析_第4頁
建模講座相關(guān)與回歸分析_第5頁
已閱讀5頁,還剩77頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

建模講座相關(guān)與回歸分析第一頁,共八十二頁,2022年,8月28日第一節(jié)變量間的相關(guān)關(guān)系

一、變量相關(guān)的概念第二頁,共八十二頁,2022年,8月28日變量之間的關(guān)系

1.確定性關(guān)系函數(shù)關(guān)系,例如商品銷售額與銷售量2.非確定性關(guān)系相關(guān)關(guān)系,例如商品需求量與價格第三頁,共八十二頁,2022年,8月28日變量之間相關(guān)關(guān)系的示意圖相關(guān)關(guān)系線性相關(guān)非線性相關(guān)正相關(guān)負相關(guān)第四頁,共八十二頁,2022年,8月28日二、相關(guān)系數(shù)及其計算1.變量之間線性相關(guān)關(guān)系的密切程度的度量2.兩個變量之間線性相關(guān)程度的度量,也稱簡單相關(guān)系數(shù)3.根據(jù)總體全部數(shù)據(jù)計算而得的相關(guān)系數(shù),稱總體相關(guān)系數(shù),記為ρ4.根據(jù)樣本數(shù)據(jù)計算而的得相關(guān)系數(shù),稱為樣本相關(guān)系數(shù),記為r第五頁,共八十二頁,2022年,8月28日樣本相關(guān)系數(shù)(1)其中(2)(3)x和y的樣本相關(guān)系數(shù)為第六頁,共八十二頁,2022年,8月28日相關(guān)系數(shù)的取值范圍及意義1.r的取值范圍為[-1,1]2.,稱完全相關(guān),既存在線性函數(shù)關(guān)系

r=1,稱完全正相關(guān)

r=-1,稱完全負相關(guān)3.r=0,稱零相關(guān),既不存在相關(guān)關(guān)系4.r<0,稱負相關(guān)5.r>0,稱正相關(guān)6.愈大,表示相關(guān)關(guān)系愈密切第七頁,共八十二頁,2022年,8月28日例1在研究我國人均消費水平的問題中,把人均消費金額記為y;把人均國民收入記為x。我們收集到1981-1993年13年的樣本數(shù)據(jù)。數(shù)據(jù)見表1。年份人均國民收入人均消費金額年份人均國民收入人均消費金額1981393.8024919881068.86431982419.1426719891169.26991983460.8628919901250.77131984544.1132919911429.58031985668.2940619921725.99471986737.7345119932099.511481987859.97513表1我國人均國民收入與人均消費金額數(shù)據(jù)

第八頁,共八十二頁,2022年,8月28日解:根據(jù)樣本數(shù)據(jù)得得人均消費金額y與人均國民收入x的樣本相關(guān)系數(shù)為第九頁,共八十二頁,2022年,8月28日相關(guān)系數(shù)的顯著性檢驗1.檢驗兩個變量之間是否存在線性關(guān)系2.檢驗步驟⑴.⑵.在成立條件下,則⑶.對規(guī)定的顯著性水平,若則拒絕,接受。否則接受。第十頁,共八十二頁,2022年,8月28日例1的相關(guān)系數(shù)檢驗1.2.根據(jù)和,查表得3.由于因此,拒絕,認為x和y的相關(guān)系數(shù),即人均消費金額y與人均國民收入x之間的相關(guān)關(guān)系顯著。第十一頁,共八十二頁,2022年,8月28日第二節(jié)一元線性回歸1.一元線性回歸模型2.回歸參數(shù)的最小二乘估計3.回歸方程的顯著性檢驗4.預(yù)測第十二頁,共八十二頁,2022年,8月28日回歸分析與相關(guān)分析的區(qū)別1.相關(guān)分析中x和y都處于相同地位,而回歸分析中,y稱因變量,x稱自變量。2.相關(guān)分析中x和y都是隨機變量,而在回歸分析中,因變量y是隨機變量,自變量x則可以是隨機變量,也可以是非隨機變量。3.相關(guān)分析主要是描述變量之間的相關(guān)關(guān)系,而回歸分析主要是確定變量之間的內(nèi)在聯(lián)系。第十三頁,共八十二頁,2022年,8月28日回歸模型的類型示意圖回歸模型一元回歸多元回歸線性回歸非線性回歸線性回歸非線性回歸第十四頁,共八十二頁,2022年,8月28日一、一元線性回歸模型稱為一元線性回歸模型1.一元線性回歸模型只含有一個自變量x2.誤差項為隨機變量3.描述因變量y與自變量x和誤差項的關(guān)系4.和稱為模型的參數(shù)(10.4)第十五頁,共八十二頁,2022年,8月28日一元線性回歸模型的基本假定1.x為確定性變量2.誤差項滿足3..(10.5)區(qū)間估計和假設(shè)檢驗時,還進一步假定服從正態(tài)分布即當時,而則是x變動一個單位時,的相應(yīng)變化量第十六頁,共八十二頁,2022年,8月28日樣本回歸方程1.

是未知參數(shù),可以根據(jù)樣本數(shù)據(jù)作估計2.

的估計記為和,則稱為樣本回歸方程3.是樣本回歸方程的斜率,表示x每變動一個單位時,的相應(yīng)變化量。而則是樣本回歸方程的截距。即x=0時,4.設(shè)已取得樣本量為n的隨機樣本,則(10.6)(10.11)第十七頁,共八十二頁,2022年,8月28日二、參數(shù)β0,β1的最小二乘估計

1.最小二乘法是使因變量的觀察值與估計值之間的離差平方和達到最小來求和的估計和的方法,即使達到最小,稱和為和的最小二乘估計。(10.12)第十八頁,共八十二頁,2022年,8月28日2.根據(jù)微積分中求極值的原理,和應(yīng)滿足下列方程組得正規(guī)方程組解正規(guī)方程組得(10.16)(10.17)第十九頁,共八十二頁,2022年,8月28日例根據(jù)例10.1的數(shù)據(jù),建立人均消費金額y對人均國民收入的回歸方程。已求得按(10.17)式,得從而樣本回歸方程為因此當人均國民收入增長1元時,則人均消費金額增長約0.5元。第二十頁,共八十二頁,2022年,8月28日三、回歸方程的顯著性檢驗

㈠、F檢驗

1.平方和分解

用SST表示因變量的總離差平方和,反映y全部數(shù)據(jù)的離散程度,即并可分解成如下形式(10.21)(10.20)第二十一頁,共八十二頁,2022年,8月28日續(xù)而根據(jù)(10.16)式于是(10.22)其中稱為殘差平方和,是由隨機因素和其他未加控制的因素引起的,反映除x以外的其他因素對y

的影響大小。而稱為回歸平方和,是由x

和y的線性關(guān)系引起的y的取值變化,反映x對y的影響大小。第二十二頁,共八十二頁,2022年,8月28日2.計算平均平方

三個平方和的自由度⑴.SST的自由度為n-1⑵.SSR的自由度為1⑶.SSE的自由度為n-2關(guān)于自由度存在如下的關(guān)系式

n-1=(n-2)+1第二十三頁,共八十二頁,2022年,8月28日則SSE的平均平方為

SSE/(n-2)且(10.23)而SSR的平均平方為

SSR/1且回歸方程的顯著性檢驗是用回歸的平均平方與殘差的平均平方作比較,判斷因變量與自變量是否存在線性關(guān)系。續(xù)(10.24)第二十四頁,共八十二頁,2022年,8月28日3.方差分析表

一元線性回歸方程的假設(shè)檢驗是當為真時,則(10.26)前面的這些計算可以列成表格的形式,稱為方差分析表。第二十五頁,共八十二頁,2022年,8月28日方差來源平方和自由度均方F統(tǒng)計量顯著性水平回歸SSR1SSR殘差SSEn-2SSE/(n-2)--總和SSTn-1---方差分析表表10-2第二十六頁,共八十二頁,2022年,8月28日一元線性回歸方程的顯著性檢驗步驟

1.提出原假設(shè)2.計算檢驗統(tǒng)計量3.對規(guī)定的顯著性水平,若則拒絕,認為,稱回歸方程顯著。否則,接受,認為,稱回歸方程不顯著。第二十七頁,共八十二頁,2022年,8月28日例對于例10.1的方差分析已知由于得

SSR=0.52638×1798122.644=946495.8從而

SSE=SST-SSR=2453.3方差分析表見表10-3第二十八頁,共八十二頁,2022年,8月28日方差來源平方和自由度均方F值回歸946495.81946495.84244.4F0.05(1,11)=4.84殘差2453.311223.0-總和948949.112--方差分析表表10-3從而拒絕,即回歸方程顯著。第二十九頁,共八十二頁,2022年,8月28日㈡、樣本決定系數(shù)

1.表示回歸平方和占總離差平方和的比例(10.27)

2.反映樣本回歸方程的擬合優(yōu)度3.取值范圍為[0,1]4.r2愈大,說明回歸方程擬合得愈好5.樣本決定系數(shù)為樣本相關(guān)系數(shù)r的平方第三十頁,共八十二頁,2022年,8月28日例例10.1的樣本決定系數(shù)即回歸平方和占總離差平方和的99.74%第三十一頁,共八十二頁,2022年,8月28日相關(guān)系數(shù)與回歸系數(shù)之間的數(shù)量關(guān)系(10.28)這就是說與的正負號必定相同第三十二頁,共八十二頁,2022年,8月28日四、預(yù)測及應(yīng)用1.根據(jù)自變量x的取值預(yù)測y的取值2.預(yù)測可分兩種類型⑴.點預(yù)測⑵.區(qū)間預(yù)測第三十三頁,共八十二頁,2022年,8月28日㈠、點預(yù)測對于自變量x的一個取值,根據(jù)樣本回歸方程用作為的估計,稱為點預(yù)測對于例10.1,設(shè),則(10.29)第三十四頁,共八十二頁,2022年,8月28日㈡、區(qū)間預(yù)測1.對于自變量x的一個取值,根據(jù)樣本回歸方程給出的一個估計區(qū)間,稱為區(qū)間預(yù)測。2.在置信度時的預(yù)測區(qū)間為(10.30)對于例10.1,根據(jù)方差分析表得其中第三十五頁,共八十二頁,2022年,8月28日影響Δ的因素1.隨的增大而增大2.隨n的增大而減少3.隨的增大而增大第三十六頁,共八十二頁,2022年,8月28日近似區(qū)間預(yù)測當n較大,且時,則從而1.,由于,得則0.95的近似預(yù)測區(qū)間為第三十七頁,共八十二頁,2022年,8月28日2.,由于,得則0.99的近似預(yù)測區(qū)間為續(xù)第三十八頁,共八十二頁,2022年,8月28日例對于例10.1,試求人均國民收入為2300時,人均消費金額的0.95預(yù)測區(qū)間。解:已知所以人均消費金額的0.95預(yù)測區(qū)間為(1223.51,1306.27)查表得從而第三十九頁,共八十二頁,2022年,8月28日第三節(jié)多元線性回歸

一、多元線性回歸模型

㈠、多元線性回歸模型的一般形式稱為多元線性回歸模型1.多元線性回歸模型包含一個因變量與兩個或兩個以上自變量2.誤差項為隨機變量3.描述因變量y與自變量和誤差項ε的關(guān)系4.為模型的參數(shù),稱偏回歸系數(shù)(10.31)第四十頁,共八十二頁,2022年,8月28日續(xù)5.設(shè)已取得樣本量為n的隨機樣本。則多元線性回歸模型可以表示為(10.33)第四十一頁,共八十二頁,2022年,8月28日多元線性回歸模型的矩陣形式(10.33)其中第四十二頁,共八十二頁,2022年,8月28日㈡、多元線性回歸模型的基本假定1.自變量是確定性變量,且2.誤差項ε滿足3.誤差項服從正態(tài)分布從而(10.35)即(10.36)(10.37)第四十三頁,共八十二頁,2022年,8月28日㈢、多元線性回歸方程的直觀解釋1.(10.38)(10.39)2.表示保持不變時,每變動一個單位時的相應(yīng)變化量3.表示保持不變時,每變動一個單位時的相應(yīng)變化量例:用y表示空調(diào)機的銷售量,表示空調(diào)機的平均價格,表示消費者收入,則可建立二元線性回歸模型。第四十四頁,共八十二頁,2022年,8月28日二、回歸參數(shù)的估計樣本回歸方程1.是未知參數(shù),可以根據(jù)樣本數(shù)據(jù)作估計2.的估計記為,則稱為樣本回歸方程第四十五頁,共八十二頁,2022年,8月28日參數(shù)的最小二乘估計

1.使因變量的觀察值y與估計值之間的離差平方和達到最小來求,即使達到最小。稱為的最小二乘估計第四十六頁,共八十二頁,2022年,8月28日2.根據(jù)微積分中求極值的原理應(yīng)是下列正規(guī)方程組的解整理得第四十七頁,共八十二頁,2022年,8月28日3.正規(guī)方程組的矩陣形式為當?shù)哪婢仃嚧嬖跁r,則有就是的最小二乘估計,并且(10.43)(10.44)第四十八頁,共八十二頁,2022年,8月28日三、回歸方程的顯著性檢驗

㈠、擬合優(yōu)度檢驗

1.平方和分解由于從而(10.46)第四十九頁,共八十二頁,2022年,8月28日續(xù)其中稱回歸平方和,是由自變量和y的線性關(guān)系引起的y的取值變化,反映對y的影響大小,而稱殘差平方和,是由隨機因素和其他未加控制的因素引起的,反映了除以外的其他因素對y的影響大小。第五十頁,共八十二頁,2022年,8月28日2.樣本決定系數(shù)反映樣本回歸方程的擬合好壞程度,R2愈大,說明樣本回歸方程擬合得愈好。顯然,。而稱y關(guān)于的樣本復(fù)相關(guān)系數(shù),R的大小可以反映作為一個整體的與y的線性相關(guān)的密切程度。

擬合優(yōu)度的檢驗可看成是回歸方程的檢驗。(10.47)(10.48)第五十一頁,共八十二頁,2022年,8月28日3.調(diào)整的樣本決定系數(shù)由于樣本決定系數(shù)的分母SST對給定的樣本數(shù)據(jù)是不變的,而SSR與引進回歸方程的自變量個數(shù)有關(guān)。因此,應(yīng)對R2作調(diào)整,調(diào)整的樣本決定系數(shù)為第五十二頁,共八十二頁,2022年,8月28日㈡、F檢驗

1.計算平均平方

三個平方和的自由度⑴.SST的自由度為n-1⑵.SSR的自由度為p⑶.SSE的自由度為n-p-1關(guān)于自由度存在如下的關(guān)系式

n-1=p+(n-p-1)第五十三頁,共八十二頁,2022年,8月28日2.方差分析表

多元線性回歸方程的顯著性檢驗是檢驗當為真時,則(10.49)前面的這些計算結(jié)果可以列成表格的形式,稱為方差分析表。(10.50)第五十四頁,共八十二頁,2022年,8月28日方差來源平方和自由度均方F值回歸SSRpSSR/p殘差SSEn-p-1SSE/(n-p-1)總和SSTn-1-方差分析表表10-5第五十五頁,共八十二頁,2022年,8月28日多元線性回歸方程的顯著性檢驗步驟

1.提出原假設(shè)和備擇假設(shè)3.對規(guī)定的顯著性水平,若則拒絕,認為y對存在線性關(guān)系,稱回歸方程顯著。否則,認為y對之間不存在線性關(guān)系,稱回歸方程不顯著。2.計算檢驗統(tǒng)計量至少有一個不為0第五十六頁,共八十二頁,2022年,8月28日四、回歸系數(shù)的顯著性檢驗

1.當回歸方程顯著時,僅表示中至少有一個不為0,即這時并不表示每一個自變量對因變量的影響都是顯著的2.回歸系數(shù)的顯著性則是對每一個自變量都要檢驗,從而確定每一個自變量對因變量的影響是否顯著3.采用t檢驗4.對于多元線性回歸,回歸系數(shù)的顯著性檢驗與回歸方程的顯著性檢驗是兩種不同的檢驗方法第五十七頁,共八十二頁,2022年,8月28日

1.提出原假設(shè)和備擇假設(shè)回歸系數(shù)的顯著性檢驗步驟2.計算檢驗統(tǒng)計量其中而是對角線上第j個元素(10.53)第五十八頁,共八十二頁,2022年,8月28日續(xù)3.對規(guī)定的顯著性水平,若則拒絕,稱對y的影響顯著,即認為。否則接受,稱對y的影響不顯著,即認為。第五十九頁,共八十二頁,2022年,8月28日五、多元線性回歸的預(yù)測

㈠、點預(yù)測對自變量的一組取值根據(jù)樣本回歸方程用作為的估計,稱為點預(yù)測(10.54)第六十頁,共八十二頁,2022年,8月28日㈡、區(qū)間預(yù)測1.對于自變量的一組取值根據(jù)樣本回歸方程給出的一個估計區(qū)間,稱為區(qū)間預(yù)測。2.在置信度時的預(yù)測區(qū)間為其中第六十一頁,共八十二頁,2022年,8月28日近似區(qū)間預(yù)測當n較大時,且時,則從而1.,由于,得則0.95的近似預(yù)測區(qū)間為2.,由于,得則0.99的近似預(yù)測區(qū)間為第六十二頁,共八十二頁,2022年,8月28日例10.2中國民航客運量的回歸模型。為了研究我國民航客運量的變化趨勢及其成因,我們以民航客運量作為因變量y,以國民收入、消費額、鐵路客運量、民航航線里程、來華旅游入境人數(shù)為影響民航客運量的主要因素。y為民航客運量(萬人),x1為國民收入(億元),x2為消費額(億元),x3為鐵路客運量(萬人),x4為民航航線里程(萬公里),x5為來華旅游入境人數(shù)(萬人)。根據(jù)《1994年統(tǒng)計摘要》獲得1978-1993年統(tǒng)計數(shù)據(jù),見表10-6。第六十三頁,共八十二頁,2022年,8月28日表10-6年份yx1x2x3x4x51978231301018888149114.89180.921979298335021958638916.00420.391980343368825319220419.53570.251981401394127999530021.82776.711982445425830549992223.27792.4319833914736335810604422.91947.701984554565239051135326.021285.2219857447020487911211027.721783.3019869977859555210857932.432281.95198713109313638611242938.912690.231988144211738803812264537.383169.481989128313176900511380747.192450.14199016601438496639571250.682746.201991217816557109699508155.913335.651992288620223129859969383.663311.5019933383248821594910545896.084152.70我國民航客運量的有關(guān)數(shù)據(jù)第六十四頁,共八十二頁,2022年,8月28日1.求回歸系數(shù)的估計值得樣本回歸方程第六十五頁,共八十二頁,2022年,8月28日2.樣本決定系數(shù)而樣本復(fù)相關(guān)系數(shù)第六十六頁,共八十二頁,2022年,8月28日方差來源自由度平方和均方F值回歸5137911002758219527.6242殘差1052276.25227.62-總和1513843370--表10-7民航客運量回歸的方差分析表3.方差分析方差分析表明回歸方程顯著第六十七頁,共八十二頁,2022年,8月28日4.回歸系數(shù)的顯著性檢驗查表得由于所以x3對y無顯著影響,而其余各自變量均有顯著影響第六十八頁,共八十二頁,2022年,8月28日5.剔除x3,重新建立樣本回歸方程求得,方差分析見表10-8,并且回歸系數(shù)的顯著性檢驗表明,所有的自變量都有顯著影響。第六十九頁,共八十二頁,2022年,8月28日方差來源自由度平方和均方F值回歸4137887203447180693.832殘差1154651.544968.32-總和1513843370--民航客運量回歸的方差分析表表10-9方差分析表明回歸方程顯著第七十頁,共八十二頁,2022年,8月28日6.預(yù)測即

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論