大數(shù)據(jù)分析方法與應(yīng)用 課件 第3章 回歸分析_第1頁
大數(shù)據(jù)分析方法與應(yīng)用 課件 第3章 回歸分析_第2頁
大數(shù)據(jù)分析方法與應(yīng)用 課件 第3章 回歸分析_第3頁
大數(shù)據(jù)分析方法與應(yīng)用 課件 第3章 回歸分析_第4頁
大數(shù)據(jù)分析方法與應(yīng)用 課件 第3章 回歸分析_第5頁
已閱讀5頁,還剩56頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)分析方法與應(yīng)用上海理工大學(xué)主講人:耿秀麗

教授第3章回歸分析3.1線性和非線性回歸目錄CONTENTS3.2多元回歸3.3嶺回歸3.4LASSO回歸第3章回歸分析3.1線性和非線性回歸

3.1.1線性回歸及其Excel中的實(shí)現(xiàn)“回歸”一詞的英文是Regression,統(tǒng)計(jì)學(xué)上的“相關(guān)”和“回歸”的概念是高爾頓第一次使用。一些變量之間存在相關(guān)關(guān)系。如果能建立這些相關(guān)關(guān)系的數(shù)量表達(dá)式,就可以根據(jù)一個(gè)變量的值來預(yù)測(cè)另一個(gè)變量的變化。如果隨機(jī)變量y與變量間具有統(tǒng)計(jì)關(guān)系,那么每當(dāng)取定值之后,y便有相應(yīng)的概率分布與之對(duì)應(yīng)。其概率模型為:

其中y稱為因變量,x1,x2,x3,…,xn稱為自變量。y由兩部分組成,一部分是由x1,x2,x3,…,xn能夠決定的部分,記為f(x1,x2,x3,…,xn);另一部分由眾多未加考慮的因素(包括隨機(jī)因素)所產(chǎn)生的影響,它被看成隨機(jī)誤差,記為ε。f(x1,x2,x3,…,xn)稱為y對(duì)x1,x2,x3,…,xn的回歸函數(shù)。3.1線性和非線性回歸

3.1.1線性回歸及其Excel中的實(shí)現(xiàn)當(dāng)模型中的回歸函數(shù)為線性函數(shù)時(shí),即:

,為線性回歸模型。當(dāng)模型中的回歸函數(shù)為非線性函數(shù)時(shí),為非線性回歸模型。常見的非線性回歸模型包括:1)多項(xiàng)式回歸;2)指數(shù)回歸;3)對(duì)數(shù)回歸;4)冪函數(shù)回歸;5)Sigmoid函數(shù)回歸;6)非線性混合效應(yīng)模型。3.1線性和非線性回歸

3.1.1線性回歸及其Excel中的實(shí)現(xiàn)當(dāng)模型中只有一個(gè)自變量時(shí),為簡單的一元線性回歸,

其中X是自變量,Y是因變量。β0表示截距,是自變量X等于0時(shí),因變量Y的值。??1表示斜率,表示自變量X每增加1,因變量Y增加的數(shù)值。ε表示誤差。回歸方程可以表示為:3.1線性和非線性回歸

3.1.1線性回歸及其Excel中的實(shí)現(xiàn)如表所示為某市用電量指標(biāo)統(tǒng)計(jì),在Excel中繪制散點(diǎn)圖,添加趨勢(shì)線,顯示回歸方程和相關(guān)系數(shù),具體操作步驟如下:

3.1線性和非線性回歸

3.1.1線性回歸及其Excel中的實(shí)現(xiàn)1)在數(shù)據(jù)中,選擇“GDP”和“年用電量”。

3.1線性和非線性回歸

3.1.1線性回歸及其Excel中的實(shí)現(xiàn)2)插入“散點(diǎn)圖”,操作如圖所示。

3.1線性和非線性回歸

3.1.1線性回歸及其Excel中的實(shí)現(xiàn)3)單擊菜單“設(shè)計(jì)”,選擇“圖表布局”,輸入圖表和坐標(biāo)軸標(biāo)題,如圖所示。

3.1線性和非線性回歸

3.1.1線性回歸及其Excel中的實(shí)現(xiàn)4)右鍵單擊散點(diǎn)圖,選擇“添加趨勢(shì)線”,如圖所示。

3.1線性和非線性回歸

3.1.1

線性回歸及其Excel中的實(shí)現(xiàn)5)在“趨勢(shì)線選項(xiàng)”中選擇“線性”,“顯示公式”和顯示R平方值,單擊“關(guān)閉”,操作如圖所示。

3.1線性和非線性回歸

3.1.1

線性回歸及其Excel中的實(shí)現(xiàn)6)完成散點(diǎn)圖添加趨勢(shì)線的簡單一元回歸,結(jié)果如圖所示。

3.1線性和非線性回歸

3.1.2

最小二乘回歸最小二乘法(又稱最小平方法)是一種數(shù)學(xué)優(yōu)化技術(shù)。它通過最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配。利用最小二乘法可以簡便地求得未知的數(shù)據(jù),并使得這些求得的數(shù)據(jù)與實(shí)際數(shù)據(jù)之間誤差的平方和為最小。對(duì)于回歸直線,關(guān)鍵在于求解參數(shù),常用的就是最小二乘法,它是使因變量的觀察值與估計(jì)值之間的殘差平方和達(dá)到最小來求解,殘差平方和為:3.1線性和非線性回歸

3.1.2

最小二乘回歸上述方程中對(duì)系數(shù)β0,β1偏導(dǎo),并使導(dǎo)數(shù)等于0,可得3.1線性和非線性回歸

3.1.2

最小二乘回歸因變量觀察值yi和觀察值的均值的差的平方和稱為總平方和SST??偲椒胶涂梢苑纸鉃榛貧w平方和、殘差平方和:SST=SSR+SSE。

判定系數(shù)R2=SSR/SST表示因變量總差異中可以由回歸解釋的比例,1-R2=SSE/SST表示殘差平方和占總平方和的比例。R2越接近1,回歸的相關(guān)性越好。3.1線性和非線性回歸

3.1.3

非線性回歸及其Excel中的實(shí)現(xiàn)在實(shí)際問題中,很多情況下因變量與自變量之間的關(guān)系不是線性的,而是呈現(xiàn)出曲線、指數(shù)、對(duì)數(shù)等非線性形式。非線性回歸是一種統(tǒng)計(jì)建模方法,用于建立自變量和因變量之間非線性關(guān)系的模型。在非線性回歸中,自變量和因變量之間的關(guān)系可以通過非線性函數(shù)來描述,而不是簡單的線性關(guān)系。非線性回歸可以更準(zhǔn)確地?cái)M合非線性關(guān)系的數(shù)據(jù),提高模型的預(yù)測(cè)能力。3.1線性和非線性回歸

3.1.3

非線性回歸及其Excel中的實(shí)現(xiàn)按照表中的數(shù)據(jù),在Excel繪制簡單一元非線性回歸步驟如下:3.1線性和非線性回歸

3.1.3

非線性回歸及其Excel中的實(shí)現(xiàn)1)創(chuàng)建“人口”和“用電量”兩個(gè)變量樣本的散點(diǎn)圖,單擊散點(diǎn)圖,選擇“添加趨勢(shì)線”,選擇“多項(xiàng)式”,“階數(shù)”為2,如圖所示。3.1線性和非線性回歸

3.1.3

非線性回歸及其Excel中的實(shí)現(xiàn)2)選擇“顯示公式”和“顯示R平方”,操作如圖所示。3.1線性和非線性回歸

3.1.3

非線性回歸及其Excel中的實(shí)現(xiàn)3)一元非線性回歸如圖所示。3.2多元回歸3.2.1多元回歸及其概念多元線性回歸包括一個(gè)因變量y和若干自變量x1,x2,…,xn,多元線性回歸模型一般形式為:其中β0,β1,β2,β3,…,βn稱為待估參數(shù),ε為誤差項(xiàng)。則回歸方程為:對(duì)于隨機(jī)抽取的n組觀測(cè)值,如果樣本函數(shù)的參數(shù)估計(jì)值已經(jīng)得到,則有:殘差平方和為:3.2多元回歸3.2.1多元回歸及其概念根據(jù)最小二乘原理,參數(shù)估計(jì)值應(yīng)使殘差平方和達(dá)到最小,也就是尋找參數(shù)β0,β1,β2,β3,…,βn的估計(jì)值達(dá)到最小:即Qe的最小值,根據(jù)微積分知識(shí),需對(duì)Qe關(guān)于待估參數(shù)求偏導(dǎo)數(shù),并且令其為0。則3.2多元回歸3.2.1多元回歸及其概念得到回歸方程:在多元回歸中,復(fù)相關(guān)系數(shù)R2的大小和樣本數(shù)量n以及自變量的個(gè)數(shù)k有關(guān)。為了消除樣本數(shù)量和自變量個(gè)數(shù)對(duì)復(fù)相關(guān)系數(shù)的影響,計(jì)算以下修正的復(fù)相關(guān)系數(shù):由統(tǒng)計(jì)學(xué)理論可以知道,對(duì)于自變量個(gè)數(shù)為k,總平方和SST的自由度為n-1,殘差平方和SSE的自由度為n-k-1,回歸平方和SSR的自由度為k。將相應(yīng)的平方和除以自由度,得到以下方差:MST=SST/(n-1)觀察值和平均值之間的方差MSR=SSR/k預(yù)測(cè)值和平均值之間的方差

MSE=SSE/(n-k-1)觀察值和預(yù)測(cè)值之間的方差3.2多元回歸3.2.1多元回歸及其概念F檢驗(yàn)H0:β1=β2=…=βn=0H1:β1≠β2≠…≠βn≠0構(gòu)造統(tǒng)計(jì)量:統(tǒng)計(jì)量F服從F分布,自由度為(k,n-k-1)。對(duì)于給定的置信水平,查F分布表得到臨界值Fα/2,k,n-k-1,如果F>Fα/2,k,n-k-1,拒絕原假設(shè)?;貧w的總體效果顯著的。F值越大,說明回歸方程能解釋因變量變異的程度越高。3.2多元回歸3.2.2多重共線性在多元回歸中,自變量除了和因變量有很強(qiáng)的相關(guān)關(guān)系外,還和其他若干個(gè)自變量之間也存在很強(qiáng)的相關(guān)關(guān)系,這種現(xiàn)象稱為“多重共線性”。容忍度

,Ri是解釋變量Xi與方程中其他解釋變量間的復(fù)相關(guān)系數(shù),容忍度在0到1之間,越接近0,表示多重共線性越強(qiáng),越接近1,表示多重共線性越弱。方差膨脹因子是容忍度的倒數(shù):處理多重共線性最簡單的方法就是從模型中將被懷疑會(huì)引起多重共線性問題的解釋變量舍去,但是這一方法卻可能會(huì)引起其他方面的問題。因此,還要考慮其他可供選擇的方法,這些方法主要有:追加樣本信息,使用非樣本先驗(yàn)信息,使用有偏估計(jì)量等。3.2多元回歸3.2.3多元回歸及其SPSS中的實(shí)現(xiàn)為了操作更具有簡便性、快捷性,我們使用SPSS在線分析軟件SPSSPRO來實(shí)現(xiàn)多元回歸。1)放入數(shù)據(jù)文檔,如圖所示。3.2多元回歸3.2.3多元回歸及其SPSS中的實(shí)現(xiàn)2)根據(jù)數(shù)據(jù)分析需求,選擇多元回歸,如圖所示。3.2多元回歸3.2.3多元回歸及其SPSS中的實(shí)現(xiàn)3)將左側(cè)變量放入對(duì)應(yīng)的方框里,如圖所示。3.2多元回歸3.2.3多元回歸及其SPSS中的實(shí)現(xiàn)4)單擊“開始分析”,如圖所示。3.2多元回歸3.2.4居民存款影響因素回歸案例分析影響住戶存款的因素較多,如居民收入、物價(jià)、利率、人口數(shù)量、消費(fèi)習(xí)慣、生活方式、社會(huì)保障體系等。而居民收入和人口數(shù)量是決定住戶存款的核心因素。由于目前我國城鄉(xiāng)差別仍然很大,城鎮(zhèn)居民的收入遠(yuǎn)大于農(nóng)村居民的收入。這種差異可以用城鎮(zhèn)化率體現(xiàn)。本節(jié)選擇農(nóng)村居民收入、城鎮(zhèn)居民收入、人口數(shù)量、城鎮(zhèn)化率為影響因子,分析它們對(duì)住戶存款的影響。如表所示,為農(nóng)村居民收入、城鎮(zhèn)居民收入、人口數(shù)量、城鎮(zhèn)化率、住戶存款的相關(guān)數(shù)據(jù)。分析農(nóng)村居民收入、城鎮(zhèn)居民收入、人口數(shù)量、城鎮(zhèn)化率對(duì)住戶存款的多元線性回歸方程。3.2多元回歸3.2.4居民存款影響因素回歸案例分析3.2多元回歸3.2.4居民存款影響因素回歸案例分析以表中的數(shù)據(jù)為樣本,運(yùn)用最小二乘法估計(jì)回歸系數(shù)β。借助SPSSPRO軟件工具,求得回歸系數(shù),結(jié)果表所示。3.2多元回歸3.2.4居民存款影響因素回歸案例分析由表中的數(shù)據(jù)可得回歸方程:Y=-12.037+0.001X1+0.002X2+0.704X3-0.089X4。VIF都大于10,明顯存在多重共線性。如何解決多重共線性的問題,將在下一章嶺回歸中著重介紹。3.3嶺回歸3.3.1嶺回歸的概念嶺回歸是最小二乘法的改良與深化,是專門用于解決數(shù)據(jù)共線性這種病態(tài)現(xiàn)象的有效方法,對(duì)共線性數(shù)據(jù)分析具有獨(dú)到的效果。它通過放棄OLS的無偏性優(yōu)勢(shì),以損失部分信息、降低擬合精度為代價(jià),換來回歸系數(shù)的穩(wěn)定性和可靠性?;貧w分析中常用的最小二乘法是一種無偏估計(jì)。對(duì)于一個(gè)適定問題,X通常是列滿秩的:Xβ=y采用最小二乘法,定義損失函數(shù)為殘差的平方,最小化損失函數(shù):‖Xβ-y‖2上述優(yōu)化問題可以采用公式進(jìn)行直接求解:3.3嶺回歸3.3.1嶺回歸的概念當(dāng)X不是列滿秩時(shí),或者某些列之間的線性相關(guān)性比較大時(shí),X的行列式接近于0,即接近于奇異,上述問題變?yōu)橐粋€(gè)不適定問題,此時(shí)計(jì)算(XTX)-1誤差會(huì)很大,傳統(tǒng)的最小二乘法缺乏穩(wěn)定性與可靠性。為了解決上述問題,我們需要將不適定問題轉(zhuǎn)化為適定問題:我們?yōu)樯鲜鰮p失函數(shù)加上一個(gè)正則化項(xiàng),變?yōu)?/p>

,嶺回歸的目標(biāo)函數(shù)為:3.3嶺回歸3.3.1嶺回歸的概念嶺回歸求解回歸系數(shù)β方法為:在公式中,k為嶺回歸參數(shù)。k越大,消除共線性影響效果越好,但擬合精度越低;k越小,擬合精度越高,但消除共線性影響作用越差。因此,必須在二者間找到最佳平衡點(diǎn),使k既能消除共線對(duì)參數(shù)估計(jì)的影響,又盡可能小,以減小擬合方程,提高擬合精度。復(fù)相關(guān)系數(shù)Radj2是反映擬合精度的重要指標(biāo),它隨k的增大而減小。k選取原則是:在嶺軌跡變化趨于穩(wěn)定時(shí)選取其最小值。嶺回歸是對(duì)OLS的一種補(bǔ)充,基本思想就是給矩陣XTX加上一個(gè)對(duì)角陣,盡量將奇異矩陣轉(zhuǎn)化為非奇異矩陣,以使矩陣XTX盡可能可逆,以便能夠求出回歸系數(shù)和提高參數(shù)估計(jì)的穩(wěn)定性和可靠性,得到的參數(shù)更能真實(shí)反映客觀實(shí)際。但同時(shí)對(duì)回歸系數(shù)β的估計(jì)不再是無偏估計(jì),從而降低擬合精度。3.3嶺回歸3.3.2嶺回歸及其在SPSS中的實(shí)現(xiàn)按照嶺回歸法估計(jì)回歸系數(shù),運(yùn)用SPSS在線分析軟件SPSSPRO實(shí)現(xiàn)。1)放入數(shù)據(jù)文檔,如圖所示。3.3嶺回歸3.3.2嶺回歸及其在SPSS中的實(shí)現(xiàn)2)根據(jù)數(shù)據(jù)分析需求,選擇嶺回歸,如圖所示。3.3嶺回歸3.3.2嶺回歸及其在SPSS中的實(shí)現(xiàn)3)將左側(cè)變量放入對(duì)應(yīng)的方框里,如圖所示。3.3嶺回歸3.3.2嶺回歸及其在SPSS中的實(shí)現(xiàn)4)嶺回歸分析前需要結(jié)合嶺跡圖確認(rèn)K值,K值的選擇原則是各個(gè)自變量的標(biāo)準(zhǔn)化回歸系數(shù)趨于穩(wěn)定時(shí)的最小K值。5)確定好K值后,代入程序中,單擊“開始分析”,如圖所示。3.3嶺回歸3.3.3居民存款影響因素回歸案例分析選擇農(nóng)村居民收入、城鎮(zhèn)居民收入、人口數(shù)量、城鎮(zhèn)化率為影響因子,分析它們對(duì)住戶存款的影響。由于住戶存款與影響因素一般同相變化,即存在共線性,如果采用最小二乘法(OLS)估計(jì)模型的參數(shù),得到的自變量系數(shù)往往喪失了對(duì)因變量的解釋作用,不能客觀反映客觀實(shí)際。嶺回歸可以較好解決這一問題,回歸的參數(shù)可以客觀反映解釋變量與被解釋變量的關(guān)系。因此,采用嶺回歸分析它們對(duì)我國住戶存款的影響,這樣才能客觀掌握其對(duì)住戶存款的影響。3.3嶺回歸3.3.3居民存款影響因素回歸案例分析X1、X2、X3、X4分別為居民收入、城鎮(zhèn)居民收入、人口數(shù)量、城鎮(zhèn)化率,Y表示住戶存款運(yùn)用最小二乘法估計(jì)回歸系數(shù)β。借助SPSSPRO軟件工具,求得回歸系數(shù),如下表所示。3.3嶺回歸3.3.3居民存款影響因素回歸案例分析4個(gè)自變量的膨脹系數(shù)VIF均大于10,說明存在多重共線性。再觀察共線性診斷結(jié)果,如下表所示。3.3嶺回歸3.3.3居民存款影響因素回歸案例分析特征值:4維特征值為0,3、5維特征值接近于0,證實(shí)存在共線性;條件指數(shù):3、4、5維度的條件指數(shù)分別為44.762、173.466、644.245,大于30,也證明存在共線性;方差比例:X1在4維度的方差比例為0.66大于0.5,X2在4維度方差比例為0.81,大于0.5,X3在5維度的方差比例為0.99,大于0.5,X4在4維度的方差比例為0.93,大于0.5,證明存在共線性。綜上所述,自變量滿足共線性診斷的所有條件,說明4個(gè)自變量數(shù)據(jù)之間存在嚴(yán)重的共線性。此時(shí)回歸的參數(shù)不能客觀反映自變量與因變量的關(guān)系,解決的最好辦法就是采用嶺回歸法估計(jì)回歸系數(shù)。3.3嶺回歸3.3.3居民存款影響因素回歸案例分析嶺回歸分析前需要結(jié)合嶺跡圖確認(rèn)K值,K值的選擇原則是各個(gè)自變量的標(biāo)準(zhǔn)化回歸系數(shù)趨于穩(wěn)定時(shí)的最小K值。K值越小則偏差越小,K值為0時(shí)則為普通線性O(shè)LS回歸(可主觀判斷,或系統(tǒng)自動(dòng)生成)。設(shè)定迭代步長取0.01,以確定最佳嶺回歸參數(shù)K。當(dāng)K逐漸增大時(shí),各自變量系數(shù)逐步趨于穩(wěn)定,由下圖可知當(dāng)K=0.70以后,自變量系數(shù)基本不變,故最佳嶺回歸參數(shù)取K=0.60。3.3嶺回歸3.3.3居民存款影響因素回歸案例分析確定好K值后,將K=0.60加入程序再運(yùn)行,得到回歸參數(shù),如表3-6所示。4個(gè)自變量的標(biāo)準(zhǔn)化回歸系數(shù)分別為:β1=0.2319882,β2=0.2248438,β3=0.2080938,β4=0.2063121。4個(gè)自變量的標(biāo)準(zhǔn)化系數(shù)在數(shù)量級(jí)上較為合理,且皆為正數(shù),能客觀反映其對(duì)因變量的影響。根據(jù)回歸的非標(biāo)準(zhǔn)化系和常數(shù),我們可以得到最終嶺回歸方程,即:Y=-148.002167+0.0012134X1+0.0004499X2+10.0416323X3+0.5962266X43.4LASSO回歸3.4.1LASSO回歸的概念LASSO回歸方法與嶺回歸類似,通過構(gòu)造一個(gè)懲罰函數(shù)得到一個(gè)較為精煉的模型,達(dá)到壓縮回歸系數(shù)的目的,是一種處理具有復(fù)共線性數(shù)據(jù)的有偏估計(jì)。嶺回歸無法降低模型復(fù)雜度,而LASSO回歸是在嶺回歸基礎(chǔ)上的優(yōu)化,可以直接將系數(shù)懲罰壓縮至零,達(dá)到降低模型復(fù)雜度的目的。為保證回歸系數(shù)可求,在多元線性回歸目標(biāo)函數(shù)加上L1范數(shù)懲罰項(xiàng),則LASSO回歸目標(biāo)函數(shù):Y為觀測(cè)集;X為由X1,X2,…,Xn構(gòu)成的集合;β為由β1,β2,…,βn成的回歸系數(shù)集;λ為正則化系數(shù),且值非負(fù)。由LASSO回歸目標(biāo)函數(shù)可知,其引入L1范數(shù)懲罰項(xiàng),正則化系數(shù)λ的選取十分重要。調(diào)整參數(shù)λ的值,模型系數(shù)的絕對(duì)值逐漸減小,使絕對(duì)值較小的系數(shù)自動(dòng)壓縮為0,實(shí)現(xiàn)對(duì)高維數(shù)據(jù)進(jìn)行降維。3.4LASSO回歸3.4.2LASSO回歸及其SPSS中的實(shí)現(xiàn)按照LASSO回歸法的原理,在SPSSPRO中實(shí)現(xiàn)。1)放入數(shù)據(jù)文檔,如圖所示。3.4LASSO回歸3.4.2LASSO回歸及其SPSS中的實(shí)現(xiàn)2)根據(jù)數(shù)據(jù)分析需求,選擇LASSO回歸,如圖所示。3.4LASSO回歸3.4.2LASSO回歸及其SPSS中的實(shí)現(xiàn)3)將左側(cè)變量放入對(duì)應(yīng)的方框里,如圖所示。3.4LASSO回歸3.4.2LASSO回歸及其SPSS中的實(shí)現(xiàn)4)LASSO回歸中,正則化系數(shù)λ的選取十分重要。調(diào)整參數(shù)λ的值,模型系數(shù)的絕對(duì)值逐漸減小,使絕對(duì)值較小的系數(shù)自動(dòng)壓縮為0,實(shí)現(xiàn)對(duì)高維數(shù)據(jù)進(jìn)行降維。5)確定好λ值后,代入程序中,單擊“開始分析”,如圖所示。3.4LASSO回歸3.4.3居民存款影響因素回歸案例分析現(xiàn)在用LASSO回歸對(duì)居民存款影響因素進(jìn)行分析。X1、X2、X3、X4分別居民收入、城鎮(zhèn)居民收入、人口數(shù)量、城鎮(zhèn)化率,Y表示住戶存款。借助SPSSPRO軟件工具,運(yùn)用LASSO回歸進(jìn)行分析。通過交叉驗(yàn)證方法,確定λ值。λ值的選擇原則是使得LASSO模型的均方誤差最小。如圖所示為交叉驗(yàn)證圖,以可視化形式展示了使用交叉驗(yàn)證選擇λ值的情況。3.4LASSO回歸3.4.3居民存款影響因素回歸案例分析為使得均方誤差最小確定λ=0.0。代入程序運(yùn)算得出LASSO回歸系數(shù),則LASSO回歸函數(shù)為:Y=-12.592+0.001X1+0.0002X2+0.7X3-0.07X4課后習(xí)題1.設(shè)SSR=36,SSE=4,n=18。(1)計(jì)算判定系數(shù)R2并解釋其意義。(2)計(jì)算估計(jì)標(biāo)準(zhǔn)誤差Se并解釋其意義。(6)如果某地區(qū)的人均GDP為5000元,預(yù)測(cè)其人均消費(fèi)水平。(7)求人均GDP為5000元時(shí),人均消費(fèi)水平95%的置信區(qū)間和預(yù)測(cè)區(qū)間。課后習(xí)題2.下面是7個(gè)地區(qū)2000年的人均國內(nèi)生產(chǎn)總值(GDP)和人均消費(fèi)水平的統(tǒng)計(jì)數(shù)據(jù):求:(1)人均GDP作自變量,人均消費(fèi)水平作因變量,繪制散點(diǎn)圖,并說明二者之間的關(guān)系。(2)計(jì)算兩個(gè)變量之間的線性相關(guān)系數(shù),說明兩個(gè)變量之間的關(guān)系強(qiáng)度。(3)求出估計(jì)的回歸方程,并解釋回歸系數(shù)的實(shí)際意義。(4)計(jì)算判定系數(shù),并解釋其意義。(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論