應(yīng)用回歸分析(R語(yǔ)言版)(第2版) 課件 第9、10章 非線性回歸、含定性變量的回歸模型_第1頁(yè)
應(yīng)用回歸分析(R語(yǔ)言版)(第2版) 課件 第9、10章 非線性回歸、含定性變量的回歸模型_第2頁(yè)
應(yīng)用回歸分析(R語(yǔ)言版)(第2版) 課件 第9、10章 非線性回歸、含定性變量的回歸模型_第3頁(yè)
應(yīng)用回歸分析(R語(yǔ)言版)(第2版) 課件 第9、10章 非線性回歸、含定性變量的回歸模型_第4頁(yè)
應(yīng)用回歸分析(R語(yǔ)言版)(第2版) 課件 第9、10章 非線性回歸、含定性變量的回歸模型_第5頁(yè)
已閱讀5頁(yè),還剩139頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第9章非線性回歸2024/4/2319.1可化為線性回歸的曲線回歸9.2多項(xiàng)式回歸9.3非線性模型9.1可化為線性回歸的曲線回歸2024/4/232(b已知)(9.1)

曲線回歸模型只須令

即可化為y對(duì)

是線性的形式

需要指出的是,新引進(jìn)的自變量只能依賴于原始變量,而不能與未知參數(shù)有關(guān)。2024/4/2339.1可化為線性回歸的曲線回歸令,于是得到y(tǒng)關(guān)于的線性表達(dá)式

(9.2)式本來(lái)只有一個(gè)自變量x,是一元p次多項(xiàng)式回歸,在線性化后,變?yōu)閜元線性回歸。線性回歸的“線性”是針對(duì)未知參數(shù)而言的。對(duì)于回歸解釋變量的線性是非本質(zhì)的,因?yàn)榻忉屪兞渴欠蔷€性時(shí),總可以通過(guò)變量的替換把它轉(zhuǎn)化成線性的。2024/4/2349.1可化為線性回歸的曲線回歸對(duì)等式兩邊同時(shí)取自然對(duì)數(shù),得:令于是得到關(guān)于x的一元線性回歸模型2024/4/235不可線性化的曲線回歸模型,如不能通過(guò)對(duì)等式兩邊同時(shí)取自然對(duì)數(shù)的方法將回歸模型線性化,只能用非線性最小二乘方法求解。(9.3)式的誤差項(xiàng)稱為乘性誤差項(xiàng)。

(9.4)式的誤差項(xiàng)稱為加性誤差項(xiàng)。一個(gè)非線性回歸模型是否可以線性化,不僅與回歸函數(shù)的形式有關(guān),而且與誤差項(xiàng)的形式有關(guān)。

9.1可化為線性回歸的曲線回歸2024/4/2369.1可化為線性回歸的曲線回歸

在對(duì)非線性回歸模型線性化時(shí),總是假定誤差項(xiàng)的形式就是能夠使回歸模型線性化的形式,為了方便,常常省去誤差項(xiàng),僅寫出回歸函數(shù)的形式。例如把回歸模型(9.3)式簡(jiǎn)寫為。(9.3)式與(9.4)式的回歸參數(shù)的估計(jì)值是有差異的。對(duì)誤差項(xiàng)的形式,首先應(yīng)該由數(shù)據(jù)的經(jīng)濟(jì)意義來(lái)確定,然后由回歸擬合效果做檢驗(yàn)。過(guò)去,由于沒(méi)有非線性回歸軟件,人們總是希望非線性回歸模型可以線性化,因而誤差項(xiàng)的形式就假定為可以把模型線性化的形式。現(xiàn)在利用計(jì)算機(jī)軟件可以容易的解決非線性回歸問(wèn)題,因而對(duì)誤差項(xiàng)形式應(yīng)該做正確的選擇。2024/4/23710種常見(jiàn)的可線性化的曲線回歸方程9.1可化為線性回歸的曲線回歸2024/4/238除了上述10種常用的曲線外,還有幾種常用的曲線如下。1.雙曲函數(shù)

或等價(jià)地表示為

9.1可化為線性回歸的曲線回歸2024/4/239(a>0,b>0)9.1可化為線性回歸的曲線回歸2024/4/23102.S型曲線II

此S型曲線II當(dāng)a>0,b>0時(shí),是x的增函數(shù)。當(dāng)x→+∞時(shí),y→1/a

;x→-∞時(shí),y→0。

y=0與y=1/a是這條曲線的兩條漸進(jìn)線。

S型曲線有多種,其共同特點(diǎn)是曲線首先是緩慢增長(zhǎng),在達(dá)到某點(diǎn)后迅速增長(zhǎng),在超過(guò)某點(diǎn)后又變?yōu)榫徛鲩L(zhǎng),并且趨于一個(gè)穩(wěn)定值。

S型曲線在社會(huì)經(jīng)濟(jì)等很多領(lǐng)域都有應(yīng)用,例如某種產(chǎn)品的銷售量與時(shí)間的關(guān)系,樹(shù)木、農(nóng)作物的生長(zhǎng)與時(shí)間的關(guān)系等。9.1可化為線性回歸的曲線回歸2024/4/23119.1可化為線性回歸的曲線回歸例9-1

對(duì)國(guó)內(nèi)生產(chǎn)總值(GDP)的擬合。我們選取GDP指標(biāo)為因變量,單位為億元,擬合GDP關(guān)于時(shí)間t的趨勢(shì)曲線。以1990年為基準(zhǔn)年,取值為t=1,2022年t=33,1990—2022年的數(shù)據(jù)如表9-2所示:2024/4/23129.1可化為線性回歸的曲線回歸9.1可化為線性回歸的曲線回歸2024/4/23132024/4/23149.1可化為線性回歸的曲線回歸從散點(diǎn)圖中看到,GDP隨時(shí)間t

的變化趨勢(shì)大致為指數(shù)函數(shù)形式,從經(jīng)濟(jì)學(xué)角度看,當(dāng)GDP的年增長(zhǎng)速度大致相同時(shí),其趨勢(shì)線就是指數(shù)函數(shù)形式。易看出復(fù)合函數(shù),增長(zhǎng)曲線指數(shù)函數(shù)這三個(gè)曲線方程實(shí)際上是等價(jià)的。在本例中,復(fù)合函數(shù)的形式與經(jīng)濟(jì)意義更吻合。2024/4/23159.1可化為線性回歸的曲線回歸以時(shí)間t為自變量,對(duì)數(shù)據(jù)進(jìn)行擬合,我們考慮建立簡(jiǎn)單線性回歸模型和復(fù)合函數(shù)回歸模型,其中復(fù)合函數(shù)是可線性化的,只需要對(duì)式子兩邊同時(shí)取對(duì)數(shù)即可將其化為

關(guān)于t的線性函數(shù)。因此,在建立復(fù)合函數(shù)回歸模型前需要計(jì)算的值,見(jiàn)表9-2。建立簡(jiǎn)單線性回歸模型和復(fù)合函數(shù)回歸模型的計(jì)算代碼如下,其運(yùn)行結(jié)果如輸出結(jié)果9.1和圖9-3所示。2024/4/23169.1可化為線性回歸的曲線回歸9.1可化為線性回歸的曲線回歸2024/4/23179.1可化為線性回歸的曲線回歸2024/4/23189.1可化為線性回歸的曲線回歸2024/4/23192024/4/23209.1可化為線性回歸的曲線回歸由輸出結(jié)果9.1可知,線性回歸的決定系數(shù)

,殘差平方和SSE=4.9902e+11,復(fù)合函數(shù)回歸的決定系數(shù),殘差平方和SSE=0.845是按線性化后的回歸模型計(jì)算的,兩者的殘差不能直接相比。為了與線性回歸的擬合效果直接相比,可以先存儲(chǔ)復(fù)合函數(shù)y的預(yù)測(cè)值

,計(jì)算殘差序列e(見(jiàn)表9-2),然后計(jì)算出復(fù)合函數(shù)回歸的SSE=3.7065e+11,可知復(fù)合函數(shù)擬合效果優(yōu)于線性回歸。另外,從模型擬合圖中,也可直觀得到這一結(jié)論,故在解決此類問(wèn)題時(shí)應(yīng)采用復(fù)合函數(shù)回歸。9.1可化為線性回歸的曲線回歸根據(jù)輸出結(jié)果9.1中線性化后復(fù)合函數(shù)的回歸系數(shù),可以計(jì)算得到復(fù)合函數(shù)回歸系數(shù)分別為,等比系數(shù),因此回歸方程為式中,表示GDP的平均發(fā)展速度,平均增長(zhǎng)速度為13.7%。這里GDP用的是當(dāng)年現(xiàn)價(jià),包含物價(jià)上漲因素在內(nèi)。本例只是作為計(jì)算非線性回歸的示例。在實(shí)際工作中,如果需要對(duì)GDP做趨勢(shì)擬合或預(yù)測(cè),應(yīng)對(duì)此模型做一些改進(jìn),例如用不變價(jià)格代替現(xiàn)價(jià),對(duì)誤差項(xiàng)的自相關(guān)做相應(yīng)的處理;考慮到GDP的年增長(zhǎng)速度會(huì)有減緩趨勢(shì),可以給回歸函數(shù)增加適當(dāng)?shù)淖枘嵋蜃?,或采用S形曲線擬合等改進(jìn)方法。2024/4/23219.2多項(xiàng)式回歸

2024/4/23229.2.1

幾種常見(jiàn)的多項(xiàng)式回歸模型

一元二次多項(xiàng)式模型

的回歸函數(shù)

是一條拋物線方程,通常稱為二項(xiàng)式回歸函數(shù)?;貧w系數(shù)為線性效應(yīng)系數(shù),為二次效應(yīng)系數(shù)。相應(yīng)地,回歸模型稱為一元三次多項(xiàng)式模型。2024/4/23239.2多項(xiàng)式回歸

稱回歸模型為二元二階多項(xiàng)式回歸模型。它的回歸系數(shù)中分別含有兩個(gè)自變量的線性項(xiàng)系數(shù),二次項(xiàng)系數(shù)

,并含有交叉乘積項(xiàng)系數(shù)

。交叉乘積項(xiàng)表示的交互作用,系數(shù)

通常稱為交互影響系數(shù)。2024/4/23249.2.2

應(yīng)用實(shí)例

例9-2表9-3列出的數(shù)據(jù)是關(guān)于18個(gè)35歲~44歲經(jīng)理的:

前兩年平均年收入x1(千美元)風(fēng)險(xiǎn)反感(意識(shí))度x2

人壽保險(xiǎn)額y(千美元)風(fēng)險(xiǎn)反感度是根據(jù)發(fā)給每個(gè)經(jīng)理的標(biāo)準(zhǔn)調(diào)查表估算得到的,它的數(shù)值越大,風(fēng)險(xiǎn)反感就越厲害。9.2多項(xiàng)式回歸

2024/4/23259.2多項(xiàng)式回歸

研究人員想研究給定年齡組內(nèi)的經(jīng)理年平均收入,風(fēng)險(xiǎn)反感度和人壽保險(xiǎn)額的關(guān)系。研究者預(yù)計(jì),在經(jīng)理的收入和人壽保險(xiǎn)額之間成立著二次關(guān)系,并有把握認(rèn)為風(fēng)險(xiǎn)反感度對(duì)人壽保險(xiǎn)額只有線性效應(yīng),而沒(méi)有二次效應(yīng)。但是,研究者對(duì)兩個(gè)自變量是否對(duì)人壽保險(xiǎn)額有交互效應(yīng),心中沒(méi)底。因此,研究者擬合了一個(gè)二階多項(xiàng)式回歸模型并打算先檢驗(yàn)是否有交互效應(yīng),然后檢驗(yàn)風(fēng)險(xiǎn)反感的二次效應(yīng)。2024/4/23269.2多項(xiàng)式回歸

2024/4/23279.2多項(xiàng)式回歸

回歸采用逐個(gè)引入自變量的方式,這樣可以清楚地看到各項(xiàng)對(duì)回歸的貢獻(xiàn),使顯著性檢驗(yàn)更加明確。依次引入自變量以查看各變量對(duì)回歸的貢獻(xiàn),計(jì)算代碼如下:2024/4/23289.2多項(xiàng)式回歸

上述計(jì)算程序,首先是建立依次引入各變量后的回歸模型,然后依次輸出各模型的方差分析表,根據(jù)方差分析表中的結(jié)果,我們將運(yùn)行結(jié)果所得的依次引入各變量后的偏平方和以及殘差平方和進(jìn)行整理并計(jì)算偏F值,得到方差分析表見(jiàn)表9-4,其中取顯著性水平為0.05。2024/4/23299.2多項(xiàng)式回歸

全模型的SST=108041,SSE=36,SSE的自由度

。采用式(3.42)的偏F檢驗(yàn),對(duì)交互影響系數(shù)

的顯著性檢驗(yàn)的偏F值=2.00,臨界值

,交互影響系數(shù)不能通過(guò)顯著性檢驗(yàn),認(rèn)為,回歸模型中不應(yīng)該包含交互作用項(xiàng)。這個(gè)結(jié)果與人們的經(jīng)驗(yàn)相符,有了此結(jié)果,兩個(gè)自變量的效應(yīng)也就容易解釋了。此時(shí),研究者暫時(shí)決定使用無(wú)交互效應(yīng)的模型2024/4/23309.2多項(xiàng)式回歸

但仍想檢驗(yàn)風(fēng)險(xiǎn)反感度的二次效應(yīng)是否存在。這相當(dāng)于檢驗(yàn)二次效應(yīng)系數(shù)

的顯著性,這個(gè)檢驗(yàn)的偏F值等于0.93,臨界值,二次效應(yīng)系數(shù)

不能通過(guò)顯著性檢驗(yàn),認(rèn)為

,回歸模型中不應(yīng)該包含二次效應(yīng)項(xiàng)

。此時(shí),研究者決定使用簡(jiǎn)化的回歸模型2024/4/23319.2多項(xiàng)式回歸

進(jìn)一步檢驗(yàn)?zāi)昶骄杖氲亩涡?yīng)是否存在,這相當(dāng)于檢驗(yàn)二次效應(yīng)系數(shù)

的顯著性,這個(gè)檢驗(yàn)的偏F值等于385,臨界值,二次效應(yīng)系數(shù)

通過(guò)了顯著性檢驗(yàn),認(rèn)為

,回歸模型中應(yīng)該包含二次效應(yīng)項(xiàng)。得最終的回歸方程為其中,括號(hào)中的數(shù)值是標(biāo)準(zhǔn)化回歸系數(shù)。這樣,研究者可用這個(gè)回歸方程來(lái)進(jìn)一步研究經(jīng)理的年平均收入和風(fēng)險(xiǎn)反感度對(duì)人壽保險(xiǎn)額的效應(yīng)。從標(biāo)準(zhǔn)化回歸系數(shù)看到,年平均收入的二次效應(yīng)對(duì)人壽保險(xiǎn)額的影響程度最大。9.3非線性模型

2024/4/23329.3.1

非線性最小二乘非線性回歸模型一般可記為:其中,

是因變量,

非隨機(jī)向量是自變量,是未知參數(shù)向量,是隨機(jī)誤差項(xiàng)并且滿足獨(dú)立同分布假定,即2024/4/23339.3非線性模型

如果,那么式(9.8)就是前面討論的線性模型,而且必然有k=p;對(duì)于一般情況的非線性模型,參數(shù)的數(shù)目與自變量的數(shù)目并沒(méi)有一定的對(duì)應(yīng)關(guān)系,不要求k=p。對(duì)非線性回歸模型式(9.8),仍使用最小二乘法估計(jì)參數(shù)

,即求使達(dá)到最小的

,稱

為非線性最小二乘估計(jì)。2024/4/23349.3非線性模型

稱為非線性最小二乘估計(jì)的正規(guī)方程組,也可以直接極小化殘差平方和

,求出未知參數(shù)的非線性最小二乘估計(jì)值。

在假定f函數(shù)對(duì)參數(shù)

連續(xù)可微時(shí),可以利用微分法建立正規(guī)方程組,求使

達(dá)到最小的

。將Q函數(shù)對(duì)參數(shù)

求偏導(dǎo),并令其為0,得p+1個(gè)方程2024/4/23359.3非線性模型

在非線性回歸中,平方和分解式SST=SSR+SSE不再成立。類似于線性回歸中的復(fù)判定系數(shù),定義非線性回歸的相關(guān)比(也稱為相關(guān)指數(shù))為:

對(duì)于非線性最小二乘估計(jì),我們?nèi)匀恍枰鰠?shù)的區(qū)間估計(jì)、顯著性檢驗(yàn)、回歸方程的顯著性檢驗(yàn)等回歸診斷,這需要知道有關(guān)統(tǒng)計(jì)量的分布。在非線性最小二乘中,一些精確分布是很難得到的,在大樣本時(shí),可以得到近似的分布。計(jì)算機(jī)軟件在求出參數(shù)的非線性最小二乘估計(jì)值的同時(shí),還給出近似的回歸診斷結(jié)果。2024/4/23369.3.2

非線性回歸模型的應(yīng)用

例9-3一位藥物學(xué)家使用下面的非線性模型對(duì)藥物反應(yīng)擬合回歸模型:

自變量x是藥劑量,用級(jí)別表示;因變量y是藥物反應(yīng)程度,用百分?jǐn)?shù)表示。

3個(gè)參數(shù)c0、c1、c2都是非負(fù)的,根據(jù)專業(yè)知識(shí),c0的上限是100%,3個(gè)參數(shù)的初始值取為c0=100,c1=5,c2=4.8。測(cè)得9個(gè)反應(yīng)數(shù)據(jù)如表9-5:9.3非線性模型

2024/4/23379.3非線性模型

2024/4/23389.3非線性模型

通過(guò)圖9-4可以看出,y與x之間確實(shí)呈非線性關(guān)系,因此需要對(duì)數(shù)據(jù)進(jìn)行非線性回歸分析。R軟件中做非線性回歸的函數(shù)為nls(formula,data,start,…),formula部分為非線性模型的函數(shù)表達(dá)式,start為模型中未知參數(shù)的初始值,對(duì)例9.3中的數(shù)據(jù)進(jìn)行非線性回歸分析的計(jì)算代碼如下,運(yùn)行結(jié)果見(jiàn)輸出結(jié)果9.2。2024/4/23399.3非線性模型

2024/4/23409.3非線性模型

2024/4/23419.3非線性模型

由以上輸出結(jié)果可知,對(duì)參數(shù)的估計(jì)經(jīng)過(guò)6步迭代后收斂,而且相關(guān)指數(shù),說(shuō)明非線性回歸擬合效果很好。同時(shí),上述輸出結(jié)果中對(duì)參數(shù)的顯著性檢驗(yàn)顯示參數(shù)均通過(guò)顯著性檢驗(yàn)。但是,在樣本量較小的情況下,不可線性化的非線性回歸的殘差通常不滿足正態(tài)性,進(jìn)而使用t分布進(jìn)行檢驗(yàn)也是無(wú)效的,因此顯著性檢驗(yàn)的結(jié)果并不具有重要意義。另外,由上述代碼可以計(jì)算出y的預(yù)測(cè)值、殘差、殘差平方和、回歸平方和、總離差平方和等,將這些計(jì)算結(jié)果列于表中,具體可見(jiàn)表9-6。2024/4/23429.3非線性模型

2024/4/2343

本例回歸離差平方和SSR=15156.55,而總離差平方和SST=14917.89<SSR,可見(jiàn)對(duì)非線性回歸不再滿足平方和分解式,即SST≠SSR+SSE另外,非線性回歸的殘差和不等于零,本例殘差均值為0.285556≠0。當(dāng)然,如果回歸擬合的效果好,殘差的均值會(huì)接近于零的。通過(guò)以上分析可以認(rèn)為藥物反應(yīng)程度y與藥劑量x符合以下非線性回歸方程:9.3非線性模型

2024/4/2344例9-4

龔珀茲(Gompertz)模型是計(jì)量經(jīng)濟(jì)中的一個(gè)常用模型,用來(lái)擬合社會(huì)經(jīng)濟(jì)現(xiàn)象發(fā)展趨勢(shì),龔珀茲曲線形式為:其中k為變量的增長(zhǎng)上限,和是未知參數(shù)。當(dāng)k未知時(shí),龔珀茲模型不能線性化,可以用非線性最小二乘法求解。表9-7的數(shù)據(jù)是我國(guó)民航國(guó)內(nèi)航線里程數(shù)據(jù),以下用龔珀茲模型擬合這個(gè)數(shù)據(jù)。9.3非線性模型

2024/4/23459.3非線性模型

2024/4/23469.3非線性模型

使用R軟件對(duì)表9-7中的數(shù)據(jù)進(jìn)行擬合,建立非線性模型,其中需要確定未知參數(shù)的初始值。由于初始值要求不是很準(zhǔn)確,所以很多時(shí)候可以憑經(jīng)驗(yàn)給定,對(duì)于本例題,龔珀茲中的參數(shù)k

是變量的發(fā)展上限,應(yīng)該取其初始值略大于最大觀測(cè)值。本題最大觀測(cè)值是115.52,不妨取k

的初始值為120。a和b都是0~1之間的數(shù),可以取其初始值為0.5,非線性回歸的計(jì)算代碼如下。2024/4/23479.3非線性模型

按上述代碼進(jìn)行運(yùn)算會(huì)出現(xiàn)產(chǎn)生無(wú)限值不收斂的情況,這是由于回歸迭代過(guò)程中的參數(shù)取值超出了范圍,可以通過(guò)對(duì)參數(shù)的取值增加一些限制來(lái)解決。因此,將參數(shù)k的初始值調(diào)整為130,另外對(duì)其上下限也做出限制,最小值取為116即大于樣本的最大觀測(cè)值115.52,此時(shí)nls函數(shù)中的算法algorithm不能使用默認(rèn)的高斯-牛頓迭代算法,需改為port,重新運(yùn)行以下代碼,得到輸出結(jié)果9.3,并畫出國(guó)內(nèi)航線里程趨勢(shì)預(yù)測(cè)圖,如圖9-5所示。2024/4/23489.3非線性模型

2024/4/23499.3非線性模型

2024/4/2350

用非線性最小二乘法求得的三個(gè)參數(shù)估計(jì)值為k=150.0,a=0.012,b=0.893其中k=150.0為回歸模型估計(jì)的國(guó)內(nèi)航線里程增長(zhǎng)上限。如圖9-5中,圓圈代表觀測(cè)值,光滑曲線為擬合曲線,從圖中可以直觀地看到,龔珀茲曲線能夠較好刻畫數(shù)據(jù)的變化趨勢(shì)。9.3非線性模型

2024/4/2351例9-5

下表9-8是我國(guó)從1950—2013年歷年大陸總?cè)丝跀?shù),試用威布爾(Weibull)曲線擬合數(shù)據(jù)并做預(yù)測(cè)。威布爾曲線如下:其中參數(shù)k是變量發(fā)展的上限,參數(shù)a>0,0<b<1,c>0。9.3非線性模型

2024/4/23529.3非線性模型

2024/4/23539.3非線性模型

根據(jù)人口學(xué)的專業(yè)預(yù)測(cè),我國(guó)人口上限為16億人,因此取k的初值=16,取b的初值=0.5,取c的初值=1。對(duì)以上初值把t=1時(shí)(即1950年)代入,得。用21作為a的初值,做非線性最小二乘,相應(yīng)的計(jì)算代碼如下,其運(yùn)行結(jié)果見(jiàn)輸出結(jié)果9.4。2024/4/23549.3非線性模型

2024/4/23559.3非線性模型

從輸出結(jié)果中看到,人口上限k=14.91億人,這與人口學(xué)預(yù)測(cè)的人口上限有一些差異,這是因?yàn)槿丝跀?shù)會(huì)受到國(guó)家政策等許多因素的影響。如圖9-6所示是繪制的人口趨勢(shì)預(yù)測(cè)圖,其中圓圈代表觀測(cè)值,曲線代表預(yù)測(cè)值,其中預(yù)測(cè)2020年的人口數(shù)約為14億。2024/4/23569.3非線性模型

例9-6

柯布—道格拉斯生產(chǎn)函數(shù)研究。在計(jì)量經(jīng)濟(jì)學(xué)中有一種熟知的C-D(Cobb—Douglas)生產(chǎn)函數(shù)

其中,y為產(chǎn)出,K(資本)、L(勞力)為兩個(gè)投入要素,A>0為效率系數(shù)、為K和L的產(chǎn)出彈性,A,

均為待估參數(shù)。2024/4/23579.3非線性模型

是產(chǎn)出對(duì)資本投入的彈性系數(shù),度量在勞動(dòng)投入保持不變時(shí)資本投入增加1%時(shí)產(chǎn)出平均增加的百分比。

是產(chǎn)出對(duì)勞動(dòng)投入的彈性系數(shù),度量在資本投入保持不變時(shí)勞動(dòng)投入增加1%時(shí)產(chǎn)出平均增加的百分比。兩個(gè)彈性系數(shù)之和表示規(guī)模報(bào)酬(returnstoscale)。表示規(guī)模報(bào)酬不變,即1倍的投入帶來(lái)1倍的產(chǎn)出;表示規(guī)模報(bào)酬遞減,即1倍的投入帶來(lái)少于1倍的產(chǎn)出;

表示規(guī)模報(bào)酬遞增,即1倍的投入帶來(lái)大于1倍的產(chǎn)出。2024/4/23589.3非線性模型

我們假定誤差項(xiàng)

滿足基本假設(shè)式(3.7)的高斯-馬爾柯夫條件,對(duì)模型式(9.15)可以按兩種形式設(shè)定隨機(jī)誤差項(xiàng):(1)乘性誤差項(xiàng),模型形式為。(2)加性誤差項(xiàng),模型形式為。對(duì)乘性誤差項(xiàng),模型可通過(guò)兩邊取對(duì)數(shù)轉(zhuǎn)化成線性模型令,則轉(zhuǎn)化為線性回歸方程2024/4/23599.3非線性模型

2024/4/23609.3非線性模型

2024/4/2361

其中,y是國(guó)內(nèi)生產(chǎn)總值GDP(單位:億元),

K是資金投入,包括固定資產(chǎn)投資和庫(kù)存占用資金(單位:億元),

L是就業(yè)總?cè)藬?shù)(單位:萬(wàn)人)。(1)假設(shè)隨機(jī)誤差項(xiàng)為相乘的,我們可以用兩邊取對(duì)數(shù)的辦法,對(duì)數(shù)變換后的數(shù)據(jù)見(jiàn)表9-9,用R軟件做線性回歸的代碼如下,運(yùn)行代碼得到輸出結(jié)果9.5。9.3非線性模型

2024/4/23629.3非線性模型

2024/4/23639.3非線性模型

2024/4/23649.3非線性模型

得兩個(gè)彈性系數(shù)為,資金的貢獻(xiàn)率大于勞動(dòng)力的貢獻(xiàn)率。規(guī)模報(bào)酬表示規(guī)模報(bào)酬遞增。效率系數(shù)。其中系數(shù)

的顯著性概率P值=0.087,顯著性較弱。得乘性誤差項(xiàng)的C-D生產(chǎn)函數(shù)為:2024/4/2365

(2)對(duì)加性誤差項(xiàng)模型,不能通過(guò)變量變換轉(zhuǎn)化成線性模型,只能用非線性最小二乘求解未知參數(shù)。以上面乘性誤差項(xiàng)的參數(shù)為初始值做非線性最小二乘,計(jì)算代碼如下所示,得到的運(yùn)行結(jié)果見(jiàn)輸出結(jié)果9.6。9.3非線性模型

2024/4/23669.3非線性模型

由輸出結(jié)果9.6可知,參數(shù)仍未通過(guò)顯著性檢驗(yàn),與乘性誤差項(xiàng)模型的檢驗(yàn)結(jié)果一致,因此不能認(rèn)為非0。另外,得加性誤差項(xiàng)的C-D生產(chǎn)函數(shù)為2024/4/23679.3非線性模型

2024/4/23689.3非線性模型

9.3.3

其他形式的非線性回歸

非線性最小二乘是使殘差平方和達(dá)極小的方法,其最大的缺點(diǎn)是缺乏穩(wěn)健性。當(dāng)數(shù)據(jù)存在異常值時(shí),參數(shù)的估計(jì)效果變得很差。因而在一些場(chǎng)合,我們希望用一些更穩(wěn)健的殘差損失函數(shù)代替平方損失函數(shù),例如絕對(duì)值損失函數(shù)。絕對(duì)值殘差損失函數(shù)為第10章含定性變量的回歸模型

2024/4/236910.1自變量含定性變量的回歸模型10.2自變量含定性變量的回歸模型與應(yīng)用10.3因變量是定性變量的回歸模型10.4Logistic(邏輯斯蒂)回歸模型10.5多類別Logistic回歸10.6因變量順序類別的回歸10.1自變量含定性變量的回歸模型2024/4/237010.1.1

簡(jiǎn)單情況

首先討論定性變量只取兩類可能值的情況,例如研究糧食產(chǎn)量問(wèn)題,y為糧食產(chǎn)量,x為施肥量,另外再考慮氣候問(wèn)題,分為正常年份和干旱年份兩種情況,對(duì)這個(gè)問(wèn)題的數(shù)量化方法是引入一個(gè)0-1型變量D,令:

Di=1 表示正常年份

Di=0 表示干旱年份2024/4/237110.1自變量含定性變量的回歸模型糧食產(chǎn)量的回歸模型為:

其中干旱年份的糧食平均產(chǎn)量為:正常年份的糧食平均產(chǎn)量為:

2024/4/2372例10-1某經(jīng)濟(jì)學(xué)家想調(diào)查文化程度對(duì)家庭儲(chǔ)蓄的影響,在一個(gè)中等收入的樣本框中,隨機(jī)調(diào)查了13戶高學(xué)歷家庭與14戶低學(xué)歷的家庭,因變量y為上一年家庭儲(chǔ)蓄增加額,自變量x1為上一年家庭總收入,自變量x2表示家庭學(xué)歷,高學(xué)歷家庭x2=1,低學(xué)歷家庭x2=0,調(diào)查數(shù)據(jù)見(jiàn)表10-1:10.1自變量含定性變量的回歸模型2024/4/237310.1自變量含定性變量的回歸模型2024/4/237410.1自變量含定性變量的回歸模型建立y對(duì)的線性回歸,R軟件的計(jì)算代碼如下,其運(yùn)行結(jié)果見(jiàn)輸出結(jié)果10.1,其中殘差

列于表10-1中。2024/4/237510.1自變量含定性變量的回歸模型2024/4/237610.1自變量含定性變量的回歸模型

這個(gè)結(jié)果表明,中等收入的家庭每增加1萬(wàn)元收入,平均拿出3826元作為儲(chǔ)蓄。高學(xué)歷家庭每年的平均儲(chǔ)蓄額少于低學(xué)歷的家庭,平均少3700元。如果不引入家庭學(xué)歷定性變量x2,僅用y對(duì)家庭年收入x1做一元線性回歸,得判定系數(shù)R2=0.618,擬合效果不好。

兩個(gè)自變量x1與x2的系數(shù)都是顯著的,判定系數(shù)R2=0.879,回歸方程為:2024/4/2377

家庭年收入x1是連續(xù)型變量,它對(duì)回歸的貢獻(xiàn)也是不可缺少的。如果不考慮家庭年收入這個(gè)自變量,13戶高學(xué)歷家庭的平均年儲(chǔ)蓄增加額為3009.31元,14戶低學(xué)歷家庭的平均年儲(chǔ)蓄增加額為5059.36元,這樣會(huì)認(rèn)為高學(xué)歷家庭每年的儲(chǔ)蓄增加額比低學(xué)歷的家庭平均少5059.36-3009.31=2050.05元,而用回歸法算出的數(shù)值是3700元,兩者并不相等。10.1自變量含定性變量的回歸模型2024/4/2378

用回歸法算出的高學(xué)歷家庭每年的平均儲(chǔ)蓄增加額比低學(xué)歷的家庭平均少3700元,這是在假設(shè)兩者的家庭年收入相等的基礎(chǔ)上的儲(chǔ)蓄增加額差值,或者說(shuō)是消除了家庭年收入的影響后的差值,因而反映了兩者儲(chǔ)蓄增加額的真實(shí)差異。而直接由樣本計(jì)算的差值2050.05元是包含有家庭年收入影響在內(nèi)的差值,是虛假的差值。所調(diào)查的13戶高學(xué)歷家庭的平均年收入額為3.8385萬(wàn)元,14戶低學(xué)歷家庭的平均年收入額為3.4071萬(wàn)元,兩者并不相等。10.1自變量含定性變量的回歸模型2024/4/237910.1.2

復(fù)雜情況某些場(chǎng)合定性自變量可能取多類值,例如某商廈策劃營(yíng)銷方案,需要考慮銷售額的季節(jié)性影響,季節(jié)因素分為春、夏、秋、冬4種情況。為了用定性自變量反應(yīng)春、夏、秋、冬四季,我們初步設(shè)想引入如下4個(gè)0-1自變量:10.1自變量含定性變量的回歸模型2024/4/2380

可是這樣做卻產(chǎn)生了一個(gè)新的問(wèn)題,即x1+x2+x3+x4=1,構(gòu)成完全多重共線性。解決這個(gè)問(wèn)題的方法很簡(jiǎn)單,我們只需去掉一個(gè)0-1型變量,只保留3個(gè)0-1型自變量即可。例如去掉x4,只保留x1、x2、x3。對(duì)一般情況,一個(gè)定性變量有k類可能的取值時(shí),需要引入k-1個(gè)0-1型自變量。當(dāng)k=2時(shí),只需要引入一個(gè)0-1型自變量即可。10.1自變量含定性變量的回歸模型10.2自變量含定性變量的回歸模型

與應(yīng)用2024/4/238110.2.1

分段回歸例10-2表10-2給出某工廠生產(chǎn)批量與單位成本(美元)的數(shù)據(jù)。試用分段回歸建立回歸模型。2024/4/238210.2自變量含定性變量的回歸模型

與應(yīng)用2024/4/238310.2自變量含定性變量的回歸模型

與應(yīng)用

由圖10-1可看出數(shù)據(jù)在生產(chǎn)批量時(shí)發(fā)生較大變化,即批量大于500時(shí)成本明顯下降。我們考慮由兩段構(gòu)成的分段線性回歸,這可以通過(guò)引入一個(gè)0-1型虛擬自變量實(shí)現(xiàn)。假定回歸直線的斜率在處改變,建立回歸模型

其中2024/4/238410.2自變量含定性變量的回歸模型

與應(yīng)用引入兩個(gè)新的自變量這樣回歸模型轉(zhuǎn)化為標(biāo)準(zhǔn)形式的二元線性回歸模型:(10.3)式可以分解為兩個(gè)線性回歸方程:當(dāng)x1≤500時(shí),當(dāng)x1>500時(shí),2024/4/238510.2自變量含定性變量的回歸模型

與應(yīng)用2024/4/2386

用普通最小二乘法擬合模型(10.3)式得回歸方程為:

利用此模型可說(shuō)明生產(chǎn)批量小于500時(shí),每增加1個(gè)單位批量,單位成本降低0.00395美元;當(dāng)生產(chǎn)批量大于500時(shí),每增加1個(gè)單位批量,估計(jì)單位成本降低到0.00395+0.00389=0.00784(美元)。10.2自變量含定性變量的回歸模型

與應(yīng)用2024/4/238710.2自變量含定性變量的回歸模型

與應(yīng)用

以上只是根據(jù)散點(diǎn)圖從直觀上判斷本例數(shù)據(jù)應(yīng)該用折線回歸擬合,這一點(diǎn)還需要做統(tǒng)計(jì)的顯著性檢驗(yàn),這只需對(duì)(10.2)式的回歸系數(shù)做顯著性檢驗(yàn)?;貧w方程式(10.6)的相關(guān)計(jì)算代碼及輸出結(jié)果10.2如下所示。2024/4/23882024/4/238910.2自變量含定性變量的回歸模型

與應(yīng)用復(fù)決定系數(shù),擬合效果很好。對(duì)

的顯著性檢驗(yàn)的t

值=-1.685,顯著性檢驗(yàn)的概率P

值=0.153,沒(méi)有通過(guò)顯著性檢驗(yàn),不能認(rèn)為

非零。這樣,根據(jù)顯著性檢驗(yàn),還不能認(rèn)為本例數(shù)據(jù)適合擬合折線回歸。用y

對(duì)x做一元線性回歸,計(jì)算代碼如下,其運(yùn)行結(jié)果如輸出結(jié)果10.3所示。2024/4/23902024/4/2391(10.7)式說(shuō)明,批量每增加一件,成本平均下降0.006318美元,這個(gè)結(jié)論在自變量的樣本范圍300至800內(nèi)都是適用的。y對(duì)x的一元線性回歸的判定系數(shù)R2=0.952,回歸方程為:10.2自變量含定性變量的回歸模型

與應(yīng)用2024/4/239210.2自變量含定性變量的回歸模型

與應(yīng)用10.2.2

回歸系數(shù)相等的檢驗(yàn)例10-3回到例10-1的問(wèn)題,例10-1引入0-1型自變量的方法是假定儲(chǔ)蓄增加額y對(duì)家庭收入的回歸斜率與家庭文化程度無(wú)關(guān),家庭文化程度只影響回歸常數(shù)項(xiàng),這個(gè)假設(shè)是否合理,還需要做統(tǒng)計(jì)檢驗(yàn)。檢驗(yàn)方法是引入如下含有交互效應(yīng)的回歸模型:其中y為上一年家庭儲(chǔ)蓄增加額,x1為上一年家庭總收入,x2表示家庭學(xué)歷,高學(xué)歷家庭x2=1,低學(xué)歷家庭x2=0。2024/4/239310.2自變量含定性變量的回歸模型

與應(yīng)用高學(xué)歷家庭x2=1,

低學(xué)歷家庭x2=0,

回歸模型(10.8)式可以分解為對(duì)高學(xué)歷和對(duì)低學(xué)歷家庭的兩個(gè)線性回歸模型,分別為:2024/4/239410.2自變量含定性變量的回歸模型

與應(yīng)用可見(jiàn),高學(xué)歷家庭的回歸常數(shù)為

,回歸系數(shù)為;低學(xué)歷家庭的回歸常數(shù)為

,回歸系數(shù)為

。要檢驗(yàn)兩個(gè)回歸方程的回歸系數(shù)是否相等,等價(jià)于對(duì)回歸模型式(10.8)做參數(shù)的假設(shè)檢驗(yàn)當(dāng)拒絕H0時(shí),認(rèn)為,這時(shí)高學(xué)歷與低學(xué)歷家庭的儲(chǔ)蓄回歸模型實(shí)際上被拆分為兩個(gè)不同的回歸模型(10.9)和(10.10)式。當(dāng)不拒絕H0時(shí),認(rèn)為,這時(shí)高學(xué)歷與低學(xué)歷家庭的儲(chǔ)蓄回歸模型是如下形式的聯(lián)合回歸模型:2024/4/239510.2自變量含定性變量的回歸模型

與應(yīng)用(10.11)正是例10-1所建立的回歸模型。建立式(10.8)的回歸模型的計(jì)算代碼及運(yùn)行代碼的輸出結(jié)果10.4如下所示。2024/4/239610.2自變量含定性變量的回歸模型

與應(yīng)用從輸出結(jié)果10.4中看到,對(duì)

顯著性檢驗(yàn)的顯著性概率P=0.247,應(yīng)該不拒絕原假設(shè),認(rèn)為例10-1采用的回歸模型式(10.11)是正確的。另外,輸出結(jié)果10.4中

的回歸系數(shù)

的顯著性概率為0.760,也沒(méi)有通過(guò)顯著性檢驗(yàn),并且比

的顯著性更低,是否應(yīng)該首先剔除

而保留?回答是否定的,因?yàn)檫@樣做與經(jīng)濟(jì)意義不符。對(duì)回歸模型式(10.9)與式(10.10),若,表明兩個(gè)回歸方程的常數(shù)項(xiàng)相等;若,表明兩個(gè)回歸方程的斜率相等。經(jīng)濟(jì)學(xué)家首先關(guān)心的是兩個(gè)回歸方程的斜率是否相等,其次才關(guān)心常數(shù)項(xiàng)是否相等。通常認(rèn)為,回歸常數(shù)項(xiàng)是在自變量為零時(shí)y的平均值,但在本例中則沒(méi)有這種現(xiàn)實(shí)意義。這是因?yàn)楸纠菍?duì)中等收入家庭的儲(chǔ)蓄分析,收入為零的家庭的儲(chǔ)蓄增加額超出了本模型所包含的范圍。本例的回歸常數(shù)項(xiàng)僅是與儲(chǔ)蓄增加額的平均值有關(guān)的一個(gè)數(shù)值。2024/4/239710.2自變量含定性變量的回歸模型

與應(yīng)用10.3因變量是定性變量的回歸模型2024/4/2398

在許多社會(huì)經(jīng)濟(jì)問(wèn)題中,所研究的因變量往往只有兩個(gè)可能結(jié)果,這樣的因變量也可用虛擬變量來(lái)表示,虛擬變量的取值可取0或1。10.3.1

定性因變量的回歸方程的意義

設(shè)因變量y是只取0,1兩個(gè)值的定性變量,考慮簡(jiǎn)單線性回歸模型在這種y只取0,1兩個(gè)值的情況下,因變量均值有著特殊的意義。2024/4/239910.3因變量是定性變量的回歸模型由于是0-1型貝努利隨機(jī)變量,則得如下概率分布:根據(jù)離散型隨機(jī)變量期望值的定義,可得得到所以,作為由回歸函數(shù)給定的因變量均值,是自變量水平為

時(shí)的概率。對(duì)因變量均值的這種解釋既適用于這里的簡(jiǎn)單線性回歸函數(shù),也適用于復(fù)雜的多元回歸函數(shù)。當(dāng)因變量是0-1變量時(shí),因變量均值總是代表給定自變量時(shí)y=1的概率。2024/4/2310010.3因變量是定性變量的回歸模型10.3.2

定性因變量回歸的特殊問(wèn)題1.離散非正態(tài)誤差項(xiàng)。對(duì)一個(gè)取值為0和1的因變量,誤差項(xiàng)只能取兩個(gè)值:當(dāng)時(shí),

當(dāng)時(shí),顯然,誤差項(xiàng)是兩點(diǎn)型離散分布,當(dāng)然正態(tài)誤差回歸模型的假定就不適用了。2024/4/2310110.3因變量是定性變量的回歸模型2.零均值異方差性。

當(dāng)因變量是定性變量時(shí),誤差項(xiàng)仍然保持零均值,這時(shí)出現(xiàn)的另一個(gè)問(wèn)題是誤差項(xiàng)的方差不相等。0-1型隨機(jī)變量的方差為

的方差依賴于,是異方差,不滿足線性回歸方程的基本假定。2024/4/2310210.3因變量是定性變量的回歸模型3.回歸方程的限制

對(duì)于普通的線性回歸所具有的上述三個(gè)問(wèn)題,我們需要構(gòu)造出能夠滿足以上限制的回歸模型。

當(dāng)因變量為0-1虛擬變量時(shí),回歸方程代表概率分布,所以因變量均值受到如下限制:

對(duì)一般的回歸方程本身并不具有這種限制,線性回歸方程將會(huì)超出這個(gè)限制范圍。2024/4/2310310.4Logistic回歸模型

10.4.1分組數(shù)據(jù)的Logistic回歸模型

針對(duì)0-1型因變量產(chǎn)生的問(wèn)題,我們對(duì)回歸模型應(yīng)該做兩個(gè)方面的改進(jìn)。

第一,回歸函數(shù)應(yīng)該改用限制在[0,1]區(qū)間內(nèi)的連續(xù)曲線,而不能再沿用直線回歸方程。限制在[0,1]區(qū)間內(nèi)的連續(xù)曲線有很多,例如所有連續(xù)型隨機(jī)變量的分布函數(shù)都符合要求,我們常用的是Logistic函數(shù)與正態(tài)分布函數(shù)。Logistic函數(shù)的形式為2024/4/2310410.4Logistic回歸模型

2024/4/2310510.4Logistic回歸模型

2024/4/2310610.4Logistic回歸模型

第二,因變量本身只取0、1兩個(gè)離散值,不適于直接作為回歸模型中的因變量。由于回歸函數(shù)表示在自變量為的條件下的平均值,而是0-1型隨機(jī)變量,因而就是在自變量為的條件下等于1的比例。這提示我們可以用等于1的比例代替本身作為因變量。下面通過(guò)一個(gè)例子來(lái)說(shuō)明Logistic回歸模型的應(yīng)用。2024/4/23107例10-4

在一次住房展銷會(huì)上,與房地產(chǎn)商簽定初步購(gòu)房意向書(shū)的共有n=313名顧客中,在隨后的3個(gè)月的時(shí)間內(nèi),只有一部分顧客確實(shí)購(gòu)買了房屋。購(gòu)買了房屋的顧客記為1,沒(méi)有購(gòu)買房屋的顧客記為0。以顧客的年家庭收入(萬(wàn)元)為自變量x,對(duì)如下的數(shù)據(jù),建立Logistic回歸模型。10.4Logistic回歸模型

2024/4/2310810.4Logistic回歸模型

2024/4/2310910.4Logistic回歸模型

Logistic回歸方程為其中c為分組數(shù)據(jù)的組數(shù),本例c=9。做線性化變換,令上式的變換稱為邏輯(Logit)變換,得(10.16)(10.18)

(10.17)

2024/4/23110計(jì)算出經(jīng)驗(yàn)回歸方程為

(10.19)判定系數(shù)r2=0.9243,顯著性檢驗(yàn)P值≈0,高度顯著。還原為(10.16)式的Logistic回歸方程為利用(10.20)式可以對(duì)購(gòu)房比例做預(yù)測(cè),例如對(duì)x0=8,(10.20)10.4Logistic回歸模型

2024/4/2311110.4Logistic回歸模型

我們用Logistic回歸模型成功地?cái)M合了因變量為定性變量的回歸模型,但是仍然存在一個(gè)不足之處,就是異方差性并沒(méi)有解決,(10.18)式的回歸模型不是等方差的,應(yīng)該對(duì)(10.18)式用加權(quán)最小二乘估計(jì)。當(dāng)較大時(shí),的近似方差為:其中,因而選取權(quán)數(shù)為:(10.21)(10.22)2024/4/2311210.4Logistic回歸模型

對(duì)例10-4重新用加權(quán)最小二乘做估計(jì),計(jì)算代碼如下所示,其運(yùn)行結(jié)果見(jiàn)輸出結(jié)果10.5。2024/4/2311310.4Logistic回歸模型

2024/4/23114用加權(quán)最小二乘法得到的Logistic回歸方程為對(duì)x0=8時(shí)的購(gòu)房比例做預(yù)測(cè)(10.23)10.4Logistic回歸模型

2024/4/2311510.4Logistic回歸模型

10.4.2未分組數(shù)據(jù)的Logistic回歸模型

設(shè)y是0-1型變量,是與y相關(guān)的確定性變量,n組觀測(cè)數(shù)據(jù)為與的關(guān)系為:其中函數(shù)f(x)是值域在[0,1]區(qū)間內(nèi)的單調(diào)增函數(shù)。對(duì)于Logistic回歸2024/4/2311610.4Logistic回歸模型

由于是均值為的0-1型分布,概率函數(shù)為:可以把的概率函數(shù)合寫為:于是的似然函數(shù)為:(10.25)2024/4/2311710.4Logistic回歸模型

代入得對(duì)數(shù)似然函數(shù)Logistic回歸極大似然估計(jì)就是選取的估計(jì)值使上式達(dá)極大。(10.26)2024/4/23118例10-5臨床醫(yī)學(xué)中為了研究麻醉劑用量與患者是否保持靜止的關(guān)系,對(duì)30名患者在手術(shù)前15分鐘給予一定濃度的麻醉劑后的情況進(jìn)行了記錄。記錄數(shù)據(jù)見(jiàn)表10-4中,其中麻醉劑濃度為自變量x,患者是否保持靜止為因變量y,y取1時(shí)表示患者靜止,y取0時(shí)表示患者有移動(dòng),試建立y關(guān)于x的Logistic回歸模型。本例數(shù)據(jù)來(lái)自于R軟件DAAG包中自帶的anesthetic數(shù)據(jù)集。10.4Logistic回歸模型

2024/4/2311910.4Logistic回歸模型

2024/4/23120在R中對(duì)0-1型因變量做logistic回歸的函數(shù)為glm(),該函數(shù)主要用來(lái)建立廣義線性模型,當(dāng)glm()函數(shù)中的參數(shù)family=binomial(表明分布族為二項(xiàng)分布),聯(lián)系函數(shù)link=“l(fā)ogit”時(shí),建立的回歸模型為L(zhǎng)ogistic回歸模型。對(duì)例10-5中的數(shù)據(jù)建立Logistic回歸模型的計(jì)算代碼如下,運(yùn)行代碼后得到輸出結(jié)果10.6。10.4Logistic回歸模型

2024/4/2312110.4Logistic回歸模型

2024/4/2312210.4Logistic回歸模型

輸出結(jié)果10.6中的zvalue的計(jì)算公式類似于線性回歸中tvalue,即其中,是參數(shù)的估計(jì)值(Estimate),

是估計(jì)參數(shù)的標(biāo)準(zhǔn)差(Std.Error)。在假設(shè)成立時(shí),Z近似服從標(biāo)準(zhǔn)正態(tài)分布,因此檢驗(yàn)的P值為

為標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù)。由該檢驗(yàn)可知,回歸系數(shù)是顯著的,回歸方程為2024/4/2312310.4Logistic回歸模型

10.4.3Probit回歸模型Probit回歸稱為單位概率回歸,與Logistic回歸相似,也是擬合0-1型因變量回歸的方法,其回歸函數(shù)是(10.28)(10.29)用樣本比例

代替概率,表示為樣本回歸模型2024/4/2312410.4Logistic回歸模型

例10-6使用例10-4的購(gòu)房數(shù)據(jù),首先計(jì)算出的數(shù)值,見(jiàn)表10-5。以為因變量,以年家庭收入x為自變量做普通最小二乘線性回歸,得回歸方程或等價(jià)地表示為對(duì)與用Logistic回歸計(jì)算的預(yù)測(cè)值很接近。2024/4/2312510.4Logistic回歸模型

2024/4/2312610.4Logistic回歸模型

使用R軟件可以直接做Probit回歸,做Probit回歸的函數(shù)仍為glm(),其中只需將聯(lián)系函數(shù)設(shè)為link=“probit”,對(duì)于已整理的分組數(shù)據(jù)在使用glm()函數(shù)建立Probit模型時(shí),需要以購(gòu)房比例作為因變量,簽訂意向書(shū)人數(shù)作為權(quán)重,以下為相應(yīng)的計(jì)算代碼,運(yùn)行后得到輸出結(jié)果10.7。2024/4/2312710.4Logistic回歸模型

2024/4/2312810.4Logistic回歸模型

由輸出結(jié)果10.7得回歸方程該結(jié)果與前面普通最小二乘的結(jié)果(10.30)很接近,在R軟件中也可以對(duì)該分組數(shù)據(jù)做Logistic回歸,具體代碼如下:運(yùn)行代碼后,可得到回歸方程為這也與用最小二乘法所得到的Logistic回歸方程式(10.19)很接近。10.5多類別Logistic回歸2024/4/23129

當(dāng)定性因變量y取k個(gè)類別時(shí),記為1,2,…,k。這里的數(shù)字1,2,…,k只是名義代號(hào),并沒(méi)有大小順序的含義。因變量y取值于每個(gè)類別的概率與一組自變量有關(guān),對(duì)于樣本數(shù)據(jù),多類別Logistic回歸模型第i

組樣本的因變量

取第j個(gè)類別的概率為:(10.34)

2024/4/23130

上式中各回歸系數(shù)不是惟一確定的,每個(gè)回歸系數(shù)同時(shí)加減一個(gè)常數(shù)后的數(shù)值保持不變。為此,把分母的第一項(xiàng)中的系數(shù)都設(shè)為0,得到回歸函數(shù)的表達(dá)式(10.35)

這個(gè)表達(dá)式中每個(gè)回歸系數(shù)都是唯一確定的,第一個(gè)類別的回歸系數(shù)都取0,其他類別回歸系數(shù)數(shù)值的大小都以第一個(gè)類別為參照。10.5多類別Logistic回歸2024/4/2313110.5多類別Logistic回歸R中對(duì)多分類變量進(jìn)行l(wèi)ogistic回歸,可以使用mlogit包中的mlogit()函數(shù),也可以使用nnet包中的multinom()函數(shù)。此處,使用mlogit()函數(shù)并以mlogit包中自帶的數(shù)據(jù)Fishing為例,說(shuō)明多類別Logistic回歸的應(yīng)用。例10-7本例數(shù)據(jù)選自R軟件自帶的鳶尾花數(shù)據(jù)集(iris),它包含了150個(gè)樣本、4個(gè)解釋變量和1個(gè)響應(yīng)變量。其中,響應(yīng)變量為花的類別,分別是山鳶尾(Iris-setosa)、變色鳶尾(Iris-versicolor)和維吉尼亞鳶尾(Iris-virginica);解釋變量分別為花萼長(zhǎng)度(SepalLength)、花萼寬度(SepalWidth)、花瓣長(zhǎng)度(PetalLength)和花瓣寬度(PetalWidth)。接下來(lái),采用該數(shù)據(jù)建立多類別logistic回歸模型,模型中僅使用花萼長(zhǎng)度做自變量,具體計(jì)算代碼如下所示。2024/4/2313210.5多類別Logistic回歸運(yùn)行上述代碼,得到輸出結(jié)果10.8。2024/4/2313310.5多類別Logistic回歸2024/4/23134

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論