數(shù)學(xué)建模講座-回歸分析1_第1頁(yè)
數(shù)學(xué)建模講座-回歸分析1_第2頁(yè)
數(shù)學(xué)建模講座-回歸分析1_第3頁(yè)
數(shù)學(xué)建模講座-回歸分析1_第4頁(yè)
數(shù)學(xué)建模講座-回歸分析1_第5頁(yè)
已閱讀5頁(yè),還剩84頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)學(xué)建模培訓(xùn)回歸分析與建模主講人:黃旭東安徽師范大學(xué)數(shù)學(xué)計(jì)算機(jī)科學(xué)學(xué)院統(tǒng)計(jì)系系主任huangxdahnu@163.com2課程背景:由于客觀事物內(nèi)部規(guī)律的復(fù)雜及人們認(rèn)識(shí)程度的限制,無(wú)法分析實(shí)際對(duì)象內(nèi)在的因果關(guān)系,建立合乎機(jī)理規(guī)律的數(shù)學(xué)模型。通過(guò)對(duì)數(shù)據(jù)的統(tǒng)計(jì)分析,找出與數(shù)據(jù)擬合最好的模型,回歸模型是用統(tǒng)計(jì)分析方法建立的最常用的一類模型。3WhatShallWeTalk…?

內(nèi)容安排一、多元回歸分析二、虛擬變量模型

三、多元Logistic回歸分析一、多元回歸分析55實(shí)例1對(duì)中國(guó)國(guó)內(nèi)旅游消費(fèi)支出的定量研究

●國(guó)內(nèi)旅游消費(fèi)支出度量及增長(zhǎng)的狀況怎樣?(消費(fèi)支出度量、增長(zhǎng)速度)●分析影響國(guó)內(nèi)旅游消費(fèi)支出的因素有哪些?

(如收入、閑暇時(shí)間、交通設(shè)施、人口、社會(huì)環(huán)境等)●國(guó)內(nèi)旅游消費(fèi)支出與各種影響因素關(guān)系的性質(zhì)是什么?

(如增加、減少)●各種因素對(duì)國(guó)內(nèi)旅游消費(fèi)支出影響的程度和具體數(shù)量規(guī)律是什么?

(各種因素變動(dòng)具體會(huì)引起旅游消費(fèi)支出變動(dòng)多少)●所作數(shù)量分析結(jié)果的可靠性如何?●對(duì)旅游消費(fèi)增長(zhǎng)的政策效應(yīng)分析、對(duì)國(guó)內(nèi)旅游消費(fèi)支出發(fā)展趨勢(shì)的預(yù)測(cè)等566實(shí)例2:中國(guó)家庭用汽車市場(chǎng)的研究●家用汽車市場(chǎng)狀況如何?(用銷售量觀測(cè))●影響汽車銷量的主要因素是什么?(如收入、價(jià)格、費(fèi)用、道路狀況、政策、消費(fèi)行為特征等)●各種因素對(duì)汽車銷量影響的性

質(zhì)怎樣?(正、負(fù))●各種因素影響汽車銷量的具體

數(shù)量關(guān)系是什么?●所得的分析結(jié)論是否可靠?●今后汽車市場(chǎng)的發(fā)展前景怎樣?應(yīng)如何制定汽車的產(chǎn)業(yè)政策?677

實(shí)例3:中國(guó)股票價(jià)格波動(dòng)的研究●股票價(jià)格變動(dòng)的情況怎樣?

(用股價(jià)指數(shù)觀測(cè))●影響股票價(jià)格變動(dòng)的主要因素是什么?

(基本面、資金、政策、利率、公司業(yè)績(jī)、投資者信心等)●股價(jià)與各種影響因素的關(guān)系是什么?

(利空、利多)●各種因素影響的具體數(shù)量規(guī)律是什么?●所得的數(shù)量分析結(jié)果可不可靠?●今后股票價(jià)格的發(fā)展趨勢(shì)可能會(huì)怎樣?8

這類實(shí)例需要研究的共性問(wèn)題:●提出所研究的經(jīng)濟(jì)問(wèn)題及度量方式(如消費(fèi)、股票價(jià)格、汽車)

確定作為研究對(duì)象的經(jīng)濟(jì)現(xiàn)象的變量●分析主要影響因素(根據(jù)經(jīng)濟(jì)理論、實(shí)際經(jīng)驗(yàn))

選擇若干作為影響因素的變量

分析各種影響因素與所研究經(jīng)濟(jì)現(xiàn)象的相互關(guān)系

決定相互聯(lián)系的數(shù)學(xué)關(guān)系式●確定所研究的經(jīng)濟(jì)問(wèn)題與各種影響因素間的數(shù)量規(guī)律

需要有科學(xué)的數(shù)量分析方法●分析和檢驗(yàn)所得數(shù)量結(jié)論的可靠性

需要運(yùn)用統(tǒng)計(jì)檢驗(yàn)方法●運(yùn)用數(shù)量研究的結(jié)果作經(jīng)濟(jì)分析和經(jīng)濟(jì)預(yù)測(cè)

對(duì)數(shù)量分析的實(shí)際應(yīng)用結(jié)論:以上問(wèn)題的研究具有普遍性,需要運(yùn)用回歸分析方法去研究8案例在一項(xiàng)對(duì)某社區(qū)家庭對(duì)某種消費(fèi)品的消費(fèi)需要調(diào)查中,得到下表所示的資料。

請(qǐng)用手工與軟件兩種方式對(duì)該社區(qū)家庭對(duì)該商品的消費(fèi)需求支出作二元線性回歸分析,其中手工方式要求以矩陣表達(dá)式進(jìn)行運(yùn)算。(1)估計(jì)回歸方程的參數(shù)及隨機(jī)干擾項(xiàng)的方差,計(jì)算及。(2)對(duì)方程進(jìn)行檢驗(yàn),對(duì)參數(shù)進(jìn)行檢驗(yàn),并構(gòu)造參數(shù)95%的置信區(qū)間。(3)如果商品單價(jià)變?yōu)?5元,則某一月收入為20000元的家庭的消費(fèi)支出估計(jì)是多少?構(gòu)造該估計(jì)值的95%的置信區(qū)間。

步驟一:建立工作表,并輸入數(shù)據(jù)(1)打開(kāi)Eviews軟件,進(jìn)入主界面,界面如下:(2)點(diǎn)擊File

Newworkfile

得到如下界面:(3)由于數(shù)據(jù)為截面數(shù)據(jù),則依次點(diǎn)擊:workfilefrequency→Undatedorirregular;由于數(shù)據(jù)的個(gè)數(shù)為10,則按如下列步驟依次填入:

Startdate→1

Enddate→10

→OK結(jié)果如下圖:(4)建立序列對(duì)象:定義解釋變量X1

在workfile窗口中,依次點(diǎn)擊:

ObjectsNewObjectseries;

在Nameforobject中輸入X1,界面如下所示:

定義解釋變量X2在workfile窗口中,依次點(diǎn)擊:

ObjectsNewObjectseries;

在Nameforobject中輸入X2,界面如下所示:

定義被解釋變量Y:同理,在workfile窗口中,依次點(diǎn)擊:

ObjectsNewObjectseries;

在Nameforobject中輸入Y,界面如下所示:(5)錄入數(shù)據(jù):同時(shí)選中X、Y右擊:

Open→asGroup→Edit+/-

相應(yīng)的界面如下所示:

輸入數(shù)據(jù),數(shù)據(jù)輸入后得到如下界面:

步驟二:

第一問(wèn):(1)估計(jì)回歸方程的參數(shù)及隨機(jī)干擾項(xiàng)的方差,計(jì)算及。

(1)普通最小二乘估計(jì):在主界面:Quick→EstimateEquation

出現(xiàn)如下界面:依次輸入ycx1x2(注意:要有空格)點(diǎn)擊ok

,得到Equation窗口,如下圖所示:從該估計(jì)中,可得到隨即干擾項(xiàng)的殘差平方和為2116.847根據(jù)得到隨即干擾項(xiàng)的方差為可決系數(shù)為調(diào)整的可決系數(shù)為第二問(wèn):

(2)對(duì)方程進(jìn)行檢驗(yàn),對(duì)參數(shù)進(jìn)行檢驗(yàn),并構(gòu)造參數(shù)95%的置信區(qū)間。(1)F檢驗(yàn)方程顯著性的檢驗(yàn)是要檢驗(yàn)?zāi)P椭袇?shù)是否顯著不為零。原假設(shè):備擇假設(shè):根據(jù)樣本得到=32.29408給定顯著性水平a=0.05,查F分布表得到臨界值通過(guò)來(lái)拒絕原假設(shè),即線性關(guān)系顯著成立(2)t檢驗(yàn)提出假設(shè)在軟件中得到兩個(gè)變量的值,分別為=3.061617,=4.902030在顯著性水平a=0.05,查分布表得到可見(jiàn),兩個(gè)變量的t值都大于該臨界值,所以拒絕原假設(shè),則在95%的水平下兩個(gè)解釋變量都通過(guò)了變量的顯著性檢驗(yàn)。參數(shù)的置信區(qū)間已知從回歸計(jì)算中得到根據(jù)得到的置信區(qū)間為(-17.35,-2.23)的置信區(qū)間為(0.0148,0.0424)第三問(wèn):

(3)如果商品單價(jià)變?yōu)?5元,則某一月收入為20000元的家庭的消費(fèi)支出估計(jì)是多少?構(gòu)造該估計(jì)值的95%的置信區(qū)間。進(jìn)行以下操作:拓展工作空間:打開(kāi)workfile窗口,點(diǎn)擊Procs→ChangeworkfileRange

將Enddate的數(shù)據(jù)10→11→OK

確定預(yù)測(cè)值的起止日期:打開(kāi)workfile窗口,點(diǎn)擊

Procs→Sample,將10→11→OK

界面分別如下:在x1的最下方填入35,在x2的最下方填入20000,按回車鍵。在出現(xiàn)的Equation界面,點(diǎn)擊Forecast

出現(xiàn)相應(yīng)界面如下:

在Forecastname中輸入YF在S.E(optional)中輸入W在workfile中雙擊yf可得到下面界面得到X1=35,X2=20000時(shí)家庭的消費(fèi)支出為Y=856.202507115

雙擊w,得到

從上表可得根據(jù)得個(gè)值的95%的預(yù)測(cè)區(qū)間(759.41,952.99)

在95%的置信度下均值的置信區(qū)間為即為(768.6,943.8)二、虛擬變量模型

(一)虛擬變量的基本含義

(二)虛擬變量的引入

(三)虛擬變量的設(shè)置原則在對(duì)在校學(xué)生的消費(fèi)行為進(jìn)行的調(diào)查中,發(fā)現(xiàn)在校生的消費(fèi)行為呈現(xiàn)多元化的結(jié)構(gòu)。人際交往消費(fèi)、手機(jī)類消費(fèi)、衣著類消費(fèi)、化妝品類消費(fèi)、電腦類消費(fèi)、旅游類消費(fèi)占有較大的比例;而食品類消費(fèi)、學(xué)習(xí)用品類消費(fèi)不突顯。

顯然,男女生在消費(fèi)上存在差異。為了了解男、女生的消費(fèi)支出結(jié)構(gòu)差異,應(yīng)當(dāng)如何建立模型?面臨的問(wèn)題:如何把男女生這樣的非數(shù)量變量引

入方程?

引例:男女大學(xué)生消費(fèi)真有差異嗎?

(一)虛擬變量的基本含義許多經(jīng)濟(jì)變量是可以定量度量。一些影響經(jīng)濟(jì)變量的因素是無(wú)法定量度量。為了在模型中能夠反映這些因素的影響,并提高模型的精度,需要將它們“量化”。這種“量化”通常是通過(guò)引入“虛擬變量”來(lái)完成的。根據(jù)這些因素的屬性類型,構(gòu)造只取“0”或“1”的人工變量,通常稱為虛擬變量,記為D。虛擬變量只作為解釋變量。1、虛擬變量(dummyvariables)一般地,在虛擬變量的設(shè)置中:

基礎(chǔ)類型、肯定類型取值為1;比較類型,否定類型取值為0。例如,反映文程度的虛擬變量可取為:D=1,本科學(xué)歷D=0,非本科學(xué)歷虛擬變量能否取1、0以外的數(shù)值?同時(shí)含有一般解釋變量與虛擬變量的模型稱為虛擬變量模型或者方差分析(analysis-ofvariance:ANOVA)模型。例如,一個(gè)以性別為虛擬變量考察企業(yè)職工薪金的模型:其中:Yi為企業(yè)職工的薪金;Xi為工齡;Di=1,若是男性,Di=0,若是女性。2、虛擬變量模型(二)虛擬變量的引入虛擬變量作為解釋變量引入模型有兩種基本方式:加法方式和乘法方式。上述企業(yè)職工薪金模型中性別虛擬變量的引入采取了加法方式。在該模型中,如果仍假定E(i)=0,則企業(yè)男、女職工的平均薪金為:1、加法方式

假定2>0,則兩個(gè)函數(shù)有相同的斜率,但有不同的截距。意即,男女職工平均薪金對(duì)工齡的變化率是一樣的,但兩者的平均薪金水平相差2。可以通過(guò)對(duì)2的統(tǒng)計(jì)顯著性進(jìn)行檢驗(yàn),以判斷企業(yè)男女職工的平均薪金水平是否有顯著差異。02將上例中的性別換成教育水平,教育水平考慮三個(gè)層次:高中以下、高中、大學(xué)及其以上。高中以下高中大學(xué)及以上在上例中同時(shí)引入性別和教育水平:女職工本科以下學(xué)歷的平均薪金:女職工本科以上學(xué)歷的平均薪金:男職工本科以下學(xué)歷的平均薪金:男職工本科以上學(xué)歷的平均薪金:加法方式引入虛擬變量,考察:截距的不同。許多情況下,斜率發(fā)生變化,或斜率、截距同時(shí)發(fā)生變化。斜率的變化可通過(guò)以乘法的方式引入虛擬變量來(lái)測(cè)度。2、乘法方式例如,根據(jù)消費(fèi)理論,收入決定消費(fèi)。但是,農(nóng)村居民和城鎮(zhèn)居民的邊際消費(fèi)傾向往往是不同的。這種消費(fèi)傾向的不同可通過(guò)在消費(fèi)函數(shù)中引入虛擬變量來(lái)考察。農(nóng)村居民:城鎮(zhèn)居民:例如,根據(jù)消費(fèi)理論,收入決定消費(fèi)。但是,在自然災(zāi)害、戰(zhàn)爭(zhēng)等反常年份,消費(fèi)傾向往往發(fā)生變化。這種消費(fèi)傾向的變化可通過(guò)在消費(fèi)函數(shù)中引入虛擬變量來(lái)考察。例如,根據(jù)消費(fèi)理論,收入決定消費(fèi)。但是,從某一個(gè)時(shí)點(diǎn)開(kāi)始,消費(fèi)傾向發(fā)生變化。這種消費(fèi)傾向的變化也可通過(guò)在消費(fèi)函數(shù)中引入虛擬變量來(lái)考察。當(dāng)截距與斜率發(fā)生變化時(shí),則需要同時(shí)引入加法與乘法形式的虛擬變量。對(duì)于一元模型,有兩組樣本,則有可能出現(xiàn)下述四種情況中的一種:

1=1

,且2=2

,即兩個(gè)回歸相同,稱為重合回歸(CoincidentRegressions);11,但2=2

,即兩個(gè)回歸的差異僅在其截距,稱為平行回歸(ParallelRegressions);1=1

,但22

,即兩個(gè)回歸的差異僅在其斜率,稱為匯合回歸(ConcurrentRegressions);11,且22

,即兩個(gè)回歸完全不同,稱為相異回歸(DissimilarRegressions)。3、同時(shí)引入加法與乘法形式的虛擬變量通過(guò)統(tǒng)計(jì)檢驗(yàn),判斷兩個(gè)時(shí)期中消費(fèi)函數(shù)的截距和斜率是否發(fā)生變化。例如,以1978-2009年的數(shù)據(jù)為樣本,以GDP作為解釋變量,建立居民消費(fèi)函數(shù)。根據(jù)分析,1992年前后,自發(fā)消費(fèi)和消費(fèi)率都可能發(fā)生變化。(三)虛擬變量的設(shè)置原則每一定性變量(qualitativevariable)所需的虛擬變量個(gè)數(shù)要比該定性變量的狀態(tài)類別數(shù)(categories)少1。即如果有m種狀態(tài),只在模型中引入m-1個(gè)虛擬變量。例如,季節(jié)定性變量有春、夏、秋、冬4種狀態(tài),只需要設(shè)置3個(gè)虛變量:如果設(shè)置第4個(gè)虛變量,則出現(xiàn)“虛擬變量陷井”(DummyVariableTrap),為什么?解釋變量完全共線性包含季節(jié)變量的正確模型:如果在服裝需求函數(shù)模型中必須包含3個(gè)定性變量:季節(jié)(4種狀態(tài))、性別(2種狀態(tài))、職業(yè)(5種狀態(tài)),應(yīng)該設(shè)置多少虛變量?模型含常數(shù)項(xiàng)模型不含常數(shù)項(xiàng)三、多元Logistic回歸分析MultipleLogisticRegressionAnalysis線性回歸模型的一個(gè)局限性是要求因變量是定量變量(定距變量、定比變量)而不能是定性變量(定序變量、定類變量)。但是在許多實(shí)際問(wèn)題中,經(jīng)常出現(xiàn)因變量是定性變量(分類變量)的情況。可用于處理分類因變量的統(tǒng)計(jì)分析方法有:判別分別(Discriminantanalysis)、Probit分析、Logistic回歸分析和對(duì)數(shù)線性模型等。在社會(huì)科學(xué)中,應(yīng)用最多的是Logistic回歸分析。Logistic回歸分析根據(jù)因變量取值類別不同,又可以分為BinaryLogistic回歸分析和MultinomialLogistic回歸分析,BinaryLogistic回歸模型中因變量只能取兩個(gè)值1和0(虛擬因變量),而MultinomialLogistic回歸模型中因變量可以取多個(gè)值。本章將只討論BinaryLogistic回歸,并簡(jiǎn)稱Logistic回歸。因變量只取兩個(gè)值,表示一種決策、一種結(jié)果的兩種可能性。例如,某個(gè)人能否擁有房子,受到多種因素的影響,如家庭情況、工齡、收入情況等,但最終的可能性只有兩個(gè),要么擁有住房,要么沒(méi)有住房。我們把Y=1定義為擁有住房,Y=0定義為其它情況,即從模型角度出發(fā),不妨把事件發(fā)生的情況定義為Y=1,事件未發(fā)生的情況定義為Y=0,這樣取值為0、1的因變量可以寫(xiě)為下式:我們可以采用多種方法對(duì)取值為0、1的因變量進(jìn)行分析。通常以p表示事件發(fā)生的概率(事件未發(fā)生的概率為1-p),并把p看作自變量Xi的線性函數(shù),即不同形式的F(·),就有不同形式的模型,最簡(jiǎn)單的莫過(guò)于使F(·)為一線性函數(shù),即我們可能會(huì)認(rèn)為可用普通最小二乘法對(duì)上式進(jìn)行估計(jì),但因p的值一定在區(qū)間[0,1]內(nèi),而且當(dāng)p接近于0或1時(shí),自變量即使有很大變化p的值也不可能變化很大,所以對(duì)上式直接用普通最小二乘法進(jìn)行估計(jì)是行不通的。從數(shù)學(xué)上看,函數(shù)p對(duì)Xi的變化在p=0或p=1的附近是不敏感的、緩慢的,且非線性的程度較高。于是要尋求一個(gè)p的函數(shù)θ(p),使得它在p=0或p=1附近時(shí)變化幅度較大,而函數(shù)的形式又不是很復(fù)雜,因此,我們引入p的Logistic變換(或稱為p的Logit變換),即其中,p/(1-p);logit(p)是因變量Y=1的差異比(oddsratio)或似然比(likelihoodratio)的自然對(duì)數(shù),稱為對(duì)數(shù)差異比(logoddsratio)、對(duì)數(shù)似然比(loglikelihoodratio)或分對(duì)數(shù)。很明顯,θ(p)以logit(0.5)=0為中心對(duì)稱(如表10-54所示),θ(p)在p=0和p=1的附近變化幅度很大,而且當(dāng)p從0變化1時(shí),θ(p)從-∞變到+∞。用θ(p)代替式(10-113)中的p就克服了前面指出的兩點(diǎn)困難。如果p對(duì)Xi不是線性的關(guān)系,θ(p)對(duì)Xi就可以是線性的關(guān)系了。用θ(p)代替前式中的p,得將p由θ來(lái)表示,得醫(yī)學(xué)研究中經(jīng)常遇到分類型變量二分類變量:生存與死亡有病與無(wú)病有效與無(wú)效感染與未感染多分類有序變量:疾病程度(輕度、中度、重度)治愈效果(治愈、顯效、好轉(zhuǎn)、無(wú)效)多分類無(wú)序變量:手術(shù)方法(A、B、C)就診醫(yī)院(甲、乙、丙、?。┽t(yī)學(xué)研究者經(jīng)常關(guān)心的問(wèn)題哪些因素導(dǎo)致了人群中有的人患胃癌而有的人不患胃癌?哪些因素導(dǎo)致了手術(shù)后有的人感染,而有的人不感染?哪些因素導(dǎo)致了某種治療方法出現(xiàn)治愈、顯效、好轉(zhuǎn)、無(wú)效等不同的效果?是回歸分析問(wèn)題:Y=f(x)如何解決這樣的問(wèn)題?

y=f(x)y=1,0x任意存在,且不唯一不能直接分析變量y與x的關(guān)系p=p(y=1|x)=f(x)0≤p≤1,x任意Logistic回歸模型y取某個(gè)值的概率變量p與x的關(guān)系不存在1、什么是Logistic回歸分析?研究因變量y取某個(gè)值的概率變量p與自變量x的依存關(guān)系。p=p(y=1|x)=f(x)(一)Logistic回歸分析的概念2、Logist

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論