版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
數(shù)學建模培訓回歸分析與建模主講人:黃旭東安徽師范大學數(shù)學計算機科學學院統(tǒng)計系系主任huangxdahnu@163.com2課程背景:由于客觀事物內部規(guī)律的復雜及人們認識程度的限制,無法分析實際對象內在的因果關系,建立合乎機理規(guī)律的數(shù)學模型。通過對數(shù)據(jù)的統(tǒng)計分析,找出與數(shù)據(jù)擬合最好的模型,回歸模型是用統(tǒng)計分析方法建立的最常用的一類模型。3WhatShallWeTalk…?
內容安排一、多元回歸分析二、虛擬變量模型
三、多元Logistic回歸分析一、多元回歸分析55實例1對中國國內旅游消費支出的定量研究
●國內旅游消費支出度量及增長的狀況怎樣?(消費支出度量、增長速度)●分析影響國內旅游消費支出的因素有哪些?
(如收入、閑暇時間、交通設施、人口、社會環(huán)境等)●國內旅游消費支出與各種影響因素關系的性質是什么?
(如增加、減少)●各種因素對國內旅游消費支出影響的程度和具體數(shù)量規(guī)律是什么?
(各種因素變動具體會引起旅游消費支出變動多少)●所作數(shù)量分析結果的可靠性如何?●對旅游消費增長的政策效應分析、對國內旅游消費支出發(fā)展趨勢的預測等566實例2:中國家庭用汽車市場的研究●家用汽車市場狀況如何?(用銷售量觀測)●影響汽車銷量的主要因素是什么?(如收入、價格、費用、道路狀況、政策、消費行為特征等)●各種因素對汽車銷量影響的性
質怎樣?(正、負)●各種因素影響汽車銷量的具體
數(shù)量關系是什么?●所得的分析結論是否可靠?●今后汽車市場的發(fā)展前景怎樣?應如何制定汽車的產(chǎn)業(yè)政策?677
實例3:中國股票價格波動的研究●股票價格變動的情況怎樣?
(用股價指數(shù)觀測)●影響股票價格變動的主要因素是什么?
(基本面、資金、政策、利率、公司業(yè)績、投資者信心等)●股價與各種影響因素的關系是什么?
(利空、利多)●各種因素影響的具體數(shù)量規(guī)律是什么?●所得的數(shù)量分析結果可不可靠?●今后股票價格的發(fā)展趨勢可能會怎樣?8
這類實例需要研究的共性問題:●提出所研究的經(jīng)濟問題及度量方式(如消費、股票價格、汽車)
確定作為研究對象的經(jīng)濟現(xiàn)象的變量●分析主要影響因素(根據(jù)經(jīng)濟理論、實際經(jīng)驗)
選擇若干作為影響因素的變量
●
分析各種影響因素與所研究經(jīng)濟現(xiàn)象的相互關系
決定相互聯(lián)系的數(shù)學關系式●確定所研究的經(jīng)濟問題與各種影響因素間的數(shù)量規(guī)律
需要有科學的數(shù)量分析方法●分析和檢驗所得數(shù)量結論的可靠性
需要運用統(tǒng)計檢驗方法●運用數(shù)量研究的結果作經(jīng)濟分析和經(jīng)濟預測
對數(shù)量分析的實際應用結論:以上問題的研究具有普遍性,需要運用回歸分析方法去研究8案例在一項對某社區(qū)家庭對某種消費品的消費需要調查中,得到下表所示的資料。
請用手工與軟件兩種方式對該社區(qū)家庭對該商品的消費需求支出作二元線性回歸分析,其中手工方式要求以矩陣表達式進行運算。(1)估計回歸方程的參數(shù)及隨機干擾項的方差,計算及。(2)對方程進行檢驗,對參數(shù)進行檢驗,并構造參數(shù)95%的置信區(qū)間。(3)如果商品單價變?yōu)?5元,則某一月收入為20000元的家庭的消費支出估計是多少?構造該估計值的95%的置信區(qū)間。
步驟一:建立工作表,并輸入數(shù)據(jù)(1)打開Eviews軟件,進入主界面,界面如下:(2)點擊File
Newworkfile
得到如下界面:(3)由于數(shù)據(jù)為截面數(shù)據(jù),則依次點擊:workfilefrequency→Undatedorirregular;由于數(shù)據(jù)的個數(shù)為10,則按如下列步驟依次填入:
Startdate→1
Enddate→10
→OK結果如下圖:(4)建立序列對象:定義解釋變量X1
在workfile窗口中,依次點擊:
ObjectsNewObjectseries;
在Nameforobject中輸入X1,界面如下所示:
定義解釋變量X2在workfile窗口中,依次點擊:
ObjectsNewObjectseries;
在Nameforobject中輸入X2,界面如下所示:
定義被解釋變量Y:同理,在workfile窗口中,依次點擊:
ObjectsNewObjectseries;
在Nameforobject中輸入Y,界面如下所示:(5)錄入數(shù)據(jù):同時選中X、Y右擊:
Open→asGroup→Edit+/-
相應的界面如下所示:
輸入數(shù)據(jù),數(shù)據(jù)輸入后得到如下界面:
步驟二:
第一問:(1)估計回歸方程的參數(shù)及隨機干擾項的方差,計算及。
(1)普通最小二乘估計:在主界面:Quick→EstimateEquation
出現(xiàn)如下界面:依次輸入ycx1x2(注意:要有空格)點擊ok
,得到Equation窗口,如下圖所示:從該估計中,可得到隨即干擾項的殘差平方和為2116.847根據(jù)得到隨即干擾項的方差為可決系數(shù)為調整的可決系數(shù)為第二問:
(2)對方程進行檢驗,對參數(shù)進行檢驗,并構造參數(shù)95%的置信區(qū)間。(1)F檢驗方程顯著性的檢驗是要檢驗模型中參數(shù)是否顯著不為零。原假設:備擇假設:根據(jù)樣本得到=32.29408給定顯著性水平a=0.05,查F分布表得到臨界值通過來拒絕原假設,即線性關系顯著成立(2)t檢驗提出假設在軟件中得到兩個變量的值,分別為=3.061617,=4.902030在顯著性水平a=0.05,查分布表得到可見,兩個變量的t值都大于該臨界值,所以拒絕原假設,則在95%的水平下兩個解釋變量都通過了變量的顯著性檢驗。參數(shù)的置信區(qū)間已知從回歸計算中得到根據(jù)得到的置信區(qū)間為(-17.35,-2.23)的置信區(qū)間為(0.0148,0.0424)第三問:
(3)如果商品單價變?yōu)?5元,則某一月收入為20000元的家庭的消費支出估計是多少?構造該估計值的95%的置信區(qū)間。進行以下操作:拓展工作空間:打開workfile窗口,點擊Procs→ChangeworkfileRange
將Enddate的數(shù)據(jù)10→11→OK
確定預測值的起止日期:打開workfile窗口,點擊
Procs→Sample,將10→11→OK
界面分別如下:在x1的最下方填入35,在x2的最下方填入20000,按回車鍵。在出現(xiàn)的Equation界面,點擊Forecast
出現(xiàn)相應界面如下:
在Forecastname中輸入YF在S.E(optional)中輸入W在workfile中雙擊yf可得到下面界面得到X1=35,X2=20000時家庭的消費支出為Y=856.202507115
雙擊w,得到
從上表可得根據(jù)得個值的95%的預測區(qū)間(759.41,952.99)
在95%的置信度下均值的置信區(qū)間為即為(768.6,943.8)二、虛擬變量模型
(一)虛擬變量的基本含義
(二)虛擬變量的引入
(三)虛擬變量的設置原則在對在校學生的消費行為進行的調查中,發(fā)現(xiàn)在校生的消費行為呈現(xiàn)多元化的結構。人際交往消費、手機類消費、衣著類消費、化妝品類消費、電腦類消費、旅游類消費占有較大的比例;而食品類消費、學習用品類消費不突顯。
顯然,男女生在消費上存在差異。為了了解男、女生的消費支出結構差異,應當如何建立模型?面臨的問題:如何把男女生這樣的非數(shù)量變量引
入方程?
引例:男女大學生消費真有差異嗎?
(一)虛擬變量的基本含義許多經(jīng)濟變量是可以定量度量。一些影響經(jīng)濟變量的因素是無法定量度量。為了在模型中能夠反映這些因素的影響,并提高模型的精度,需要將它們“量化”。這種“量化”通常是通過引入“虛擬變量”來完成的。根據(jù)這些因素的屬性類型,構造只取“0”或“1”的人工變量,通常稱為虛擬變量,記為D。虛擬變量只作為解釋變量。1、虛擬變量(dummyvariables)一般地,在虛擬變量的設置中:
基礎類型、肯定類型取值為1;比較類型,否定類型取值為0。例如,反映文程度的虛擬變量可取為:D=1,本科學歷D=0,非本科學歷虛擬變量能否取1、0以外的數(shù)值?同時含有一般解釋變量與虛擬變量的模型稱為虛擬變量模型或者方差分析(analysis-ofvariance:ANOVA)模型。例如,一個以性別為虛擬變量考察企業(yè)職工薪金的模型:其中:Yi為企業(yè)職工的薪金;Xi為工齡;Di=1,若是男性,Di=0,若是女性。2、虛擬變量模型(二)虛擬變量的引入虛擬變量作為解釋變量引入模型有兩種基本方式:加法方式和乘法方式。上述企業(yè)職工薪金模型中性別虛擬變量的引入采取了加法方式。在該模型中,如果仍假定E(i)=0,則企業(yè)男、女職工的平均薪金為:1、加法方式
假定2>0,則兩個函數(shù)有相同的斜率,但有不同的截距。意即,男女職工平均薪金對工齡的變化率是一樣的,但兩者的平均薪金水平相差2??梢酝ㄟ^對2的統(tǒng)計顯著性進行檢驗,以判斷企業(yè)男女職工的平均薪金水平是否有顯著差異。02將上例中的性別換成教育水平,教育水平考慮三個層次:高中以下、高中、大學及其以上。高中以下高中大學及以上在上例中同時引入性別和教育水平:女職工本科以下學歷的平均薪金:女職工本科以上學歷的平均薪金:男職工本科以下學歷的平均薪金:男職工本科以上學歷的平均薪金:加法方式引入虛擬變量,考察:截距的不同。許多情況下,斜率發(fā)生變化,或斜率、截距同時發(fā)生變化。斜率的變化可通過以乘法的方式引入虛擬變量來測度。2、乘法方式例如,根據(jù)消費理論,收入決定消費。但是,農村居民和城鎮(zhèn)居民的邊際消費傾向往往是不同的。這種消費傾向的不同可通過在消費函數(shù)中引入虛擬變量來考察。農村居民:城鎮(zhèn)居民:例如,根據(jù)消費理論,收入決定消費。但是,在自然災害、戰(zhàn)爭等反常年份,消費傾向往往發(fā)生變化。這種消費傾向的變化可通過在消費函數(shù)中引入虛擬變量來考察。例如,根據(jù)消費理論,收入決定消費。但是,從某一個時點開始,消費傾向發(fā)生變化。這種消費傾向的變化也可通過在消費函數(shù)中引入虛擬變量來考察。當截距與斜率發(fā)生變化時,則需要同時引入加法與乘法形式的虛擬變量。對于一元模型,有兩組樣本,則有可能出現(xiàn)下述四種情況中的一種:
1=1
,且2=2
,即兩個回歸相同,稱為重合回歸(CoincidentRegressions);11,但2=2
,即兩個回歸的差異僅在其截距,稱為平行回歸(ParallelRegressions);1=1
,但22
,即兩個回歸的差異僅在其斜率,稱為匯合回歸(ConcurrentRegressions);11,且22
,即兩個回歸完全不同,稱為相異回歸(DissimilarRegressions)。3、同時引入加法與乘法形式的虛擬變量通過統(tǒng)計檢驗,判斷兩個時期中消費函數(shù)的截距和斜率是否發(fā)生變化。例如,以1978-2009年的數(shù)據(jù)為樣本,以GDP作為解釋變量,建立居民消費函數(shù)。根據(jù)分析,1992年前后,自發(fā)消費和消費率都可能發(fā)生變化。(三)虛擬變量的設置原則每一定性變量(qualitativevariable)所需的虛擬變量個數(shù)要比該定性變量的狀態(tài)類別數(shù)(categories)少1。即如果有m種狀態(tài),只在模型中引入m-1個虛擬變量。例如,季節(jié)定性變量有春、夏、秋、冬4種狀態(tài),只需要設置3個虛變量:如果設置第4個虛變量,則出現(xiàn)“虛擬變量陷井”(DummyVariableTrap),為什么?解釋變量完全共線性包含季節(jié)變量的正確模型:如果在服裝需求函數(shù)模型中必須包含3個定性變量:季節(jié)(4種狀態(tài))、性別(2種狀態(tài))、職業(yè)(5種狀態(tài)),應該設置多少虛變量?模型含常數(shù)項模型不含常數(shù)項三、多元Logistic回歸分析MultipleLogisticRegressionAnalysis線性回歸模型的一個局限性是要求因變量是定量變量(定距變量、定比變量)而不能是定性變量(定序變量、定類變量)。但是在許多實際問題中,經(jīng)常出現(xiàn)因變量是定性變量(分類變量)的情況??捎糜谔幚矸诸愐蜃兞康慕y(tǒng)計分析方法有:判別分別(Discriminantanalysis)、Probit分析、Logistic回歸分析和對數(shù)線性模型等。在社會科學中,應用最多的是Logistic回歸分析。Logistic回歸分析根據(jù)因變量取值類別不同,又可以分為BinaryLogistic回歸分析和MultinomialLogistic回歸分析,BinaryLogistic回歸模型中因變量只能取兩個值1和0(虛擬因變量),而MultinomialLogistic回歸模型中因變量可以取多個值。本章將只討論BinaryLogistic回歸,并簡稱Logistic回歸。因變量只取兩個值,表示一種決策、一種結果的兩種可能性。例如,某個人能否擁有房子,受到多種因素的影響,如家庭情況、工齡、收入情況等,但最終的可能性只有兩個,要么擁有住房,要么沒有住房。我們把Y=1定義為擁有住房,Y=0定義為其它情況,即從模型角度出發(fā),不妨把事件發(fā)生的情況定義為Y=1,事件未發(fā)生的情況定義為Y=0,這樣取值為0、1的因變量可以寫為下式:我們可以采用多種方法對取值為0、1的因變量進行分析。通常以p表示事件發(fā)生的概率(事件未發(fā)生的概率為1-p),并把p看作自變量Xi的線性函數(shù),即不同形式的F(·),就有不同形式的模型,最簡單的莫過于使F(·)為一線性函數(shù),即我們可能會認為可用普通最小二乘法對上式進行估計,但因p的值一定在區(qū)間[0,1]內,而且當p接近于0或1時,自變量即使有很大變化p的值也不可能變化很大,所以對上式直接用普通最小二乘法進行估計是行不通的。從數(shù)學上看,函數(shù)p對Xi的變化在p=0或p=1的附近是不敏感的、緩慢的,且非線性的程度較高。于是要尋求一個p的函數(shù)θ(p),使得它在p=0或p=1附近時變化幅度較大,而函數(shù)的形式又不是很復雜,因此,我們引入p的Logistic變換(或稱為p的Logit變換),即其中,p/(1-p);logit(p)是因變量Y=1的差異比(oddsratio)或似然比(likelihoodratio)的自然對數(shù),稱為對數(shù)差異比(logoddsratio)、對數(shù)似然比(loglikelihoodratio)或分對數(shù)。很明顯,θ(p)以logit(0.5)=0為中心對稱(如表10-54所示),θ(p)在p=0和p=1的附近變化幅度很大,而且當p從0變化1時,θ(p)從-∞變到+∞。用θ(p)代替式(10-113)中的p就克服了前面指出的兩點困難。如果p對Xi不是線性的關系,θ(p)對Xi就可以是線性的關系了。用θ(p)代替前式中的p,得將p由θ來表示,得醫(yī)學研究中經(jīng)常遇到分類型變量二分類變量:生存與死亡有病與無病有效與無效感染與未感染多分類有序變量:疾病程度(輕度、中度、重度)治愈效果(治愈、顯效、好轉、無效)多分類無序變量:手術方法(A、B、C)就診醫(yī)院(甲、乙、丙、?。┽t(yī)學研究者經(jīng)常關心的問題哪些因素導致了人群中有的人患胃癌而有的人不患胃癌?哪些因素導致了手術后有的人感染,而有的人不感染?哪些因素導致了某種治療方法出現(xiàn)治愈、顯效、好轉、無效等不同的效果?是回歸分析問題:Y=f(x)如何解決這樣的問題?
y=f(x)y=1,0x任意存在,且不唯一不能直接分析變量y與x的關系p=p(y=1|x)=f(x)0≤p≤1,x任意Logistic回歸模型y取某個值的概率變量p與x的關系不存在1、什么是Logistic回歸分析?研究因變量y取某個值的概率變量p與自變量x的依存關系。p=p(y=1|x)=f(x)(一)Logistic回歸分析的概念2、Logist
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 幼兒園洗浴用品課程設計
- 機場網(wǎng)絡課程設計
- 多孔橋梁的設計與水生態(tài)保護匯報
- 有功功率調節(jié)課程設計
- 5G通信網(wǎng)絡應用前景展望
- 虛擬貨幣交易平臺運營及監(jiān)管協(xié)議
- 提升應變能力的課程設計
- 2024年度舞蹈工作室合同制演員協(xié)議3篇
- 企業(yè)文化與辦公環(huán)境關系研究
- 月餅制作幼兒園課程設計
- 軍事理論-綜合版智慧樹知到期末考試答案章節(jié)答案2024年國防大學
- 食用酒精生產(chǎn)工藝工廠設計
- 泌尿外科病例分析
- 財務指標中英文對照
- 鋼結構安裝工程危險源辨識與危險評價
- 脫硫除塵常用備品備件清單
- 小學二年級上冊音樂-第7課《跳竹竿》--湘教版(11張)ppt課件
- 2022年度國際象棋波爾加習題庫一步殺習題120題
- 石化、電廠工藝管道安裝施工方案
- 閥門試驗記錄填寫范本
- 一年級10以內加減法口算題(100道題_可直接打印)
評論
0/150
提交評論