




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
.z離散模型§1離散回歸模型一、離散變量如果我們用0,1,2,3,4,…說明企業(yè)每年的專利申請數(shù),申請數(shù)是一個(gè)離散的變量,但是它是間隔尺度變量,該變量類型不在本章的討論的被解釋變量中。但離散變量0和1可以用來說明企業(yè)每年是否申請專利的事項(xiàng),類似表示狀態(tài)的變量才在本章的討論中。在專利申請數(shù)的問題中,離散變量0,1,2,3和4等數(shù)字具有具體的經(jīng)濟(jì)含義,不能隨意更改;而在是否申請專利的兩個(gè)選擇對象的選擇問題中,數(shù)字0和1只是用于區(qū)別兩種不同的選擇,是表示一種狀態(tài)。本專題討論有序尺度變量和名義尺度變量的被解釋變量。二、離散因變量在討論家庭是否購房的問題中,可將家庭購置住房的決策用數(shù)字1表示,而將家庭不購置住房的決策用數(shù)字0表示。如果*作為說明*種具體經(jīng)濟(jì)問題的自變量,則應(yīng)用以前介紹虛擬變量知識(shí)就足夠了。如果現(xiàn)在考慮*個(gè)家庭在一定的條件下是否購置住房問題時(shí),則表示狀態(tài)的虛擬變量就不再是自變量,而是作為一個(gè)被說明對象的因變量出現(xiàn)在經(jīng)濟(jì)模型中。因此,需要對以前討論虛擬變量的分析方法進(jìn)展擴(kuò)展,以便使其能夠適應(yīng)分析類似家庭是否購房的問題。因?yàn)樵诩彝ナ欠褓彿繂栴}中,虛擬因變量的具體取值僅是為了區(qū)別不同的狀態(tài),所以將通過虛擬因變量討論備擇對象選擇的回歸模型稱為離散選擇模型。三、線性概率模型現(xiàn)在約定備擇對象的0和1兩項(xiàng)選擇模型中,下標(biāo)i表示各不同的經(jīng)濟(jì)主體,取值0或l的因變量表示經(jīng)濟(jì)主體的具體選擇結(jié)果,而影響經(jīng)濟(jì)主體進(jìn)展選擇的自變量。如果選擇響應(yīng)YES的概率為,則經(jīng)濟(jì)主體選擇響應(yīng)NO的概率為,則=。根據(jù)經(jīng)典線性回歸,我們知道其總體回歸方程是條件期望建立的,這使我們想象可以構(gòu)造線性概率模型描述兩個(gè)響應(yīng)水平的線性概率回歸模型可推知,根據(jù)統(tǒng)計(jì)數(shù)據(jù)得到的回歸結(jié)果并不一定能夠保證回歸模型的因變量擬合值界于[0,1]。如果通過回歸模型式得到的因變量擬合值完全偏離0或l兩個(gè)數(shù)值,則描述兩項(xiàng)選擇的回歸模型的實(shí)際用途就受到很大的限制。為防止出現(xiàn)回歸模型的因變量預(yù)測值偏離0或1的情形,需要限制因變量的取值圍并對回歸模型式進(jìn)展必要的修正。由于要對其進(jìn)展修正,則其模型就會(huì)改變,模型改變會(huì)導(dǎo)致似然函數(shù)改變,這就是我們下面要討論的。現(xiàn)在我們討論的模型與判別分析的目的是一樣的,但有區(qū)別。§2二元離散選擇模型一、效用函數(shù)為了使得二元選擇問題的有進(jìn)一步研究可能,首先建立一個(gè)效用函數(shù)。在討論家庭是否購房的問題中,可將家庭購置住房的決策用數(shù)字1表示,而將家庭不購置住房的決策用數(shù)字0表示。用表示第個(gè)人選擇買房的效用,表示第個(gè)人選擇不買房的效用。其效用均為隨機(jī)變量,于是有〔1〕將(1)-(2),得記:則有,格林稱該模型為潛回歸。這是二元選擇模型的切入點(diǎn)。稱為過渡變量〔潛在的〕,這個(gè)變量是不可觀測的。當(dāng)效用差大于零,則應(yīng)該選“1〞,即購房;當(dāng)效用差小于零,則應(yīng)該選“0〞,即不購房。故此處已經(jīng)通過,將自變量與事件發(fā)生的概率聯(lián)系起來了。為概率提供了一個(gè)潛在的構(gòu)造模型?,F(xiàn)在的問題是服從何種分布.既然是分布函數(shù),則必須滿足分布函數(shù)的條件.二、兩類常用的模型根據(jù)以上的分析,我們的問題已經(jīng)轉(zhuǎn)化為作為有什么形狀,即密度函數(shù)具有什么樣的函數(shù)形式。采用累積標(biāo)準(zhǔn)正態(tài)概率分布函數(shù)的模型稱作Probit模型,或概率單位模型,用正態(tài)分布的累積概率作為Probit模型的預(yù)測概率。另外logistic函數(shù)也能滿足這樣的要求,采用logistic函數(shù)的模型稱作logit模型,或?qū)?shù)單位模型。注:分布在此時(shí)是以y軸為對稱?!惨弧矻ogit模型因?yàn)槿绻覀內(nèi)〔.〕為邏輯函數(shù)〔LOGIT〕,即〔滿足分布函數(shù)的條件〕,有為了更簡化模型,我們令,,則有==〔非線性〕〔廣義非線性〕〔2〕稱〔2〕式為邏輯斯蒂回歸模型。〔二〕PROBIT模型更為一般的情形,如果選擇F〔.〕是標(biāo)準(zhǔn)正態(tài)分布,則產(chǎn)生PROBIT回歸模型?!?〕稱〔3〕式為PROBIT回歸模型。注Probit曲線和logit曲線很相似。標(biāo)準(zhǔn)正態(tài)概率分布曲線logistic分布曲線使用哪個(gè)分布是一個(gè)很自然的問題,logit曲線除了在尾部比正態(tài)分布厚得多以外,兩條曲線都是在pi=0.5處有拐點(diǎn),logit曲線更接近一個(gè)自由度為7的t分布〔格林書認(rèn)為自由度是4的t分布〕。所以,對于的中間值〔比方-1.2到1.2之間〕來說,兩種分布會(huì)給出類似的概率,但是當(dāng)非常小時(shí),邏輯斯蒂回歸模型比PROBIT回歸模型傾向于給出〔〕較大的概率值,而在非常大時(shí),傾向于給出〔〕較小的概率值。利用函數(shù)式可以得到的概率值見表一。表一Probit模型和logit模型概率值yi正態(tài)分布函數(shù)pi=邏輯概率分布pi=-3.00.00130.0474-2.00.02280.1192-1.50.06680.1824-1.00.15870.2689-0.50.30850.37750.00.50000.50000.50.69150.62251.00.84130.73111.50.93320.81762.00.97720.88083.00.99870.9526特點(diǎn)尾薄尾厚§3二元離散選擇模型最大似然估計(jì)下面我們來構(gòu)造二元離散選擇模型的似然函數(shù)。這是二元離散選擇模型最關(guān)鍵的問題。因?yàn)槲覀兗僭O(shè)有以Y軸為對稱的概率密度函數(shù)f(.),則于是模型的似然函數(shù)為兩邊同時(shí)取自然對數(shù),則對數(shù)似然函數(shù)最大化的條件是〔4〕一、對數(shù)單位模型的似然函數(shù)將和代入〔4〕,則似然方程為。假設(shè)包含常數(shù)項(xiàng),則一階條件意味著預(yù)測概率的平均值一定等于樣本中“1〞的比率。對數(shù)單位模型對數(shù)似然函數(shù)的二階導(dǎo)數(shù)為二、概率單位模型的似然函數(shù)如果是正態(tài)分布,則對數(shù)似然函數(shù)為概率單位模型的對數(shù)似然函數(shù)的二階導(dǎo)數(shù)為:?!怖弧吃谝淮巫》空逛N會(huì)上,與房地產(chǎn)商簽訂初步購房意向書的共有325名顧客,在隨后的3個(gè)月的時(shí)間,只有一局部顧客確實(shí)購置了房屋。購置了房屋的顧客記為“1〞,沒有購置的人記為“0〞。以顧客的年家庭收入為自變量*,根據(jù)表二資料,分析收入9.5萬元的家庭買房的可能性。程序如下。dataa;input*nr;cards;1.50 25.00 8.002.50 32.00 13.003.50 58.00 26.004.50 52.00 22.005.50 43.00 20.006.50 39.00 22.007.50 28.00 16.008.50 21.00 21.009.50 15.00 10.00;proclogisticdata=a;outputout=llp=phat;modelr/n=*/link=normit;procprintdata=ll;run;表二例一的分組數(shù)據(jù)資料年家庭收入〔萬元〕簽訂意向書人數(shù)〔人〕實(shí)際購房人數(shù)〔人〕1.52582.532133.558264.552225.543206.539227.528168.521219.51510分別用LOGIT和PROBIT模型討論這個(gè)問題。表三LOGIT模型名稱參數(shù)估計(jì)值標(biāo)準(zhǔn)差Wald統(tǒng)計(jì)量自由度顯著性水平E*p(B)常數(shù)項(xiàng)-1.19920.302415.72061<.0001*
0.24300.056018.84431<.00011.275表四probit模型名稱參數(shù)估計(jì)值標(biāo)準(zhǔn)差Wald統(tǒng)計(jì)量自由度顯著性水平常數(shù)項(xiàng)-0.74450.184816.22421<.0001*0.15100.034019.71451<.0001§4多元離散選擇模型多種選擇的情形存在著幾種決策,這是在三個(gè)或三個(gè)以上的備擇中選擇一個(gè)決策。有兩種決策集,有序的和無序的。例如,對*個(gè)候選人的態(tài)度:贊成,反對和棄權(quán)中的選擇是無序的。客戶的信用等級1,2,3,4,5級中的選擇是有序的。有序和無序的情形使用相當(dāng)不同的技術(shù)。由于目前許多有序離散回歸模型的應(yīng)用,故先討論有序情形。一、有序Logistic模型及其估計(jì)排序多元離散選擇模型問題普遍存在于經(jīng)濟(jì)生活中。其模型的構(gòu)建為:設(shè),是不可觀測的,人們觀測到的是〔5〕是門檻〔threshole〕值。根據(jù)兩水平的Logit模型的思路,有〔6〕將〔6〕變形,有〔〕則有其中=1,表示第個(gè)個(gè)體選擇了第個(gè)水平;=0,表示第個(gè)個(gè)體沒有選擇第個(gè)水平;;。解方程,得的極大似然估計(jì)。二.有序Probit模型及其估計(jì)假設(shè)假定服從正態(tài)分布,且有零均值,方差為1,則則其似然函數(shù)為:兩邊取自然對數(shù),有再對求導(dǎo)數(shù)并令其為零,解出方程組中的,得到模型參數(shù)的極大似然解?!怖诚卤硎?金融機(jī)構(gòu)客戶的個(gè)人資料,這些資料對一個(gè)金融機(jī)構(gòu)來說,對于客戶信用度的了解至關(guān)重要,因?yàn)槔眠@些資料,可以挖掘出許多的信息,建立客戶的信用度評價(jià)體系。所選變量為:*1:月收入*2:月生活費(fèi)支出*3:虛擬變量,住房的所有權(quán),自己的為“1”,租用的“0”*4:目前工作的年限*5:前一個(gè)工作的年限*6:目前住所的年限*7:前一個(gè)住所的年限*8:家庭贍養(yǎng)的人口數(shù)type:信用程度,“5”的信用度最高,“1”的信用度最低。dataa;input*1-*8type;cards;3000 1500 0 2 8 6 2 5 3850 425 1 3 3 25 25 1 31000 3000 0 0.1 0.3 0.1 0.3 4 19000 2250 1 8 4 5 3 2 54000 1000 1 3 5 3 2 1 43500 2500 0 0.5 0.5 0.5 2 1 12200 1200 1 6 3 1 4 1 34500 3500 0 8 2 10 1 5 21200 1000 0 0.5 0.5 1 0.5 3 1800 800 0 0.1 1 5 1 3 17500 3000 1 10 3 10 3 4 53000 1000 1 20 5 15 10 1 52500 700 1 10 5 15 5 3 53000 2600 1 6 1 3 4 2 27000 3700 1 10 4 10 1 4 43000 2800 0 1 2 3 4 3 14500 1500 1 6 4 4 9 3 4;proclogisticdata=aoutest=test;outputout=lllp=phat;modeltype=*1*2/rsqscale=noneaggregatecovb;procprintdata=test;run;程序的局部輸出AnalysisofMa*imumLikelihoodEstimatesStandardWaldParameterDFEstimateErrorChi-SquarePr>ChiSqIntercept11-0.91911.21310.57400.4487Intercept210.37721.15900.10590.7448Intercept313.26131.63903.95930.0466Intercept415.68602.16626.88990.0087*11-0.002520.0008239.35490.0022*210.003560.001208.77970.0030注:為什么這是4條平行線,不是5條,也不是一條.這是因?yàn)橛行螂x散選擇模型都是預(yù)測的累計(jì)概率,最后的一類可以推算。該模型的形狀為Obs*1*2type_LEVEL_phat130001500310.04183230001500320.13763330001500330.74058430001500340.969935850425310.175686850425320.437927850425330.933058850425340.99369910003000110.999291010003000120.999811110003000130.999991210003000141.000001390002250510.000001490002250520.000001590002250530.000011690002250540.00013§5模型的其它問題一、模型的假定條件1、數(shù)據(jù)來于隨機(jī)樣本2、因變量被假定為k個(gè)自變量的函數(shù)3、自變量無多重共線性4、因變量和自變量之間的關(guān)系是非線性的5、方差不變性問題對于存在異方差時(shí),可以作如下處理。以PROBIT模型的異方差問題為例。1〕似然函數(shù)其中。如果是外生變量的函數(shù),假設(shè)有如下的情形是影響隨機(jī)干擾項(xiàng)方差的外生變量構(gòu)成的向量,是斜率系數(shù)向量。特別如果是零向量,則模型是等方差。設(shè)=1,表示第個(gè)個(gè)體選擇了第個(gè)水平;=0,表示第個(gè)個(gè)體沒有選擇第個(gè)水平;;;則模型的似然函數(shù)為:模型的對數(shù)似然函數(shù)為對分別求,的偏導(dǎo)數(shù),并令其為零,則和。解出和,可得估計(jì)模型。參看格林?計(jì)量經(jīng)濟(jì)分析?第五版中文版第736頁。如果的t檢驗(yàn)不顯著,則可以認(rèn)為沒有該種類型的異方差存在。2〕異方差的檢驗(yàn):模型是等方差的〔〕,:模型有異方差的〔〕,對數(shù)似然比檢驗(yàn)步驟:1、建立無約束條件的模型,得模型的似然函數(shù)2、建立約束條件的模型,即的模型,得模型的似然函數(shù)3、檢驗(yàn)的統(tǒng)計(jì)量:是兩個(gè)模型的自由度之差。當(dāng)原假設(shè)成立時(shí),給定顯著性水平,得臨界值,如果,承受原假設(shè),無異方差;,拒絕原假設(shè),有異方差;6、不需要假定自變量是服從正態(tài)的。二、最大似然估計(jì)的性質(zhì)1、漸近一致性2、漸近有效性3、漸近正態(tài)性三、模型估計(jì)的樣本規(guī)模樣本容量足夠大時(shí),統(tǒng)計(jì)量有好性質(zhì)?!?回歸模型評價(jià)一、擬合優(yōu)度〔Goodnessoffit〕1、皮爾遜統(tǒng)計(jì)量(Pearson)在回歸分析中我們常常引入自變量,在這里稱為協(xié)變量〔covariate〕。在固定的樣本規(guī)模n下,協(xié)變量類型越多,則每個(gè)協(xié)變量分組越多,則每組中的個(gè)案則越少。皮爾遜統(tǒng)計(jì)量檢驗(yàn)協(xié)變量分組中,預(yù)測的次數(shù)與觀測的次數(shù)之間是否擬合得很好。協(xié)變量類型中的實(shí)際觀測值的與預(yù)測值沒有差異協(xié)變量類型中的實(shí)際觀測值的與預(yù)測值有顯著差異統(tǒng)計(jì)量為〔7〕當(dāng)樣本容量足夠大是該統(tǒng)計(jì)量服從自由度為J-k-1的分布。其中J是種類數(shù),k是自變量個(gè)數(shù)。這個(gè)統(tǒng)計(jì)量是如何計(jì)算的呢.例三、續(xù)例二。原始類預(yù)測到*類的概率〔〕實(shí)際觀測到的頻率第一類30.041830500.0017497910.04365668130.175691400.0308674680.21313789510.999289815.04384E-070.00071070550.000000204E-142E-0740.000592203.50701E-070.00059255110.303972910.4844537242.2897669530.101088400.0102188650.11245644220.553592200.3064643241.24010422810.406360110.3524083311.46087152710.479002110.2714388121.0876735250.000109301.19465E-080.00010931250.007300205.32929E-050.00735388550.008819807.77889E-050.00889828120.687203700.4722489252.19696876240.004637802.15092E-050.00465940910.817504210.0333047170.22323530640.000997509.95006E-070.000998496第二類30.095802500.0091781190.10595306930.262253400.0687768460.35547896810.000515902.66153E-070.00051616650.000000502.5E-135E-0740.001569302.4627E-060.00157176710.310903900.0966612350.45117640330.190252500.0361960140.23495287120.265691810.5392085332.76375936310.308126600.0949420020.44535112910.291697900.0850876650.41182695950.000290008.41E-080.00029008450.018880100.0003564580.01924341850.022685500.0005146320.02321207820.202174310.6366854233.94867481940.012110600.0001466670.01225906510.124946300.0156115780002639406.96643E-060.002646385第三類30.603004810.1576051890.65836159230.495127510.2548962411.01968179910.000183503.36723E-080.00018353450.000010701.1449E-101.07001E-0540.035149400.001235480.03642988910.351301200.1234125330.54154747930.588982510.1689353850.69784331520.168538100.0284050910.2027009310.263667400.0695204980.35808193210.212943600.0453449770.27055697750.006697004.48498E-050.00674215250.298610700.089168350.42574173950.336400300.1131651620.50693256820.103811400.0107768070.11583655540.216835200.0470175040.27687046210.054148300.0029320380.05724819240.057668500.0033256560.061197678第四類30.229294600.0525760140.29751264230.060618200.0036745660.06452988610.000009909.801E-119.9001E-0650.000116301.35257E-080.00011631440.267190310.5370100562.74265083710.030732800.0009445050.03170725330.107785400.0116176920.12080658620.011087800.0001229390.01121211810.019872800.0003949280.02027573610.014886600.0002216110.0151115650.067608200.0045708690.07251050550.519781600.2701729121.08238584850.500081800.2500818071.00032725420.006295003.9627E-050.00633487840.541336910.2103718390.84727846910.003099209.60504E-060.00310883540.363242410.4054602411.752982581合計(jì)31.12該題的統(tǒng)計(jì)量為與我們用SAS計(jì)算出的結(jié)果一致。2、偏差觀測值與預(yù)測值的擬合優(yōu)度,還可以用對數(shù)似然函數(shù)表示。以為設(shè)定模型的極大似然函數(shù),它概括了樣本數(shù)據(jù)由這個(gè)模型所擬合的程度,想象有一個(gè)完美的模型,為極大似然函數(shù)?!?〕:設(shè)定模型與最完美的模型沒有顯著性差異;:最完美的模型比設(shè)定模型好。這個(gè)最完美的模型只可想象,是存在的,但不可及。當(dāng)值相對較小時(shí),則較大,支持設(shè)定模型與飽和模型有顯著的差異,設(shè)定模型不佳。如果當(dāng)值相對幾乎相等,則較小,設(shè)定模型擬合情況好,D與線性回歸模型的殘差方差十分類似。實(shí)際上該檢驗(yàn)的在SAS中的統(tǒng)計(jì)量就是對數(shù)似然函數(shù)的-2倍除以〔協(xié)變量類型個(gè)數(shù)減估計(jì)參數(shù)〕,即。注:局限性是不宜用在連續(xù)協(xié)變量情形。當(dāng)模型中的協(xié)變量為連續(xù)性變量時(shí),和皮爾遜統(tǒng)計(jì)量則不適合,因?yàn)閰f(xié)變量過多的擬合值,導(dǎo)致了過多的協(xié)變量類型。如客戶信用度的評價(jià)問題,其擬合優(yōu)度檢驗(yàn)的結(jié)果如下:DevianceandPearsonGoodness-of-FitStatisticsCriterionDFValueValue/DFPr>ChiSqDeviance6229.20530.47110.9999Pearson6231.58220.50940.9995ModelFitStatisticsInterceptInterceptandCriterionOnlyCovariatesAIC61.18941.205SC64.52146.205-2LogL53.18929.2053、Hosmer-Lemeshow擬合指標(biāo)Hosmer-Lemeshow擬合指標(biāo)僅僅針對二值響應(yīng)的模型。當(dāng)連續(xù)性變量作為協(xié)變量進(jìn)入模型,協(xié)變量類型〔組〕太多,會(huì)導(dǎo)致一些協(xié)變量類型中不存在任何樣本點(diǎn)。在樣本容量n一定的條件下,每個(gè)協(xié)變量組中的個(gè)案數(shù)太少。Hosmer-Lemeshow擬合指標(biāo)的思想是:將預(yù)測概率值數(shù)據(jù)分為大致相等規(guī)模的10個(gè)組,將觀測值按其預(yù)測概率升序排列。第一組包括估計(jì)概率最小的組,最后一組包括估計(jì)概率最大的組?!?〕其中〔〕代表分類組數(shù),為第組中的案例數(shù);為第組事件的觀測數(shù)量;為事件的預(yù)測數(shù)。用SAS的LOGISTIC模塊的LACKFIT可以計(jì)算出Hosmer-Lemeshow統(tǒng)計(jì)量,但是僅僅對二值響應(yīng)模型?!怖摹忱m(xù)例一。例一的資料是分組資料,如果我們資料是未分組資料,估計(jì)一個(gè)年收入在8萬元客戶不買房的概率。程序如下dataa;input*class;cards;1.5 0 2.5 0 3.5 0 4.5 0 5.5 0 6.5 0 7.5 0 8.5 1 9.5 01.5 0 2.5 0 3.5 0 4.5 0 5.5 0 6.5 0 7.5 0 8.5 1 9.5 01.5 0 2.5 0 3.5 0 4.5 0 5.5 0 6.5 0 7.5 0 8.5 1 9.5 01.5 0 2.5 0 3.5 0 4.5 0 5.5 0 6.5 0 7.5 0 8.5 1 9.5 01.5 0 2.5 0 3.5 0 4.5 0 5.5 0 6.5 0 7.5 0 8.5 1 9.5 01.5 0 2.5 0 3.5 0 4.5 0 5.5 0 6.5 0 7.5 0 8.5 1 9.5 11.5 0 2.5 0 3.5 0 4.5 0 5.5 0 6.5 0 7.5 0 8.5 1 9.5 11.5 0 2.5 0 3.5 0 4.5 0 5.5 0 6.5 0 7.5 0 8.5 1 9.5 11.5 0 2.5 0 3.5 0 4.5 0 5.5 0 6.5 0 7.5 0 8.5 1 9.5 11.5 0 2.5 0 3.5 0 4.5 0 5.5 0 6.5 0 7.5 0 8.5 1 9.5 11.5 0 2.5 0 3.5 0 4.5 0 5.5 0 6.5 0 7.5 0 8.5 1 9.5 11.5 0 2.5 0 3.5 0 4.5 0 5.5 0 6.5 0 7.5 0 8.5 1 9.5 11.5 0 2.5 0 3.5 0 4.5 0 5.5 0 6.5 0 7.5 1 8.5 1 9.5 11.5 0 2.5 0 3.5 0 4.5 0 5.5 0 6.5 0 7.5 1 8.5 1 9.5 11.5 0 2.5 0 3.5 0 4.5 0 5.5 0 6.5 0 7.5 1 8.5 1 9.5 11.5 0 2.5 0 3.5 0 4.5 0 5.5 0 6.5 0 7.5 1 8.5 1 1.5 02.5 0 3.5 0 4.5 0 5.5 0 6.5 0 7.5 1 8.5 11.5 1 2.5 03.5 0 4.5 0 5.5 0 6.5 1 7.5 1 8.5 11.5 1 2.5 0 3.5 04.5 0 5.5 0 6.5 1 7.5 1 8.5 11.5 1 2.5 1 3.5 0 4.5 05.5 0 6.5 1 7.5 1 8.5 11.5 1 2.5 1 3.5 0 4.5 0 5.5 06.5 1 7.5 1 8.5 11.5 1 2.5 1 3.5 0 4.5 0 5.5 0 6.5 17.5 1 1.5 1 2.5 1 3.5 0 4.5 0 5.5 0 6.5 1 7.5 1 1.5 12.5 1 3.5 0 4.5 0 5.5 1 6.5 1 7.5 1 1.5 1 2.5 1 3.5 04.5 0 5.5 1 6.5 1 7.5 1 2.5 1 3.5 0 4.5 0 5.5 1 6.5 17.5 1 2.5 1 3.5 0 4.5 0 5.5 1 6.5 1 7.5 1 2.5 1 3.5 04.5 0 5.5 1 6.5 1 7.5 1 2.5 1 3.5 0 4.5 0 5.5 1 6.5 12.5 1 3.5 0 4.5 0 5.5 1 6.5 1 2.5 1 3.5 0 4.5 1 5.5 16.5 1 2.5 1 3.5 0 4.5 1 5.5 1 6.5 1 3.5 1 4.5 1 5.5 16.5 13.5 1 4.5 1 5.5 1 6.5 13.5 1 4.5 1 5.5 1 6.5 13.5 1 4.5 1 5.5 1 6.5 13.5 1 4.5 1 5.5 1 6.5 1 3.5 14.5 1 5.5 1 6.5 13.5 1 4.5 1 5.5 1 6.5 1 3.5 1 4.5 15.5 1 3.5 1 4.5 1 5.5 13.5 1 4.5 1 5.5 1 3.5 1 4.5 15.5 1 3.5 1 4.5 1 3.5 1 4.5 1 3.5 1 4.5 1 3.5 1 4.5 13.5 1 4.5 1 3.5 1 4.5 13.5 1 4.5 13.5 1 4.5 13.5 14.5 13.5 13.5 13.5 13.5 13.5 13.5 18.0.procprint;run;proclogisticdata=aoutest=test;outputout=lllp=phat;modelclass=*/rsqscale=noneaggregatecovblackfit;procprintdata=lll;run;StandardWaldParameterDFEstimateErrorChi-SquarePr>ChiSqIntercept11.19920.302415.7206<.0001*1-0.24300.056018.8443<.0001模型為預(yù)測概率分組該組實(shí)際個(gè)案該組實(shí)際個(gè)案觀測到取“0〞的數(shù)該組期望次數(shù)12659.940.276111228129.780.3492863391715.840.4061544432320.030.4658145523027.380.5265386583234.010.5863797321920.600.643758251717.430.6972合計(jì)6.34PartitionfortheHosmerandLemeshowTestclass=0class=1GroupTotalObservedE*pectedObservedE*pected13659.943126.06228129.781618.223391715.842223.164432320.032022.975523027.382224.626583234.012623.997321920.601311.408251717.4387.57HosmerandLemeshowGoodness-of-FitTestChi-SquareDFPr>ChiSq6.340160.38624、信息測量指標(biāo)另一些評價(jià)模型好壞的指標(biāo)是信息測量指標(biāo)。它們是AIC,BIC和SC準(zhǔn)則函數(shù)。假設(shè)干個(gè)模型相比,一般來說AIC、BIC和SC準(zhǔn)則函數(shù)越小越好?!捕郴貧w模型預(yù)測準(zhǔn)確性1、類指數(shù)Co*和Snell(1989),Maddala(1983)以及Magee(1990)建議,用表示模型預(yù)測情況的優(yōu)劣。Nagelkerke在1991年提出調(diào)整了的。,。其中:是零模型的對數(shù)似然函數(shù)值,相當(dāng)于線性回歸分析中的總離差平方和;是設(shè)定模型的對數(shù)似然函數(shù)值,相當(dāng)于線性回歸分析中的殘差平方和;是樣本容量。與線性模型的類似,模型的擬合情況越好,越靠近1。ModelFitStatisticsCriterionInterceptOnlyInterceptandCovariatesAIC61.18941.205SC64.52146.205-2LogL53.18929.205L4.55213E-072.81939E-12類確定系數(shù)有許多重要性質(zhì):1.與經(jīng)典的的定義一致;2.對于模型參數(shù)的最大似然估計(jì)可以保證取得最大值;3.有漸近獨(dú)立于樣本容量的性質(zhì);4.它可以理解為變異中被解釋的比例?!踩愁A(yù)測概率與觀測值之間的關(guān)聯(lián)模型的擬合情況好壞的第二種測量方法是建立在觀測的反響變量和模型預(yù)測的條件概率之間關(guān)聯(lián)的根底上的,這種測量的指標(biāo)為秩相關(guān)指標(biāo)。例如兩水平的情況。例子首先通過一個(gè)例子來討論這個(gè)問題。樣本序號(hào)12345觀測值01010預(yù)測到第一類的概率50.50.3本例中,反映變量“0〞有3個(gè),“1〞的有2個(gè),樣本點(diǎn)的配對可以有2*3=6個(gè),為〔1,2〕〔2,3〕〔3,4〕〔4,5〕〔2,5〕〔1,4〕?!?,2〕〔2,3〕〔4,5〕〔2,5〕〔1,4〕是和諧的nc=5;〔3,4〕不和諧nd=1。定義:在一個(gè)觀測數(shù)據(jù)對中,如果觀測到應(yīng)變量的值為的時(shí),預(yù)測到的概率大,則稱其為和諧的。。2、指標(biāo)種類Gamma=〔10〕【(5-1)÷6=0.6667】〔11〕【(5-1)÷6=0.6667】〔12〕【(5-1)÷(0.5×5×4)=0.4】〔13〕其中n為樣本觀測案例總數(shù),t為擁有不同反映值的觀測數(shù)據(jù)對總數(shù)。nc為和諧對數(shù)量,nd為不和諧對的數(shù)量。如果*個(gè)模型在統(tǒng)計(jì)量上有比擬高的值,說明模型的預(yù)測能力較好。AssociationofPredictedProbabilitiesandObservedResponses指標(biāo)數(shù)值指標(biāo)數(shù)值PercentConcordant85.8Somers'D0.752PercentDiscordant10.6Gamma0.780PercentTied3.5Tau-a0.625Pairs113c0.876這里樣本點(diǎn)數(shù)對是113,是按如下的方式組合的。反映變量為1的有5個(gè)觀測,其他12個(gè),配對60個(gè);反映變量為2的有2個(gè)觀測,其他15個(gè),配對30個(gè);反映變量為3的有3個(gè)觀測,其他14個(gè),配對42個(gè);反映變量為4的有3個(gè)觀測,其他14個(gè),配對42個(gè);反映變量為5的有4個(gè)觀測,其他13個(gè),配對52個(gè);合計(jì)226對組合,226/2=113?!踩撤诸惐眍A(yù)測類合計(jì)原始類……合計(jì)正判率=錯(cuò)判率兩種不同的方法建立分類表:1〕將樣本隨機(jī)分為兩份,一份用來培訓(xùn)模型,一份用來檢測模型。2〕穿插核實(shí)。用去掉一個(gè)樣本點(diǎn),建立培訓(xùn)模型,將去掉的這個(gè)點(diǎn)代入模型,觀測預(yù)測類別,列出判別情況?!踩衬P偷慕y(tǒng)計(jì)量所謂模型的統(tǒng)計(jì)量是零假設(shè)模型與所設(shè)模型之間的差距。用LR檢驗(yàn)的根本思路是:如果約束條件成立,則相應(yīng)約束模型與非約束模型的極大似然函數(shù)值應(yīng)該是近似相等的。如果約束條件不成立,則非約束模型的極大似然函數(shù)值應(yīng)該比約束模型極大似然函數(shù)大得多。用表示設(shè)定模型的對數(shù)極大似然函數(shù)。其中和分別是對〔參數(shù)集合〕,的極大似然估計(jì)。用表示模型的對數(shù)極大似然函數(shù)。其中和分別是對和的極大似然估計(jì)。定義似然比〔LR〕統(tǒng)計(jì)量為〔14〕中括號(hào)是兩個(gè)似然函數(shù)之比的對數(shù)〔似然比檢驗(yàn)由此而得名〕。在零假設(shè)約束條件成立條件下其中m表示約束條件個(gè)數(shù)。用樣本計(jì)算LR統(tǒng)計(jì)量。判別規(guī)則是,假設(shè),則承受零假設(shè),約束條件成立。假設(shè),則拒絕零假設(shè),約束條件不成立。如例三,其模型的統(tǒng)計(jì)量服從分布。ModelFitStatisticsInterceptInterceptandCriterionOnlyCovariatesAIC61.18941.205SC64.52146.205-2LogL53.18929.205TestingGlobalNullHypothesis:BETA=0TestChi-SquareDFPr>ChiSqLikelihoodRatio23.98332<.0001Score11.476920.0032Wald9.547220.0084〔四〕Wald檢驗(yàn)與似然比檢驗(yàn)相比,W檢驗(yàn)的一個(gè)直接的優(yōu)點(diǎn)就是只需估計(jì)無約束模型。當(dāng)約束模型的估計(jì)很困難時(shí),此方法尤其適用。W檢驗(yàn)由沃爾德〔Wald1943〕提出,適用于線性與非線性約束條件的檢驗(yàn)。W檢驗(yàn)的原理是測量無約束估計(jì)量與約束估計(jì)量之間的距離,嚴(yán)格說是馬氏距離。結(jié)論一,與二次型有關(guān)的統(tǒng)計(jì)量設(shè)獨(dú)立同正態(tài)分布,其中是均值向量,是協(xié)方差矩陣。則首先對變量進(jìn)展標(biāo)準(zhǔn)化則可見服從維的標(biāo)準(zhǔn)正態(tài)分布。因?yàn)橄嗷オ?dú)立的標(biāo)準(zhǔn)正態(tài)分布的平方和為自由度為的卡方分布,所以結(jié)論成立。特別當(dāng)總體的協(xié)方差矩陣未知時(shí),可以用樣本的協(xié)方差矩陣來估計(jì),則結(jié)論二,Wald檢驗(yàn)的假設(shè)和統(tǒng)計(jì)量對于假設(shè)檢驗(yàn)問題,設(shè)檢驗(yàn)的統(tǒng)計(jì)量為,是的無偏估計(jì)量,有則當(dāng)樣本容量足夠大,則,進(jìn)而有在成立的條件下,幾何含義是兩個(gè)極大似然估計(jì)量的距離。;至少一個(gè)不為零。估計(jì)參數(shù)的協(xié)方差矩陣Intercept_Intercept_Intercept_Intercept_Parameter1234*1*2Intercept_11.4716911.0814230.816380.847439-0.00002-0.00044Intercept_21.0814231.3432751.0114231.112431-0.00018-0.00018Intercept_30.816381.0114232.6863162.834564-0.000930.000838Intercept_40.8474391.1124312.8345644.692457-0.001430.001469*1-0.00002-0.00018-0.00093-0.001436.781E-7-9E-7*2-0.00044-0.000180.0008380.001469-9E-71.445E-6〔五〕Score檢驗(yàn).與W檢驗(yàn)不同的是拉格朗日〔Lagrange〕乘數(shù)〔LM〕檢驗(yàn)只需估計(jì)約束模型。所以當(dāng)施加約束條件后模型形式變得簡單時(shí),更適用于這種檢驗(yàn)。LM檢驗(yàn)是由艾奇遜—西爾維〔Aitchison-Silvey1960〕提出的。LM檢驗(yàn)另一種表達(dá)式是由拉奧〔Rao1948〕提出的,稱為得分檢驗(yàn)。拉格朗日乘數(shù)檢驗(yàn)的統(tǒng)計(jì)量為其中為無約束模型的一階導(dǎo)數(shù)在有約束參數(shù)向量處的取值,而是極大似然估計(jì)量的三個(gè)漸近協(xié)方差矩陣估計(jì)量中的一個(gè),同樣也是在有約束參數(shù)向量處的取值?!?回歸系數(shù)的解釋一、發(fā)生比和發(fā)生比率發(fā)生比〔odds〕是事件的發(fā)生頻數(shù)與不發(fā)生頻數(shù)之間的比。odds=〔事件發(fā)生的頻數(shù)〕/〔事件不發(fā)生的頻數(shù)〕注1:時(shí)機(jī)比率,成敗比。注2:發(fā)生比率。例如,下表是關(guān)于性別和考上學(xué)校的類別的資料,我們利用該資料計(jì)算發(fā)生比和發(fā)生比率。協(xié)變量觀測結(jié)果是否重點(diǎn)大學(xué)男性885434女性44935非重點(diǎn)大學(xué)男性462205257女性40667339,說明參加考試的男生,考上大學(xué)的時(shí)機(jī)是沒有考上時(shí)機(jī)的0.89倍。,說明參加考試的女生,考上大學(xué)的時(shí)機(jī)是沒有考上時(shí)機(jī)的0.2032倍。,男生與女生的時(shí)機(jī)比率相比為4.38,說明男生考上大學(xué)的可能性比女生更大。按發(fā)生比率來解釋Logistic回歸系數(shù)的含義是當(dāng)其它變量不發(fā)生變化時(shí),增加一個(gè)單位,對發(fā)生比率而言平均增減。例如,其它變量不變,而增加一個(gè)單位,則提示1:系數(shù)的符號(hào)或數(shù)值的大小實(shí)際上影響的時(shí)機(jī)比。幾乎所有的統(tǒng)計(jì)軟件,在Logistic回歸模型中輸出參數(shù)估計(jì)值的同時(shí)也給出了,這就使我們非常容易得到回歸系數(shù)的解釋。提示2:如果系數(shù)是負(fù)的,則就小于1,說明其它變量不發(fā)生變化時(shí),增加一個(gè)單位,增加一個(gè)單位的時(shí)機(jī)比可望比不增加一個(gè)單位的時(shí)機(jī)比小。注:PROBIT模型,系數(shù)含義是當(dāng)其它變量不發(fā)生變化時(shí),增加一個(gè)單位,累計(jì)概率而言平均增減?!踩秤酶怕蕘斫忉屪宰兞康淖饔每梢姡?dāng)變量變化時(shí),其可望變化為?!菜摹愁A(yù)測概率1、兩水平的情形正如線性回歸模型能夠預(yù)測一樣,根據(jù)離散選擇模型我們可以獲得事件發(fā)生的預(yù)測概率。例如估計(jì)出的模型為根據(jù)估計(jì)出的模型,講*個(gè)個(gè)案的自變量的觀測值帶入上式,則可以計(jì)算出概率〔或〕的預(yù)測值。2、多水平的情形再根據(jù)概率越大的事件越可能發(fā)生的原理,估計(jì)可能的選擇。例:幾種奶酪添加劑對奶酪的效果。共四種,用虛擬變量,和表示四種不同的添加劑。第一種:=1,和均為零;第二種:=1,和均為零;第三種:=1,和均為零;第四種:,和均為零;考慮的口感等級為1—9,從很不喜歡到十分好吃。dataa;input*1*2*3yfreq;cards;1001010020100311004710058100681007191008810091010160102901031201041101057010660107101080010900011100121001360014800152300167001750018100190000100002000030000410005300067000714000816000911;proclogisticdata=a;freqfreq;modely=*1-*3/link=normit;run;輸出結(jié)果:TheLOGISTICProcedureResponseProfileOrderedTotalValueyFrequency11722103319442755416628773988259912ModelConvergenceStatusTheLOGISTICProcedureModelFitStatisticsInterceptInterceptandCriterionOnlyCovariatesAIC875.802729.391SC902.502766.104-2LogL859.802707.391TestingGlobalNullHypothesi
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 臨沂勞動(dòng)合同教師合同
- 工地班組承包合同
- 鋼質(zhì)防盜門施工方案
- 工程承包正式合同
- 砌筑墻體施工方案
- 展點(diǎn)場地租賃合同
- 商品庫存數(shù)量變動(dòng)報(bào)表
- 農(nóng)業(yè)種植產(chǎn)量與收益對比表
- 合伙承包魚塘協(xié)議書
- 樓地面保溫施工方案
- 2023年輔導(dǎo)員職業(yè)技能大賽試題及答案
- 2023年天津銀行招聘筆試真題
- 工程質(zhì)量控制流程圖
- 現(xiàn)代家政導(dǎo)論-課件 1.2.2認(rèn)識(shí)現(xiàn)代家政的特點(diǎn)和功能
- 日語翻譯崗位招聘面試題與參考回答2025年
- 副總經(jīng)理招聘面試題及回答建議(某大型國企)
- 浙江省寧波市九校2023-2024學(xué)年高二下學(xué)期期末聯(lián)考數(shù)學(xué)試題
- SOAP病例書寫規(guī)范
- 上交所董秘考試題及答案
- 生產(chǎn)部員工晉升方案
- 《智慧科技點(diǎn)亮夢想》演講課件
評論
0/150
提交評論