數(shù)學(xué)模型(第五版)-姜啟源(9)文字可編輯_第1頁
數(shù)學(xué)模型(第五版)-姜啟源(9)文字可編輯_第2頁
數(shù)學(xué)模型(第五版)-姜啟源(9)文字可編輯_第3頁
數(shù)學(xué)模型(第五版)-姜啟源(9)文字可編輯_第4頁
數(shù)學(xué)模型(第五版)-姜啟源(9)文字可編輯_第5頁
已閱讀5頁,還剩65頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第九章統(tǒng)計(jì)模型機(jī)理分析和統(tǒng)計(jì)分析是數(shù)學(xué)建模的兩種基本方法通過對數(shù)據(jù)的統(tǒng)計(jì)分析找出與數(shù)據(jù)擬合最好的模型.回歸模型是用統(tǒng)計(jì)方法建立的最常用的一類模型.?不涉及回歸分析的數(shù)學(xué)原理和方法.?通過實(shí)例討論如何選擇不同類型的回歸模型.?對軟件得到的結(jié)果進(jìn)行分析,對模型進(jìn)行改進(jìn).通過實(shí)例介紹判別分析、主成分分析等模型.第九章統(tǒng)計(jì)模型9.1孕婦吸煙與胎兒健康9.2軟件開發(fā)人員的薪金9.3酶促反應(yīng)9.4投資額與生產(chǎn)總值和物價指數(shù)9.5冠心病與年齡9.6蠓蟲分類判別9.7學(xué)生考試成績綜合評價9.8艾滋病療法的評價和療效的預(yù)測9.1孕婦吸煙與胎兒健康吸煙有害健康!孕婦吸煙是否會傷害到腹中的胎兒??對于新生兒體重,吸煙比婦女懷孕前身高、體重、受孕歷史等因素的影響更為顯著——美國公共衛(wèi)生總署警告美國兒童保健和發(fā)展項(xiàng)目(CHDS)提供的數(shù)據(jù)(1236個出生后至少存活28天男性單胞胎新生兒體重及其母親的資料)1201131.新生兒體重(oz)2842822.孕婦懷孕期(天)103.新生兒胎次(1~第1胎,0~非第1胎)27334.孕婦懷孕時年齡62645.孕婦懷孕前身高(in)1001356.孕婦懷孕前體重(lb)07.孕婦吸煙狀況(1~吸煙,0~不吸煙)0128279128641151123999036691901108282123671251……………data0901.m研究目的利用CHDS的數(shù)據(jù)建立新生兒體重與孕婦懷孕期、吸煙狀況等因素的數(shù)學(xué)模型,定量地討論:?對于新生兒體重來說,孕婦吸煙是否是比孕婦年齡、身高、體重等更為顯著的決定因素;?孕婦吸煙是否會使早產(chǎn)率增加,懷孕期長短對新生兒體重有影響嗎;?對每個年齡段來說,孕婦吸煙對新生兒體重和早產(chǎn)率的影響是怎樣的。問題背景及分析美國公共衛(wèi)生總署的警告容易受到人們的質(zhì)疑:按照是否吸煙劃分人群所做的研究,只能依賴于觀測數(shù)據(jù),而無法做人為的實(shí)驗(yàn),很難確定新生兒體重的差別是因?yàn)槲鼰?,還是其它因素(如懷孕期長短、吸煙孕婦多是體重較輕的年青人等).“孕婦吸煙可能導(dǎo)致胎兒受損、早產(chǎn)及新生兒低體重”的警告不如“吸煙導(dǎo)致肺癌”來得強(qiáng),是由于對孕婦吸煙與胎兒健康間的生理學(xué)關(guān)系研究得不夠.參數(shù)估計(jì)參數(shù)估計(jì)新生兒體重均值的點(diǎn)估計(jì)新生兒體重均值的區(qū)間估計(jì)新生兒體重低比例的點(diǎn)估計(jì)懷孕期均值的點(diǎn)估計(jì)懷孕期均值的區(qū)間估計(jì)早產(chǎn)率的點(diǎn)估計(jì)prog0901a.m不吸煙孕婦(n=742)吸煙孕婦(n=484)?y0=123.0472?y1=114.1095[121.7932124.3011][112.4930115.7260]r0=0.0310r1=0.0826?x1=277.9792?x0=280.1869(n=733)[278.9812281.3926][276.6273279.3311]q0=0.0764q1=0.0854?吸煙比不吸煙孕婦新生兒體重平均低9oz(250g),新生兒體重低的比例明顯高.?吸煙比不吸煙孕婦懷孕期平均短2天,早產(chǎn)率差不多.新生兒體重和懷孕期的差別在統(tǒng)計(jì)學(xué)上是否顯著?假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)新生兒體重均值新生兒體重低比例懷孕期均值早產(chǎn)率假設(shè)H0:?y0≤?y1,H1:?y0>?y1H0:r0≥r1,H1:r0<r1H0:?x0≤?x1,H1:?x0>?x1H0:q0=q1,H1:q0≠q1prog0901a.m檢驗(yàn)結(jié)果(α=0.05)拒絕H0,接受H1拒絕H0,接受H1(t=4.0304)拒絕H0,接受H1接受H0,拒絕H1(t=0.5663)?吸煙孕婦的新生兒體重比不吸煙孕婦的低、且新生兒體重低的比例高,在統(tǒng)計(jì)學(xué)上有顯著意義.?吸煙與不吸煙孕婦孕期和早產(chǎn)率的差別難以肯定是顯著的(若α=0.01將接受懷孕期均值相等的假設(shè))一元線性回歸分析假設(shè)檢驗(yàn)結(jié)果:孕婦吸煙狀況對新生兒體重大小有顯著影響,但是對懷孕期長短的影響難以確定。?新生兒體重與懷孕期的關(guān)系如何?480位吸煙孕婦的懷孕期x和新生兒體重y180160直線y=b0+b1x描述了數(shù)據(jù)的變化趨勢,但是擬合得不好.?怎樣衡量由擬合得到的模型的有效性?y140120100806040220擬合直線y=b0+b1xx240260280300320340?模型系數(shù)精確度和模型預(yù)測的數(shù)值范圍多大?一元線性回歸模型y=b0+b1x+ε懷孕期x,新生兒體重y隨機(jī)變量ε~除x外,影響y的隨機(jī)因素的總和,對于不同的x,ε相互獨(dú)立且服從N(0,σ2)分布.模型求解480位吸煙孕婦數(shù)據(jù)x,yprog0901b.m系數(shù)系數(shù)估計(jì)值系數(shù)置信區(qū)間b0-51.2983[-77.5110-25.0856]b10.5949[0.50080.6891]R2=0.2438,F=154,p<0.0001,s2=249?b1置信區(qū)間不含零點(diǎn),F=154>>F(1,n-2)=3.8610模(?=0.05),應(yīng)拒絕H0:b1=0的假設(shè),模型有效。型檢?b1置信區(qū)間較長,決定系數(shù)R2較小(y的24.38%驗(yàn)由x決定),剩余方差s2較大,模型的精度不高.一元線性回歸模型y=b0+b1x+ε懷孕期x,新生兒體重y模型解釋模型預(yù)測?模型精度不高導(dǎo)致預(yù)測區(qū)間如此之大!?吸煙孕婦懷孕期增加一天,新生兒體重平均增加約0.6oz.?不是x=0時y的估計(jì),只能在數(shù)據(jù)范圍內(nèi)(x=220~340天)估計(jì).一元線性回歸模型y=b0+b1x+ε懷孕期x,新生兒體重y~誤差ε的估計(jì)值(均值為0的正態(tài)分布)ResidualCaseOrderPlot若數(shù)據(jù)殘差的置信區(qū)間不含零點(diǎn),稱為異常點(diǎn)(偏離整體數(shù)據(jù)的變化趨勢),應(yīng)剔除。系數(shù)系數(shù)估計(jì)值系數(shù)置信區(qū)間b0-53.6126[-77.0606-30.1645]b10.6007[0.51640.6850]R2=0.3040F=196p<0.0001s2=182604020Residuals0-20-40-6050100150200250300CaseNumber350400450prog0901b.m雖然b0和b1的估計(jì)值變化不大,但置信區(qū)間變短,22且R和F變大,s減小,說明模型精度得到提高.一元線性回歸模型y=b0+b1x+ε懷孕期x,新生兒體重y690位不吸煙孕婦數(shù)據(jù)x,y(剔除異常點(diǎn)后)prog0901c.m系數(shù)系數(shù)估計(jì)值系數(shù)置信區(qū)間b033.5330[14.998952.0671]b10.3201[0.25410.3860]R2=0.1165F=90p<0.0001s2=181?不吸煙孕婦懷孕期增加一天,新生兒體重平均只增加0.32oz.?對吸煙孕婦是增加約0.6oz,二者相差很大!將吸煙狀況作為另一自變量,建立新生兒體重與2個自變量的回歸模型,利用全體孕婦數(shù)據(jù)進(jìn)行分析.多元線性回歸分析1145位全部孕婦數(shù)據(jù)(剔除異常點(diǎn)后)模型y=b0+b1x1+b2x2+εy~新生兒體重,x1~孕婦懷孕期,x2=0,1~不吸煙,吸煙.?對于吸煙狀況x2相同的孕婦,x1增加一天y平均增加0.44oz.在吸煙孕婦的0.6與不吸煙孕婦的0.32oz之間.?x1相同時,吸煙比不吸煙孕婦的新生兒體重平均約低8.8oz.與參數(shù)估計(jì)的數(shù)值相同,但增加了x1相同的條件.多元線性回歸分析增加乘積項(xiàng)x1x2~x1和x2對y的綜合影響模型y=b0+b1x1+b2x2+εy=b0+b1x1+b2x2+b3x1x2+ε系數(shù)系數(shù)估計(jì)值系數(shù)置信區(qū)間prog0901d.mb034.0925[15.460552.7244]模型有效,但是b10.3181[0.25170.3844]2較小,s2較大,Rb2-87.0738[-116.9656-57.1820]b30.2804[0.17340.3875]仍有改進(jìn)余地.R2=0.2766F=145p<0.0001s2=183x2=0不吸煙孕婦的一元模型x2=1吸煙孕婦的一元模型變量選擇與逐步回歸?CHDS提供的數(shù)據(jù)中除孕婦懷孕期和吸煙狀況外,還有孕婦懷孕時的年齡、體重、身高和胎次狀況.?新生兒體重模型中是否應(yīng)該加入其他的自變量?變量選擇~從應(yīng)用的角度希望將所有影響顯著的自變量都納入模型,又希望最終的模型盡量簡單.逐步回歸~迭代式的變量選擇方法.?利用CHDS數(shù)據(jù)提供的全部信息,通過逐步回歸方法選擇變量,建立新生兒體重的線性回歸模型.用逐步回歸方法建立新生兒體重y的線性回歸模型x1(孕婦懷孕期),x2(胎次狀況),x3(年齡),x4(身高),x5(體重),x6(吸煙狀況)組成候選變量集合S.?選取x1,x6為初始子集S0?從S0外的S中引入一個對y影響最大的x,S0?S1.?對S1中的x進(jìn)行檢驗(yàn),移出一個影響最小的,S1?S2.?繼續(xù)進(jìn)行,直到不能引入和移出為止.?引入和移出都以給定的顯著性水平為標(biāo)準(zhǔn).顯著性水平取缺省值(引入?=0.05,移出?=0.10)MATLAB統(tǒng)計(jì)工具箱中的逐步回歸逐步回歸命令stepwise第1個輸出圖形x1,x6在模型中,給出系數(shù)估計(jì)值和置信區(qū)間CoefficientswithErrorBarsX1X2X3X4X5X6-10-8-6-4-202prog0901e.m按照提示點(diǎn)擊,引入x4Coeff.t-statp-val0.45116815.20000.0000-3.26733-3.03200.00250.1045431.27750.20171.311987.11380.00000.1181835.21270.0000-8.3744-8.60270.000018ModelHistoryRMSE1716151MATLAB統(tǒng)計(jì)工具箱中的逐步回歸按照提示點(diǎn)擊,依次引入x4,x2,x5最終模型包含除x3外的所有自變量CoefficientswithErrorBarsX1X2X3X4X5X6-10-8-6-4-202Coeff.t-statp-val0.44407615.27590.0000-3.28762-3.09330.0020-0.00895031-0.10430.91701.154975.64150.00000.04983351.99100.0467-8.3939-8.82480.000016.5ModelHistoryRMSE1615.51234用逐步回歸方法建立新生兒體重y的線性回歸模型???80.7132?0.4441yx1?3.2876x2?1.1550x4?0.0498x5?8.3939x6x1(懷孕期),x2(胎次狀況),x4(身高),x5(體重),x6(吸煙狀況).?x1,x2,x4,x5相同時,吸煙比不吸煙孕婦的新生兒體重平均低8.4oz.?孕婦的懷孕期、身高、體重對新生兒體重的影響是正面的.?第1胎新生兒體重比非第1胎平均約低3.3oz(第1胎x2=1).相關(guān)分析yx1x2x3x4x5x6y1.0000x10.40751.0000y和各自變量的相關(guān)系數(shù)矩陣x2x3x4x5x6-0.04390.02700.20370.1559-0.24680.0809-0.05340.07050.0237-0.06031.0000-0.35100.0435-0.0964-0.00961.0000-0.00650.1473-0.06781.00000.43530.01751.0000-0.06031.0000?與y相關(guān)性較強(qiáng)的是懷孕期x1,吸煙狀況x6,身高x4.?自變量間相關(guān)性較強(qiáng)的有:孕婦體重x5與身高x4的正相關(guān);年齡x3與胎次狀況x2的負(fù)相關(guān)(年齡越大第1胎x2=1越少).當(dāng)幾個自變量間有較強(qiáng)相關(guān)性時,刪除多余的只保留一個不會對模型有效性和精確度有多大影響.不同年齡段孕婦吸煙對新生兒體重的影響孕婦按年齡分組建立y與x1,x2,x4,x5,x6的回歸模型b0b1(懷孕期)b2b4b5b6(吸煙狀況)R2s2n小于25歲-66.38930.3972-0.99781.2144-0.0021-8.41190.2549211.635944425~30歲-39.12960.3521-7.41240.84090.0959-8.26560.2330239.720136230~35歲-157.13070.5951-0.09321.68280.0557-10.54110.3394272.6021211大于35歲-130.17400.6728-4.18350.87470.0732-6.40080.3136304.7208157對于x1和x6兩個影響y的主要因素,30歲以下兩組結(jié)果差別不大,而與30歲以上兩組則有一定差異.9.2軟件開發(fā)人員的薪金分析人事策略的合理性,作為新聘用人員薪金的參考.46名軟件開發(fā)人員的檔案資料編號薪金data0902.m建立模型研究薪金與資歷、管理責(zé)任、教育程度的關(guān)系.010203…46138761160818701…19346資歷(從事管理(1-管理教育(1-中學(xué),專業(yè)工作人員,0-非管理2-大學(xué),3-更年數(shù))人員)高程度)111103113………2001分析與假設(shè)1=中學(xué)2=大學(xué)3=更高y~薪金,x1~資歷(年)?1,中學(xué)x3???0,其他x2=1~管理人員,x2=0~非管理人員教育?1,大學(xué)x4???0,其他中學(xué):x3=1,x4=0;大學(xué):x3=0,x4=1;更高:x3=0,x4=0假設(shè)?資歷每加一年,薪金的增長是常數(shù);?管理、教育、資歷之間無交互作用.線性回歸模型y?a0?a1x1?a2x2?a3x3?a4x4??a0,a1,…,a4是待估計(jì)的回歸系數(shù),?是隨機(jī)誤差模型求解prog0902a.my?a0?a1x1?a2x2?a3x3?a4x4??資歷增加1年薪金增長546管理人員薪金多6883中學(xué)程度薪金比更高的少2994系數(shù)系數(shù)估計(jì)值系數(shù)置信區(qū)間a011032[1025811807]a1546[484608]a26883[62487517]a3-2994[-3826-2162]a4148[-636931]R2=0.957F=226p<0.0001s2=106R2,F,p?模型整體上可用x1~資歷(年)x2=1~管理,x2=0~非管理中學(xué):x3=1,x4=0;大學(xué):x3=0,x4=1;大學(xué)程度薪金比更高的多148a4置信區(qū)間包含零點(diǎn),解釋不可靠!更高:x3=0,x4=0.結(jié)果分析殘差分析方法??a?0?a?1x1?a?2x2?a?3x3?a?4x4y?殘差e?y?y管理與教育的組合組合12345管理01010教育11223e與管理—教育組合的關(guān)系613e與資歷x1的關(guān)系20001000200010000-10000-1000-200005101520-2000123456殘差大概分成3個水平,6種管理—教育組合混在一起,未正確反映.殘差全為正,或全為負(fù),管理—教育組合處理不當(dāng).應(yīng)在模型中增加管理x2與教育x3,x4的交互項(xiàng).進(jìn)一步的模型增加管理x2與教育x3,x4的交互項(xiàng)prog0902b.my?a0?a1x1?a2x2?a3x3?a4x4?a5x2x3?a6x2x4??5000系數(shù)系數(shù)估計(jì)值系數(shù)置信區(qū)間a011204[1104411363]a1497[486508]a27048[68417255]a3-1727[-1939-1514]a4-348[-545–152]a5-3071[-3372-2769]a61836[15712101]R2=0.9988F=5545p<0.0001s2=3?104-500e~x1-1000051015205000-500e~組合123456-1000R2,F有改進(jìn),所有系數(shù)置信區(qū)間不含零點(diǎn),模型可用.消除了不正?,F(xiàn)象異常數(shù)據(jù)(33號)應(yīng)去掉!去掉異常數(shù)據(jù)prog0902c.m2001000-100-200系數(shù)系數(shù)估計(jì)值系數(shù)置信區(qū)間a011200[1113911261]a1498[494503]a27041[69627120]a3-1737[-1818-1656]a4-356[-431–281]a5-3056[-3171–2942]a61997[18942100]R2=0.9998F=36701p<0.0001s2=4?103e~x1051015202001000-100-200e~組合123456R2:0.9567?0.9988?0.9998F:226?5545?36701s2:104?3?104?4?103置信區(qū)間長度更短殘差圖十分正常最終模型完全可用!模型應(yīng)用??a?0?a?1x1?a?2x2?a?3x3?a?4x4?a?5x2x3?a?6x2x4y制訂6種管理—教育組合人員的“基礎(chǔ)”薪金(資歷為0)x1=0;x2=1~管理,x2=0~非管理中學(xué):x3=1,x4=0;大學(xué):x3=0,x4=1;更高:x3=0,x4=0組合123456管理010101教育112233系數(shù)a0+a3a0+a2+a3+a5a0+a4a0+a2+a4+a6a0a0+a2―基礎(chǔ)”薪金94631344810844198821120018241大學(xué)程度管理人員比更高程度管理人員的薪金高.大學(xué)程度非管理人員比更高程度非管理人員的薪金略低.軟件開發(fā)人員的薪金對定性因素(如管理、教育)可以引入0-1變量處理,0-1變量的個數(shù)可比定性因素的水平少1.殘差分析方法可以發(fā)現(xiàn)模型的缺陷,引入交互作用項(xiàng)常常能夠改善模型.剔除異常數(shù)據(jù),有助于得到更好的結(jié)果.注:可以直接對6種管理—教育組合引入5個0-1變量.9.3酶促反應(yīng)問題建立數(shù)學(xué)模型,反映該酶促反應(yīng)的速度與底研究酶促反應(yīng)(酶催化反應(yīng))中嘌呤霉素對反應(yīng)速度與底物(反應(yīng)物)濃度之間關(guān)系的影響.物濃度以及經(jīng)嘌呤霉素處理與否之間的關(guān)系.方設(shè)計(jì)了兩個實(shí)驗(yàn):酶經(jīng)過嘌呤霉素處理;案酶未經(jīng)嘌呤霉素處理.實(shí)驗(yàn)數(shù)據(jù)見下表.底物濃度(ppm)反應(yīng)速度處理0.0276470.06970.110.220.561.10107123139159152191201207200未處理6751848698115131124144158160/酶促反應(yīng)的基本性質(zhì)底物濃度較小時,反應(yīng)速度大致與濃度成正比;底物濃度很大、漸進(jìn)飽和時,反應(yīng)速度趨于固定值.基本模型Michaelis-Menten模型?1yy~酶促反應(yīng)的速度,x~底物濃度y?f(x,?)??1x?2?x?1,?2~待定系數(shù)y250200150實(shí)驗(yàn)數(shù)據(jù)250200150100500yOx經(jīng)嘌呤霉素處理00.511.510050未經(jīng)嘌呤霉素處理00.511.5x0x線性化模型?1xy??2?x對?1,?2非線性系數(shù)系數(shù)估計(jì)值5.10720.247211?211????1??2xy?1?1x對?1,?2線性prog0903a.m嘌呤霉素處理后實(shí)驗(yàn)數(shù)據(jù)的估計(jì)結(jié)果系數(shù)置信區(qū)間[3.53866.6758][0.17570.3188]?1?2R2=0.8557F=59.2975p<0.0001s2=3.5806×10-6??1/???195.8027?11????/???0.04841?221線性化模型結(jié)果分析1/y0.0250.020.0150.010.005001020304050y25011??1??2yx20015010050?1xy??2?x00.511.51/x0x1/x較小時有很好的線性趨勢,1/x較大時出現(xiàn)很大的起落.x較大時,y有較大偏差?參數(shù)估計(jì)時,x較小(1/x很大)的數(shù)據(jù)控制了回歸參數(shù)的確定.非線性模型參數(shù)估計(jì)?1xy??2?xMATLAB命令[beta,R,J]=nlinfit(x,y,'model',beta0)函數(shù)M?1,?2文件初值(取估計(jì)值線性化MATLAB命令betaci=nlparci(beta,R,J)結(jié)果)殘差數(shù)據(jù)?1,?2?1,?2置信區(qū)間系數(shù)系數(shù)估計(jì)值212.68370.0641prog0903a.mprog0903a1.m系數(shù)置信區(qū)間[197.2045228.1629][0.04570.0826]?1?2非線性模型結(jié)果分析半速度點(diǎn)(達(dá)到最終速度??0.0641一半時的x值)為?2MATLAB命令nlintool給出交互畫面250200150100500-5000.20.40.60.8?1xy??2?x250200150100500??212.6831最終反應(yīng)速度為?1o~原始數(shù)據(jù)+~擬合結(jié)果00.511.5拖動畫面的十字線,得y的預(yù)測值和預(yù)測區(qū)間畫面左下方的Export輸出其他統(tǒng)計(jì)結(jié)果.1剩余標(biāo)準(zhǔn)差s=10.9337混合反應(yīng)模型在同一模型中考慮嘌呤霉素處理的影響?1xy??2?x(?1??1x2)x1y?(?2??2x2)?x1x1為底物濃度,x2為一示性變量x2=1表示經(jīng)過處理,x2=0表示未經(jīng)處理β1是未經(jīng)處理的最終反應(yīng)速度γ1是經(jīng)處理后最終反應(yīng)速度的增長值β2是未經(jīng)處理的反應(yīng)的半速度點(diǎn)γ2是經(jīng)處理后反應(yīng)的半速度點(diǎn)的增長值混合模型求解0101(?1??1x2)x1y?(?2??2x2)?x10202prog0903b.mprog0903b1.m經(jīng)處理未經(jīng)處理初值??170,??60,??0.05,??0.01系數(shù)系數(shù)估計(jì)值系數(shù)置信區(qū)間?1160.2802[145.8466174.7137]?2?1?20.047752.40350.0164[0.03040.0650][32.413072.3941][-0.00750.0403]o~原始數(shù)據(jù)+~擬合結(jié)果剩余標(biāo)準(zhǔn)差s=10.4000?2置信區(qū)間包含零點(diǎn),表明?2對因變量y的影響不顯著.經(jīng)嘌呤霉素處理的作用不影響半速度點(diǎn)參數(shù).可忽略?2,將模型簡化.簡化的混合模型(?1??1x2)x1y?(?2??2x2)?x1(?1??1x2)x1y??2?x1prog0903b.mprog0903b2.m系數(shù)系數(shù)估計(jì)值系數(shù)置信區(qū)間?1166.6025[154.4886178.7164]?20.0580[0.04560.0703]42.0252[28.941955.1085]?1剩余標(biāo)準(zhǔn)差s=10.5851(比一般混合模型略大).經(jīng)處理未經(jīng)處理o~原始數(shù)據(jù)+~擬合結(jié)果簡化的混合模型形式簡單,參數(shù)置信區(qū)間不含零點(diǎn).一般混合模型與簡化混合模型預(yù)測比較(?1??1x2)x1y?(?2??2x2)?x1實(shí)際值一般模型預(yù)測值675147.344347.3443(?1??1x2)x1y??2?x1Δ(一般模型)9.20789.2078預(yù)測區(qū)間為預(yù)測值?ΔΔ(簡化模型)5.44465.4446簡化模型預(yù)測值42.735842.735884…20720089.2856…200.9688200.96889.5710…11.044711.044784.7356…198.1837198.18377.0478…10.181210.1812簡化混合模型的預(yù)測區(qū)間較短,更為實(shí)用、有效.酶促反應(yīng)反應(yīng)速度與底物濃度的關(guān)系求解線性模型機(jī)理分析非線性關(guān)系求解非線性模型發(fā)現(xiàn)問題,得參數(shù)初值嘌呤霉素處理對反應(yīng)速度與底物濃度關(guān)系的影響混合模型引入0-1變量簡化模型檢查參數(shù)置信區(qū)間是否包含零點(diǎn)注:非線性模型擬合程度的評價無法直接利用線性模型的方法,但R2與s仍然有效.9.4投資額與生產(chǎn)總值和物價指數(shù)建立投資額模型,研究某地區(qū)實(shí)際投資額與國問民生產(chǎn)總值(GNP)及物價指數(shù)(PI)的關(guān)系.題根據(jù)對未來GNP及PI的估計(jì),預(yù)測未來投資額.該地區(qū)連續(xù)20年的統(tǒng)計(jì)數(shù)據(jù)GNPPIGNP年份投資額年份投資額序號(億元)(億元)序號(億元)(億元)190.9596.70.716711229.81326.4297.4637.70.727712228.71434.23113.5691.10.743613206.11549.2…………………10195.01185.91.000020424.53073.0PI1.05751.15081.2579…2.0688投資額與國民生產(chǎn)總值和物價指數(shù)分許多經(jīng)濟(jì)數(shù)據(jù)在時間上有一定的滯后性.析以時間為序的數(shù)據(jù)(如投資額)稱為時間序列.GNPPIGNP年份投資額年份投資額序號(億元)(億元)序號(億元)(億元)190.9596.70.716711229.81326.4297.4637.70.727712228.71434.23113.5691.10.743613206.11549.2…………………10195.01185.91.000020424.53073.0PI1.05751.15081.2579…2.0688?時間序列中變量的順序觀測值之間存在自相關(guān).?采用普通回歸模型直接處理,會出現(xiàn)不良后果.?需要診斷并消除自相關(guān)性,建立新的模型.基本(普通的)回歸模型t~年份,yt~投資額,x1t~GNP,x2t~PIytytx1tx2t投資額與GNP,PI之間均有很強(qiáng)的線性關(guān)系.yt??0??1x1t??2x2t??t?0,?1,?2~回歸系數(shù)?t~對t相互獨(dú)立的零均值正態(tài)隨機(jī)變量基本回歸模型的結(jié)果與分析系數(shù)系數(shù)估計(jì)值322.72500.6185-859.4790prog0904.m系數(shù)置信區(qū)間[224.3386421.1114][0.47730.7596][-1121.4757-597.4823]?0?1?2R2=0.9908F=919.8529p<0.0001s2=161.7?t?322.725?0.6185x1t?859.479x2t雖然擬合?模型y很好(R2很大),但未考慮時間序列的自相關(guān)性(將數(shù)據(jù)的序號打亂,模型不變).?t存在自相關(guān),違背?t對t相互獨(dú)立的要求.自相關(guān)性的定性診斷?t模型殘差et?yt?y殘差診斷法et2010et為隨機(jī)誤差?t的估計(jì)值在MATLAB工作區(qū)中輸出作殘差et~et-1散點(diǎn)圖大部分點(diǎn)落在第1,3象限大部分點(diǎn)落在第2,4象限0-10-20-30-30-20-1001020et-1?t存在正的自相關(guān)?t存在負(fù)的自相關(guān)自相關(guān)性直觀判斷基本回歸模型的隨機(jī)誤差項(xiàng)?t存在正的自相關(guān)自回歸性的定量診斷?0,?1,?2~回歸系數(shù)ρ=0ρ>0ρ<0如何估計(jì)ρD-W檢驗(yàn)自回歸模型yt??0??1x1t??2x2t??t,?t???t?1?ut|?|?1ρ~自相關(guān)系數(shù)無自相關(guān)性存在正自相關(guān)性存在負(fù)自相關(guān)性D-W統(tǒng)計(jì)量ut~對t相互獨(dú)立的零均值正態(tài)隨機(jī)變量如何消除自相關(guān)性廣義差分法D-W統(tǒng)計(jì)量與D-W檢驗(yàn)DW??(et?2nt?et?1)2t2?et?2n??etet?1????2?1?t?2n?2??n較大et???t?2??n???etet?1/?et?t?2t?2nn2?)?(21?????1?DW?4?4DW??1?0?DW?4?1????0?DW?2???1?DW?0?0正自相關(guān)dLdU不能確定24-dU4-dL無自相關(guān)檢驗(yàn)水平,樣本容量,回歸變量數(shù)目D-W分布表不能確定負(fù)自相關(guān)檢驗(yàn)臨界值dL和dU由DW值的大小確定自相關(guān)性廣義差分變換?)DW?(21??原模型yt??0??1x1t??2x2t??t,DW??1??2?t???t?1?ut???0(1??)*0變換y?yt??yt?1,x?xit??xi,t?1,i?1,2*it*t新模型y????x??x?ut步驟無自相關(guān)D-W檢驗(yàn)廣義差分*t*0*11t*22t以?0*,?1,?2為回歸系數(shù)的普通回歸模型原模型原模型DW值有自相關(guān)不能確定繼續(xù)此新模型過程增加數(shù)據(jù)量;選用其他方法.投資額新模型的建立原模型殘差etDWold=0.8754DW??(et?2nt?et?1)22e?tt?2n樣本容量n=20,回歸變量數(shù)目k=3,?=0.05查表DWold<dL原模型有正自相關(guān)臨界值dL=1.10,dU=1.54作變換y?yt?0.5623yt?1*t??1?DW/2?0.5623?0正自相關(guān)dLdU不能確定24-dU4-dL無自相關(guān)不能確定負(fù)自相關(guān)4DWx?xit?0.5623xi,t?1,i?1,2*it投資額新模型的建立y?yt?0.5623yt?1*t*0*11t*tx?xit?0.5623xi,t?1,i?1,2*2t*ity????x??2x?ut由數(shù)據(jù)y,x,x估計(jì)系數(shù)?,?1,?2系數(shù)系數(shù)估計(jì)值163.49050.6990*t*1t*2t*0prog0904.m系數(shù)置信區(qū)間[1265.45922005.2178][0.57510.8247]?*0?1?2-1009.0333[-1235.9392-782.1274]R2=0.9772F=342.8988p<0.0001s2=96.582剩余方差s=96.58<161.7(基本模型),系數(shù)置信區(qū)間縮短,模型總體有效性改進(jìn)。新模型的自相關(guān)性檢驗(yàn)新模型殘差etDWnew=1.57510正自相關(guān)dLdU不能確定24-dU4-dL無自相關(guān)不能確定負(fù)自相關(guān)4DW樣本容量n=19,回歸變量數(shù)目k=3,?=0.05查表dU<DWnew<4-dU新模型無自相關(guān)性*1t*2t臨界值dL=1.08,dU=1.53*t??163.4905?0.699x?1009.033x新模型y?t?163.4905?0.5623yt?1?0.699x1,t?0.3930x1,t?1還原為y原始變量?1009.0333x2,t?567.3794x2,t?1一階自回歸模型模型結(jié)果比較?t?322.725?0.6185x1t?859.479x2t基本回歸模型y一階自回歸模型殘差圖比較20100?t?163.4905?0.5623yt?1?0.699x1,t?0.3930x1,t?1y?1009.0333x2,t?567.3794x2,t?1擬合圖比較5004003002001000-10-20-300510152005101520新模型et~*,原模型et~+新模型?t~*,新模型?t~+一階自回歸模型殘差et比基本回歸模型要小.投資額預(yù)測對未來投資額(yt)作預(yù)測,需先估計(jì)出未來的GNP(x1t)和PI(x2t)年份投資額序號(yt)190.9297.43113.5……GNP(x1t)596.7637.7691.1…PI年份投資額(x2t)序號(yt)0.716718401.90.727719474.90.743620424.521469.7638…GNP(x1t)2631.72954.73073.03312.0PI(x2t)1.78421.95142.06882.1938?t?485.6720基本回歸模型y?t?469.7638一階自回歸模型y?t較小是由于yt-1=424.5過小所致9.5冠心病與年齡?冠心病是一種常見的心臟疾病,嚴(yán)重危害人類的健康.?多項(xiàng)研究表明,冠心病發(fā)病率隨著年齡的增加而上升.100名被觀察者的年齡及他們是否患冠心病的數(shù)據(jù)序號123…99100?在冠心病流行病學(xué)研究中年齡是最常見的混雜因素之一.年齡冠心病(1~患病,0~不患)200230240……651691根據(jù)以上數(shù)據(jù)建立數(shù)學(xué)模型,分析發(fā)病率與年齡的關(guān)系,并進(jìn)行統(tǒng)計(jì)預(yù)測.分析與假設(shè)?被觀察者是獨(dú)立抽取的.1x~被觀察者年齡,Y~患病情況(Y=1~患病,Y=0~不患病)?無法建立前面那樣的回歸模型,需要對數(shù)據(jù)進(jìn)行預(yù)處理.按年齡段分組統(tǒng)計(jì)患病人數(shù)及比例年齡段20-2930-34…60-69合計(jì)段中點(diǎn)24.532…64.5人數(shù)1015…10100患病人數(shù)患病比例12…8430.10.13…0.800.43Proportion

of

CHD0.90.80.70.6CHD0.50.40.30.20.10200.82530354045Age50556065700.70.60.50.40.30.20.12025303540Age4550556065患病比例隨年齡增大遞增,是介于0~1的S型曲線.分析與假設(shè)患病比例y是年齡段中點(diǎn)x時Y的平均值即Y的條件期望y?E(Y|x)Y取值0,1;y取值[0,1]用普通方法建立回歸方程?y取值不一定在[0,1]中.y??0??1x??2x??3x??10.90.80.723Proportion

of

CHD?誤差項(xiàng)ε只能取值0,1,不具有正態(tài)性,且具有異方差性.0.60.50.40.30.20.10202530354045Age5055606570違反普通回歸分析的前提條件!當(dāng)因變量Y為一個二分類(或多分類)變量時,需要用到新的回歸模型.logit模型π(x)~年齡x的患病概率(患病比例y)?(x)?P(Y?1|x)Y的(條件)期望y?E(Y|x)π(x)~S型曲線,取值[0,1]方差D(Y|x)??(x)(1??(x))logistic模型?(x)ln()??0??1x1??(x)e?(x)??0??1x1?e?0??1x反函數(shù)?(x))π(x)的變換Logit(?(x))?ln(1??(x)連接函數(shù),取值(??,??)logit模型(logistic回歸模型)logit模型數(shù)據(jù)預(yù)處理:將年齡分成k(=8)組.xi~第i組年齡,ni~被觀察人數(shù),mi~患病人數(shù),i=1,…,k患病概率?i?mi/nilogit模型?iLogit(?i)?ln()??0??1xi1??iβ0,β1~回歸系數(shù)設(shè)mi服從二項(xiàng)分布B(ni,?i)回歸系數(shù)可用極大似然法估計(jì)得到.模型求解MATLAB命令[b,dev,stats]=glmfit(x,y,'distr','link')?0,?1估計(jì)值統(tǒng)計(jì)指標(biāo)數(shù)據(jù)所用分布缺省(binomial)(logit)prog0905.m0.90.80.70.60.50.40.30.20.1020參數(shù)?0?1參數(shù)估計(jì)值-5.03820.1050標(biāo)準(zhǔn)差1.08630.0231回歸曲線Proportion

of

CHD25303540Age4550556065模型評價與結(jié)果分析?logit模型是否需要引入x2項(xiàng)??(x)Logit(?(x))?ln()??0??1x1??(x)?0??1x??2x2用似然比統(tǒng)計(jì)量計(jì)算:pval=1-chi2cdf(dev-dev2,1)=0.9371模型中引入x2項(xiàng)不能顯著提高擬合程度.?選用probit模型(另一種廣義線性模型)結(jié)果如何??(x)?Φ(?0??1x)Probit(?(x))?Φ(?(x))??0??1x?1Ф是正態(tài)概率分布函數(shù)(S型曲線)模型評價與結(jié)果分析0.9probit模型求解

DataLogitmodelProbitmodel0.80.70.60.50.40.30.20.10

20glmfit中需將logit改為probit參數(shù)β0β1參數(shù)估計(jì)值-2.99330.0624年齡x24.5…64.5標(biāo)準(zhǔn)差0.60110.0128患病比例(實(shí)際值)0.1…0.80Proportion

of

CHDprog0905.m25303540Age4550556065年齡段20-29…60-69預(yù)測值1(logit)0.0783…0.8501預(yù)測值2(probit)0.0715…0.8489兩個模型的擬合程度不相上下.模型評價與結(jié)果分析β1的直觀解釋?(x)?????x??5.0382?0.1050x?(x))?ln(Logit(?)??01?(x)1??Odds~事件發(fā)生(患病)概率與不發(fā)生(不患病)概率之比.?(x)(???x)Odds(x)??e年齡x的人患病與不患病概率之比1??(x)01年齡增加1歲的Odds比(發(fā)生比率)Odds(x?1)e?1??0??1x?eOdds(x)ek?1?0??1(x?1)Odds(x?1)年齡增加1歲?1?ln()Odds(x)Odds比的對數(shù)Odds(x?k)?eOdds(x)年齡增加k歲后的Odds模型評價與結(jié)果分析?(x)?????x??5.0382?0.1050x?(x))?ln(Logit(?)??01?(x)1???(20)?0.050320歲的青年人患冠心病的概率?發(fā)生比(患與不患冠心病的概率之比)Odds(20)?0.0593年齡增加1歲患病概率的變化很小.10年后30歲人的發(fā)生比Odds(30)?e60歲時Odds(60)?3.9545Logit回歸模型?(x)?0.5?x??10??1?0.0593?0.1694?66.6863倍是20歲的e40??1*??(x)?0.5x*?4848歲時患冠心病的概率會大于不患冠心病的概率.模型評述?因變量是定性變量的回歸分析作為一種有效的數(shù)據(jù)處理方法已被廣泛應(yīng)用,尤其在醫(yī)學(xué)、社會調(diào)查、生物信息處理等領(lǐng)域.?(x)多元logit模型Logit(?(x))?ln(1??(x))??0???ixii?1m自變量x1,?,xm可以是定量變量或定性變量?可以用逐步回歸方法建立多元logit模型和probit模型,逐個加入自變量(包括自變量的高次項(xiàng)及交叉項(xiàng)),并且實(shí)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論