




已閱讀5頁,還剩21頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
應(yīng)用回歸分析 論 文題目: 基于統(tǒng)計(jì)分析的醫(yī)療就診人數(shù)探討 姓 名 趙玢琳 學(xué) 院 理學(xué)院 專 業(yè) 數(shù)學(xué)與應(yīng)用數(shù)學(xué) 班 級 2010214101班 學(xué) 號 10212681 班內(nèi)序號 39 2012年12月25日基于統(tǒng)計(jì)分析的醫(yī)療就診人數(shù)探討【摘 要】本文主要應(yīng)用統(tǒng)計(jì)回歸的方法,分析影響醫(yī)療就診人數(shù)的主要因素,并借助SPSS軟件得出擬合模型。在篩選變量與修正模型后,得出醫(yī)療就診人數(shù)主要與居民工資、醫(yī)療機(jī)構(gòu)總數(shù)、環(huán)境噪聲指數(shù)三方面因素成線性關(guān)系的結(jié)論,并針對結(jié)論對政府決策和醫(yī)療配置改進(jìn)提出建議。本文的數(shù)據(jù)來源為深圳統(tǒng)計(jì)年鑒2011。在模型構(gòu)建階段,通過顯著性分析和逐步回歸相結(jié)合的手段增選變量。嘗試對全模型和簡化模型的殘差做出解釋,考察了異方差和自相關(guān)現(xiàn)象的存在性。并著重分析了異常點(diǎn)及變量間的多重共線性,對出現(xiàn)的嚴(yán)重多重共線性,本文采用主成分回歸消除共線性并得出最后的擬合模型。在解釋模型階段,結(jié)合問題背景對模型的合理性做出解釋,并分析了模型中部分偏離實(shí)際現(xiàn)象產(chǎn)生的原因。在論文的最后,還給出了本次回歸分析的心得體會,強(qiáng)調(diào)了有序進(jìn)行研究、多方法結(jié)合和聯(lián)系實(shí)際的重要性。關(guān)鍵詞:醫(yī)療就診 殘差分析 異常點(diǎn) 共線性診斷 主成分回歸The discussion on medical attendance based on statistical analysisSummaryThis article applied statistical regression to analyze the main factors influencing medical attendance and used the SPSS software to the regression model. After the variables selection and model correction, the article drew the conclusion that medical attendance has a linear relationship with the total number of residents wages, medical institutions and environmental noise index mainly. Then it put forward a proposal about government decisions and configured medical improvements on this conclusion.The data source for the article is Shenzhen statistics yearbook. During the model fitting, it combined significance analysis and stepwise regression to select variables. Also, it tried to explain the residuals of full model and reduced model, and investigated the existence of heteroscedasticity and autocorrelation. Moreover, the article analyzed the outliers and multicollinearity around the variables. For the serious multicollinearity, the article used principal component regression to delete it and got the final model.As for the explanation of model, the article gave a reasonable explanation based on the problem background and tried to find the reasons why there were some parts beyond the actual phenomenon.In the final, the article talked about the work experience, stressing the importance of orderly research, multi-method and contacting with actual phenomenon.Keywords: Medical Attendance Residual Analysis Outliers Multicollinearity Detection Principal Component Regression【目 錄】正文 41 問題背景 42 數(shù)據(jù)獲取與篩選 43 擬合模型 53.1 變量檢查 53.2 成對分析變量間關(guān)系 73.2.1 成對變量散點(diǎn)圖 73.2.2 相關(guān)矩陣 83.2.3 共線性初探 93.3 全模型、簡化模型及其殘差解釋 103.3.1 全模型回歸 103.3.2 簡化模型回歸 113.3.3 簡化模型殘差分析 123.3.4 異常點(diǎn)的發(fā)現(xiàn)與處理 133.4 逐步回歸增選變量 163.5 共線性診斷與主成分回歸 173.5.1 共線性診斷 173.5.2 消除共線性主成分回歸 183.5.3 殘差分析 204 結(jié)論與解釋 21總結(jié)與心得 23參考文獻(xiàn) 24【正 文】1 問題背景根據(jù)我國現(xiàn)今國情,人口規(guī)模龐大仍然是一個(gè)熱點(diǎn)問題,隨之帶來的資源配置不足也成為了亟待解決的難題。本文主要關(guān)心醫(yī)療事業(yè)的適應(yīng)性發(fā)展,即構(gòu)建“醫(yī)院就診人次”的分析回歸模型,了解就診人數(shù)與人口、環(huán)境、經(jīng)濟(jì)等因素的關(guān)系,以期對未來醫(yī)療配置的改進(jìn)起指導(dǎo)作用。2 數(shù)據(jù)獲取與篩選限于居民是否就診及人口、環(huán)境、經(jīng)濟(jì)等因素有很強(qiáng)的地域差異性,本次建模回歸中我們選取了“深圳”地區(qū)作為研究對象?;谏钲诮y(tǒng)計(jì)年鑒2011選取了1996-2010年醫(yī)院就診人數(shù)、總?cè)丝凇⒐べY、環(huán)境指標(biāo)、衛(wèi)生機(jī)構(gòu)數(shù)等作為研究變量。具體數(shù)據(jù)如下:年份 Year醫(yī)療機(jī)構(gòu)總診療人次(萬人次)年末戶籍人口戶數(shù) (萬戶) 年平均工資(元)衛(wèi)生機(jī)構(gòu)數(shù)合計(jì)(個(gè))可吸入顆粒物年平均值(mg/m3)集中式飲用水水源地水質(zhì)達(dá)標(biāo)率(%)區(qū)域環(huán)境噪聲平均值dB(A)1996196130.351450714220.13596.8581997182132.151653111260.09596.8157.21998194134.07183818990.09297.257.2199920503608798.157.12000217538.87230396830.05998.7357200124084106393.4556.12002268944.73282187610.06196.11562003305247.55306118930.0797.13562004351452.04319288560.07696.7156.12005405557.013247610630.06498.1156.22006517061.373510716920.06498.0756.52007595464.883879817810.06498.8656.5200868426706399.8756.42009754969.814672319630.05710056.82010791471.445045617690.05710056.7對列出的各項(xiàng)指標(biāo)解釋如下(同時(shí)列出各變量在SPSS軟件中對應(yīng)的符號Y、X1、X2等):Y :醫(yī)療機(jī)構(gòu)總診療人次,為此次回歸的因變量,通過診療人次可決定醫(yī)療資源的未來分配;X1 :年末戶籍人口戶數(shù),某一地區(qū)的就診人數(shù)與該地區(qū)的總?cè)藬?shù)必定有一定的聯(lián)系,因此選為回歸自變量;X2 :年平均工資,居民在患病時(shí)是否就醫(yī)與其經(jīng)濟(jì)支付能力也有一定相關(guān)性,因此選為回歸自變量;X3 :衛(wèi)生機(jī)構(gòu)數(shù)合計(jì),醫(yī)療資源是否充足也會決定患病居民能否成功就診,因此選為回歸自變量;X4 :可吸入顆粒物年平均值,這一指標(biāo)從一個(gè)側(cè)面反映了環(huán)境污染程度,進(jìn)而考察了環(huán)境水平對人體健康的影響;X5 :集中式飲用水水源地水質(zhì)達(dá)標(biāo)率,同X4,也為環(huán)境因素;X6 :區(qū)域環(huán)境噪聲平均值,同X4、X5,為環(huán)境因素。3 擬合模型3.1 變量檢查描述統(tǒng)計(jì)量N極小值極大值均值方差偏度統(tǒng)計(jì)量統(tǒng)計(jì)量統(tǒng)計(jì)量統(tǒng)計(jì)量統(tǒng)計(jì)量統(tǒng)計(jì)量標(biāo)準(zhǔn)誤Y15182179143939.674770960.952.795.580X11530.3571.4449.9107209.634.172.580X215145075045630458.931.215E8.322.580X31568319631208.27227084.924.405.580X415.057.135.07380.0002.012.580X51593.45100.0097.73002.992-.794.580X61556.058.056.653.324.844.580通過上表可以看出,共有十五組數(shù)據(jù)。對比每個(gè)變量的最大值、最小值,X1、X3、X4、X5、X6的變化幅度都不是很大,尤其X6幾乎無明顯變化;變化幅度較大的Y和X2,經(jīng)檢驗(yàn)具體數(shù)據(jù)也可發(fā)現(xiàn)它們每年的漲幅比較大,不存在突變現(xiàn)象,所以也是適用的。而且觀察均值欄可發(fā)現(xiàn),它們一般處于最大、最小值的中間,是非常好的結(jié)論。由于各變量基本都是逐年(某些甚至是大幅度的)遞增的數(shù)據(jù),方差的大小對檢驗(yàn)變量沒有過多的參考價(jià)值。觀察偏度系數(shù),都保持在一個(gè)很小的水平,其標(biāo)準(zhǔn)誤也很微小,則可以認(rèn)為數(shù)據(jù)的對稱性較好,無需做進(jìn)一步數(shù)據(jù)變換。下邊的直方圖也可以直觀的支持上述結(jié)論(為避免篇幅冗長,只列出部分):對于直方圖中反映的各變量中較小數(shù)據(jù)比較大數(shù)據(jù)多的現(xiàn)象,分析數(shù)據(jù)來源,在1996-2010年間,是社會經(jīng)濟(jì)、科技不斷發(fā)展的階段,因此出現(xiàn)前期各項(xiàng)指標(biāo)較低、后期短期內(nèi)飛速發(fā)展,導(dǎo)致總體數(shù)據(jù)中,較小量占多數(shù)是合理的。再繪制Y與各自變量間的散點(diǎn)圖,以下兩幅值得注意:上面左圖中,Y與X4的線性關(guān)系不明顯,懷疑X4為不具有解釋力的變量,具體是否將X4作為變量擬合模型,還需后續(xù)部分檢驗(yàn)上面右圖中,Y與X5可以看出存在正相關(guān)關(guān)系,但各個(gè)點(diǎn)分布較分散,僅用一條直線難以擬合得很好。但是還有其他變量共同擬合,在后續(xù)工作中根據(jù)增選變量情況,可以進(jìn)一步看出X5是否能很好的同其余變量一起完成擬合,或是 X5可以被其余變量替代而被剔除。3.2 成對分析變量間關(guān)系 成對分析變量之間的關(guān)系可以對剔除無關(guān)變量、擬合模型的方法選擇、共線性程度的初步了解提供有用的信息,下面從散點(diǎn)圖、相關(guān)矩陣、共線性初探三個(gè)方面分析變量間的關(guān)系。3.2.1 成對變量散點(diǎn)圖觀察下邊散點(diǎn)圖(限于篇幅只列出提供重要信息的部分圖): 上邊左圖表現(xiàn)了X1-X2極為明顯的共線性,右圖X1-X5也顯示了正相關(guān)趨勢; 上邊兩個(gè)圖也顯示了變量間的正相關(guān)關(guān)系。結(jié)合問題背景分析,人口、工資、環(huán)境、醫(yī)療設(shè)施等因素是緊密相連的,它們都適應(yīng)著社會經(jīng)濟(jì)、科技、教育的發(fā)展,牽一發(fā)而動全身,因此存在或多或少的關(guān)聯(lián)性是必然的。因此,在后邊構(gòu)建模型時(shí),要進(jìn)一步分析共線性,并采取相應(yīng)的消除措施。3.2.2 相關(guān)矩陣相關(guān)性YX1X2X3X4X5X6Pearson 相關(guān)性Y1.000.964.962.853-.557.720-.256X1.9641.000.981.747-.684.645-.466X2.962.9811.000.695-.717.623-.483X3.853.747.6951.000-.139.667.134X4-.557-.684-.717-.1391.000-.288.759X5.720.645.623.667-.2881.000.170X6-.256-.466-.483.134.759.1701.000 通過上面相關(guān)性矩陣也可以看出,部分變量之間的相關(guān)性高達(dá)0.8-0.9,再一次驗(yàn)證了線性相關(guān)的存在,下邊分析與多重共線性相關(guān)的幾個(gè)統(tǒng)計(jì)量,以期對共線性程度有大致了解。3.2.3 共線性初探 此處只是大致對共線性程度做一了解,具體的共線性分析及解決在增選變量后的“3.5”部分會做詳細(xì)說明。共線性診斷a模型維數(shù)特征值條件索引方差比例(常量)X1X2X3X4X5X6116.7081.000.00.00.00.00.00.00.002.2245.471.00.00.00.01.02.00.003.06110.464.00.00.00.11.03.00.004.00634.687.00.01.17.25.83.00.005.00170.547.00.56.76.09.05.00.0068.063E-5288.419.07.00.00.03.01.48.0075.849E-61070.908.93.43.06.52.06.521.00a. 因變量: Y上述特征值中,接近于0的有兩個(gè);條件數(shù)在10-100間的有三個(gè),大于100的有兩個(gè);方差比例的第七行顯示常量與X2的共線性、第五行顯示了X1與X2的共線性,與散點(diǎn)圖吻合。模型非標(biāo)準(zhǔn)化系數(shù)共線性統(tǒng)計(jì)量B標(biāo)準(zhǔn) 誤差容差VIF1(常量)-35181.1789003.610X122.83720.892.01664.448X2.145.019.03231.139X3.978.268.08711.504X4-1772.2044028.677.1985.053X5-8.60447.485.2104.752X6588.718208.749.1019.947上表中X1、X2、X3顯示出了10以上的VIF值,表明變量間的多重共線性還是很嚴(yán)重的。在3.4、3.5部分會著重異常值和共線性的處理。以下是嶺回歸結(jié)果,此處只是簡單分析,后面的擬合過程,主要采用了主成分回歸法消除共線性(詳見部分“3.5.2 共線性消除主成分回歸)3.3 全模型、簡化模型及其殘差解釋3.3.1 全模型回歸全模型:Y=0+1X1+2X2+3X3+4X4+5X5+6X6+做Y與各自變量的線性回歸,部分輸出結(jié)果如下:模型匯總b模型RR 方調(diào)整 R 方標(biāo)準(zhǔn) 估計(jì)的誤差1.999a.998.996140.986a. 預(yù)測變量: (常量), X6, X3, X5, X4, X2, X1。b. 因變量: Y 通過上表可以看出,R2接近為1,但是不能因此得出回歸模型很好的結(jié)論,還需進(jìn)一步分析得到隱藏于變量中的其他關(guān)系。模型非標(biāo)準(zhǔn)化系數(shù)標(biāo)準(zhǔn)系數(shù)tSig.B標(biāo)準(zhǔn) 誤差試用版1(常量)-35181.1789003.610-3.907.004X122.83720.892.1511.093.306X2.145.019.7327.602.000X3.978.268.2133.648.007X4-1772.2044028.677-.017-.440.672X5-8.60447.485-.007-.181.861X6588.718208.749.1532.820.022 上表中給出了全模型的 t 檢驗(yàn)及 F 檢驗(yàn)的 p 值,根據(jù)t值較小以及若Sig=0.05就刪除變量的原則,需要剔除變量X1、X4、X5,進(jìn)而得到簡化模型3.3.2 簡化模型回歸簡化模型:Y=0+2X2+3X3+6X6+模型RR 方調(diào)整 R 方標(biāo)準(zhǔn) 估計(jì)的誤差1.999a.997.996133.189a. 預(yù)測變量: (常量), X6, X3, X2。b. 因變量: Y簡化模型的回歸結(jié)果顯示R2仍然較大,但較之全模型有比較細(xì)微的減小。模型非標(biāo)準(zhǔn)化系數(shù)標(biāo)準(zhǔn)系數(shù)tSig.B標(biāo)準(zhǔn) 誤差試用版1(常量)-28785.2246124.217-4.700.001X2.168.008.84922.045.000X31.135.156.2487.279.000X6462.996107.246.1214.317.001 此時(shí)三個(gè)變量的Sig值均很小,表明與Y顯著相關(guān),可以選作回歸變量。得到的簡化模型如下:Y=-28785.224+0.168X2+1.135X3+462.996X6 下面對簡化模型的殘差嘗試性解釋,并做數(shù)據(jù)異常點(diǎn)(高杠桿值、強(qiáng)影響點(diǎn)等)的發(fā)現(xiàn)、解釋與處理。3.3.3 簡化模型殘差分析觀察下述殘差關(guān)于自變量的散點(diǎn)圖:從以上三個(gè)散點(diǎn)圖的趨勢上,看不到明顯的“漏斗形”和“類正余弦”圖線,則可以認(rèn)為在該簡化模型的殘差中不存在明顯的異方差和自相關(guān)現(xiàn)象。因此可省略加權(quán)最小二乘步驟,也可以通過以下P-P圖考察殘差特性:3.3.4 異常點(diǎn)的發(fā)現(xiàn)與處理a) Cook距離 通過SPSS計(jì)算得到Cook距離如下:年份 YearCooks Distance19960.898819970.0290519980.0629619990.142820000.0601720010.0057120020.0198820030.2576820040.0009720050.0474420060.0058320070.0057220080.1124820090.0237620100.07455 當(dāng)Cook1時(shí)認(rèn)為可能存在異常點(diǎn)。在上表中,第一行(1996年)數(shù)據(jù)的Cook距離遠(yuǎn)大于其他年份,且Cook=0.8988比較接近1,因此通過Cook距離判定,初步懷疑這一年的數(shù)據(jù)存在相對于Y值的異常點(diǎn)。b) 杠桿值通過SPSS計(jì)算得到中心化杠桿值及對應(yīng)計(jì)算的原始杠桿值如下:年份 YearCentered Leverage ValueLeverage Value19960.466490.53319970.200420.26719980.110240.17719990.219670.28620000.243260.31接前表:20010.139680.20620020.147970.21520030.121580.18820040.101630.16820050.049090.11620060.193930.26120070.160320.22720080.140830.20720090.243810.3120100.461080.528當(dāng)杠桿值2(p+1)/n時(shí)認(rèn)為存在異常點(diǎn),p+1=4,n=15,則可計(jì)算2(p+1)/n=0.5333。分析上表,第一行(1996年)數(shù)據(jù)的原始杠桿值為0.53,認(rèn)為其存在關(guān)于X的異常;第十五行(2010年)數(shù)據(jù)的原始杠桿值為0.528,較為接近臨界值,因此同樣懷疑其存在異常點(diǎn)。為了使異常值的檢驗(yàn)更加完備,下面用P-R圖分析。c) P-R圖分析年份 YearPR19961.14-12.5619970.362.5519980.21-33.1519990.4-18.8320000.456.6920010.260.4920020.272.0920030.23-6.3620040.20.0920050.13-14.5920060.350.3820070.290.4420080.26-12.0720090.451.5520101.123.08 紅色箭頭指示的兩個(gè)點(diǎn)顯示了異常,對比數(shù)據(jù)集,發(fā)現(xiàn)這兩個(gè)點(diǎn)恰好為1996年和2010年的數(shù)據(jù)。分析異常點(diǎn)產(chǎn)生原因:綜合以上三種分析方法,發(fā)現(xiàn)1996年的數(shù)據(jù)存在較明顯的異常,2010年數(shù)據(jù)次之。分析異常點(diǎn)產(chǎn)生的原因,對比統(tǒng)計(jì)年鑒,認(rèn)為此處不存在數(shù)據(jù)的錄入失誤,因此異常值是由問題背景引起的。1996年為“八五”時(shí)期末、“九五”時(shí)期初,正值經(jīng)濟(jì)轉(zhuǎn)型的過渡時(shí)期,因此出現(xiàn)了與后續(xù)數(shù)據(jù)漲幅不匹配的情況;2010年為“十一五”時(shí)期末,國民經(jīng)濟(jì)迎來新的變革,因此也出現(xiàn)了較大的波動,如果我們能夠?qū)?1、12年等后續(xù)數(shù)據(jù)加入數(shù)據(jù)集,可能就會消除部分異常。異常點(diǎn)處理方法 數(shù)據(jù)來源于2011年深圳年鑒,若想獲取后續(xù)數(shù)據(jù)、增大數(shù)據(jù)集需要2012年及以后的年鑒,現(xiàn)階段還沒有發(fā)布。所以采用刪除部分?jǐn)?shù)據(jù)行的辦法??紤]到擬合模型的目的是為了對未來的醫(yī)療合理配置進(jìn)行預(yù)測,2010年的數(shù)據(jù)是反映變化趨勢的重要部分,不能除去。而1996年的數(shù)據(jù)作為過去數(shù)據(jù),且處于經(jīng)濟(jì)革新之前,可以除去,以減少模型建立的異常值。因此將1996年數(shù)據(jù)(第一行)除去,后續(xù)工作對剩余14組數(shù)據(jù)展開。3.4 逐步回歸增選變量在“3.3”部分通過Sig值剔除了變量X1、X4、X5,下邊用逐步回歸的方法增選變量。輸出結(jié)果如下:模型匯總模型RR 方調(diào)整 R 方標(biāo)準(zhǔn) 估計(jì)的誤差1.972a.944.940539.3762.996b.992.990216.5313.999c.998.997118.020a. 預(yù)測變量: (常量), X2。b. 預(yù)測變量: (常量), X2, X3。c. 預(yù)測變量: (常量), X2, X3, X6。系數(shù)a模型非標(biāo)準(zhǔn)化系數(shù)標(biāo)準(zhǔn)系數(shù)tSig.B標(biāo)準(zhǔn) 誤差試用版1(常量)-2348.111473.522-4.959.000X2.203.014.97214.254.0002(常量)-2317.653190.132-12.190.000X2.138.010.66113.879.000X31.697.213.3797.966.0003(常量)-31230.6365562.474-5.615.000X2.163.007.77922.594.000X31.232.146.2768.413.000X6507.21397.564.1035.199.000a. 因變量: Y 從表格中可以看到模型三為最優(yōu),即選擇變量X2、X3、X6,與“3.3”部分得到的結(jié)果一致,則在“3.3”中所做的一系列工作是有效可用的。后面的診斷與回歸均是針對 Y 與變量X2、X3、X6間的關(guān)系展開。3.5 共線性診斷與主成分回歸3.5.1 共線性診斷a) VIF模型非標(biāo)準(zhǔn)化系數(shù)標(biāo)準(zhǔn)系數(shù)tSig.共線性統(tǒng)計(jì)量B標(biāo)準(zhǔn) 誤差試用版容差VIF1(常量)-31230.6365562.474-5.615.000X2.163.007.77922.594.000.1875.344X31.232.146.2768.413.000.2074.823X6507.21397.564.1035.199.000.5641.773 由上表可以看出,各VIF值并不是很大,因此還需借助其他方法進(jìn)一步判斷。b) 特征值判斷共線性診斷a模型維數(shù)特征值條件索引方差比例(常量)X2X3X6113.8711.000.00.00.00.002.1105.942.00.02.10.003.02014.000.00.54.53.0041.620E-5488.8401.00.44.371.00a. 因變量: Y 在上表中,第四行數(shù)據(jù)的特征值接近于0,則可以判斷變量間存在共線性。c) 條件數(shù)判斷 同樣觀察“共線性診斷”表格,條件索引一欄中,第三行數(shù)據(jù)k在10-100之間,說明較強(qiáng)的共線性;第四行數(shù)據(jù)k在100以上,說明存在極強(qiáng)的共線性。d) 觀察方差比例在“方差比例”一欄中,第四行的常量與X6方差比例同時(shí)為1.00,說明常數(shù)項(xiàng)與變量X6間存在多重共線性;第三行X2、X3方差比例同時(shí)為0.5左右,說明變量X2、X3間存在多重共線性。綜合上述幾種方法,得出該模型的幾個(gè)變量反映了較強(qiáng)的多重共線性的結(jié)論,下邊提出解決辦法。3.5.2 消除共線性主成分回歸消除共線性主要有三種方式,即:1)剔除變量;2)增加樣本容量;3)回歸系數(shù)有偏估計(jì)。在本模型中,經(jīng)過前邊一系列的變量篩選已經(jīng)只剩余三個(gè)變量,且均顯示出較好的顯著性,再剔除變量顯然是不可行的。而考慮數(shù)據(jù)來源,增大樣本容量的新數(shù)據(jù)也無從獲取。因此,采用回歸系數(shù)有偏估計(jì)的方法消除共線性。在嶺回歸、主成分回歸、偏最小二乘中選擇主成分回歸完成以下步驟:解釋的總方差成份初始特征值提取平方和載入合計(jì)方差的 %累積 %合計(jì)方差的 %累積 %11.85761.88661.8861.85761.88661.88621.04834.92396.8091.04834.92396.8093.0963.191100.000提取方法:主成份分析。 由上表,當(dāng)?shù)降诙€(gè)成分時(shí),累計(jì)百分率已達(dá)96.809%,因此抽取兩個(gè)主成分。通過Fac1_1和Fac2_1計(jì)算主成分,即:prin1=sqrt(1)* Fac1_1, 1=1.857prin2=sqrt(2)* Fac2_1, 2=1.048計(jì)算數(shù)據(jù)如下:年份 YearFac1_1Fac2_1prin1prin21997-1.045061.34458-1.42-1.071998-1.17851.17171-1.61-1.211999-1.238030.80328-1.69-1.272000-1.090770.58389-1.49-1.122001-0.59255-1.23626-0.81-0.612002-0.40586-1.42529-0.55-0.422003-0.15451-1.34399-0.21-0.162004-0.16018-1.17416-0.22-0.1620050.03868-0.825270.050.0420060.692670.221670.940.7120070.966210.264971.320.9920081.259110.053451.721.2920091.440130.962351.961.4720101.468650.5990621.5現(xiàn)在用Y對前兩個(gè)主成分prin1和prin2做普通最小二乘回歸:模型匯總模型RR 方調(diào)整 R 方標(biāo)準(zhǔn) 估計(jì)的誤差1.980a.960.956458.362a. 預(yù)測變量: (常量), prin2。系數(shù)a模型非標(biāo)準(zhǔn)化系數(shù)標(biāo)準(zhǔn)系數(shù)tSig.B標(biāo)準(zhǔn) 誤差試用版1(常量)4081.000122.50233.314.000prin22099.925124.181.98016.910.000a. 因變量: Y其中prin1在回歸時(shí)被自動排除。得主成分回歸方程為:Y=4081.000+0prin1+2099.925prin2 再分別用兩個(gè)主成分prin1和prin2做因變量,以三個(gè)原始自變量為自變量做線性回歸:系數(shù)a模型非標(biāo)準(zhǔn)化系數(shù)標(biāo)準(zhǔn)系數(shù)tSig.B標(biāo)準(zhǔn) 誤差試用版1(常量)23.029.000.X26.826E-5.000.525.X3.001.000.489.X6-.474.000-.155.a. 因變量: prin1系數(shù)a模型非標(biāo)準(zhǔn)化系數(shù)標(biāo)準(zhǔn)系數(shù)tSig.B標(biāo)準(zhǔn) 誤差試用版1(常量)17.300.0002.813E7.000X25.128E-5.000.5256.424E7.000X3.001.000.4896.296E7.000X6-.356.000-.155-3.301E7.000 prin1=23.029+(6.826*10-5)X2+0.001X3-0.474X6prin2=17.300+(5.128*10-5)X2+0.001X3-0.356X6還原后的主成分回歸方程為:Y=40409.7025.+ 0.10768X2+2.1X3-747.5733X63.5.3 殘差分析由于我們對數(shù)據(jù)做了合理性刪除和主成分回歸法的新模型構(gòu)建,因此需要重新做殘差分析。利用模型Y=40409.7025.+ 0.10768X2+2.1X3-747.5733X6 及原始數(shù)據(jù)Y值得到殘差Rec,繪制殘差關(guān)于各變量散點(diǎn)圖如下:沒有明顯異常(自相關(guān)、異方差),將上模型作為最終回歸結(jié)論。4 結(jié)論與解釋經(jīng)過上述一系列工作,得到的最終模型是:Y=40409.7025.+ 0.10768X2+2.1X3-747.5733X6下面結(jié)合問題背景對擬合模型做解釋,各變量意義及變化范圍如下:Y :醫(yī)療機(jī)構(gòu)總診療人次(數(shù)值范圍2000-8000左右)X2 :年平均工資(數(shù)值范圍15000-50000左右)X3 :衛(wèi)生機(jī)構(gòu)數(shù)合計(jì)(數(shù)值范圍700-2000左右)X6 :區(qū)域環(huán)境噪聲平均值(數(shù)值范圍50左右)經(jīng)過變量的篩選,深圳醫(yī)療就診人數(shù)與工資、衛(wèi)生機(jī)構(gòu)數(shù)、環(huán)境噪聲有很大關(guān)聯(lián)。這也恰好反映了目前“診療費(fèi)高、部分百姓負(fù)擔(dān)困難”、“醫(yī)療設(shè)施不足
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 教育行業(yè)2025年數(shù)字化營銷與招生策略在職業(yè)規(guī)劃咨詢平臺應(yīng)用報(bào)告
- WPS職業(yè)生涯與技能提升試題及答案
- 線上線下結(jié)合現(xiàn)代漢語考試試題及答案
- 形式與意義結(jié)合Photoshop考試題目及答案
- 網(wǎng)絡(luò)管理員考試評估標(biāo)準(zhǔn)試題及答案
- 法學(xué)概論中的倫理探討試題及答案
- 現(xiàn)代漢語基礎(chǔ)知識試題及答案指南
- 人工智能在金融服務(wù)領(lǐng)域的應(yīng)用可行性研究評估報(bào)告
- 法學(xué)概論復(fù)習(xí)大調(diào)整試題及答案
- 2025年稅法考試背誦試題及答案
- 抗凝藥術(shù)前停藥指南
- 中國血脂管理指南(基層版2024年)
- JTS-167-2-2009重力式碼頭設(shè)計(jì)與施工規(guī)范
- 阿替普酶的藥理作用及應(yīng)用
- 2024年學(xué)生團(tuán)干部技能大賽考試題庫350題(含答案)
- 走進(jìn)歌劇世界智慧樹知到期末考試答案章節(jié)答案2024年北京航空航天大學(xué)
- (正式版)YST 1682-2024 鎂冶煉行業(yè)綠色工廠評價(jià)要求
- 口腔實(shí)習(xí)生培訓(xùn)
- 家庭教育指導(dǎo)流程
- 生產(chǎn)性服務(wù)業(yè)集聚對我國制造業(yè)全球價(jià)值鏈地位影響的門檻效應(yīng)研究
- JB T 5528-2005壓力表標(biāo)度及分劃
評論
0/150
提交評論