相關(guān)分析與回歸_第1頁
相關(guān)分析與回歸_第2頁
相關(guān)分析與回歸_第3頁
相關(guān)分析與回歸_第4頁
相關(guān)分析與回歸_第5頁
已閱讀5頁,還剩56頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、 v相關(guān)關(guān)系是指現(xiàn)象之間客觀存在的,在數(shù)量變化上受隨機因素影響的,非確定性的相互依存關(guān)系。相關(guān)分析的主要任務(wù)就是測定現(xiàn)象間是否存在相關(guān)關(guān)系,若存在,其相關(guān)程度如何。我們主要研究線性相關(guān)問題,測定線性相關(guān)程度的主要指標是相關(guān)系數(shù),計算相關(guān)系數(shù)的基本方法是積差法及其簡捷法。v回歸分析就是對具有相關(guān)關(guān)系的變量之間的數(shù)量變化關(guān)系進行測定,確定一個與之相應(yīng)的數(shù)學(xué)表達式,以便進行估計和預(yù)測的一種統(tǒng)計方法?;貧w分析的內(nèi)容:(1)建立回歸方程;(2)進行相關(guān)關(guān)系檢驗;(3)利用回歸模型進行預(yù)測?;貧w分析根據(jù)自變量多少,可分為一元回歸和多元回歸;根據(jù)現(xiàn)象間依存關(guān)系的形式,可分為線性回歸和非線性回歸。這里要求重點

2、掌握一元線性回歸分析。 v相關(guān)關(guān)系是指現(xiàn)象之間客觀存在的,在數(shù)量變化上受隨機因素的影響,非確定性的相互依存關(guān)系。v相關(guān)關(guān)系與函數(shù)關(guān)系 1)相關(guān)關(guān)系的范圍比函數(shù)關(guān)系的范圍更廣,函數(shù)關(guān)系可以說是相關(guān)關(guān)系的一個特例。 2)二者之間也有聯(lián)系,并沒有嚴格的界限。一方面,有些現(xiàn)象從理論上說存在著函數(shù)關(guān)系,可是在進行多次觀察和測量時,由于存在測量誤差等原因,實際得到的數(shù)據(jù)往往也是非確定性的,這時就表現(xiàn)為相關(guān)關(guān)系。另一方面,有些變量之間盡管沒有確定性的函數(shù)關(guān)系,但為了找到相關(guān)關(guān)系的一般數(shù)量表現(xiàn)形式,又往往需要使用函數(shù)關(guān)系的近似表達式。而且當我們對現(xiàn)象之間的內(nèi)在聯(lián)系和規(guī)律性了解得比較清楚時,相關(guān)關(guān)系又可能轉(zhuǎn)化為

3、函數(shù)關(guān)系。 相關(guān)關(guān)系的概念 v相關(guān)關(guān)系依據(jù)不同的劃分方式可以分成不同的類型: 1)按相關(guān)的因素多少分為單相關(guān)和復(fù)相關(guān) 2)按相關(guān)的形式不同分為直線相關(guān)和曲線相關(guān) 3)按相關(guān)變量變化的方向不同分為正相關(guān)和負相關(guān) 4)按相關(guān)的程度分為完全相關(guān)、不完全相關(guān)和不相關(guān)2)按相關(guān)的形式不同分為直線相關(guān)和曲線相關(guān) v相關(guān)分析的具體內(nèi)容主要有四個方面 : 1)揭示現(xiàn)象之間是否具有相關(guān)關(guān)系。 2)測定現(xiàn)象相關(guān)關(guān)系的密切程度。 3)構(gòu)建現(xiàn)象相關(guān)關(guān)系的數(shù)學(xué)模型。 4)測定因變量估計值的誤差程度。相關(guān)分析的類型與內(nèi)容 1.1.3相關(guān)分析的內(nèi)容 v相關(guān)分析的具體內(nèi)容主要有四個方面 : 1)揭示現(xiàn)象之間是否具有相關(guān)關(guān)系。

4、 2)測定現(xiàn)象相關(guān)關(guān)系的密切程度。 3)構(gòu)建現(xiàn)象相關(guān)關(guān)系的數(shù)學(xué)模型。 4)測定因變量估計值的誤差程度。 第二節(jié) 相關(guān)關(guān)系的判斷與測定v2.1相關(guān)關(guān)系的判斷v2.2相關(guān)關(guān)系的測定 v定性分析:對現(xiàn)象進行定性分析,就是根據(jù)現(xiàn)象質(zhì)的規(guī)定性,運用理論知識、專業(yè)知識、實際經(jīng)驗來進行判斷和分析。定性分析是進行相關(guān)分析的基礎(chǔ),在此基礎(chǔ)上,根據(jù)需要通過編制相關(guān)表和繪制相關(guān)圖來進行分析。 v定量分析 :利用相關(guān)圖和相關(guān)表進行相關(guān)關(guān)系的判斷 1)相關(guān)表.相關(guān)表是一種反映變量之間相關(guān)關(guān)系的統(tǒng)計表。 例1:某公司A產(chǎn)品廣告費與銷售收入相關(guān)表 年 份 12345678910年廣告費(萬元) 2234566677年銷售收

5、入(萬元) 50515253535455565657相關(guān)關(guān)系的判斷 根據(jù)對自變量是否分組,相關(guān)表分為簡單相關(guān)表和分組相關(guān)表。上例中即為簡單相關(guān)表.分組相關(guān)表是將原始數(shù)據(jù)進行分組編制而成的相關(guān)表。分組相關(guān)表又分為單變量分組相關(guān)表和雙變量分組相關(guān)表。 例2:某公司A產(chǎn)品廣告費與銷售收入單變量分組相關(guān)表 年廣告費(萬元) 年數(shù)累計 年銷售收入(萬元) 234567 211132 505253535556 例3:某公司A產(chǎn)品廣告費與銷售收入雙變量分組相關(guān)表 年廣告費(萬元) 年銷售收入(萬元) 合計 5051515252535354545555565657765432 2111122231112合計

6、211112210 2)相關(guān)圖.相關(guān)圖也稱相關(guān)散點圖或散點圖,是將具有相關(guān)關(guān)系的兩個變量值描繪在坐標圖上,以橫軸表示自變量,縱軸表示因變量,按兩變量的對應(yīng)值標出坐標點的分布狀況的統(tǒng)計圖。 例4:某公司A產(chǎn)品廣告費與銷售收入相關(guān)圖 廣告費用與銷售收入依存關(guān)系散點圖4950515253545556575802468系列1 v相關(guān)系數(shù) 1)概念:相關(guān)系數(shù)是指在直線相關(guān)的條件下,說明兩個現(xiàn)象之間相關(guān)關(guān)系緊密程度的統(tǒng)計分析指標,常用表示。 2)相關(guān)系數(shù)的取值范圍及其表達的相關(guān)程度: (1) 的取值范圍為:1 1。的絕對值越接近于1,表明相關(guān)程度越高;越接近于0,表明相關(guān)程度越低。 (2) =1或 =1,

7、表明兩現(xiàn)象完全相關(guān)。 (3) = 0,表明兩變量之間無直線相關(guān)關(guān)系。 (4)0,現(xiàn)象呈正相關(guān);0,現(xiàn)象呈負相關(guān)。 實踐中,一般將現(xiàn)象的相關(guān)關(guān)系分為四個等級: 0.3表示微弱相關(guān),0.3 0.5表示低度相關(guān);0.5 0.8表示顯著相關(guān); 0.8表示高度相關(guān)。 rrrrrrrrrrrr相關(guān)關(guān)系的測定 3)相關(guān)系數(shù)的計算 相關(guān)系數(shù)通常采用積差法計算,其計算公式為:式中 表示相關(guān)系數(shù); 表示自變量; 表示因變量。該公式也可寫成: 式中 為自變量的標準差; 為因變量的標準差; 為自變量與因變量的協(xié)方差。由此可知,相關(guān)系數(shù)是兩個變量協(xié)方差與兩個變量標準差乘積 的比。 22)()()(yyxxyyxxrii

8、iirxyyxxyr22)(1xxnx2)(1yyny)(12yyxxnxy 例5 利用下表中的資料計算相關(guān)系數(shù)。 積差法相關(guān)系數(shù)計算表 年份廣告費(萬元)銷售收入(萬元)123456789102234566677 505152535354555656572.82.81.80.80.21.21.21.22.22.2 3.72.61.70.70.70.30.30.32.33.3 7.847.842.240.640.041.441.441.444.844.84 13.696.760.890.490.490.090.091.695.2910.89 10.367.283.060.560.140.360

9、.361.565.067.26 合計 4853732.642.3736xx yy7 .53y8 . 4x2)(xx 2)(yy )(yyxx 解:數(shù)據(jù)計算過程如上表所示,將其中數(shù)據(jù)代入積差法公式得 相關(guān)系數(shù) = 0.9687 ,說明A產(chǎn)品年廣告費用與年銷售收入之間存在高度相關(guān)關(guān)系。 為減輕計算工作量,可將上述相關(guān)系數(shù)公式整理成如下簡捷計算公式: 例6 利用下表中的資料用簡捷法計算相關(guān)系數(shù) 9687. 01649.37365092. 67096. 53637.426 .3236rr 2222)()(yynxxnyxxynr 相關(guān)系數(shù)簡捷計算表 年份 年廣告費(萬元) 年銷售收入(萬元) 1234

10、5678910 2234566677 50515253535455565657 44916253636364949 2500260127042809280929163025313631363249 100102156212265324330336392399 合計 48 537 264 28885 2616 xy2x2yxy 解:依據(jù)上表中的資料利用簡捷公式計算得: =0.9552288369288850230426402577626160537288851048264105374826161022r 回歸分析變變量量間間的的關(guān)關(guān)系系確定性關(guān)系或函數(shù)關(guān)系y=f(x)人的身高和體重人的身高和體重

11、家庭的收入和消費家庭的收入和消費商品的廣告費和銷售額商品的廣告費和銷售額糧食的產(chǎn)量和施肥量糧食的產(chǎn)量和施肥量股票的價格和時間股票的價格和時間學(xué)生的期中和期末考試成績學(xué)生的期中和期末考試成績, ,非確定性關(guān)系xY實變量實變量隨機變量隨機變量非確定性關(guān)系非確定性關(guān)系回歸分析模型回歸分析模型(x,y)采集樣本信息(xi,yi)回歸分析散點圖回歸方程回歸方程的顯著性檢驗對現(xiàn)實進行預(yù)測與控制基本思想基本思想如果數(shù)學(xué)關(guān)系式描寫了一個變量與另一個變量之間的關(guān)系,則稱其為一元回歸分析一元回歸分析;如果數(shù)學(xué)關(guān)系式描寫了一個變量與另多個變量之間的關(guān)系,則稱其為多元回歸分析多元回歸分析,并且稱這一個變量是被影響變量

12、被影響變量(因變量:因變量:Dependent Variable);稱這多個變量是影響變量影響變量(自變量自變量:Independent Variable).回歸分析回歸分析是根據(jù)變量觀測數(shù)據(jù)分析變量間關(guān)系的常用統(tǒng)計分析方法.通常把變量觀測數(shù)據(jù)稱為樣本樣本. v一元線性回歸模型 一元線性回歸模型也稱簡單線性回歸模型,是分析兩個變量之間相互關(guān)系的數(shù)學(xué)方程式,其一般表達式為: 式中, 代表因變量的估計值, 代表自變量, 稱為回歸模型的待定參數(shù), 其中 又稱為回歸系數(shù) v一元回歸模型的建立 用 表示自變量 的實際值,用 表示因變量 的實際值( ,因變量的實際值與估計值之差用 表示,稱為估計誤差或殘差

13、。即: 。 依據(jù)最小平方法理論可得: bxayy xba,bixiyxy),3 , 2 , 1niieiiiyye一元線性回歸分析 21212112111)(11,xnxxynyxxnxyxnyxbbaniiniiiniiniiniiniiniii的估計:xbynxbyaniinii11 1)相關(guān)系數(shù)顯著性檢驗 為保證回歸方程具有最低的線性關(guān)系,可以將相關(guān)系數(shù) 的臨界值列成相關(guān)系數(shù)檢驗表。在給定顯著性水平 值和自由度 的值以后,查相關(guān)系數(shù)檢驗表,即可找到 對應(yīng)的最低臨界值 ,據(jù)此就可以判斷線性關(guān)系是否成立。 若 ,表明在顯著性水平 條件下,變量間的線性關(guān)系是顯著的,建立的回歸方程是有意義的;若

14、 ,表明在顯著性水平 條件下變量間的線性關(guān)系不顯著,建立的回歸模型實際意義待定。 rnrr)(mnrr)(mnrr一元回歸模型的檢驗 2)估計標準誤差檢驗 估計標準誤差也稱為估計標準差或估計標準誤,是殘差平方和的算術(shù)平均數(shù)的平方根,用 表示。其計算公式為: 式中 代表估計標準誤差, 代表估計殘差(實際值與估計值之差), 代表樣本容量, 代表回歸模型中待定參數(shù)的個數(shù)。 估計標準差是一項誤差分析指標,用于判斷回歸模型擬合的優(yōu)劣程度。 ySmneSniiy12ySiemnnininiiiiibxayyye111222)() ( 上述公式計算估計標準差較繁瑣,可以將其化簡整理成如下的簡捷計算法: 越大

15、,實際值與回歸直線的離散程度越大;反之, 越小,實際值與回歸直線的離散程度越小。一般要求 mnyxbyaySnininiiiiiy1112ySyS%15ySy 一元線性回歸模型通過檢驗,若其精度較好,擬合度優(yōu),即可用其進行預(yù)測。 例 若對回歸模型 進行預(yù)測.若2005年A產(chǎn)品廣告費為8萬元,則年銷售收入預(yù)測值為: 將 (萬元)代入回歸方程 中得: (萬元) 上述預(yù)測只測算了一個數(shù)值點,假定其他因素不變, ,置信度為95%( ),查正態(tài)分布概率表,F(xiàn)(t)=95%, t=1.96,則A產(chǎn)品2005年估計銷售收入為: 即A產(chǎn)品年廣告費為8萬元時,其年銷售收入在(55.984,58.7918 )之間

16、。 xy1429. 12143.488xxy1429. 12143.483862.5781429. 12143.48y7154. 0yS%95)(tF7154. 096. 13862.57y預(yù)測 多元線性回歸分析 v二元線性回歸模型 一個因變量 與兩個自變量 , 呈線性相關(guān),則可建立二元線性回歸模型: 式中, 代表因變量的估計值,a為回歸常數(shù),b1,b2為回歸系數(shù), , 代表自變量 利用最小二乘法,可推導(dǎo)出計算求解二元線性回歸方程參數(shù) 的方程組: y1x2x2211xbxbayy 1x2x21,bbaniiniiiniiniiiniiiniiniiniiiniiniiniixbxxbxayxx

17、xbxbxayxxbxbnay1222121112121212121121111221111二元線性回歸模型 v二元線性回歸模型 例1 某商品的需求量主要受商品價格及居民收入水平的影響,近十年該商品有關(guān)資料如下表二、三、四列所示,試建立二元線性回歸方程。 年份 需求量( ) 價格( ) 居民收入( ) 12345678910566.577.589101011 8976765453 3030405060120130110100130 405445.54252.54845405033 1501802603504509601170110010001430 2402702803004207206504

18、40500390 6481493649362516259 9009001600250036001440016900121001000016900 合計80608004507050421039079800iyix1ix2iiyx1iiyx2iixx2121ix22ix 解: 根據(jù)計算回歸方程參數(shù)的要求,計算相關(guān)資料如上表五、六、七、八、九列所示。 由表中資料計算可得: , , 把表中相關(guān)資料代入求參數(shù)a,b1,b2的線性方程組: 解此方程組,得: a=11.228 b1=0.725 b2=0.014 故二元線性回歸方程為: 這一模型表明,當居民收入不變時,價格每上漲一元,該商品的需求量將平均減少

19、0.724千克;當商品價格不變時,居民收入每增加一萬元,該商品的需求量將平均增加0.014千克。 81080y610601ix80108002ix2121217980042108007050421039060450800601080bbabbabba21014. 0725. 0228.11xxy v二元回歸模型的檢驗 1)相關(guān)系數(shù)及顯著性檢驗 復(fù)相關(guān)系數(shù)是反映一個因變量與多個自變量之間的線性相關(guān)程度的指標,用R表示。其計算公式為: 此公式只能在因變量的估計值求得以后才能運用。其簡捷計算公式為: niiiniiiniiniiyyyyyyyyR12121212)()(1)()(2121221111

20、12)(1iniiniiiniiiniiniiynyyxbyxbyayR二元線性回歸模型的檢驗 例2 依據(jù)例1的資料計算復(fù)相關(guān)系數(shù)。解:根據(jù)例1的資料作復(fù)相關(guān)系數(shù)計算表 年份 需求量( ) 12345678910566.577.5891010115.95.16.77.67.08.69.49.99.01.90.810.810.040.360.250.360.160.011.00.01942.2510.2501449253642.254956.256481100100121合計 8080.13.8134.5674.5iyiy 2)(iiyy 2)(iiyy 2iy 將上表數(shù)據(jù)代入復(fù)相關(guān)系數(shù)公式得:

21、 若顯著性水平 時,自由度=103=7,查“相關(guān)系數(shù)檢驗表”得 由相關(guān)系數(shù)及其顯著性水平檢驗數(shù)值可知,上述二元線性方程具有高度相關(guān)關(guān)系。 復(fù)相關(guān)系數(shù)的取值范圍為0R1。復(fù)相關(guān)系數(shù)為1,表明因變量與自變量之間存在嚴密的線性關(guān)系,復(fù)相關(guān)系數(shù)為0則表明因變量與自變量之間不存在任何線性相關(guān)關(guān)系。一般情況下,復(fù)相關(guān)系數(shù)的取值在0和1之間,表明變量之間存在一定程度的線性相關(guān)關(guān)系。 943. 05 .3481. 31R05. 0758. 0)310(05. 0R 2)估計標準誤檢驗 二元線性回歸分析中,估計標準誤也是殘差平方和的算術(shù)平均數(shù)的平方根。其一般計算公式為: 其簡捷計算公式為: mnyySniiiy

22、12)(mnyxbyxbyaySniiiniiniiniiy1221111112mnyxbyxbyaySniiiniiniiniiy1221111112 例3 根據(jù)例1所建立的二元線性模型 ,依據(jù)例1表中的資料計算估計標準誤,檢驗所建模型的擬合程度 解: 0.738 估計標準誤為0.738,說明建立的二元線性回歸方程擬合度較好。 21014. 0725. 0228.11xxy3107050014. 0450)725. 0(80228.115 .674yS 案例一案例一 軟件開發(fā)人員的薪金軟件開發(fā)人員的薪金一家高技術(shù)公司人事部門為研究軟件開發(fā)人員的薪金與他們的資歷、管理責任、教育程度等因素之間的

23、關(guān)系,要建立一個數(shù)學(xué)模型,以便分析公司人士策略的合理性軟件開發(fā)軟件開發(fā)人員的薪金人員的薪金,并作為新聘用人員工資的參考。他們認為目前公司人員的薪金總體上是合理的,可以作為建模的依據(jù),于是調(diào)查了46名開發(fā)人員的檔案資料,如表。 其中:資歷一列指從事專業(yè)工作的年數(shù), 管理一列中1表示管理人員, 0表示非管理人員, 教育一列中1表示中學(xué)程度,2表示大學(xué)程度, 3表示更高程度(研究生)編號薪金資歷管理教育編號薪金資歷管理教育011387611113198003130211608103141141740103187011131520263413041128310216132314030511767103

24、171284440206208722121813245502071177220219136775030810535201201596551109121952032112366601101231330222213526131114975311231383960212213713122422884612編號薪金資歷管理教育編號薪金資歷管理教育2516978711361688212022614803802372417012132717404811381599013012822184813392633013122913548801401794914023014467100141256851513311

25、59421002422783716123223174101343188381602332378010124417483160134254101112451920717023514861110146193462001開發(fā)人員的薪金與他們的資歷、管理責任、教育程度分析與假設(shè):分析與假設(shè):按照常識,薪金自然按照資歷(年)的增長而增加,管理人員的薪金高于非管理人員,教育程度越高薪金越高。薪金記作y,資歷(年)記作1x,為了表示是否為管理人員定義2x1,管理人員0,非管理人員為了表示三種教育程度,定義3x1,中學(xué)0,其它4x1,大學(xué)0,其它這樣,中學(xué)用0, 143xx表示,大學(xué)用1, 043xx表示,研

26、究生則用0, 043xx表示。為了簡單起見,我們假定資歷(年)對薪金的作用是線性的,即資歷每加一年,薪金的增長是常數(shù);管理責任、教育程度、資歷諸因素之間沒有交互作用,建立線性回歸模型?;灸P停夯灸P停盒浇饄與資歷1x,管理責任2x,教育程度43,xx之間的多元線性回歸模型為443322110 xaxaxaxaay其中,410,aaa是待估計的回歸系數(shù),是隨機誤差。利用MATLAB的系統(tǒng)工具箱可以得到回歸系數(shù)及其置信區(qū)間(置信水平 )05. 0、檢驗統(tǒng)計量pFR,2的結(jié)果,見表。參數(shù)參數(shù)估計值置信區(qū)間1103210258 11807546484 60868836248 7517-2994-3

27、826 -2162148-636 9310a1a2a3a4a0,226,957. 02pFR結(jié)果分析:結(jié)果分析:從表中,957. 02R,即因變量(薪金)的95.7%可由模型確定,F(xiàn)值超過F檢驗的臨界值,p遠小于,因而模型從整體來看是可用的。比如,利用模型可以估計(或估計)一個大學(xué)畢業(yè)、有2年資歷、管理人員的薪金為12273100243210aaaaay模型中各個回歸系數(shù)的含義可初步解釋如下:1x的系數(shù)為546,說明資歷每增加一年,薪金增長546;2x的系數(shù)為6883,說明管理人員的薪金比非管理人員多6883;3x的系數(shù)為-2994,說明中學(xué)程度的薪金比研究生少2994;4x的系數(shù)為148,說

28、明大學(xué)程度的薪金比研究生多148,但是應(yīng)該注意到4a的置信區(qū)間包含零點,所以這個系數(shù)的解釋是不可靠的。注意:上述解釋是就平均值來說的,并且,一個因素改變引起的因變量的變化量,都是在其它因素不變的條件下才成立的。進一步討論:進一步討論:的置信區(qū)間包含零點,說明上述基本模型存在缺點。為了4a尋找改進的方向,常用殘差分析法(殘差指薪金的實際值y與模型估計的薪金y 之差,是基本模型中隨機誤差的估計值,這里用同一個符號)。我們將影響因素分成資歷與管理教育組合兩類,管理-教育組合定義如表。組合1 23456管理010101教育112233管理管理教育組合教育組合為了對殘差進行分析,下圖給出與資歷1x的關(guān)系

29、,及與管理2x-教育43, xx組合間的關(guān)系。與資歷1x的關(guān)系與432,xxx 組合的關(guān)系從左圖看,殘差大概分成3個水平,這是由于6種管理教育組合混在一起,在模型中未被正確反映的結(jié)果;從右圖看,對于前4個管理教育組合,殘差或者全為正,或者全為負,也表明管理-教育組合在模型中處理不當。在模型中,管理責任和教育程度是分別起作用的,事實上,二者可能起著交互作用,如大學(xué)程度的管理人員的薪金會比二者分別的薪金之和高一點。以上分析提示我們,應(yīng)在基本模型中增加管理更好的模型:更好的模型:2x與教育43, xx的交互項,建立新的回歸模型。增加2x與43, xx的交互項后,模型記作426325443322110

30、 xxaxxaxaxaxaxaay利用MATLAB的統(tǒng)計工具箱得到的結(jié)果如表:參數(shù)參數(shù)估計值置信區(qū)間1120411044 11363497486 50870486841 7255-1727-1939 -1514-348-545 -152-3071-3372 -276918361571 21010a1a2a3a4a5a6a0,554,999. 02pFR由上表可知,這個模型的 做該模型的兩個殘差分析圖,可以看出,已經(jīng)消除了不正常現(xiàn)象,這也說明了模型的適用性。2R和F值都比上一個模型有所改進,并且所有回歸系數(shù)的置信區(qū)間都不含零點,表明這個模型完全可用。與1x的關(guān)系與432,xxx 組合的關(guān)系 從上

31、圖,還可以發(fā)現(xiàn)一個異常點:具有10年資歷、大學(xué)程度的管理人員(編號33)的實際薪金明顯低于模型的估計值,也明顯低于與他有類似經(jīng)歷的其他人的薪金。這可能是由我們未知的原因造成的。為了使個別數(shù)據(jù)不致影響整個模型,應(yīng)該將這個異常數(shù)據(jù)去掉,對模型重新估計回歸系數(shù),得到的結(jié)果如表。殘差分析見圖。可以看到,去掉異常數(shù)后結(jié)果又有改善。參數(shù)參數(shù)估計值置信區(qū)間1120011139 11261498494 50370416962 7120-1737-1818 -1656-356-431 -281-3056-3171 -294219971894 21000a1a2a3a4a5a6a0,36701,9998. 02p

32、FR與1x的關(guān)系與432,xxx 組合的關(guān)系模型的應(yīng)用:模型的應(yīng)用:對于第二個模型,用去掉異常數(shù)據(jù)(33號)后估計出的系數(shù)得到的結(jié)果是滿意的。模型的應(yīng)用之一,可以用來“制訂”6種管理教育組合人員的“基礎(chǔ)”薪金(即資歷為零的薪金),這是平均意義上的。利用第二個模型和去掉異常數(shù)據(jù)后得到的回歸系數(shù),可以得到如下結(jié)果:組合管理教育系數(shù)“基礎(chǔ)”薪金1019463211134483021084441219882503112006131824130aa 5320aaaa40aa 6420aaaa0a20aa 可以看出,大學(xué)程度的管理人員薪金比研究生程度管理人員薪金高,而大學(xué)程度的非管理人員薪金比研究生程度非

33、管理人員薪金略低。當然,這是根據(jù)這家公司實際數(shù)據(jù)建立的模型得到的結(jié)果,并不具普遍性。評注:評注:從建立回歸模型的角度,通過這個問題的求解我們學(xué)習(xí)了:1) 對于影響因變量的定性因素(管理、教育),可以引入 01變量來處理,01變量的個數(shù)比定性因素的水平少 1(如教育程度有3個水平,引入2個01變量)。2) 用殘差分析法可以發(fā)現(xiàn)模型的缺陷,引入交互作用項常 ??梢缘玫礁纳?。3) 若發(fā)現(xiàn)異常值應(yīng)剔除,有助于結(jié)果的合理性。思考:思考:在這里我們由簡到繁,先分別引進管理和教育因素,再引入交互項。試直接對6種管理-教育組合引入5個01變量,建立模型,看結(jié)果如何。案例二案例二 教學(xué)評估教學(xué)評估為了考評教師的

34、教學(xué)質(zhì)量,教學(xué)研究部門設(shè)計了一個教學(xué)評估表,對學(xué)生進行一次問卷調(diào)查,要求學(xué)生對12位教師的15門課程(其中3為教師有兩門課程)按以下7項內(nèi)容打分,分值為15分(5分最好,1分最差):問題:問題:1X課程內(nèi)容組織的合理性;2X主要問題展開的邏輯性;3X回答學(xué)生問題的有效性;4X課下交流的有助性;5X教科書的幫助性;6X考試評分的公正性;Y對教師的總體評價。收回問卷調(diào)查表后,得到了學(xué)生對12為教師、15門課程各項評分的平均值,見表。 教師編號課程編號12014.464.424.234.104.564.374.1122244.113.823.293.603.993.823.3833013.583.3

35、13.243.764.393.753.1743014.424.374.344.403.634.274.3953014.624.474.534.674.634.574.691X2X3X4X5X6XY教師編號課程編號63093.183.823.923.623.504.143.2573112.472.793.583.502.843.842.8483114.293.924.053.762.764.113.9593124.414.364.274.754.594.114.18103124.594.344.244.392.644.384.44113334.554.454.434.574.454.404.47

36、124244.674.644.524.393.484.214.6133513.713.413.394.184.064.063.1744114.284.454.104.073.764.434.1594244.244.384.354.484.154.504.331X2X3X4X5X6XY61 XX不一定每項都對教師總體評價Y有顯著影響,并且各項內(nèi)容之間也可能存在很強的相關(guān)性,他們希望得到一個總體評價與各項具體內(nèi)容之間的模型,模型應(yīng)盡量簡單和有效,并且由此能給教師一些合理的建議,以提高總體評價。準備知識:準備知識:逐步回歸這個問題給出了6個自變量,但我們希望從中選出對因變量Y影響顯著的那些來建立回歸

37、模型。變量選擇的標準應(yīng)該是將所有對因變量影響顯著的自變量都選入模型,而影響不顯著的自變量都不選入模型,從便于應(yīng)用的角度,應(yīng)使模型中的自變量個數(shù)盡量少。逐步回歸就是一種從眾多自變量中有效的選擇重要變量的方法。教學(xué)研究部門認為,所列各項具體內(nèi)容逐步回歸逐步回歸的基本思路是,先確定一個包含若干自變量的初始集合,然后每次從集合外的變量中引入一個對因變量影響最大的,再對集合中的變量進行檢驗,從變得不顯著的變量中移出一個影響最小的,依次進行,直到不能引入和移出為止。引入和移出都以給定的顯著性水平為標準。利用MATLAB系統(tǒng)工具箱中的逐步回歸命令stepwise可以實現(xiàn)逐步回歸。Stepwise提供人機交互

38、式畫面,可以在畫面上自由引入和移出變量,進行統(tǒng)計分析。具體用法參見MATLAB叢書回歸模型的建立與求解:回歸模型的建立與求解:我們利用MATLAB命令得到各個變量的回歸系數(shù),置信區(qū)間,及剩余標準差(RMSE),決定系數(shù)(R-square),F(xiàn)值,p值。見表。參數(shù)參數(shù)估計值置信區(qū)間10.51620.01546 0.0192-0.05469-0.853 0.7436 30.6706-0.03795 1.37940.1245-0.462 0.67515-0.04335-0.2514 0.164760.1363-0.6958 0.9684RMSER-squareFp0.11250.980667.292.071e-006可以看到,除1X外其他

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論