




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第三節(jié) 簡單直線回歸分析 英人 遺傳學 高爾頓 學生 皮爾遜 簡單線性回歸分析:是對兩個具有線性關系的變量,研究其相關性,配合線性回歸方程,并根據(jù)自變量的變動來推算和預測因變量平均發(fā)展趨勢的方法。一、回歸分析的概念“回歸一詞是由英國生物學家高爾頓在研究人體身高的遺傳問題時首先提出的。根據(jù)遺傳學的觀點:父母身材高的,其子女一般也較高,父母身材矮的,其子女身材也較矮。依此推論,祖祖輩輩遺傳下來,身高必然向兩極分化,而事實上并非如此。同樣身高的父親,其子女身高并不一致。身材很高的子女往往是由身材中等偏上的父母所生,父母身材矮的其子女一般也較矮,但平均起來并不是特別矮。把這種人的身高趨向人的平均高度的
2、現(xiàn)象稱作回歸。 回歸分析:通過一個變量或一些變量的變化解釋另一變量的變化。設法找出合適的數(shù)學方程式即回歸模型描述變量間的關系 (二回歸的種類 回歸按照自變量的個數(shù)劃分為一元回歸和多元回歸。只有一個自變量的回歸叫一元回歸,有兩個或兩個以上自變量的回歸叫多元回歸。 按照回歸曲線的形態(tài)劃分,有線性直線回歸和非線性曲線回歸。 實際分析時應根據(jù)客觀現(xiàn)象的性質、特點、研究目的和任務選取回歸分析的方法。 二、相關分析與回歸分析的關系 (一相關分析與回歸分析的聯(lián)系 相關分析是回歸分析的基礎和前提,回歸分析則是相關分析的深入和繼續(xù)。相關分析需要依靠回歸分析來表現(xiàn)變量之間數(shù)量相關的具體形式,而回歸分析則需要依靠相
3、關分析來表現(xiàn)變量之間數(shù)量變化的相關程度。只有當變量之間存在高度相關時,進行回歸分析尋求其相關的具體形式才有意義。如果在沒有對變量之間是否相關以及相關方向和程度做出正確判斷之前,就進行回歸分析,很容易造成“虛假回歸”。與此同時,相關分析只研究變量之間相關的方向和程度,不能推斷變量之間相互關系的具體形式,也無法從一個變量的變化來推測另一個變量的變化情況,因而,在具體應用過程中,只有把相關分析和回歸分析結合起來,才能達到研究和分析的目的。 (二相關分析與回歸分析的區(qū)別 1相關分析中涉及的變量不存在自變量和因變量的劃分問題,變量之間的關系是對等的;而在回歸分析中,則必須根據(jù)研究對象的性質和研究分析的目
4、的,對變量進行自變量和因變量的劃分。因而,在回歸分析中,變量之間的關系是不對等的。 2在相關分析中所有的變量都必須是隨機變量;而在回歸分析中,自變量是確定的,因變量才是隨機的,即將自變量的給定值代入回歸方程后,所得到的因變量的估計值不是唯一確定的,而會表現(xiàn)出一定的隨機波動性。 3相關分析主要是通過一個指標即相關系數(shù)來反映變量之間相關程度的大小,由于變量之間是對等的,因此相關系數(shù)是唯一確定的。而在回歸分析中,對于互為因果的兩個變量 (如人的身高與體重,商品的價格與需求量),則有可能存在多個回歸方程。 需要指出的是,變量之間是否存在“真實相關”,是由變量之間的內在聯(lián)系所決定的。相關分析和回歸分析只
5、是定量分析的手段,通過相關分析和回歸分析,雖然可以從數(shù)量上反映變量之間的聯(lián)系形式及其密切程度,但是無法準確判斷變量之間內在聯(lián)系的存在與否,也無法判斷變量之間的因果關系。因而,在具體應用過程中,一定要注意把定性分析和定量分析結合起來,在定性分析的基礎上展開定量分析。 變量之間關系變量之間關系函數(shù)關系函數(shù)關系相關關系相關關系因果關系因果關系互為因果關系互為因果關系共變關系共變關系確定性依存關系確定性依存關系隨機性依存關系隨機性依存關系|聯(lián)絡聯(lián)絡:相關分析是回歸分析的前提相關分析是回歸分析的前提 ;回歸分析;回歸分析是相關分析的繼續(xù)和拓展。是相關分析的繼續(xù)和拓展。|區(qū)別區(qū)別m變量之間是否存在對等關系
6、;在回歸分析中,變量之間是否存在對等關系;在回歸分析中,y y被稱為因變量,被稱為因變量,處在被解釋的特殊地位,而在相關分析中,處在被解釋的特殊地位,而在相關分析中,x x與與y y處于平等的地位,處于平等的地位,即研究即研究x x與與y y的密切程度和研究的密切程度和研究y y與與x x的密切程度是一致的;的密切程度是一致的; m變量之間地位的變化和計算結果;相關分析中,變量之間地位的變化和計算結果;相關分析中,x x與與y y都是隨機都是隨機變量,而在回歸分析中,變量,而在回歸分析中,y y是隨機變量,是隨機變量,x x可以是隨機變量,也可可以是隨機變量,也可以是非隨機的,通常在回歸模型中
7、,總是假定以是非隨機的,通常在回歸模型中,總是假定x x是非隨機的;是非隨機的;m對資料的要求。從資料所具備的條件來說,作相關分析時要求對資料的要求。從資料所具備的條件來說,作相關分析時要求兩變量都是隨機變量如:人的身長與體重);作回歸分析時要兩變量都是隨機變量如:人的身長與體重);作回歸分析時要求因變量是隨機變量,自變量可以是隨機的,也可以是一般變量求因變量是隨機變量,自變量可以是隨機的,也可以是一般變量( (即可以事先指定變量的取值,如:用藥的劑量即可以事先指定變量的取值,如:用藥的劑量) )。 相關分析旨在測度變量之間的關系密切程度,用的測度工具是相關系數(shù).回歸分析側重于考察變量之間的數(shù)
8、量變化規(guī)律,并通過一定的數(shù)學表達式描述它們間的關系,進而確定一個或幾個變量的變化對被解釋變量的影響程度.兩者都是研究變量之間不確定性統(tǒng)計關系的重要方法.相關系數(shù)是惟一確定的。而在回歸分析中,對于互為因果的兩個變量 (如人的身高與體重,商品的價格與需求量),則有可能存在多個回歸方程。 相關分析相關分析回歸分析回歸分析聯(lián)聯(lián)系系 *研究變量間的不確定性關系,存在相關才能回歸研究變量間的不確定性關系,存在相關才能回歸 *相關系數(shù)與回歸模型中的參數(shù)相關系數(shù)與回歸模型中的參數(shù)相互換算相互換算區(qū)區(qū)別別*變量地位對等變量地位對等*都是隨機變量都是隨機變量*側重相關的密切程度和變側重相關的密切程度和變 化方向化
9、方向*分為因變量與自變量分為因變量與自變量*因變量為隨機變量因變量為隨機變量*側重建立模型預測或估計側重建立模型預測或估計因變量因變量 函數(shù)關系是相關關系的特例,即函數(shù)關系是完函數(shù)關系是相關關系的特例,即函數(shù)關系是完全的相關關系,相關關系是不完全的相關關系。全的相關關系,相關關系是不完全的相關關系。 函數(shù)關系與相關關系雖然有明顯的區(qū)別,但兩函數(shù)關系與相關關系雖然有明顯的區(qū)別,但兩者之間并不存在不可逾越的界限。由于存在測者之間并不存在不可逾越的界限。由于存在測算誤差等原因,函數(shù)關系在實際中往往通過相算誤差等原因,函數(shù)關系在實際中往往通過相關關系表現(xiàn)出來。而在研究相關關系時,為了關關系表現(xiàn)出來。而
10、在研究相關關系時,為了找到現(xiàn)象間數(shù)量關系的內在聯(lián)系和表現(xiàn)形式,找到現(xiàn)象間數(shù)量關系的內在聯(lián)系和表現(xiàn)形式,又常常需要借助于函數(shù)關系的形式加以描述。又常常需要借助于函數(shù)關系的形式加以描述。 因而,相關關系是相關分析的研究對象,函數(shù)因而,相關關系是相關分析的研究對象,函數(shù)關系是相關分析的工具。關系是相關分析的工具。一、簡單線性回歸分析(一元一次回歸)對于具有線性因果關系的兩個變量,由于有隨機因素的干擾,兩變量的線性關系中應包括隨機誤差項,即有:對于某一確定的值,其對應的值雖有波動,但在大量觀察中隨機誤差的期望值為零,即=0,因而從平均意義上說,總體線性回歸方程為: 回歸方程的基本形式 y c=a+bx
11、 a、b為待定參數(shù) 1、最小平方法理論要點:觀察值y與回歸估計值yc離差平方和最小。系數(shù)方程組為:min2cyy22bxayyyQc令02012xbxaybQbxayaQ00 xbxaybxay2xbxaxyxbnay 222222xxyxxyxxyxxnyxxynbxbyaubxay最小平方法回歸分析步驟 求解方程組得:回歸方程為:預測農(nóng)業(yè)總費用達10萬元時的農(nóng)業(yè)總收入:xy2xyxbaba68.3876647.144566137 .24577. 325. 0baxyc77. 325. 045.371077. 325. 010y2xbxaxyxbnay據(jù)資料計算 代入方程組,求解a和b 寫出
12、回歸方程式,進行估計舉例:將右表資料代入方程組:2、部分平均法 理論要點:將資料分成兩部分,每部分離差之和皆為0。 直線經(jīng)過平均數(shù)和前后平均數(shù)三點。求解系數(shù)方程組為: 代入方程組得: 解方程組得: 回歸方程為:預測農(nóng)業(yè)總費用10萬元時的農(nóng)業(yè)總收入后前00ccyyyy后后前前xbanyxbany22序號農(nóng)業(yè)總費用 x(萬元)農(nóng)業(yè)總收入y(萬元)12.022.533.043.453.864.674.785.896.2106.4117.3128.1138.2合計66.0baba4265 .1553 .1962 .698 . 369. 0baxyc8 . 369. 031.37108 . 369. 0
13、10y簡單線性回歸練習 某地居民收入和消費資料如右表所示。 確定回歸方程 估計收入達2000元時的人均飲食消費水平。 計算相關系數(shù) 解:飲食消費 r=0.955收入水平(元)人口數(shù)飲食消費(元)400以下50220400-800200450800-12004006001200-16002007001600以上150750合 計1000 xyc289. 09 .2808 .8592000y提示.)50*200()200*60050*200(.)50*220*200()200*60050*200(.)20050(.)200*45050*220(2bab2xbxaxyxbnay先計算x,y加權算術平
14、均數(shù)fyyfxxfyyxxr22.50220.50200.5022020022yxyxr提示回歸估計標準誤差 回歸方程的一個重要作用在于根據(jù)自變量的已知值估計因變量的理論值估計值)。而理論值與實際值存在著差距,這就產(chǎn)生了推算結果的準確性問題。如果差距小,說明估計回歸方程的精確度較高;反之則低。為此,分析理論值與實際值的差距很有意義。為了度量的實際水平和估計值離差的一般水平,可計算估計標準誤差。估計標準誤差是衡量回歸直線代表性大小的統(tǒng)計分析指標,它說明觀察值圍繞著回歸直線的變化程度或分散程度。 (一估計標準誤差的計算 通常用代表估計標準誤差,其計算公式為:2)(2nyySe 回歸估計標準差與一般
15、標準差 回歸估計標準差與前面介紹的標準差的計算原理是一致的,兩者都是反映平均差異程度和代表性的指標。一般標準差反映的是各變量值與其平均數(shù)的平均差異程度,表明其平均數(shù)對各變量值的代表性強弱; 回歸標準誤差反映的是因變量各實際值與其估計值之間的平均差異程度,表明其估計值對各實際值的代表性強弱,其值越小,估計值或回歸方程的代表性越強,用回歸方程估計或預測的結果越準確。二、復線性回歸 一個因變量和多個自變量之間的線性回歸。 回歸標準形式為: 系數(shù)方程組為: 如二元線性回歸 系數(shù)方程組為:ppcxaxaxaay221102221102222211202121221110122110ppppppppppp
16、pxaxxaxxaxayxxxaxaxxaxayxxxaxxaxaxayxxaxaxanay22110 xaxaayc22221120221221110122110 xaxxaxayxxxaxaxayxxaxanay二元線性回歸舉例 某地區(qū)10個農(nóng)民家庭人均月收入(x1)、人均月食品消費(x2)和人均月儲蓄額(y) 的回歸計算。 代入方程組得: 解方程組得: 二元線性回歸方程為 yc=2.07+0.22x10.08x2 回歸系數(shù)的涵義。 序號人均月收入xl(元) 人均月食品消費x2(元) 人均月儲蓄額y(元) 122142228193332203436224541255645236751296
17、85734796034910663810合計438258552121217192122972581594122972110043827482584381055bbabbabba08.022.007.221bba22221120221221110122110 xaxxaxayxxxaxaxayxxaxanay第四節(jié) 曲線回歸和相關 一、二次拋物線回歸 當自變量x增加時,因變量y呈先增后減的相關情形。 標準方程: 最小平方法系數(shù)方程組: 部分平均法系數(shù)方程組:2cxbxayc4322322xcxbxayxxcxbxaxyxcxbnay后后后中中中前前前222333xcxbanyxcxbanyxcx
18、bany拋物線回歸練習 為以下資料配合拋物線方程施肥量x(kg) 畝產(chǎn)量y(kg)x2x3x4xyx2y50325603707040580430904451004501104454322322xcxbxayxxcxbxaxyxcxbnay二、指數(shù)曲線回歸 標準方程: a.0 b0 兩端取對數(shù)(線性化) 令 原方程線性化為 系數(shù)方程組 解方程組求A、B,查反對數(shù)得xcaby bxayclglglgyylgaAlgbBlgBxAy2xBxAxyxBnAyAa1lgBb1lg三冪函數(shù)曲線(等比曲線) 在經(jīng)濟學中就是著名的柯貝道格拉斯生產(chǎn)函數(shù)曲線。 一般形式為: yc = a xb 式中,a,b為待定
19、參數(shù),且a0, b的取值決定曲線的形狀。 將此方程線性化只要對方程兩邊取對數(shù)即可得: 令: y=lgy, a=lga, x=lgx 則線性化方程為: y=a+bx 四、雙曲線 因變量y的初始值很大,當自變量x稍有增加時因變量y的取位驟然下降,直至逼近一個常數(shù),就不再隨自變量的變化而變化即使有變化,也是很微小的)。 雙曲線方程的一般形式為: 式中, a,b為方程的參數(shù)。且a0, b0, 雙曲線回歸方程的線性化: 令 有直線方程:y=a+bxxbayc1xxyy1,1對數(shù)曲線回歸模型 對數(shù)曲線回歸模型的表達式為: 若令 ,則對數(shù)曲線回歸模型可化為直線回歸模型:lnyabxlnxxyabx五、曲線回
20、歸方程應用舉例 商品需求量與價格資料顯示,隨著價格的提高,需求隨之逐漸減少,而這種減少并不是近似均等地減少,而是作近似等比地減少。因此可配合指數(shù)曲線,其回歸方程為:yc=abx 所求曲線方程為 :yc237.5746(0.9824)x序號價格需求量y123456789101016202429344045495520018216515413913012010810089非線性回歸分析非線性類型非線性類型常見的曲線有雙曲線、冪函數(shù)、指數(shù)、對數(shù)曲常見的曲線有雙曲線、冪函數(shù)、指數(shù)、對數(shù)曲線。線。非線性回歸方程的建立非線性回歸方程的建立下面主要介紹下面主要介紹指數(shù)曲線方程指數(shù)曲線方程的建立。的建立。【例
21、【例10.810.8】 某集團公司某集團公司20192019年年112112月份產(chǎn)量及單位成月份產(chǎn)量及單位成本資料如下表所示:本資料如下表所示:月份月份月產(chǎn)量(噸)月產(chǎn)量(噸)x x單位產(chǎn)品成本(元)單位產(chǎn)品成本(元)1 12 23 34 45 56 67 78 89 910101111121210101616202025253131363640404545515156566060656516016015115111411412812885859191757576766666606061616060根據(jù)上表實際觀測值資料,在直角坐標系上作根據(jù)上表實際觀測值資料,在直角坐標系上作10.710.7
22、的散點圖,以確定曲線類型。的散點圖,以確定曲線類型。從散點圖可以看出,隨著產(chǎn)量的逐漸增多,單從散點圖可以看出,隨著產(chǎn)量的逐漸增多,單位產(chǎn)品成本有隨之而逐漸降低的趨勢,這說明在位產(chǎn)品成本有隨之而逐漸降低的趨勢,這說明在月產(chǎn)量與單位成本之間存在著一定的依存關系,月產(chǎn)量與單位成本之間存在著一定的依存關系,但單位成本的降低程度并不是隨產(chǎn)量的增加而均但單位成本的降低程度并不是隨產(chǎn)量的增加而均勻地變化,因而,從散點圖實測點的分布趨勢看勻地變化,因而,從散點圖實測點的分布趨勢看出比較接近指數(shù)函數(shù)圖形,適于配合指數(shù)函數(shù)曲出比較接近指數(shù)函數(shù)圖形,適于配合指數(shù)函數(shù)曲線:線:xaby (b b0 0)將回歸方程的兩
23、端取對數(shù),得:將回歸方程的兩端取對數(shù),得:bxaylglglg,lg,lg, lg,bbaayy若則上述指數(shù)方程可以轉化為:則上述指數(shù)方程可以轉化為: xbay 根據(jù)最小平方法原理,及應滿足下列標準方程式:根據(jù)最小平方法原理,及應滿足下列標準方程式:xbany2xbxayx其中:其中: yylg解上式,可以得到解上式,可以得到a,b,a,b,再根據(jù)再根據(jù)a=a=a,b=a,b=b b的關系式,便可求出的關系式,便可求出a a,b b的值。的值。 例:根據(jù)選定的曲線類型,對此進行直線回歸分析,例:根據(jù)選定的曲線類型,對此進行直線回歸分析,如表下表所示:如表下表所示:根據(jù)表計算可得:標準方程組為:
24、根據(jù)表計算可得:標準方程組為:ba4551235271.23ba2082545577153.855解得:解得:26109.2a00831. 0 bxxbay00831.026109.2這是一個直線方程這是一個直線方程, ,將將x x代入上式即可得出代入上式即可得出 的各值?,F(xiàn)的各值。現(xiàn)分別計算分別計算a,ba,b的反對數(shù)的反對數(shù), ,由由a=a=a,b=a,b=b b查反對數(shù)表查反對數(shù)表得:得:a=182.43,b=0.981,a=182.43,b=0.981,于是,配合的指數(shù)曲線為:于是,配合的指數(shù)曲線為: y xxaby981. 043.182xbany2xbxayx第五節(jié) Excel在相
25、關分析與回歸分析中的應用 一、利用一、利用Excel計算相關系數(shù)計算相關系數(shù) 在在Excel中,有兩種方式可以表達簡單相關:中,有兩種方式可以表達簡單相關:一種是繪制數(shù)據(jù)的散點圖;另一種是計算相一種是繪制數(shù)據(jù)的散點圖;另一種是計算相關系數(shù),下面分別予以介紹。關系數(shù),下面分別予以介紹。 (一散點圖(一散點圖 散點圖是用來顯示當橫軸數(shù)據(jù)變動時,縱軸散點圖是用來顯示當橫軸數(shù)據(jù)變動時,縱軸數(shù)據(jù)的相應變化程度。橫軸數(shù)據(jù)表示自變量,數(shù)據(jù)的相應變化程度。橫軸數(shù)據(jù)表示自變量,縱軸數(shù)據(jù)表示因變量。通過散點圖可以比較縱軸數(shù)據(jù)表示因變量。通過散點圖可以比較直觀的觀察到兩個數(shù)值變量的相關程度。直觀的觀察到兩個數(shù)值變量
26、的相關程度。 【例【例9.4】表】表9-6給出了某地區(qū)城鎮(zhèn)家庭人均可給出了某地區(qū)城鎮(zhèn)家庭人均可支配收入和家庭人均消費性支出的資料,試支配收入和家庭人均消費性支出的資料,試建立和的散點圖。建立和的散點圖。表表9-6 x和和y的數(shù)據(jù)資料的數(shù)據(jù)資料 單位:元單位:元 第一步:執(zhí)行菜單“插入”“圖表命令,出現(xiàn)如圖9-6所示的“圖表向導”。 第二步:在出現(xiàn)的“源數(shù)據(jù)對話框中設置“數(shù)據(jù)區(qū)域”,(數(shù)據(jù)所在的區(qū)域為“Sheet1!B2:K3”,“系列產(chǎn)生在設置為“行”,如圖9-7所示。單擊“下一步繼續(xù)。圖9-7 “源數(shù)據(jù)對話框 第三步:在出現(xiàn)的“圖表選項對話框中設置圖表標題和數(shù)值軸,如圖9-8所示。單擊“下一步繼續(xù)。圖9-8 “圖表選項對話框 第四步:在出現(xiàn)的“圖標位置對話框中選則“作為其中的對象插入”,并在其后的下拉列表框中選擇“Sheet1”,如圖9-9所示。單擊“完
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 責令改正法律適用研究
- SLM成形HfO2@TiCp-GH3536復合材料組織性能研究
- 基于VR-AR的編程課程教學設計與應用研究-以中職C語言為例
- 糖尿病酮癥病人的個案護理
- 婦女兩癌健康知識
- 幼兒健康蔬菜知識啟蒙
- 頜面部骨折護理課件
- 某企業(yè)客戶關系管理分析
- 2025護理質量控制計劃
- 傅玄教育思想體系解析
- 九年級全一冊英語單詞默寫表(人教版)
- DB50T 990-2020 地質災害治理工程施工質量驗收規(guī)范
- 《鐵路電力線路運行與檢修》課件 第五章 電力線路運行與維護
- 2024年交通基礎設施行業(yè)信用回顧與2025年展望
- 10kV油浸式變壓器技術規(guī)范書-通 用部分
- 專題1 重要詞匯復習及專練-2022-2023學年七年級英語上學期期末考點大串講(人教版)(試題版)
- 【物 理】2024-2025學年八年級上冊物理寒假作業(yè)人教版
- 上海市2025年中考模擬初三英語試卷試題及答案
- 醫(yī)學教材 醫(yī)藥市場營銷學(陳玉文主編-人衛(wèi)社)0醫(yī)藥產(chǎn)品價格與價格策略
- 2024全球美甲用品市場分析報告
- DB51-T 3060-2023 四川省政務信息化后評價指南
評論
0/150
提交評論