管理學管理統(tǒng)計學第6章相關與回歸課件_第1頁
管理學管理統(tǒng)計學第6章相關與回歸課件_第2頁
管理學管理統(tǒng)計學第6章相關與回歸課件_第3頁
管理學管理統(tǒng)計學第6章相關與回歸課件_第4頁
管理學管理統(tǒng)計學第6章相關與回歸課件_第5頁
已閱讀5頁,還剩87頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第六章 相關與回歸分析 7/27/20221第一節(jié) 相關分析第二節(jié) 一元線性回歸分析7/27/20222相關分析和回歸分析有什么用?一個國家香煙的消費量與癌癥的發(fā)病率有關系嗎?父母的身高是否影響其子女的身高?公司股票的市盈率與老總的薪酬有關聯嗎?接受高學歷教育的人是否比低學歷的人有更高的薪水?現實世界中存在著大量諸如此類的問題,用統(tǒng)計語言來概況,就是兩個或者更多個變量之間,是否存在相互關聯?進而,存在相關關系的變量間又是如何相互影響的?相關分析和回歸分析可以用來回答這類問題,它們是研究現象之間相互關系的兩種基本方法。本章介紹這兩種方法的理論與應用。 7/27/20223實例1:中國婦女生育水平

2、的決定因素是什么?婦女生育水平除了受計劃生育政策影響以外,還可能與社會、經濟、文化等多種因素有關。1. 影響中國婦女生育率變動的因素有哪些?2. 各種因素對生育率的作用方向和作用程度如何?3. 哪些因素是影響婦女生育率主要的決定性因素?4. 如何評價計劃生育政策在生育水平變動中的作用?5. 計劃生育政策與經濟因素比較,什么是影響生育率的決定因素?6. 如果某些地區(qū)的計劃生育政策及社會、經濟、文化等因素發(fā)生重大變化,預期對這些地區(qū)的婦女生育水平會產生怎樣的影響?7/27/20224 據世界衛(wèi)生組織統(tǒng)計,全球肥胖癥患者達3億人,其中兒童占2200萬人,11億人體重過重。肥胖癥和體重超常早已不是發(fā)達

3、國家的“專利”,已遍及五大洲。目前,全球因”吃”致病乃至死亡的人數已高于因饑餓死亡的人數。 (引自光明日報劉軍/文)問題: 肥胖癥和體重超常與死亡人數真有顯著的數量關系嗎?這些類型的問題可以運用相關分析與回歸分析的方法去解決。實例2:全球吃死的人比餓死的人多?7/27/202256.1 相關分析7.1.1 相關關系的概念客觀現象之間的數量依存關系,可以分為: 一種是函數關系;一種是相關關系。 1. 函數關系與相關關系7.1.1 相關關系的概念7.1.1 相關關系的概念6.1.1 相關關系的概念7/27/202261)函數關系是一一對應的確定關系;當一個或幾個變量取一定的值時,另一個變量有確定值

4、與之相對應,我們稱這種關系為確定性的函數關系。可以用數學分析的方法去研究一般情況下確定性函數關系可表示為 : y = f (x), 其中 x 稱為自變量, y 稱為因變量一個自變量,各觀測點落在一條線上 xy7/27/20227函數關系的例子某種商品的銷售額(y)與銷售量(x)之間的關系可表示為 y = px (p 為單價)圓的面積(S)與半徑之間的關系可表示為S=R2 企業(yè)的原材料消耗額(y)與產量(x1) 、單位產量消耗(x2) 、原材料價格(x3)之間的關系可表示為y = x1 x2 x3 7/27/202282)相關關系(correlation)當一個或幾個相互聯系的變量取一定數值時,

5、與之相對應的另一變量的值雖然不確定,但它仍按某種規(guī)律在一定的范圍內變化。變量間的這種相互關系,稱為具有不確定性的相關關系。用相關與回歸分析方法研究 這種關系有二個明顯特點:1)現象之間確實存在數量上的依存關系,即某一社會經濟現象變化要引起另一社會經濟現象的變化;2)現象之間的這種依存關系是不嚴格的,即無法用數學公式嚴格表示。7/27/20229一般可表示為 Y= f(X , u)(u為隨機變量)當變量 x 取某個值時,變量 y 的取值可能有幾個各觀測點分布在直線周圍 (一個自變量)xy7/27/202210 相關關系的例子父親身高(y)與子女身高(x)之間的關系收入水平(y)與受教育程度(x)

6、之間的關系糧食畝產量(y)與施肥量(x1) 、降雨量(x2) 、溫度(x3)之間的關系商品的消費量(y)與居民收入(x)之間的關系商品銷售額(y)與廣告費支出(x)之間的關系7/27/202211函數關系和相關關系,在一定條件下是可以互相轉化的函數關系存在觀測誤差相關關系規(guī)律性認識7/27/2022122. 相關關系的種類(1)從涉及的變量數量看 簡單相關:兩個現象的相關 多重相關(復相關):三個或三個以上(2)從變量相關關系的表現形式看 線性相關散布圖接近一條直線 非線性相關散布圖接近一條曲線7/27/202213(3)從變量相關關系變化的方向看 正相關兩個變量同方向變化 同增同減 負相關兩

7、個變量反方向變化 一增一減 7/27/202214 (4)從變量相關的程度看 完全相關 不相關 不完全相關 7/27/2022153. 相關關系的描述對現象變量之間是否存在相關關系以及存在怎樣的相關關系進行分析、作出判斷,這是進行相關分析的前提。通過編制相關表和相關圖,可以直觀地、大致地判斷現象變量之間是否存在相關關系以及關系的類型。7/27/202216相關表是表現現象變量之間相關關系的表格。是根據自變量大小的順序進行排列所編制的表。 (1)相關表7/27/202217編號人均月銷售額(千元)利潤率()1234567891013345667783.06.26.68.110.412.612.3

8、16.316.818.5例1簡單相關表:自變量的值從小到大順序排列,因變量的值一一對應平行排列編制。為研究商店人均月銷售額和利潤率的關系,調查10家商店取得10對數據,以人均銷售額為自變量,利潤率為因變量,編制簡單相關表7/27/202218所謂相關圖,是把相關的兩個變量之間的關系在平面直角坐標(第一象限)中反映出來。通常將自變量(x)置于橫軸上,因變量(y)置于縱軸上,而將兩個變量相對應的變量值用坐標點形式描繪出來。相關圖就是用相關點的分布狀況來描述相關關系的,所以又稱為散點圖。根據相關圖,可以直觀地看出變量之間相關關系的模式。(2)相關圖7/27/202219例如,前述人均月銷售額與利潤率

9、的關系,可用相關圖表示如下:利潤率(%)人均銷售額(千元)120人均銷售額與利潤率相關圖5101523845677/27/202220不相關負線性相關正線性相關非線性相關完全負線性相關完全正線性相關 x與y的一些可能關系的散點圖7/27/202221相關分析的作用1.確定現象之間是否確有依存關系,這是相關分析的前提。2.確定相關關系的表現形式。是直線相關,還是曲線相關,這是相關分析的出發(fā)點;3.研究現象之間關系的密切程度和方向,并檢驗其有效性。7/27/202222 圖表形式雖然能直觀的展現變量之間的相關關系,但是對變量相關關系及相關程度的描述不夠精確。 在統(tǒng)計學中,對不同類型的變量數據,常采

10、用各種相關系數來具體度量變量間相關的程度。簡單線性相關系數;Spearman等級相關系數;6.1.2 相關系數7/27/202223 簡單線性相關系數是在直線相關條件下,表明兩個現象之間相關關系的方向和密切程度的綜合性指標。 這種相關系數是最常用的,簡稱為相關系數??傮w相關系數樣本相關系數 r1. 簡單線性相關系數7/27/202224 總體相關系數反映總體兩個變量X 和Y 的線性相關程度。 對于所研究的總體,表示兩個相互聯系變量相關程度的總體相關系數為:總體相關系數7/27/202225特點: 對于特定的總體來說,X和Y的數值是既定的,總體相關系數是客觀存在的特定數值。表現為一個常數。 一般

11、不可能直接觀測總體的兩個變量的全部數值,所以總體相關系數一般是不知道的。 7/27/202226 樣本相關系數 通過X和Y 的樣本觀測值去計算樣本相關系數。變量X和Y 的樣本相關系數通常表示用 : 7/27/202227為便于計算,相關系數可用下式計算:代入公式計算相關系數:(做表格)編號XYXYX2Y21合計7/27/202228特點: 樣本相關系數是根據從總體中抽取的隨機樣本的觀測值計算出來的,是對總體相關系數的估計,它是個隨機變量。 7/27/202229為研究美國軟飲料公司的廣告費用X和銷售數量Y的關系,分析7種主要品牌公司的有關數據品牌名稱廣告費用X/百萬美元銷售數量Y/百萬箱Coc

12、a-Cola131.31929.2Pepsi-Cola92.41384.6Diet-Coke60.4811.4Sprite55.7541.5Dr.Pepper40.2546.9Moutain Dew29.0535.67-up11.6219.5例7/27/202230編號廣告費用x銷售數量yXYX2Y21131.31929.2253303.9617239.693721812.64292.41384.6127937.048537.761917117.16360.4811.449008.563648.16658369.96455.7541.530161.553102.49293222.25540.2

13、546.921985.381616.04299099.61629.0535.615532.4841286867.36711.6219.52546.2134.5648180.25合計420.65968.7500475.0935119.77224669.237/27/202231對相關系數 r 的解釋: (1)相關系數的取值在-1與1之間。(2)當r =0時,表明X與Y沒有線性相關關系。注意:r是對變量之間線性相關關系的度量。 r =0只是表明兩個變量之間不存在線性關系,它并不意味著X 與Y 之間不存在其他類型的關系??赡艽嬖诜蔷€性關系。 7/27/202232(3) 在大多數情況下,X與Y 的樣

14、本觀測值之間存在著一定的線性關系。即 0r 0 表明X與Y 為正相關; 若 r 0 表明X與Y 為負相關。7/27/202233(4)當r=1 時,表明X與Y完全線性相關: 若r = 1,稱X與Y完全正相關; 若r = -1,稱X與Y完全負相關。一般標準: 0.8 r 1 ,表示高度相關; 0.5 r 0.8 ,表示中度相關; 0.3 r 0.5 ,表示低度相關; 0 r 0.3 ,表示相關關系很弱,基本可以認為沒有線性相關關系。注:這樣的說明必須建立在通過顯著性檢驗的基礎上。7/27/202234相關系數(取值及其意義)-1.0+1.00-0.5+0.5完全負相關無線性相關完全正相關負相關程

15、度增加r正相關程度增加7/27/202235使用相關分析的注意事項 X和Y 都是相互對稱的隨機變量,所以 相關系數只反映變量間的線性相關程度,不能說明非線性相關關系。 相關系數不能確定變量的因果關系,也不能說明相關關系具體接近于哪條直線。不能從一個變量的變化去推測另一個變量的具體變化。 進行相關分析要有實際意義。7/27/202236注意:相關關系因果關系! 典型的錯誤推斷:統(tǒng)計分析表明,慶祝生日次數越多的人越長壽。因此,慶祝生日有利于健康。調查表明,世界各國人均電視機擁有量與預期壽命存在很強的正相關性。因此,電視機擁有量越高,預期壽命越長。對小學各年級學生的抽樣調查表明,學生的識字水平與他們

16、鞋子的尺寸高度正相關。因此,學生穿的鞋越大,他的識字水平就越高。7/27/2022372.相關系數的顯著性檢驗 為什么要檢驗? 樣本相關系數是隨抽樣而變動的隨機變量,只是對總體相關系數的估計。由于從總體中每抽取一個樣本,都可以根據其觀測值估計出一個樣本相關系數。樣本容量越小其可信度就越差。因此,相關系數的統(tǒng)計顯著性還有待檢驗。 檢驗總體相關系數是否等于0; H0: =0 (原假設) H1: 0 (備擇假設)7/27/202238檢驗的依據: 如果X和Y都服從正態(tài)分布,在總體相關系數 =0的假設下,與樣本相關系數 r 有關的 t 統(tǒng)計量服從自由度為n-2的 t 分布: H0: =0 (原假設)

17、H1: 0 (備擇假設)7/27/202239對于給定的正數,稱滿足條件:07/27/202240顯著性水平和拒絕域(雙側檢驗)H0:=0 (原假設) H1:0 (備擇假設)0臨界值 ta/2臨界值 -ta/2a/2 a/2 樣本統(tǒng)計量拒絕H0拒絕H01 - 置信水平7/27/202241相關系數的檢驗方法1)提出原假設和備擇假設 H0:=0 (原假設) H1:0 (備擇假設)2)計算t 統(tǒng)計量;3)給定顯著性水平,查自由度為 n-2 的臨界值t/2 ;4) 若tt/2 ,表明相關系數 r 在統(tǒng)計上是顯著的,應否 定=0 ,而接受0 的假設;5)反之,若t t/2 所以拒絕H0,表明r是顯著的

18、;總體相關系數不為0,即廣告費用和銷售額高度正相關。假設檢驗 H0:=0 H1:07/27/202245 當變量不滿足正態(tài)分布要求或不是數量型變量時, 簡單線性相關系數不宜使用,可以用Spearman等級相關系數作相關性分析。 6.1.3 Spearman等級相關系數7/27/202246 對于樣本容量為n的變量x 和y ,如果取值都可以分為n個等級,而且樣本的n個單位分別不重復地屬于x和y的不同等級,沒有兩個單位取相同等級的情況,并且用 di表示樣本單位屬于x 的等級與 y 的等級的級差。Spearman等級相關系數 為: 式中, 7/27/202247將廣告費用X和銷售數量Y用秩次表示,并

19、計算等級級差品牌名稱廣告費用X(百萬美元)銷售數量Y(百萬箱)等級級差di2變量秩次qi變量秩次sidi=qi-siCoca-Cola131.311929.2100Pepsi-Cola92.421384.62007-up11.67219.5700Sprite55.74541.55-11Dr.Pepper40.25546.9411Moutain Dew29.06535.6600Diet-Coke60.43811.4300例7/27/202248根據等級級差,計算等級相關系數表明美國軟飲料公司廣告費用與銷售數量等級正相關程度比較高。7/27/2022496.2 一元線性回歸分析 在兩個變量間存在線

20、性相關關系的情況下,為了明確二者聯系的具體數量規(guī)律,需要進行回歸分析。7/27/2022501.相關分析就是用一個指標(相關系數)來表明現象間相互依存關系的密切程度。(方向和程度) 但是相關分析不能說明變量間相關關系的具體形式,也不能從一個變量的變化去推測另一個變量的具體變化。如果要具體測定變量之間相關關系的數量形式,需要運用回歸分析。6.2.1 相關與回歸分析的聯系7/27/202251回歸這個術語是由英國著名統(tǒng)計學家Francis Galton在19世紀末期研究孩子及他們的父母的身高時提出來的。Galton發(fā)現身材高的父母,他們的孩子也高。但這些孩子平均起來并不像他們的父母那樣高。對于比較

21、矮的父母情形也類似:他們的孩子比較矮,但這些孩子的平均身高要比他們的父母的平均身高高。Galton把這種孩子的身高向中間值靠近的趨勢稱之為一種回歸效應,而他發(fā)展的研究兩個數值變量的方法稱為回歸分析。2. 回歸分析7/27/202252回歸的古典意義:高爾頓遺傳學的回歸概念 父母身高與子女身高的關系: 無論高個子或低個子的子女都有向人的平均身高回歸的趨勢7/27/202253 回歸的現代意義 在建立數學模型的基礎上,一個因變量對若干自變量依存關系的研究回歸的目的(實質): 由固定的自變量去估計因變量的平均值樣本總體自變量固定值估計因變量平均值7/27/2022541.按自變量的多少分類簡單回歸:

22、研究一個自變量的回歸分析;復回歸:研究多個自變量的回歸分析。(多元回歸)2.按回歸的表現形式分類線性回歸:回歸的規(guī)律在圖形上表現為一條直線;非線性回歸:回歸的規(guī)律在圖形上表現為形態(tài)各異的各種曲線?;貧w分析的種類7/27/2022553.相關分析與回歸分析的聯系共同的研究對象:都是對變量間相關關系的分析在具體應用時,常常必須互相補充。相關分析需要依賴回歸分析來表明現象數量相關的具體形式,而回歸分析則需要依靠相關分析來表明現象數量變化的相關程度。只有當變量間存在高度相關時,用回歸分析去尋求相關的具體數學形式才有實際意義,即無相關就無回歸,相關程度越高,回歸越好;7/27/2022561) 在研究目

23、的上的區(qū)別相關分析研究變量之間相關的方向和相關的程度?;貧w分析則是研究變量之間相互關系的具體形式,尋求相關的數學方程式,從己知量來推測未知量,從而為估算和預測提供了一個重要的方法。4.相關與回歸分析在研究目的和方法上是有明顯區(qū)別7/27/2022572)在變量處理上的區(qū)別相關分析對稱的對待相互聯系的變量,可以不必確定變量中哪個是自變量,哪個是因變量,其所涉及的變量可以都是隨機變量。回歸分析則必須事先研究確定具有相關關系的變量中哪個為自變量,哪個為因變量。一般地說,回歸分析中因變量是隨機的,而把自變量作為研究時給定的非隨機變量。3)在結果上的區(qū)別:現象之間相關關系分析,只能計算一個相關系數;回歸

24、分析時,回歸方程可能有兩個,即當現象互為因果關系時。 7/27/2022586.2 一元線性回歸模型 設x為自變量,y為因變量,y與x之間存在某種線性關系,即一元線性回歸模型為 其中表示各隨機因素對y的影響的總和,根據中心極限定理,可以認為它服從正態(tài)分布,即 那么y就是一個以回歸直線上的對應值為中心的正態(tài)隨機變量 (6.2.1) 、一元線性回歸模型7/27/2022596.2 一元線性回歸模型給定x,y的n對觀測值xi,yi,代入式(6.2.1)得 (6.2.1)當b0時,x與y為正相關,當b0時,x與y為負相關。 、一元線性回歸模型稱(6.2.1)為一元線性回歸模型 7/27/202260二

25、、 OLS (Ordinary Least Square)估計 OLS的中心思想 最小二乘法的中心思想,是通過數學模型,配合一條較為理想的趨勢線。這條趨勢線必須滿足下列兩點要求: (1)原數列的觀測值與模型估計值的離差平方和為最??; (2)原數列的觀測值與模型估計值的離差總和為0。 6.2 一元線性回歸模型7/27/202261二、 OLS (Ordinary Least Square)估計7/27/202262二、OLS (Ordinary Least Square)估計7/27/202263二、OLS (Ordinary Least Square)估計7/27/202264OLS的特性 最

26、小二乘估計量 具有線性、無偏性和最小方差性等良好的性質。線性、無偏性和最小方差性統(tǒng)稱BLUE性質。滿足BLUE性質的估計量 稱為BLUE估計量。 二、OLS (Ordinary Least Square)估計7/27/202265 回歸方程的檢驗 在一元線性回歸模型中最常用的顯著性檢驗方法有:相關系數檢驗法F檢驗法t檢驗法 6.3線性回歸模型的檢驗 7/27/202266三、離差平方和的分解與可決系數 在一元線性回歸模型中,觀測值的數值會發(fā)生波動,這種波動稱為變差。變差產生的原因如下: 受自變量變動的影響,即x取值不同時的影響; 受其他因素(包括觀測和實驗中產生的誤差)的影響。為了分析這兩方面

27、的影響,需要對總變差進行分解。6.3 線性回歸模型的檢驗7/27/202267三、相關系數 離差平方和的分解 其中,Q1成為殘差平方和,Q2成為回歸平方和7/27/202268三、相關系數可決系數 7/27/202269可決系數的特點 (1) 可決系數是非負的統(tǒng)計量;(2)可決系數取值范圍:0R21 ; 當所有的觀測值都位于回歸直線上時,殘差平方和SSE=0,這時R2=1,說明總離差可以完全由所估計的樣本回歸直線來解釋;總離差可解釋離差x7/27/202270三、相關系數 相關系數的取值范圍為 當R=0時,說明回歸變差為0,自變量x的變動對總變差毫無影響,這種情況稱y與x不相關。 當|R|=1

28、時,說明回歸變差等于總變差,總變差的變化完全由自變量x的變化所引起,這種情況成為完全相關。這時因變量y是自變量x的線性函數,二者之間呈函數關系。 當0|R|1時,說明自變量x的變動對總變差有部分影響,這種情況成為普通相關。 7/27/202271三、相關系數7/27/202272四、顯著性檢驗相關系數檢驗法 第一步,計算相關系數R; 第二步,根據回歸模型的自由度(n-2)和給定的顯著性水平值,從相關系數臨界值表中查出臨界值;第三步,判別。若|R|R(n-2),表明兩變量之間線性相關關系顯著,檢驗通過,這時回歸模型可以用來預測;若|R|30,式(6.2.31)可簡化為(6.2.31)7/27/202281六、應用舉例 例6.2.1 某省19781989年國內生產總值和固

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論