版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第7章相關(guān)與回歸分析
第7章相關(guān)與回歸分析7.1
相關(guān)分析7.2
一元線性回歸分析7.3
線性回歸的顯著性檢驗(yàn)與回歸預(yù)測(cè)7.4多元線性回歸分析(自學(xué))實(shí)例1:中國(guó)婦女生育水平的決定因素是什么?婦女生育水平除了受計(jì)劃生育政策影響以外,還可能與社會(huì)、經(jīng)濟(jì)、文化等多種因素有關(guān)。1.影響中國(guó)婦女生育率變動(dòng)的因素有哪些?2.各種因素對(duì)生育率的作用方向和作用程度如何?3.哪些因素是影響婦女生育率主要的決定性因素?4.如何評(píng)價(jià)計(jì)劃生育政策在生育水平變動(dòng)中作用?5.計(jì)劃生育政策與經(jīng)濟(jì)因素比較,什么是影響生育率的決定因素?6.如果某些地區(qū)的計(jì)劃生育政策及社會(huì)、經(jīng)濟(jì)、文化等因素發(fā)生重大變化,預(yù)期對(duì)這些地區(qū)的婦女生育水平會(huì)產(chǎn)生怎樣的影響?
據(jù)世界衛(wèi)生組織統(tǒng)計(jì),全球肥胖癥患者達(dá)3億人,其中兒童占2200萬(wàn)人,11億人體重過重。肥胖癥和體重超常早已不是發(fā)達(dá)國(guó)家的“專利”,已遍及五大洲。目前,全球因“吃”致病乃至死亡的人數(shù)已高于因饑餓死亡的人數(shù)。
(引自《光明日?qǐng)?bào)》劉軍/文)問題:
肥胖癥和體重超常與死亡人數(shù)真有顯著的數(shù)量關(guān)系嗎?這些類型的問題可以運(yùn)用相關(guān)分析與回歸分析的方法去解決。實(shí)例2:全球吃死的人比餓死的人多?相關(guān)和回歸分析是研究事物的相互關(guān)系、測(cè)定它們聯(lián)系的緊密程度、揭示其變化的具體形式和規(guī)律性的統(tǒng)計(jì)方法,是經(jīng)濟(jì)分析、預(yù)測(cè)和控制的重要工具。相關(guān)分析與回歸分析相關(guān)分析:用一個(gè)指標(biāo)(相關(guān)系數(shù))來表明現(xiàn)象間相互依存關(guān)系的密切程度的方法回歸分析:根據(jù)相關(guān)關(guān)系的具體形態(tài),選擇一個(gè)合適的數(shù)學(xué)模型,來近似地表達(dá)變量間的平均變化關(guān)系的方法相關(guān)與回歸分析是研究變量之間不確定性統(tǒng)計(jì)關(guān)系的重要方法。相關(guān)分析主要是判斷兩個(gè)或兩個(gè)以上變量之間是否存在相關(guān)關(guān)系,并分析變量間相關(guān)關(guān)系的形態(tài)和程度?;貧w分析主要是對(duì)存在相關(guān)關(guān)系的現(xiàn)象間數(shù)量變化規(guī)律性的測(cè)定7.1相關(guān)分析7.1.1相關(guān)關(guān)系的概念7.1.2相關(guān)系數(shù)7.1.3斯皮爾曼等級(jí)相關(guān)系數(shù)變量之間的關(guān)系(函數(shù)關(guān)系相關(guān)關(guān)系)設(shè)有兩個(gè)變量x和y,當(dāng)自變量x取某個(gè)數(shù)值時(shí),
因變量y依確定的關(guān)系取相應(yīng)的值,則稱y是x的函數(shù),記為y=f(x),其中x稱為自變量,y稱為因變量。我們稱這種關(guān)系為確定性的函數(shù)關(guān)系。1、函數(shù)關(guān)系xy一、函數(shù)關(guān)系與相關(guān)關(guān)系2、相關(guān)關(guān)系xy當(dāng)一個(gè)或幾個(gè)相互聯(lián)系的變量取一定數(shù)值時(shí),與之相對(duì)應(yīng)的另一個(gè)變量的值雖然不確定,但它仍然按某種規(guī)律在一定范圍內(nèi)變化,變量間的這種關(guān)系,被稱為相關(guān)關(guān)系。變量之間的函數(shù)關(guān)系和相關(guān)關(guān)系在一定條件下可以相互轉(zhuǎn)化。⒈出租汽車費(fèi)用與行駛里程:總費(fèi)用=行駛里程每公里單價(jià)⒉家庭收入與恩格爾系數(shù):家庭收入高,則恩格爾系數(shù)低。函數(shù)關(guān)系(確定性關(guān)系)相關(guān)關(guān)系(非確定性關(guān)系)比較下面兩種現(xiàn)象間的依存關(guān)系相關(guān)關(guān)系與函數(shù)關(guān)系的區(qū)別函數(shù)關(guān)系是變量之間的一種嚴(yán)格、完全確定性的關(guān)系,即一個(gè)變量的數(shù)值完全由另一個(gè)(或一組)變量的數(shù)值所決定、控制。函數(shù)關(guān)系通??梢杂脭?shù)學(xué)公式確切地表示出來。相關(guān)關(guān)系難以像函數(shù)關(guān)系那樣,用數(shù)學(xué)公式去準(zhǔn)確表達(dá)。
相關(guān)關(guān)系與函數(shù)關(guān)系的聯(lián)系由于客觀上常會(huì)出現(xiàn)觀察或測(cè)量上的誤差等原因,函數(shù)關(guān)系在實(shí)際工作中往往通過相關(guān)關(guān)系表現(xiàn)出來。當(dāng)人們對(duì)某些現(xiàn)象內(nèi)部規(guī)律有較深刻認(rèn)識(shí)時(shí),相關(guān)關(guān)系可能變?yōu)楹瘮?shù)關(guān)系。為此,在研究相關(guān)關(guān)系時(shí),又常常使用函數(shù)關(guān)系作為工具,用一定的函數(shù)關(guān)系表現(xiàn)相關(guān)關(guān)系的數(shù)量聯(lián)系。從涉及的變量數(shù)量看
簡(jiǎn)單相關(guān)(單相關(guān),一元相關(guān))多重相關(guān)(復(fù)相關(guān)、多元相關(guān))從變量相關(guān)關(guān)系的表現(xiàn)形式看
線性相關(guān)——散布圖接近一條直線(左圖)
非線性相關(guān)——散布圖接近一條曲線(右圖)二、相關(guān)關(guān)系的類型
從變量相關(guān)關(guān)系變化的方向看正相關(guān)——變量同方向變化A
同增同減(A)負(fù)相關(guān)——變量反方向變化一增一減(B)B從變量相關(guān)的程度看
完全相關(guān)(B)
不完全相關(guān)(A)
不相關(guān)(C)C
不完全相關(guān)完全相關(guān)不相關(guān)負(fù)相關(guān)正相關(guān)復(fù)相關(guān)單相關(guān)直線相關(guān)曲線相關(guān)根據(jù)變量間相互關(guān)系的表現(xiàn)形式劃分根據(jù)自變量的多少劃分根據(jù)相關(guān)關(guān)系的方向劃分根據(jù)相關(guān)關(guān)系的程度劃分相關(guān)關(guān)系的種類相關(guān)關(guān)系的種類1、不相關(guān)。如果變量間彼此的數(shù)量變化互相獨(dú)立,則其關(guān)系為不相關(guān)。自變量x變動(dòng)時(shí),因變量y的數(shù)值不隨之相應(yīng)變動(dòng)。例如,產(chǎn)品稅額的多少與工人的出勤率、家庭收入多少與孩子的多少之間都不存在相關(guān)關(guān)系。2、完全相關(guān)。如果一個(gè)變量的變化是由其他變量的數(shù)量變化所唯一確定,此時(shí)變量間的關(guān)系稱為完全相關(guān)。即因變量y的數(shù)值完全隨自變量x的變動(dòng)而變動(dòng),它在相關(guān)圖上表現(xiàn)為所有的觀察點(diǎn)都落在同一條直線上,這種情況下,相關(guān)關(guān)系實(shí)際上是函數(shù)關(guān)系。所以,函數(shù)關(guān)系是相關(guān)關(guān)系的一種特殊情況。3、不完全相關(guān)。如果變量間的關(guān)系介于不相關(guān)和完全相關(guān)之間,則稱為不完全相關(guān)。如婦女的結(jié)婚年齡與受教育程度之間的一種關(guān)系。大多數(shù)相關(guān)關(guān)系屬于不完全相關(guān),是統(tǒng)計(jì)研究的主要對(duì)象根據(jù)相關(guān)關(guān)系的程度劃分1、正相關(guān)。指兩個(gè)因素(或變量)之間的變化方向一致,都是呈增長(zhǎng)或下降的趨勢(shì)。即自變量x的值增加(或減少),因變量y的值也相應(yīng)地增加(或減少),這樣的關(guān)系就是正相關(guān)。例如,工業(yè)總產(chǎn)值增加,企業(yè)稅利總額也隨之增加;家庭消費(fèi)支出隨收入增加而增加等。2、負(fù)相關(guān)。指兩個(gè)因素或變量之間變化方向相反,即自變量的數(shù)值增大(或減?。?,因變量隨之減?。ɑ蛟龃螅H鐒趧?dòng)生產(chǎn)率提高,產(chǎn)品成本降低;產(chǎn)品成本降低,企業(yè)利潤(rùn)增加等。根據(jù)相關(guān)關(guān)系的方向劃分1、單相關(guān)。兩個(gè)因素之間的相關(guān)關(guān)系叫單相關(guān),即研究時(shí)只涉及一個(gè)自變量和一個(gè)因變量。2、復(fù)相關(guān)。三個(gè)或三個(gè)以上因素的相關(guān)關(guān)系叫復(fù)相關(guān),即研究時(shí)涉及兩個(gè)或兩個(gè)以上的自變量和因變量。根據(jù)自變量的多少劃分1、直線相關(guān)(或線性相關(guān))。當(dāng)相關(guān)關(guān)系的自變量x發(fā)生變動(dòng),因變量y值隨之發(fā)生大致均等的變動(dòng),從圖像上近似地表現(xiàn)為直線形式,這種相關(guān)通稱為直線(或線性)相關(guān)。例如,銷售量與銷售額之間就呈直線相關(guān)關(guān)系。2、曲線(或非線性)相關(guān)。在兩個(gè)相關(guān)現(xiàn)象中,自變量x值發(fā)生變動(dòng),因變量y也隨之發(fā)生變動(dòng),這種變動(dòng)不是均等的,在圖像上的分布是各種不同的曲線形式,這種相關(guān)關(guān)系稱為曲線(或非線性)相關(guān)。曲線相關(guān)在相關(guān)圖上的分布,表現(xiàn)為拋物線、雙曲線、指數(shù)曲線等非直線形式。例如,從人的生命全過程看,年齡與醫(yī)療費(fèi)支出呈非線性相關(guān)。根據(jù)變量間相互關(guān)系的表現(xiàn)形式劃分三、相關(guān)表、相關(guān)圖在進(jìn)行詳細(xì)的定量分析之前,一般可先利用相關(guān)表、相關(guān)圖對(duì)現(xiàn)象之間相關(guān)關(guān)系做大致判斷可支配收入5005806008001000消費(fèi)支出450500520600650表1居民消費(fèi)和收入的相關(guān)表單位:元相關(guān)表是一種反映變量之間相關(guān)關(guān)系的統(tǒng)計(jì)表。將某一變量按其取值的大小排列,然后再將與其相關(guān)的另一變量的對(duì)應(yīng)值平行排列,便可得到簡(jiǎn)單的相關(guān)表。
例:為了研究分析某種勞務(wù)產(chǎn)品完成量與其單位產(chǎn)品成本之間的關(guān)系,調(diào)查30個(gè)同類服務(wù)公司得到的原始數(shù)據(jù)如表。相關(guān)表:將自變量x的數(shù)值按照從小到大的順序,并配合因變量y的數(shù)值一一對(duì)應(yīng)而平行排列的表。整理后有圖1收入消費(fèi)散點(diǎn)圖(單位:元)相關(guān)圖:又稱散點(diǎn)圖。將x置于橫軸上,y置于縱軸上,將(x,y)繪于坐標(biāo)圖上。用來反映兩變量之間相關(guān)關(guān)系的圖形。通過相關(guān)圖,可以大致看出兩個(gè)變量之間有無(wú)相關(guān)關(guān)系以及相關(guān)的形態(tài)、方向和密切程度。相關(guān)系數(shù)通過相關(guān)表和散點(diǎn)圖的形狀,我們大概可以判斷變量之間相關(guān)程度的強(qiáng)弱、方向和性質(zhì),但并不能得知其相關(guān)的確切程度。為精確了解變量間的相關(guān)程度,還需作進(jìn)一步統(tǒng)計(jì)分析,求出描述變量間相關(guān)程度與變化方向的量數(shù),即相關(guān)系數(shù)。總體相關(guān)系數(shù)用ρ(讀“柔”)表示,樣本相關(guān)系數(shù)用r表示。一、簡(jiǎn)單線性相關(guān)系數(shù)
總體相關(guān)系數(shù)
對(duì)于所研究的總體,表示兩個(gè)相互聯(lián)系變量相關(guān)程度的總體相關(guān)系數(shù)為:
總體相關(guān)系數(shù)反映總體變量X和Y的線性相關(guān)程度。
特點(diǎn):對(duì)于特定的總體來說,X和Y的數(shù)值是既定的,總體相關(guān)系數(shù)是客觀存在的特定數(shù)值。變量X和Y的協(xié)方差變量X和Y的方差在概率論和統(tǒng)計(jì)學(xué)中,協(xié)方差用于衡量?jī)蓚€(gè)變量的總體誤差。而方差是協(xié)方差的一種特殊情況,即當(dāng)兩個(gè)變量是相同的情況。期望值分別為E(X)=μ與E(Y)=ν的兩個(gè)實(shí)數(shù)隨機(jī)變量X與Y之間的協(xié)方差定義為:
樣本相關(guān)系數(shù)通過X和Y的樣本觀測(cè)值去估計(jì)樣本相關(guān)系數(shù)變量X和Y的樣本相關(guān)系數(shù)通常用r表示特點(diǎn):樣本相關(guān)系數(shù)是根據(jù)從總體中抽取的隨機(jī)樣本的觀測(cè)值計(jì)算出來的,是對(duì)總體相關(guān)系數(shù)的估計(jì),它是個(gè)隨機(jī)變量。樣本相關(guān)系數(shù)的定義公式實(shí)質(zhì)相關(guān)系數(shù)取值及其意義r
的取值范圍是[-1,1]|r|=1,為完全相關(guān)r=1,為完全正相關(guān)r=-1,為完全負(fù)相關(guān)
r=0,不存在線性相關(guān)關(guān)系-1r<0,為負(fù)相關(guān)0<r1,為正相關(guān)|r|越趨于1表示關(guān)系越密切;|r|越趨于0表示關(guān)系越不密切-1.0+1.00-0.5+0.5完全負(fù)相關(guān)無(wú)線性相關(guān)完全正相關(guān)負(fù)相關(guān)程度增加r正相關(guān)程度增加計(jì)算相關(guān)系數(shù)的“積差法”相關(guān)系數(shù)的計(jì)算
表我國(guó)人均國(guó)民收入與人均消費(fèi)金額數(shù)據(jù)
單位:元年份人均國(guó)民收入人均消費(fèi)金額年份人均國(guó)民收入人均消費(fèi)金額1981198219831984198519861987393.8419.14460.86544.11668.29737.73859.972492672893294064515131988198919901991199219931068.81169.21250.71429.51725.92099.56436907138039471148相關(guān)系數(shù)計(jì)算實(shí)例【例】在研究我國(guó)人均消費(fèi)水平的問題中,把全國(guó)人均消費(fèi)額記為y,把人均國(guó)民收入記為x。我們收集到1981~1993年的樣本數(shù)據(jù)(xi,yi),i=1,2,…,13,數(shù)據(jù)見表,計(jì)算相關(guān)系數(shù)。計(jì)算結(jié)果根據(jù)樣本相關(guān)系數(shù)的計(jì)算公式有人均國(guó)民收入與人均消費(fèi)金額之間的相關(guān)系數(shù)為0.9987注意:
(1)兩變量間存在相關(guān),僅意味著變量間有關(guān)聯(lián),并不一定是因果關(guān)系。 (2)相關(guān)系數(shù)不是等距的測(cè)量單位。
r是一個(gè)比值,不是由相等單位度量而來,不能進(jìn)行加、減、乘、除運(yùn)算。如r1=0.25,r2=0.5,r3=0.75,不能認(rèn)為r1=r3-r2或r2=2r1。 (3)相關(guān)系數(shù)受變量取值區(qū)間大小及觀測(cè)值個(gè)數(shù)的影響較大。
變量的取值區(qū)間越大,觀測(cè)值個(gè)數(shù)越多,相關(guān)系數(shù)受抽樣誤差的影響越小,結(jié)果就越可靠,如果數(shù)據(jù)較少,本不相關(guān)的兩列變量,計(jì)算的結(jié)果可能相關(guān)。(4)相關(guān)系數(shù)在特定情況下使用才具有意義。如高中生身高與體重的相關(guān)系數(shù)用在兒童身上就沒有意義。(5)通過實(shí)際觀測(cè)值計(jì)算的相關(guān)系數(shù),須經(jīng)過顯著性檢驗(yàn)確定其是否有意義二、相關(guān)系數(shù)的顯著性檢驗(yàn)2.計(jì)算檢驗(yàn)的統(tǒng)計(jì)量:3.確定顯著性水平,并作出決策若t>t,拒絕H0,若t<t,接受H0目的在于檢驗(yàn)兩個(gè)變量之間是否存在顯著的線性相關(guān)關(guān)系采用t檢驗(yàn)——檢驗(yàn)的步驟為:1.提出假設(shè):H0:;H1:0相關(guān)系數(shù)的顯著性檢驗(yàn)(實(shí)例)
對(duì)前例計(jì)算的相關(guān)系數(shù)進(jìn)行顯著性檢(0.05)提出假設(shè):H0:;H1:0計(jì)算檢驗(yàn)的統(tǒng)計(jì)量根據(jù)顯著性水平=0.05,查t分布表得
t(n-2)=2.201由于t=64.9809>t(13-2)=2.201,拒絕H0,認(rèn)為人均消費(fèi)金額與人均國(guó)民收入之間的相關(guān)關(guān)系顯著|r|的取值范圍|r|的意義0.00-0.19極低相關(guān)0.20-0.39低度相關(guān)0.40-0.69中度相關(guān)0.70-0.89高度相關(guān)0.90-1.00極高相關(guān)|r|的取值與相關(guān)程度參考1:參考2:
若|
t
|大于=5%相應(yīng)的臨界值,小于表上=1%相應(yīng)的值,稱變量x與y之間有顯著的線性關(guān)系若|
t|大于表上=1%相應(yīng)的值,稱變量x與y之間有十分顯著的線性關(guān)系若|t|小于表上=5%相應(yīng)的值,稱變量x與y之間沒有明顯的線性關(guān)系經(jīng)驗(yàn)認(rèn)為:0.8
|
r|1,高度相關(guān)0.5
|
r|0.8,中度相關(guān)/0.3
|
r|0.5,弱相關(guān)
|
r|0.3,無(wú)線性相關(guān)
如何判斷兩個(gè)變量的相關(guān)性 (1)找出兩個(gè)變量的正確相應(yīng)數(shù)據(jù)。 (2)畫出它們的散布圖(散點(diǎn)圖)。 (3)通過散布圖判斷它們的相關(guān)性。 (4)給出相關(guān)系數(shù)(r)的解答。 (5)對(duì)結(jié)果進(jìn)行評(píng)價(jià)和檢驗(yàn)。例:下表是有關(guān)15個(gè)地區(qū)某種食物需求量和地區(qū)人口增加量的資料。相關(guān)系數(shù)的顯著性檢驗(yàn)(0.05)提出假設(shè):H0:;H1:0計(jì)算檢驗(yàn)的統(tǒng)計(jì)量根據(jù)顯著性水平=0.05,查t分布表得
t(n-2)=2.160由于t=48.385>t(15-2)=2.160,拒絕H0,該種食物需求量和地區(qū)人口增加量之間的相關(guān)關(guān)系顯著。7.2一元線性回歸回歸分析的概念總體回歸函數(shù)與樣本回歸函數(shù)回歸系數(shù)的普通最小二乘估計(jì)回歸模型的統(tǒng)計(jì)檢驗(yàn)什么是回歸分析回歸的古典意義:高爾頓遺傳學(xué)的回歸概念
父母身高與子女身高的關(guān)系:
無(wú)論高個(gè)子或低個(gè)子的子都有向人的平均身高回歸趨勢(shì)
回歸的現(xiàn)代意義一個(gè)因變量對(duì)若干解釋變量依存關(guān)系的研究回歸的目的(實(shí)質(zhì)):由固定的自變量去估計(jì)因變量的平均值樣本總體自變量固定值估計(jì)因變量平均值什么是回歸分析從一組樣本數(shù)據(jù)出發(fā),確定變量之間的數(shù)學(xué)關(guān)系式對(duì)這些關(guān)系式的可信程度進(jìn)行各種統(tǒng)計(jì)檢驗(yàn),并從影響某一特定變量的諸多變量中找出哪些變量的影響顯著,哪些不顯著利用所求的關(guān)系式,根據(jù)一個(gè)或幾個(gè)變量的取值來預(yù)測(cè)或控制另一個(gè)特定變量的取值,并給出這種預(yù)測(cè)或控制的精確程度回歸模型回答“變量之間是什么樣的關(guān)系?”方程中運(yùn)用1個(gè)數(shù)字的因變量(響應(yīng)變量)被預(yù)測(cè)的變量1個(gè)或多個(gè)數(shù)字的或分類的自變量(解釋變量)用于預(yù)測(cè)的變量3. 主要用于預(yù)測(cè)和估計(jì)回歸模型的類型一個(gè)自變量?jī)蓚€(gè)及兩個(gè)以上自變量回歸模型多元回歸一元回歸線性回歸非線性回歸線性回歸非線性回歸相關(guān)系數(shù)線性回歸模型在實(shí)際經(jīng)濟(jì)分析中,由于經(jīng)濟(jì)變量之間的關(guān)系往往是非常復(fù)雜的,所以直接的精確線性模型是較少的。但是,由于第一,線性模型比較容易研究;第二,現(xiàn)實(shí)經(jīng)濟(jì)分析中許多非線性問題可以經(jīng)過簡(jiǎn)單的數(shù)學(xué)處理轉(zhuǎn)化為線性模型;第三,非線性模型的分析基礎(chǔ)是線性模型。因此,我們首先研究一元線性模型。一元線性回歸模型當(dāng)只涉及一個(gè)自變量時(shí)稱為一元回歸,若因變量y與自變量x之間為線性關(guān)系時(shí)稱為一元線性回歸。對(duì)于具有線性關(guān)系的兩個(gè)變量,可以用一條線性方程來表示它們之間的關(guān)系。描述因變量y如何依賴于自變量x和誤差項(xiàng)μ
的方程稱為回歸模型。一元線性回歸模型一元線性回歸模型可表示為:
Y=b0+b1X+模型中,Y是X的線性函數(shù)部分加上誤差項(xiàng)線性部分反映了由于X的變化而引起的Y的變化隨機(jī)誤差項(xiàng)是隨機(jī)變量反映了除X和Y之間的線性關(guān)系之外的隨機(jī)因素對(duì)Y的影響;是不能由X和Y之間的線性關(guān)系所解釋的影響)0和1稱為模型的參數(shù)總體回歸函數(shù)與樣本回歸函數(shù)y的條件分布:y在x取某固定值條件下的分布。對(duì)于x的每一個(gè)取值,都有y的條件期望與之對(duì)應(yīng),在坐標(biāo)圖上y的條件期望的點(diǎn)隨x而變化的軌跡所形成的直線或曲線,稱為回歸線。如果把y的條件期望表示為x的某種函數(shù):,這個(gè)函數(shù)稱為回歸函數(shù)。如果其函數(shù)形式是只有一個(gè)自變量的線性函數(shù),如,稱為一元線性回歸函數(shù)。
總體回歸函數(shù)(PRF)
概念:將總體因變量y的條件均值表現(xiàn)為自變量x的某種函數(shù),這個(gè)函數(shù)稱為總體回歸函數(shù)(簡(jiǎn)記為PRF)。表現(xiàn)形式:(1)條件均值表現(xiàn)形式(2)個(gè)別值表現(xiàn)形式(隨機(jī)設(shè)定形式)μi是個(gè)可正可負(fù)的隨機(jī)變量,代表排除在自變量以外的所有因素對(duì)y的影響,稱為隨機(jī)誤差項(xiàng)
樣本回歸函數(shù)(SRF)y的樣本觀測(cè)值的條件均值隨自變量x而變動(dòng)的軌跡,稱為樣本回歸線。如果把因變量y的樣本條件均值表示為自變量x的某種函數(shù),這個(gè)函數(shù)稱為樣本回歸函數(shù)(簡(jiǎn)記為SRF)。表現(xiàn)形式:線性樣本回歸函數(shù)可表示為或者實(shí)際觀測(cè)值
樣本回歸函數(shù)與總體回歸函數(shù)的關(guān)系
樣本回歸函數(shù)的函數(shù)形式應(yīng)與設(shè)定的總體回歸函數(shù)的函數(shù)形式一致。和是對(duì)總體回歸函數(shù)參數(shù)的估計(jì)。是對(duì)總體條件期望的估計(jì)殘差e在概念上類似總體回歸函數(shù)中的隨機(jī)誤差u?;貧w分析的目的:用樣本回歸函數(shù)去估計(jì)總體回歸函數(shù)。
樣本回歸函數(shù)與總體回歸函數(shù)的關(guān)系
——相互區(qū)別
●總體回歸函數(shù)雖然未知,但它是確定的;樣本回歸線隨抽樣波動(dòng)而變化,可以有許多條?!駱颖净貧w線還不是總體回歸線,至多只是未知總體回歸線的近似表現(xiàn)?!窨傮w回歸函數(shù)的參數(shù)雖未知,但是確定的常數(shù);樣本回歸函數(shù)的參數(shù)可估計(jì),但是隨抽樣而變化的隨機(jī)變量?!窨傮w回歸函數(shù)中的是不可直接觀測(cè)的;而樣本回歸函數(shù)中的是只要估計(jì)出樣本回歸的參數(shù)就可以計(jì)算的數(shù)值。回歸系數(shù)估計(jì)的思想為什么只能對(duì)未知參數(shù)作估計(jì)?總體參數(shù)是未知的、不可直接觀測(cè)的、不能精確計(jì)算的能夠得到的只是變量的樣本觀測(cè)值只能通過變量樣本觀測(cè)值選擇適當(dāng)方法去近似地估計(jì)回歸系數(shù)。前提:
u是隨機(jī)變量其分布性質(zhì)不確定,必須作某些假定,其估計(jì)才有良好性質(zhì),其檢驗(yàn)才可進(jìn)行。原則:
使樣本參數(shù)估計(jì)值“盡可能地接近”總體參數(shù)真實(shí)值一元線性回歸的基本假定總體誤差項(xiàng)μi的基本假定:假定1:零均值假定。假定2:同方差假定。
假定3:無(wú)自相關(guān)假定。
假定4:隨機(jī)擾動(dòng)與自變量不相關(guān)。假定5:正態(tài)性假定一元線性回歸方程中參數(shù)a、b確定的思路:最小平方法基本數(shù)學(xué)要求:實(shí)際觀測(cè)值樣本條件期望殘差進(jìn)一步整理,有:
回歸系數(shù)的最小二乘估計(jì)基本思想:
希望所估計(jì)的偏離實(shí)際觀測(cè)值的殘差越小越好??梢匀埐钇椒胶妥鳛楹饬颗c偏離程度的標(biāo)準(zhǔn)——最小二乘準(zhǔn)則估計(jì)式:
最小二乘估計(jì)的概率分布性質(zhì)
和都是服從正態(tài)分布的隨機(jī)變量,其期望為方差和標(biāo)準(zhǔn)誤差為
結(jié)論:
的無(wú)偏估計(jì)
為什么要估計(jì)?
確定所估計(jì)參數(shù)的方差需要由于不能直接觀測(cè),也是未知的對(duì)的數(shù)值只能通過樣本信息去估計(jì)。怎樣估計(jì)?通常情況
的無(wú)偏估計(jì)近似為:回歸估計(jì)標(biāo)準(zhǔn)誤差是因變量各實(shí)際值與其估計(jì)值之間的平均差異程度,表明其估計(jì)值對(duì)各實(shí)際值代表性的強(qiáng)弱;其值越小,回歸方程的代表性越強(qiáng),用回歸方程估計(jì)或預(yù)測(cè)的結(jié)果越準(zhǔn)確。可從一方面反映回歸模型擬合的優(yōu)劣狀況。證明估計(jì)標(biāo)準(zhǔn)差越小,則變量間相關(guān)程度越高,回歸線對(duì)Y的解釋程度越高。相關(guān)系數(shù)與估計(jì)標(biāo)準(zhǔn)誤差的關(guān)系:最小二乘法(圖示)xy(xn,yn)(x1,y1)(x2,y2)(xi,yi)}ei=yi-yi^表我國(guó)人均國(guó)民收入與人均消費(fèi)金額數(shù)據(jù)
單位:元年份人均國(guó)民收入人均消費(fèi)金額年份人均國(guó)民收入人均消費(fèi)金額1981198219831984198519861987393.8419.14460.86544.11668.29737.73859.972492672893294064515131988198919901991199219931068.81169.21250.71429.51725.92099.56436907138039471148實(shí)例【例】在研究我國(guó)人均消費(fèi)水平的問題中,把全國(guó)人均消費(fèi)額記為y,把人均國(guó)民收入記為x。我們收集到1981~1993年的樣本數(shù)據(jù)(xi,yi),i=1,2,…,13,數(shù)據(jù)見表最小二乘法應(yīng)用實(shí)例【例】根據(jù)例中的數(shù)據(jù),配合人均消費(fèi)金額對(duì)人均國(guó)民收入的回歸方程
根據(jù)求解公式得估計(jì)(經(jīng)驗(yàn))方程人均消費(fèi)金額對(duì)人均國(guó)民收入的回歸方程為y=54.22286+0.52638x^練習(xí):對(duì)產(chǎn)量與生產(chǎn)費(fèi)用進(jìn)行相關(guān)分析并建立回歸模型企業(yè)編號(hào)產(chǎn)量x(千克)生產(chǎn)費(fèi)用y(千元)12345678910111240425055657884100116125130140130150155140150154156170167180175185160017642500302542256084705610000134561562516900196001690022500240251960022500237162722528900278893240030625342255200630077507700975012012138601700019372225002275025900合計(jì)10251921101835310505170094解:(1)繪制散點(diǎn)圖············(2)計(jì)算相關(guān)系數(shù)(3)建立簡(jiǎn)單直線回歸方程:其中a=124.15(千克)的含義為生產(chǎn)費(fèi)用的起點(diǎn)值b=0.4027表示產(chǎn)品產(chǎn)量每增加1千克,生產(chǎn)費(fèi)用平均增加0.4027千元。回歸模型檢驗(yàn)的種類一般回歸模型的檢驗(yàn)要經(jīng)過四級(jí)檢驗(yàn):1)經(jīng)濟(jì)意義檢驗(yàn)2)統(tǒng)計(jì)檢驗(yàn)3)計(jì)量經(jīng)濟(jì)學(xué)檢驗(yàn)4)預(yù)測(cè)檢驗(yàn)統(tǒng)計(jì)學(xué)中側(cè)重統(tǒng)計(jì)檢驗(yàn)(擬合優(yōu)度、t檢驗(yàn)、F檢驗(yàn)、一、擬合優(yōu)度的度量樣本回歸直線是對(duì)樣本數(shù)據(jù)的一種擬合,不同估計(jì)方法可擬合出不同的回歸線。所謂擬合程度,是指樣本觀測(cè)值聚集在樣本回歸線周圍的緊密程度。判斷回歸模型擬合程度優(yōu)劣最常用的數(shù)量尺度是樣本決定系數(shù)(又稱可決系數(shù)、判定系數(shù)),它是建立在對(duì)總離差平方和進(jìn)行分解的基礎(chǔ)之上的??傠x差平方和回歸平方和殘差平方和總離差平方和的分解因變量y的取值是不同的,y取值的這種波動(dòng)稱為變差。變差來源于兩個(gè)方面:由于自變量x的取值不同造成的;除x以外的其他因素(如x對(duì)y的非線性影響、測(cè)量誤差等)的影響。對(duì)一個(gè)具體的觀測(cè)值來說,變差的大小可以通過該實(shí)際觀測(cè)值與其均值之差來表示。離差平方和的分解
(圖示)xyy{}}離差分解圖離差平方和的分解
(三個(gè)平方和的關(guān)系)2.因?yàn)閮啥似椒胶笄蠛陀袕膱D上看有SST=SSR+SSE總變差平方和(SST){回歸平方和(SSR){殘差平方和(SSE){證明:離差平方和的分解
(三個(gè)平方和的意義)總平方和(SST)反映因變量的n個(gè)觀察值與其均值的總離差回歸平方和(SSR)反映自變量x的變化對(duì)因變量y取值變化的影響,或者說,是由于x與y之間的線性關(guān)系引起的y的取值變化,也稱為可解釋的平方和。殘差平方和(SSE)反映除x以外的其他因素對(duì)y取值的影響,也稱為不可解釋的平方和或剩余平方和。樣本決定系數(shù)
(判定系數(shù)r2
)回歸平方和占總離差平方和的比例:反映回歸直線的擬合程度取值范圍在[0,1]之間
r21,說明回歸方程擬合的越好;r20,說明回歸方程擬合的越差判定系數(shù)等于相關(guān)系數(shù)的平方,即r2=
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年處方管理辦法實(shí)施細(xì)則例文(四篇)
- 2024年安全檢查制度例文(三篇)
- 2024年培訓(xùn)學(xué)校管理制度范例(三篇)
- 2024年學(xué)校工會(huì)工作總結(jié)范例(四篇)
- 2024年幼兒園后勤春季工作計(jì)劃模版(二篇)
- 2024年土建工程師工作總結(jié)經(jīng)典版(八篇)
- 2024年學(xué)???zé)熆荚u(píng)獎(jiǎng)懲制度范文(三篇)
- 2024年工程機(jī)械租賃合同格式版(二篇)
- 2024年小學(xué)年級(jí)組工作計(jì)劃(四篇)
- 2024年安全生產(chǎn)責(zé)任制考核制度樣本(四篇)
- 蝴蝶效應(yīng)教學(xué)課件
- 云計(jì)算與人工智能的協(xié)同應(yīng)用
- SB-T 11238-2023 報(bào)廢電動(dòng)汽車回收拆解技術(shù)要求
- 懸挑安全通道施工方案
- 醫(yī)學(xué)教案教學(xué)設(shè)計(jì)的教學(xué)過程與教學(xué)實(shí)施
- 《超分子化學(xué)簡(jiǎn)介》課件
- 《通志 氏族略》鄭樵著
- 安全員崗位面試題及答案(經(jīng)典版)
- 幼兒園公開課:中班語(yǔ)言《金色的房子》課件
- 子宮脫垂教育查房課件
- 高端天然礦泉水項(xiàng)目融資計(jì)劃書
評(píng)論
0/150
提交評(píng)論