第十章相關(guān)與回歸分析_第1頁
第十章相關(guān)與回歸分析_第2頁
第十章相關(guān)與回歸分析_第3頁
第十章相關(guān)與回歸分析_第4頁
第十章相關(guān)與回歸分析_第5頁
已閱讀5頁,還剩67頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第十章相關(guān)與回歸分析第1頁,共72頁。弗朗西斯﹒高爾頓先生被譽為現(xiàn)代相關(guān)和回歸的創(chuàng)始人1875年,他利用豌豆試驗來確定尺寸的遺傳規(guī)律。他挑選7組不同尺寸的豌豆,說服他的朋友每一組種植10粒種子,最后把原始的豌豆種子與新長的豌豆種子進行尺寸比較當(dāng)結(jié)果被繪制出來之后,他發(fā)現(xiàn)并非每一個子代都與父代一樣,相同的是,尺寸小的豌豆會得到更大的子代,而尺寸大的豌豆卻得到較小的子代高爾頓將此方法用到人類身上,他將父母和孩子的身高轉(zhuǎn)換成z值,對比父母的身高與他們孩子的身高。他并發(fā)現(xiàn)孩子們的z值偏離均值的程度小于父母的偏離程度,即非常矮小的父母傾向于有偏高的孩子;而非常高大的父母則傾向于有偏矮的孩子。它把這叫做對均值的“回歸”,這一發(fā)現(xiàn)構(gòu)成了回歸分析的基礎(chǔ)第2頁,共72頁。第一節(jié) 相關(guān)與回歸概述第3頁,共72頁。一、變量間的關(guān)系及分類統(tǒng)計變量之間的關(guān)系,存在著兩種不同的類型,一種是函數(shù)關(guān)系,另一種是相關(guān)關(guān)系函數(shù)關(guān)系是指變量之間存在著的一種固定的、嚴(yán)格的數(shù)量依存關(guān)系,即一個變量數(shù)值的變動,都會有另一個變量的數(shù)值與之完全對應(yīng)相關(guān)關(guān)系是指變量之間存在著的一種非確定性的數(shù)量依存關(guān)系,即一個變量發(fā)生數(shù)值變化時,另一變量也相應(yīng)地發(fā)生數(shù)值變化,但其數(shù)值是不固定的太陽和地球的運動就是函數(shù)你和你父親之間就是相關(guān)不可能是函數(shù),如是函數(shù),他動一下胳膊,你就要動一下腿第4頁,共72頁。二、相關(guān)分析的主要內(nèi)容相關(guān)分析是研究兩個或兩個以上的變量之間相關(guān)程度及大小的一種統(tǒng)計方法其主要內(nèi)容包括:1.確定現(xiàn)象之間是否存在相關(guān)關(guān)系,以及相關(guān)關(guān)系呈現(xiàn)的形態(tài)2.確定相關(guān)關(guān)系的密切程度3.相關(guān)系數(shù)的檢驗第5頁,共72頁。三、回歸分析的主要內(nèi)容回歸分析是尋找存在相關(guān)關(guān)系的變量間的數(shù)學(xué)表達式,并進行統(tǒng)計推斷的一種統(tǒng)計方法主要內(nèi)容包括:1.進行參數(shù)估計。即如何根據(jù)樣本數(shù)據(jù)對回歸模型的參數(shù)進行估計,求出具體的回歸方程2.進行顯著性檢驗。即對回歸方程、參數(shù)估計值進行顯著性檢驗與校正,以便使回歸方程或參數(shù)更加優(yōu)良3.進行預(yù)測和控制四、相關(guān)與回歸相關(guān)僅判定變量之間是否存在關(guān)系(存在性)這關(guān)系的大小、正確與否都是回歸分析的內(nèi)容(關(guān)系的具體表現(xiàn))第6頁,共72頁。五、回歸分析的分類在對回歸分析進行分類時,主要有兩種分類方式第一,根據(jù)變量的數(shù)目,可以分類一元回歸、多元回歸第二,根據(jù)自變量與因變量的表現(xiàn)形式,分為線性與非線性所以,回歸分析包括四個方向:一元線性回歸分析、多元線性回歸分析、一元非線性回歸分析、多元非線性回歸分析我們把一元非線性回歸分析和多元非線性回歸分析合并為曲線回歸分析第7頁,共72頁。第二節(jié)相關(guān)分析第8頁,共72頁。一、相關(guān)關(guān)系的分類1.按相關(guān)關(guān)系涉及因素的多少單相關(guān)與復(fù)相關(guān)2.按相關(guān)關(guān)系的表現(xiàn)形式線性相關(guān)和非線性相關(guān)3.按相關(guān)的方向正相關(guān)和負相關(guān)4.按相關(guān)程度來分完全相關(guān)、不完全相關(guān)和不相關(guān)(完全不相關(guān))對立、反義詞第9頁,共72頁。二、相關(guān)關(guān)系的度量在進行相關(guān)分析時,可通過相關(guān)表散點圖計算相關(guān)系數(shù)第10頁,共72頁。相關(guān)表是根據(jù)現(xiàn)象變動樣本資料編制出來的反映變量間相關(guān)關(guān)系的統(tǒng)計表散點圖,是利用坐標(biāo)系,將兩變量相對應(yīng)的變量值用坐標(biāo)點形式描繪出來的二維數(shù)據(jù)圖第11頁,共72頁。三、相關(guān)系數(shù)相關(guān)表與散點圖只能粗略的反映變量間相關(guān)關(guān)系的方向、形式和密切程度,要確切地反映相關(guān)關(guān)系的密切程度,還需計算相關(guān)系數(shù)相關(guān)系數(shù)有很多種形式,常用由卡爾.皮爾遜提出的相關(guān)系數(shù)第12頁,共72頁。1.相關(guān)系數(shù)的計算相關(guān)系數(shù)用來度量的兩個變量,設(shè)為x與y根據(jù)總體數(shù)據(jù)計算的兩個變量之間線性相關(guān)強度的統(tǒng)計量,叫做總體相關(guān)系數(shù),用ρ表示根據(jù)樣本計算的兩個變量之間線性相關(guān)強度的統(tǒng)計量,叫做樣本相關(guān)系數(shù),簡稱相關(guān)系數(shù),用r表示相關(guān)系數(shù)r的測定方法有兩種,第一種稱積差法,第二種稱簡捷法r是ρ的一個估計量,得到ρ是不可能的,需要用r來估計ρ。另外,估計得到的值需要進行檢驗第13頁,共72頁。第14頁,共72頁?!纠?0-1】根據(jù)抽樣知,某企業(yè)銷售額與流通費用的相關(guān)情況,如表10-1,根據(jù)積差法與簡捷法分別計算相關(guān)系數(shù)r。年份(年)銷售額(萬元)流通費用(萬元)19981999200020012002200320042005200610163240741201972463451.83.15.27.710.413.318.821.228.3第15頁,共72頁。第16頁,共72頁。2.相關(guān)系數(shù)的性質(zhì)第一、相關(guān)系數(shù)介于-1到+1之間第二、r具有對稱性,x與y的相關(guān)系數(shù)和y與x的相關(guān)系數(shù)相等第三、r的數(shù)值大小與x和y的原點及尺度無關(guān)第17頁,共72頁。3.線性相關(guān)系數(shù)的分類第一、根據(jù)r的數(shù)值分為正相關(guān)、負相關(guān)第二、根據(jù)r數(shù)值,分為完全相關(guān)、不完全相關(guān)、完全不相關(guān)第三、根據(jù)r的數(shù)值,分為低度相關(guān)、中度相關(guān)、高度相關(guān)第18頁,共72頁。四、相關(guān)系數(shù)顯著性檢驗相關(guān)系數(shù)是根據(jù)樣本數(shù)據(jù)計算出來的,兩個不相關(guān)的變量,其樣本相關(guān)系數(shù)也可能較高兩個相關(guān)性很高的變量,其樣本相關(guān)系數(shù)也可能較低要從樣本相關(guān)系數(shù)判斷總體是否也具有這樣的關(guān)系,需要對相關(guān)系數(shù)進行假設(shè)檢驗第19頁,共72頁。第20頁,共72頁?!纠?0-2】某銀行25個月的不良貸款與貸款余額之間的相關(guān)系數(shù)r為0.8436,在0.05的顯著性水平下,檢驗不良貸款與貸款余額之間的相關(guān)系數(shù)是否顯著第21頁,共72頁。第22頁,共72頁。第三節(jié)一元線性回歸分析第23頁,共72頁。一、一元線性回歸模型1.回歸模型的一般形式對于具有線性關(guān)系的兩個變量,可以用一個方程來表示它們之間的線性關(guān)系描述因變量y如何依賴于自變量x和誤差項ε的方程稱為回歸模型。對于只涉及一個自變量的一元線性回歸模型可表示為第24頁,共72頁。第25頁,共72頁。3.回歸方程描述因變量y的期望值如何依賴于自變量x的方程稱為回歸方程。根據(jù)對一元線性回歸模型的假設(shè),可以得到它的回歸方程為第26頁,共72頁。4.估計的回歸方程如果回歸方程中的參數(shù)已知,對于一個給定的x值,利用回歸方程就能計算出y的期望值用樣本統(tǒng)計量代替回歸方程中的未知參數(shù),就得到估計的回歸方程,簡稱回歸直線第27頁,共72頁。二、參數(shù)估計與預(yù)測1.參數(shù)的最小二乘法估計對于回歸直線,關(guān)鍵在于求解參數(shù)常用高斯提出的最小二乘法,也叫做最小平方法,它是使因變量的觀察值y與估計值之間的離差平方和達到最小來求解第28頁,共72頁。根據(jù)統(tǒng)計,70年代世界制造業(yè)總產(chǎn)量與世界制成品總出口量的變化關(guān)系如表10-2。求回歸直線年度總產(chǎn)量年增長率(%)x總出口量年增長率(%)y19704.08.519714.08.019728.510.519739.515.519743.08.51975-1.0-4.519768.013.519775.05.019785.06.019794.07.0第29頁,共72頁。第30頁,共72頁。2.利用回歸直線進行估計和預(yù)測(1)點估計利用估計的回歸方程,對于x的某一個特定的值,求出y的一個估計值就是點估計點估計分兩種:一個是平均值的點估計,一個是個別值的點估計點估計的條件下,對于同一個特定的,平均值的點估計和個別值的點估計的結(jié)果是一樣的(2)區(qū)間估計利用估計的回歸方程,對于x的一個特定值,求出y的一個估計值的區(qū)間就是區(qū)間估計區(qū)間估計有兩種:一個是置信區(qū)間估計,它是對x的一個給定值,求出y的平均值的估計區(qū)間;一個是預(yù)測區(qū)間估計,它是對x的一個給定值,求出y的一個個別值的估計區(qū)間第31頁,共72頁。第32頁,共72頁?!纠?0-4】某企業(yè)從有關(guān)資料中發(fā)現(xiàn)廣告投入和產(chǎn)品銷售有較密切的關(guān)系。近年該企業(yè)廣告費和銷售額資料見表10-3,若2003年廣告費為120萬元,請用一元線性回歸求2003年產(chǎn)品銷售額的置信區(qū)間與預(yù)測區(qū)間(α=0.05)年份廣告費x(萬元)銷售額y(百萬元)19941995199619971998199920002001200235526072858095100105182530384144495260第33頁,共72頁。第34頁,共72頁。三、回歸直線的擬合優(yōu)度回歸直線在一定程度上描述了變量x與變量y之間的數(shù)量關(guān)系利用方程,可根據(jù)自變量x的取值來估計或預(yù)測因變量y的取值,但估計或預(yù)測的精度如何將取決于回歸直線對觀測數(shù)據(jù)的擬合程度回歸直線與各觀測點的接近程度稱為回歸直線對數(shù)據(jù)的擬合優(yōu)度常用判定系數(shù)、估計標(biāo)準(zhǔn)誤差第35頁,共72頁。1.判定系數(shù)因變量y的取值是不同的,y取值的這種波動稱為變差。因變量y取值的變差來源于兩個方面:一是由于自變量x的取值不同造成的,二是除x以外的其他因素的影響第36頁,共72頁??偲椒胶涂梢苑纸鉃榛貧w平方和、殘差平方和兩部分回歸平方和SSR反映了y的總變差中,由于x與y之間的線性關(guān)系引起的y的變化部分殘差平方和SSE反映了除了x對y的線性影響之外的其他因素對y變差的作用,是不能由回歸直線來解釋的y的變差部分可以看出,回歸直線擬合的好壞取決于SSR及SSE的第37頁,共72頁。第38頁,共72頁。【例10-5】根據(jù)WTO的統(tǒng)計數(shù)字,70年代世界制造業(yè)總產(chǎn)量與世界制成品總出口量的變化關(guān)系如表10-4,求判定系數(shù)年度總產(chǎn)量年增長率(%)x總出口量年增長率(%)y19704.08.519714.08.019728.510.519739.515.519743.08.51975-1.0-4.519768.013.519775.05.019785.06.019794.07.0第39頁,共72頁。2.估計標(biāo)準(zhǔn)誤差設(shè)數(shù)據(jù)量為n,變量的個數(shù)為k,則SST的自由度為n-1,SSR的自由度為k-1,SSE的自由度為n-k估計標(biāo)準(zhǔn)誤差,也稱作估計標(biāo)準(zhǔn)誤,是度量各實際觀測點在直線周圍散布狀況的一個統(tǒng)計量第40頁,共72頁?!纠?0-6】某企業(yè)對車間9名學(xué)徒進行調(diào)查,得到學(xué)徒期限與每天產(chǎn)量情況如表10-5,求其估計標(biāo)準(zhǔn)誤差編號學(xué)徒期(年)x日產(chǎn)量(件)y10.55021803110041.513052150621707218082.522092.5240合計151320第41頁,共72頁。第42頁,共72頁。四、顯著性檢驗顯著性檢驗的主要目的是根據(jù)所建立的估計方程用自變量x來估計或預(yù)測因變量y的取值。當(dāng)建立了估計方程后,還不能馬上進行估計或預(yù)測,因為該估計方程是根據(jù)樣本數(shù)據(jù)得到的,它是否真實的反映了變量x和y之間的關(guān)系,則需要通過檢驗后才能證實根據(jù)樣本數(shù)據(jù)擬合回歸方程時,實際上就已經(jīng)假定變量x與y之間存在著線性關(guān)系,并假定誤差項是一個服從正態(tài)分布的隨機變量,且具有相同的方差。但這些假設(shè)是否成立需要檢驗顯著性檢驗包括兩方面線性關(guān)系檢驗回歸系數(shù)檢驗第43頁,共72頁。第44頁,共72頁?!纠?0-7】某銀行25個月的不良貸款與貸款余額之間的數(shù)據(jù)如表10-6,要求:在0.05的顯著性水平下,檢驗不良貸款與貸款余額之間的線性關(guān)系是否顯著第45頁,共72頁。2.回歸系數(shù)的檢驗第46頁,共72頁。第47頁,共72頁。3.線性關(guān)系檢驗與回歸系數(shù)檢驗的區(qū)別線性關(guān)系的檢驗是檢驗自變量與因變量是否可以用線性來表達,而回歸系數(shù)的檢驗是對樣本數(shù)據(jù)計算的回歸系數(shù)檢驗總體中回歸系數(shù)是否為0在一元線性回歸中,自變量只有一個,線性關(guān)系檢驗與回歸系數(shù)檢驗是等價的多元回歸分析中,這兩種檢驗的意義是不同的。線性關(guān)系檢驗只能用來檢驗總體回歸關(guān)系的顯著性,而回歸系數(shù)檢驗可以對各個回歸系數(shù)分別進行檢驗第48頁,共72頁。第四節(jié)多元線性回歸分析第49頁,共72頁。一、模型概述與假設(shè)1.模型概述經(jīng)濟活動中,經(jīng)常會遇到某一現(xiàn)象的發(fā)展和變化取決于幾個影響因素的情況,也就是一個因變量和幾個自變量有依存關(guān)系的情況,這時需用多元線性回歸分析多元線性回歸分析預(yù)測法,是指通過對兩上或兩個以上的自變量與一個因變量的相關(guān)分析,建立預(yù)測模型進行預(yù)測和控制的方法為了和前面的一元線性回歸分析有個比較,不再使用α、β而使用A、B與a、b多元線性回歸預(yù)測模型一般式為第50頁,共72頁。二、參數(shù)估計與預(yù)測1.回歸方程描述因變量y的期望值如何依賴于多個自變量x的方程稱為多元線性回歸方程多元線性回歸方程為用樣本統(tǒng)計量代替回歸方程中的未知參數(shù),就得到估計的多元線性回歸方程第51頁,共72頁。2.參數(shù)的最小二乘法估計第52頁,共72頁?!纠?0-9】某地區(qū)通過市場調(diào)查發(fā)現(xiàn)電冰箱銷售量同居民新結(jié)婚戶數(shù)、居民戶均收入水平相關(guān)。該地區(qū)近年電冰箱銷售量、新結(jié)婚戶數(shù)和居民戶均收入水平資料見教材表10-7。以電冰箱銷售量(千臺)為因變量y,以新結(jié)婚戶數(shù)(千戶)為自變量,以居民戶均收入(千元)為自變量。若預(yù)計2003年該地區(qū)居民新婚戶數(shù)為30.2千戶,居民戶均收入62.5千元。用二元線性回歸預(yù)測該地區(qū)2003年電冰箱需求量第53頁,共72頁。第54頁,共72頁。三、回歸直線的擬合優(yōu)度多元線性回歸分析,一般用于判斷回歸直線擬合優(yōu)度的指標(biāo)有多重判定系數(shù)修正多重判定系數(shù)估計標(biāo)準(zhǔn)誤差第55頁,共72頁。1.多重判定系數(shù)對多元線性回歸方程而言,總平方和SST同樣可以分解為回歸平方和SSR及殘差平方和SSE兩部分SST=SSR+SSE多重判定系數(shù),也稱為復(fù)判定系數(shù),是指在多元線性回歸分析中,回歸平方和占總平方和的比重第56頁,共72頁。2.修正多重判定系數(shù)多重判定系數(shù)大小取決于SSE在SST的比重樣本容量一定時,SST與自變量的個數(shù)無關(guān),而SSE則會隨著自變量個數(shù)的增加不斷減少,至少不會增加。因此,它是自變量個數(shù)的非遞減函數(shù)多元線性回歸模型中,各回歸模型所含的變量的數(shù)目未必相同,以多重判定系數(shù)的大小作為衡量擬合優(yōu)度的尺度是不合適的用樣本容量n和變量個數(shù)k去修正得到修正的多重判定系數(shù),以避免增加自變量而高估多重判定系數(shù)第57頁,共72頁。某城市有關(guān)A商品需求的統(tǒng)計數(shù)據(jù)如表,以銷售量作為因變量,以每個居民的月平均收入(百元)和A商品的價格(元)為自變量,得到回歸直線為,計算修正的多重判定系數(shù)年次12345678910銷售量y居民人均收入單價105210731582139514942010318104241231913523154第58頁,共72頁。第59頁,共72頁。3.估計標(biāo)準(zhǔn)誤差估計標(biāo)準(zhǔn)誤差描述了回歸直線附近的偏差,小的標(biāo)準(zhǔn)誤差表明樣本點接近回歸直線。在多元回歸中這一概念同樣正確與一元線性回歸方程類似,說明多元線性回歸方程估計因變量的準(zhǔn)確程度高低、反映回歸方程擬合程度的統(tǒng)計指標(biāo)是估計標(biāo)準(zhǔn)誤差,公式為第60頁,共72頁?!纠?0-11】某地區(qū)通過市場調(diào)查發(fā)現(xiàn)電冰箱銷售量同居民新結(jié)婚戶數(shù)、居民戶均收入水平相關(guān)。該地區(qū)近年電冰箱銷售量、新結(jié)婚戶數(shù)和居民戶均收入水平資料見表。若回歸直線為,求標(biāo)準(zhǔn)誤差年份電冰箱銷售量y(干臺)新結(jié)婚戶數(shù)x1(干戶)居民戶均收入x2(千元)1995199619971998199920002001200220263034404449552222.523.123.42424.52628.528.534.038.640.042.546.050.254.8第61頁,共72頁。四、顯著性檢驗當(dāng)用多元線性回歸直線去擬合因變量y與解釋變量自變量之間的關(guān)系,在進行參數(shù)估計之前,我們只是根據(jù)一些分析和圖形所作的一種假設(shè)究竟這些變量之間是否真正具有多元線性相關(guān)關(guān)系,還需進行相關(guān)統(tǒng)計顯著性檢驗只有通過檢驗的模型,才能用于預(yù)測和分析第62頁,共

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論