理學(xué)相關(guān)與回歸分析_第1頁(yè)
理學(xué)相關(guān)與回歸分析_第2頁(yè)
理學(xué)相關(guān)與回歸分析_第3頁(yè)
理學(xué)相關(guān)與回歸分析_第4頁(yè)
理學(xué)相關(guān)與回歸分析_第5頁(yè)
已閱讀5頁(yè),還剩25頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、三 相關(guān)與回歸分析(1) 相關(guān)分析的基本概念辯證唯物主義認(rèn)為物質(zhì)世界是一個(gè)普遍聯(lián)系的統(tǒng)一整體。這說(shuō)明,世界上的事物或多或少存在著某種聯(lián)系。例如:身高與體重之間,就存在著聯(lián)系,一般情況下,身體越高體重也越大;投資與利潤(rùn)之間也存在著類似的聯(lián)系。研究這種聯(lián)系無(wú)論是在經(jīng)營(yíng)決策還是在科學(xué)研究中都必不可少,比如:投資方只有在考慮了投資和利潤(rùn)的關(guān)系后,才能大致預(yù)測(cè)出一定水平的投資能帶來(lái)多少利潤(rùn);又如,在工程技術(shù)中,對(duì)于混凝土的抗壓強(qiáng)度和抗拉強(qiáng)度的研究,有助于應(yīng)對(duì)不同的施工要求。要研究這些變量之間的關(guān)系,可以通過(guò)統(tǒng)計(jì)的方法進(jìn)行,而這種統(tǒng)計(jì)的方法主要是相關(guān)分析和回歸分析兩種。1 相關(guān)關(guān)系如前所述,變量之間存在著

2、相互的聯(lián)系,如果進(jìn)一步考察,可以發(fā)現(xiàn),這些聯(lián)系又具體的可以分為兩種不同的類型。1)函數(shù)關(guān)系它反映現(xiàn)象之間存在著嚴(yán)格的依存關(guān)系。其特點(diǎn):變量之間的數(shù)值以確定的關(guān)系相對(duì)應(yīng)這種關(guān)系中,對(duì)于某一變量的每一個(gè)數(shù)值,都有另一個(gè)變量的確定的值與之相對(duì)應(yīng)。變量間的關(guān)系可以用一個(gè)確定的公式來(lái)反映例如,圓的面積隨著半徑而變動(dòng);,產(chǎn)值和產(chǎn)量、單位生產(chǎn)成本之間也是確定的函數(shù)關(guān)系。2)相關(guān)關(guān)系它是指現(xiàn)象之間確實(shí)存在依存關(guān)系,但這種關(guān)系不確定不嚴(yán)格。這種關(guān)系的特點(diǎn):變量之間確實(shí)存在數(shù)量上的依存關(guān)系如前所述的身高與體重之間,投資與利潤(rùn)之間都存在著某種依存關(guān)系。數(shù)量依存關(guān)系的具體關(guān)系值是不固定的在這種關(guān)系中,對(duì)于某個(gè)變量的某

3、個(gè)數(shù)值,另一個(gè)變量可以有若干個(gè)數(shù)值與之對(duì)應(yīng),這些數(shù)值表現(xiàn)出一定的波動(dòng)性。例如:身高與體重之間,存在一定的依存關(guān)系。但是體重除了與身高有關(guān)外,還受年齡、性別、區(qū)域、種族等因素影響。身高與體重并無(wú)嚴(yán)格的對(duì)應(yīng)關(guān)系,同一身高的人,體重大多數(shù)情況下是不相等的。但即便如此,這兩個(gè)變量之間仍舊存在一定的規(guī)律性,在一般條件下,身高越高,體重越大。統(tǒng)計(jì)在研究變量的相關(guān)關(guān)系時(shí),應(yīng)當(dāng)首先根據(jù)有關(guān)的科學(xué)理論,通過(guò)觀察和實(shí)驗(yàn),才能建立這種聯(lián)系,并且還要通過(guò)理論與實(shí)踐的檢驗(yàn)。只有這樣,才能得出科學(xué)的有意義的結(jié)論。2 相關(guān)關(guān)系的種類變量之間的相關(guān)關(guān)系是很復(fù)雜的,它們各以不同的方式和程度相互作用,表現(xiàn)出不同的類型和形態(tài)。1)

4、 按相關(guān)關(guān)系涉及的變量多少來(lái)劃分,可分為單相關(guān)和復(fù)相關(guān)兩個(gè)變量之間的相關(guān)關(guān)系叫做單相關(guān)(也稱一元相關(guān)),即只涉及一個(gè)自變量和一個(gè)因變量。三個(gè)或三個(gè)以上的變量之間的相關(guān)關(guān)系叫做復(fù)相關(guān)(也稱多元相關(guān)),即研究涉及一個(gè)因變量和兩個(gè)或兩個(gè)以上的自變量。2) 按相關(guān)的方向分,可分為正相關(guān)和負(fù)相關(guān)自變量的數(shù)值增加,因變量的數(shù)值也基本隨之增加,即為正相關(guān),例如:商品價(jià)格上升,供給也上升。而相反的即為負(fù)相關(guān),如商品價(jià)格上升,商品的需求下降。3)按相關(guān)的表現(xiàn)形式分,分為線性相關(guān)(直線相關(guān))和非線性相關(guān)(曲線相關(guān))變量間的相關(guān)關(guān)系近似地表現(xiàn)為直線即稱為直線相關(guān)。其特點(diǎn)是當(dāng)一個(gè)變量增減1個(gè)單位時(shí),另一個(gè)變量也按一個(gè)

5、大致固定的量變化。若這種相關(guān)關(guān)系近似為曲線時(shí),即稱為曲線相關(guān),按具體形態(tài)又可分為:拋物線、指數(shù)曲線、雙曲線等。在實(shí)際應(yīng)用中,變量之間究竟采取哪種形態(tài),要根據(jù)具體情況進(jìn)行理論分析,并根據(jù)實(shí)際經(jīng)驗(yàn),才能得到較好的解決。4) 按照相關(guān)的密切程度分,分為完全相關(guān)、不完全相關(guān)和無(wú)相關(guān)(b)不完全相關(guān)yx(a)完全相關(guān)yx當(dāng)一個(gè)變量的值完全由另一個(gè)變量的值所決定,即稱為完全相關(guān),即前述的函數(shù)關(guān)系,如;兩個(gè)變量各自獨(dú)立,互不影響,稱為無(wú)相關(guān),如股票價(jià)格和氣溫之間,一般是無(wú)相關(guān)的。介于這二者之間,稱為不完全相關(guān),通常相關(guān)分析是指對(duì)不完全相關(guān)的分析。以上相關(guān)關(guān)系的種類,如圖1所示。(d)曲線相關(guān)xy(c)無(wú)相關(guān)

6、xy(f)負(fù)相關(guān)xy(e)正相關(guān)xy圖1 相關(guān)關(guān)系類型需要注意的是,現(xiàn)實(shí)的相關(guān)關(guān)系一般是以組合形態(tài)出現(xiàn),如圖1(a)為完全線性正相關(guān),圖1(b)為不完全線性正相關(guān)。而相應(yīng)的完全線性負(fù)相關(guān)和不完全線性負(fù)相關(guān)如圖2(a)和圖2(b)。(b)不完全線性負(fù)相關(guān)xy(a)完全線性負(fù)相關(guān)xy圖2 相關(guān)關(guān)系的組合類型此外,線性關(guān)系還有其他的組合類型,在此不一一列舉。3 相關(guān)分析的主要內(nèi)容相關(guān)分析的目的在于分析現(xiàn)象間相關(guān)關(guān)系的形式和密切程度以及依存變動(dòng)的規(guī)律性,在實(shí)際工作中,有非常廣泛的應(yīng)用。主要內(nèi)容如下:1) 確定變量之間有無(wú)相關(guān)關(guān)系,以及相關(guān)關(guān)系的表現(xiàn)形式這是相關(guān)分析的出發(fā)點(diǎn),由相關(guān)關(guān)系才能用相應(yīng)的方法去

7、分析,否則,只會(huì)得出錯(cuò)誤的結(jié)論。相關(guān)關(guān)系表現(xiàn)為何種形式就用什么樣的方法分析,若把本屬于直線相關(guān)的變量用曲線的方法來(lái)分析,就會(huì)產(chǎn)生認(rèn)識(shí)上的偏差。2) 確定相關(guān)關(guān)系的密切程度對(duì)于這個(gè)問(wèn)題,直線相關(guān)用相關(guān)系數(shù)表示,曲線相關(guān)用相關(guān)指數(shù)表示,相關(guān)系數(shù)的用途很廣泛。3)選擇合適的數(shù)學(xué)方程式確定了變量之間確實(shí)有相關(guān)關(guān)系和及其密切程度,就要選擇合適的數(shù)學(xué)方程式來(lái)對(duì)變量之間的關(guān)系近似描述,并用自變量的數(shù)值去推測(cè)因變量的數(shù)值,稱之為回歸分析。如果變量之間為直線相關(guān),則采用直線方程,稱之為線性回歸;如果變量之間為曲線相關(guān),則采用曲線方程,稱之為非線性回歸。4)測(cè)定變量估計(jì)值的準(zhǔn)確程度在相關(guān)分析中,第三步建立了數(shù)學(xué)方

8、程式,并用方程式對(duì)因變量進(jìn)行估值。因變量的估計(jì)值和實(shí)際值之間進(jìn)行對(duì)比,因變量估計(jì)值的準(zhǔn)確程度可以用估計(jì)標(biāo)準(zhǔn)誤差來(lái)衡量。5)對(duì)回歸方程進(jìn)行顯著性檢驗(yàn)對(duì)前幾步變量之間建立的回歸方程,要進(jìn)行顯著性檢驗(yàn)。檢驗(yàn)變量之間是否真的具備這樣的關(guān)系,這種關(guān)系是不是因?yàn)閿?shù)據(jù)的選取而偶然形成的。(2)簡(jiǎn)單線性相關(guān)分析1 散點(diǎn)圖和相關(guān)表進(jìn)行相關(guān)分析,和許多其它的統(tǒng)計(jì)研究一樣,基本都是采用定性和定量相結(jié)合的方法,即先作定性分析,再作定量分析。所謂定性分析,是要根據(jù)有關(guān)專業(yè)知識(shí)和實(shí)際經(jīng)驗(yàn),來(lái)判斷變量之間是否存在一定的相關(guān)性。如果確實(shí)存在關(guān)系再通過(guò)編制散點(diǎn)圖和相關(guān)表,對(duì)變量之間的相關(guān)關(guān)系的類型做出大致判斷。上述工作完成后,

9、再進(jìn)行定量分析,即可以計(jì)算相關(guān)系數(shù),以精確反映相關(guān)關(guān)系的方向和程度。1) 繪制散點(diǎn)圖【例1】在某個(gè)地區(qū)抽取了9家生產(chǎn)同類產(chǎn)品的企業(yè),其月產(chǎn)量和單位產(chǎn)品成本的資料如表1,現(xiàn)在來(lái)分析月產(chǎn)量和單位成本的關(guān)系。表1 9家企業(yè)的月產(chǎn)量和單位產(chǎn)品成本資料企業(yè)編號(hào)123456789月產(chǎn)量(千件)(x)4.16.35.47.63.28.59.76.82.1單位產(chǎn)本(元)(y)807271588650426391根據(jù)規(guī)模經(jīng)濟(jì)理論,可以判斷產(chǎn)品的產(chǎn)量和單位成本之間存在著相關(guān)關(guān)系,再繪制散點(diǎn)圖,我們可以比較直觀地看出這兩個(gè)變量間的關(guān)系。如圖3所示。圖3 9家企業(yè)的月產(chǎn)量和單位產(chǎn)品成本散點(diǎn)圖從圖3看出,月產(chǎn)量和單位成

10、本是負(fù)相關(guān),而且有形成一條直線的傾向。如果與某個(gè)變量相關(guān)的因素不止一個(gè),可以分別繪制許多相關(guān)圖。從許多相關(guān)圖的對(duì)比中,大致可以看出與各因素關(guān)系的密切程度,從中判斷哪個(gè)是主要因素,哪個(gè)是次要因素。2) 相關(guān)表根據(jù)總體單位的原始數(shù)據(jù)可以編制相關(guān)表,根據(jù)例1的數(shù)據(jù),將月產(chǎn)量按照升序排列,即得相關(guān)表,見(jiàn)表2。表2 9家企業(yè)的月產(chǎn)量和單位產(chǎn)品成本相關(guān)表序 號(hào)月產(chǎn)量(千件)(x)單位產(chǎn)本(元)(y)92.19153.28614.18035.47126.37286.86347.65868.55079.742合計(jì)53.7613從相關(guān)表中可以看出,月產(chǎn)量和單位成本之間存在著明顯的負(fù)相關(guān)關(guān)系。3) 分組相關(guān)表在實(shí)

11、際的統(tǒng)計(jì)工作中,原始數(shù)據(jù)是非常多的,如果直接編制相關(guān)表會(huì)很長(zhǎng),而由于數(shù)據(jù)點(diǎn)過(guò)多,散點(diǎn)圖也不好繪制,這時(shí)常常編制分組相關(guān)表。根據(jù)分組情況不同,分組表有兩種:?jiǎn)巫兞糠纸M表和雙變量分組表,而在實(shí)際操作中,單變量應(yīng)用最為廣泛。單變量分組表在有相關(guān)關(guān)系的兩個(gè)變量中,只根據(jù)一個(gè)變量進(jìn)行分組,另一個(gè)不進(jìn)行分組,只是計(jì)算其頻數(shù)和平均值。如表3所示。表3 380名女大學(xué)生的體重和身高相關(guān)表按體重分組()人數(shù)(人)每組平均身高(m)60以上41.760-6261.6555-60721.6350-55641.647-501101.5845-471211.5645以下31.53合計(jì)38011.25圖8-4 380名女

12、大學(xué)生的體重和身高散點(diǎn)圖從表3和圖4可以看出,這380名女大學(xué)生的身高和體重之間存在著明顯的正相關(guān)關(guān)系。雙變量分組表如果對(duì)表3中的兩個(gè)變量都進(jìn)行分組,可以得到雙變量分組表,但由于這種分組后的相關(guān)表,加權(quán)的方法比較復(fù)雜,而且并不實(shí)用,所以在實(shí)際中已很少采用,從略。2 相關(guān)系數(shù)的計(jì)算通過(guò)前述相關(guān)表和散點(diǎn)圖,可以基本判斷變量間相關(guān)關(guān)系的方向和程度,但這只是相關(guān)分析的開始。如果通過(guò)散點(diǎn)圖發(fā)現(xiàn)變量間基本是線性相關(guān),那么如何判定其線性關(guān)系的密切程度呢?這可以用相關(guān)系數(shù)來(lái)衡量。1) 相關(guān)系數(shù)1890年英國(guó)統(tǒng)計(jì)學(xué)家卡爾皮爾遜(Karl Pearson)便提出了相關(guān)系數(shù)的公式。-式中:r-相關(guān)系數(shù)-變量x與變量

13、y的協(xié)方差;-變量x的標(biāo)準(zhǔn)差-變量y的標(biāo)準(zhǔn)差需要說(shuō)明的是,為正意味著變量x與變量y為正相關(guān),為負(fù)意味著變量x與變量y為負(fù)相關(guān)。r與同符號(hào),也意味著r為正意味著變量x與變量y為正相關(guān),r為負(fù)意味著變量x與變量y為負(fù)相關(guān)。2)未分組資料的相關(guān)系數(shù)將以上各式代入的定義式,可得:-式為相關(guān)系數(shù)的基本計(jì)算公式。經(jīng)推算,還可形成相關(guān)系數(shù)的簡(jiǎn)便計(jì)算公式:-或者:-現(xiàn)用表2的數(shù)據(jù)來(lái)說(shuō)明相關(guān)系數(shù)的計(jì)算過(guò)程。表4 相關(guān)系數(shù)計(jì)算表序 號(hào)月產(chǎn)量 x(千件)單位成本 y(元)14.18016.81640032826.37239.695184453.635.47129.165041383.447.65857.763364

14、440.853.28610.247396275.268.55072.25250042579.74294.091764407.486.86346.243969428.492.1914.418281191.1合計(jì)53.7613370.65438993332.9在已有平均值的情況下,還可以用式計(jì)算,即:,注:協(xié)方差正負(fù)的意義。為正,則說(shuō)明,或者和多數(shù)情況下符號(hào)相同,即和基本上同時(shí)大或同時(shí)小,即兩個(gè)變量之間為正相關(guān);同理,為負(fù),則說(shuō)明兩個(gè)變量之間為負(fù)相關(guān)。3)分組資料的相關(guān)系數(shù)計(jì)算當(dāng)原始數(shù)據(jù)較多,已分組編成二元頻數(shù)分布表時(shí),就用各組頻數(shù)加權(quán)計(jì)算相關(guān)系數(shù),公式為:-式中:-的頻數(shù)-的頻數(shù)-的聯(lián)合頻數(shù)3

15、相關(guān)系數(shù)的密切程度可以證明,相關(guān)系數(shù) 1。0,表明變量之間正相關(guān);0,表明變量之間負(fù)相關(guān)。那么,相關(guān)關(guān)系的強(qiáng)弱如何通過(guò)體現(xiàn)?=1,表明變量之間為完全的線性相關(guān)關(guān)系;=0,表明變量之間沒(méi)有線性關(guān)系,但要注意,有可能是曲線關(guān)系。當(dāng)01時(shí),變量之間有不同程度的線性關(guān)系。由此可以確定一個(gè)對(duì)相關(guān)程度評(píng)價(jià)的標(biāo)準(zhǔn)。00.3為弱相關(guān);0.30.5為低度相關(guān)0.50.8為顯著相關(guān)0.81為高度相關(guān)。4 相關(guān)系數(shù)的顯著性檢驗(yàn)測(cè)算兩個(gè)變量的相關(guān)系數(shù),是從二元總體中隨機(jī)抽取一個(gè)樣本,再用樣本的相關(guān)系數(shù)去推斷,因?yàn)橥茢嗾`差的存在,不可能保證百分之百的可靠。也就是說(shuō),因?yàn)闃颖臼请S機(jī)抽取的,根據(jù)其計(jì)算出的相關(guān)系數(shù)雖然很大,

16、但總體卻可能并不具備相關(guān)性。那么總體到底有沒(méi)有線性相關(guān)性,在得出結(jié)論前,就必須要做假設(shè)檢驗(yàn)。檢驗(yàn)樣本(相關(guān)系數(shù)為)是否會(huì)來(lái)自于一個(gè)無(wú)線性關(guān)系的總體(總體的相關(guān)系數(shù)為),可以采用費(fèi)舍()的t檢驗(yàn)法。1)原假設(shè):;備擇假設(shè):。2)檢驗(yàn)統(tǒng)計(jì)量為:,其中為自由度。3)若顯著性水平為,查表的臨界值:4)若,則拒絕原假設(shè),接受備擇假設(shè),即認(rèn)為樣本的相關(guān)系數(shù)顯著,可以說(shuō)明總體兩個(gè)變量間存在著線性相關(guān),檢驗(yàn)通過(guò)。若,則結(jié)論相反?!纠?】用上述方法,對(duì)【例1】中9家企業(yè)的月產(chǎn)量和單位成本的樣本相關(guān)系數(shù)做顯著性檢驗(yàn)。已知:,提出如下假設(shè):; :設(shè)顯著性水平。查t表得,表明總體相關(guān)系數(shù)的可能性小于。所以拒絕原假設(shè):

17、,認(rèn)為樣本的相關(guān)關(guān)系具有顯著性,即不能否認(rèn)總體(全部的同類企業(yè))的兩變量存在線性相關(guān)。(3)回歸分析1 回歸分析的概念通過(guò)相關(guān)分析可以說(shuō)明變量之間相關(guān)關(guān)系的方向和程度,但是卻不能說(shuō)明變量之間具體的數(shù)量因果關(guān)系。當(dāng)自變量給出一個(gè)數(shù)值時(shí),因變量可能取值是多少,這是相關(guān)分析不能解決的。這需要通過(guò)新的方法,即回歸分析?;貧w分析:就是建立一個(gè)數(shù)學(xué)方程來(lái)反映變量之間具體的相互依存關(guān)系,并最終通過(guò)給定的自變量數(shù)值來(lái)估計(jì)或預(yù)測(cè)因變量可能的數(shù)值,該數(shù)學(xué)方程稱為回歸模型?!盎貧w”意思源于19世紀(jì)英國(guó)生物學(xué)家葛爾登(Francis Galton)對(duì)人體遺傳學(xué)的研究,他發(fā)現(xiàn)子女有回歸或回復(fù)到上一代原有特性的傾向。葛爾

18、登的學(xué)生統(tǒng)計(jì)學(xué)家皮爾遜把這一概念和數(shù)理統(tǒng)計(jì)方法結(jié)合,最終形成了回歸分析的理論體系。2 線性回歸分析在回歸分析中,如果變量之間的回歸模型是直線方程,則這類回歸分析為線性回歸分析(直線回歸),該直線方程成為線性回歸方程。具體的:如果直線方程中只有一個(gè)自變量和一個(gè)因變量,稱之為簡(jiǎn)單線性回歸分析;若存在一組自變量和多個(gè)因變量,稱之為多元線性回歸分析。線性回歸分析是整個(gè)回歸分析的基礎(chǔ)。1)簡(jiǎn)單線性回歸分析主要任務(wù)是在唯一的自變量和因變量之間建立一個(gè)直線函數(shù),其表現(xiàn)形式為:需要指出的是:是自變量,是因變量的估計(jì)值,又稱理論值。實(shí)際觀測(cè)值和理論值的關(guān)系是:,式中稱為離差,反映了因各種偶然因素、觀察誤差以及被

19、忽略的其他影響因素帶來(lái)的隨機(jī)誤差。一般簡(jiǎn)單線性回歸方程確定,主要是確定和,那么如何選擇最為滿意的和呢?最小平方法給出了解決方案,其基本思想是讓,又稱最小二乘法。將代入。令根據(jù)微分求極值的原理,分別對(duì)和求偏導(dǎo),令其為零。得:整理得:求解方程組,可得和:-則可得直線回歸方程 ?!纠?】根據(jù)【例1】中的數(shù)據(jù),建立月產(chǎn)量和單位產(chǎn)品成本之間的直線方程。并估計(jì)當(dāng)月產(chǎn)量(千件)時(shí),單位產(chǎn)品成本的數(shù)值。表5 直線回歸方程計(jì)算表序 號(hào)月產(chǎn)量 x(千件)單位成本 y(元)14.18016.81640032826.37239.695184453.635.47129.165041383.447.65857.76336

20、4440.853.28610.247396275.268.55072.25250042579.74294.091764407.486.86346.243969428.492.1914.418281191.1合計(jì)53.7613370.65438993332.9將表5有關(guān)數(shù)據(jù)代入式,得:,所以回歸方程為:當(dāng)(千件),(元)。直線如圖5所示。圖5 月產(chǎn)量和單位成本的直線回歸方程圖當(dāng)時(shí)間為解釋變量時(shí)的簡(jiǎn)單線性回歸方程若自變量為時(shí)間,則用t表示,此時(shí),直線方程為:由最小平方原理可得:若,則: ,-那么,怎樣使得呢?年編(序)號(hào): 奇數(shù) 偶數(shù)1990 -2 -51991 -1 -31992 0 -1199

21、3 1 +11994 2+31995 +5【例8.4】某游覽點(diǎn)歷年觀光游客的數(shù)量如下表,用最小平方法建立直線方程,并預(yù)測(cè)2010年的游客數(shù)量年份時(shí)間序號(hào)游客(萬(wàn)人)19981-310019100-30019992-211244224-22420003-112591375-125200140140160560020025115525177515520036216836410083362004731804991260540合計(jì)280980140284302382萬(wàn)人若,則萬(wàn)人2) 多元線性回歸簡(jiǎn)單線性回歸反映的是一個(gè)自變量和一個(gè)因變量之間的關(guān)系,但是客觀事物非常復(fù)雜,許多現(xiàn)象的變動(dòng)牽扯到多個(gè)影響因

22、素。例如:一個(gè)企業(yè)的利潤(rùn),受產(chǎn)值、成本、價(jià)格等多個(gè)因素的影響;再如,糧食產(chǎn)量受施肥量,同時(shí)也受溫度、播種量、土壤的酸堿性、降雨量的影響。所以在現(xiàn)實(shí)中,經(jīng)常要進(jìn)行一個(gè)變量和多個(gè)自變量的多元線性回歸分析。其一般形式為:。為了敘述方便,本書以二元線性回歸為例。即一個(gè)因變量和兩個(gè)自變量得線性回歸,方程為:。利用最小二乘原理,可以得出如下的方程組:- 解該方程組可得?!纠?.5】某服裝企業(yè)有十家銷售公司分布在不同的城市,決策者通過(guò)反復(fù)調(diào)查分析后認(rèn)為,影響該企業(yè)總銷售額的因素為:當(dāng)?shù)氐娜司率杖牒蛷V告投入,經(jīng)過(guò)一年的統(tǒng)計(jì),有關(guān)數(shù)據(jù)如表6。表6 企業(yè)銷售額與廣告投入和人均收入(千元)城市銷售額廣告投入人均月

23、收入155401922.63 254392102.42342901461.71 455022003.12 548711302.63 647081102.70 746271032.30 84110902.39 94122981.78 1042301321.96 合計(jì)47439141123.65多元線性回歸方程也可以按照上述的最小二乘法通過(guò)求解方程組得出,但在實(shí)際操作中不要求手算,可用EXCEL“數(shù)據(jù)分析”中的“回歸”求解。得出結(jié)果如下:如果廣告投入,人均月收入,則銷售額的估計(jì)值為。上面的方法可以推廣到n個(gè)自變量的情況,對(duì)回歸方程:同樣可用最小平方法,建立一個(gè)階方程組(式),解該方程組可求出有關(guān)參

24、數(shù)。-(3) 曲線回歸分析若回歸模型表現(xiàn)為曲線形式,則這就是曲線回歸分析,曲線模型種類多樣,不過(guò)在統(tǒng)計(jì)研究中常用的曲線模型主要有:1)二次拋物線:2)指數(shù)曲線:3)雙曲線:在建立曲線回歸方程時(shí),最重要的問(wèn)題是合適的曲線類型,解決這個(gè)問(wèn)題,主要是通過(guò)作圖,然后憑借經(jīng)驗(yàn)從圖形顯示的曲線形狀來(lái)判斷應(yīng)當(dāng)擬合的曲線。圖6至8給出了以上三種曲線的圖形。yxyx在多數(shù)情況下,曲線回歸問(wèn)題,可以通過(guò)變量代換,將其化成線性回歸問(wèn)題,然后再用前面介紹的線性回歸的方法來(lái)解決。yxyx圖6 拋物線圖8-7 指數(shù)曲線xyyx圖8 雙曲線1 雙曲線回歸令,則有【例6】?jī)蓚€(gè)變量的數(shù)據(jù)如下表,建立這兩個(gè)變量的回歸方程。9.3

25、10.412.615.417.519.621.723.425.327.517.124.231.337.943.346.247.550.151.151.3做出散點(diǎn)圖如下:從圖中可以看出這兩個(gè)變量之間的變動(dòng)關(guān)系基本上是一個(gè)遞增的雙曲線,則用雙曲線模型去分析兩個(gè)變量的關(guān)系,計(jì)算表如表7表7 x和y雙曲線回歸方程計(jì)算表序號(hào)19.317.1 0.1080.0580.0120.006288210.424.2 0.0960.0410.0090.003973312.631.3 0.0790.0320.0060.002536415.437.9 0.0650.0260.0040.001713517.543.3 0

26、.0570.0230.0030.00132619.646.2 0.0510.0220.0030.001104721.747.5 0.0460.0210.0020.00097823.450.1 0.0430.020.0020.000853925.351.1 0.040.020.0020.0007731027.551.3 0.0360.0190.0010.000709合計(jì)182.74000.6210.2830.0440.02024將表中數(shù)據(jù)代入以下公式:得:于是有:將,代入后,得:在實(shí)際操作中,一元曲線回歸不用手工來(lái)完成,都是先將數(shù)據(jù)進(jìn)行變換,再按照線性回歸添加趨勢(shì)線的方法來(lái)擬合曲線。2 指數(shù)曲線

27、回歸和拋物線回歸1)指數(shù)曲線:兩邊取對(duì)數(shù):令:,則得到一元線性回歸模型:2)二次拋物線:令,原方程轉(zhuǎn)化為二元線性回歸模型:(4)線性回歸分析的評(píng)價(jià)和檢驗(yàn)通過(guò)以上的學(xué)習(xí),我們可以得出回歸方程,但變量之間的回歸方程畢竟是根據(jù)隨即抽取的樣本來(lái)計(jì)算的一個(gè)“經(jīng)驗(yàn)公式”,根據(jù)回歸模型計(jì)算的值只是一個(gè)“估計(jì)值”,和實(shí)際的值之間存在差異。因而這時(shí)又出現(xiàn)了兩個(gè)問(wèn)題:1)如何去評(píng)價(jià)回歸模型的準(zhǔn)確性?2)如何去檢驗(yàn)回歸模型的可靠性?對(duì)以上兩個(gè)問(wèn)題的說(shuō)明,就是本節(jié)的主要內(nèi)容。線性回歸分析是各類回歸分析的基礎(chǔ),所以本節(jié)以線性回歸分析為例來(lái)進(jìn)行說(shuō)明。1 判定系數(shù)和估計(jì)標(biāo)準(zhǔn)誤差要評(píng)價(jià)回歸模型的精確性,主要是用判定系數(shù)和估計(jì)

28、標(biāo)準(zhǔn)誤差這兩個(gè)統(tǒng)計(jì)量。1)判定系數(shù)回歸方程的準(zhǔn)確性又稱為擬合優(yōu)度,判定系數(shù)是測(cè)定回歸方程擬合優(yōu)度的一個(gè)重要指標(biāo),為此要先引入幾個(gè)概念:總變差:,記作?;貧w變差:,記作。殘余變差:,記作??梢宰C明:-判定系數(shù)的定義為:-結(jié)合公式和公式,可以看出越大,則意味著回歸變差在總變差中占的比重越大,因而越小,即與的差距越小,對(duì)的擬合程度高,也就是說(shuō)該回歸模型的準(zhǔn)確度越強(qiáng)??梢宰C明:01,即越接近于1,回歸模型的“擬合憂度”越好。簡(jiǎn)單線性回歸方程的用式計(jì)算會(huì)非常繁瑣,可以證明若一元線性回歸方程的相關(guān)系數(shù),有這樣的結(jié)論:。對(duì)【例3】 中的數(shù)據(jù)來(lái)計(jì)算其判定系數(shù),其相關(guān)系數(shù)=0.9886,所以。計(jì)算結(jié)果表明,單位

29、成本的總變差中,有97.73%可以由回歸變差來(lái)解釋,這說(shuō)明月產(chǎn)量和單位成本的回歸方程對(duì)真實(shí)的值有很好的擬合效果。多元線性回歸方程的多元線性回歸的不需要手算,在EXCEL的“回歸”結(jié)果中會(huì)給出。2) 估計(jì)標(biāo)準(zhǔn)誤差在前面,用判定系數(shù)對(duì)回歸模型的準(zhǔn)確度作了評(píng)價(jià),而還可以通過(guò)來(lái)衡量回歸模型的準(zhǔn)確度,在SSE的基礎(chǔ)上形成了估計(jì)標(biāo)準(zhǔn)誤差的概念。簡(jiǎn)單線性回歸方程的估計(jì)標(biāo)準(zhǔn)誤差定義:估計(jì)標(biāo)準(zhǔn)誤差:-估計(jì)標(biāo)準(zhǔn)誤差越小說(shuō)明與越接近。將代入式,可得如下計(jì)算公式:-同樣將【例3】中的數(shù)據(jù)(表6)代入式,可得:二元線性回歸方程的定義:-多元線性回歸的估計(jì)標(biāo)準(zhǔn)誤差也不需要手算,在EXCEL的“回歸”結(jié)果中也會(huì)給出。2 線性回歸方程的顯著性檢驗(yàn)1)簡(jiǎn)單線性回歸方程的顯著性檢驗(yàn)對(duì)于變量和,一元直線方程根據(jù)樣本的數(shù)據(jù)計(jì)算,帶有樣本抽取的隨機(jī)性,根據(jù)一個(gè)樣本計(jì)算的結(jié)果是否具有代表性?是否真正描述了在總體中變量和之間的關(guān)系,即和之間的關(guān)系是否真的是直線函數(shù)?這都需要檢驗(yàn),這個(gè)問(wèn)題就稱之為對(duì)的顯著性檢驗(yàn)。根據(jù)樣本,得出變量和之間的回歸直線為:,而總體變量和之間的回歸直線為:。因此,可以認(rèn)為、是、的估計(jì)值,如何檢驗(yàn)估計(jì)的可靠性,主要有兩種辦法:-檢驗(yàn)和-檢驗(yàn)。如果總體變量和之間不存在直線關(guān)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論