《統(tǒng)計(jì)學(xué)原理與實(shí)務(wù)》課件第八章 相關(guān)與回歸分析_第1頁
《統(tǒng)計(jì)學(xué)原理與實(shí)務(wù)》課件第八章 相關(guān)與回歸分析_第2頁
《統(tǒng)計(jì)學(xué)原理與實(shí)務(wù)》課件第八章 相關(guān)與回歸分析_第3頁
《統(tǒng)計(jì)學(xué)原理與實(shí)務(wù)》課件第八章 相關(guān)與回歸分析_第4頁
《統(tǒng)計(jì)學(xué)原理與實(shí)務(wù)》課件第八章 相關(guān)與回歸分析_第5頁
已閱讀5頁,還剩59頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

鍵人均壽命的影響因素分析根據(jù)2010年第6次全國人口普查詳細(xì)匯總資料計(jì)算,我國人口平均預(yù)期壽命達(dá)到74.83歲,比2000年的71.40歲提高3.43歲。按性別來區(qū)分,男性為72.38歲,比2000年提高2.75歲;女性為77.37歲,比2000年提高4.04歲。按地區(qū)來區(qū)分,雖然各省市的人均壽命都比10年前顯著提高了,但各省市之間仍存在明顯的差別,東部省市的人口平均預(yù)期壽命普遍高于中西部地區(qū)。2010年世界人口的平均預(yù)期壽命為69.6歲,其中高收入國家及地區(qū)為79.8歲,中等收入國家及地區(qū)為69.1歲。可見,我國人口平均預(yù)期壽命不僅明顯高于中等收入國家及地區(qū),也大大高于世界平均水平,但比高收入國家及地區(qū)平均水平低5歲左右。導(dǎo)入案例

鍵人均壽命的影響因素分析導(dǎo)入案例分析影響人均壽命的因素根多,不僅有經(jīng)濟(jì)發(fā)展、醫(yī)療衛(wèi)生、文教體育等方面的發(fā)展水平,也有人口結(jié)構(gòu)、自然環(huán)境及其他因素。各地區(qū)的人均壽命究竟與哪些因素或變量密切相關(guān)呢?如何找出導(dǎo)致不同地區(qū)壽命存在顯著差異的主要影響因素?人均壽命與其主要影響因素之間存在什么樣的數(shù)量依存關(guān)系?如何根據(jù)各主要影響因素的變化對人均壽命進(jìn)行預(yù)測呢?通過學(xué)習(xí)本章的內(nèi)容就能找到答案。目錄1第一節(jié)相關(guān)關(guān)系的概念和種類2第二節(jié)相關(guān)關(guān)系的測定3第三節(jié)一元線性回歸分析第一節(jié)相關(guān)關(guān)系的概念和種類1一相關(guān)關(guān)系的概念和種類一、相關(guān)關(guān)系的概念在自然界和社會(huì)中的許多事物或現(xiàn)象,彼此之間都是有機(jī)地相互聯(lián)系、相互制約的。離開周圍的現(xiàn)象和條件而孤立地存在的現(xiàn)象是不存在的。事物或現(xiàn)象的相互聯(lián)系、相互制約,構(gòu)成錯(cuò)綜復(fù)雜的客觀世界,構(gòu)成世界的運(yùn)動(dòng)和發(fā)展。社會(huì)經(jīng)濟(jì)現(xiàn)象也是在錯(cuò)綜復(fù)雜的相互聯(lián)系中存在和發(fā)展的,任何一個(gè)部門的現(xiàn)象都會(huì)影響到其他部門,并受到其他部門的影響和制約。在企業(yè)內(nèi)部的生產(chǎn)和經(jīng)營活動(dòng)也是如此。所有各種現(xiàn)象之間的相互聯(lián)系,都可以通過數(shù)量關(guān)系反映出來。一相關(guān)關(guān)系的概念和種類(一)確定性關(guān)系如果進(jìn)一步加以考察,可以發(fā)現(xiàn),現(xiàn)象之間的相互聯(lián)系一般可以區(qū)分為兩種不同的類型:確定性關(guān)系也稱為函數(shù)關(guān)系。函數(shù)關(guān)系反映著現(xiàn)象之間存在著嚴(yán)格的依存關(guān)系。在這種關(guān)系中,對于某一變量的每一數(shù)值,都有表達(dá)式反映出來。例如:圓的面積對于半徑的依存關(guān)系就是屬于確定性關(guān)系。若是用S表示圓的面積、R表示半徑,則二者的關(guān)系就是:

一相關(guān)關(guān)系的概念和種類這里,圓的面積是隨半徑的大小而變動(dòng)的,當(dāng)R的值一經(jīng)確定,就可以得到S的確定的值。在工業(yè)企業(yè)里,產(chǎn)品的總價(jià)值V與單位產(chǎn)品價(jià)格p,產(chǎn)品總產(chǎn)量q三者之間的關(guān)系可表示為:

若單位產(chǎn)品價(jià)格p保持不變,則產(chǎn)品總價(jià)值V便隨著總產(chǎn)量q的增加或減少而成比例地變動(dòng)。由此可見,確定性關(guān)系反映現(xiàn)象之間具有嚴(yán)格的依存性,當(dāng)一個(gè)變量發(fā)生變動(dòng),另一個(gè)變量便嚴(yán)格地按照一定的規(guī)律作相應(yīng)的變動(dòng)??陀^世界的各種現(xiàn)象之間,特別是在自然界,廣泛存在著函數(shù)關(guān)系。一相關(guān)關(guān)系的概念和種類(二)相關(guān)關(guān)系相關(guān)關(guān)系的主要特征是:某一現(xiàn)象的標(biāo)志值與另外的標(biāo)志值之間存在著一定的依存關(guān)系,但與函數(shù)關(guān)系不同,即它們不是確定的和嚴(yán)格依存的。在這種關(guān)系中,對于某項(xiàng)標(biāo)志的每一個(gè)數(shù)值,可以有另外標(biāo)志的若干個(gè)數(shù)值與之相適應(yīng),表現(xiàn)一定的波動(dòng)性,但又總是圍繞著它們的平均數(shù)并遵循一定的規(guī)律而變動(dòng)。這種依存關(guān)系稱為相關(guān)關(guān)系。例如:每畝耕地的施肥與畝產(chǎn)量之間存在著一定的依存關(guān)系。在一般情況下,施肥量適當(dāng)增加,畝產(chǎn)量便相應(yīng)地提高。但是畝產(chǎn)量的增長與施肥量增長的數(shù)值之間,并不存在嚴(yán)格的依存關(guān)系。因?yàn)閷γ慨€耕地的產(chǎn)量來說,除了施肥量多少這一因素外,還受到種子品質(zhì)、土壤條件、降雨降雪量等其他因素的影響。但即使如此,它們之間仍然存在著一定的規(guī)律性,即在一定范圍內(nèi),隨施肥量的增加,畝產(chǎn)量便相應(yīng)地有所提高。一相關(guān)關(guān)系的概念和種類在各種經(jīng)濟(jì)活動(dòng)和生產(chǎn)過程中,許多經(jīng)濟(jì)的、技術(shù)的因素之間,都存在著這種相關(guān)關(guān)系。分析這種關(guān)系的內(nèi)在聯(lián)系和表現(xiàn)形式以研究和掌握其規(guī)律性,是統(tǒng)計(jì)研究的一項(xiàng)重要任務(wù)。函數(shù)關(guān)系與相關(guān)關(guān)系是兩種不同類型的關(guān)系,但是它們之間并不存在嚴(yán)格的界限。由于在觀察或?qū)嶒?yàn)中出現(xiàn)的誤差,函數(shù)關(guān)系也有時(shí)通過相關(guān)關(guān)系反映出來,而當(dāng)現(xiàn)象之間的內(nèi)在聯(lián)系和規(guī)律性了解得更加清楚的時(shí)候,相關(guān)關(guān)系又可能轉(zhuǎn)化為函數(shù)關(guān)系。在相關(guān)關(guān)系中,通常在相互的現(xiàn)象中間存在著一定的因果關(guān)系,這時(shí)就把其中的起著影響作用的現(xiàn)象具體化,通過一定的標(biāo)志反映出來。這樣的標(biāo)志稱為自變量,把由于受到自變量變動(dòng)的影響而發(fā)生變動(dòng)的某項(xiàng)標(biāo)志,稱為因變量。一相關(guān)關(guān)系的概念和種類二、相關(guān)關(guān)系的種類根據(jù)現(xiàn)象變量之間相關(guān)的形態(tài)和特征,我們可以把相關(guān)關(guān)系分為以下幾種。按照研究變量個(gè)數(shù)分為:單相關(guān)、復(fù)相關(guān)和偏相關(guān)。兩個(gè)變量之間的相互關(guān)系,稱為單相關(guān)。當(dāng)所研究的是一個(gè)變量對兩個(gè)或兩個(gè)以上其他變量的相關(guān)關(guān)系時(shí),稱為復(fù)相關(guān)。當(dāng)我們研究多個(gè)變量之間的關(guān)系時(shí),如果假定其他變量不變,其中兩個(gè)變量的相關(guān)關(guān)系稱為偏相關(guān)。例如,某種商品的需求量與其價(jià)格水平之間的相關(guān)關(guān)系為單相關(guān);某種商品的需求量與其價(jià)格水平、人們收入水平之間的相關(guān)關(guān)系為復(fù)相關(guān);在假定人們收入不變的條件下,某種商品的需求量與其價(jià)格水平之間的關(guān)系為偏相關(guān)。(一)按照所研究變量個(gè)數(shù)的多少劃分一相關(guān)關(guān)系的概念和種類(二)按照相關(guān)關(guān)系的程度劃分按照相關(guān)關(guān)系的程度分為:完全相關(guān)、不完全相關(guān)和不相關(guān)。當(dāng)一個(gè)變量的變化完全由另一個(gè)變量確定時(shí),稱這兩個(gè)變量之間的關(guān)系為完全相關(guān),例如,在價(jià)格不變的條件下,某種商品的銷售收入由其銷售量完全確定,這時(shí),相關(guān)關(guān)系實(shí)際上是函數(shù)關(guān)系,因此,可以說,函數(shù)關(guān)系是相關(guān)關(guān)系的一個(gè)特例。當(dāng)兩個(gè)變量彼此互不影響,相互獨(dú)立,我們稱這兩個(gè)變量之間為不相關(guān)。例如,人的姓氏筆畫和收入之間是不相關(guān)的。介于完全相關(guān)和不相關(guān)之間的兩個(gè)變量之間的關(guān)系,稱為不完全相關(guān)。我們可以用圖8-1表示變量相關(guān)程度之間的這三種關(guān)系。一相關(guān)關(guān)系的概念和種類(a)完全相關(guān)(b)不完成相關(guān)(c)完全不相關(guān)一相關(guān)關(guān)系的概念和種類按照相關(guān)關(guān)系表現(xiàn)的形態(tài)分為:線性相關(guān)和非線性相關(guān)。當(dāng)兩個(gè)變量之間的關(guān)系大致呈現(xiàn)為線性關(guān)系時(shí),稱這兩個(gè)變量之間的關(guān)系為線性相關(guān)。如果兩個(gè)變量之間的關(guān)系大致近似于某種曲線方程的關(guān)系,則這兩個(gè)變量之間的關(guān)系為非線性相關(guān)關(guān)系。我們可以用圖8-2表示出相關(guān)關(guān)系的兩種表現(xiàn)形態(tài)。(三)按照相關(guān)關(guān)系表現(xiàn)的形態(tài)劃分一相關(guān)關(guān)系的概念和種類(a)線性相關(guān)(b)非線性相關(guān)一相關(guān)關(guān)系的概念和種類按相關(guān)變量變化的方向分為:正相關(guān)和負(fù)相關(guān)。當(dāng)一個(gè)變量增加時(shí),相應(yīng)的另一個(gè)變量隨之也增加,我們稱這兩個(gè)變量之間為正相關(guān);反之,當(dāng)一個(gè)變量增加時(shí),相應(yīng)的另一個(gè)變量隨之減少,我們稱這兩個(gè)變量之間為負(fù)相關(guān)。例如空氣中污染物的數(shù)量與人口壽命呈負(fù)相關(guān)關(guān)系,而身高和體重之間為正相關(guān)關(guān)系。我們可以用圖8-3表示出變量之間的方向的變化。(四)按照相關(guān)變量變化的方向劃分一相關(guān)關(guān)系的概念和種類(a)正相關(guān)(b)負(fù)相關(guān)一相關(guān)關(guān)系的概念和種類三、相關(guān)關(guān)系分析的主要內(nèi)容相關(guān)關(guān)系分析的目的在于研究現(xiàn)象之間相互依存關(guān)系的形式及密切程度,并用一定的數(shù)學(xué)形式把這種關(guān)系反映出來,為統(tǒng)計(jì)估算和預(yù)測提供重要的依據(jù)和方法。相關(guān)關(guān)系分析的內(nèi)容具體包括:(1)確定現(xiàn)象之間是否存在相關(guān)關(guān)系及相關(guān)關(guān)系的種類現(xiàn)象之間有無相關(guān)關(guān)系是能否運(yùn)用相關(guān)關(guān)系分析法的前提。確定現(xiàn)象之間有無相關(guān)關(guān)系的方法有兩種:一是作定性判斷,它是從現(xiàn)象之間的本質(zhì)聯(lián)系著手,根據(jù)有關(guān)的理論及實(shí)踐經(jīng)驗(yàn)進(jìn)行分析研究來判斷的;二是繪制相關(guān)圖表,判斷現(xiàn)象之間有無相關(guān)關(guān)系,相關(guān)的方向、形式等。一相關(guān)關(guān)系的概念和種類(2)確定現(xiàn)象之間相關(guān)關(guān)系的密切程度當(dāng)現(xiàn)象之間存在相關(guān)關(guān)系時(shí),就要測定它們之間相關(guān)關(guān)系的密切程度,為進(jìn)一步分析研究問題提供依據(jù)。確定現(xiàn)象之間相關(guān)關(guān)系密切程度的方法是:繪制相關(guān)圖和計(jì)算相關(guān)系數(shù)。相關(guān)圖對相關(guān)關(guān)系的密切程度可以做出粗略的判斷,而相關(guān)系數(shù)能從數(shù)量上對經(jīng)濟(jì)現(xiàn)象之間的相關(guān)程度做出明確的測量。(3)建立現(xiàn)象之間數(shù)量變動(dòng)關(guān)系的數(shù)學(xué)方程式當(dāng)變量之間至少呈現(xiàn)顯著相關(guān)時(shí),可以選擇一個(gè)適當(dāng)?shù)臄?shù)學(xué)模型近似地描述現(xiàn)象之間的變動(dòng)規(guī)律,這里的數(shù)學(xué)模型稱為回歸方程,用以說明自變量發(fā)生變動(dòng)時(shí),因變量平均來說會(huì)發(fā)生多大的變化。一相關(guān)關(guān)系的概念和種類(4)計(jì)算因變量的佑計(jì)標(biāo)準(zhǔn)誤差根據(jù)變量之間變動(dòng)關(guān)系的數(shù)學(xué)方程式可以計(jì)算出各個(gè)因變量的估計(jì)值,這些估計(jì)值與實(shí)際值之間存在一定的差異。差異小,表示估計(jì)值比較可靠,回歸方程的代表性高;差異大,表示估計(jì)值不準(zhǔn)確,回歸方程的代表性低。所以相關(guān)關(guān)系分析還要測定因變量估計(jì)值和實(shí)際值之間差異的大小,用以反映因變量估計(jì)值的準(zhǔn)確程度及回歸方程的代表性高低。這種用來反映因變量估計(jì)值準(zhǔn)確程度的指標(biāo)叫估計(jì)標(biāo)準(zhǔn)誤差。其中,研究現(xiàn)象之間是否存在相關(guān)關(guān)系、相關(guān)關(guān)系的種類及相關(guān)關(guān)系的密切程度的內(nèi)容屬于相關(guān)分析。根據(jù)變量之間變動(dòng)關(guān)系的數(shù)學(xué)方程式計(jì)算各個(gè)因變量的估計(jì)值,并且通過計(jì)算估計(jì)標(biāo)準(zhǔn)誤差判斷估計(jì)值的準(zhǔn)確性、回歸方程的代表性等內(nèi)容屬于回歸分析。第二節(jié)相關(guān)關(guān)系的測定2二相關(guān)關(guān)系的測定一、定性分析(一)相關(guān)表判別現(xiàn)象之間有無相關(guān)關(guān)系有兩種方法,一種是定性分析,另一種是定量分析。相關(guān)表是一種統(tǒng)計(jì)表,它是直接根據(jù)現(xiàn)象之間的原始資料,將一變量的若干變量值按從小到大的順序排列,并將另一變量的值與之對應(yīng)排列形成的統(tǒng)計(jì)表。定性分析是依據(jù)研究者的理論知識、專業(yè)知識和實(shí)踐經(jīng)驗(yàn),對客觀現(xiàn)象之間是否存在相關(guān)關(guān)系以及有何種相關(guān)關(guān)系做出的判斷,并可在定性認(rèn)識的基礎(chǔ)上,編制相關(guān)表、繪制相關(guān)圖,以便直觀地判斷現(xiàn)象之間相關(guān)的方向、形態(tài)及大致的密切程度。二相關(guān)關(guān)系的測定【例8-1】某財(cái)務(wù)軟件公司在全國有許多代理商,為研究它的財(cái)務(wù)軟件產(chǎn)品的廣告投入與銷售額的關(guān)系,統(tǒng)計(jì)人員隨機(jī)選擇310家代理商進(jìn)行觀察,搜集到年廣告投入費(fèi)和月平均銷售額的數(shù)據(jù),并編制成相關(guān)表,如表8-1所示。表8-1廣告費(fèi)與月平均銷售額相關(guān)表單位:萬元年廣告費(fèi)投入月均銷售額12.521.215.323.923.232.926.434.133.542.534.443.239.449.045.252.855.459.460.963.5二相關(guān)關(guān)系的測定從表中可以直觀地看出,隨著廣告投入費(fèi)的增加,銷售量也增加,兩者之間存在一定的正相關(guān)關(guān)系。二相關(guān)關(guān)系的測定(二)相關(guān)圖相關(guān)圖又稱散點(diǎn)圖,它是用直角坐標(biāo)系的x軸代表自變量,y軸代表因變量,將兩個(gè)變量間相對應(yīng)的變量值用坐標(biāo)點(diǎn)的形式描繪出來,用以表明相關(guān)點(diǎn)分布狀況的圖形。根據(jù)表8-1的資料可以繪制相關(guān)圖,如圖8-4所示。從相關(guān)圖可以直觀地看出年廣告費(fèi)投入與月平均銷售額之間相關(guān)密切,且有線性正相關(guān)關(guān)系。圖8-4廣告投入與銷售額的相關(guān)圖二相關(guān)關(guān)系的測定二、定量分析相關(guān)表和相關(guān)圖可反映兩個(gè)變量之間的相互關(guān)系及其相關(guān)方向,但無法確切地表明兩個(gè)變量之間相關(guān)的程度。著名統(tǒng)計(jì)學(xué)家卡爾?皮爾遜(KarlPearson)設(shè)計(jì)了統(tǒng)計(jì)指標(biāo)—相關(guān)系數(shù),它是用以反映變量之間相關(guān)關(guān)系密切程度的統(tǒng)計(jì)指標(biāo)。依據(jù)相關(guān)現(xiàn)象之間的不同特征,其統(tǒng)計(jì)指標(biāo)的名稱也有所不同。例如,將反映兩變量間線性相關(guān)關(guān)系的統(tǒng)計(jì)指標(biāo)稱為相關(guān)系數(shù)(相關(guān)系數(shù)的平方稱為判定系數(shù));將反映兩變量間曲線相關(guān)關(guān)系的統(tǒng)計(jì)指標(biāo)稱為非線性相關(guān)系數(shù)、非線性判定系數(shù);將反映多元線性相關(guān)關(guān)系的統(tǒng)計(jì)指標(biāo)稱為復(fù)相關(guān)系數(shù)。二相關(guān)關(guān)系的測定相關(guān)系數(shù)用的測定方法,直接來源于數(shù)理統(tǒng)計(jì)中相關(guān)系數(shù)的定義。在這里,我們不對公式做理論上的推導(dǎo)和證明,只簡要介紹各公式間的聯(lián)系。相關(guān)系數(shù)的定義公式為式中n表示資料項(xiàng)數(shù);表示x變量的標(biāo)準(zhǔn)差;表示y變量的標(biāo)準(zhǔn)差;表示兩個(gè)變量的協(xié)方差。(8-1)二相關(guān)關(guān)系的測定公式(8-1)的分子分母中,有公因子1/n,同時(shí)化簡得公式(8-2)是通過各個(gè)變量離差乘積的方法來計(jì)算相關(guān)系數(shù)的,也稱為“積差法”相關(guān)系數(shù)公式。由于各變量的離差通常帶有小數(shù),因而“積差法”公式的計(jì)算結(jié)果往往缺乏準(zhǔn)確性。在實(shí)際應(yīng)用中,如果依據(jù)原始資料計(jì)算相關(guān)數(shù),可將公式(8-2)簡化計(jì)算。(8-2)二相關(guān)關(guān)系的測定現(xiàn)將公式(8-2)的分子分母轉(zhuǎn)換為把以上結(jié)果代入公式(8-2),可得(8-3)二相關(guān)關(guān)系的測定相關(guān)系數(shù)的值介于-1與+1之間,即-1≤r≤+1。其具有下面幾種性質(zhì)。(1)當(dāng)r>0時(shí),表示兩變量正相關(guān),當(dāng)r<0時(shí),表示兩變量負(fù)相關(guān)。(2)當(dāng)|r|=1時(shí),表示兩變量為完全線性相關(guān),即為函數(shù)關(guān)系。(3)當(dāng)r

=0時(shí),表示兩變量間無線性相關(guān)關(guān)系。(4)0<|r|<1時(shí),表示兩變量存在一定程度的線性相關(guān)。|r|越接近于1,兩變量間線性關(guān)系越密切;|r|<0.4為低度線性相關(guān);0.4≤|r|<0.7為顯著性相關(guān);0.7≤|r|<1為高度線性相關(guān)。二相關(guān)關(guān)系的測定【例8-2】根據(jù)表8-1的資料,計(jì)算相關(guān)系數(shù)。根據(jù)表8-1相關(guān)數(shù)據(jù),得相應(yīng)表8-2所列數(shù)據(jù)。表8-2相關(guān)系數(shù)計(jì)算表序號廣告投入x

(萬元)月均增銷額

y(萬元)112.521.2156.25449.44265.00215.323.9234.09571.21365.67323.232.9538.241082.41763.28426.434.1696.961162.81900.24533.542.51122.251806.251423.75634.443.21183.361866.241486.08739.449.01552.362401.001930.60845.252.82043.042787.842386.56955.459.43069.163528.363290.761060.963.53708.814032.253867.15合計(jì)346.2422.514304.5219687.8116679.09二相關(guān)關(guān)系的測定將表8-2有關(guān)數(shù)據(jù)代入相關(guān)系數(shù)公式得:相關(guān)系數(shù)為0.9942,說明廣告投入費(fèi)與月平均銷售額之間有高度的線性正相關(guān)關(guān)系。解二相關(guān)關(guān)系的測定這里需要指出的是,相關(guān)系數(shù)有一個(gè)明顯的缺點(diǎn),即它接近于1的程度與數(shù)據(jù)組數(shù)n相關(guān),這容易給人一種假象。因?yàn)楫?dāng)n較小時(shí),相關(guān)系數(shù)的波動(dòng)較大,對有些樣本相關(guān)系數(shù)的絕對值易接近于1;當(dāng)n較大時(shí),相關(guān)系數(shù)的絕對值容易偏小。特別是當(dāng)n=2時(shí),相關(guān)系數(shù)的絕對值總為1。因此在樣本容量n較小時(shí),我們僅憑相關(guān)系數(shù)較大就判定變量x與y之間有密切的線性關(guān)系是不妥當(dāng)?shù)?。例如,在研究我國深滬兩股市資產(chǎn)負(fù)債率與每股收益率之間的相關(guān)關(guān)系時(shí)發(fā)現(xiàn)1999年資產(chǎn)負(fù)債率前40名的上市公司,兩者的相關(guān)系數(shù)為r

=-0.6139;資產(chǎn)負(fù)債率后20名的上市公司,兩者的相關(guān)系數(shù)r

=0.1072而對于滬、深全部上市公司(基金除外)的結(jié)果卻是,r

=-0.5509,r

=-0.4361,根據(jù)三級劃分方法,兩變量為顯著性相關(guān)。這也說明僅憑的計(jì)算值大小判斷相關(guān)程度有一定的缺陷。第三節(jié)一元線性回歸分析3三一元線性回歸分析一、回歸分析的含義相關(guān)分析中的相關(guān)系數(shù)指標(biāo),可以從數(shù)量上說明在直線相關(guān)的條件下,變量之間相關(guān)關(guān)系的方向和密切程度,但它不能反映一個(gè)變量發(fā)生一定數(shù)量的變化,另一個(gè)變量會(huì)發(fā)生多少變化。為解決這一問題,就必須采用回歸分析方法。三一元線性回歸分析回歸分析通過一個(gè)變量或一些變量的變化解釋另一變量的變化。其主要內(nèi)容和步驟是:首先,根據(jù)理論和對問題的分析判斷,將變量分為自變量和因變量;其次,設(shè)法找出合適的數(shù)學(xué)方程式(即回歸模型)描述變量間的關(guān)系;由于涉及的變量具有不確定性,接著還要對回歸模型進(jìn)行統(tǒng)計(jì)檢驗(yàn);統(tǒng)計(jì)檢驗(yàn)通過后,最后是利用回歸模型,根據(jù)自變量的數(shù)值去估計(jì)因變量的數(shù)值。三一元線性回歸分析回歸分析可以從不同的角度劃分為不同的種類。按照自變量的個(gè)數(shù)多少可分為一元回歸分析和多元回歸分析,只有一個(gè)自變量的回歸分析叫一元回歸分析,有兩個(gè)或兩個(gè)以上自變量的回歸分析叫多元回歸分析;按照回歸的形式可分為直線回歸分析和曲線回歸分析。這里我們只討論一元直線回歸分析。三一元線性回歸分析二、相關(guān)分析和回歸分析的關(guān)系(一)相關(guān)分析和回歸分析的聯(lián)系相關(guān)分析是回歸分析的基礎(chǔ)和前提,回歸分析則是相關(guān)分析的深入和繼續(xù)。相關(guān)分析需要依靠回歸分析來表現(xiàn)變量之間數(shù)量相關(guān)的具體形式,而回歸分析則需要依靠相關(guān)分析來表現(xiàn)變量之間的相關(guān)程度。只有當(dāng)變量之間存在高度相關(guān)時(shí),進(jìn)行回歸分析尋求其相關(guān)的具體形式才有意義。如果在對變量之間是否相關(guān)以及相關(guān)方向和程度做出正確判斷之前,就進(jìn)行回歸分析,很容易造成“虛假回歸”。與此同時(shí),相關(guān)分析的具體形式,也無法從一個(gè)變量的變化來推測另一個(gè)變量的變化情況,因此,在具體應(yīng)用過程中,只有把相關(guān)分析和回歸分析結(jié)合起來,才能達(dá)到研究和分析的目的。三一元線性回歸分析(二)相關(guān)分析和回歸分析的區(qū)別(1)在相關(guān)分析中涉及的變量不存在自變量和因變量的劃分問題,變量之間的關(guān)系是對等的;而在回歸分析中,則必須根據(jù)研究對象的性質(zhì)和研究分析的目的,對變量進(jìn)行自變量和因變量的劃分。因此,在回歸分析中,變量之間的關(guān)系是不對等的。(2)在相關(guān)分析中所有的變量都必須是隨機(jī)變量;而在回歸分析中,自變量是給定的,因變量才是隨機(jī)的。(3)相關(guān)分析主要是通過一個(gè)指標(biāo)即相關(guān)系數(shù)來反映變量之間相關(guān)密切程度的大小,由于變量之間是對等的,因此相關(guān)系數(shù)是唯一確定的;而在回歸分析中,對于互為因果關(guān)系的兩個(gè)變量(如人的身高與體重),則有可能存在多個(gè)回歸方程。三一元線性回歸分析三、一元線性回歸方程一元線性回歸方程(regressionequation),亦稱直線方程,是分析一個(gè)自變量x與一個(gè)因變量y之間線性關(guān)系的數(shù)學(xué)方程。方程的基本形式為(8-4)三一元線性回歸分析

a和b稱為回歸方程中的兩個(gè)待定參數(shù),是需要根據(jù)相關(guān)表中的x與y的實(shí)際資料求解的數(shù)值,a和b的值確定了直線的位置,而它們一旦確定,這條直線就被唯一確定了。但用于描述這n組數(shù)據(jù)的直線有許多條,究竟用哪條直線代表兩個(gè)變量之間的關(guān)系,則需要有一個(gè)原則。即希望這條直線離各離散點(diǎn)最近,具體表述為對于相關(guān)表中的x,它對應(yīng)的實(shí)際數(shù)值y同這條直線上的理論值yc的離差平方和為最小值。用公式表示為(8-5)三一元線性回歸分析設(shè),則Q是兩個(gè)待定參數(shù)a和b的函數(shù)。要使Q為最小值,就要用對二元函數(shù)求極值的原理,求Q關(guān)于a和b的偏導(dǎo)數(shù),并令其等于零。經(jīng)過整理得出直線回歸方程中求解參數(shù)a和b的標(biāo)準(zhǔn)方程組:(8-6)解此方程租,得出求解a、b的計(jì)算公式(8-7)根據(jù)這一思想確定未知參數(shù)的方法,稱為最小平方法(leastsquaresanalysis)。三一元線性回歸分析【例8-3】表8-3給出的2013年國內(nèi)10個(gè)品牌啤酒廣告費(fèi)用及銷售量為例,運(yùn)用最小平方法,求解回歸方程數(shù),并建立一元線性回歸模型。正文表8-32013年國內(nèi)10個(gè)品牌啤酒廣告費(fèi)用及銷售量表廣告費(fèi)用(萬元)120

68.710.1

76.6

8.7

1

21.5

1.45.31.7銷售量(萬箱)

36.320.7

15.913.2

8.17.1

5.64.4

4.44.3三一元線性回歸分析設(shè)所建立的一元線性回歸方程為:yc=a+bx,其中,廣告費(fèi)用為x,銷售量為y。根據(jù)表8-3資料可得表8-4的結(jié)果。解表8-4直線回歸模型計(jì)算編號廣告費(fèi)用

萬元銷售量

/萬箱112036.3144004356268.720.74719.691422.093100.115.910020.011591.59476.613.25867.561011.1258.78.175.6970.47617.117.1721.55.6462.25120.481.44.41.966.1695.34.428.0923.32101.74.32.897.31合計(jì)40512035579.148615.56三一元線性回歸分析根據(jù)最小平方法確定參數(shù)的公式,可計(jì)算出參數(shù)a為b將a和b代入回歸方程,則三一元線性回歸分析回歸直線確定后,將各品牌啤酒的廣告費(fèi)用依次代入方程式,即可求得相應(yīng)的銷售量理論值。根據(jù)所建立的直線回歸方程,也可以進(jìn)行外推預(yù)測。例如,廣告費(fèi)用為110萬元,在其他條件相對穩(wěn)定時(shí),可以預(yù)測其銷售量為(萬箱)三一元線性回歸分析在這里,下列幾個(gè)問題應(yīng)引起注意。(1)回歸方程中,a=4.07,是銷售量的起點(diǎn)值,即廣告費(fèi)用x=0時(shí),yc的值。(2)b稱為回歸系數(shù)(regressioncoefficient)。b

=0.1958,表示廣告費(fèi)用每增加一個(gè)單位((1萬元),啤酒銷售量平均增加0.1958個(gè)單位(萬箱)。(3)由于b的計(jì)算公式中的分子與相關(guān)系數(shù)r計(jì)算公式中的分子完全一樣,且b與r為正值還是負(fù)值,其符號均取決于這個(gè)分子,所以,回歸系數(shù)b與相關(guān)系數(shù)r的符號必然一致。即通過回歸系數(shù)b的符號可判斷兩變量相關(guān)的方向。(4)回歸系數(shù)b與相關(guān)系數(shù)r之間還存在密切的數(shù)量關(guān)系,兩者可相互推算。根據(jù)相關(guān)和回歸系數(shù),可知,亦即。三一元線性回歸分析(5)另外,一個(gè)直線回歸方程只能做一種推算,不能反向進(jìn)行推算。也就是說,只能以自變量x推算因變量y,而不能以因變量y推算自變量x。如上例所配合的直線回歸方程,只能在給定廣告費(fèi)用數(shù)值時(shí)推算銷售量,不能以給定的銷售量數(shù)值反過來推算廣告費(fèi)用。若根據(jù)研究需要,想了解當(dāng)銷售量一定時(shí),相對應(yīng)的廣告費(fèi)用數(shù)值應(yīng)達(dá)到多少,則應(yīng)建立x對y的直線回歸方程,即xc=c+dy。式中c與d的意義與公式y(tǒng)c=a+bx中a、b意義相同,均為待定參數(shù),只是x與y的位置互換而已。同樣采用最小平方法,確定出參數(shù)c與d公式為(8-8)三一元線性回歸分析【例8-4】根據(jù)表8-3給出的2013年國內(nèi)10個(gè)品牌啤酒廣告費(fèi)用及銷售量,預(yù)測若銷售量為30萬箱時(shí),相對應(yīng)的廣告費(fèi)用數(shù)值。若要預(yù)測銷售量為30萬箱時(shí),相對應(yīng)的廣告費(fèi)用數(shù)值,需建立以銷售量為自變量,廣告費(fèi)用為因變量的直線回歸模型,然后將自變量數(shù)值代入方程,得到因變量的估計(jì)值,見表8-5。解表8-32013年國內(nèi)10個(gè)品牌啤酒廣告費(fèi)用及銷售量表廣告費(fèi)用(萬元)120

68.710.1

76.6

8.7

1

21.5

1.45.31.7銷售量(萬箱)

36.320.7

15.913.2

8.17.1

5.64.4

4.44.3三一元線性回歸分析表8-5直線回歸模型計(jì)算編號廣告費(fèi)用

萬元銷售量

/萬元112036.31317.694356268.720.7428.491422.093100.115.9252.811591.09476.613.2174.241011.1258.78.165.6170.47617.150.417.1721.55.631.36120.481.44.419.366.1695.34.419.3623.32101.74.318.497.31合計(jì)4051202377.828615.06三一元線性回歸分析根據(jù)最小平方法確定參數(shù)的公式,可計(jì)算出參數(shù)c與d為

將c和d代入回歸方程,則,顯然,此時(shí)的回歸方程與原來的回歸方程是兩條不同的回歸直線,具有不同的斜率和意義,只能給定自變量來推算因變量。當(dāng)銷售量為30萬箱時(shí),相對應(yīng)的廣告費(fèi)用理論數(shù)值為:(萬元)三一元線性回歸分析四、估計(jì)標(biāo)準(zhǔn)誤差根據(jù)直線回歸方程,按給定的自變量值可以推算出相應(yīng)的因變量值,即得出估計(jì)值yc。而估計(jì)值yc與其對應(yīng)的實(shí)際觀察值y之間可能一致,也可能不一致,它們之間存在一系列離差,有的是正差,有的是負(fù)差。這些離差稱為統(tǒng)計(jì)估計(jì)誤差。這種估計(jì)誤差的大小,可以說明推算結(jié)果的準(zhǔn)確程度,即回歸方程估計(jì)的準(zhǔn)確程度。同時(shí),統(tǒng)計(jì)上,一般是通過計(jì)算“估計(jì)標(biāo)準(zhǔn)誤差”指標(biāo)來反映回歸方程的代表性的。若誤差大,說明回歸方程的代表性低;若誤差小,則說明回歸方程的代表性高。三一元線性回歸分析估計(jì)標(biāo)準(zhǔn)誤差(standarderroroftheestimate)是指因變量實(shí)際值與理論值離差的平均值,其計(jì)算原理與能夠反映平均數(shù)代表性大小的標(biāo)準(zhǔn)差基本相同,定義公式為

(8-9)式中:Syx為估計(jì)標(biāo)準(zhǔn)誤差,其下標(biāo)yx代表y依x而回歸的方程;yx為根據(jù)回歸方程推算出來的因變量的估計(jì)值;y為因變量的實(shí)際值;n為數(shù)據(jù)的項(xiàng)數(shù)。利用定義式計(jì)算估計(jì)標(biāo)準(zhǔn)誤差,需要計(jì)算所有的估計(jì)值,計(jì)算量大,且計(jì)算比較麻煩。將定義式中yc

用a+bx替代,經(jīng)過化簡,可得如下的計(jì)算公式:(8-10)三一元線性回歸分析【例8-5】現(xiàn)仍以表8-3的有關(guān)資料為例,計(jì)算估計(jì)標(biāo)準(zhǔn)誤差。根據(jù)表8-3和表8-5中的數(shù)據(jù)資料,可得如下計(jì)算結(jié)果:

根據(jù)前面計(jì)算有a=4.07,b=0.1958,由n=10,有

結(jié)果表明,國內(nèi)10個(gè)品牌啤酒銷售量的估計(jì)理論值與實(shí)際值的平均誤差約為5.03萬箱。由此可見,只有把回歸估計(jì)值與估計(jì)標(biāo)準(zhǔn)誤差結(jié)合起來分析運(yùn)用,才更具有意義。解三一元線性回歸分析估計(jì)標(biāo)準(zhǔn)誤差Syx與相關(guān)系數(shù)r在數(shù)量上也存在著密切的關(guān)系,可看成從另一個(gè)角度說明相關(guān)分析與回歸分析之間的聯(lián)系。兩者之間的關(guān)系可由下列公式表述:(8-11)(8-12)從相互聯(lián)系的兩個(gè)算式中,可以看出r與Syx二的變化方向是相反的。當(dāng)r大時(shí),Syx越小,這時(shí)相關(guān)密切程度越高,回歸直線的代表性越大;當(dāng)r越小時(shí),Syx越大,這時(shí)相關(guān)密切程度越低,回歸直線的代表性越?。籸

±1,Syx

=0,這時(shí)現(xiàn)象間完全相關(guān),各相關(guān)點(diǎn)均落在回歸直線上,此時(shí)對x的任何變化,y總有一個(gè)相應(yīng)的值與之對應(yīng);r=0時(shí),Syx取得最大值,這時(shí)現(xiàn)象間不存在直線關(guān)系。三一元線性回歸分析五、判定系數(shù)在回歸分析中,除了可用估計(jì)標(biāo)準(zhǔn)誤差反映回歸方程估計(jì)的準(zhǔn)確程度及回歸直線代表性的大小外,還有一個(gè)廣泛應(yīng)用的指標(biāo),叫做判定系數(shù)(coefficientofdetermination),它通常用r2表示,用來測定回歸方程擬合數(shù)據(jù)的好壞程度。判定系數(shù)r2就是相關(guān)系數(shù)r的平方。當(dāng)然,判定系數(shù)有它的基本公式:(8-13)式中:分母是總離差平方和,分子叫做回歸平方和。

r2越大,回歸平方和在總離差平方和中所占的比重就越大,表明總離差中由回歸方程解釋的部分也越大,線性回歸效果越好。三一元線性回歸分析判定系數(shù)的范圍在0~1。如果r2為1,則表明兩個(gè)變量之間有非常好的相關(guān)性,y的估計(jì)值與實(shí)際值之間沒有差別,此時(shí),估計(jì)標(biāo)準(zhǔn)誤差為0;如果r2為0,則回歸方程不能用來預(yù)測y值,此時(shí),估計(jì)標(biāo)準(zhǔn)誤差最大。例如,根據(jù)表8-3給出的2013年國內(nèi)10個(gè)品牌啤酒廣告費(fèi)用及銷售量,前面已計(jì)算出r=0.8856,則判定系數(shù)r2

=0.7843,這說明,總離差平方和中有78.43%可以用回歸方程解釋。三一元線性回歸分析六、應(yīng)用相關(guān)分析和回歸分析應(yīng)注意的問題(1)在定性分析的基礎(chǔ)上進(jìn)行定量分析相關(guān)關(guān)系的有無、自變量和因

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論