選修12回歸上課_第1頁
選修12回歸上課_第2頁
選修12回歸上課_第3頁
選修12回歸上課_第4頁
選修12回歸上課_第5頁
已閱讀5頁,還剩43頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、 在現(xiàn)實生活中,有些量與量之間有著明確的函數(shù)關(guān)系在現(xiàn)實生活中,有些量與量之間有著明確的函數(shù)關(guān)系. 但是但是,在現(xiàn)實生活中還有一些量不滿足函數(shù)關(guān)系在現(xiàn)實生活中還有一些量不滿足函數(shù)關(guān)系.eg:eg:兩個變量之間的相關(guān)關(guān)系兩個變量之間的相關(guān)關(guān)系 兩個變量間存在著某種關(guān)系,帶有不確定兩個變量間存在著某種關(guān)系,帶有不確定性性( (隨機性),不能用函數(shù)關(guān)系精確地表達出隨機性),不能用函數(shù)關(guān)系精確地表達出來,我們說這兩個變量具有來,我們說這兩個變量具有相關(guān)關(guān)系相關(guān)關(guān)系. .相關(guān)關(guān)系相關(guān)關(guān)系當(dāng)自變量取值一定當(dāng)自變量取值一定,因變量的因變量的取值帶有一定的隨機性(取值帶有一定的隨機性( 非確定性關(guān)系非確定性關(guān)系

2、)函數(shù)關(guān)系函數(shù)關(guān)系-函數(shù)關(guān)系指的是自變量和因函數(shù)關(guān)系指的是自變量和因變量之間的關(guān)系是相互唯一確定的變量之間的關(guān)系是相互唯一確定的.注:相關(guān)關(guān)系和函數(shù)關(guān)系的異同點注:相關(guān)關(guān)系和函數(shù)關(guān)系的異同點相同點:兩者均是指兩個變量間的關(guān)系相同點:兩者均是指兩個變量間的關(guān)系不同點:函數(shù)關(guān)系是一種確定關(guān)系,不同點:函數(shù)關(guān)系是一種確定關(guān)系, 相關(guān)關(guān)系是一種非確定的關(guān)系。相關(guān)關(guān)系是一種非確定的關(guān)系。對相關(guān)關(guān)系的理解對相關(guān)關(guān)系的理解下列兩變量中具有相關(guān)關(guān)系的是(下列兩變量中具有相關(guān)關(guān)系的是( )A角度和它的余弦值角度和它的余弦值 B正方形的邊長和面積正方形的邊長和面積C成人的身高和視力成人的身高和視力 D 身高和體重

3、身高和體重D練練 習(xí)習(xí) 那么,該如何判斷兩個變量是否具有相關(guān)那么,該如何判斷兩個變量是否具有相關(guān)關(guān)系呢?關(guān)系呢?思考思考:說明:說明:3).3).如果所有的樣本點都落在某一如果所有的樣本點都落在某一直線附近直線附近,變量之間就有變量之間就有線性相關(guān)關(guān)系線性相關(guān)關(guān)系 . .1).1).如果所有的樣本點都落在某一如果所有的樣本點都落在某一函數(shù)曲線上函數(shù)曲線上, ,就用該函數(shù)來描就用該函數(shù)來描述變量之間的關(guān)系,即變量之間具有述變量之間的關(guān)系,即變量之間具有函數(shù)關(guān)系函數(shù)關(guān)系2).2).如果所有的樣本點都落在某一如果所有的樣本點都落在某一函數(shù)曲線附近函數(shù)曲線附近, ,變量之間就有變量之間就有相關(guān)關(guān)系相關(guān)

4、關(guān)系。散點圖散點圖:用來判斷兩個變量是否具有相關(guān)關(guān)系用來判斷兩個變量是否具有相關(guān)關(guān)系.線性相關(guān)線性相關(guān)非線性相關(guān)非線性相關(guān)不相關(guān)不相關(guān)回歸直線如何求回歸方程呢? 1、設(shè)方程 y=bx+a 2、計算(1) 畫出散點圖;(2) 求線形回歸方程;(3) 如果某天的氣溫是 -3OC , 請預(yù)測這天小賣部可能會買出熱茶多少杯.從散點圖可以看出兩個變量是線性相關(guān)的.解:(1)畫散點圖列表 某種產(chǎn)品的廣告費支出x與銷售額y(單位:百萬元)之間有如下對應(yīng)數(shù)據(jù):x24568y3040605070(1) 畫出散點圖;(2) 求線形回歸方程;(3) 預(yù)測當(dāng)廣告費支出為7(百萬元)時的銷售額.小小 結(jié)結(jié) 求樣本數(shù)據(jù)的

5、線性回歸方程,可按求樣本數(shù)據(jù)的線性回歸方程,可按下列步驟進行:下列步驟進行:第一步,計算平均數(shù)第一步,計算平均數(shù) , xy1niiix y21niix第二步,求和第二步,求和 , 1122211()(),()nniii iiinniiiixx yyxynx ybay bxxxxnx 第三步,計算第三步,計算 第四步,寫出回歸方程第四步,寫出回歸方程 abxy 2.2.回歸方程被樣本數(shù)據(jù)惟一確定,各樣本點回歸方程被樣本數(shù)據(jù)惟一確定,各樣本點大致分布在回歸直線附近大致分布在回歸直線附近. .對同一個總體,對同一個總體,不同的樣本數(shù)據(jù)對應(yīng)不同的回歸直線,所以不同的樣本數(shù)據(jù)對應(yīng)不同的回歸直線,所以回歸

6、直線也具有隨機性回歸直線也具有隨機性. . 3.3.對于任意一組樣本數(shù)據(jù),利用上述公式都對于任意一組樣本數(shù)據(jù),利用上述公式都可以求得可以求得“回歸方程回歸方程”,如果這組數(shù)據(jù)不具,如果這組數(shù)據(jù)不具有線性相關(guān)關(guān)系,即不存在回歸直線,那么有線性相關(guān)關(guān)系,即不存在回歸直線,那么所得的所得的“回歸方程回歸方程”是沒有實際意義的是沒有實際意義的. .因此,因此,對一組樣本數(shù)據(jù),應(yīng)先作散點圖,在具有線對一組樣本數(shù)據(jù),應(yīng)先作散點圖,在具有線性相關(guān)關(guān)系的前提下再求回歸方程性相關(guān)關(guān)系的前提下再求回歸方程. . 問題:對于問題:對于具有相關(guān)關(guān)系具有相關(guān)關(guān)系的兩個變量用什么方法來刻畫的兩個變量用什么方法來刻畫它們之

7、間的關(guān)系呢?它們之間的關(guān)系呢?回歸分析 是對具有相關(guān)關(guān)系的兩個變量進行統(tǒng)計分析的一種常用方法其步驟: 作散點圖 求回歸直線方程 利用方程進行預(yù)報. 用統(tǒng)計方法解決問題的基本步驟:用統(tǒng)計方法解決問題的基本步驟:提出問題收集數(shù)據(jù)分析整理數(shù)據(jù)進行預(yù)測或決策例例1 1 從某大學(xué)中隨機選取8名女大學(xué)生,其身高和體重數(shù)據(jù)如下表所示: 編號 12345678身高/cm 165165157170175165155170體重/kg4857505464614359求根據(jù)女大學(xué)生的身高預(yù)報體重的回歸方程,并預(yù)報一名身高為172cm的女大學(xué)生的體重. 一、教學(xué)例題一、教學(xué)例題解解: (1) 作出散點圖作出散點圖例例1

8、 1 從某大學(xué)中隨機選取8名女大學(xué)生,其身高和體重數(shù)據(jù)如下表所示: 編號 12345678身高/cm 165165157170175165155170體重/kg4857505464614359求根據(jù)女大學(xué)生的身高預(yù)報體重的回歸方程,并預(yù)報一名身高為172cm的女大學(xué)生的體重. 解解: (2) 求出線性回歸方程求出線性回歸方程例例1 1 從某大學(xué)中隨機選取8名女大學(xué)生,其身高和體重數(shù)據(jù)如下表所示: 編號 12345678身高/cm 165165157170175165155170體重/kg4857505464614359求根據(jù)女大學(xué)生的身高預(yù)報體重的回歸方程,并預(yù)報一名身高為172cm的女大學(xué)生

9、的體重. i116548272257920216557272259045315750246497850417054289009180517564306251120061656127225100657155432402566658170592890010030合計132243621877471955ixiy2ixiiyx25.16511iinxnx5 .5411iinyny849. 02211xnxyxnyxbiiniiin712.85xbya于是得到線性回歸方程于是得到線性回歸方程712.85849. 0 xy 稱為樣本點的中心),(yx最小二乘估計下的線性回歸方程:最小二乘估計下的線性回歸方

10、程:ybxa解解: (3)利用線性回歸方程進行預(yù)報利用線性回歸方程進行預(yù)報例例1 1 從某大學(xué)中隨機選取8名女大學(xué)生,其身高和體重數(shù)據(jù)如下表所示: 編號 12345678身高/cm 165165157170175165155170體重/kg4857505464614359求根據(jù)女大學(xué)生的身高預(yù)報體重的回歸方程,并預(yù)報一名身高為172cm的女大學(xué)生的體重. 712.85849. 0 xy 所以,對于身高為172cm的女大學(xué)生,由線性回歸方程可以預(yù)報其體重為)(316.60712.85172849. 0kgy問題問題:身高為172cm的女大學(xué)生的體重一定是60.316kg嗎?如果不是,你能解釋一下

11、原因嗎?不一定, 60.316kg是身高為172cm的女大學(xué)的平均體重的估計值,而不一定是某位身高為172cm的女大學(xué)生的真實體重,但一般可以認(rèn)為她的體重在60.316kg 左右。解解: (1) 作出散點圖作出散點圖例例1 1 從某大學(xué)中隨機選取8名女大學(xué)生,其身高和體重數(shù)據(jù)如下表所示: 編號 12345678身高/cm 165165157170175165155170體重/kg4857505464614359求根據(jù)女大學(xué)生的身高預(yù)報體重的回歸方程,并預(yù)報一名身高為172cm的女大學(xué)生的體重. eabxyabxy線性回歸模型與一次函數(shù)的不同之處是增加了隨機誤差e 因變量y的值由自變量x和隨機誤

12、差e共同確定.其中隨機誤差e中包含體重不能由身高的線性函數(shù)解釋的所有部分. 當(dāng)隨機誤差e恒等于0時,線性回歸模型就變成一次函數(shù)模型. 因此,一次函數(shù)模型是線性回歸模型的特殊形式,線性回歸模型是一次一次函數(shù)模型是線性回歸模型的特殊形式,線性回歸模型是一次函數(shù)模型的一般形式函數(shù)模型的一般形式. 解釋變量x(身高)隨機誤差e預(yù)報變量y(體重)列表y2i40057611561444250040964096列表y2i40057611561444250040964096列表y2i40057611561444250040964096 忽略了某些因素的影響忽略了某些因素的影響 影響因變量y的因素不只自變量x,

13、可能還包括其他許多因素(例如:在描述身高和體重關(guān)系的模型中,體重不僅受身高的影響,還會受遺傳基因、飲食習(xí)慣、生長環(huán)境等其他因素影響),它們的影響都體現(xiàn)在e中. 觀測誤差觀測誤差 由于測量工具等原因,導(dǎo)致因變量y的觀測值產(chǎn)生誤差(例如:一個人的體重是確定的數(shù),不同的秤可能會得到不同的觀測值,與真值之間存在誤差),這樣的誤差也包含在在e中. 用線性回歸模型近似真實模型所引起的誤差用線性回歸模型近似真實模型所引起的誤差 (真實模型是客觀存在的,通常我們并不知道真實模型到底是什么.例如:沒有人知道身高和體重之間的真正關(guān)系是什么,現(xiàn)在只能利用線性回歸方程來近似這種關(guān)系),這種由模型近似所引起的誤差也包含

14、在在e中.思考:思考:在總效應(yīng)在總效應(yīng)(總偏差平方和總偏差平方和)中有多少來自中有多少來自解釋變量,有多少來自隨機變量呢?解釋變量,有多少來自隨機變量呢?數(shù)據(jù)點和它在回歸直線上相應(yīng)位置的差異數(shù)據(jù)點和它在回歸直線上相應(yīng)位置的差異 是隨機誤差的效應(yīng)是隨機誤差的效應(yīng). iiiyye)(iiyy 記作 叫殘差 在研究兩個變量間的關(guān)系時,首先要根在研究兩個變量間的關(guān)系時,首先要根據(jù)散點圖來粗略的判斷他們是否線性相關(guān),據(jù)散點圖來粗略的判斷他們是否線性相關(guān),是否可以用線性回歸模型來擬合數(shù)據(jù),然后是否可以用線性回歸模型來擬合數(shù)據(jù),然后可以通過殘差可以通過殘差來判斷模型擬合的效果,判斷原始數(shù)據(jù)中是來判斷模型擬合

15、的效果,判斷原始數(shù)據(jù)中是否存在可疑數(shù)據(jù),把這個工作稱為否存在可疑數(shù)據(jù),把這個工作稱為殘差分析殘差分析.neee,.,21殘差分析殘差分析 殘差分析是回歸診斷的一種方法殘差分析是回歸診斷的一種方法. 最簡單的殘差分析是通過觀測殘差圖,最簡單的殘差分析是通過觀測殘差圖,以發(fā)現(xiàn)觀測數(shù)據(jù)中可能出現(xiàn)的錯誤以及所選以發(fā)現(xiàn)觀測數(shù)據(jù)中可能出現(xiàn)的錯誤以及所選用的回歸模型是否恰當(dāng)用的回歸模型是否恰當(dāng). 即殘差= 觀測值 預(yù)測值. 殘差圖的縱坐標(biāo)為殘差,橫坐標(biāo)通??梢允怯^測樣本的編號、自變量、或因變量的預(yù)測值,殘差圖是一種散點圖. 殘差圖中殘差點比較均勻地落在水平的帶狀區(qū)域中,說明選用的回歸模型比較合適.這樣的帶狀

16、區(qū)域的寬度越窄,說明模型擬合精度越高,回歸方程的預(yù)報精度越高. 根據(jù)殘差圖,觀察是否存在殘差特別大的點,即遠(yuǎn)離橫坐標(biāo)軸較遠(yuǎn)的點,如果存在遠(yuǎn)離橫坐標(biāo)軸的點,就要研究它出現(xiàn)的原因,如是數(shù)據(jù)采集和錄入中發(fā)生了錯誤,如果有錯誤,改正后重新利用線性回歸模型擬合數(shù)據(jù).),.,2 , 1(niyyeiii例如:下表給出了女大學(xué)生身高和體重的原始數(shù)據(jù)以例如:下表給出了女大學(xué)生身高和體重的原始數(shù)據(jù)以及相應(yīng)的殘差數(shù)據(jù)及相應(yīng)的殘差數(shù)據(jù)編編 號號1 12 23 34 45 56 67 78 8身高身高/cm/cm165165165165 157 157 170 170 175 175 165 165155155170

17、170體重體重/kg/kg484857575050 54 54 64 646161 43 43 59 59殘殘 差差-6.733-6.7332.6272.6272.4192.419-4.618-4.6181.1371.1376.6276.627-2.883-2.8830.3820.382),.,2 , 1(niyyeiii即殘差= 觀測值 預(yù)測值.8編號殘差123456789106420-2-4-6-8預(yù)報時需要注意的問題:建立回歸模型的基本步驟:建立回歸模型的基本步驟:1.確定研究對象,明確哪個變量是解釋變量,確定研究對象,明確哪個變量是解釋變量,哪個變量是哪個變量是預(yù)預(yù)報變量報變量;2.畫

18、出散點圖畫出散點圖,觀察變量之間的關(guān)系觀察變量之間的關(guān)系(如是否存在線性關(guān)系等如是否存在線性關(guān)系等);3.由經(jīng)驗確定回歸方程的類型由經(jīng)驗確定回歸方程的類型4.按一定規(guī)則估計回歸方程中的參數(shù)按一定規(guī)則估計回歸方程中的參數(shù)5.得出結(jié)果分析殘差圖是否有得出結(jié)果分析殘差圖是否有異常異常,若存在異常,則檢查數(shù),若存在異常,則檢查數(shù)據(jù)是否有誤據(jù)是否有誤,或模型是否合適等或模型是否合適等.選變量 畫散點圖 選模型 估計參數(shù) 分析與預(yù)測由例1知,預(yù)報變量(體重)的值受解釋變量(身高)和隨機誤差的影響. 假設(shè)身高和隨機誤差的不同不會影響體重,那么所有人的體重將相同. 在體重不受任何變量影響的假設(shè)下,設(shè)8名女大學(xué)

19、生的體重都是他們的平均體重54.5kg.編編 號號1 12 23 34 45 56 67 78 8身高身高/cm/cm165165165165 157 157 170 170 175 175 165 165 155 155 170 170體重體重/kg/kg54.554.554.554.554.554.554.554.554.554.554.554.554.554.554.554.5020406080150155160165170175180身高/cm體重/kg散點圖并非如此020406080150155160165170175180身高/cm體重/kg61kg解釋變量解釋變量+ +隨機誤差的

20、組合效應(yīng)隨機誤差的組合效應(yīng)思考:我們用什么來刻畫回歸的效果呢?思考:我們用什么來刻畫回歸的效果呢?相關(guān)指數(shù)相關(guān)指數(shù)R2=1-21)(niyyiniiiyy12)( 顯然,顯然,R2的值越大,說明殘差平方和越小,也的值越大,說明殘差平方和越小,也就是說模型的擬合效果越好就是說模型的擬合效果越好. 在線性回歸模型中在線性回歸模型中,R2表示解釋變量對預(yù)報變量表示解釋變量對預(yù)報變量變化的貢獻率變化的貢獻率.R2越接近越接近1,表示回歸的效果越好,表示回歸的效果越好(因因為為R2 越接近越接近1,表示解釋變量和預(yù)報變量之間的線性表示解釋變量和預(yù)報變量之間的線性相關(guān)性越強相關(guān)性越強).來 源平方和比例解釋變量225.63964隨機誤差128.36136總 計354100 如果某組數(shù)據(jù)可能采取幾種不同回歸方程進行如果某組數(shù)據(jù)可能采取幾種不同回歸方程進行回歸分析,則可以通過比較回歸分析,則可以通過比較R R2 2的值來作出選擇,即的值來作出選擇,即選擇選擇R R2 2大的值的模型作為這組數(shù)據(jù)的模型大的值的模型作為這組數(shù)據(jù)的模型. .分析:分析:既可分別求出兩

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論