




已閱讀5頁,還剩34頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
回歸分析的基本思想及其初步應(yīng)用 2020 1 16 鄭平正制作 3 1回歸分析的基本思想及其初步應(yīng)用 一 高二數(shù)學(xué)選修2 3 兩個(gè)變量的關(guān)系 不相關(guān) 相關(guān)關(guān)系 函數(shù)關(guān)系 線性相關(guān) 非線性相關(guān) 現(xiàn)實(shí)生活中兩個(gè)變量間的關(guān)系 相關(guān)關(guān)系 對(duì)于兩個(gè)變量 當(dāng)自變量取值一定時(shí) 因變量的取值帶有一定隨機(jī)性的兩個(gè)變量之間的關(guān)系 函數(shù)關(guān)系中的兩個(gè)變量間是一種確定性關(guān)系相關(guān)關(guān)系是一種非確定性關(guān)系 函數(shù)關(guān)系是一種理想的關(guān)系模型相關(guān)關(guān)系在現(xiàn)實(shí)生活中大量存在 是更一般的情況 表示有一組具體的數(shù)據(jù)估計(jì)得到的截距和斜率 a b y表示真實(shí)值 表示由真實(shí)值a b所確定的值 表示由估計(jì)值所確定的值 這種方法稱為回歸分析 兩個(gè)具有線性相關(guān)關(guān)系的變量的統(tǒng)計(jì)分析 1 畫散點(diǎn)圖 2 求回歸直線方程 最小二乘法 3 利用回歸直線方程進(jìn)行預(yù)報(bào) 回歸分析是對(duì)具有相關(guān)關(guān)系的兩個(gè)變量進(jìn)行統(tǒng)計(jì)分析的一種常用方法 為樣本點(diǎn)的中心 樣本點(diǎn) 2008年5月 中共中央國務(wù)院關(guān)于加強(qiáng)青少年體育 增強(qiáng)青少年體質(zhì)的意見指出城市超重和肥胖青少年的比例明顯增加 身高標(biāo)準(zhǔn)體重 該指標(biāo)對(duì)于學(xué)生形成正確的身體形態(tài)觀具有非常直觀的教育作用 身高標(biāo)準(zhǔn)體重 從何而來 我們?cè)鯓尤パ芯?創(chuàng)設(shè)情境 某大學(xué)中隨機(jī)選取8名女大學(xué)生 其身高和體重?cái)?shù)據(jù)如下表所示 求根據(jù)女大學(xué)生的身高預(yù)報(bào)體重的回歸方程 并預(yù)報(bào)一名身高為172cm的女大學(xué)生的體重 解 取身高為解釋變量x 體重為預(yù)報(bào)變量y 作散點(diǎn)圖 樣本點(diǎn)呈條狀分布 身高和體重有較好的線性相關(guān)關(guān)系 因此可以用回歸方程來近似的刻畫它們之間的關(guān)系 由 得 故所求回歸方程為 因此 對(duì)于身高172cm的女大學(xué)生 由回歸方程可以預(yù)報(bào)其體重為 是斜率的估計(jì)值 說明身高x每增加1個(gè)單位時(shí) 體重y就增加0 849個(gè)單位 這表明體重與身高具有正的線性相關(guān)關(guān)系 如何描述它們之間線性相關(guān)關(guān)系的強(qiáng)弱 相關(guān)系數(shù) 相關(guān)系數(shù)的性質(zhì) 1 r 1 2 r 越接近于1 相關(guān)程度越強(qiáng) r 越接近于0 相關(guān)程度越弱 注 b與r同號(hào)問題 達(dá)到怎樣程度 x y線性相關(guān)呢 它們的相關(guān)程度怎樣呢 r 相關(guān)系數(shù) 正相關(guān) 負(fù)相關(guān) 通常 r 1 0 75 負(fù)相關(guān)很強(qiáng) r 0 75 1 正相關(guān)很強(qiáng) r 0 75 0 3 負(fù)相關(guān)一般 r 0 3 0 75 正相關(guān)一般 r 0 25 0 25 相關(guān)性較弱 對(duì)r進(jìn)行顯著性檢驗(yàn) r 某大學(xué)中隨機(jī)選取8名女大學(xué)生 其身高和體重?cái)?shù)據(jù)如下表所示 求根據(jù)女大學(xué)生的身高預(yù)報(bào)體重的回歸方程 并預(yù)報(bào)一名身高為172cm的女大學(xué)生的體重 故所求回歸方程為 r 0 798 表明體重與身高有很強(qiáng)的線性相關(guān)性 從而說明我們建立的回歸模型是有意義的 認(rèn)為她的平均體重的估計(jì)值是60 316kg 因?yàn)樗械臉颖军c(diǎn)不共線 所以線性函數(shù)模型只能近似地刻畫身高和體重之間的關(guān)系 即 體重不僅受身高的影響 還受其他因素的影響 把這種影響的結(jié)果用e來表示 從而把線性函數(shù)模型修改為線性回歸模型 y bx a e 其中 e包含體重不能由身高的線性函數(shù)解釋的所有部分 線性回歸模型 其中a和b為模型的未知參數(shù) e是y與之間的誤差 通常e為隨機(jī)變量 稱為隨機(jī)誤差 均值E e 0 方差D e 2 0 線性回歸模型的完整表達(dá)式為 線性回歸模型適用范圍比一次函數(shù)的適用范圍大得多 當(dāng)隨機(jī)誤差e恒等于0時(shí) 線性回歸模型就變成一次函數(shù)模型 即 一次函數(shù)模型是線性回歸模型的特殊形式 線性回歸模型是一次函數(shù)模型的一般形式 隨機(jī)誤差是引起預(yù)報(bào)值與真實(shí)值y之間的誤差的原因之一 其大小取決于隨機(jī)誤差的方差 和為截距和斜率的估計(jì)值 它們與真實(shí)值a和b之間存在誤差是引起預(yù)報(bào)值與真實(shí)值y之間的誤差的另一個(gè)原因 隨機(jī)誤差e的主要來源 1 用線性回歸模型近似真實(shí)模型 真實(shí)模型是客觀存在的 但我們并不知道到底是什么 所引起的誤差 可能存在非線性的函數(shù)能更好的描述y與x之間的關(guān)系 但我們現(xiàn)在卻用線性函數(shù)來表述這種關(guān)系 結(jié)果就產(chǎn)生誤差 這種由于模型近似所引起的誤差包含在e中 2 忽略了某些因素的影響 影響變量y的因素不止變量x一個(gè) 可能還有其他因素 但通常它們每一個(gè)因素的影響可能都比較小 它們的影響都體現(xiàn)在e中 3 觀測誤差 由于測量工具等原因 得到的y的觀測值一般是有誤差的 這樣的誤差也包含在e中 以上三項(xiàng)誤差越小 則回歸模型的擬合效果越好 在線性回歸模型中 e是用預(yù)報(bào)真實(shí)值y的誤差 它是一個(gè)不可觀測的量 那么該怎樣研究隨機(jī)誤差 如何衡量預(yù)報(bào)的精度 由于隨機(jī)誤差e的均值為0 故采用方差來衡量隨機(jī)誤差的大小 假設(shè)1 身高和隨機(jī)誤差的不同不會(huì)對(duì)體重產(chǎn)生任何影響 怎樣研究隨機(jī)誤差 例如 編號(hào)為6的女大學(xué)生的體重并沒有落在水平直線上 她的體重為61kg 解釋變量 身高 和隨機(jī)誤差共同把這名學(xué)生的體重從54 5kg 推 到了61kg 相差6 5kg 所以6 5kg是解釋變量和隨機(jī)誤差的組合效應(yīng) 用這種方法可以對(duì)所有預(yù)報(bào)變量計(jì)算組合效應(yīng) 假設(shè)2 隨機(jī)誤差對(duì)體重沒有影響 也就是說 體重僅受身高的影響 那么散點(diǎn)圖中所有的點(diǎn)將完全落在回歸直線上 怎樣研究隨機(jī)誤差 例如 編號(hào)為6的女大學(xué)生 計(jì)算隨機(jī)誤差的效應(yīng) 殘差 為 隨機(jī)誤差 e的估計(jì)量 樣本點(diǎn) 相應(yīng)的隨機(jī)誤差為 隨機(jī)誤差的估計(jì)值為 稱為相應(yīng)于點(diǎn)的殘差 稱為殘差平方和 殘差分析 在研究兩個(gè)變量間的關(guān)系時(shí) 首先要根據(jù)散點(diǎn)圖來粗略判斷它們是否是線性相關(guān) 是否可以用線性回歸模型來擬合數(shù)據(jù) 然后 可以通過殘差來判斷模型擬合的效果 判斷原始數(shù)據(jù)中是否存在可疑數(shù)據(jù) 這方面的分析工作稱為殘差分析 以縱坐標(biāo)為殘差 橫坐標(biāo)為編號(hào) 作出圖形 殘差圖 來分析殘差特性 問題 如何發(fā)現(xiàn)數(shù)據(jù)中的錯(cuò)誤 1 我們可以通過分析發(fā)現(xiàn)原始數(shù)據(jù)中的可疑數(shù)據(jù) 判斷建立模型的擬合效果 殘差圖的制作和作用 制作 坐標(biāo)縱軸為殘差變量 橫軸可以有不同的選擇 橫軸為編號(hào) 可以考察殘差與編號(hào)次序之間的關(guān)系 常用于調(diào)查數(shù)據(jù)錯(cuò)誤 橫軸為解釋變量 可以考察殘差與解釋變量的關(guān)系 常用于研究模型是否有改進(jìn)的余地 作用 判斷模型的適用性若模型選擇的正確 殘差圖中的點(diǎn)應(yīng)該分布在以橫軸為中心的帶形區(qū)域 問題 如何發(fā)現(xiàn)數(shù)據(jù)中的錯(cuò)誤 殘差圖的制作及作用 坐標(biāo)縱軸為殘差變量 橫軸可以有不同的選擇 若模型選擇的正確 殘差圖中的點(diǎn)應(yīng)該分布在以橫軸為心的帶形區(qū)域 對(duì)于遠(yuǎn)離橫軸的點(diǎn) 要特別注意 身高與體重殘差圖 幾點(diǎn)說明 第一個(gè)樣本點(diǎn)和第6個(gè)樣本點(diǎn)的殘差比較大 需要確認(rèn)在采集過程中是否有人為的錯(cuò)誤 如果數(shù)據(jù)采集有錯(cuò)誤 就予以糾正 然后再重新利用線性回歸模型擬合數(shù)據(jù) 如果數(shù)據(jù)采集沒有錯(cuò)誤 則需要尋找其他的原因 另外 殘差點(diǎn)比較均勻地落在水平的帶狀區(qū)域中 說明選用的模型計(jì)較合適 這樣的帶狀區(qū)域的寬度越窄 說明模型擬合精度越高 回歸方程的預(yù)報(bào)精度越高 如何衡量預(yù)報(bào)的精度 顯然 R2的值越大 說明殘差平方和越小 也就是說模型擬合效果越好 如果某組數(shù)據(jù)可能采取幾種不同回歸方程進(jìn)行回歸分析 則可以通過比較R2的值來做出選擇 即選取R2較大的模型作為這組數(shù)據(jù)的模型 從上中可以看出 解析變量對(duì)總效應(yīng)約貢獻(xiàn)了64 即R20 64 可以敘述為 身高解析了64 的體重變化 而隨機(jī)誤差貢獻(xiàn)了剩余的36 所以 身高對(duì)體重的效應(yīng)比隨機(jī)誤差的效應(yīng)大得多 問題 如何衡量隨機(jī)模型的擬合效果 下面我們用相關(guān)指數(shù)分析一下例1 問題 結(jié)合例1思考 用回歸方程預(yù)報(bào)體重時(shí)應(yīng)注意什么 用身高預(yù)報(bào)體重時(shí)應(yīng)注意的問題 1 回歸方程只適用于我們所研究的樣本的總體 2 我們建立的回歸方程一般都有時(shí)間性 3 樣本取值的范圍會(huì)影響回歸方程的適用范圍 4 不能期望回歸方程得到的預(yù)報(bào)值就是預(yù)報(bào)變量的精確值 涉及到統(tǒng)計(jì)的一些思想 模型適用的總體 模型的時(shí)間性 樣本的取值范圍對(duì)模型的影響 模型預(yù)報(bào)結(jié)果的正確理解 一般地 建立回歸模型的基本步驟為 1 確定研究對(duì)象 明確哪個(gè)變量是解釋變量 哪個(gè)變量是預(yù)報(bào)變量 2 畫出確定好的解釋變量和預(yù)報(bào)變量的散點(diǎn)圖 觀察它們之間的關(guān)系 如是否存在線性關(guān)系等 3 由經(jīng)驗(yàn)確定回歸方程的類型 如我們觀察到數(shù)據(jù)呈線性關(guān)系 則選用線性回歸方程y bx a 4 按一定規(guī)則估計(jì)回歸方程中的參數(shù) 如最小二乘法 5 得出結(jié)果后分析殘差圖是否有異常 個(gè)別數(shù)據(jù)對(duì)應(yīng)殘差過大 或殘差呈現(xiàn)不隨機(jī)的規(guī)律性 等等 若存在異常 則檢查數(shù)據(jù)是否有誤 或模型是否合適等 問題 歸納建立回歸模型的基本步驟 問題六 若兩個(gè)變量呈現(xiàn)非線性關(guān)系 如何解決 分析例2 例2一只紅鈴蟲的產(chǎn)卵數(shù)y和溫度x有關(guān) 現(xiàn)收集了7組觀測數(shù)據(jù)列于表中 1 試建立產(chǎn)卵數(shù)y與溫度x之間的回歸方程 并預(yù)測溫度為28oC時(shí)產(chǎn)卵數(shù)目 2 你所建立的模型中溫度在多大程度上解釋了產(chǎn)卵數(shù)的變化 方法一 一元函數(shù)模型 問題六 若兩個(gè)變量呈現(xiàn)非線性關(guān)系 如何解決 分析例2 問題六 若兩個(gè)變量呈現(xiàn)非線性關(guān)系 如何解決 分析例2 問題六 若兩個(gè)變量呈現(xiàn)非線性關(guān)系 如何解決 分析例2 產(chǎn)卵數(shù) 氣溫 變換y bx a非線性關(guān)系線性關(guān)系 對(duì)數(shù) 問題六 若兩個(gè)變量呈現(xiàn)非線性關(guān)系 如何解決 分析例2 方法三 指數(shù)函數(shù)模型 問題六 若兩個(gè)變量呈現(xiàn)非線性關(guān)系 如何解決 分析例2 最好的模型是哪個(gè) 顯然 指數(shù)函數(shù)模型最好 問題六 若兩個(gè)變量呈現(xiàn)非線性關(guān)系 如何解決 分析例2 課堂知識(shí)延伸 我們知道 刑警如果能在案發(fā)現(xiàn)場提取到罪犯的腳印 即將獲得一條重要的破案線索 其原因之一是人類的腳掌長度和身高存在著相關(guān)關(guān)系 可以根據(jù)一個(gè)人的腳掌長度來來預(yù)測他的身高 我們還知道 在統(tǒng)計(jì)史上 很早就有人收集過人們的身高 前臂長度等數(shù)據(jù) 試圖尋找這些數(shù)據(jù)之間的規(guī)律 在上述兩個(gè)小故事的啟發(fā)下 全班同學(xué)請(qǐng)分成一些小組 每組4 6名同學(xué) 在老師的指導(dǎo)下 開展一次數(shù)學(xué)建?;顒?dòng) 來親自體
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 浙江長征職業(yè)技術(shù)學(xué)院《事故調(diào)查處理與事故分析》2023-2024學(xué)年第二學(xué)期期末試卷
- 黃山職業(yè)技術(shù)學(xué)院《動(dòng)畫表演與運(yùn)動(dòng)規(guī)律》2023-2024學(xué)年第二學(xué)期期末試卷
- 阜陽幼兒師范高等??茖W(xué)?!豆こ探?jīng)濟(jì)與可行性分析》2023-2024學(xué)年第二學(xué)期期末試卷
- 漳州科技職業(yè)學(xué)院《高級(jí)會(huì)計(jì)》2023-2024學(xué)年第二學(xué)期期末試卷
- XX橫向課題研究與成果轉(zhuǎn)化
- 新疆司法警官職業(yè)學(xué)院《智能時(shí)代下的創(chuàng)新創(chuàng)業(yè)實(shí)踐》2023-2024學(xué)年第二學(xué)期期末試卷
- 邯鄲應(yīng)用技術(shù)職業(yè)學(xué)院《兒童文學(xué)選》2023-2024學(xué)年第二學(xué)期期末試卷
- 廣東工商職業(yè)技術(shù)大學(xué)《地理學(xué)與生活》2023-2024學(xué)年第二學(xué)期期末試卷
- 自我介紹大班課件
- 西寧城市職業(yè)技術(shù)學(xué)院《中醫(yī)經(jīng)典金匱要略》2023-2024學(xué)年第二學(xué)期期末試卷
- 鯉科魚類八亞科檢索表(新)
- 監(jiān)理通知回復(fù)單01
- 冀教英語六年級(jí)下冊(cè)作文范文
- 10x2000對(duì)稱式三輥卷板機(jī)設(shè)計(jì)機(jī)械畢業(yè)設(shè)計(jì)論文
- 講課資料全文解讀《公務(wù)員回避規(guī)定》PPT課件
- GB∕T 8334-2022 液化石油氣鋼瓶定期檢驗(yàn)與評(píng)定
- 律師事務(wù)所勞動(dòng)合同范本2(律師助理和實(shí)習(xí)律師參照適用
- 可以復(fù)制、輸入文字的田字格WORD模板++(共11頁)
- 施工單位動(dòng)火申請(qǐng)書內(nèi)容
- 歐洲家族性腺瘤性息肉病處理指南
- 不銹鋼板墻面施工工藝
評(píng)論
0/150
提交評(píng)論