直線回歸和相關(guān).ppt_第1頁(yè)
直線回歸和相關(guān).ppt_第2頁(yè)
直線回歸和相關(guān).ppt_第3頁(yè)
直線回歸和相關(guān).ppt_第4頁(yè)
直線回歸和相關(guān).ppt_第5頁(yè)
已閱讀5頁(yè),還剩76頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第九章直線回歸和相關(guān) 第一節(jié)回歸和相關(guān)的概念第二節(jié)直線回歸第三節(jié)直線相關(guān)第四節(jié)直線回歸與相關(guān)的內(nèi)在關(guān)系和應(yīng)用要點(diǎn) 引言前幾章多為研究處理效應(yīng)的差異性 著在生產(chǎn)和科研中是常見(jiàn)的問(wèn)題 而生產(chǎn)和科研另一重要的問(wèn)題則是因素間或因素與性狀間或變量間相互影響的關(guān)系或規(guī)律 這就是這一章研究的內(nèi)容 例如 研究溫度高低和作物發(fā)育進(jìn)度快慢的關(guān)系 就有溫度和發(fā)育進(jìn)度兩個(gè)變數(shù) 研究每畝穗數(shù) 每穗粒數(shù)和每畝產(chǎn)量的關(guān)系 就有穗數(shù) 粒數(shù)和產(chǎn)量三個(gè)變數(shù) 第一節(jié)回歸和相關(guān)的概念 1 函數(shù)關(guān)系與統(tǒng)計(jì)關(guān)系2 自變數(shù)與依變數(shù)3 回歸分析和相關(guān)分析4 兩個(gè)變數(shù)資料的散點(diǎn)圖 函數(shù)關(guān)系有精確的數(shù)學(xué)表達(dá)式 確定性的關(guān)系 直線回歸分析一元回歸分析變量間的關(guān)系因果關(guān)系曲線回歸分析 回歸分析 多元回歸分析多元線性回歸分析統(tǒng)計(jì)關(guān)系多元非線性回歸分析 非確定性的關(guān)系 簡(jiǎn)單相關(guān)分析 直線相關(guān)分析相關(guān)關(guān)系復(fù)相關(guān)分析 相關(guān)分析 多元相關(guān)分析偏相關(guān)分析 1 函數(shù)關(guān)系是一種確定性的關(guān)系 即一個(gè)變量取一定值 另一個(gè)變量比有確定的值與之相對(duì)應(yīng) 例如圓面積與半徑的關(guān)系為 其不包含誤差的干擾 2 統(tǒng)計(jì)關(guān)系是一種非確定性的關(guān)系 即一個(gè)變量取一可能值 另一個(gè)變量雖然沒(méi)有確定的值與之相對(duì)應(yīng) 但是有一條件分布與之相對(duì)應(yīng) 例如 施肥量與作物的產(chǎn)量的關(guān)系 兩類變數(shù)受誤差的干擾表現(xiàn)為統(tǒng)計(jì)關(guān)系 一 函數(shù)關(guān)系與統(tǒng)計(jì)關(guān)系 因果關(guān)系 兩個(gè)變數(shù)間的關(guān)系若具有原因和反應(yīng) 結(jié)果 的性質(zhì) 則稱原因變數(shù)為自變數(shù) 反應(yīng)變數(shù)為依變數(shù) 二 自變數(shù)與依變數(shù) 1 相關(guān)關(guān)系 模型 設(shè)有兩個(gè)隨機(jī)變量X和Y 對(duì)于任一隨機(jī)變量 X 的每一個(gè)可能值 另一個(gè)隨機(jī)變量 Y 都有一條件分布與之相對(duì)應(yīng) 2 相關(guān)分析 計(jì)算相關(guān)系數(shù)為基礎(chǔ)的統(tǒng)計(jì)分析方法 計(jì)算表示Y和X相關(guān)密切程度的統(tǒng)計(jì)數(shù) 并測(cè)驗(yàn)其顯著性 三 回歸分析和相關(guān)分析 3 這個(gè)統(tǒng)計(jì)數(shù)在兩個(gè)變數(shù)為直線相關(guān)時(shí)稱為相關(guān)系數(shù) 即表示變量間相關(guān)性質(zhì)與程度的統(tǒng)計(jì)數(shù) correlationcoefficient 記為r 在多元相關(guān)時(shí)稱為復(fù)相關(guān)系數(shù) multiplecorrelation 記作Ry 12 m 在兩個(gè)變數(shù)曲線相關(guān)時(shí)稱為相關(guān)指數(shù) correlationindex 記作R 為Y依X而變化的回歸方程 regressionequationofYonX 4 回歸關(guān)系 模型 設(shè)有兩個(gè)變量X和Y 對(duì)于固定變量 X 的每一個(gè)可能值 另一個(gè)隨機(jī)變量 Y 都有一條件分布與之相對(duì)應(yīng) 5 回歸分析 計(jì)算回歸方程為基礎(chǔ)的統(tǒng)計(jì)分析方法 6 相關(guān)分析的主要任務(wù) 1 計(jì)算表示變量間相關(guān)性質(zhì)與程度的統(tǒng)計(jì)數(shù) 相關(guān)系數(shù) 2 對(duì)相關(guān)系數(shù)進(jìn)行顯著性測(cè)驗(yàn) 7 回歸分析的主要任務(wù) 1 建立y依x而變化的回歸方程 它是對(duì)應(yīng)每一個(gè)x的隨機(jī)變量Y分布均值 的點(diǎn)估計(jì)值 2 2 計(jì)算回歸估計(jì)的標(biāo)準(zhǔn)誤差 它是對(duì)y分布變異度 的度量值 并提供回歸關(guān)系顯著性測(cè)驗(yàn)的依據(jù) 一般規(guī)則 當(dāng)兩個(gè)變數(shù)中Y含有試驗(yàn)誤差而X不含試驗(yàn)誤差時(shí)著重進(jìn)行回歸分析 而當(dāng)Y和X均含有試驗(yàn)誤差時(shí)則著重去進(jìn)行相關(guān)分析 四 兩個(gè)變數(shù)資料的散點(diǎn)圖1 對(duì)具有統(tǒng)計(jì)關(guān)系的兩個(gè)變數(shù)的資料進(jìn)行初步考察的簡(jiǎn)便而有效的方法 是將這兩個(gè)變數(shù)的n對(duì)觀察值 x1 y1 x2 y2 xn yn 分別以坐標(biāo)點(diǎn)的形式標(biāo)記于同一直角坐標(biāo)平面上 獲得散點(diǎn)圖 scatterdiagram 2 根據(jù)散點(diǎn)圖可初步判定雙變數(shù)X和Y間的關(guān)系 包括 X和Y相關(guān)的性質(zhì) 正或負(fù) 和密切程度 X和Y的關(guān)系是直線型的還是非直線型的 是否有一些特殊的點(diǎn)表示著其他因素的干擾等 3 例如圖9 1是水稻方面的3幅散點(diǎn)圖 圖9 1A是單株的生物產(chǎn)量 X 和稻谷產(chǎn)量 Y 圖9 1B是每平方米土地上的總穎花數(shù) X 和結(jié)實(shí)率 Y 圖9 1C是最高葉面積指數(shù) X 和每畝稻谷產(chǎn)量 Y 從中可以看出 圖9 1A和9 1B都是直線型的 但方向 相反 前者Y隨X的增大而增大 表示兩個(gè)變數(shù)的關(guān)系是正的 后者Y隨X的增大而減小 表示關(guān)系是負(fù)的 圖9 1A的各個(gè)點(diǎn)幾乎都落在一直線上 圖9 1B則較為分散 因此 圖9 1A中X和Y相關(guān)的密切程度必高于圖9 1B 圖9 1C中X和Y的關(guān)系是非直線型的 大約在x 6 7 時(shí) Y隨X的增大而增大 而當(dāng)x 6 7 時(shí) Y隨X的增大而減小 x 生物產(chǎn)量 g 水稻單株生物產(chǎn)量與稻谷產(chǎn)量的散點(diǎn)圖 x 每m2穎花數(shù) 萬(wàn) 水稻每m2穎花數(shù)和結(jié)實(shí)率的散點(diǎn)圖 x 最高葉面積指數(shù)水稻最高葉面積指數(shù)和畝產(chǎn)量的散點(diǎn)圖 五 相關(guān)回歸分析時(shí)需注意的問(wèn)題 1 變量間可能存在某種聯(lián)系 不能把毫無(wú)任何關(guān)系的變量放在一起進(jìn)行分析 2 成對(duì)或成組對(duì)數(shù)應(yīng)盡可能多 n 43 一般先進(jìn)行相關(guān)分析 相關(guān)顯著后再進(jìn)行回歸分析 因?yàn)橄嚓P(guān)模型中含有回歸的信息 回歸模型中也含有相關(guān)的信息 第二節(jié)直線回歸 一 直線回歸方程二 直線回歸的假設(shè)測(cè)驗(yàn) 一 直線回歸方程 一 直線回歸方程式 9 1 a回歸截距 regressionintercept a是x 0時(shí)Y的值 即回歸直線在y軸上的截距 b回歸系數(shù) regressioncoefficient b是x每增加一個(gè)單位數(shù)時(shí) Y平均地將要增加 b 0時(shí) 或減少 b 0時(shí) 的單位數(shù) 建立回歸方程或求a和b的原理是 最小二乘法或最小平方法原理 即使各個(gè)實(shí)際值y與回歸直線對(duì)應(yīng)值之差平方之和最小 其幾何圖形上的含義 各個(gè)實(shí)際觀測(cè)點(diǎn)與回歸直線上點(diǎn)之距離和為最小 即誤差為最小 時(shí) 分別對(duì)a和b求偏導(dǎo)數(shù)并令其為0 可得正規(guī)方程組 normalequations 得 9 2 9 3 9 4 將 9 2 代入 9 1 可得 y a 0 b0 b 0 a0 x直線回歸方程的圖象由 9 4 可看到 當(dāng)x以離均差 x 為單位時(shí) 回歸直線的位置僅決定于和b 當(dāng)將坐標(biāo)軸平移到以 為原點(diǎn)時(shí) 回歸直線的走向僅決定于b 所以一般又稱b為回歸斜率 regressionslope 二 直線回歸方程的計(jì)算 例9 1 一些夏季害蟲(chóng)盛發(fā)期的早遲和春季溫度高低有關(guān) 江蘇武進(jìn)連續(xù)9年測(cè)定3月下旬至4月中旬旬平均溫度累積值 x 旬 度 和水稻一代三化螟盛發(fā)期 y 以5月10日為0 的關(guān)系 得結(jié)果于表9 1 試計(jì)算其直線回歸方程 首先由表9 1算得回歸分析所必須的6個(gè)一級(jí)數(shù)據(jù) 即由觀察值直接算得的數(shù)據(jù) 表9 1累積溫和一代三化螟盛發(fā)期的關(guān)系 n 9 35 5 34 1 44 2 333 7 35 52 34 12 44 22 12517 49 12 16 1 70 122 162 1 2 794 35 5 12 34 1 16 44 2 1 2436 4 然后 由一級(jí)數(shù)據(jù)算得5個(gè)二級(jí)數(shù)據(jù) SSx 12517 49 333 7 2 9 144 6356 794 70 2 9 249 5556 2436 4 333 7 70 9 159 0444 333 7 9 37 0778 70 9 7 7778 SSy SP 因而有 b 159 0444 144 6356 1 0996 天 旬 度 a 7 7778 1 0996 37 0778 48 5485 天 故得表9 1資料的回歸方程為 上述方程中回歸系數(shù)和回歸截距的意義為 回歸系數(shù)b為當(dāng)3月下旬至4月中旬的積溫 x 每提高1旬 度時(shí) 一代三化螟的盛發(fā)期平均將提早1 1天 回歸截距a為若積溫為0 則一代三化螟的盛發(fā)期將在6月27 28日 x 0時(shí) Y 48 5 因y是以5月10日為0 故48 5為6月27 28日 由于x變數(shù)的實(shí)測(cè)區(qū)間為 31 7 44 2 當(dāng)x 31 7或 44 2時(shí) y的變化是否還符合 48 5 1 1x的規(guī)律 觀察數(shù)據(jù)中未曾得到任何信息 所以本例的回歸截距不具有實(shí)際的生物學(xué)意義 48 5485 1 0996x 所以 在應(yīng)用 48 5 1 1x于預(yù)測(cè)時(shí) 需限定x的區(qū)間為 31 7 44 2 如要在x 31 7或 44 2的區(qū)間外延 則必須有新的依據(jù) 三 直線回歸方程的圖示直線回歸圖包括回歸直線的圖象和散點(diǎn)圖 它可以醒目地表示x和y的數(shù)量關(guān)系 方法 制作直線回歸圖時(shí) 首先以x為橫坐標(biāo) 以y為縱坐標(biāo)構(gòu)建直角坐標(biāo)系 縱 橫坐標(biāo)皆需標(biāo)明名稱和單位 然后取x坐標(biāo)上的一個(gè)小值x1代入回歸方程得 取一個(gè)大值x2代入回歸方程得 連接坐標(biāo)點(diǎn) x1 和 x2 即成一條回歸直線 如例9 1資料 以x1 31 7代入回歸方程得 13 69 以x2 44 2代入回歸方程得 0 05 在圖9 3上確定 31 7 13 69 和 44 2 0 05 這兩個(gè)點(diǎn) 再連接之 即為 48 5485 1 0996x的直線圖象 注意 此直線必通過(guò)點(diǎn) 它可作為制圖是否正確的核對(duì) 最后 將實(shí)測(cè)的各對(duì) xi yi 數(shù)值也用坐標(biāo)點(diǎn)標(biāo)于圖9 3上 x 3月下旬至4月中旬旬平均溫度累積值圖旬平均溫度累積值和一代三化螟盛發(fā)期的關(guān)系 圖9 3的回歸直線是9個(gè)觀察坐標(biāo)點(diǎn)的代表 它不僅表示了例9 1資料的基本趨勢(shì) 也便于預(yù)測(cè) 如某年3月下旬至4月中旬的積溫為40旬 度 則在圖9 3上可查到一代三化螟盛發(fā)期的點(diǎn)估計(jì)值在5月14 15日 這和將x 40代入原方程得到 48 5485 1 0996 40 4 6是一致的 因?yàn)榛貧w直線是綜合9年結(jié)果而得出的一般趨勢(shì) 所以其代表性比任何一個(gè)實(shí)際的坐標(biāo)點(diǎn)都好 當(dāng)然 這種估計(jì)仍然有隨機(jī)誤差 下文再作討論 四 直線回歸的估計(jì)標(biāo)準(zhǔn)誤Q就是誤差的一種度量 稱為離回歸平方和 sumofsquaresduetodeviationfromregression 或剩余平方和 建立回歸方程時(shí)用了a和b兩個(gè)統(tǒng)計(jì)數(shù) 故Q的自由度 得 SSy b SP SSy b2 SSx y2 a y b xy 9 5 9 6A 9 6B 9 6C 9 6D 例9 2試計(jì)算由表9 1資料獲得的回歸方程的估計(jì)標(biāo)準(zhǔn)誤 為說(shuō)明計(jì)算過(guò)程 這里先用繁法 將表9 1的x和y值抄于表9 2的第一和第二列 然后將第一列中的各x值代入回歸方程 48 5485 1 0996x 算得對(duì)應(yīng)于各x的估計(jì)值 第三列 再算出的值于第四列 并得 注意 如果沒(méi)有計(jì)算誤差 y 一定等于0 最后將各的值記于第五列 并得Q 74 6670 因此 據(jù) 9 5 有 表9 2表9 1資料求 y 的繁算程序 以上計(jì)算較為煩瑣 如改用 9 6 則由例9 1算好的有關(guān)數(shù)據(jù)可直接得到 據(jù)9 6A 249 5556 1 0996 159 0444 74 6704 據(jù)9 6B 249 5556 1 09962 144 6356 74 6738 據(jù)9 6C 794 48 5485 70 1 0996 2436 4 74 6704 據(jù)9 6D 上述計(jì)算以 9 6A 算得的Q值較為準(zhǔn)確 而由 9 6B 9 6C 和 9 6D 算得的Q值都有少許計(jì)算誤差 這是由于后三式中包含有三級(jí)數(shù)據(jù)b和a 所以一般由 9 6A 計(jì)算Q 上述計(jì)算表明 當(dāng)用回歸方程 48 5485 1 0996x 由3月下旬至4月中旬的積溫預(yù)測(cè)一代三化螟盛發(fā)期時(shí) 有一個(gè)3 266天的估計(jì)標(biāo)準(zhǔn)誤 它的統(tǒng)計(jì)意義是 在 3 266天范圍內(nèi)約有68 27 個(gè)觀察點(diǎn) 在 6 532天范圍內(nèi)約有95 45 個(gè)觀察點(diǎn)等 五 直線回歸的數(shù)學(xué)模型和基本假定 不講 直線回歸模型中 Y總體的每一個(gè)值由以下三部分組成 回歸截距 回歸系數(shù) Y變數(shù)的隨機(jī)誤差 總體直線回歸的數(shù)學(xué)模型 N 0 相應(yīng)的樣本線性組成為 9 7 9 8 回歸分析時(shí)的假定 1 Y變數(shù)是隨機(jī)變數(shù) 而X變數(shù)則是沒(méi)有誤差的固定變數(shù) 至少和Y變數(shù)比較起來(lái)X的誤差小到可以忽略 2 在任一X上都存在著一個(gè)Y總體 可稱為條件總體 它是作正態(tài)分布的 其平均數(shù)是X的線性函數(shù) 9 9 的樣本估計(jì)值 與X的關(guān)系就是線性回歸方程 9 1 3 所有的Y總體都具有共同的方差 而直線回歸總體具有 試驗(yàn)所得的一組觀察值 xi yi 只是中的一個(gè)隨機(jī)樣本 4 隨機(jī)誤差相互獨(dú)立 并作正態(tài)分布 具有 二 直線回歸的假設(shè) 顯著性 測(cè)驗(yàn)和區(qū)間估計(jì) 一 直線回歸的假設(shè) 顯著性 測(cè)驗(yàn)1 回歸關(guān)系的假設(shè) 顯著性 測(cè)驗(yàn) 直線回歸的假設(shè) 顯著性 測(cè)驗(yàn)的思想 任何兩變數(shù)資料 即使其總體沒(méi)有回歸關(guān)系或雖有回歸關(guān)系但是不是線性的 只要有原始數(shù)據(jù) 利用求回歸系數(shù)及回歸截距的公式 都可以算得一個(gè)線性回歸方程 所以要測(cè)驗(yàn)樣本回歸系數(shù)b來(lái)自無(wú)線性回歸關(guān)系總體的概率 只有當(dāng)這種概率很小很小 P 0 05或P 0 01 才可以冒一定風(fēng)險(xiǎn) 推斷樣本來(lái)自有線性關(guān)系的總體 即它們的總體線性回歸顯著或及顯著 1 t測(cè)驗(yàn) 直接測(cè)驗(yàn)回歸系數(shù)b來(lái)自無(wú)線性回歸關(guān)系的總體的概率 H0 0 對(duì)HA 9 10 9 11 遵循的t分布 故由t值即可知道樣本回歸系數(shù)b來(lái)自 0總體的概率大小 總體線性回歸不顯著 總體線性回歸顯著 例9 3 試測(cè)驗(yàn)例9 1資料回歸關(guān)系的顯著性 在例9 1和9 2已算得b 1 0996 SSx 144 6356 sy x 3 266 1 提出統(tǒng)計(jì)假設(shè) H0 0 對(duì)HA 3 計(jì)算概率 計(jì)算b來(lái)自 0的總體的概率 2 規(guī)定顯著水平為0 05或0 01 查附表4 t0 05 7 2 36 t0 01 7 3 50 現(xiàn)實(shí)得 t 4 05 表明在 0的總體中因抽樣誤差而獲得現(xiàn)有樣本的概率小于0 01 所以應(yīng)否定H0 0 接受HA 0 即認(rèn)為積溫和一代三化螟盛發(fā)期是有真實(shí)直線回歸關(guān)系的 或者說(shuō)此b 1 0996是極顯著的 4 推斷 2 F測(cè)驗(yàn) 當(dāng)僅以表示y資料時(shí) 不考慮x的影響 y變數(shù)具有平方和SSy和自由度當(dāng)以表示y資料時(shí) 考慮x的影響 則SSy將分解成兩個(gè)部分 即 F測(cè)驗(yàn)的實(shí)質(zhì) 測(cè)驗(yàn)在Y的總變異中因X引起的回歸變異能否顯著大于誤差引起的離回歸變異 將記作U回歸和離回歸的方差比遵循的F分布 因?yàn)榈?由此可檢驗(yàn)H0 總體線性回歸方差與誤差方差同質(zhì) HA 總體線性回歸方差顯著大于誤差方差 即總體線性回歸顯著 例9 4 試用F測(cè)驗(yàn)法檢測(cè)例9 1資料回歸關(guān)系的顯著性 在例9 1和9 2已算得SSy 249 5556 Q 74 6670 故U 249 5556 74 6670 174 8886 并有方差分析列于表9 3 表9 3例9 1資料回歸關(guān)系的方差分析 在表9 3 得到F 16 40 F0 01 所以同樣表明積溫和一代三化螟盛發(fā)期是有真實(shí)直線回歸關(guān)系的 即HA 0 準(zhǔn)確地說(shuō) 在 0的總體中獲得現(xiàn)有回歸樣本的概率小于0 01 上述t和F測(cè)驗(yàn) 在任何回歸樣本上的結(jié)果都完全一致 因?yàn)樵谕桓怕手迪?的一尾F值正好是的兩尾t值的平方即F t2 如本例 F 16 40 t 4 05 4 05 2 16 40 事實(shí)上 由 9 13 可作恒等變換 所以 對(duì)直線回歸作假設(shè)測(cè)驗(yàn) 只需選擇上述測(cè)驗(yàn)方法之一即可 二 直線回歸的區(qū)間估計(jì) 不講 1 直線回歸的抽樣誤差在直線回歸總體中抽取若干個(gè)樣本時(shí) 由于 各樣本的a b值都有誤差 因此 由 a bx給出的點(diǎn)估計(jì)的精確性 決定于和a b的誤差大小 比較科學(xué)的方法應(yīng)是考慮到誤差的大小和坐標(biāo)點(diǎn)的離散程度 給出一個(gè)區(qū)間估計(jì) 即給出對(duì)其總體的 等的置信區(qū)間 2 回歸截距的置信區(qū)間由 9 2 樣本回歸截距a 而和b的誤差方差分別為 故根據(jù)誤差合成原理 a的標(biāo)準(zhǔn)誤為 由是遵循的t分布的 總體回歸截距有95 可靠度的置信區(qū)間為 L1 a t0 05 L2 a t0 05 9 17 9 18 3 回歸系數(shù)的置信區(qū)間由 9 11 可推得總體回歸系數(shù)的95 可靠度的置信區(qū)間為 L1 b t0 05 L2 b t0 05 4 條件總體平均數(shù)的置信區(qū)間由 故的標(biāo)準(zhǔn)誤為 條件總體平均數(shù)的95 置信區(qū)間為 L1 t0 05 L2 t0 05 9 21 9 20 9 19 5 條件總體觀察值Y的預(yù)測(cè)區(qū)間將 9 4 代入 9 8 yi ei 9 22 保證概率為0 95的Y或y的預(yù)測(cè)區(qū)間為 L1 t0 05 L2 t0 05 9 23 6 置信區(qū)間和預(yù)測(cè)區(qū)間的圖示首先取若干個(gè)等距的x值 x取值愈密 作圖愈準(zhǔn)確 算得與其相應(yīng)的 和 的值 然后再由和算得各x上的L1和L2 并標(biāo)于圖上 最后將各個(gè)L1和L2分別連成曲線即可 例9 10 試制作例9 1資料的y估計(jì)值包括和y在內(nèi)有95 可靠度的置信區(qū)間圖 表9 6例9 1資料的置信區(qū)間和y的預(yù)測(cè)區(qū)間的計(jì)算 2 3 4 6 7 8 一代三化螟盛發(fā)期估計(jì)及其95 置信限畫(huà)出的圖像 依次標(biāo)出 x L1 和 x L2 坐標(biāo)點(diǎn) 再連接各 x L1 得線 連接各 x L2 得線 連接各 x L2 得線 和所夾的區(qū)間即包括在內(nèi)有95 可靠度的置信區(qū)間 稱 x 的連線 x 的連線 其所夾的區(qū)間即為y的95 的預(yù)測(cè)區(qū)間或預(yù)測(cè)帶 3月下至4月中旬平均溫度累積值例9 1資料的y估計(jì)值及其95 置信帶 第三節(jié)直線相關(guān) 一 相關(guān)系數(shù)和決定系數(shù)二 相關(guān)系數(shù)的假設(shè)測(cè)驗(yàn) 一 相關(guān)系數(shù)和決定系數(shù) 一 相關(guān)系數(shù) X Y 總體沒(méi)有相關(guān) 則落在象限 的點(diǎn)是均勻分散的 因而正負(fù)相消 0 當(dāng) X Y 總體呈正相關(guān)時(shí) 落在象限 的點(diǎn)一定比落在象限 的多 故一定為正 同時(shí)落在象限 的點(diǎn)所占的比率愈大 此正值也愈大 當(dāng) X Y 總體呈負(fù)相關(guān)時(shí) 則落在象限 的點(diǎn)一定比落在象限 的為多 故一定為負(fù) 且落在象限 的點(diǎn)所占的比率愈大 此負(fù)值的絕對(duì)值也愈大 的值可用來(lái)度量?jī)蓚€(gè)變數(shù)直線相關(guān)的相關(guān)程度和性質(zhì) 但是 X和Y的變異程度 所取單位及N的大小都會(huì)影響其大小 這些因素的影響是可以消去的 方法就是將離均差轉(zhuǎn)換成以各自的標(biāo)準(zhǔn)差為單位 使成為標(biāo)準(zhǔn)化離差 再以N除之 可定義雙變數(shù)總體的相關(guān)系數(shù)為 9 33 9 33 的已與兩個(gè)變數(shù)的變異程度 單位和N大小都沒(méi)有關(guān)系 是一個(gè)不帶單位的純數(shù) 因而可用來(lái)比較不同雙變數(shù)總體的相關(guān)程度和性質(zhì) 相關(guān)系數(shù)是兩個(gè)變數(shù)標(biāo)準(zhǔn)化離差的乘積之和的平均數(shù) 相關(guān)系數(shù)的含義 相關(guān)系數(shù)的功能定義 表示變量間相關(guān)性質(zhì)與程度的統(tǒng)計(jì)數(shù)相關(guān)系數(shù)的計(jì)算定義 由自變量引起的回歸平方和占依變量總平方和比率的平方根 見(jiàn)公式9 34下 相關(guān)系數(shù)的推導(dǎo)定義 是兩個(gè)變數(shù)標(biāo)準(zhǔn)化離差的乘積之和的平均數(shù) 一般回答問(wèn)題時(shí)常指功能定義 樣本的相關(guān)系數(shù)r 9 34 因?yàn)?在回歸分析時(shí)分成了兩個(gè)部分 一部分是離回歸平方和Q 另一部分是回歸平方和U SP 2 SSx 因此 又可有定義 r的取值區(qū)間是 1 1 雙變數(shù)的相關(guān)程度決定于 r r 越接近于1 相關(guān)越密切 越接近于0 越可能無(wú)相關(guān) r的顯著與否還和自由度有關(guān) 越大 受抽樣誤差的影響越小 r達(dá)到顯著水平的值就較小 正的r值表示正相關(guān) 負(fù)的r值表示負(fù)相關(guān) 而相關(guān)系數(shù)r的正或負(fù)和回歸系數(shù)b是保持一致 二 決定系數(shù) 決定系數(shù) determinationcoefficient 定義為由x不同而引起的y的平方和占y總平方和SSy 的比率 也可定義為由y不同而引起的x的平方和占x總平方和SSx 的比率 其值為 9 35 所以決定系數(shù)即相關(guān)系數(shù)r的平方值 決定系數(shù)和相關(guān)系數(shù)的區(qū)別在于 除掉 r 1和0的情況外 r2總是小于 r 這就可以防止對(duì)相關(guān)系數(shù)所表示的相關(guān)程度作夸張的解釋 例如 r 0 5 只是說(shuō)明由x的不同而引起的y變異 或由y的不同而引起的x變異 平方和僅占y總變異 或x總變異 平方和的r2 0 25 即25 而不是50 r是可正可負(fù)的 而r2則一律取正值 其取值區(qū)間為 0 1 因此 在相關(guān)分析由r的正或負(fù)表示相關(guān)的性質(zhì) 由r2的大小表示相關(guān)的程度 三 相關(guān)系數(shù)和決定系數(shù)的計(jì)算 例9 11 試計(jì)算例9 1資料3月下旬至4月中旬積溫和一代三化螟盛發(fā)期的相關(guān)系數(shù)和決定系數(shù) 在例9 1已算得該資料的SSx 144 6356SSy 249 5556 SP 159 0444 故代入 9 34 有 代入 9 35 有 以上結(jié)果表明 一代三化螟盛發(fā)期與3月下旬至4月中旬的積溫成負(fù)相關(guān) 即積溫愈高 一代三化螟盛發(fā)期愈早 在一代三化螟盛發(fā)期的變異中有70 08 是由3月下旬至4月中旬的積溫不同造成的 二 相關(guān)系數(shù)的假設(shè)測(cè)驗(yàn) 一 的假設(shè)測(cè)驗(yàn)測(cè)驗(yàn)樣本相關(guān)系數(shù)r來(lái)自無(wú)線性相關(guān)總體的概率 所作的假設(shè)為H0 對(duì)HA 0 在總體中抽樣 r的分布隨樣本容量n的不同而不同 r的抽樣誤差 9 36 H0 當(dāng)時(shí) 或 9 37 此t值遵循的t分布 由之可測(cè)驗(yàn)H0 例題見(jiàn)下一面 對(duì)于同一資料 線性回歸的顯著性等價(jià)于線性相關(guān)的顯著性 將 9 37 移項(xiàng) 即可得到自由度和顯著水平一定時(shí)的臨界r值 例9 12 試測(cè)驗(yàn)例9 11所得r 0 8371的顯著性 H0 HA 由 9 36 可得 代入 9 37 得 查附表4 t0 01 7 3 50 現(xiàn)實(shí)得 t 4 05 t0 01 所以H0 被否定 HA 被接受 r在水平上顯著 即此r 0 8371說(shuō)明3月下旬至4月中旬積溫和一代三化螟盛發(fā)期是有真實(shí)直線相關(guān)的 且積溫愈高 三化螟的盛發(fā)期愈早 y愈小 本例t 4 05和該資料在例9 3作回歸系數(shù)的假設(shè)測(cè)驗(yàn)時(shí)的t 4 05完全相同 這不是偶然巧合 而是必然結(jié)果 對(duì)于同一資料來(lái)說(shuō) 線性回歸的顯著性和線性相關(guān)的顯著性一定

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論