版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、9.1 單因素方差分析9.2 回歸分析第9章 方差分析與回歸分析9.1.1 問(wèn)題的提出下面通過(guò)實(shí)例引出方差分析的有關(guān)概念和方差分析要解決的問(wèn)題. 例9.1.1 用五種不同的施肥方案分別對(duì)某農(nóng)作物進(jìn)行了4次試驗(yàn),得到某農(nóng)作物的產(chǎn)量(單位:公斤)如下表施肥方案IIIIIIIVV16798607990267966964703559150817944266357088平均57.7587.7553.573.581.759.1 方差分析與回歸分析 問(wèn)這五種不同施肥方案對(duì)該農(nóng)作物的產(chǎn)量是否有顯著影響? 要解決這個(gè)問(wèn)題,實(shí)質(zhì)上是判斷不同的“施肥方案”對(duì) “該農(nóng)作物產(chǎn)量”是否有顯著影響,一般來(lái)說(shuō),產(chǎn)量越高說(shuō)明這
2、種施肥方案越好.因此,如果每個(gè)總體的分布都是正態(tài)分布,且它們的方差相等,問(wèn)題歸結(jié)為要檢驗(yàn)這五種施肥方案帶來(lái)的農(nóng)作物產(chǎn)量均值是否相等. 為方便起見(jiàn),在試驗(yàn)中,我們稱影響試驗(yàn)的每個(gè)條件為因素或因子,用A、B、C表示.因素的不同表現(xiàn)狀態(tài)稱為水平,用 表示.每個(gè)因素水平下得到的樣本數(shù)據(jù)稱為觀測(cè)值.如上例中“施肥方案”是影響“農(nóng)作物產(chǎn)量”的一個(gè)條件,因此稱為因素,五種不同施肥方案就是“施肥方案”這一因素的不同狀態(tài),稱之為水平.每種施肥方案下得到的農(nóng)作物的產(chǎn)量稱為觀測(cè)值. 試驗(yàn)中,影響農(nóng)作物產(chǎn)量的因素很多,如土壤、環(huán)境、種子等,這里僅考慮施肥量問(wèn)題.上例中僅涉及“施肥方案”對(duì)農(nóng)作物產(chǎn)量的影響,這種只考慮一
3、個(gè)因素影響總體均值的方差分析稱為單因子方差分析. 若考慮多個(gè)(至少兩個(gè))因素影響總體均值的方差分析稱為多因子方差分析. 一般地,設(shè)因素 有 個(gè)不同的水平 ,在每個(gè)水平下進(jìn)行了 次獨(dú)立試驗(yàn),試驗(yàn)結(jié)果如下表 水平 觀 測(cè) 值 樣本均值表9-29.1.2 單因子方差分析數(shù)學(xué)模型安慶師范大學(xué) 設(shè)因素 的第 個(gè)水平對(duì)應(yīng)的總體為 ,且相互獨(dú)立, 為來(lái)自總體的樣本(觀測(cè)值). 因此要檢驗(yàn)的問(wèn)題為: 為研究方便,引入如下記號(hào): 為試驗(yàn)總次數(shù); 為總均值; 稱 為因素 的水平 的效應(yīng),且有 . 稱為隨機(jī)誤差.因此單因素方差分析數(shù)學(xué)模型為: (9.1.2)檢驗(yàn)問(wèn)題(9.1.1)等價(jià)于 (9.1.3)給出方差分析的
4、數(shù)學(xué)模型后,我們需尋找合適的統(tǒng)計(jì)量,對(duì)檢驗(yàn)問(wèn)題(9.1.3)作出判斷.首先分析一下引起各樣本值 波動(dòng)的原因可以分為兩種情況:一種是假設(shè)檢驗(yàn)(9.1.3)中 為真時(shí),各樣本值 的波動(dòng)純粹是由相應(yīng)的 的隨機(jī)波動(dòng)而引起的;另一種是由于 不真所帶來(lái)的.為研究各樣本值 波動(dòng)的原因,我們從方差分析中常用的平方和分解入手來(lái)導(dǎo)出檢驗(yàn)(9.1.3)的統(tǒng)計(jì)量.令 表示第組樣本的平均值. 表示全體樣本的總平均. 稱為總偏差平方和. 9.1.3 方差分析 稱為因素 的效應(yīng)平方和或組間平方和. 稱為誤差平方和或組內(nèi)平方和. 則有以下平方和分解式:(9.1.4) 事實(shí)上 其中交叉項(xiàng)為 為了更清楚地看出 的含義,記(9.1
5、.5)(9.1.6) 于是(9.1.4)反映了總偏差平方和分解為誤差平和與因素 的效應(yīng)平方和.而(9.1.5)則反映了試驗(yàn)過(guò)程中各種隨機(jī)因素所引起的試驗(yàn)誤差.(9.1.6)反映了除隨機(jī)誤差外,還包含不同水平的效應(yīng). 當(dāng) 成立時(shí),諸水平的效應(yīng)為零,因此 中僅含有隨機(jī)誤差,此時(shí)相對(duì)于某一給定的顯著水平 , 與之間不應(yīng)相差太大. 若相差懸殊,則有理由懷疑 不僅與隨機(jī)誤差有關(guān),還與諸水平效應(yīng)有關(guān),從而可以拒絕 ,這正是方差分析的基本思想.如何構(gòu)造檢驗(yàn)的統(tǒng)計(jì)量?我們可以首先計(jì)算一下 的期望. (9.1.7)(9.1.8)(9.1.8)最后一步用到了 ,且(9.1.8)表明當(dāng) 成立時(shí), 為 的無(wú)偏估計(jì)量.
6、由此可取 (9.1.9)作為檢驗(yàn) (或 )的統(tǒng)計(jì)量. 根據(jù)Fisher定理知,在 (或 )成立的條件下, ;對(duì)給定的顯著水平 ,由于是可得拒絕域?yàn)?.由樣本觀測(cè)值 計(jì)算統(tǒng)計(jì)量值,若 ,則拒絕 (或 ),否則就接受 .上述檢驗(yàn)方法列表如下 表 9-3 方差分析表方差來(lái)源 平方和 自由度 均方 比 顯著性 因素 拒絕 誤差 總和 在實(shí)際計(jì)算中,可運(yùn)用一些統(tǒng)計(jì)分析軟件非常方便地得到方差分析表.如Microsoft Excel 2003中文版所提供的“數(shù)據(jù)分析”功能工具箱. 下面對(duì)例子9.1.1進(jìn)行單因素方差分析: 檢驗(yàn)問(wèn)題:給定顯著水平 表9-4 方差分析方差來(lái)源 平方和 自由度 均方 比 顯著性
7、因素 3536.3 4 884.075 6.133 拒絕原假設(shè) 誤差 2162.25 15 144.15 總和 5698.55 19即認(rèn)為五中不同施肥方案對(duì)該農(nóng)作物產(chǎn)量有顯著影響.9.2.1 一元線性回歸數(shù)學(xué)模型 自然界中許多現(xiàn)象或變量之間都存在一定依存和制約關(guān)系.這些關(guān)系有兩種不同的類型:一種是確定的函數(shù)關(guān)系,如做勻速直線運(yùn)動(dòng)的物體運(yùn)動(dòng)的位移 、速度 和運(yùn)動(dòng)時(shí)間 之間的關(guān)系 ,這三個(gè)變量知道其中任意兩個(gè)就可精確地求出另一個(gè);另一種是不確定性的統(tǒng)計(jì)關(guān)系或相關(guān)關(guān)系,如施肥量和小麥的產(chǎn)量之間的關(guān)系,人的年齡與血壓之間的關(guān)系,人體的腳印尺寸與身高之間的關(guān)系等等.這些變量不能用一個(gè)確定的函數(shù)關(guān)系表達(dá)出
8、來(lái),但又存在一定的統(tǒng)計(jì)關(guān)系,這種非確定的關(guān)系在數(shù)理統(tǒng)計(jì)中稱為相關(guān)關(guān)系或回歸關(guān)系. 回歸分析就是通過(guò)對(duì)這種不確定關(guān)系的相關(guān)變量進(jìn)行不斷觀察,并探索分析出它們之間內(nèi)在統(tǒng)計(jì)規(guī)律的一種統(tǒng)計(jì)方法.只9.2 回歸分析考慮兩個(gè)變量之間的回歸分析稱為一元回歸分析,考慮兩個(gè)以上變量的回歸分析稱為多元回歸分析.其中比較簡(jiǎn)單的是線性回歸.本節(jié)主要討論一元線性回歸的相關(guān)問(wèn)題.先看一個(gè)實(shí)例: 例9.2.1 對(duì)某一市場(chǎng)調(diào)查,獲知某種商品的供給量 (單位:噸)與價(jià)格 (單位:元)之間的一組數(shù)據(jù)如下表: 表9-5價(jià)格 P 711.5 6 7.5 10 8 11 6.510.5 9 12 10供給量 54 72 51 57 6
9、0 55 70 53 65 58 76 62 為探討供給量 和價(jià)格 之間的關(guān)系.我們首先把價(jià)格 作為橫坐標(biāo),供給量 作為縱坐標(biāo),把上表中12對(duì)數(shù)據(jù)在坐標(biāo)平面上畫出來(lái),得到散點(diǎn)圖(圖9-1). 圖 9-1 從散點(diǎn)圖中可以看出,所有的點(diǎn)大體散布在一條直線的附近,因而可認(rèn)為這兩個(gè)變量之間有相關(guān)關(guān)系,且可以用直線型函數(shù)來(lái)描述. 建立如下數(shù)學(xué)模型(9.2.1)02040608002468101214S供給量p價(jià)格這里 稱為自變量,可以控制,可看成一般變量,而供給量 是隨機(jī)變量,稱為因變量. 的值在一定程度上決定 ,但不能精確地確定 ,故會(huì)導(dǎo)致一定的隨機(jī)誤差 .一般地,稱 (9.2.2)為一元線性回歸模型
10、(univariate linear regression model). 稱為回歸方程, 稱為回歸系數(shù). 通常假設(shè) ,從而 , 其中 為未知參數(shù). 對(duì)于模型(9.2.2),我們需根據(jù)樣本 和樣本觀測(cè)值 解決以下問(wèn)題:(1)對(duì)未知參數(shù) 的點(diǎn)估計(jì);(2)回歸方程的顯著性檢驗(yàn);(3)利用回歸方程進(jìn)行預(yù)測(cè)與控制.最小二乘法的基本思想是尋找 的估計(jì)值 使得 達(dá)到最小. 由微分學(xué)的知識(shí),可將 分別關(guān)于 求偏導(dǎo)數(shù),并令它們等于零,得到如下方程組 對(duì)于模型(9.2.2)中未知參數(shù) ,通常采用最小二乘法(least squares estimates)來(lái)進(jìn)行估計(jì). 對(duì)給定的樣本 ,令 (9.2.3)(9.2.
11、4)9.2.2 未知參數(shù) 的點(diǎn)估計(jì)即 (9.2.5)稱(9.2.5)為正規(guī)方程. 解正規(guī)方程得 (9.2.6)這里 稱分別為 的最小二乘估計(jì).為計(jì)算上的方便,引入下列記號(hào)于是(9.2.6)中變 為 將樣本觀測(cè)值 代入(9.2.6)可得 的估計(jì)值,于是所求的回歸方程為: (9.2.8)將 代入(9.2.8),得到 . 即回歸方程過(guò)定點(diǎn) .根據(jù)以上方法可求例9.2.1的線性回歸方程,計(jì)算結(jié)果列表如下: 表9-6 編號(hào) 價(jià)格 P 供給量 S 1 7 54 49 2916 378 2 11.5 72 132.25 5184 828 3 6 51 36 2601 306 4 7.5 57 56.25 3
12、249 427.5 5 10 60 100 3600 600 6 8 55 64 3025 440 7 11 70 121 4900 770 8 6.5 53 42.25 2809 344.5 9 10.5 65 110.25 4225 682.5 10 9 58 81 3364 522 11 12 76 144 5776 912 12 10 62 100 3844 620 合計(jì) 109 733 1036 45493 6830.5由(9.2.8)式可得 ,于是回歸方程為 具有如下性質(zhì):(1) 即 分別為 的無(wú)偏估計(jì),且在一定條件下,還可證明 是所有線性無(wú)偏估計(jì)中最好的.(2) 令(9.2.9)
13、稱為剩余平方和或殘差平方和. 它是通過(guò)回歸直線進(jìn)行估計(jì)后,仍未消除或未被解釋的誤差,反映了觀測(cè)值 偏離回歸直線的程度,它是由隨機(jī)誤差和其他未被考慮的因素引起的.上一節(jié)我們利用最小二乘法估計(jì)出了 ,但 和 之間是否真的存在這種線性相關(guān)關(guān)系呢?這就需要用統(tǒng)計(jì)的方法來(lái)進(jìn)行檢驗(yàn),如果回歸系數(shù) ,則表明 和 之間存在著一定的線性相關(guān)關(guān)系,否則 對(duì) 沒(méi)有解釋作用. 從而問(wèn)題歸結(jié)為檢驗(yàn) (9.2.10)為判斷原假設(shè) 是否成立需構(gòu)造合適的統(tǒng)計(jì)量. 假設(shè) ,令9.2.3 回歸方程的顯著性檢驗(yàn)則有下列平方和分解式: (9.2.11)事實(shí)上其中這里 稱為總偏差平方和. 因?yàn)樵诓涣私?與 之間的相關(guān)關(guān)系時(shí),對(duì) 的最佳
14、估計(jì)只能是 ,因此 反映了的觀測(cè)值圍繞樣本均值 總的分散程度.若用 來(lái)表示平方和,則有, (9.2.12) (9.2.13)當(dāng) 成立時(shí),可以證明 , , .因此可以選取統(tǒng)計(jì)量對(duì)給定顯著水平 ,根據(jù)樣本觀測(cè)值計(jì)算值 .若 ,則拒絕 ,即認(rèn)為 和 之間存在著一定的線性相關(guān)關(guān)系;否則接受 ,即認(rèn)為 和 之間不存在線性相關(guān)關(guān)系,就沒(méi)有必要配置回歸直線了.上述檢驗(yàn)過(guò)程也可表述為下列方差分析表 表 9-7 方差來(lái)源 平方和 自由度 均方 比 顯著性 回歸和 1拒絕 剩余和 n-2 總和 n-1 以上是對(duì)回歸系數(shù) 進(jìn)行檢驗(yàn),我們所采用的是 檢驗(yàn)法.另外,我們還可通過(guò)引入 和 之間的相關(guān)系數(shù) (9.2.14)
15、對(duì)相關(guān)系數(shù)利用 檢驗(yàn)法進(jìn)行檢驗(yàn). 檢驗(yàn)問(wèn)題為: (9.2.15)可以證明,當(dāng)檢驗(yàn)(9.2.15)中 成立時(shí),給定顯著水平 ,根據(jù)樣本觀測(cè)值計(jì)算 值,若 ,則拒絕 ,否則接受 . 根據(jù) 分布和 分布的關(guān)系: .故對(duì)一元線性回歸的檢驗(yàn),兩種檢驗(yàn)法是一致的,我們只需選擇其中一種檢驗(yàn)法即可.例9.2.2 給定顯著水平 ,檢驗(yàn)例9.2.1中回歸效果是否顯著?解 根據(jù)表9-6中的數(shù)據(jù),可得其方差分析表為 表9-8 方差來(lái)源 平方和 自由度 均方 比 顯著性 回歸和 647.423 1 647.423 90.556拒絕 剩余和 71.494 10 7.1494 總和 718.917 11拒絕 ,即認(rèn)為價(jià)格和
16、供給量?jī)勺兞恐g存在顯著線性相關(guān)關(guān)系. 上面討論了一元線性回歸方程的假設(shè)檢驗(yàn)問(wèn)題.那么如何根據(jù)求出的回歸方程 和任一給定的值 ,對(duì) 的值進(jìn)行估計(jì)呢?這就涉及到預(yù)測(cè)問(wèn)題,也就是已知 的值 ,要預(yù)測(cè)變量 的值或取值范圍. 對(duì)于給定的 及置信度 ,根據(jù)第七章知識(shí),要求 的預(yù)測(cè)區(qū)間,即尋找 , ,使得(9.2.16)這里 , 還可依賴于樣本 ,但與第七章置信區(qū)間是不同,它是隨機(jī)變量而不是參數(shù).可以證明(9.2.17)9.2.1 一元線性回歸方程的預(yù)測(cè)與控制因此,對(duì)給的置信度 ,有于是可得 的置信度為 的預(yù)測(cè)區(qū)間為(9.2.18)圖9-2當(dāng)樣本容量 固定, 和 僅與樣本觀測(cè)值有關(guān),從而預(yù)測(cè)的精度與 有關(guān)
17、,當(dāng)時(shí),帶形區(qū)域?qū)挾仁亲钫?,即?dāng)越靠近時(shí)預(yù)測(cè)就越精確. 在實(shí)際計(jì)算中,當(dāng)樣本容量 很大時(shí),對(duì)任一給定的 , 近似地服從正態(tài)分布 .因此,可得置信度為 的 的預(yù)測(cè)區(qū)間近似為置信上下限 , 都為 的函數(shù),其形狀如圖9-2,它們形成了一個(gè)包含回歸直線的帶形域,其寬度為直線 和直線 所夾得帶型區(qū)域?yàn)?的近似預(yù)測(cè)區(qū)域. 如圖9.3L2LL1圖 9-3 控制問(wèn)題為預(yù)測(cè)問(wèn)題的反問(wèn)題. 對(duì)于一元線性回歸模型,要使得 的觀測(cè)值 落在一定范圍 內(nèi),應(yīng)把 的取值控制在什么范圍內(nèi)?根據(jù)(9.1.27)式求 的預(yù)測(cè)區(qū)間的方法,反過(guò)來(lái)可求出相應(yīng)的 ,使得滿足當(dāng) 時(shí),有 對(duì)應(yīng)的觀測(cè)值 落在 之間的概率不小于 . 即當(dāng)樣本
18、容量 很大時(shí),可根據(jù)如下方程組 例9.2.3給定 ,求例9.2.1中的供給量的預(yù)測(cè)區(qū)間? 解 當(dāng) 時(shí),根據(jù)例9.2.1中已求出回歸方程可得 求出相應(yīng)的注意,為了實(shí)現(xiàn)控制,必須使區(qū)間 的長(zhǎng)度 . 根據(jù)例9.3計(jì)算的結(jié)果有給定,查表得 ,從而可得故供給量 的95%的預(yù)測(cè)區(qū)間為 在實(shí)際問(wèn)題,我們經(jīng)常會(huì)遇到一些變量之間的關(guān)系不是線性的,而是非線性的.但對(duì)于一些特殊問(wèn)題,可以通過(guò)變量代換將它們轉(zhuǎn)化為線性關(guān)系,利用線性回歸的方法來(lái)處理.有如下常見(jiàn)的類型:(1)雙曲型函數(shù) 令 ,則(2)冪函數(shù)型 令 ,則9.2.5 一元非線性回歸問(wèn)題的線性化(3)對(duì)數(shù)函數(shù)型 令 ,則(4)指數(shù)函數(shù)型(i) ; 令 ,則(i
19、i) 令 ,則 在具體實(shí)際問(wèn)題中,可以先根據(jù)樣本觀測(cè)值作出散點(diǎn)圖,然后由散點(diǎn)圖呈現(xiàn)的趨勢(shì)來(lái)選配回歸方程. 例9.2.4 在彩色顯影中,為研究形成染料光學(xué)密度之間的關(guān)系,測(cè)得11組試驗(yàn)數(shù)據(jù)如下表: 型曲線 作為選配曲線. 表9-90.050.100.140.590.381.190.060.140.200.790.431.250.070.230.251.000.471.290. 100.370.311.12試確定 與 之間的回歸關(guān)系?解 首先畫出散點(diǎn)圖如圖9-4,從散點(diǎn)圖的趨勢(shì)我們可以選用指數(shù)0.20.40.60.811.21.4024681012因此單因素方差分析數(shù)學(xué)模型為:圖9-4 令 ,求出
20、相應(yīng)的值如下表: 表9-1020.000-2.3037.143-0.5282.6320.17416.667-1.9665.000-0.2362.3260.22314.286-1.4704.0000.0002.1280.25510.000 -0.994 3.2260.113相應(yīng)的散點(diǎn)圖如圖(9.5),對(duì)應(yīng)的點(diǎn)基本上在一條直線上,說(shuō)明 與 之間近似地有線性關(guān)系. 因此,令 .-3.000-2.500-2.000-1.500-1.000-0.5000.0000.5005.00010.00015.00020.00025.000圖9-5經(jīng)計(jì)算可得 從而回歸方程為 .于是 對(duì) 的回歸方程為 在實(shí)際中,影響變量 的因素通常有多個(gè),要研究它們之間的關(guān)系比較復(fù)雜,最簡(jiǎn)單的是假設(shè)它們?yōu)榫€性關(guān)系,這就涉及到多元線性回歸(mu
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 單位管理制度集合大全人員管理篇十篇
- 單位管理制度分享合集職工管理十篇
- 單位管理制度分享大合集職工管理
- 單位管理制度范例匯編員工管理十篇
- 單位管理制度呈現(xiàn)匯編【人力資源管理】十篇
- 2024年鄉(xiāng)鎮(zhèn)發(fā)改委年度工作總結(jié)及工作謀劃
- 2024年農(nóng)業(yè)農(nóng)村局工作總結(jié)
- 稅收征收工作總結(jié)報(bào)告
- 公司轉(zhuǎn)正工作總結(jié)范文
- 有機(jī)硅納米技術(shù)進(jìn)展-洞察分析
- 手術(shù)室發(fā)生地震應(yīng)急預(yù)案演練
- 配合、協(xié)調(diào)、服務(wù)方案
- 市政工程監(jiān)理大綱
- 2023-2024學(xué)年廣東省廣州市黃埔區(qū)六年級(jí)(上)期末數(shù)學(xué)試卷(A卷)
- 初中數(shù)學(xué)新課程標(biāo)準(zhǔn)(2024年版)
- 期末測(cè)試卷(一)2024-2025學(xué)年 人教版PEP英語(yǔ)五年級(jí)上冊(cè)(含答案含聽(tīng)力原文無(wú)聽(tīng)力音頻)
- 2023-2024學(xué)年廣東省深圳市南山區(qū)八年級(jí)(上)期末英語(yǔ)試卷
- 漢服娃衣創(chuàng)意設(shè)計(jì)與制作智慧樹(shù)知到期末考試答案章節(jié)答案2024年四川文化產(chǎn)業(yè)職業(yè)學(xué)院
- 廣東省中山市2023-2024學(xué)年四年級(jí)上學(xué)期期末數(shù)學(xué)試卷
- 8款-組織架構(gòu)圖(可編輯)
- 人民法院涉訴信訪案件終結(jié)辦法
評(píng)論
0/150
提交評(píng)論