概率論與數(shù)理統(tǒng)計第九章方差分析與回歸分析-PPT精選課件_第1頁
概率論與數(shù)理統(tǒng)計第九章方差分析與回歸分析-PPT精選課件_第2頁
概率論與數(shù)理統(tǒng)計第九章方差分析與回歸分析-PPT精選課件_第3頁
概率論與數(shù)理統(tǒng)計第九章方差分析與回歸分析-PPT精選課件_第4頁
概率論與數(shù)理統(tǒng)計第九章方差分析與回歸分析-PPT精選課件_第5頁
已閱讀5頁,還剩71頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、2022/7/24版權(quán)所有 BY 張學毅1第 九 章 第一節(jié)單因素試驗的方差分析2022/7/24版權(quán)所有 BY 張學毅2一、方差分析的有關(guān)概念1.方差分析(Analysis of Variance,ANOVA)是一種檢驗多 個正態(tài)總體均值是否相等的統(tǒng)計方法。 2.因素的水平:指試驗因素的某種特定狀態(tài)或數(shù)量等級,簡 稱水平。3.試驗指標:衡量實驗結(jié)果好壞程度的試驗數(shù)據(jù) 。 在單因素方差分析中,將因素的任何一個水平看作是一個總體,該水平下試驗得到的數(shù)據(jù)可看成是從總體中抽出的一個樣本。 若方差分析中考察的因素只有一個時,稱為單因素方差分析;若同時研究兩個因素對試驗指標的影響時,則稱為兩因素試驗。同

2、時針對兩個因素進行,則稱為雙因素方差分析。 2022/7/24版權(quán)所有 BY 統(tǒng)計學課程組3二、單因素方差分析的數(shù)據(jù)結(jié)構(gòu)2022/7/24版權(quán)所有 BY 張學毅4因素A水平A1 水平A2水平As12:2022/7/24版權(quán)所有 BY 張學毅5表中: 為第 i個水平的第j個觀測值。記第j個水平觀測值的均值為 ,則有記所有觀測值的均值為 ,則有2022/7/24版權(quán)所有 BY 張學毅6三、方差分析中的三個基本假設(shè)(1)各個總體都服從正態(tài)分布;(2)各個總體的方差都相等;(3)各個觀測值之間是相互獨立的。2022/7/24版權(quán)所有 BY 張學毅7四、單因素方差分析的數(shù)學模型由于 則有單因素方差分析的

3、數(shù)學模型1:2022/7/24版權(quán)所有 BY 張學毅8四、單因素方差分析的數(shù)學模型記 , 為 Aj 的效應(yīng)。 則有單因素方差分析的數(shù)學模型2:2022/7/24版權(quán)所有 BY 張學毅9從散點圖上可以看出:不同的水平的數(shù)據(jù)是有明顯差異的;同一個水平的數(shù)據(jù)也明顯不同;不同水平的觀察值與試驗指標值之間可能有一定的關(guān)系。3. 僅從散點圖上觀察還不能提供充分的證據(jù)證明不同水平與試驗指標值之間有顯著差異。這種差異可能是由于抽樣的隨機性所造成的,也有可能是系統(tǒng)性影響因素造成的。五、方差分析的基本思想2022/7/24版權(quán)所有 BY 張學毅104.需要有更準確的方法來檢驗這種差異是否顯著,也就是進行方差分析。

4、5.隨機誤差 因素的同一水平(總體)下,樣本各觀察值之間的差異,可以看成是隨機因素的影響,稱為隨機誤差 ;6.系統(tǒng)誤差 因素的不同水平(不同總體)下,各觀察值之間的差異可能是由于抽樣的隨機性所造成的,也可能是由于水平本身所造成的,后者所形成的誤差是由系統(tǒng)性因素造成的,稱為系統(tǒng)誤差。2022/7/24版權(quán)所有 BY 張學毅11方差分析的基本思想7.若不同水平對試驗指標值沒有影響,則組間誤差中只包含隨機誤差,沒有系統(tǒng)誤差。這時,組間誤差與組內(nèi)誤差經(jīng)過平均后的數(shù)值就應(yīng)該很接近,它們的比值就會接近1;8.若不同水平對試驗指標值有影響,則在組間誤差中除了包含隨機誤差外,還會包含有系統(tǒng)誤差,這時組間誤差平

5、均后的數(shù)值就會大于組內(nèi)誤差平均后的數(shù)值,它們之間的比值就會大于1;9.當這個比值大到某種程度時,就可以說不同水平之間存在著顯著差異,也就是自變量對因變量有影響。 總離差平方和( sum of squares for total)1)全部觀察值 與總均值 的離差平方和;2)反映全部觀察值的離散狀況。其計算公式為:六、離差平方和與自由度的分解效應(yīng)平方和(組間平方和):Sum of squares for factor A1)各組平均值 與總平均值 的離差平方和;2)反映各總體的樣本均值之間的差異程度,又稱組間平方和;3)該平方和既包括隨機誤差,也包括系統(tǒng)誤差。計算公式為: 誤差平方和(組內(nèi)平方和)

6、 :Sum of squares for error1)每個水平或組的各樣本數(shù)據(jù)與其組平均值的離差平方和;2)反映每個樣本各觀察值的離散狀況,又稱組內(nèi)離差平方和;3)該平方和反映的是隨機誤差的大小。計算公式為 :三個離差平方和的關(guān)系總離差平方和=組間平方和+組內(nèi)平方和 三個離差平方和的自由度之間的關(guān)系:均方2022/7/24版權(quán)所有 BY 張學毅17七、 的統(tǒng)計特征P228根據(jù)概率論與數(shù)理統(tǒng)計學知識 :1) 是總體方差 的無偏估計量,且與原假設(shè)成立與否無關(guān)。 即 2) 是否是總體方差 的無偏估計量,與原假設(shè)成立與否有關(guān) 。當且僅當原假設(shè)成立時, 才是總體方差 的無偏估計量。八、方差分析表通常將

7、上述計算過程列成一張表格,稱為方差分析表。變差源平方和自由度均方F比因素A(組間)s-1誤差(組內(nèi))n-s-總和n-1-2022/7/24版權(quán)所有 BY 張學毅19例9.1 熱帶雨林一份研究伐木業(yè)對熱帶雨林影響的統(tǒng)計研究報告指出,“環(huán)保主義者對于林木采伐、開墾和焚燒導(dǎo)致的熱帶雨林的破壞幾近絕望”。這項研究比較了類似地塊上樹木的數(shù)量,這些地塊有的從未采伐過,有的1年前采伐過,有的8年前采伐過。根據(jù)數(shù)據(jù),采伐對樹木數(shù)量有顯著影響嗎?顯著性水平=0.05。 2022/7/24202、提出零假設(shè)和備擇假設(shè)H0:u1=u2=u3H1: u1,u2,u3不全相等。從未采伐過1年前采伐過8年前采伐過2712

8、182212429152221915192018331819161722201412241412272281719192022/7/24版權(quán)所有 BY 張學毅21方差分析表結(jié)論:F值=11.433.32,p-值=0.00020.05,因此檢驗的結(jié)論是采伐對林木數(shù)量有顯著影響。 變差源SSdfMSFP-valueF crit組間625.162312.5811.430.00023.32組內(nèi)820.723027.36總計1445.88322022/7/24版權(quán)所有 BY 張學毅22【例9.2】 某市消費者協(xié)會為了評價該地旅游業(yè)、居民服務(wù)業(yè)、公路客運業(yè)和保險業(yè)的服務(wù)質(zhì)量,從這4個行業(yè)中分別抽取了不同數(shù)

9、量的企業(yè)。經(jīng)統(tǒng)計,最近一年消費者對這23家企業(yè)投訴的次數(shù)資料如下表所示。這4個行業(yè)之間服務(wù)質(zhì)量是否有顯著差異?如果有,究竟是在哪些行業(yè)之間?解(1) 建立假設(shè) (2) 列方差分析表(3)統(tǒng)計決策因為 ,所以拒絕 。即有99%的把握認為不同行業(yè)之間的服務(wù)質(zhì)量有高度顯著的差異。 2022/7/24版權(quán)所有 BY 張學毅24第二節(jié) 兩因素試驗數(shù)據(jù)的方差分析一、無交互作用的雙因素方差分析 若記一因素為因素A,另一因素為因素B,對A與B同時進行分析,就屬于雙因素方差分,即判斷是否有某一個或兩個因素對試驗指標有顯著影響,兩個因素結(jié)合后是否有新效應(yīng)。在統(tǒng)計學中將各個因素的不同水平的搭配所產(chǎn)生的新的影響稱為交

10、互作用。我們先討論無交互作用的雙因素方差分析問題,對于有交互作用的雙因素方差分析問題稍后再討論。2022/7/24版權(quán)所有 BY 張學毅25無交互作用的雙因素方差分析數(shù)據(jù)結(jié)構(gòu)2022/7/24版權(quán)所有 BY 張學毅26雙因素無交互作用的方差分析,又稱為雙因素無重復(fù)試驗的方差分析;雙因素有交互作用的方差分析,又稱為雙因素等重復(fù)試驗的方差分析;判斷因素A的影響是否顯著等價于檢驗假設(shè):判斷因素B的影響是否顯著等價于檢驗假設(shè):其中, 表示A的第i個水平所構(gòu)成的總體均值, 表示的B第j個水平所構(gòu)成的總體均值。 對離差總平方和進行分解。與單因素情況類似,能夠證明下列公式成立:總離差平方和的自由度分解為:F

11、統(tǒng)計量: 2022/7/24版權(quán)所有 BY 張學毅28 例9.3 為提高某種產(chǎn)品的合格率,考察原料來源地和用量對其是否有影響。原料來源地有三個:甲、乙、丙;原料用量有三種:現(xiàn)有量、增加5%、增加8%。每個水平組合各作一次試驗,得到的數(shù)據(jù)如下表所示。試分析原料來源地和用量對產(chǎn)品合格率的影響是否顯著?2022/7/24版權(quán)所有 BY 張學毅30【例題】解:(1) 建立假設(shè)(2) 列方差分析表2022/7/24版權(quán)所有 BY 張學毅31 (3) 統(tǒng)計決策對于顯著性水平 0.05,查表得臨界值因為 , ,故不拒絕 ,拒絕 。即根據(jù)現(xiàn)有數(shù)據(jù),有95%的把握可以推斷原料來源地對產(chǎn)品合格率的影響不大,而原料

12、用量對合格率有顯著影響。由于 為最優(yōu)水平。既然原料來源地對產(chǎn)品合格率的影響不顯著,在保證質(zhì)量的前提下,可以選擇運費最省的地方作為原料來源地選擇時的首選。如果丙地的運費最省,則最優(yōu)方案為 。 2022/7/24版權(quán)所有 BY 張學毅32【例9.4】 某種火箭使用了四種燃料,三種推進器做試驗。每種燃料和每種推進器的組合各做一次試驗,得火箭射程數(shù)據(jù)如下表所示。試問不同的燃料、不同的推進器分別對火箭射程有無顯著影響?2022/7/24版權(quán)所有 BY 張學毅33列方差分析表:2022/7/24版權(quán)所有 BY 張學毅342022/7/24版權(quán)所有 BY 張學毅352022/7/24版權(quán)所有 BY 張學毅3

13、6二、有交互作用的雙因素方差分析 所謂交互作用,簡單來說就是不同因素對試驗指標的復(fù)合作用,因素A和B的綜合效應(yīng)不是二因素效應(yīng)的簡單相加。為了能分辨出兩個因素的交互作用,一般每組試驗至少作兩次。2022/7/24版權(quán)所有 BY 張學毅37 有交互作用的雙因素方差分析數(shù)據(jù)結(jié)構(gòu)2022/7/24版權(quán)所有 BY 張學毅382建立假設(shè)2022/7/24版權(quán)所有 BY 張學毅39這就是有交互作用的雙因素方差分析的數(shù)學模型。2022/7/24版權(quán)所有 BY 張學毅40對這一模型可設(shè)如下三個假設(shè):2022/7/24版權(quán)所有 BY 張學毅413方差分析與單因素方差分析的平方和分解類似,有 2022/7/24版權(quán)

14、所有 BY 張學毅422022/7/24版權(quán)所有 BY 張學毅43雙因素(有交互作用)方差分析表2022/7/24版權(quán)所有 BY 張學毅44 例9.5 某公司想將橡膠、塑料和軟木的板材沖壓成密封墊片出售。市場上有兩種不同型號的沖壓機可供選擇。為了能對沖壓機每小時所生產(chǎn)的墊片數(shù)進行比較,并確定哪種機器使用何種材料生產(chǎn)墊片的能力更強,該公司使用每臺機器對每一種材料分別運行三段時間,得到的試驗數(shù)據(jù)(每小時生產(chǎn)的墊片數(shù))如下表所示,試運用方差分析確定最優(yōu)方案。2022/7/24版權(quán)所有 BY 張學毅452022/7/24版權(quán)所有 BY 張學毅46解(1) 建立假設(shè): (2) 計算相應(yīng)的均值和平方和:2

15、022/7/24版權(quán)所有 BY 張學毅472022/7/24版權(quán)所有 BY 張學毅48(3) 列方差分析表2022/7/24版權(quán)所有 BY 張學毅49(4) 統(tǒng)計決策由于 ,說明不僅沖壓機的型號和墊片材料對墊片數(shù)量有顯著影響,而且其交互作用也是顯著的。由結(jié)構(gòu)均值表可知,在沖壓機中,第一種的均值較大;墊片材料中,軟木的均值較大,故最優(yōu)方案是 。 2022/7/2450第三節(jié) 一元線性回歸一、一元線性回歸二、a,b的估計三、總體方差的估計四、線性假設(shè)的顯著性檢驗五、系數(shù)b的置信區(qū)間六、回歸預(yù)測七、可化為一元線性回歸的例子(自學)回歸模型的類型一、一元線性回歸只涉及一個自變量的回歸;因變量y與自變量

16、x之間為線性關(guān)系。被預(yù)測或被解釋的變量稱為因變量(dependent variable),用y表示;用來預(yù)測或用來解釋因變量的一個或多個變量稱為自變量(independent variable),用x表示。 因變量與自變量之間的關(guān)系用一個線性方程來表示。一元線性回歸模型的基本形式 描述因變量 y 如何依賴于自變量 x 和誤差項 的方程稱為理論回歸模型一元線性回歸模型可表示為y 是 x 的線性函數(shù)(部分)加上隨機誤差項線性部分反映了由于 x 的變化而引起的 y 的變化;誤差項 是隨機變量(未納入模型但對y有影響的諸多因素的綜合影響),反映了除 x 和 y 之間的線性關(guān)系之外的隨機因素對 y 的影

17、響,是不能由 x 和 y 之間的線性關(guān)系所解釋的變異性。a和 b稱為模型的參數(shù)理論回歸模型在抽樣中,自變量x的取值是固定的,即x是非隨機的;因變量y是隨機的。 即當解釋變量X取某固定值時,Y的值不確定,Y的不同取值形成一定的分布,這是Y的條件分布?;貧w線,描述的是Y的條件期望E(Y/xi)與之對應(yīng)xi,代表這些Y的條件期望的點的軌跡所形成的直線或曲線。如注意: 由于單個數(shù)據(jù)點是從y的分布中抽出來的,可能不在這條回歸線上,因此必須包含隨機誤差項e來描述模型數(shù)據(jù)點. xy回歸線回歸模型的基本假設(shè)假設(shè)1:誤差項的期望值為0,即對所有的i有假設(shè)2:誤差項的方差為常數(shù),即對所有的i有假設(shè)3:誤差項之間不

18、存在自相關(guān)關(guān)系,其協(xié)方差為0, 即當 時,有 ;假設(shè)4:自變量是給定的變量,與隨機誤差項線性無關(guān);假設(shè)5:隨機誤差項服從正態(tài)分布。即N( 0 ,2 )以上這些基本假設(shè)是德國數(shù)學家高斯最早提出的,故也稱為高斯假定或標準假定?;貧w方程(regression equation) 描述 y 的平均值或期望值如何依賴于 x 的方程稱為回歸方程一元線性回歸方程的形式如下:方程的圖示是一條直線,也稱為直線回歸方程。a是回歸直線在 y 軸上的截距,是當 x=0 時 y 的期望值;b是直線的斜率,稱為回歸系數(shù),表示當 x 每變動一個單位時,y 的平均變動值。.估計的回歸方程(estimated regressi

19、on equation)一元線性回歸中估計的回歸方程為用樣本統(tǒng)計量 , 代替回歸方程中的未知參數(shù) 和 ,就得到了估計的回歸方程.總體回歸參數(shù) 和 是未知的,必須利用樣本數(shù)據(jù)去估計;其中: 是估計的回歸直線在 y 軸上的截距, 是直線的斜率,它表示對于一個給定的 x 的值, 是 y 的估計值,也表示 x 每變動一個單位時, y 的平均變動值 。.二、a,b的估計( 普通最小二乘估計法)(ordinary least squares estimators)使因變量的觀察值與估計值之間的離差平方和達到最小來求得 和 的方法。即用最小平方法擬合的直線來代表x與y之間的關(guān)系與實際數(shù)據(jù)的誤差比其他任何直線

20、的誤差都小。2022/7/2459參數(shù)的最小二乘估計P246-2472022/7/2460例9.6【例10.7】一家大型商業(yè)銀行在多個地區(qū)設(shè)有分行,其業(yè)務(wù)主要是進行基礎(chǔ)設(shè)施建設(shè)、國家重點項目建設(shè)、固定資產(chǎn)投資等項目的貸款。近年來,該銀行的貸款額平穩(wěn)增長,但不良貸款額也有較大比例的增長,這給銀行業(yè)務(wù)的發(fā)展帶來較大壓力。為弄清不良貸款形成的原因,管理者希望利用銀行業(yè)務(wù)的有關(guān)數(shù)據(jù)進行定量分析,以便找出控制不良貸款的辦法。下面是該銀行所屬的25家分行2019年的有關(guān)業(yè)務(wù)數(shù)據(jù) 2022/7/24612022/7/2462不良貸款對其他變量的散點圖2022/7/2463用Excel計算相關(guān)系數(shù)SUMMAR

21、Y OUTPUT回歸統(tǒng)計Multiple R0.849736R Square0.722051Adjusted R Square0.709966標準誤差4.45116觀測值25方差分析dfSSMSFSignificance F回歸分析11183.7951183.79559.748967.69E-08殘差23455.694919.81282總計241639.49Coefficients標準誤差t StatP-valueLower 95%Upper 95%下限 95.0%上限 95.0%Intercept-1.384731.625488-0.851890.40306-4.747311.977845-4.747311.977845X Variable 10.0874110.0113087.7297457.69E-080.0640180.1108040.0640180.1108042022/7/24642022/7/2465經(jīng)驗回歸方程的求法回歸方程為:y = -1.38473 + 0.087411 x回歸系數(shù) =0.0874

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論