第四講 假設(shè)檢驗_第1頁
第四講 假設(shè)檢驗_第2頁
第四講 假設(shè)檢驗_第3頁
第四講 假設(shè)檢驗_第4頁
第四講 假設(shè)檢驗_第5頁
已閱讀5頁,還剩92頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第四講假設(shè)檢驗第1頁,課件共97頁,創(chuàng)作于2023年2月例子開發(fā)研制的新藥對治療某種特定疾病的效果水稻畝產(chǎn)量的影響因素分析心臟病猝死與日期的關(guān)系(2.8:1:1:1:1:1:1)產(chǎn)品自動生產(chǎn)線工作是否正常?某種新生產(chǎn)方法是否會降低產(chǎn)品成本?廠商聲稱產(chǎn)品質(zhì)量符合標(biāo)準(zhǔn),是否可信?第2頁,課件共97頁,創(chuàng)作于2023年2月案例澳大利亞統(tǒng)計局公布的2003年第一季度失業(yè)率為6.1%。而RoyMorgan公司在調(diào)查了14656名14歲以上的居民以后得到的失業(yè)率為7.8%。你認(rèn)為RoyMorgan的結(jié)果顯著高于統(tǒng)計局的數(shù)字嗎?美國勞工局公布的數(shù)字表明,1998年11月美國的平均失業(yè)時間為14.6周。在費城市市長的要求下進行的一項研究調(diào)查了50名失業(yè)者,平均失業(yè)時間為15.54周。根據(jù)調(diào)查結(jié)果能否認(rèn)為費城的平均失業(yè)時間高于全國平均水平?

第3頁,課件共97頁,創(chuàng)作于2023年2月樣本推斷總體的情況總體分布已知的情形下,根據(jù)樣本數(shù)據(jù)對總體分布的統(tǒng)計參數(shù)進行推斷(估計或檢驗)總體分布未知的情形,根據(jù)樣本數(shù)據(jù)對總體的分布形式或特征進行推斷第4頁,課件共97頁,創(chuàng)作于2023年2月參數(shù)假設(shè)檢驗與非參數(shù)假設(shè)檢驗參數(shù)假設(shè)檢驗:已知總體分布(給定或假定),猜到總體某個參數(shù)的數(shù)值(H0),那么這種猜測對不對?需要用一組樣本信息來判斷。,效率高。有一個總體、兩個總體和多個總體的參數(shù)檢驗。非參數(shù)假設(shè)檢驗:又稱分布檢驗。在總體分布未知或知之甚少的情況下,用樣本數(shù)據(jù)對總體分布形態(tài)等進行推斷。猜出總體分布(H0),用一組樣本來檢驗該假設(shè)是否正確。即假設(shè)總體服從,用樣本信息推斷總體是否服從某理論分布。檢驗條件較寬松,適應(yīng)性強,但功效較低。(含總體的分布類型檢驗及獨立性檢驗等)第5頁,課件共97頁,創(chuàng)作于2023年2月假設(shè)檢驗內(nèi)容第6頁,課件共97頁,創(chuàng)作于2023年2月4.1假設(shè)檢驗的基本問題一、假設(shè)檢驗的基本原理二、假設(shè)檢驗的基本步驟三、假設(shè)檢驗的兩類錯誤四、利用P-Value進行檢驗第7頁,課件共97頁,創(chuàng)作于2023年2月4.2參數(shù)檢驗一、總體均值的假設(shè)檢驗二、總體比例的假設(shè)檢驗三、總體方差的假設(shè)檢驗第8頁,課件共97頁,創(chuàng)作于2023年2月4.3方差分析主要應(yīng)用在在農(nóng)業(yè)、商業(yè)、醫(yī)學(xué)、社會學(xué)、經(jīng)濟學(xué)等諸多領(lǐng)域一、方差分析的基本問題二、單因素方差分析三、多因素方差分析四、協(xié)方差分析第9頁,課件共97頁,創(chuàng)作于2023年2月一、方差分析的基本原理意義:是英國統(tǒng)計學(xué)家費歇(R.A.Fisher)20世紀(jì)20年代提出,某變量受多種不同因素不同程度的影響,哪些因素有顯著影響,通過方差分析來解決。核心問題從數(shù)據(jù)差異角度看:觀測變量的數(shù)據(jù)差異

=控制因素造成+隨機因素造成影響某農(nóng)作物畝產(chǎn)量的因素方差分析正是要分析觀測變量的變動是主要由控制因素造成還是由隨機因素造成的,以及控制變量的各個水平是如何對觀測變量造成影響的。第10頁,課件共97頁,創(chuàng)作于2023年2月一、方差分析的基本原理基本思路:通過實驗或調(diào)查,取得不同因素不同水平條件下被考察的隨機變量(因變量)的樣本;利用樣本構(gòu)造統(tǒng)計量,檢驗不同條件下的因變即幾個不同的總體的均值是否相等,如果均值相等的假設(shè)被接受,說明因素及水平對因變量的影響不顯著。方差分析:從觀察變量的方差入手,研究諸多控制變量中哪些變量是對觀測變量有顯著影響的變量。對觀測變量有顯著影響的各控制變量其不同水平以及各水平的交互搭配是如何影響觀測變量的。第11頁,課件共97頁,創(chuàng)作于2023年2月一、方差分析的基本原理方差分析實際上是通過推斷控制變量各水平下觀測變量的總體分布是否有顯著差異來實現(xiàn)的,1、假定:觀測變量各總體服從正態(tài)分布觀測變量各總體的方差相同基于上述假定,方差分析對個總體分布是否有顯著差異的推斷就轉(zhuǎn)化成對各總體均值是否存在顯著差異的推斷。第12頁,課件共97頁,創(chuàng)作于2023年2月因素(Factor):方差分析的對象因素水平(Factorlevel):因素的內(nèi)容方差分析:針對一定因素(Factor)分析各總體的各個因素水平(Factorlevel)是否有差異。單因素方差分析(One-Wayanalysisofvariance):針對一個因素所進行的雙因素方差分析(Two-Wayanalysisofvariance):針對兩個因素進行的。多因數(shù)方差分析:涉及兩個以上的因數(shù)?;驹淼?3頁,課件共97頁,創(chuàng)作于2023年2月2、觀測值間差異觀察值之間存在的差異主要來自于:①組間方差:因素的不同水平造成的,主要是系統(tǒng)性誤差,也包括隨機因素的影響,用水平間方差來解釋。如飲料的不同顏色帶來不同的銷售量②組內(nèi)方差:抽選樣本的隨機性而產(chǎn)生,是隨機因素的影響,通過水平內(nèi)方差來顯示。如相同顏色飲料在不同商場銷售量不同。總離差平方和=組間離差平方和+組內(nèi)離差平方和第14頁,課件共97頁,創(chuàng)作于2023年2月觀測值間差異總離差平方和=組間離差平方和+組內(nèi)離差平方和(即SST=SSA+SSE)構(gòu)建統(tǒng)計量:統(tǒng)計學(xué)家R.A.Fisher(1890-1962)提出的,叫分布若比值近似為1,控制變量影響不顯著,即不拒絕H0;若比值偏離1,方差分析的結(jié)果可以得到總體均值不相同。因此方差分析就是通過不同方差的比較,做出接受或拒絕原假設(shè)的判斷。第15頁,課件共97頁,創(chuàng)作于2023年2月3、方差分析的步驟建立方差分析模型檢查方差分析的前提條件是否成立建立檢驗的原假設(shè)和備釋假設(shè)根據(jù)樣本值計算檢驗統(tǒng)計量作出方差分析表根據(jù)F檢驗結(jié)果作出推斷第16頁,課件共97頁,創(chuàng)作于2023年2月4、方差分析的內(nèi)容單因素方差分析多因素方差分析協(xié)方差分析第17頁,課件共97頁,創(chuàng)作于2023年2月基本思想:單因素方差分析是只針對一個因素進行,用來研究一個控制變量的不同水平是否對觀測變量產(chǎn)生顯著影響,旨在分析該因素對樣本的觀察值是否產(chǎn)生影響,各因素水平的樣本容量大小可以一致,也可以不一致。二、單因素方差分析第18頁,課件共97頁,創(chuàng)作于2023年2月舉例:消費者對行業(yè)的投訴次數(shù)如下,消費者協(xié)會想知道這幾個行業(yè)之間的服務(wù)質(zhì)量是否有顯著差異?試驗號行業(yè)(因數(shù)水平)零售業(yè)旅游業(yè)航空公司家電制造業(yè)123455766494034683929455631492134404451657758第19頁,課件共97頁,創(chuàng)作于2023年2月第20頁,課件共97頁,創(chuàng)作于2023年2月1、分析思路明確觀測變量和控制變量剖析觀測變量的方差第21頁,課件共97頁,創(chuàng)作于2023年2月2、步驟比較觀測變量總離差平方和中各部分的比例單因素方差分析一般分為四步:(1)建立原假設(shè)和備擇假設(shè);(H0控制變量不同水平下觀測變量各總體的均值無顯著差異)(2)選擇檢驗統(tǒng)計量,計算F和P;(3)給定顯著性水平,確定臨界值;(4)決策。第22頁,課件共97頁,創(chuàng)作于2023年2月3、應(yīng)用舉例例“廣告地區(qū)與銷售額.sav”AnalyzeCompareMeansOne-WayANOVE第23頁,課件共97頁,創(chuàng)作于2023年2月4、進一步分析AnalyzeCompareMeansOne-WayANOVE對比檢驗(先驗對比和趨勢檢驗)多重比較檢驗方差齊性檢驗第24頁,課件共97頁,創(chuàng)作于2023年2月(1)Contrasts檢驗先驗對比檢驗?zāi)芨_地掌握各水平間或相似子集間均值的差異程度趨勢檢驗(polynominal):分析隨控制變量水平的變化,觀測變量值變化的總體趨勢是怎樣的。線性、二次、三次等?從另一角度把握控制變量不同水平對觀測變量總體作用的程度第25頁,課件共97頁,創(chuàng)作于2023年2月(2)PostHoc多重比較當(dāng)方差分析檢驗的結(jié)果拒絕原假設(shè)時,只能得到各水平間的樣本均值不完全相同的結(jié)論。如果要想明確是哪一個因素水平的均值或哪幾個同其他均值不相等,就需要進行多重比較。進一步確定控制變量的不同水平對觀測變量的影響程度,哪個水平的作用明顯區(qū)別于其他水平,哪個水平作用不顯著等第26頁,課件共97頁,創(chuàng)作于2023年2月PostHoc多重比較目的如果總體均值存在差異,F(xiàn)檢驗不能說明哪個水平造成了觀察變量的顯著差異。多重比較將對每個水平的均值逐對進行比較檢驗。常用方法LSD法(適用于總體方差相等的情形,檢驗敏感度最高)實際上就是t檢驗的變形,只是在變異和自由度的計算上利用了整個樣本信息。Bonferroni方法(對犯第一類錯誤進行了控制)Tukey法;Scheffe法;S-N-K法第27頁,課件共97頁,創(chuàng)作于2023年2月(3)Options方差齊性對控制變量不同水平下各觀測變量總體方差是否相等進行分析(即方差齊性檢驗),同兩獨立樣本t檢驗的方差檢驗。即控制變量不同水平下各觀測變量總體方差是否相Homogeneityofvariance實現(xiàn)方差齊性檢驗。Descriptive基本描述統(tǒng)計量MeansPlot各水平下觀測變量均值折線圖第28頁,課件共97頁,創(chuàng)作于2023年2月(4)應(yīng)用舉例目的檢驗?zāi)骋粋€控制因素的改變是否會給觀察變量帶來顯著影響.例如:考察不同肥料對某農(nóng)作物畝產(chǎn)量是否有顯著差異.考察不同學(xué)歷是否對工資收入產(chǎn)生顯著影響.例“廣告地區(qū)與銷售額.sav”步驟【Analyze】【CompareMeans】【One-wayANOVA】第29頁,課件共97頁,創(chuàng)作于2023年2月

實際中對某個結(jié)果的影響因素可能有多個而不是唯一的,這時就需要進行雙因素甚至于多因素方差分析。雙因素方差分析的步驟與單因素方差分析的步驟完全類似,但要特別注意計算F值時每個因素的自由度的確定原則。第30頁,課件共97頁,創(chuàng)作于2023年2月三、多因素方差分析多因素方差分析是用來研究兩個或以上控制變量的不同水平是否對觀測變量產(chǎn)生顯著影響。多因素方差分析不僅能夠分析多個因素對觀測變量的獨立影響,更能分析多個控制因素的交互作用能否對觀測變量的分布產(chǎn)生影響,進而最終找到利于觀測變量的最優(yōu)組合。如農(nóng)作物產(chǎn)量(品種、施肥量),進一步分析哪種品種與哪種水平的施肥量是提高農(nóng)作物產(chǎn)量的最優(yōu)組合。第31頁,課件共97頁,創(chuàng)作于2023年2月分析思路明確觀測變量和若干控制變量固定效應(yīng)因素(FixedFactor):指的是該因素在樣本中所有可能的水平都出現(xiàn)了。隨機效應(yīng)因素(RandomFactor):該因素所有可能的取值在樣本中沒有都出現(xiàn),因此要用樣本來推論總體情況,包括未出現(xiàn)的水平。這不可避免的存在誤差(即隨機效應(yīng)),需要估計該誤差的大小,因此被稱為隨機因素。第32頁,課件共97頁,創(chuàng)作于2023年2月1、分析思路剖析觀測變量的方差控制變量獨立作用的影響:單個控制變量獨立作用對觀測變量的影響控制變量交互作用的影響:多個控制變量不同水平相互搭配后對觀測變量產(chǎn)生的影響

隨機因素的影響:抽樣誤差帶來的影響比較觀測變量總離差平方和中各部分的比例通常:第33頁,課件共97頁,創(chuàng)作于2023年2月分析思路第34頁,課件共97頁,創(chuàng)作于2023年2月交互作用的判斷A與B無交互作用A與B有交互作用

A1A2A1A2B125B125B2710B273第35頁,課件共97頁,創(chuàng)作于2023年2月2、步驟:(1)建立原假設(shè)和備擇假設(shè)(H0各控制變量不同水平下觀測變量各總體的均值無顯著差異,控制變量各效應(yīng)和交互作用效應(yīng)同時為0)第36頁,課件共97頁,創(chuàng)作于2023年2月步驟(2)選擇檢驗統(tǒng)計量,計算F和P(3)給定顯著性水平,確定臨界值;(4)決策。第37頁,課件共97頁,創(chuàng)作于2023年2月3、應(yīng)用舉例例“廣告地區(qū)與銷售額.sav”。對廣告形式、地區(qū)以及廣告形式與地區(qū)的交互作用是否對商品銷售額產(chǎn)生影響進行分析。步驟【Analyze】【GeneralLinearModel】【Univariate】第38頁,課件共97頁,創(chuàng)作于2023年2月4、進一步分析模型選擇(飽和、不飽和)對比檢驗(指定對比檢驗的檢驗值)控制變量交互作用圖形分析均值比較分析(Lsd法)方差齊性檢驗第39頁,課件共97頁,創(chuàng)作于2023年2月(1)模型選擇在飽和模型中,觀測變量總的變差被分解為控制變量獨立作用、控制變量交互作用以及抽樣誤差三部分。如果研究發(fā)現(xiàn)控制變量的某種交互作用沒有給觀測變量帶來顯著影響,就可建立非飽和模型如兩因素的非飽和模型:

原來的SSAB被合并到SSE中第40頁,課件共97頁,創(chuàng)作于2023年2月(2)其他功能對比檢驗(Contrasts):與指定的檢驗值進行比較控制變量交互作用的圖形分析:反映兩控制變量的交互情況均值檢驗:(PostHoc)對各控制變量不同水平下觀測變量的均值是否存在顯著差異進行比較。第41頁,課件共97頁,創(chuàng)作于2023年2月(3)應(yīng)用舉例例“廣告地區(qū)與銷售額.sav”。由前面分析可知:廣告形式與地區(qū)的交互作用不顯著,現(xiàn)進一步建立非飽和模型,并進行均值比較分析和交互作用圖形分析。變差分解:CorrectModel是X1、X2、X1*X2對應(yīng)變差的和,是線性模型整體解釋的部分Error是隨機因素引起的CorrectTotal=SST第42頁,課件共97頁,創(chuàng)作于2023年2月四、協(xié)方差分析目的:將無法或很難人為控制的因素作為協(xié)變量,并在排除協(xié)變量影響的條件下,分析控制變量(可控)對觀測變量的作用,從而更準(zhǔn)確地地對因素進行評價。協(xié)方差分析仍然采用方差分析的基本思想,并在分析觀測變量時,考慮了協(xié)變量的影響,認(rèn)為觀測變量的變動受四個因素的影響:控制變量的獨立作用、控制變量的交互作用、協(xié)變量的作用和隨機因素的作用,并在扣除協(xié)變量的影響后,再分析控制變量對觀測變量的影響。第43頁,課件共97頁,創(chuàng)作于2023年2月四、協(xié)方差分析原假設(shè):協(xié)變量對觀測變量的線性影響是不顯著的;在協(xié)變量影響扣除下,控制變量各水平下觀測變量的總體均值無顯著差異,控制變量各水平對觀測變量的效應(yīng)同時為零。檢驗統(tǒng)計量F是各均方與隨機因素引起的均方的比。相對于隨機因素引起的變差,協(xié)變量帶來的變差比例較大,即F較大,說明協(xié)變量是引起觀測變量變動的主要因素之一,觀測變量的的變動可以部分地由協(xié)變量來線性解釋在扣除了協(xié)變量的線性影響后,控制變量對觀測變量的影響同方差分析第44頁,課件共97頁,創(chuàng)作于2023年2月四、協(xié)方差分析如何扣除協(xié)變量對觀測變量的線性影響?如果將控制變量看作解釋變量,觀測變量看作被解釋變量,那么協(xié)方差分析就是介于方差分析和線性回歸分析之間的分析方法(要求多個協(xié)變量間無交互作用,于是可以參照回歸分析中對解釋變量的處理方式來處理協(xié)變量)。此外,協(xié)方差分析中常常要求多個協(xié)變量之間無交互作用,且觀測變量與協(xié)變量間有顯著的線性關(guān)系第45頁,課件共97頁,創(chuàng)作于2023年2月協(xié)方差分析基本思路:協(xié)變量是數(shù)值型的;與觀測變量的線性關(guān)系在各水平均成立,且斜率大致相同。SS總=SS協(xié)+SSA+SSB+SSAB+SSe步驟【Analyze】【GeneralLinearModel】【Univariate】注意:在彈出的對話框中將協(xié)變量選入【Covariate(s)】欄第46頁,課件共97頁,創(chuàng)作于2023年2月應(yīng)用舉例

“生豬與飼料.sav”第47頁,課件共97頁,創(chuàng)作于2023年2月變差分解:CorrectModel是X1、X2、X1*X2對應(yīng)變差的和,是線性模型整體解釋的部分Error是隨機因素引起的CorrectTotal=SST輸出結(jié)果分析第48頁,課件共97頁,創(chuàng)作于2023年2月4.4非參數(shù)檢驗一、單樣本非參數(shù)檢驗二、兩獨立樣本非參數(shù)檢驗三、多獨立樣本非參數(shù)檢驗四、兩配對樣本非參數(shù)檢驗五、多配對樣本非參數(shù)檢驗第49頁,課件共97頁,創(chuàng)作于2023年2月一、單樣本非參數(shù)檢驗對單個總體的分布形態(tài)等進行推斷的方法。第50頁,課件共97頁,創(chuàng)作于2023年2月1、c2檢驗:擬合優(yōu)度檢驗

(定序數(shù)據(jù))【例1】一種飲料的容器材料可以選擇玻璃、塑料或者金屬。為了比較消費者對包裝材料的偏好,抽樣調(diào)查了120名消費者發(fā)現(xiàn),最喜歡玻璃、塑料和金屬容器的分別有55、25和40人。根據(jù)調(diào)查結(jié)果,能否認(rèn)為消費者對3種材料的偏好程度是無差異的(顯著性水平a=0.05)?見“材料種類.sav”第51頁,課件共97頁,創(chuàng)作于2023年2月檢驗統(tǒng)計量H0:樣本來自的總體分布與期望分布或某一理論分布無顯著差異。如卡方值較小,說明觀測頻數(shù)分布與期望頻數(shù)分布接近第52頁,課件共97頁,創(chuàng)作于2023年2月c2檢驗:擬合適度檢驗例2:據(jù)以往經(jīng)驗,機床發(fā)生故障的頻數(shù)服從均勻分布。某車間在一周內(nèi)統(tǒng)計所有機床發(fā)生故障頻數(shù)資料如下:試問故障頻數(shù)是否服從均勻分布(0.05)星期一二三四五六故障頻數(shù)78391617第53頁,課件共97頁,創(chuàng)作于2023年2月分析:原假設(shè):一周內(nèi)故障頻數(shù)服從均勻分布,則每日發(fā)生故障的概率為1/6由分布表查得6-1;0.05=11.07;由于實際值大于臨界值拒絕原假設(shè),認(rèn)為周內(nèi)機床發(fā)生故障頻數(shù)不服從均勻分布第54頁,課件共97頁,創(chuàng)作于2023年2月特別說明大樣本、每個單元中的期望頻數(shù)大于等于5時可以使用c2分布。小樣本時應(yīng)該按照精確方法計算得到的p值得出結(jié)論。c2檢驗也可以按照同樣的思想對正態(tài)分布或者任何想象的其他分布進行檢驗,但主要用于對定性變量的檢驗。另外,c2檢驗也可以用于對兩個總體分布的比較。第55頁,課件共97頁,創(chuàng)作于2023年2月步驟:AmalyzeNonparametricTestsChi-SquareTestVariableList待檢驗變量

ExpectedRange參與分析的觀察值的范圍

ExpectedValues給出各個理論值第56頁,課件共97頁,創(chuàng)作于2023年2月軟件操作:結(jié)果分析觀察數(shù)期望數(shù)殘差1.005540.015.02.002540.0-15.03.004040.0.0總數(shù)120材料卡方11.250df2漸近顯著性.004精確顯著性.003點概率.000結(jié)論:計算出的c2統(tǒng)計量的值為11.250,自由度為2,相應(yīng)的p值(漸近顯著性)為0.004,小于a=0.05。所以檢驗的結(jié)論是拒絕總體中消費者對3種材料的偏好程度無差異的零假設(shè)。第57頁,課件共97頁,創(chuàng)作于2023年2月2、二項分布檢驗(二值變量)通過樣本數(shù)據(jù)檢驗樣本來自的總體是否服從指定的概率為p的二項分布。原假設(shè):樣本來自的總體與指定的二項分布無顯著差異步驟:AmalyzeNonparametricTestsBinomial例子:產(chǎn)品合格率.sav;儲戶對未來收入的看法.sav(樂觀,0.6;保守或悲觀,0.4)第58頁,課件共97頁,創(chuàng)作于2023年2月3、K-S檢驗(連續(xù)變量)以俄羅斯數(shù)學(xué)家柯爾莫哥和斯米諾夫的名字命名的。K-S檢驗利用樣本數(shù)據(jù)推斷樣本來自的總體是否服從某一理論分布。是一種擬合優(yōu)度的檢驗方法,適用于探索連續(xù)性隨機變量的分布。原假設(shè):樣本來自的總體與指定的理論分布無顯著差異第59頁,課件共97頁,創(chuàng)作于2023年2月【例】例:周歲兒童身高.sav。檢驗?zāi)芊裾J(rèn)為總體中兒童身高服從正態(tài)分布(顯著性水平a=0.05)。H0:總體中兒童身高服從正態(tài)分布。H1:總體中兒童身高不服從正態(tài)分布。又例:儲戶存款金額總體分布.sav第60頁,課件共97頁,創(chuàng)作于2023年2月4、游程檢驗

(變量的隨機性檢驗)通過對樣本變量值的分析,實現(xiàn)對總體的變量值出現(xiàn)是否隨機進行檢驗變量值隨機性檢驗的重要依據(jù)是游程。游程指樣本序列中連續(xù)出現(xiàn)相同的變量值的次數(shù)游程數(shù)太大或太小都表明變量值存在不隨機的現(xiàn)象AmalyzeNonparametricTestsRuns第61頁,課件共97頁,創(chuàng)作于2023年2月變量的隨機性檢驗:

游程檢驗游程的抽樣分布的均值和方差分別為:大樣本時,游程近似服從正態(tài)分布SPSS自動計算Z統(tǒng)計量和概率P值例:電纜數(shù)據(jù).sav第62頁,課件共97頁,創(chuàng)作于2023年2月二、兩獨立樣本非參數(shù)檢驗在對總體分布不甚了解的情況下,通過對兩組獨立樣本的分析來推斷樣本來自的兩個總體的分布是否存在顯著差異的方法。獨立樣本:在一個總體中隨機抽樣對在另一總體中隨機抽樣沒有影響的情況下所獲得的樣本。檢驗方法:曼-惠特尼U檢驗;K-S檢驗;W-W游程檢驗;極端反應(yīng)檢驗等第63頁,課件共97頁,創(chuàng)作于2023年2月1、曼-惠特尼U檢驗用于對兩個總體分布的比較判斷。通過對兩組樣本平均秩的研究來實現(xiàn)的原假設(shè):兩組獨立樣本來自的總體分布無顯著差異第64頁,課件共97頁,創(chuàng)作于2023年2月步驟:①將兩組樣本數(shù)據(jù)和混合并按升序排序,得到每個數(shù)據(jù)各自的秩②分別對各組樣本數(shù)據(jù)的秩求平均,得到兩個平均秩對兩個平均秩的差距進行比較③計算樣本每個秩優(yōu)于樣本每個秩的個數(shù)U1

,以及樣本每個秩優(yōu)于樣本每個秩的個數(shù)U2,,對U1

、U2,進行比較,如相差較大,則有必要懷疑原假設(shè)的真實性④依據(jù)U1

、U2計算WilconxonW統(tǒng)計量和曼-惠特尼U統(tǒng)計量第65頁,課件共97頁,創(chuàng)作于2023年2月步驟:④依據(jù)U1

、U2計算WilconxonW統(tǒng)計量和曼-惠特尼U統(tǒng)計量。第66頁,課件共97頁,創(chuàng)作于2023年2月步驟:第67頁,課件共97頁,創(chuàng)作于2023年2月2、兩獨立樣本的K-S檢驗檢驗兩總體分布是否存在顯著差異原假設(shè):兩組獨立樣本來自的兩總體的分布無顯著差異分析步驟:(1)兩組樣本混合并按升序排列(2)分別計算兩組樣本秩的累計頻數(shù)和累計頻率(3)計算兩組累計頻率的差,得到秩的差值序列并得到D統(tǒng)計量SPSS自動計算在大樣本下如果概率P值小于給定的顯著性水平,則因拒絕原假設(shè)H0。認(rèn)為兩總體的分布有顯著差異第68頁,課件共97頁,創(chuàng)作于2023年2月3、極端反應(yīng)檢驗從另一角度檢驗兩獨立樣本說來自的兩總體分布是否存在顯著差異原假設(shè):兩獨立樣本來自的兩個總體的分布無顯著差異基本思路:一組樣本作為控制樣本,另一組作為實驗樣本。檢驗實驗樣本相對于控制樣本是否出現(xiàn)了極端反映。如未出現(xiàn),則認(rèn)為兩總體分布無顯著差異第69頁,課件共97頁,創(chuàng)作于2023年2月步驟(1)兩組樣本混合按升序排序(2)求出控制樣本的最小秩和最大秩并計算出跨度(Span):(3)為消除樣本數(shù)據(jù)中極端值對分析結(jié)果的影響,在計算跨度之前可按比例(通常為5%)去除控制樣本中部分靠近兩端的樣本值,然后再求跨度,得到截頭跨度如(截頭)跨度較小,則是兩樣本數(shù)據(jù)無法充分混合,一組樣本值顯著大于另一組樣本值的結(jié)果,可以認(rèn)為相對于控制樣本,實驗樣本出現(xiàn)了極端反應(yīng),樣本來自的兩總體分布存在顯著差異。針對(截頭)跨度計算H檢驗統(tǒng)計量,即:第70頁,課件共97頁,創(chuàng)作于2023年2月4、兩獨立樣本的游程檢驗檢驗兩獨立樣本來自的兩總體的的分布是否無顯著差異。原假設(shè):兩組樣本來自的兩總體的分布無顯著差異步驟:(1)兩組樣本混合并按升序排列(2)對組標(biāo)記值序列計算游程數(shù);如兩總體分布存在較大差距,那么游程數(shù)會相對較少;如游程數(shù)比較大,則應(yīng)是兩組樣本值充分混合的結(jié)果,兩總體的分布不會存在顯著差異(3)根據(jù)游程數(shù)計算Z統(tǒng)計量,該統(tǒng)計量近似服從正態(tài)分布第71頁,課件共97頁,創(chuàng)作于2023年2月5、應(yīng)用舉例兩種不同工藝下產(chǎn)品的使用壽命數(shù)據(jù),判斷其分布是否存在顯著差異,進而對兩種工藝的優(yōu)劣進行評價。(顯著性水平a=0.05)?!笆褂脡勖?savH0:兩種工藝的使用壽命無顯著差異;H1:兩種工藝的使用壽命差異顯著。操作:

AnalyzeNonparametricTests2IndependentSamples第72頁,課件共97頁,創(chuàng)作于2023年2月分析在彈出的對話框中將“使用壽命”設(shè)定為檢驗變量,“工藝”設(shè)定為分組變量,然后單擊“定義組”,按照“工藝”的取值進行設(shè)定,然后單擊“繼續(xù)”,檢驗類型使用默認(rèn)“Mann-WhitneyU”,單擊“確定”第73頁,課件共97頁,創(chuàng)作于2023年2月結(jié)果分析根據(jù)精確檢驗的p值,在顯著性水平大于0.002時我們應(yīng)該拒絕原假設(shè),結(jié)論是本科與研究生的收入的中位數(shù)不相等。第74頁,課件共97頁,創(chuàng)作于2023年2月三、多獨立樣本的非參數(shù)檢驗通過分析多組獨立樣本數(shù)據(jù),推斷樣本來自的多個總體的中位數(shù)或分布是否存在顯著差異檢驗方法:Kruskal-Wallis檢驗、中位數(shù)檢驗、Jonckheere-Terpstra檢驗等第75頁,課件共97頁,創(chuàng)作于2023年2月1、Kruskal-Walls檢驗是兩獨立樣本的曼-惠特尼U檢驗在多個獨立樣本下的推廣原假設(shè):多個獨立樣本來自的多個總體的分布無顯著差異基本思想:先將多組樣本數(shù)據(jù)混合并按升序排列,求出個變量的秩;然后,考察各組秩的均值是否存在顯著差異為研究各組秩的差異可借鑒方差分析法第76頁,課件共97頁,創(chuàng)作于2023年2月Kruskal-Walls檢驗方差分析法認(rèn)為,各樣本組秩的總變差一方面來源于不同樣本組之間的差異(組間差),另一方面來源于各樣本組內(nèi)的抽樣誤差(組內(nèi)差)。如各樣本組秩的總變差的大部分可由組間差解釋,則表明確實各樣本組的總體分布存在顯著差異?;诖?,可構(gòu)造K-W檢驗統(tǒng)計量第77頁,課件共97頁,創(chuàng)作于2023年2月Kruskal-Walls檢驗第78頁,課件共97頁,創(chuàng)作于2023年2月2、中位數(shù)檢驗通過對多組獨立樣本的分析,檢驗他們來自的總體的中位數(shù)是否存在顯著差異。原假設(shè):多個獨立樣本來自的多個總體的中位數(shù)無顯著差異基本思想:如多個總體的中位數(shù)無顯著差異,或者說多個總體有共同的中位數(shù),那么這個共同的中位數(shù)應(yīng)在各樣本組中均處在中間位置上。于是,每組樣本中大于或小于該中位數(shù)的樣本數(shù)目應(yīng)大致相同第79頁,課件共97頁,創(chuàng)作于2023年2月中位數(shù)檢驗分析步驟:(1)多組樣本混合并按升序排列;(2)分別計算各組樣本中大于或小于上述中位數(shù)的樣本個數(shù);(3)利用卡方檢驗分析各組樣本來自的總體對于上述中位數(shù)的分布是否一致;第80頁,課件共97頁,創(chuàng)作于2023年2月3、Jonckheere-Terpstra檢驗檢驗多個獨立樣本來自的多個總體的分布是否存在顯著差異原假設(shè):多個獨立樣本來自的多個總體的分布無顯著差異基本思路:兩獨立樣本的曼-惠特尼U檢驗類似。計算一組樣本的觀察值小于其他組樣本的觀察值的個數(shù)第81頁,課件共97頁,創(chuàng)作于2023年2月4、例:多城市兒童身高.sav。判斷多城市周歲兒童的身高分布是否存在顯著差異操作:AmalyzeNonparametricTestsKIndependentSamples將“周歲兒童身高”設(shè)定為檢驗變量,“城市”設(shè)定為分組變量,然后單擊“定義組”,檢驗類型使用默認(rèn)“Kruskal-WallisH”,單擊“確定”第82頁,課件共97頁,創(chuàng)作于2023年2月結(jié)果分析結(jié)論:p值為0.003。由于p值很小,所以有理由拒絕原假設(shè),即認(rèn)為這四個城市兒童身高分布差異顯著。第83頁,課件共97頁,創(chuàng)作于2023年2月特別說明在樣本量較小時,應(yīng)當(dāng)使用精確檢驗的結(jié)果,根據(jù)c2分布進行近似會有較大的誤差。嚴(yán)格來說用Kruskal-Wallis檢驗對多個總體的中位數(shù)進行假設(shè)檢驗,需要假多個總體分布有類似的形狀才能得出可靠的結(jié)論。

第84頁,課件共97頁,創(chuàng)作于2023年2月四、兩配對樣本的非參數(shù)檢驗是在對總體分布不甚了解的情況下,通過對兩組配對樣本的分析,推斷樣本來自的兩個總體的分布是否存在顯著差異的方法。檢驗方法:Wilcoxon檢驗、符號檢驗、McNemar檢驗等第85頁,課件共97頁,創(chuàng)作于2023年2月1、Wilcoxon檢驗基本思路:用第二組樣本的各觀察值減去第一組樣本的各觀察值,差值為正則記正號,差值為負則記負號,并同時保存差值數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論