數(shù)學(xué)第一章數(shù)據(jù)描述性分析課件_第1頁
數(shù)學(xué)第一章數(shù)據(jù)描述性分析課件_第2頁
數(shù)學(xué)第一章數(shù)據(jù)描述性分析課件_第3頁
數(shù)學(xué)第一章數(shù)據(jù)描述性分析課件_第4頁
數(shù)學(xué)第一章數(shù)據(jù)描述性分析課件_第5頁
已閱讀5頁,還剩187頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第一章數(shù)據(jù)描述性分析數(shù)字特征分布特征多元數(shù)據(jù)的數(shù)字特征與相關(guān)分析(位置特性、分散性、分布形狀)(反映數(shù)據(jù)整體結(jié)構(gòu))1第一章數(shù)據(jù)描述性分析數(shù)字特征分布特征多元數(shù)據(jù)的數(shù)字特§1.1一維數(shù)據(jù)的數(shù)字特征設(shè)有n個(gè)一維數(shù)據(jù):它們是從所研究的對(duì)象(總體)X中觀測得到的,這n個(gè)值稱為樣本觀測值,n稱為樣本容量。數(shù)據(jù)分析的任務(wù):對(duì)樣本觀測值進(jìn)行分析,提取數(shù)據(jù)中所包含的有用信息,進(jìn)一步對(duì)總體的信息做出判斷。數(shù)字特征:數(shù)據(jù)的集中位置、分散程度、數(shù)據(jù)分布的形狀特征等2§1.1一維數(shù)據(jù)的數(shù)字特征設(shè)有n個(gè)一維數(shù)據(jù):它們是從所研究§1.1.1表示位置的數(shù)字特征均值即的平均數(shù)表示數(shù)據(jù)的集中位置缺點(diǎn):缺乏抗擾性(穩(wěn)健性)設(shè)是n個(gè)觀測值,將它們從小到大記為稱它們?yōu)榇涡蚪y(tǒng)計(jì)量。顯然,最小次序統(tǒng)計(jì)量x(1)與最大次序統(tǒng)計(jì)量x(n)分別為3§1.1.1表示位置的數(shù)字特征均值即§1.1.1表示位置的數(shù)字特征中位數(shù)表示數(shù)據(jù)的中心位置計(jì)算公式注意:1、對(duì)于對(duì)稱分布的數(shù)據(jù),均值和中位數(shù)較接近;而其它分布的數(shù)據(jù),二者不同。2、具有穩(wěn)健性4§1.1.1表示位置的數(shù)字特征中位數(shù)表示數(shù)據(jù)的中心位置計(jì)算§1.1.1表示位置的數(shù)字特征分位數(shù)其中[np]為np的整數(shù)部分。當(dāng)p=1時(shí),定義M1=x(n).對(duì)0≤p<1,數(shù)據(jù)x1,x2,……,xn的p分位數(shù)是注意:1、大體上整個(gè)樣本的100p%的觀測值不超過p分位數(shù)。2、0.5分位數(shù)M0.5(第50百分位數(shù))就是中位數(shù)M。p分位數(shù)又稱為第100p百分?jǐn)?shù)。5§1.1.1表示位置的數(shù)字特征分位數(shù)其中[np]為np的整常用的分位數(shù)它們分別稱為上、下四分位數(shù),并分別簡記為

0.75分位數(shù)M0.75(第75百分位數(shù))

0.25分位數(shù)M0.25(第25百分位數(shù))總結(jié):1、均值計(jì)算用到了樣本的全部信息;2、中位數(shù)M僅用到了數(shù)據(jù)分布中的部分信息;3、在正常情況下,均值比中位數(shù)描述數(shù)據(jù)的集中位置要優(yōu);4、當(dāng)存在異常數(shù)據(jù)時(shí),均值缺乏穩(wěn)健性,而中位數(shù)具有很強(qiáng)的穩(wěn)健性。6常用的分位數(shù)它們分別稱為上、下四分位數(shù),并分別簡記為0三均值計(jì)算公式§1.1.1表示位置的數(shù)字特征7三均值計(jì)算公式§1.1.1表示位置的數(shù)字特征7例1.1考慮下列樣本:

53113178計(jì)算均值、中位數(shù)、上、下四分位數(shù),M0.99,M0.95,M0.90,M0.10,M0.05,M0.01分位數(shù)及三均值。解:次序統(tǒng)計(jì)量133578118例1.1考慮下列樣本:解:次序統(tǒng)計(jì)量13次序統(tǒng)計(jì)量13357811M0.95=11,M0.90=11,M0.10=1,M0.05=19次序統(tǒng)計(jì)量13357例1.2某單位對(duì)100名女學(xué)生測定血清總蛋白含量(g/L),具體數(shù)據(jù)見課本P5例1.2計(jì)算均值、中位數(shù)、上、下四分位數(shù),M0.99,M0.95,M0.90,M0.10,M0.05,M0.01分位數(shù)及三均值。example1_210例1.2某單位對(duì)100名女學(xué)生測定血清總蛋白含量(g/L)方差、標(biāo)準(zhǔn)差、變異系數(shù)§1.1.2表示分散性的數(shù)字特征方差:相對(duì)于均值的偏差平方的平均標(biāo)準(zhǔn)差:方差的算術(shù)平方根變異系數(shù):刻畫數(shù)據(jù)相對(duì)分散性11方差、標(biāo)準(zhǔn)差、變異系數(shù)§1.1.2表示分散性的數(shù)字特征方差極差、四分位極差§1.1.2表示分散性的數(shù)字特征極差四分位極差注意:以上兩種度量均具有抗擾性12極差、四分位極差§1.1.2表示分散性的數(shù)字特征極判斷異常值的方法稱為數(shù)據(jù)的上、下截?cái)帱c(diǎn)。大于上截?cái)帱c(diǎn)的數(shù)據(jù)為特大值,小于下截?cái)帱c(diǎn)的數(shù)據(jù)為特小值,兩者皆為異常值。13判斷異常值的方法稱為數(shù)據(jù)的上、下截?cái)帱c(diǎn)。大于上截?cái)帱c(diǎn)的數(shù)據(jù)為例1.3考慮下列樣本:

53113178方差、標(biāo)準(zhǔn)差、變異系數(shù)、極差、四分位極差,并分析是否由異常值。解:14例1.3考慮下列樣本:解:14次序統(tǒng)計(jì)量13357811上、下截?cái)帱c(diǎn)結(jié)論:該樣本數(shù)據(jù)中無異常值15次序統(tǒng)計(jì)量13357例1.4求數(shù)據(jù)(見課本P5例1.1)的方差、標(biāo)準(zhǔn)差、變異系數(shù)、極差、四分位極差,并分析是否由異常值。解:通過計(jì)算得結(jié)論:無異常值16例1.4求數(shù)據(jù)(見課本P5例1.1)的方差、標(biāo)準(zhǔn)差、變異系例1.5求數(shù)據(jù)(見課本P5例1.2)的方差、標(biāo)準(zhǔn)差、變異系數(shù)、極差、四分位極差,并分析是否由異常值。解:通過計(jì)算得結(jié)論:84.3為異常值17例1.5求數(shù)據(jù)(見課本P5例1.2)的方差、標(biāo)準(zhǔn)差、變異系將84.3剔除,再進(jìn)行計(jì)算得比較未剔除前結(jié)論:剔除異常值后,均值與中位數(shù)更為接近;上、下四分位數(shù)與四分位極差未發(fā)生改變,說明其抗擾性好;方差、標(biāo)準(zhǔn)差缺乏抗擾性。18將84.3剔除,再進(jìn)行計(jì)算得比較未剔除前結(jié)論:剔除異常值后,偏度§1.1.3表示分布形狀的數(shù)字特征計(jì)算公式k階原點(diǎn)矩k階中心矩顯然,一階原點(diǎn)矩ν1即均值其中s是標(biāo)準(zhǔn)差。偏度刻畫數(shù)據(jù)的對(duì)稱性。19偏度§1.1.3表示分布形狀的數(shù)字特征計(jì)算公式k階原點(diǎn)矩k注意:1、關(guān)于均值對(duì)稱的數(shù)據(jù)其偏度為0;2、正的偏度表示位于均值右側(cè)的數(shù)據(jù)較為分散;3、負(fù)的偏度說明位于均值左側(cè)的數(shù)據(jù)較為分散。見課本P3圖1.120注意:1、關(guān)于均值對(duì)稱的數(shù)據(jù)其偏度為0;見課本P3圖1.12峰度§1.1.3表示分布形狀的數(shù)字特征計(jì)算公式峰度以正態(tài)分布為標(biāo)準(zhǔn),比較兩側(cè)極端數(shù)據(jù)分布情況的指標(biāo)。21峰度§1.1.3表示分布形狀的數(shù)字特征計(jì)算公式峰若峰度大于零,則表示數(shù)據(jù)中含有較多遠(yuǎn)離均值的極端數(shù)值,此時(shí)分布有一個(gè)沉重的尾巴(或稱粗尾);若峰度小于零,則表示均值兩側(cè)的極端數(shù)據(jù)較少;峰度可作為偏離正態(tài)分布的尺度。22若峰度大于零,則表示數(shù)據(jù)中含有較多遠(yuǎn)離均值的極端數(shù)值例1.6求數(shù)據(jù)(見課本P5例1.2)的偏度、峰度。解:通過計(jì)算得從結(jié)果看來,偏度和峰度的絕對(duì)值均較小,可以看作數(shù)據(jù)取自正態(tài)總體。23例1.6求數(shù)據(jù)(見課本P5例1.2)的偏度、峰度。解:通過設(shè)數(shù)據(jù)x1,x2,…,xn是由總體X中得到的樣本觀測值,總體的分布函數(shù)是F(x)§1.1.4由樣本的數(shù)字特征推廣到總體的特征當(dāng)X為離散型時(shí),總體的分布可由概率分布列描述:當(dāng)X為連續(xù)型時(shí),總體的分布可由概率函數(shù)f(x)刻畫舉例正態(tài)分布概率密度函數(shù)分布函數(shù)24設(shè)數(shù)據(jù)x1,x2,…,xn是由總體X中得到的樣本觀設(shè)總體均值為μ=E(X),由大數(shù)定律,當(dāng)n較大時(shí),樣本均值可以作為總體均值的估計(jì),即當(dāng)n充分大,的ξp為總體分布F(x)的p分位數(shù)。設(shè)總體分布F(x)是連續(xù)型分布,0<p<1,稱滿足考慮總體p分位數(shù)ξp唯一的情況,在一定條件下,樣本的p分位數(shù)Mp是總體p分位數(shù)ξp的相合估計(jì),因此,當(dāng)n充分大時(shí)§1.1.4由樣本的數(shù)字特征推廣到總體的特征25設(shè)總體均值為μ=E(X),由大數(shù)定律,當(dāng)n較大時(shí),樣本均§1.1.4由樣本的數(shù)字特征推廣到總體的特征數(shù)據(jù)的方差s2、標(biāo)準(zhǔn)差s、變異系數(shù)CV分別是總體方差σ2=Var(X)、總體標(biāo)準(zhǔn)差σ=sqrt(Var(X))、總體變異系數(shù)r=σ/μ的相合估計(jì):即當(dāng)樣本容量n充分大時(shí),有正態(tài)總體N(μ,σ2)的上、下四分位數(shù)

總體四分位極差26§1.1.4由樣本的數(shù)字特征推廣到總體的特征數(shù)據(jù)的方差s§1.1.4由樣本的數(shù)字特征推廣到總體的特征

總體偏度是度量總體分布是否偏向某一側(cè)的指標(biāo)1、對(duì)稱分布的偏度為0;2、總體分布向右側(cè)擴(kuò)展,偏度為正;3、總體分布向左側(cè)擴(kuò)展,偏度為負(fù);見課本P4圖1.2其中μ3=E(X-μ)3為總體X的3階中心矩。27§1.1.4由樣本的數(shù)字特征推廣到總體的特征總體偏度是度§1.1.4由樣本的數(shù)字特征推廣到總體的特征

總體峰度是以同方差的正態(tài)分布為標(biāo)準(zhǔn),比較總體分布尾部分散性的指標(biāo)1、當(dāng)總體分布是正態(tài)分布時(shí),總體峰度G2=0;2、當(dāng)G2>0,總體分布中極端數(shù)值分布范圍較廣;3、當(dāng)G2<0,總體分布中極端數(shù)值分布范圍較少;見課本P4圖1.3其中μ4=E(X-μ)4為總體X的4階中心矩。28§1.1.4由樣本的數(shù)字特征推廣到總體的特征總體峰度是以例1.71952~1997年我國人均生產(chǎn)總值數(shù)據(jù)見課本P7表1.2(單位:元),計(jì)算這批數(shù)據(jù)的數(shù)字特征,并找出異常值。解:通過計(jì)算得1、s2、s較大,說明數(shù)據(jù)分散性較大;2、數(shù)據(jù)分布圖像明顯偏右,且右端出現(xiàn)很多極端值3、存在異常值:2287、2939、3923、4854、5576、607929例1.71952~1997年我國人均生產(chǎn)總值數(shù)據(jù)見課本P7設(shè)ξ1,ξ2,…是一列獨(dú)立同分布的隨機(jī)變量,且數(shù)學(xué)期望存在:Eξi=a,i=1,2,…則對(duì)任意的ε>0,有

成立。辛欽大數(shù)定律30設(shè)ξ1,ξ2,…是一列獨(dú)立同分布的隨機(jī)變量,且數(shù)學(xué)相合估計(jì)(一致估計(jì))設(shè)對(duì)每個(gè)自然數(shù)n,是θ的估計(jì)量,若依概率收斂于θ,即對(duì)任意ε>0,有

則稱為θ的相合估計(jì)。31相合估計(jì)(一致估計(jì))設(shè)對(duì)每個(gè)自然數(shù)n,§1.2數(shù)據(jù)的分布數(shù)據(jù)分布的描述方法直方圖、莖葉圖、理論分布分布擬合檢驗(yàn)和正態(tài)性檢驗(yàn)32§1.2數(shù)據(jù)的分布數(shù)據(jù)分布的描述方法32§1.2.1直方圖、經(jīng)驗(yàn)分布函數(shù)與QQ圖首先將數(shù)據(jù)取值的范圍分成若干區(qū)間(一般是等間隔的),每個(gè)區(qū)間的長度稱為組距??疾鞌?shù)據(jù)落入每個(gè)區(qū)間的頻數(shù)或頻率,在每個(gè)區(qū)間上畫一矩形,相應(yīng)寬度是組距,高度可以是頻數(shù)、頻率或頻率/組距。

在高度是頻率/組距的情況,每一矩形的面積恰是數(shù)據(jù)落入相應(yīng)區(qū)間的頻率,這種直方圖可以估計(jì)總體的概率密度。直方圖proccapability過程33§1.2.1直方圖、經(jīng)驗(yàn)分布函數(shù)與QQ圖首先將數(shù)例1.8利用課本P5例1.2的數(shù)據(jù),作直方圖。作直方圖的基本語句PROCCAPABILITYoptions;HISTOGRAMvariable/options;PROCCAPABILITYoptions,選項(xiàng)為①DATA=SASdataset:指定所分析的SAS數(shù)據(jù)集名稱;②GRAPHICS:指明作高分辨率圖形。缺省時(shí)將輸出由字符構(gòu)成的低分辨率圖形;③NOPRINT:取消PROCUNIVARIATE過程統(tǒng)計(jì)量的輸出。(2)HISTOGRAMvariable/options,關(guān)于變量variable作出直方圖,其中選項(xiàng)為①M(fèi)IDPOINTS=values:設(shè)置分組區(qū)間的中點(diǎn)值。(缺省自動(dòng)設(shè)置)②VSCALE=scale:標(biāo)注每個(gè)區(qū)間的高度,其中scale可選count、percent和proportion之一,缺省為percent。34例1.8利用課本P5例1.2的數(shù)據(jù),作直方圖。作直方圖的直方圖35直方圖35§1.2.1直方圖、經(jīng)驗(yàn)分布函數(shù)與QQ圖參數(shù)分布擬合在限定的參數(shù)分布類(如正態(tài)分布)中通過對(duì)參數(shù)的估計(jì),用估計(jì)的參數(shù)所對(duì)應(yīng)的密度曲線去擬合直方圖頂部的形態(tài)。SAS系統(tǒng)提供的參數(shù)分布類型見課本P12,其中正態(tài)分布最為常見(2)HISTOGRAMvariable/options,關(guān)于變量variable作出直方圖,其中選項(xiàng)為③NORMAL/LOGNORMAL/EXPONENTIAL/GAMMA/WEIBULL/BETA之一:在直方圖上擬合指定分布的概率密度函數(shù)曲線36§1.2.1直方圖、經(jīng)驗(yàn)分布函數(shù)與QQ圖參數(shù)分布擬合例1.8利用課本P5例1.2的數(shù)據(jù),擬合正態(tài)分布曲線。37例1.8利用課本P5例1.2的數(shù)據(jù),擬合正態(tài)分布曲線。3§1.2.1直方圖、經(jīng)驗(yàn)分布函數(shù)與QQ圖設(shè)來自總體分布F(x)的樣本x1,x2,…,xn,其次序統(tǒng)計(jì)量是x(1),x(2),…,x(n).經(jīng)驗(yàn)分布函數(shù)是經(jīng)驗(yàn)分布函數(shù)注意:(1)Fn(x)是非降的階梯函數(shù),在x(i)處的躍度是1/n(若x(i)重復(fù)取值k次,則躍度為k/n);(2)Fn(x)是總體分布函數(shù)的相合估計(jì),即當(dāng)n充分大時(shí),F(xiàn)(x)≈Fn(x).38§1.2.1直方圖、經(jīng)驗(yàn)分布函數(shù)與QQ圖設(shè)來自總例1.9利用課本P5例1.2的數(shù)據(jù),作經(jīng)驗(yàn)分布函數(shù)圖,并擬合正態(tài)分布函數(shù)曲線作經(jīng)驗(yàn)分布曲線及擬合的分布曲線的基本語句PROCCAPABILITYoptions;CDFPLOTvariable/options;(2)CDFPLOTvariable/options,關(guān)于變量variable作出經(jīng)驗(yàn)分布曲線,其中選項(xiàng)為NORMAL/LOGNORMAL/EXPONENTIAL/GAMMA/WEIBULL/BETA之一。39例1.9利用課本P5例1.2的數(shù)據(jù),作經(jīng)驗(yàn)分布函數(shù)圖,并經(jīng)驗(yàn)分布函數(shù)及正態(tài)擬合曲線40經(jīng)驗(yàn)分布函數(shù)及正態(tài)擬合曲線40§1.2.1直方圖、經(jīng)驗(yàn)分布函數(shù)與QQ圖假定總體分布為正態(tài)分布N(μ,σ2),對(duì)于樣本是x1,x2,…,xn,其次序統(tǒng)計(jì)量是x(1),x(2),…,x(n).設(shè)Φ(x)是標(biāo)準(zhǔn)正態(tài)分布N(0,1)的分布函數(shù),Φ-1(x)是其反函數(shù),對(duì)應(yīng)正態(tài)分布的QQ圖是由以下的點(diǎn)構(gòu)成的散點(diǎn)圖:QQ圖41§1.2.1直方圖、經(jīng)驗(yàn)分布函數(shù)與QQ圖假定總體分§1.2.1直方圖、經(jīng)驗(yàn)分布函數(shù)與QQ圖若樣本數(shù)據(jù)近似于正態(tài)分布,在QQ圖上這些點(diǎn)近似在直線y=σx+μ附近。這里σ、μ分別是正態(tài)分布的標(biāo)準(zhǔn)差和期望。QQ圖42§1.2.1直方圖、經(jīng)驗(yàn)分布函數(shù)與QQ圖若樣本數(shù)據(jù)例1.10利用課本P5例1.2的數(shù)據(jù),作正態(tài)QQ圖,并從直觀上鑒別樣本數(shù)據(jù)是否來自正態(tài)分布總體;作QQ圖的基本語句PROCCAPABILITYoptions;QQPLOTvariable/options;(2)QQPLOTvariable/options,關(guān)于變量variable作出QQ圖,其中選項(xiàng)為NORMAL/LOGNORMAL/EXPONENTIAL/GAMMA/WEIBULL/BETA之一。43例1.10利用課本P5例1.2的數(shù)據(jù),作正態(tài)QQ圖,并從QQ圖44QQ圖44§1.2.1直方圖、經(jīng)驗(yàn)分布函數(shù)與QQ圖從QQ圖觀察樣本偏度和峰度45§1.2.1直方圖、經(jīng)驗(yàn)分布函數(shù)與QQ圖從QQ圖觀察樣本偏§1.2.2莖葉圖解:第一個(gè)數(shù)25的十位數(shù)字為2,個(gè)位數(shù)字為5,中間用“|”分開,即25--->2|5每個(gè)數(shù)都這樣處理。莖葉圖的制作步驟:將十位數(shù)字2,3,4,5,6,7,8,9,10按縱列從上到下排列,在縱列右側(cè)從上到下畫一豎線,再在豎線右側(cè)由小到大依次寫上具有相同十位數(shù)的原數(shù)據(jù)的相應(yīng)個(gè)位數(shù),在最后一列寫出位于同一行的數(shù)據(jù)的頻數(shù)。例1.11某班有31名學(xué)生,某門課程的考試成績見課本P16例1.11,作出莖葉圖。46§1.2.2莖葉圖解:第一個(gè)數(shù)25的十位數(shù)字為2,個(gè)位數(shù)字§1.2.2莖葉圖莖葉圖中,豎線左邊作為數(shù)據(jù)前導(dǎo)數(shù)位的串視為“莖”,每一行豎線右側(cè)尾隨的數(shù)字視為“葉”。頻數(shù)2513451504536148372558958134445666799913901124100147§1.2.2莖葉圖莖葉圖中,豎線左邊作為數(shù)據(jù)前§1.2.2莖葉圖總結(jié):(1)莖葉圖與直方圖均可以直觀的反映數(shù)據(jù)的分布情況,在莖葉圖中,可以看出數(shù)據(jù)是否接近對(duì)稱、分散性如何、是否有異常數(shù)據(jù)、是否有間隙等;(2)利用莖葉圖可以看出由原始數(shù)據(jù)得到的次序統(tǒng)計(jì)量。48§1.2.2莖葉圖總結(jié):(1)莖葉圖與直方圖均可以直觀§1.2.2莖葉圖例1.12鉛壓鑄件硬度數(shù)據(jù)見課本P16例1.12,作出數(shù)據(jù)的莖葉圖。PROCUNIVARIATEoptions;其中選項(xiàng)為49§1.2.2莖葉圖例1.12鉛壓鑄件硬度數(shù)據(jù)見課本P16§1.2.3正態(tài)性檢驗(yàn)與分布擬合檢驗(yàn)檢驗(yàn)統(tǒng)計(jì)量為例1.13設(shè)x1,x2,…,xn是來自正態(tài)總體N(μ,σ2)樣本,假設(shè)檢驗(yàn):在H0成立時(shí),t服從自由度為n-1的t分布t(n-1).正態(tài)性檢驗(yàn)50§1.2.3正態(tài)性檢驗(yàn)與分布擬合檢驗(yàn)檢驗(yàn)統(tǒng)計(jì)量為例1.13§1.2.3正態(tài)性檢驗(yàn)與分布擬合檢驗(yàn)對(duì)給定的顯著水平α,設(shè)tα/2(n-1)是t(n-1)的上側(cè)α/2分位數(shù),則當(dāng)|t|>tα/2(n-1)時(shí),拒絕H0;否則,接受H0。51§1.2.3正態(tài)性檢驗(yàn)與分布擬合檢驗(yàn)對(duì)給定的顯著水§1.2.3正態(tài)性檢驗(yàn)與分布擬合檢驗(yàn)tα/2(n-1)滿足P{|t|>tα/2(n-1)}=α對(duì)于具體計(jì)算得到的t值t0,若|t0|>tα/2(n-1),拒絕H0;否則接受H0。對(duì)大量重復(fù)試驗(yàn),t是隨機(jī)變量,且服從t(n-1).當(dāng)|t0|>tα/2(n-1)時(shí),有P{|t|≥|t0|}<P{|t|>tα/2(n-1)}=α令p=P{|t|≥|t0|}

稱為上述檢驗(yàn)問題的p值。52§1.2.3正態(tài)性檢驗(yàn)與分布擬合檢驗(yàn)tα/2(n-1)滿足§1.2.3正態(tài)性檢驗(yàn)與分布擬合檢驗(yàn)注意到:“|t0|>tα/2(n-1)”與“p<α”等價(jià)假設(shè)檢驗(yàn)的P值方法對(duì)給定的顯著水平α,當(dāng)p<α?xí)r,拒絕H0;否則接受H0。P值方法的優(yōu)點(diǎn):避免了查檢驗(yàn)統(tǒng)計(jì)量的臨界值表,由“p<α”或“p≥α”即可得到檢驗(yàn)問題的結(jié)論。53§1.2.3正態(tài)性檢驗(yàn)與分布擬合檢驗(yàn)注意到:“|t0|>§1.2.3正態(tài)性檢驗(yàn)與分布擬合檢驗(yàn)χ2統(tǒng)計(jì)量1.

χ2檢驗(yàn)法其中n為樣本容量,l是分組數(shù),Oi=mi,Ei=npi為樣本落入第i組的頻數(shù)與樣本在第i組的理論頻數(shù),pi是數(shù)據(jù)落入第i組的概率,其值可根據(jù)原假設(shè)指定的分布求得。分布擬合檢驗(yàn)原理基于對(duì)數(shù)據(jù)按其取值范圍進(jìn)行分組后計(jì)算頻數(shù)的基礎(chǔ)上,考察每個(gè)區(qū)間的實(shí)際頻數(shù){mi}與理論頻數(shù){npi}的差異作出判斷54§1.2.3正態(tài)性檢驗(yàn)與分布擬合檢驗(yàn)χ2統(tǒng)計(jì)量1.χ2檢設(shè)pi是原假設(shè)H0為真時(shí),服從F0(x)的隨機(jī)變量取值于第i個(gè)區(qū)間(ai-1,ai]的概率,即1.

χ2檢驗(yàn)法假設(shè)檢驗(yàn)問題為將實(shí)軸分為l個(gè)區(qū)間,分點(diǎn)滿足得l個(gè)區(qū)間55設(shè)pi是原假設(shè)H0為真時(shí),服從F0(x)的隨機(jī)變量取值于第i設(shè)k是F0(x)中待估計(jì)參數(shù)的個(gè)數(shù),例如,原假設(shè)是正態(tài)分布,其中均值μ與方差σ2待估計(jì),此時(shí)k=2.1.

χ2檢驗(yàn)法從而得到檢驗(yàn)統(tǒng)計(jì)量χ256設(shè)k是F0(x)中待估計(jì)參數(shù)的個(gè)數(shù),1.χ2檢驗(yàn)法統(tǒng)計(jì)學(xué)研究表明:當(dāng)樣本容量n充分大且原假設(shè)H0為真時(shí),χ2統(tǒng)計(jì)量近似服從自由度為l-k-1的χ2分布,即χ2~χ2(l-k-1)

1.

χ2檢驗(yàn)法給定顯著水平α,設(shè)由樣本觀測值計(jì)算得到的χ2值是,令則當(dāng)p<α?xí)r,拒絕H0;否則接受H0。一般來說,若H0為真,χ2值較小,否則有偏大的趨勢57統(tǒng)計(jì)學(xué)研究表明:當(dāng)樣本容量n充分大且原假設(shè)H0為真時(shí),χ2§1.2.3正態(tài)性檢驗(yàn)與分布擬合檢驗(yàn)2.

經(jīng)驗(yàn)分布擬合檢驗(yàn)方法檢驗(yàn)分布函數(shù)Fn(x)是總體分布函數(shù)F(x)的估計(jì)。假設(shè)檢驗(yàn)問題為目的尋找Fn(x)與假設(shè)的總體分布函數(shù)F0(x)之間的差異58§1.2.3正態(tài)性檢驗(yàn)與分布擬合檢驗(yàn)2.經(jīng)驗(yàn)分布擬合檢驗(yàn)2.

經(jīng)驗(yàn)分布擬合檢驗(yàn)常用統(tǒng)計(jì)量KolmogorovD統(tǒng)計(jì)量A-D統(tǒng)計(jì)量C-vonM統(tǒng)計(jì)量一般來說,若H0為真,上述統(tǒng)計(jì)量值均較小,否則有偏大的趨勢592.經(jīng)驗(yàn)分布擬合檢驗(yàn)常用統(tǒng)計(jì)量KolmogorovD統(tǒng)計(jì)2.

經(jīng)驗(yàn)分布擬合檢驗(yàn)P值方法設(shè)由樣本觀測x1,x2,…,xn求得的KolmogorovD統(tǒng)計(jì)量、A-D統(tǒng)計(jì)量、C-vonM統(tǒng)計(jì)量的值分別是.令則對(duì)給定顯著水平α,(1)K-S檢驗(yàn):當(dāng)p1<α?xí)r,拒絕H0;否則接受H0。(2)A-D檢驗(yàn):當(dāng)p2<α?xí)r,拒絕H0;否則接受H0。(3)C-M檢驗(yàn):當(dāng)p3<α?xí)r,拒絕H0;否則接受H0。602.經(jīng)驗(yàn)分布擬合檢驗(yàn)P值方法設(shè)由樣本觀測x1,x2,…§1.2.3正態(tài)性檢驗(yàn)與分布擬合檢驗(yàn)3.

正態(tài)性W檢驗(yàn)方法設(shè)樣本觀測值為x1,x2,…,xn,其次序統(tǒng)計(jì)量是x(1),x(2),…,x(n).計(jì)算校正平方和又計(jì)算一般的當(dāng)n是偶數(shù)時(shí),1≤i≤k=n/2;當(dāng)n是奇數(shù)時(shí),1≤i≤k=n-1/261§1.2.3正態(tài)性檢驗(yàn)與分布擬合檢驗(yàn)3.正態(tài)性W檢驗(yàn)方法3.

正態(tài)性W檢驗(yàn)方法將di與系數(shù)ai(有表可查)相乘并求和,得計(jì)算注意W統(tǒng)計(jì)量總滿足0<W≤1.當(dāng)H0成立時(shí),W值接近1,否則趨近0。給定顯著水平α,設(shè)由樣本觀測值計(jì)算得到的W值是,令則當(dāng)p<α?xí)r,拒絕H0;否則接受H0。623.正態(tài)性W檢驗(yàn)方法將di與系數(shù)ai(有表可查)相乘§1.2.3正態(tài)性檢驗(yàn)與分布擬合檢驗(yàn)4.

SAS實(shí)現(xiàn)(1)正態(tài)性W檢驗(yàn)方法procunivariate(2)χ2檢驗(yàn)法proccapability(3)經(jīng)驗(yàn)分布擬合檢驗(yàn)proccapability63§1.2.3正態(tài)性檢驗(yàn)與分布擬合檢驗(yàn)4.SAS實(shí)現(xiàn)(1)例1.14對(duì)P5例1.2的數(shù)據(jù)作:(1)正態(tài)性W檢驗(yàn);(2)關(guān)于正態(tài)分布假設(shè)的χ2檢驗(yàn);(3)關(guān)于正態(tài)分布假設(shè)的幾種經(jīng)驗(yàn)分布擬合檢驗(yàn)。64例1.14對(duì)P5例1.2的數(shù)據(jù)作:64例1.15對(duì)P16例1.11的數(shù)據(jù)作:(1)正態(tài)性W檢驗(yàn);(2)若不接受總體為正態(tài)分布,選取一種合適的分布類型,作經(jīng)驗(yàn)分布擬合檢驗(yàn)。65例1.15對(duì)P16例1.11的數(shù)據(jù)作:65§1.3多維數(shù)據(jù)的數(shù)字特征與相關(guān)分析多元總體:§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關(guān)系數(shù)設(shè)(X,Y)T是二元總體,樣本觀測值為(x1,y1)T,(x2,y2)T,…,(xn,yn)T,引進(jìn)數(shù)據(jù)觀測矩陣66§1.3多維數(shù)據(jù)的數(shù)字特征與相關(guān)分析多元總體:§1.3.1§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關(guān)系數(shù)記記則,稱為二元觀測數(shù)據(jù)的均值向量。稱sxx為變量X的觀測數(shù)據(jù)的方差,稱syy為變量Y的觀測數(shù)據(jù)的方差,稱sxy為變量X,Y的觀測數(shù)據(jù)的協(xié)方差。67§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關(guān)系數(shù)記記則§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關(guān)系數(shù)稱為觀測數(shù)據(jù)的協(xié)方差矩陣。注意:(1)協(xié)方差矩陣總是對(duì)稱的(2)協(xié)方差矩陣總是非負(fù)定的,一般是正定的由Schwarz不等式68§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關(guān)系數(shù)稱為觀測數(shù)據(jù)的協(xié)方相關(guān)系數(shù)計(jì)算公式(2)相關(guān)系數(shù)rxy是隨機(jī)變量X,Y的觀測數(shù)據(jù)的兩個(gè)分量線性相關(guān)性密切程度的度量?!?.3.1二元數(shù)據(jù)的數(shù)字特征及相關(guān)系數(shù)注意:(1)當(dāng)rxy=0(或rxy≈0)時(shí),稱X,Y的觀測數(shù)據(jù)不相關(guān)(或近似不相關(guān))當(dāng)0<rxy<1時(shí),稱X,Y的觀測數(shù)據(jù)線性正相關(guān)當(dāng)-1<rxy<0時(shí),稱X,Y的觀測數(shù)據(jù)線性負(fù)相關(guān)當(dāng)|rxy|=1時(shí),稱X,Y的觀測數(shù)據(jù)完全線性相關(guān)69相關(guān)系數(shù)計(jì)算公式(2)相關(guān)系數(shù)rxy是隨機(jī)變量X,Y7070§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關(guān)系數(shù)設(shè)二元總體(X,Y)T的分布函數(shù)是F(x,y),總體協(xié)方差是Cov(X,Y),Var(X),Var(Y)是X,Y的方差,總體的相關(guān)系數(shù)是ρxy由于觀測數(shù)據(jù)的相關(guān)系數(shù)rxy是總體相關(guān)系數(shù)ρxy的相合估計(jì),故當(dāng)n充分大時(shí),有ρxy≈rxy71§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關(guān)系數(shù)設(shè)二元總§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關(guān)系數(shù)假設(shè)檢驗(yàn)可以證明,當(dāng)(X,Y)T是二元正態(tài)總體,且H0成立時(shí),統(tǒng)計(jì)量服從自由度為n-2的t分布t(n-2)72§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關(guān)系數(shù)假設(shè)檢驗(yàn)可以§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關(guān)系數(shù)對(duì)給定的顯著水平α,當(dāng)p<α?xí)r,拒絕H0;否則接受H0。當(dāng)拒絕H0時(shí),認(rèn)為算得的相關(guān)系數(shù)rxy有實(shí)際意義。以上定義的觀測數(shù)據(jù)的相關(guān)系數(shù)rxy稱為Pearson相關(guān)系數(shù)。設(shè)由實(shí)際觀測數(shù)據(jù)算得的相關(guān)系數(shù)值為,按上述公式算得的t值為t0,則p值為p=P{|t|≥|t0|}73§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關(guān)系數(shù)對(duì)給定的Spearman相關(guān)系數(shù)§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關(guān)系數(shù)設(shè)是從一元總體抽取的容量為n的樣本,其次序統(tǒng)計(jì)量是若xi=x(k),則稱k是xi在樣本中的秩,記作Ri,對(duì)每一個(gè)i=1,2,…,n,稱為Ri是第i個(gè)秩統(tǒng)計(jì)量,R1,R2,…,Rn總稱為秩統(tǒng)計(jì)量。74Spearman相關(guān)系數(shù)§1.3.1二元數(shù)據(jù)的數(shù)字特征及Spearman相關(guān)系數(shù)§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關(guān)系數(shù)例如,對(duì)樣本數(shù)據(jù)-0.8-3.11.1-5.24.2次序統(tǒng)計(jì)量是-5.2-3.1-0.81.14.2秩統(tǒng)計(jì)量是32415注意:當(dāng)觀測數(shù)據(jù)中有兩個(gè)觀測值相等,則相應(yīng)的秩統(tǒng)計(jì)量不能唯一確定。75Spearman相關(guān)系數(shù)§1.3.1二元數(shù)據(jù)的數(shù)字特征及§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關(guān)系數(shù)例如,對(duì)樣本數(shù)據(jù)-0.8-3.1-0.8次序統(tǒng)計(jì)量是-3.1-0.8-0.8秩統(tǒng)計(jì)量是213或312注意:通常對(duì)相同的觀測值,其秩取它們秩的平均值故上述樣本的秩統(tǒng)計(jì)量是

2.512.576§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關(guān)系數(shù)例如,對(duì)樣本數(shù)據(jù)Spearman相關(guān)系數(shù)§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關(guān)系數(shù)對(duì)于二元總體(X,Y)T的樣本觀測數(shù)據(jù)(x1,y1)T,(x2,y2)T,…,(xn,yn)T,可得各分量X,Y的一元樣本數(shù)據(jù)x1,x2,…,xn與y1,y2,…,yn.設(shè)x1,x2,…,xn的秩統(tǒng)計(jì)量是R1,R2,…,Rny1,y2,…,yn的秩統(tǒng)計(jì)量是S1,S2,…,Sn當(dāng)X,Y聯(lián)系比較緊密時(shí),這兩組秩統(tǒng)計(jì)量聯(lián)系也緊密77Spearman相關(guān)系數(shù)§1.3.1二元數(shù)據(jù)的數(shù)字特征及Spearman相關(guān)系數(shù)計(jì)算公式§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關(guān)系數(shù)其中由秩的定義可知,78Spearman相關(guān)系數(shù)計(jì)算公式§1.3.1二元數(shù)Spearman相關(guān)系數(shù)§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關(guān)系數(shù)同理,經(jīng)過整理化簡這里di=Ri-Si,i=1,2,…,n.假設(shè)檢驗(yàn)79Spearman相關(guān)系數(shù)§1.3.1二元數(shù)據(jù)的數(shù)字特征及例1.16對(duì)P37例1.22的數(shù)據(jù)作:(1)求二維觀測數(shù)據(jù)的均值向量和協(xié)方差矩陣S;(2)計(jì)算Pearson相關(guān)系數(shù)并檢驗(yàn)假設(shè)(3)計(jì)算Spearman相關(guān)系數(shù)并檢驗(yàn)上述假設(shè)。PROCCORRoptions;選項(xiàng)為①DATA=SASdataset:指定所分析的SAS數(shù)據(jù)集名稱;②PEARSON:輸出Pearson相關(guān)系數(shù)(默認(rèn));③SPEARMAN:輸出Spearman秩相關(guān)系數(shù);④COV:計(jì)算協(xié)方差矩陣;⑤NOSIMPLE:不輸出每個(gè)變量的簡單描述統(tǒng)計(jì)量的值。80例1.16對(duì)P37例1.22的數(shù)據(jù)作:PROCCOR§1.3多維數(shù)據(jù)的數(shù)字特征與相關(guān)分析§1.3.2多元數(shù)據(jù)的數(shù)字特征及相關(guān)矩陣設(shè)是p元總體,樣本觀測數(shù)據(jù)第i個(gè)觀測數(shù)據(jù)記為稱為樣品。81§1.3多維數(shù)據(jù)的數(shù)字特征與相關(guān)分析§1.3.2多元數(shù)據(jù)§1.3.2多元數(shù)據(jù)的數(shù)字特征及相關(guān)矩陣引進(jìn)數(shù)據(jù)觀測矩陣記有82§1.3.2多元數(shù)據(jù)的數(shù)字特征及相關(guān)矩陣引進(jìn)數(shù)據(jù)觀測矩陣記(1)第j行x(j)的均值§1.3.2多元數(shù)據(jù)的數(shù)字特征及相關(guān)矩陣(2)第j行x(j)的方差注意:(3)x(j),x(k)的協(xié)方差83(1)第j行x(j)的均值§1.3.2多元數(shù)據(jù)的數(shù)字特征及均值向量§1.3.2多元數(shù)據(jù)的數(shù)字特征及相關(guān)矩陣協(xié)方差矩陣有84均值向量§1.3.2多元數(shù)據(jù)的數(shù)字特征及相關(guān)矩陣協(xié)方差矩陣§1.3.2多元數(shù)據(jù)的數(shù)字特征及相關(guān)矩陣注意:rjj=1,|rjk|≤1(4)x(j)與x(k)的相關(guān)系數(shù)相關(guān)矩陣85§1.3.2多元數(shù)據(jù)的數(shù)字特征及相關(guān)矩陣注意:rjj=1,§1.3.2多元數(shù)據(jù)的數(shù)字特征及相關(guān)矩陣記注意:①相關(guān)矩陣R刻畫了變量之間線性聯(lián)系的密切程度;②S及R為非負(fù)定的,通常是正定的則86§1.3.2多元數(shù)據(jù)的數(shù)字特征及相關(guān)矩陣記注意:則86§1.3.2多元數(shù)據(jù)的數(shù)字特征及相關(guān)矩陣(5)Spearman相關(guān)矩陣注意:①Spearman相關(guān)矩陣Q適于研究具有一般分布的p元總體,且對(duì)有異常值的觀測數(shù)據(jù),具有穩(wěn)健性;②Q為非負(fù)定的,通常是正定的87§1.3.2多元數(shù)據(jù)的數(shù)字特征及相關(guān)矩陣(5)Spearm§1.3.3總體的數(shù)字特征及相關(guān)矩陣設(shè)是p元總體,其總體分布函數(shù)是F(x1,x2,…,xp)=F(x),其中x=(x1,x2,…,xp)T.在連續(xù)型總體存在概率密度f(x1,x2,…,xp)=f(x),其中x=(x1,x2,…,xp)T.總體均值令μi=E(Xi),i=1,2,…,pμ=(μ1,μ2,…,μp)T總體協(xié)方差矩陣其中特別的,當(dāng)j=k時(shí)88§1.3.3總體的數(shù)字特征及相關(guān)矩陣設(shè)Xj,Xk的相關(guān)系數(shù)計(jì)算公式§1.3.3總體的數(shù)字特征及相關(guān)矩陣相關(guān)矩陣注意:ρjj=1,|ρjk|≤189Xj,Xk的相關(guān)系數(shù)計(jì)算公式§1.3.3總體的數(shù)字記注意:Σ及ρ為非負(fù)定的,通常是正定的則§1.3.3總體的數(shù)字特征及相關(guān)矩陣90記注意:Σ及ρ為非負(fù)定的,通常是正定的則§1.3.3總體的§1.3.3總體的數(shù)字特征及相關(guān)矩陣在多元數(shù)據(jù)分析中,樣本數(shù)據(jù)的均值向量、協(xié)方差矩陣S及相關(guān)矩陣R分別是總體的均值向量μ、協(xié)方差矩陣Σ及相關(guān)矩陣ρ的相合估計(jì),即當(dāng)樣本容量n充分大時(shí),有91§1.3.3總體的數(shù)字特征及相關(guān)矩陣在多元數(shù)據(jù)分析§1.3.3總體的數(shù)字特征及相關(guān)矩陣在統(tǒng)計(jì)學(xué)中,當(dāng)μ、Σ未知時(shí),均值向量、協(xié)方差矩陣S為μ、Σ的無偏估計(jì)。92§1.3.3總體的數(shù)字特征及相關(guān)矩陣在統(tǒng)計(jì)學(xué)中中位數(shù)向量令Mj表示Xj的中位數(shù)§1.3.3總體的數(shù)字特征及相關(guān)矩陣M=(M1,M2,…,Mp)T注意:M為均值向量μ的穩(wěn)健性估計(jì)Spearman相關(guān)矩陣是總體相關(guān)矩陣ρ的穩(wěn)健性估計(jì)93中位數(shù)向量令Mj表示Xj的中位數(shù)§1.3.3總體的例1.17對(duì)P40例1.25的數(shù)據(jù)作:(1)計(jì)算均值向量、中位數(shù)向量M;(2)計(jì)算Pearson相關(guān)矩陣R及Spearman相關(guān)矩陣Q及對(duì)應(yīng)的p值,并作相關(guān)統(tǒng)計(jì)分析;PROCCORRoptions;94例1.17對(duì)P40例1.25的數(shù)據(jù)作:PROCCOR小結(jié)?基本內(nèi)容:?數(shù)據(jù)的數(shù)字特征:位置特征(均值、中位數(shù)、分位數(shù)、三均值),分散性特征(方差、標(biāo)準(zhǔn)差、極差及四分位極差),分布形狀特征(偏度、峰度),關(guān)聯(lián)性(Pearson相關(guān)系數(shù)、Spearman相關(guān)系數(shù))等;?數(shù)據(jù)的分布特征:直方圖,莖葉圖,經(jīng)驗(yàn)分布函數(shù);?多維正態(tài)分布及性質(zhì);?分布擬合檢驗(yàn):QQ圖檢驗(yàn),Pearson卡方檢驗(yàn)、

Kolmogorov-Smirnov檢驗(yàn)、Anderson-Darling檢驗(yàn)、Cramer-vonMises檢驗(yàn)等。95小結(jié)95?重點(diǎn)或難點(diǎn):?學(xué)會(huì)利用數(shù)據(jù)的描述性分析對(duì)數(shù)據(jù)的各種特性作初步了解,尤其是結(jié)合SAS軟件學(xué)會(huì)數(shù)據(jù)分布的擬合檢驗(yàn);?QQ圖:將數(shù)據(jù)按由小到大的順序排列得次序統(tǒng)計(jì)量,設(shè)某個(gè)給定的分布的分位數(shù)為則以

為點(diǎn)的坐標(biāo)的散點(diǎn)圖稱為該分布的QQ圖。若數(shù)據(jù)來自該分布,則這些點(diǎn)應(yīng)大致在一條直線上。以此檢驗(yàn)數(shù)據(jù)是否服從某一給定的分布。

96?重點(diǎn)或難點(diǎn):96?檢驗(yàn)p-值:設(shè)檢驗(yàn)?zāi)硨?duì)假設(shè)的檢驗(yàn)統(tǒng)計(jì)量為,其觀察值為t,則檢驗(yàn)的p-值定義為

在原假設(shè)為真時(shí),檢驗(yàn)統(tǒng)計(jì)量取其觀察值或更有利于被擇假設(shè)的值的概率?!纾喝魴z驗(yàn)統(tǒng)計(jì)量的值越大(小),越應(yīng)拒絕原假設(shè)(即越有利于被擇假設(shè)),則檢驗(yàn)p-值為或

▲若檢驗(yàn)統(tǒng)計(jì)量的零分布對(duì)稱,且其絕對(duì)值越大,越應(yīng)拒絕原假設(shè),則檢驗(yàn)p-值為97?檢驗(yàn)p-值:設(shè)檢驗(yàn)?zāi)硨?duì)假設(shè)的檢驗(yàn)第一章數(shù)據(jù)描述性分析數(shù)字特征分布特征多元數(shù)據(jù)的數(shù)字特征與相關(guān)分析(位置特性、分散性、分布形狀)(反映數(shù)據(jù)整體結(jié)構(gòu))98第一章數(shù)據(jù)描述性分析數(shù)字特征分布特征多元數(shù)據(jù)的數(shù)字特§1.1一維數(shù)據(jù)的數(shù)字特征設(shè)有n個(gè)一維數(shù)據(jù):它們是從所研究的對(duì)象(總體)X中觀測得到的,這n個(gè)值稱為樣本觀測值,n稱為樣本容量。數(shù)據(jù)分析的任務(wù):對(duì)樣本觀測值進(jìn)行分析,提取數(shù)據(jù)中所包含的有用信息,進(jìn)一步對(duì)總體的信息做出判斷。數(shù)字特征:數(shù)據(jù)的集中位置、分散程度、數(shù)據(jù)分布的形狀特征等99§1.1一維數(shù)據(jù)的數(shù)字特征設(shè)有n個(gè)一維數(shù)據(jù):它們是從所研究§1.1.1表示位置的數(shù)字特征均值即的平均數(shù)表示數(shù)據(jù)的集中位置缺點(diǎn):缺乏抗擾性(穩(wěn)健性)設(shè)是n個(gè)觀測值,將它們從小到大記為稱它們?yōu)榇涡蚪y(tǒng)計(jì)量。顯然,最小次序統(tǒng)計(jì)量x(1)與最大次序統(tǒng)計(jì)量x(n)分別為100§1.1.1表示位置的數(shù)字特征均值即§1.1.1表示位置的數(shù)字特征中位數(shù)表示數(shù)據(jù)的中心位置計(jì)算公式注意:1、對(duì)于對(duì)稱分布的數(shù)據(jù),均值和中位數(shù)較接近;而其它分布的數(shù)據(jù),二者不同。2、具有穩(wěn)健性101§1.1.1表示位置的數(shù)字特征中位數(shù)表示數(shù)據(jù)的中心位置計(jì)算§1.1.1表示位置的數(shù)字特征分位數(shù)其中[np]為np的整數(shù)部分。當(dāng)p=1時(shí),定義M1=x(n).對(duì)0≤p<1,數(shù)據(jù)x1,x2,……,xn的p分位數(shù)是注意:1、大體上整個(gè)樣本的100p%的觀測值不超過p分位數(shù)。2、0.5分位數(shù)M0.5(第50百分位數(shù))就是中位數(shù)M。p分位數(shù)又稱為第100p百分?jǐn)?shù)。102§1.1.1表示位置的數(shù)字特征分位數(shù)其中[np]為np的整常用的分位數(shù)它們分別稱為上、下四分位數(shù),并分別簡記為

0.75分位數(shù)M0.75(第75百分位數(shù))

0.25分位數(shù)M0.25(第25百分位數(shù))總結(jié):1、均值計(jì)算用到了樣本的全部信息;2、中位數(shù)M僅用到了數(shù)據(jù)分布中的部分信息;3、在正常情況下,均值比中位數(shù)描述數(shù)據(jù)的集中位置要優(yōu);4、當(dāng)存在異常數(shù)據(jù)時(shí),均值缺乏穩(wěn)健性,而中位數(shù)具有很強(qiáng)的穩(wěn)健性。103常用的分位數(shù)它們分別稱為上、下四分位數(shù),并分別簡記為0三均值計(jì)算公式§1.1.1表示位置的數(shù)字特征104三均值計(jì)算公式§1.1.1表示位置的數(shù)字特征7例1.1考慮下列樣本:

53113178計(jì)算均值、中位數(shù)、上、下四分位數(shù),M0.99,M0.95,M0.90,M0.10,M0.05,M0.01分位數(shù)及三均值。解:次序統(tǒng)計(jì)1.1考慮下列樣本:解:次序統(tǒng)計(jì)量13次序統(tǒng)計(jì)量13357811M0.95=11,M0.90=11,M0.10=1,M0.05=1106次序統(tǒng)計(jì)量13357例1.2某單位對(duì)100名女學(xué)生測定血清總蛋白含量(g/L),具體數(shù)據(jù)見課本P5例1.2計(jì)算均值、中位數(shù)、上、下四分位數(shù),M0.99,M0.95,M0.90,M0.10,M0.05,M0.01分位數(shù)及三均值。example1_2107例1.2某單位對(duì)100名女學(xué)生測定血清總蛋白含量(g/L)方差、標(biāo)準(zhǔn)差、變異系數(shù)§1.1.2表示分散性的數(shù)字特征方差:相對(duì)于均值的偏差平方的平均標(biāo)準(zhǔn)差:方差的算術(shù)平方根變異系數(shù):刻畫數(shù)據(jù)相對(duì)分散性108方差、標(biāo)準(zhǔn)差、變異系數(shù)§1.1.2表示分散性的數(shù)字特征方差極差、四分位極差§1.1.2表示分散性的數(shù)字特征極差四分位極差注意:以上兩種度量均具有抗擾性109極差、四分位極差§1.1.2表示分散性的數(shù)字特征極判斷異常值的方法稱為數(shù)據(jù)的上、下截?cái)帱c(diǎn)。大于上截?cái)帱c(diǎn)的數(shù)據(jù)為特大值,小于下截?cái)帱c(diǎn)的數(shù)據(jù)為特小值,兩者皆為異常值。110判斷異常值的方法稱為數(shù)據(jù)的上、下截?cái)帱c(diǎn)。大于上截?cái)帱c(diǎn)的數(shù)據(jù)為例1.3考慮下列樣本:

53113178方差、標(biāo)準(zhǔn)差、變異系數(shù)、極差、四分位極差,并分析是否由異常值。解:111例1.3考慮下列樣本:解:14次序統(tǒng)計(jì)量13357811上、下截?cái)帱c(diǎn)結(jié)論:該樣本數(shù)據(jù)中無異常值112次序統(tǒng)計(jì)量13357例1.4求數(shù)據(jù)(見課本P5例1.1)的方差、標(biāo)準(zhǔn)差、變異系數(shù)、極差、四分位極差,并分析是否由異常值。解:通過計(jì)算得結(jié)論:無異常值113例1.4求數(shù)據(jù)(見課本P5例1.1)的方差、標(biāo)準(zhǔn)差、變異系例1.5求數(shù)據(jù)(見課本P5例1.2)的方差、標(biāo)準(zhǔn)差、變異系數(shù)、極差、四分位極差,并分析是否由異常值。解:通過計(jì)算得結(jié)論:84.3為異常值114例1.5求數(shù)據(jù)(見課本P5例1.2)的方差、標(biāo)準(zhǔn)差、變異系將84.3剔除,再進(jìn)行計(jì)算得比較未剔除前結(jié)論:剔除異常值后,均值與中位數(shù)更為接近;上、下四分位數(shù)與四分位極差未發(fā)生改變,說明其抗擾性好;方差、標(biāo)準(zhǔn)差缺乏抗擾性。115將84.3剔除,再進(jìn)行計(jì)算得比較未剔除前結(jié)論:剔除異常值后,偏度§1.1.3表示分布形狀的數(shù)字特征計(jì)算公式k階原點(diǎn)矩k階中心矩顯然,一階原點(diǎn)矩ν1即均值其中s是標(biāo)準(zhǔn)差。偏度刻畫數(shù)據(jù)的對(duì)稱性。116偏度§1.1.3表示分布形狀的數(shù)字特征計(jì)算公式k階原點(diǎn)矩k注意:1、關(guān)于均值對(duì)稱的數(shù)據(jù)其偏度為0;2、正的偏度表示位于均值右側(cè)的數(shù)據(jù)較為分散;3、負(fù)的偏度說明位于均值左側(cè)的數(shù)據(jù)較為分散。見課本P3圖1.1117注意:1、關(guān)于均值對(duì)稱的數(shù)據(jù)其偏度為0;見課本P3圖1.12峰度§1.1.3表示分布形狀的數(shù)字特征計(jì)算公式峰度以正態(tài)分布為標(biāo)準(zhǔn),比較兩側(cè)極端數(shù)據(jù)分布情況的指標(biāo)。118峰度§1.1.3表示分布形狀的數(shù)字特征計(jì)算公式峰若峰度大于零,則表示數(shù)據(jù)中含有較多遠(yuǎn)離均值的極端數(shù)值,此時(shí)分布有一個(gè)沉重的尾巴(或稱粗尾);若峰度小于零,則表示均值兩側(cè)的極端數(shù)據(jù)較少;峰度可作為偏離正態(tài)分布的尺度。119若峰度大于零,則表示數(shù)據(jù)中含有較多遠(yuǎn)離均值的極端數(shù)值例1.6求數(shù)據(jù)(見課本P5例1.2)的偏度、峰度。解:通過計(jì)算得從結(jié)果看來,偏度和峰度的絕對(duì)值均較小,可以看作數(shù)據(jù)取自正態(tài)總體。120例1.6求數(shù)據(jù)(見課本P5例1.2)的偏度、峰度。解:通過設(shè)數(shù)據(jù)x1,x2,…,xn是由總體X中得到的樣本觀測值,總體的分布函數(shù)是F(x)§1.1.4由樣本的數(shù)字特征推廣到總體的特征當(dāng)X為離散型時(shí),總體的分布可由概率分布列描述:當(dāng)X為連續(xù)型時(shí),總體的分布可由概率函數(shù)f(x)刻畫舉例正態(tài)分布概率密度函數(shù)分布函數(shù)121設(shè)數(shù)據(jù)x1,x2,…,xn是由總體X中得到的樣本觀設(shè)總體均值為μ=E(X),由大數(shù)定律,當(dāng)n較大時(shí),樣本均值可以作為總體均值的估計(jì),即當(dāng)n充分大,的ξp為總體分布F(x)的p分位數(shù)。設(shè)總體分布F(x)是連續(xù)型分布,0<p<1,稱滿足考慮總體p分位數(shù)ξp唯一的情況,在一定條件下,樣本的p分位數(shù)Mp是總體p分位數(shù)ξp的相合估計(jì),因此,當(dāng)n充分大時(shí)§1.1.4由樣本的數(shù)字特征推廣到總體的特征122設(shè)總體均值為μ=E(X),由大數(shù)定律,當(dāng)n較大時(shí),樣本均§1.1.4由樣本的數(shù)字特征推廣到總體的特征數(shù)據(jù)的方差s2、標(biāo)準(zhǔn)差s、變異系數(shù)CV分別是總體方差σ2=Var(X)、總體標(biāo)準(zhǔn)差σ=sqrt(Var(X))、總體變異系數(shù)r=σ/μ的相合估計(jì):即當(dāng)樣本容量n充分大時(shí),有正態(tài)總體N(μ,σ2)的上、下四分位數(shù)

總體四分位極差123§1.1.4由樣本的數(shù)字特征推廣到總體的特征數(shù)據(jù)的方差s§1.1.4由樣本的數(shù)字特征推廣到總體的特征

總體偏度是度量總體分布是否偏向某一側(cè)的指標(biāo)1、對(duì)稱分布的偏度為0;2、總體分布向右側(cè)擴(kuò)展,偏度為正;3、總體分布向左側(cè)擴(kuò)展,偏度為負(fù);見課本P4圖1.2其中μ3=E(X-μ)3為總體X的3階中心矩。124§1.1.4由樣本的數(shù)字特征推廣到總體的特征總體偏度是度§1.1.4由樣本的數(shù)字特征推廣到總體的特征

總體峰度是以同方差的正態(tài)分布為標(biāo)準(zhǔn),比較總體分布尾部分散性的指標(biāo)1、當(dāng)總體分布是正態(tài)分布時(shí),總體峰度G2=0;2、當(dāng)G2>0,總體分布中極端數(shù)值分布范圍較廣;3、當(dāng)G2<0,總體分布中極端數(shù)值分布范圍較少;見課本P4圖1.3其中μ4=E(X-μ)4為總體X的4階中心矩。125§1.1.4由樣本的數(shù)字特征推廣到總體的特征總體峰度是以例1.71952~1997年我國人均生產(chǎn)總值數(shù)據(jù)見課本P7表1.2(單位:元),計(jì)算這批數(shù)據(jù)的數(shù)字特征,并找出異常值。解:通過計(jì)算得1、s2、s較大,說明數(shù)據(jù)分散性較大;2、數(shù)據(jù)分布圖像明顯偏右,且右端出現(xiàn)很多極端值3、存在異常值:2287、2939、3923、4854、5576、6079126例1.71952~1997年我國人均生產(chǎn)總值數(shù)據(jù)見課本P7設(shè)ξ1,ξ2,…是一列獨(dú)立同分布的隨機(jī)變量,且數(shù)學(xué)期望存在:Eξi=a,i=1,2,…則對(duì)任意的ε>0,有

成立。辛欽大數(shù)定律127設(shè)ξ1,ξ2,…是一列獨(dú)立同分布的隨機(jī)變量,且數(shù)學(xué)相合估計(jì)(一致估計(jì))設(shè)對(duì)每個(gè)自然數(shù)n,是θ的估計(jì)量,若依概率收斂于θ,即對(duì)任意ε>0,有

則稱為θ的相合估計(jì)。128相合估計(jì)(一致估計(jì))設(shè)對(duì)每個(gè)自然數(shù)n,§1.2數(shù)據(jù)的分布數(shù)據(jù)分布的描述方法直方圖、莖葉圖、理論分布分布擬合檢驗(yàn)和正態(tài)性檢驗(yàn)129§1.2數(shù)據(jù)的分布數(shù)據(jù)分布的描述方法32§1.2.1直方圖、經(jīng)驗(yàn)分布函數(shù)與QQ圖首先將數(shù)據(jù)取值的范圍分成若干區(qū)間(一般是等間隔的),每個(gè)區(qū)間的長度稱為組距。考察數(shù)據(jù)落入每個(gè)區(qū)間的頻數(shù)或頻率,在每個(gè)區(qū)間上畫一矩形,相應(yīng)寬度是組距,高度可以是頻數(shù)、頻率或頻率/組距。

在高度是頻率/組距的情況,每一矩形的面積恰是數(shù)據(jù)落入相應(yīng)區(qū)間的頻率,這種直方圖可以估計(jì)總體的概率密度。直方圖proccapability過程130§1.2.1直方圖、經(jīng)驗(yàn)分布函數(shù)與QQ圖首先將數(shù)例1.8利用課本P5例1.2的數(shù)據(jù),作直方圖。作直方圖的基本語句PROCCAPABILITYoptions;HISTOGRAMvariable/options;PROCCAPABILITYoptions,選項(xiàng)為①DATA=SASdataset:指定所分析的SAS數(shù)據(jù)集名稱;②GRAPHICS:指明作高分辨率圖形。缺省時(shí)將輸出由字符構(gòu)成的低分辨率圖形;③NOPRINT:取消PROCUNIVARIATE過程統(tǒng)計(jì)量的輸出。(2)HISTOGRAMvariable/options,關(guān)于變量variable作出直方圖,其中選項(xiàng)為①M(fèi)IDPOINTS=values:設(shè)置分組區(qū)間的中點(diǎn)值。(缺省自動(dòng)設(shè)置)②VSCALE=scale:標(biāo)注每個(gè)區(qū)間的高度,其中scale可選count、percent和proportion之一,缺省為percent。131例1.8利用課本P5例1.2的數(shù)據(jù),作直方圖。作直方圖的直方圖132直方圖35§1.2.1直方圖、經(jīng)驗(yàn)分布函數(shù)與QQ圖參數(shù)分布擬合在限定的參數(shù)分布類(如正態(tài)分布)中通過對(duì)參數(shù)的估計(jì),用估計(jì)的參數(shù)所對(duì)應(yīng)的密度曲線去擬合直方圖頂部的形態(tài)。SAS系統(tǒng)提供的參數(shù)分布類型見課本P12,其中正態(tài)分布最為常見(2)HISTOGRAMvariable/options,關(guān)于變量variable作出直方圖,其中選項(xiàng)為③NORMAL/LOGNORMAL/EXPONENTIAL/GAMMA/WEIBULL/BETA之一:在直方圖上擬合指定分布的概率密度函數(shù)曲線133§1.2.1直方圖、經(jīng)驗(yàn)分布函數(shù)與QQ圖參數(shù)分布擬合例1.8利用課本P5例1.2的數(shù)據(jù),擬合正態(tài)分布曲線。134例1.8利用課本P5例1.2的數(shù)據(jù),擬合正態(tài)分布曲線。3§1.2.1直方圖、經(jīng)驗(yàn)分布函數(shù)與QQ圖設(shè)來自總體分布F(x)的樣本x1,x2,…,xn,其次序統(tǒng)計(jì)量是x(1),x(2),…,x(n).經(jīng)驗(yàn)分布函數(shù)是經(jīng)驗(yàn)分布函數(shù)注意:(1)Fn(x)是非降的階梯函數(shù),在x(i)處的躍度是1/n(若x(i)重復(fù)取值k次,則躍度為k/n);(2)Fn(x)是總體分布函數(shù)的相合估計(jì),即當(dāng)n充分大時(shí),F(xiàn)(x)≈Fn(x).135§1.2.1直方圖、經(jīng)驗(yàn)分布函數(shù)與QQ圖設(shè)來自總例1.9利用課本P5例1.2的數(shù)據(jù),作經(jīng)驗(yàn)分布函數(shù)圖,并擬合正態(tài)分布函數(shù)曲線作經(jīng)驗(yàn)分布曲線及擬合的分布曲線的基本語句PROCCAPABILITYoptions;CDFPLOTvariable/options;(2)CDFPLOTvariable/options,關(guān)于變量variable作出經(jīng)驗(yàn)分布曲線,其中選項(xiàng)為NORMAL/LOGNORMAL/EXPONENTIAL/GAMMA/WEIBULL/BETA之一。136例1.9利用課本P5例1.2的數(shù)據(jù),作經(jīng)驗(yàn)分布函數(shù)圖,并經(jīng)驗(yàn)分布函數(shù)及正態(tài)擬合曲線137經(jīng)驗(yàn)分布函數(shù)及正態(tài)擬合曲線40§1.2.1直方圖、經(jīng)驗(yàn)分布函數(shù)與QQ圖假定總體分布為正態(tài)分布N(μ,σ2),對(duì)于樣本是x1,x2,…,xn,其次序統(tǒng)計(jì)量是x(1),x(2),…,x(n).設(shè)Φ(x)是標(biāo)準(zhǔn)正態(tài)分布N(0,1)的分布函數(shù),Φ-1(x)是其反函數(shù),對(duì)應(yīng)正態(tài)分布的QQ圖是由以下的點(diǎn)構(gòu)成的散點(diǎn)圖:QQ圖138§1.2.1直方圖、經(jīng)驗(yàn)分布函數(shù)與QQ圖假定總體分§1.2.1直方圖、經(jīng)驗(yàn)分布函數(shù)與QQ圖若樣本數(shù)據(jù)近似于正態(tài)分布,在QQ圖上這些點(diǎn)近似在直線y=σx+μ附近。這里σ、μ分別是正態(tài)分布的標(biāo)準(zhǔn)差和期望。QQ圖139§1.2.1直方圖、經(jīng)驗(yàn)分布函數(shù)與QQ圖若樣本數(shù)據(jù)例1.10利用課本P5例1.2的數(shù)據(jù),作正態(tài)QQ圖,并從直觀上鑒別樣本數(shù)據(jù)是否來自正態(tài)分布總體;作QQ圖的基本語句PROCCAPABILITYoptions;QQPLOTvariable/options;(2)QQPLOTvariable/options,關(guān)于變量variable作出QQ圖,其中選項(xiàng)為NORMAL/LOGNORMAL/EXPONENTIAL/GAMMA/WEIBULL/BETA之一。140例1.10利用課本P5例1.2的數(shù)據(jù),作正態(tài)QQ圖,并從QQ圖141QQ圖44§1.2.1直方圖、經(jīng)驗(yàn)分布函數(shù)與QQ圖從QQ圖觀察樣本偏度和峰度142§1.2.1直方圖、經(jīng)驗(yàn)分布函數(shù)與QQ圖從QQ圖觀察樣本偏§1.2.2莖葉圖解:第一個(gè)數(shù)25的十位數(shù)字為2,個(gè)位數(shù)字為5,中間用“|”分開,即25--->2|5每個(gè)數(shù)都這樣處理。莖葉圖的制作步驟:將十位數(shù)字2,3,4,5,6,7,8,9,10按縱列從上到下排列,在縱列右側(cè)從上到下畫一豎線,再在豎線右側(cè)由小到大依次寫上具有相同十位數(shù)的原數(shù)據(jù)的相應(yīng)個(gè)位數(shù),在最后一列寫出位于同一行的數(shù)據(jù)的頻數(shù)。例1.11某班有31名學(xué)生,某門課程的考試成績見課本P16例1.11,作出莖葉圖。143§1.2.2莖葉圖解:第一個(gè)數(shù)25的十位數(shù)字為2,個(gè)位數(shù)字§1.2.2莖葉圖莖葉圖中,豎線左邊作為數(shù)據(jù)前導(dǎo)數(shù)位的串視為“莖”,每一行豎線右側(cè)尾隨的數(shù)字視為“葉”。頻數(shù)25134515045361483725589581344456667999139011241001144§1.2.2莖葉圖莖葉圖中,豎線左邊作為數(shù)據(jù)前§1.2.2莖葉圖總結(jié):(1)莖葉圖與直方圖均可以直觀的反映數(shù)據(jù)的分布情況,在莖葉圖中,可以看出數(shù)據(jù)是否接近對(duì)稱、分散性如何、是否有異常數(shù)據(jù)、是否有間隙等;(2)利用莖葉圖可以看出由原始數(shù)據(jù)得到的次序統(tǒng)計(jì)量。145§1.2.2莖葉圖總結(jié):(1)莖葉圖與直方圖均可以直觀§1.2.2莖葉圖例1.12鉛壓鑄件硬度數(shù)據(jù)見課本P16例1.12,作出數(shù)據(jù)的莖葉圖。PROCUNIVARIATEoptions;其中選項(xiàng)為146§1.2.2莖葉圖例1.12鉛壓鑄件硬度數(shù)據(jù)見課本P16§1.2.3正態(tài)性檢驗(yàn)與分布擬合檢驗(yàn)檢驗(yàn)統(tǒng)計(jì)量為例1.13設(shè)x1,x2,…,xn是來自正態(tài)總體N(μ,σ2)樣本,假設(shè)檢驗(yàn):在H0成立時(shí),t服從自由度為n-1的t分布t(n-1).正態(tài)性檢驗(yàn)147§1.2.3正態(tài)性檢驗(yàn)與分布擬合檢驗(yàn)檢驗(yàn)統(tǒng)計(jì)量為例1.13§1.2.3正態(tài)性檢驗(yàn)與分布擬合檢驗(yàn)對(duì)給定的顯著水平α,設(shè)tα/2(n-1)是t(n-1)的上側(cè)α/2分位數(shù),則當(dāng)|t|>tα/2(n-1)時(shí),拒絕H0;否則,接受H0。148§1.2.3正態(tài)性檢驗(yàn)與分布擬合檢驗(yàn)對(duì)給定的顯著水§1.2.3正態(tài)性檢驗(yàn)與分布擬合檢驗(yàn)tα/2(n-1)滿足P{|t|>tα/2(n-1)}=α對(duì)于具體計(jì)算得到的t值t0,若|t0|>tα/2(n-1),拒絕H0;否則接受H0。對(duì)大量重復(fù)試驗(yàn),t是隨機(jī)變量,且服從t(n-1).當(dāng)|t0|>tα/2(n-1)時(shí),有P{|t|≥|t0|}<P{|t|>tα/2(n-1)}=α令p=P{|t|≥|t0|}

稱為上述檢驗(yàn)問題的p值。149§1.2.3正態(tài)性檢驗(yàn)與分布擬合檢驗(yàn)tα/2(n-1)滿足§1.2.3正態(tài)性檢驗(yàn)與分布擬合檢驗(yàn)注意到:“|t0|>tα/2(n-1)”與“p<α”等價(jià)假設(shè)檢驗(yàn)的P值方法對(duì)給定的顯著水平α,當(dāng)p<α?xí)r,拒絕H0;否則接受H0。P值方法的優(yōu)點(diǎn):避免了查檢驗(yàn)統(tǒng)計(jì)量的臨界值表,由“p<α”或“p≥α”即可得到檢驗(yàn)問題的結(jié)論。150§1.2.3正態(tài)性檢驗(yàn)與分布擬合檢驗(yàn)注意到:“|t0|>§1.2.3正態(tài)性檢驗(yàn)與分布擬合檢驗(yàn)χ2統(tǒng)計(jì)量1.

χ2檢驗(yàn)法其中n為樣本容量,l是分組數(shù),Oi=mi,Ei=npi為樣本落入第i組的頻數(shù)與樣本在第i組的理論頻數(shù),pi是數(shù)據(jù)落入第i組的概率,其值可根據(jù)原假設(shè)指定的分布求得。分布擬合檢驗(yàn)原理基于對(duì)數(shù)據(jù)按其取值范圍進(jìn)行分組后計(jì)算頻數(shù)的基礎(chǔ)上,考察每個(gè)區(qū)間的實(shí)際頻數(shù){mi}與理論頻數(shù){npi}的差異作出判斷151§1.2.3正態(tài)性檢驗(yàn)與分布擬合檢驗(yàn)χ2統(tǒng)計(jì)量1.χ2檢設(shè)pi是原假設(shè)H0為真時(shí),服從F0(x)的隨機(jī)變量取值于第i個(gè)區(qū)間(ai-1,ai]的概率,即1.

χ2檢驗(yàn)法假設(shè)檢驗(yàn)問題為將實(shí)軸分為l個(gè)區(qū)間,分點(diǎn)滿足得l個(gè)區(qū)間152設(shè)pi是原假設(shè)H0為真時(shí),服從F0(x)的隨機(jī)變量取值于第i設(shè)k是F0(x)中待估計(jì)參數(shù)的個(gè)數(shù),例如,原假設(shè)是正態(tài)分布,其中均值μ與方差σ2待估計(jì),此時(shí)k=2.1.

χ2檢驗(yàn)法從而得到檢驗(yàn)統(tǒng)計(jì)量χ2153設(shè)k是F0(x)中待估計(jì)參數(shù)的個(gè)數(shù),1.χ2檢驗(yàn)法統(tǒng)計(jì)學(xué)研究表明:當(dāng)樣本容量n充分大且原假設(shè)H0為真時(shí),χ2統(tǒng)計(jì)量近似服從自由度為l-k-1的χ2分布,即χ2~χ2(l-k-1)

1.

χ2檢驗(yàn)法給定顯著水平α,設(shè)由樣本觀測值計(jì)算得到的χ2值是,令則當(dāng)p<α?xí)r,拒絕H0;否則接受H0。一般來說,若H0為真,χ2值較小,否則有偏大的趨勢154統(tǒng)計(jì)學(xué)研究表明:當(dāng)樣本容量n充分大且原假設(shè)H0為真時(shí),χ2§1.2.3正態(tài)性檢驗(yàn)與分布擬合檢驗(yàn)2.

經(jīng)驗(yàn)分布擬合檢驗(yàn)方法檢驗(yàn)分布函數(shù)Fn(x)是總體分布函數(shù)F(x)的估計(jì)。假設(shè)檢驗(yàn)問題為目的尋找Fn(x)與假設(shè)的總體分布函數(shù)F0(x)之間的差異155§1.2.3正態(tài)性檢驗(yàn)與分布擬合檢驗(yàn)2.經(jīng)驗(yàn)分布擬合檢驗(yàn)2.

經(jīng)驗(yàn)分布擬合檢驗(yàn)常用統(tǒng)計(jì)量KolmogorovD統(tǒng)計(jì)量A-D統(tǒng)計(jì)量C-vonM統(tǒng)計(jì)量一般來說,若H0為真,上述統(tǒng)計(jì)量值均較小,否則有偏大的趨勢1562.經(jīng)驗(yàn)分布擬合檢驗(yàn)常用統(tǒng)計(jì)量KolmogorovD統(tǒng)計(jì)2.

經(jīng)驗(yàn)分布擬合檢驗(yàn)P值方法設(shè)由樣本觀測x1,x2,…,xn求得的KolmogorovD統(tǒng)計(jì)量、A-D統(tǒng)計(jì)量、C-vonM統(tǒng)計(jì)量的值分別是.令則對(duì)給定顯著水平α,(1)K-S檢驗(yàn):當(dāng)p1<α?xí)r,拒絕H0;否則接受H0。(2)A-D檢驗(yàn):當(dāng)p2<α?xí)r,拒絕H0;否則接受H0。(3)C-M檢驗(yàn):當(dāng)p3<α?xí)r,拒絕H0;否則接受H0。1572.經(jīng)驗(yàn)分布擬合檢驗(yàn)P值方法設(shè)由樣本觀測x1,x2,…§1.2.3正態(tài)性檢驗(yàn)與分布擬合檢驗(yàn)3.

正態(tài)性W檢驗(yàn)方法設(shè)樣本觀測值為x1,x2,…,xn,其次序統(tǒng)計(jì)量是x(1),x(2),…,x(n).計(jì)算校正平方和又計(jì)算一般的當(dāng)n是偶數(shù)時(shí),1≤i≤k=n/2;當(dāng)n是奇數(shù)時(shí),1≤i≤k=n-1/2158§1.2.3正態(tài)性檢驗(yàn)與分布擬合檢驗(yàn)3.正態(tài)性W檢驗(yàn)方法3.

正態(tài)性W檢驗(yàn)方法將di與系數(shù)ai(有表可查)相乘并求和,得計(jì)算注意W統(tǒng)計(jì)量總滿足0<W≤1.當(dāng)H0成立時(shí),W值接近1,否則趨近0。給定顯著水平α,設(shè)由樣本觀測值計(jì)算得到的W值是,令則當(dāng)p<α?xí)r,拒絕H0;否則接受H0。1593.正態(tài)性W檢驗(yàn)方法將di與系數(shù)ai(有表可查)相乘§1.2.3正態(tài)性檢驗(yàn)與分布擬合檢驗(yàn)4.

SAS實(shí)現(xiàn)(1)正態(tài)性W檢驗(yàn)方法procunivariate(2)χ2檢驗(yàn)法proccapability(3)經(jīng)驗(yàn)分布擬合檢驗(yàn)proccapability160§1.2.3正態(tài)性檢驗(yàn)與分布擬合檢驗(yàn)4.SAS實(shí)現(xiàn)(1)例1.14對(duì)P5例1.2的數(shù)據(jù)作:(1)正態(tài)性W檢驗(yàn);(2)關(guān)于正態(tài)分布假設(shè)的χ2檢驗(yàn);(3)關(guān)于正態(tài)分布假設(shè)的幾種經(jīng)驗(yàn)分布擬合檢驗(yàn)。161例1.14對(duì)P5例1.2的數(shù)據(jù)作:64例1.15對(duì)P16例1.11的數(shù)據(jù)作:(1)正態(tài)性W檢驗(yàn);(2)若不接受總體為正態(tài)分布,選取一種合適的分布類型,作經(jīng)驗(yàn)分布擬合檢驗(yàn)。162例1.15對(duì)P16例1.11的數(shù)據(jù)作:65§1.3多維數(shù)據(jù)的數(shù)字特征與相關(guān)分析多元總體:§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關(guān)系數(shù)設(shè)(X,Y)T是二元總體,樣本觀測值為(x1,y1)T,(x2,y2)T,…,(xn,yn)T,引進(jìn)數(shù)據(jù)觀測矩陣163§1.3多維數(shù)據(jù)的數(shù)字特征與相關(guān)分析多元總體:§1.3.1§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關(guān)系數(shù)記記則,稱為二元觀測數(shù)據(jù)的均值向量。稱

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論