




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第一章數(shù)據(jù)描述性分析數(shù)字特征分布特征多元數(shù)據(jù)的數(shù)字特征與相關分析(位置特性、分散性、分布形狀)(反映數(shù)據(jù)整體結構)1第一章數(shù)據(jù)描述性分析數(shù)字特征分布特征多元數(shù)據(jù)的數(shù)字特§1.1一維數(shù)據(jù)的數(shù)字特征設有n個一維數(shù)據(jù):它們是從所研究的對象(總體)X中觀測得到的,這n個值稱為樣本觀測值,n稱為樣本容量。數(shù)據(jù)分析的任務:對樣本觀測值進行分析,提取數(shù)據(jù)中所包含的有用信息,進一步對總體的信息做出判斷。數(shù)字特征:數(shù)據(jù)的集中位置、分散程度、數(shù)據(jù)分布的形狀特征等2§1.1一維數(shù)據(jù)的數(shù)字特征設有n個一維數(shù)據(jù):它們是從所研究§1.1.1表示位置的數(shù)字特征均值即的平均數(shù)表示數(shù)據(jù)的集中位置缺點:缺乏抗擾性(穩(wěn)健性)設是n個觀測值,將它們從小到大記為稱它們?yōu)榇涡蚪y(tǒng)計量。顯然,最小次序統(tǒng)計量x(1)與最大次序統(tǒng)計量x(n)分別為3§1.1.1表示位置的數(shù)字特征均值即§1.1.1表示位置的數(shù)字特征中位數(shù)表示數(shù)據(jù)的中心位置計算公式注意:1、對于對稱分布的數(shù)據(jù),均值和中位數(shù)較接近;而其它分布的數(shù)據(jù),二者不同。2、具有穩(wěn)健性4§1.1.1表示位置的數(shù)字特征中位數(shù)表示數(shù)據(jù)的中心位置計算§1.1.1表示位置的數(shù)字特征分位數(shù)其中[np]為np的整數(shù)部分。當p=1時,定義M1=x(n).對0≤p<1,數(shù)據(jù)x1,x2,……,xn的p分位數(shù)是注意:1、大體上整個樣本的100p%的觀測值不超過p分位數(shù)。2、0.5分位數(shù)M0.5(第50百分位數(shù))就是中位數(shù)M。p分位數(shù)又稱為第100p百分數(shù)。5§1.1.1表示位置的數(shù)字特征分位數(shù)其中[np]為np的整常用的分位數(shù)它們分別稱為上、下四分位數(shù),并分別簡記為
0.75分位數(shù)M0.75(第75百分位數(shù))
0.25分位數(shù)M0.25(第25百分位數(shù))總結:1、均值計算用到了樣本的全部信息;2、中位數(shù)M僅用到了數(shù)據(jù)分布中的部分信息;3、在正常情況下,均值比中位數(shù)描述數(shù)據(jù)的集中位置要優(yōu);4、當存在異常數(shù)據(jù)時,均值缺乏穩(wěn)健性,而中位數(shù)具有很強的穩(wěn)健性。6常用的分位數(shù)它們分別稱為上、下四分位數(shù),并分別簡記為0三均值計算公式§1.1.1表示位置的數(shù)字特征7三均值計算公式§1.1.1表示位置的數(shù)字特征7例1.1考慮下列樣本:
53113178計算均值、中位數(shù)、上、下四分位數(shù),M0.99,M0.95,M0.90,M0.10,M0.05,M0.01分位數(shù)及三均值。解:次序統(tǒng)計量133578118例1.1考慮下列樣本:解:次序統(tǒng)計量13次序統(tǒng)計量13357811M0.95=11,M0.90=11,M0.10=1,M0.05=19次序統(tǒng)計量13357例1.2某單位對100名女學生測定血清總蛋白含量(g/L),具體數(shù)據(jù)見課本P5例1.2計算均值、中位數(shù)、上、下四分位數(shù),M0.99,M0.95,M0.90,M0.10,M0.05,M0.01分位數(shù)及三均值。example1_210例1.2某單位對100名女學生測定血清總蛋白含量(g/L)方差、標準差、變異系數(shù)§1.1.2表示分散性的數(shù)字特征方差:相對于均值的偏差平方的平均標準差:方差的算術平方根變異系數(shù):刻畫數(shù)據(jù)相對分散性11方差、標準差、變異系數(shù)§1.1.2表示分散性的數(shù)字特征方差極差、四分位極差§1.1.2表示分散性的數(shù)字特征極差四分位極差注意:以上兩種度量均具有抗擾性12極差、四分位極差§1.1.2表示分散性的數(shù)字特征極判斷異常值的方法稱為數(shù)據(jù)的上、下截斷點。大于上截斷點的數(shù)據(jù)為特大值,小于下截斷點的數(shù)據(jù)為特小值,兩者皆為異常值。13判斷異常值的方法稱為數(shù)據(jù)的上、下截斷點。大于上截斷點的數(shù)據(jù)為例1.3考慮下列樣本:
53113178方差、標準差、變異系數(shù)、極差、四分位極差,并分析是否由異常值。解:14例1.3考慮下列樣本:解:14次序統(tǒng)計量13357811上、下截斷點結論:該樣本數(shù)據(jù)中無異常值15次序統(tǒng)計量13357例1.4求數(shù)據(jù)(見課本P5例1.1)的方差、標準差、變異系數(shù)、極差、四分位極差,并分析是否由異常值。解:通過計算得結論:無異常值16例1.4求數(shù)據(jù)(見課本P5例1.1)的方差、標準差、變異系例1.5求數(shù)據(jù)(見課本P5例1.2)的方差、標準差、變異系數(shù)、極差、四分位極差,并分析是否由異常值。解:通過計算得結論:84.3為異常值17例1.5求數(shù)據(jù)(見課本P5例1.2)的方差、標準差、變異系將84.3剔除,再進行計算得比較未剔除前結論:剔除異常值后,均值與中位數(shù)更為接近;上、下四分位數(shù)與四分位極差未發(fā)生改變,說明其抗擾性好;方差、標準差缺乏抗擾性。18將84.3剔除,再進行計算得比較未剔除前結論:剔除異常值后,偏度§1.1.3表示分布形狀的數(shù)字特征計算公式k階原點矩k階中心矩顯然,一階原點矩ν1即均值其中s是標準差。偏度刻畫數(shù)據(jù)的對稱性。19偏度§1.1.3表示分布形狀的數(shù)字特征計算公式k階原點矩k注意:1、關于均值對稱的數(shù)據(jù)其偏度為0;2、正的偏度表示位于均值右側的數(shù)據(jù)較為分散;3、負的偏度說明位于均值左側的數(shù)據(jù)較為分散。見課本P3圖1.120注意:1、關于均值對稱的數(shù)據(jù)其偏度為0;見課本P3圖1.12峰度§1.1.3表示分布形狀的數(shù)字特征計算公式峰度以正態(tài)分布為標準,比較兩側極端數(shù)據(jù)分布情況的指標。21峰度§1.1.3表示分布形狀的數(shù)字特征計算公式峰若峰度大于零,則表示數(shù)據(jù)中含有較多遠離均值的極端數(shù)值,此時分布有一個沉重的尾巴(或稱粗尾);若峰度小于零,則表示均值兩側的極端數(shù)據(jù)較少;峰度可作為偏離正態(tài)分布的尺度。22若峰度大于零,則表示數(shù)據(jù)中含有較多遠離均值的極端數(shù)值例1.6求數(shù)據(jù)(見課本P5例1.2)的偏度、峰度。解:通過計算得從結果看來,偏度和峰度的絕對值均較小,可以看作數(shù)據(jù)取自正態(tài)總體。23例1.6求數(shù)據(jù)(見課本P5例1.2)的偏度、峰度。解:通過設數(shù)據(jù)x1,x2,…,xn是由總體X中得到的樣本觀測值,總體的分布函數(shù)是F(x)§1.1.4由樣本的數(shù)字特征推廣到總體的特征當X為離散型時,總體的分布可由概率分布列描述:當X為連續(xù)型時,總體的分布可由概率函數(shù)f(x)刻畫舉例正態(tài)分布概率密度函數(shù)分布函數(shù)24設數(shù)據(jù)x1,x2,…,xn是由總體X中得到的樣本觀設總體均值為μ=E(X),由大數(shù)定律,當n較大時,樣本均值可以作為總體均值的估計,即當n充分大,的ξp為總體分布F(x)的p分位數(shù)。設總體分布F(x)是連續(xù)型分布,0<p<1,稱滿足考慮總體p分位數(shù)ξp唯一的情況,在一定條件下,樣本的p分位數(shù)Mp是總體p分位數(shù)ξp的相合估計,因此,當n充分大時§1.1.4由樣本的數(shù)字特征推廣到總體的特征25設總體均值為μ=E(X),由大數(shù)定律,當n較大時,樣本均§1.1.4由樣本的數(shù)字特征推廣到總體的特征數(shù)據(jù)的方差s2、標準差s、變異系數(shù)CV分別是總體方差σ2=Var(X)、總體標準差σ=sqrt(Var(X))、總體變異系數(shù)r=σ/μ的相合估計:即當樣本容量n充分大時,有正態(tài)總體N(μ,σ2)的上、下四分位數(shù)
總體四分位極差26§1.1.4由樣本的數(shù)字特征推廣到總體的特征數(shù)據(jù)的方差s§1.1.4由樣本的數(shù)字特征推廣到總體的特征
總體偏度是度量總體分布是否偏向某一側的指標1、對稱分布的偏度為0;2、總體分布向右側擴展,偏度為正;3、總體分布向左側擴展,偏度為負;見課本P4圖1.2其中μ3=E(X-μ)3為總體X的3階中心矩。27§1.1.4由樣本的數(shù)字特征推廣到總體的特征總體偏度是度§1.1.4由樣本的數(shù)字特征推廣到總體的特征
總體峰度是以同方差的正態(tài)分布為標準,比較總體分布尾部分散性的指標1、當總體分布是正態(tài)分布時,總體峰度G2=0;2、當G2>0,總體分布中極端數(shù)值分布范圍較廣;3、當G2<0,總體分布中極端數(shù)值分布范圍較少;見課本P4圖1.3其中μ4=E(X-μ)4為總體X的4階中心矩。28§1.1.4由樣本的數(shù)字特征推廣到總體的特征總體峰度是以例1.71952~1997年我國人均生產總值數(shù)據(jù)見課本P7表1.2(單位:元),計算這批數(shù)據(jù)的數(shù)字特征,并找出異常值。解:通過計算得1、s2、s較大,說明數(shù)據(jù)分散性較大;2、數(shù)據(jù)分布圖像明顯偏右,且右端出現(xiàn)很多極端值3、存在異常值:2287、2939、3923、4854、5576、607929例1.71952~1997年我國人均生產總值數(shù)據(jù)見課本P7設ξ1,ξ2,…是一列獨立同分布的隨機變量,且數(shù)學期望存在:Eξi=a,i=1,2,…則對任意的ε>0,有
成立。辛欽大數(shù)定律30設ξ1,ξ2,…是一列獨立同分布的隨機變量,且數(shù)學相合估計(一致估計)設對每個自然數(shù)n,是θ的估計量,若依概率收斂于θ,即對任意ε>0,有
則稱為θ的相合估計。31相合估計(一致估計)設對每個自然數(shù)n,§1.2數(shù)據(jù)的分布數(shù)據(jù)分布的描述方法直方圖、莖葉圖、理論分布分布擬合檢驗和正態(tài)性檢驗32§1.2數(shù)據(jù)的分布數(shù)據(jù)分布的描述方法32§1.2.1直方圖、經(jīng)驗分布函數(shù)與QQ圖首先將數(shù)據(jù)取值的范圍分成若干區(qū)間(一般是等間隔的),每個區(qū)間的長度稱為組距。考察數(shù)據(jù)落入每個區(qū)間的頻數(shù)或頻率,在每個區(qū)間上畫一矩形,相應寬度是組距,高度可以是頻數(shù)、頻率或頻率/組距。
在高度是頻率/組距的情況,每一矩形的面積恰是數(shù)據(jù)落入相應區(qū)間的頻率,這種直方圖可以估計總體的概率密度。直方圖proccapability過程33§1.2.1直方圖、經(jīng)驗分布函數(shù)與QQ圖首先將數(shù)例1.8利用課本P5例1.2的數(shù)據(jù),作直方圖。作直方圖的基本語句PROCCAPABILITYoptions;HISTOGRAMvariable/options;PROCCAPABILITYoptions,選項為①DATA=SASdataset:指定所分析的SAS數(shù)據(jù)集名稱;②GRAPHICS:指明作高分辨率圖形。缺省時將輸出由字符構成的低分辨率圖形;③NOPRINT:取消PROCUNIVARIATE過程統(tǒng)計量的輸出。(2)HISTOGRAMvariable/options,關于變量variable作出直方圖,其中選項為①MIDPOINTS=values:設置分組區(qū)間的中點值。(缺省自動設置)②VSCALE=scale:標注每個區(qū)間的高度,其中scale可選count、percent和proportion之一,缺省為percent。34例1.8利用課本P5例1.2的數(shù)據(jù),作直方圖。作直方圖的直方圖35直方圖35§1.2.1直方圖、經(jīng)驗分布函數(shù)與QQ圖參數(shù)分布擬合在限定的參數(shù)分布類(如正態(tài)分布)中通過對參數(shù)的估計,用估計的參數(shù)所對應的密度曲線去擬合直方圖頂部的形態(tài)。SAS系統(tǒng)提供的參數(shù)分布類型見課本P12,其中正態(tài)分布最為常見(2)HISTOGRAMvariable/options,關于變量variable作出直方圖,其中選項為③NORMAL/LOGNORMAL/EXPONENTIAL/GAMMA/WEIBULL/BETA之一:在直方圖上擬合指定分布的概率密度函數(shù)曲線36§1.2.1直方圖、經(jīng)驗分布函數(shù)與QQ圖參數(shù)分布擬合例1.8利用課本P5例1.2的數(shù)據(jù),擬合正態(tài)分布曲線。37例1.8利用課本P5例1.2的數(shù)據(jù),擬合正態(tài)分布曲線。3§1.2.1直方圖、經(jīng)驗分布函數(shù)與QQ圖設來自總體分布F(x)的樣本x1,x2,…,xn,其次序統(tǒng)計量是x(1),x(2),…,x(n).經(jīng)驗分布函數(shù)是經(jīng)驗分布函數(shù)注意:(1)Fn(x)是非降的階梯函數(shù),在x(i)處的躍度是1/n(若x(i)重復取值k次,則躍度為k/n);(2)Fn(x)是總體分布函數(shù)的相合估計,即當n充分大時,F(xiàn)(x)≈Fn(x).38§1.2.1直方圖、經(jīng)驗分布函數(shù)與QQ圖設來自總例1.9利用課本P5例1.2的數(shù)據(jù),作經(jīng)驗分布函數(shù)圖,并擬合正態(tài)分布函數(shù)曲線作經(jīng)驗分布曲線及擬合的分布曲線的基本語句PROCCAPABILITYoptions;CDFPLOTvariable/options;(2)CDFPLOTvariable/options,關于變量variable作出經(jīng)驗分布曲線,其中選項為NORMAL/LOGNORMAL/EXPONENTIAL/GAMMA/WEIBULL/BETA之一。39例1.9利用課本P5例1.2的數(shù)據(jù),作經(jīng)驗分布函數(shù)圖,并經(jīng)驗分布函數(shù)及正態(tài)擬合曲線40經(jīng)驗分布函數(shù)及正態(tài)擬合曲線40§1.2.1直方圖、經(jīng)驗分布函數(shù)與QQ圖假定總體分布為正態(tài)分布N(μ,σ2),對于樣本是x1,x2,…,xn,其次序統(tǒng)計量是x(1),x(2),…,x(n).設Φ(x)是標準正態(tài)分布N(0,1)的分布函數(shù),Φ-1(x)是其反函數(shù),對應正態(tài)分布的QQ圖是由以下的點構成的散點圖:QQ圖41§1.2.1直方圖、經(jīng)驗分布函數(shù)與QQ圖假定總體分§1.2.1直方圖、經(jīng)驗分布函數(shù)與QQ圖若樣本數(shù)據(jù)近似于正態(tài)分布,在QQ圖上這些點近似在直線y=σx+μ附近。這里σ、μ分別是正態(tài)分布的標準差和期望。QQ圖42§1.2.1直方圖、經(jīng)驗分布函數(shù)與QQ圖若樣本數(shù)據(jù)例1.10利用課本P5例1.2的數(shù)據(jù),作正態(tài)QQ圖,并從直觀上鑒別樣本數(shù)據(jù)是否來自正態(tài)分布總體;作QQ圖的基本語句PROCCAPABILITYoptions;QQPLOTvariable/options;(2)QQPLOTvariable/options,關于變量variable作出QQ圖,其中選項為NORMAL/LOGNORMAL/EXPONENTIAL/GAMMA/WEIBULL/BETA之一。43例1.10利用課本P5例1.2的數(shù)據(jù),作正態(tài)QQ圖,并從QQ圖44QQ圖44§1.2.1直方圖、經(jīng)驗分布函數(shù)與QQ圖從QQ圖觀察樣本偏度和峰度45§1.2.1直方圖、經(jīng)驗分布函數(shù)與QQ圖從QQ圖觀察樣本偏§1.2.2莖葉圖解:第一個數(shù)25的十位數(shù)字為2,個位數(shù)字為5,中間用“|”分開,即25--->2|5每個數(shù)都這樣處理。莖葉圖的制作步驟:將十位數(shù)字2,3,4,5,6,7,8,9,10按縱列從上到下排列,在縱列右側從上到下畫一豎線,再在豎線右側由小到大依次寫上具有相同十位數(shù)的原數(shù)據(jù)的相應個位數(shù),在最后一列寫出位于同一行的數(shù)據(jù)的頻數(shù)。例1.11某班有31名學生,某門課程的考試成績見課本P16例1.11,作出莖葉圖。46§1.2.2莖葉圖解:第一個數(shù)25的十位數(shù)字為2,個位數(shù)字§1.2.2莖葉圖莖葉圖中,豎線左邊作為數(shù)據(jù)前導數(shù)位的串視為“莖”,每一行豎線右側尾隨的數(shù)字視為“葉”。頻數(shù)2513451504536148372558958134445666799913901124100147§1.2.2莖葉圖莖葉圖中,豎線左邊作為數(shù)據(jù)前§1.2.2莖葉圖總結:(1)莖葉圖與直方圖均可以直觀的反映數(shù)據(jù)的分布情況,在莖葉圖中,可以看出數(shù)據(jù)是否接近對稱、分散性如何、是否有異常數(shù)據(jù)、是否有間隙等;(2)利用莖葉圖可以看出由原始數(shù)據(jù)得到的次序統(tǒng)計量。48§1.2.2莖葉圖總結:(1)莖葉圖與直方圖均可以直觀§1.2.2莖葉圖例1.12鉛壓鑄件硬度數(shù)據(jù)見課本P16例1.12,作出數(shù)據(jù)的莖葉圖。PROCUNIVARIATEoptions;其中選項為49§1.2.2莖葉圖例1.12鉛壓鑄件硬度數(shù)據(jù)見課本P16§1.2.3正態(tài)性檢驗與分布擬合檢驗檢驗統(tǒng)計量為例1.13設x1,x2,…,xn是來自正態(tài)總體N(μ,σ2)樣本,假設檢驗:在H0成立時,t服從自由度為n-1的t分布t(n-1).正態(tài)性檢驗50§1.2.3正態(tài)性檢驗與分布擬合檢驗檢驗統(tǒng)計量為例1.13§1.2.3正態(tài)性檢驗與分布擬合檢驗對給定的顯著水平α,設tα/2(n-1)是t(n-1)的上側α/2分位數(shù),則當|t|>tα/2(n-1)時,拒絕H0;否則,接受H0。51§1.2.3正態(tài)性檢驗與分布擬合檢驗對給定的顯著水§1.2.3正態(tài)性檢驗與分布擬合檢驗tα/2(n-1)滿足P{|t|>tα/2(n-1)}=α對于具體計算得到的t值t0,若|t0|>tα/2(n-1),拒絕H0;否則接受H0。對大量重復試驗,t是隨機變量,且服從t(n-1).當|t0|>tα/2(n-1)時,有P{|t|≥|t0|}<P{|t|>tα/2(n-1)}=α令p=P{|t|≥|t0|}
稱為上述檢驗問題的p值。52§1.2.3正態(tài)性檢驗與分布擬合檢驗tα/2(n-1)滿足§1.2.3正態(tài)性檢驗與分布擬合檢驗注意到:“|t0|>tα/2(n-1)”與“p<α”等價假設檢驗的P值方法對給定的顯著水平α,當p<α時,拒絕H0;否則接受H0。P值方法的優(yōu)點:避免了查檢驗統(tǒng)計量的臨界值表,由“p<α”或“p≥α”即可得到檢驗問題的結論。53§1.2.3正態(tài)性檢驗與分布擬合檢驗注意到:“|t0|>§1.2.3正態(tài)性檢驗與分布擬合檢驗χ2統(tǒng)計量1.
χ2檢驗法其中n為樣本容量,l是分組數(shù),Oi=mi,Ei=npi為樣本落入第i組的頻數(shù)與樣本在第i組的理論頻數(shù),pi是數(shù)據(jù)落入第i組的概率,其值可根據(jù)原假設指定的分布求得。分布擬合檢驗原理基于對數(shù)據(jù)按其取值范圍進行分組后計算頻數(shù)的基礎上,考察每個區(qū)間的實際頻數(shù){mi}與理論頻數(shù){npi}的差異作出判斷54§1.2.3正態(tài)性檢驗與分布擬合檢驗χ2統(tǒng)計量1.χ2檢設pi是原假設H0為真時,服從F0(x)的隨機變量取值于第i個區(qū)間(ai-1,ai]的概率,即1.
χ2檢驗法假設檢驗問題為將實軸分為l個區(qū)間,分點滿足得l個區(qū)間55設pi是原假設H0為真時,服從F0(x)的隨機變量取值于第i設k是F0(x)中待估計參數(shù)的個數(shù),例如,原假設是正態(tài)分布,其中均值μ與方差σ2待估計,此時k=2.1.
χ2檢驗法從而得到檢驗統(tǒng)計量χ256設k是F0(x)中待估計參數(shù)的個數(shù),1.χ2檢驗法統(tǒng)計學研究表明:當樣本容量n充分大且原假設H0為真時,χ2統(tǒng)計量近似服從自由度為l-k-1的χ2分布,即χ2~χ2(l-k-1)
1.
χ2檢驗法給定顯著水平α,設由樣本觀測值計算得到的χ2值是,令則當p<α時,拒絕H0;否則接受H0。一般來說,若H0為真,χ2值較小,否則有偏大的趨勢57統(tǒng)計學研究表明:當樣本容量n充分大且原假設H0為真時,χ2§1.2.3正態(tài)性檢驗與分布擬合檢驗2.
經(jīng)驗分布擬合檢驗方法檢驗分布函數(shù)Fn(x)是總體分布函數(shù)F(x)的估計。假設檢驗問題為目的尋找Fn(x)與假設的總體分布函數(shù)F0(x)之間的差異58§1.2.3正態(tài)性檢驗與分布擬合檢驗2.經(jīng)驗分布擬合檢驗2.
經(jīng)驗分布擬合檢驗常用統(tǒng)計量KolmogorovD統(tǒng)計量A-D統(tǒng)計量C-vonM統(tǒng)計量一般來說,若H0為真,上述統(tǒng)計量值均較小,否則有偏大的趨勢592.經(jīng)驗分布擬合檢驗常用統(tǒng)計量KolmogorovD統(tǒng)計2.
經(jīng)驗分布擬合檢驗P值方法設由樣本觀測x1,x2,…,xn求得的KolmogorovD統(tǒng)計量、A-D統(tǒng)計量、C-vonM統(tǒng)計量的值分別是.令則對給定顯著水平α,(1)K-S檢驗:當p1<α時,拒絕H0;否則接受H0。(2)A-D檢驗:當p2<α時,拒絕H0;否則接受H0。(3)C-M檢驗:當p3<α時,拒絕H0;否則接受H0。602.經(jīng)驗分布擬合檢驗P值方法設由樣本觀測x1,x2,…§1.2.3正態(tài)性檢驗與分布擬合檢驗3.
正態(tài)性W檢驗方法設樣本觀測值為x1,x2,…,xn,其次序統(tǒng)計量是x(1),x(2),…,x(n).計算校正平方和又計算一般的當n是偶數(shù)時,1≤i≤k=n/2;當n是奇數(shù)時,1≤i≤k=n-1/261§1.2.3正態(tài)性檢驗與分布擬合檢驗3.正態(tài)性W檢驗方法3.
正態(tài)性W檢驗方法將di與系數(shù)ai(有表可查)相乘并求和,得計算注意W統(tǒng)計量總滿足0<W≤1.當H0成立時,W值接近1,否則趨近0。給定顯著水平α,設由樣本觀測值計算得到的W值是,令則當p<α時,拒絕H0;否則接受H0。623.正態(tài)性W檢驗方法將di與系數(shù)ai(有表可查)相乘§1.2.3正態(tài)性檢驗與分布擬合檢驗4.
SAS實現(xiàn)(1)正態(tài)性W檢驗方法procunivariate(2)χ2檢驗法proccapability(3)經(jīng)驗分布擬合檢驗proccapability63§1.2.3正態(tài)性檢驗與分布擬合檢驗4.SAS實現(xiàn)(1)例1.14對P5例1.2的數(shù)據(jù)作:(1)正態(tài)性W檢驗;(2)關于正態(tài)分布假設的χ2檢驗;(3)關于正態(tài)分布假設的幾種經(jīng)驗分布擬合檢驗。64例1.14對P5例1.2的數(shù)據(jù)作:64例1.15對P16例1.11的數(shù)據(jù)作:(1)正態(tài)性W檢驗;(2)若不接受總體為正態(tài)分布,選取一種合適的分布類型,作經(jīng)驗分布擬合檢驗。65例1.15對P16例1.11的數(shù)據(jù)作:65§1.3多維數(shù)據(jù)的數(shù)字特征與相關分析多元總體:§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關系數(shù)設(X,Y)T是二元總體,樣本觀測值為(x1,y1)T,(x2,y2)T,…,(xn,yn)T,引進數(shù)據(jù)觀測矩陣66§1.3多維數(shù)據(jù)的數(shù)字特征與相關分析多元總體:§1.3.1§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關系數(shù)記記則,稱為二元觀測數(shù)據(jù)的均值向量。稱sxx為變量X的觀測數(shù)據(jù)的方差,稱syy為變量Y的觀測數(shù)據(jù)的方差,稱sxy為變量X,Y的觀測數(shù)據(jù)的協(xié)方差。67§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關系數(shù)記記則§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關系數(shù)稱為觀測數(shù)據(jù)的協(xié)方差矩陣。注意:(1)協(xié)方差矩陣總是對稱的(2)協(xié)方差矩陣總是非負定的,一般是正定的由Schwarz不等式68§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關系數(shù)稱為觀測數(shù)據(jù)的協(xié)方相關系數(shù)計算公式(2)相關系數(shù)rxy是隨機變量X,Y的觀測數(shù)據(jù)的兩個分量線性相關性密切程度的度量?!?.3.1二元數(shù)據(jù)的數(shù)字特征及相關系數(shù)注意:(1)當rxy=0(或rxy≈0)時,稱X,Y的觀測數(shù)據(jù)不相關(或近似不相關)當0<rxy<1時,稱X,Y的觀測數(shù)據(jù)線性正相關當-1<rxy<0時,稱X,Y的觀測數(shù)據(jù)線性負相關當|rxy|=1時,稱X,Y的觀測數(shù)據(jù)完全線性相關69相關系數(shù)計算公式(2)相關系數(shù)rxy是隨機變量X,Y7070§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關系數(shù)設二元總體(X,Y)T的分布函數(shù)是F(x,y),總體協(xié)方差是Cov(X,Y),Var(X),Var(Y)是X,Y的方差,總體的相關系數(shù)是ρxy由于觀測數(shù)據(jù)的相關系數(shù)rxy是總體相關系數(shù)ρxy的相合估計,故當n充分大時,有ρxy≈rxy71§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關系數(shù)設二元總§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關系數(shù)假設檢驗可以證明,當(X,Y)T是二元正態(tài)總體,且H0成立時,統(tǒng)計量服從自由度為n-2的t分布t(n-2)72§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關系數(shù)假設檢驗可以§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關系數(shù)對給定的顯著水平α,當p<α時,拒絕H0;否則接受H0。當拒絕H0時,認為算得的相關系數(shù)rxy有實際意義。以上定義的觀測數(shù)據(jù)的相關系數(shù)rxy稱為Pearson相關系數(shù)。設由實際觀測數(shù)據(jù)算得的相關系數(shù)值為,按上述公式算得的t值為t0,則p值為p=P{|t|≥|t0|}73§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關系數(shù)對給定的Spearman相關系數(shù)§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關系數(shù)設是從一元總體抽取的容量為n的樣本,其次序統(tǒng)計量是若xi=x(k),則稱k是xi在樣本中的秩,記作Ri,對每一個i=1,2,…,n,稱為Ri是第i個秩統(tǒng)計量,R1,R2,…,Rn總稱為秩統(tǒng)計量。74Spearman相關系數(shù)§1.3.1二元數(shù)據(jù)的數(shù)字特征及Spearman相關系數(shù)§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關系數(shù)例如,對樣本數(shù)據(jù)-0.8-3.11.1-5.24.2次序統(tǒng)計量是-5.2-3.1-0.81.14.2秩統(tǒng)計量是32415注意:當觀測數(shù)據(jù)中有兩個觀測值相等,則相應的秩統(tǒng)計量不能唯一確定。75Spearman相關系數(shù)§1.3.1二元數(shù)據(jù)的數(shù)字特征及§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關系數(shù)例如,對樣本數(shù)據(jù)-0.8-3.1-0.8次序統(tǒng)計量是-3.1-0.8-0.8秩統(tǒng)計量是213或312注意:通常對相同的觀測值,其秩取它們秩的平均值故上述樣本的秩統(tǒng)計量是
2.512.576§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關系數(shù)例如,對樣本數(shù)據(jù)Spearman相關系數(shù)§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關系數(shù)對于二元總體(X,Y)T的樣本觀測數(shù)據(jù)(x1,y1)T,(x2,y2)T,…,(xn,yn)T,可得各分量X,Y的一元樣本數(shù)據(jù)x1,x2,…,xn與y1,y2,…,yn.設x1,x2,…,xn的秩統(tǒng)計量是R1,R2,…,Rny1,y2,…,yn的秩統(tǒng)計量是S1,S2,…,Sn當X,Y聯(lián)系比較緊密時,這兩組秩統(tǒng)計量聯(lián)系也緊密77Spearman相關系數(shù)§1.3.1二元數(shù)據(jù)的數(shù)字特征及Spearman相關系數(shù)計算公式§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關系數(shù)其中由秩的定義可知,78Spearman相關系數(shù)計算公式§1.3.1二元數(shù)Spearman相關系數(shù)§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關系數(shù)同理,經(jīng)過整理化簡這里di=Ri-Si,i=1,2,…,n.假設檢驗79Spearman相關系數(shù)§1.3.1二元數(shù)據(jù)的數(shù)字特征及例1.16對P37例1.22的數(shù)據(jù)作:(1)求二維觀測數(shù)據(jù)的均值向量和協(xié)方差矩陣S;(2)計算Pearson相關系數(shù)并檢驗假設(3)計算Spearman相關系數(shù)并檢驗上述假設。PROCCORRoptions;選項為①DATA=SASdataset:指定所分析的SAS數(shù)據(jù)集名稱;②PEARSON:輸出Pearson相關系數(shù)(默認);③SPEARMAN:輸出Spearman秩相關系數(shù);④COV:計算協(xié)方差矩陣;⑤NOSIMPLE:不輸出每個變量的簡單描述統(tǒng)計量的值。80例1.16對P37例1.22的數(shù)據(jù)作:PROCCOR§1.3多維數(shù)據(jù)的數(shù)字特征與相關分析§1.3.2多元數(shù)據(jù)的數(shù)字特征及相關矩陣設是p元總體,樣本觀測數(shù)據(jù)第i個觀測數(shù)據(jù)記為稱為樣品。81§1.3多維數(shù)據(jù)的數(shù)字特征與相關分析§1.3.2多元數(shù)據(jù)§1.3.2多元數(shù)據(jù)的數(shù)字特征及相關矩陣引進數(shù)據(jù)觀測矩陣記有82§1.3.2多元數(shù)據(jù)的數(shù)字特征及相關矩陣引進數(shù)據(jù)觀測矩陣記(1)第j行x(j)的均值§1.3.2多元數(shù)據(jù)的數(shù)字特征及相關矩陣(2)第j行x(j)的方差注意:(3)x(j),x(k)的協(xié)方差83(1)第j行x(j)的均值§1.3.2多元數(shù)據(jù)的數(shù)字特征及均值向量§1.3.2多元數(shù)據(jù)的數(shù)字特征及相關矩陣協(xié)方差矩陣有84均值向量§1.3.2多元數(shù)據(jù)的數(shù)字特征及相關矩陣協(xié)方差矩陣§1.3.2多元數(shù)據(jù)的數(shù)字特征及相關矩陣注意:rjj=1,|rjk|≤1(4)x(j)與x(k)的相關系數(shù)相關矩陣85§1.3.2多元數(shù)據(jù)的數(shù)字特征及相關矩陣注意:rjj=1,§1.3.2多元數(shù)據(jù)的數(shù)字特征及相關矩陣記注意:①相關矩陣R刻畫了變量之間線性聯(lián)系的密切程度;②S及R為非負定的,通常是正定的則86§1.3.2多元數(shù)據(jù)的數(shù)字特征及相關矩陣記注意:則86§1.3.2多元數(shù)據(jù)的數(shù)字特征及相關矩陣(5)Spearman相關矩陣注意:①Spearman相關矩陣Q適于研究具有一般分布的p元總體,且對有異常值的觀測數(shù)據(jù),具有穩(wěn)健性;②Q為非負定的,通常是正定的87§1.3.2多元數(shù)據(jù)的數(shù)字特征及相關矩陣(5)Spearm§1.3.3總體的數(shù)字特征及相關矩陣設是p元總體,其總體分布函數(shù)是F(x1,x2,…,xp)=F(x),其中x=(x1,x2,…,xp)T.在連續(xù)型總體存在概率密度f(x1,x2,…,xp)=f(x),其中x=(x1,x2,…,xp)T.總體均值令μi=E(Xi),i=1,2,…,pμ=(μ1,μ2,…,μp)T總體協(xié)方差矩陣其中特別的,當j=k時88§1.3.3總體的數(shù)字特征及相關矩陣設Xj,Xk的相關系數(shù)計算公式§1.3.3總體的數(shù)字特征及相關矩陣相關矩陣注意:ρjj=1,|ρjk|≤189Xj,Xk的相關系數(shù)計算公式§1.3.3總體的數(shù)字記注意:Σ及ρ為非負定的,通常是正定的則§1.3.3總體的數(shù)字特征及相關矩陣90記注意:Σ及ρ為非負定的,通常是正定的則§1.3.3總體的§1.3.3總體的數(shù)字特征及相關矩陣在多元數(shù)據(jù)分析中,樣本數(shù)據(jù)的均值向量、協(xié)方差矩陣S及相關矩陣R分別是總體的均值向量μ、協(xié)方差矩陣Σ及相關矩陣ρ的相合估計,即當樣本容量n充分大時,有91§1.3.3總體的數(shù)字特征及相關矩陣在多元數(shù)據(jù)分析§1.3.3總體的數(shù)字特征及相關矩陣在統(tǒng)計學中,當μ、Σ未知時,均值向量、協(xié)方差矩陣S為μ、Σ的無偏估計。92§1.3.3總體的數(shù)字特征及相關矩陣在統(tǒng)計學中中位數(shù)向量令Mj表示Xj的中位數(shù)§1.3.3總體的數(shù)字特征及相關矩陣M=(M1,M2,…,Mp)T注意:M為均值向量μ的穩(wěn)健性估計Spearman相關矩陣是總體相關矩陣ρ的穩(wěn)健性估計93中位數(shù)向量令Mj表示Xj的中位數(shù)§1.3.3總體的例1.17對P40例1.25的數(shù)據(jù)作:(1)計算均值向量、中位數(shù)向量M;(2)計算Pearson相關矩陣R及Spearman相關矩陣Q及對應的p值,并作相關統(tǒng)計分析;PROCCORRoptions;94例1.17對P40例1.25的數(shù)據(jù)作:PROCCOR小結?基本內容:?數(shù)據(jù)的數(shù)字特征:位置特征(均值、中位數(shù)、分位數(shù)、三均值),分散性特征(方差、標準差、極差及四分位極差),分布形狀特征(偏度、峰度),關聯(lián)性(Pearson相關系數(shù)、Spearman相關系數(shù))等;?數(shù)據(jù)的分布特征:直方圖,莖葉圖,經(jīng)驗分布函數(shù);?多維正態(tài)分布及性質;?分布擬合檢驗:QQ圖檢驗,Pearson卡方檢驗、
Kolmogorov-Smirnov檢驗、Anderson-Darling檢驗、Cramer-vonMises檢驗等。95小結95?重點或難點:?學會利用數(shù)據(jù)的描述性分析對數(shù)據(jù)的各種特性作初步了解,尤其是結合SAS軟件學會數(shù)據(jù)分布的擬合檢驗;?QQ圖:將數(shù)據(jù)按由小到大的順序排列得次序統(tǒng)計量,設某個給定的分布的分位數(shù)為則以
為點的坐標的散點圖稱為該分布的QQ圖。若數(shù)據(jù)來自該分布,則這些點應大致在一條直線上。以此檢驗數(shù)據(jù)是否服從某一給定的分布。
96?重點或難點:96?檢驗p-值:設檢驗某對假設的檢驗統(tǒng)計量為,其觀察值為t,則檢驗的p-值定義為
在原假設為真時,檢驗統(tǒng)計量取其觀察值或更有利于被擇假設的值的概率?!纾喝魴z驗統(tǒng)計量的值越大(?。?,越應拒絕原假設(即越有利于被擇假設),則檢驗p-值為或
▲若檢驗統(tǒng)計量的零分布對稱,且其絕對值越大,越應拒絕原假設,則檢驗p-值為97?檢驗p-值:設檢驗某對假設的檢驗第一章數(shù)據(jù)描述性分析數(shù)字特征分布特征多元數(shù)據(jù)的數(shù)字特征與相關分析(位置特性、分散性、分布形狀)(反映數(shù)據(jù)整體結構)98第一章數(shù)據(jù)描述性分析數(shù)字特征分布特征多元數(shù)據(jù)的數(shù)字特§1.1一維數(shù)據(jù)的數(shù)字特征設有n個一維數(shù)據(jù):它們是從所研究的對象(總體)X中觀測得到的,這n個值稱為樣本觀測值,n稱為樣本容量。數(shù)據(jù)分析的任務:對樣本觀測值進行分析,提取數(shù)據(jù)中所包含的有用信息,進一步對總體的信息做出判斷。數(shù)字特征:數(shù)據(jù)的集中位置、分散程度、數(shù)據(jù)分布的形狀特征等99§1.1一維數(shù)據(jù)的數(shù)字特征設有n個一維數(shù)據(jù):它們是從所研究§1.1.1表示位置的數(shù)字特征均值即的平均數(shù)表示數(shù)據(jù)的集中位置缺點:缺乏抗擾性(穩(wěn)健性)設是n個觀測值,將它們從小到大記為稱它們?yōu)榇涡蚪y(tǒng)計量。顯然,最小次序統(tǒng)計量x(1)與最大次序統(tǒng)計量x(n)分別為100§1.1.1表示位置的數(shù)字特征均值即§1.1.1表示位置的數(shù)字特征中位數(shù)表示數(shù)據(jù)的中心位置計算公式注意:1、對于對稱分布的數(shù)據(jù),均值和中位數(shù)較接近;而其它分布的數(shù)據(jù),二者不同。2、具有穩(wěn)健性101§1.1.1表示位置的數(shù)字特征中位數(shù)表示數(shù)據(jù)的中心位置計算§1.1.1表示位置的數(shù)字特征分位數(shù)其中[np]為np的整數(shù)部分。當p=1時,定義M1=x(n).對0≤p<1,數(shù)據(jù)x1,x2,……,xn的p分位數(shù)是注意:1、大體上整個樣本的100p%的觀測值不超過p分位數(shù)。2、0.5分位數(shù)M0.5(第50百分位數(shù))就是中位數(shù)M。p分位數(shù)又稱為第100p百分數(shù)。102§1.1.1表示位置的數(shù)字特征分位數(shù)其中[np]為np的整常用的分位數(shù)它們分別稱為上、下四分位數(shù),并分別簡記為
0.75分位數(shù)M0.75(第75百分位數(shù))
0.25分位數(shù)M0.25(第25百分位數(shù))總結:1、均值計算用到了樣本的全部信息;2、中位數(shù)M僅用到了數(shù)據(jù)分布中的部分信息;3、在正常情況下,均值比中位數(shù)描述數(shù)據(jù)的集中位置要優(yōu);4、當存在異常數(shù)據(jù)時,均值缺乏穩(wěn)健性,而中位數(shù)具有很強的穩(wěn)健性。103常用的分位數(shù)它們分別稱為上、下四分位數(shù),并分別簡記為0三均值計算公式§1.1.1表示位置的數(shù)字特征104三均值計算公式§1.1.1表示位置的數(shù)字特征7例1.1考慮下列樣本:
53113178計算均值、中位數(shù)、上、下四分位數(shù),M0.99,M0.95,M0.90,M0.10,M0.05,M0.01分位數(shù)及三均值。解:次序統(tǒng)計1.1考慮下列樣本:解:次序統(tǒng)計量13次序統(tǒng)計量13357811M0.95=11,M0.90=11,M0.10=1,M0.05=1106次序統(tǒng)計量13357例1.2某單位對100名女學生測定血清總蛋白含量(g/L),具體數(shù)據(jù)見課本P5例1.2計算均值、中位數(shù)、上、下四分位數(shù),M0.99,M0.95,M0.90,M0.10,M0.05,M0.01分位數(shù)及三均值。example1_2107例1.2某單位對100名女學生測定血清總蛋白含量(g/L)方差、標準差、變異系數(shù)§1.1.2表示分散性的數(shù)字特征方差:相對于均值的偏差平方的平均標準差:方差的算術平方根變異系數(shù):刻畫數(shù)據(jù)相對分散性108方差、標準差、變異系數(shù)§1.1.2表示分散性的數(shù)字特征方差極差、四分位極差§1.1.2表示分散性的數(shù)字特征極差四分位極差注意:以上兩種度量均具有抗擾性109極差、四分位極差§1.1.2表示分散性的數(shù)字特征極判斷異常值的方法稱為數(shù)據(jù)的上、下截斷點。大于上截斷點的數(shù)據(jù)為特大值,小于下截斷點的數(shù)據(jù)為特小值,兩者皆為異常值。110判斷異常值的方法稱為數(shù)據(jù)的上、下截斷點。大于上截斷點的數(shù)據(jù)為例1.3考慮下列樣本:
53113178方差、標準差、變異系數(shù)、極差、四分位極差,并分析是否由異常值。解:111例1.3考慮下列樣本:解:14次序統(tǒng)計量13357811上、下截斷點結論:該樣本數(shù)據(jù)中無異常值112次序統(tǒng)計量13357例1.4求數(shù)據(jù)(見課本P5例1.1)的方差、標準差、變異系數(shù)、極差、四分位極差,并分析是否由異常值。解:通過計算得結論:無異常值113例1.4求數(shù)據(jù)(見課本P5例1.1)的方差、標準差、變異系例1.5求數(shù)據(jù)(見課本P5例1.2)的方差、標準差、變異系數(shù)、極差、四分位極差,并分析是否由異常值。解:通過計算得結論:84.3為異常值114例1.5求數(shù)據(jù)(見課本P5例1.2)的方差、標準差、變異系將84.3剔除,再進行計算得比較未剔除前結論:剔除異常值后,均值與中位數(shù)更為接近;上、下四分位數(shù)與四分位極差未發(fā)生改變,說明其抗擾性好;方差、標準差缺乏抗擾性。115將84.3剔除,再進行計算得比較未剔除前結論:剔除異常值后,偏度§1.1.3表示分布形狀的數(shù)字特征計算公式k階原點矩k階中心矩顯然,一階原點矩ν1即均值其中s是標準差。偏度刻畫數(shù)據(jù)的對稱性。116偏度§1.1.3表示分布形狀的數(shù)字特征計算公式k階原點矩k注意:1、關于均值對稱的數(shù)據(jù)其偏度為0;2、正的偏度表示位于均值右側的數(shù)據(jù)較為分散;3、負的偏度說明位于均值左側的數(shù)據(jù)較為分散。見課本P3圖1.1117注意:1、關于均值對稱的數(shù)據(jù)其偏度為0;見課本P3圖1.12峰度§1.1.3表示分布形狀的數(shù)字特征計算公式峰度以正態(tài)分布為標準,比較兩側極端數(shù)據(jù)分布情況的指標。118峰度§1.1.3表示分布形狀的數(shù)字特征計算公式峰若峰度大于零,則表示數(shù)據(jù)中含有較多遠離均值的極端數(shù)值,此時分布有一個沉重的尾巴(或稱粗尾);若峰度小于零,則表示均值兩側的極端數(shù)據(jù)較少;峰度可作為偏離正態(tài)分布的尺度。119若峰度大于零,則表示數(shù)據(jù)中含有較多遠離均值的極端數(shù)值例1.6求數(shù)據(jù)(見課本P5例1.2)的偏度、峰度。解:通過計算得從結果看來,偏度和峰度的絕對值均較小,可以看作數(shù)據(jù)取自正態(tài)總體。120例1.6求數(shù)據(jù)(見課本P5例1.2)的偏度、峰度。解:通過設數(shù)據(jù)x1,x2,…,xn是由總體X中得到的樣本觀測值,總體的分布函數(shù)是F(x)§1.1.4由樣本的數(shù)字特征推廣到總體的特征當X為離散型時,總體的分布可由概率分布列描述:當X為連續(xù)型時,總體的分布可由概率函數(shù)f(x)刻畫舉例正態(tài)分布概率密度函數(shù)分布函數(shù)121設數(shù)據(jù)x1,x2,…,xn是由總體X中得到的樣本觀設總體均值為μ=E(X),由大數(shù)定律,當n較大時,樣本均值可以作為總體均值的估計,即當n充分大,的ξp為總體分布F(x)的p分位數(shù)。設總體分布F(x)是連續(xù)型分布,0<p<1,稱滿足考慮總體p分位數(shù)ξp唯一的情況,在一定條件下,樣本的p分位數(shù)Mp是總體p分位數(shù)ξp的相合估計,因此,當n充分大時§1.1.4由樣本的數(shù)字特征推廣到總體的特征122設總體均值為μ=E(X),由大數(shù)定律,當n較大時,樣本均§1.1.4由樣本的數(shù)字特征推廣到總體的特征數(shù)據(jù)的方差s2、標準差s、變異系數(shù)CV分別是總體方差σ2=Var(X)、總體標準差σ=sqrt(Var(X))、總體變異系數(shù)r=σ/μ的相合估計:即當樣本容量n充分大時,有正態(tài)總體N(μ,σ2)的上、下四分位數(shù)
總體四分位極差123§1.1.4由樣本的數(shù)字特征推廣到總體的特征數(shù)據(jù)的方差s§1.1.4由樣本的數(shù)字特征推廣到總體的特征
總體偏度是度量總體分布是否偏向某一側的指標1、對稱分布的偏度為0;2、總體分布向右側擴展,偏度為正;3、總體分布向左側擴展,偏度為負;見課本P4圖1.2其中μ3=E(X-μ)3為總體X的3階中心矩。124§1.1.4由樣本的數(shù)字特征推廣到總體的特征總體偏度是度§1.1.4由樣本的數(shù)字特征推廣到總體的特征
總體峰度是以同方差的正態(tài)分布為標準,比較總體分布尾部分散性的指標1、當總體分布是正態(tài)分布時,總體峰度G2=0;2、當G2>0,總體分布中極端數(shù)值分布范圍較廣;3、當G2<0,總體分布中極端數(shù)值分布范圍較少;見課本P4圖1.3其中μ4=E(X-μ)4為總體X的4階中心矩。125§1.1.4由樣本的數(shù)字特征推廣到總體的特征總體峰度是以例1.71952~1997年我國人均生產總值數(shù)據(jù)見課本P7表1.2(單位:元),計算這批數(shù)據(jù)的數(shù)字特征,并找出異常值。解:通過計算得1、s2、s較大,說明數(shù)據(jù)分散性較大;2、數(shù)據(jù)分布圖像明顯偏右,且右端出現(xiàn)很多極端值3、存在異常值:2287、2939、3923、4854、5576、6079126例1.71952~1997年我國人均生產總值數(shù)據(jù)見課本P7設ξ1,ξ2,…是一列獨立同分布的隨機變量,且數(shù)學期望存在:Eξi=a,i=1,2,…則對任意的ε>0,有
成立。辛欽大數(shù)定律127設ξ1,ξ2,…是一列獨立同分布的隨機變量,且數(shù)學相合估計(一致估計)設對每個自然數(shù)n,是θ的估計量,若依概率收斂于θ,即對任意ε>0,有
則稱為θ的相合估計。128相合估計(一致估計)設對每個自然數(shù)n,§1.2數(shù)據(jù)的分布數(shù)據(jù)分布的描述方法直方圖、莖葉圖、理論分布分布擬合檢驗和正態(tài)性檢驗129§1.2數(shù)據(jù)的分布數(shù)據(jù)分布的描述方法32§1.2.1直方圖、經(jīng)驗分布函數(shù)與QQ圖首先將數(shù)據(jù)取值的范圍分成若干區(qū)間(一般是等間隔的),每個區(qū)間的長度稱為組距。考察數(shù)據(jù)落入每個區(qū)間的頻數(shù)或頻率,在每個區(qū)間上畫一矩形,相應寬度是組距,高度可以是頻數(shù)、頻率或頻率/組距。
在高度是頻率/組距的情況,每一矩形的面積恰是數(shù)據(jù)落入相應區(qū)間的頻率,這種直方圖可以估計總體的概率密度。直方圖proccapability過程130§1.2.1直方圖、經(jīng)驗分布函數(shù)與QQ圖首先將數(shù)例1.8利用課本P5例1.2的數(shù)據(jù),作直方圖。作直方圖的基本語句PROCCAPABILITYoptions;HISTOGRAMvariable/options;PROCCAPABILITYoptions,選項為①DATA=SASdataset:指定所分析的SAS數(shù)據(jù)集名稱;②GRAPHICS:指明作高分辨率圖形。缺省時將輸出由字符構成的低分辨率圖形;③NOPRINT:取消PROCUNIVARIATE過程統(tǒng)計量的輸出。(2)HISTOGRAMvariable/options,關于變量variable作出直方圖,其中選項為①MIDPOINTS=values:設置分組區(qū)間的中點值。(缺省自動設置)②VSCALE=scale:標注每個區(qū)間的高度,其中scale可選count、percent和proportion之一,缺省為percent。131例1.8利用課本P5例1.2的數(shù)據(jù),作直方圖。作直方圖的直方圖132直方圖35§1.2.1直方圖、經(jīng)驗分布函數(shù)與QQ圖參數(shù)分布擬合在限定的參數(shù)分布類(如正態(tài)分布)中通過對參數(shù)的估計,用估計的參數(shù)所對應的密度曲線去擬合直方圖頂部的形態(tài)。SAS系統(tǒng)提供的參數(shù)分布類型見課本P12,其中正態(tài)分布最為常見(2)HISTOGRAMvariable/options,關于變量variable作出直方圖,其中選項為③NORMAL/LOGNORMAL/EXPONENTIAL/GAMMA/WEIBULL/BETA之一:在直方圖上擬合指定分布的概率密度函數(shù)曲線133§1.2.1直方圖、經(jīng)驗分布函數(shù)與QQ圖參數(shù)分布擬合例1.8利用課本P5例1.2的數(shù)據(jù),擬合正態(tài)分布曲線。134例1.8利用課本P5例1.2的數(shù)據(jù),擬合正態(tài)分布曲線。3§1.2.1直方圖、經(jīng)驗分布函數(shù)與QQ圖設來自總體分布F(x)的樣本x1,x2,…,xn,其次序統(tǒng)計量是x(1),x(2),…,x(n).經(jīng)驗分布函數(shù)是經(jīng)驗分布函數(shù)注意:(1)Fn(x)是非降的階梯函數(shù),在x(i)處的躍度是1/n(若x(i)重復取值k次,則躍度為k/n);(2)Fn(x)是總體分布函數(shù)的相合估計,即當n充分大時,F(xiàn)(x)≈Fn(x).135§1.2.1直方圖、經(jīng)驗分布函數(shù)與QQ圖設來自總例1.9利用課本P5例1.2的數(shù)據(jù),作經(jīng)驗分布函數(shù)圖,并擬合正態(tài)分布函數(shù)曲線作經(jīng)驗分布曲線及擬合的分布曲線的基本語句PROCCAPABILITYoptions;CDFPLOTvariable/options;(2)CDFPLOTvariable/options,關于變量variable作出經(jīng)驗分布曲線,其中選項為NORMAL/LOGNORMAL/EXPONENTIAL/GAMMA/WEIBULL/BETA之一。136例1.9利用課本P5例1.2的數(shù)據(jù),作經(jīng)驗分布函數(shù)圖,并經(jīng)驗分布函數(shù)及正態(tài)擬合曲線137經(jīng)驗分布函數(shù)及正態(tài)擬合曲線40§1.2.1直方圖、經(jīng)驗分布函數(shù)與QQ圖假定總體分布為正態(tài)分布N(μ,σ2),對于樣本是x1,x2,…,xn,其次序統(tǒng)計量是x(1),x(2),…,x(n).設Φ(x)是標準正態(tài)分布N(0,1)的分布函數(shù),Φ-1(x)是其反函數(shù),對應正態(tài)分布的QQ圖是由以下的點構成的散點圖:QQ圖138§1.2.1直方圖、經(jīng)驗分布函數(shù)與QQ圖假定總體分§1.2.1直方圖、經(jīng)驗分布函數(shù)與QQ圖若樣本數(shù)據(jù)近似于正態(tài)分布,在QQ圖上這些點近似在直線y=σx+μ附近。這里σ、μ分別是正態(tài)分布的標準差和期望。QQ圖139§1.2.1直方圖、經(jīng)驗分布函數(shù)與QQ圖若樣本數(shù)據(jù)例1.10利用課本P5例1.2的數(shù)據(jù),作正態(tài)QQ圖,并從直觀上鑒別樣本數(shù)據(jù)是否來自正態(tài)分布總體;作QQ圖的基本語句PROCCAPABILITYoptions;QQPLOTvariable/options;(2)QQPLOTvariable/options,關于變量variable作出QQ圖,其中選項為NORMAL/LOGNORMAL/EXPONENTIAL/GAMMA/WEIBULL/BETA之一。140例1.10利用課本P5例1.2的數(shù)據(jù),作正態(tài)QQ圖,并從QQ圖141QQ圖44§1.2.1直方圖、經(jīng)驗分布函數(shù)與QQ圖從QQ圖觀察樣本偏度和峰度142§1.2.1直方圖、經(jīng)驗分布函數(shù)與QQ圖從QQ圖觀察樣本偏§1.2.2莖葉圖解:第一個數(shù)25的十位數(shù)字為2,個位數(shù)字為5,中間用“|”分開,即25--->2|5每個數(shù)都這樣處理。莖葉圖的制作步驟:將十位數(shù)字2,3,4,5,6,7,8,9,10按縱列從上到下排列,在縱列右側從上到下畫一豎線,再在豎線右側由小到大依次寫上具有相同十位數(shù)的原數(shù)據(jù)的相應個位數(shù),在最后一列寫出位于同一行的數(shù)據(jù)的頻數(shù)。例1.11某班有31名學生,某門課程的考試成績見課本P16例1.11,作出莖葉圖。143§1.2.2莖葉圖解:第一個數(shù)25的十位數(shù)字為2,個位數(shù)字§1.2.2莖葉圖莖葉圖中,豎線左邊作為數(shù)據(jù)前導數(shù)位的串視為“莖”,每一行豎線右側尾隨的數(shù)字視為“葉”。頻數(shù)25134515045361483725589581344456667999139011241001144§1.2.2莖葉圖莖葉圖中,豎線左邊作為數(shù)據(jù)前§1.2.2莖葉圖總結:(1)莖葉圖與直方圖均可以直觀的反映數(shù)據(jù)的分布情況,在莖葉圖中,可以看出數(shù)據(jù)是否接近對稱、分散性如何、是否有異常數(shù)據(jù)、是否有間隙等;(2)利用莖葉圖可以看出由原始數(shù)據(jù)得到的次序統(tǒng)計量。145§1.2.2莖葉圖總結:(1)莖葉圖與直方圖均可以直觀§1.2.2莖葉圖例1.12鉛壓鑄件硬度數(shù)據(jù)見課本P16例1.12,作出數(shù)據(jù)的莖葉圖。PROCUNIVARIATEoptions;其中選項為146§1.2.2莖葉圖例1.12鉛壓鑄件硬度數(shù)據(jù)見課本P16§1.2.3正態(tài)性檢驗與分布擬合檢驗檢驗統(tǒng)計量為例1.13設x1,x2,…,xn是來自正態(tài)總體N(μ,σ2)樣本,假設檢驗:在H0成立時,t服從自由度為n-1的t分布t(n-1).正態(tài)性檢驗147§1.2.3正態(tài)性檢驗與分布擬合檢驗檢驗統(tǒng)計量為例1.13§1.2.3正態(tài)性檢驗與分布擬合檢驗對給定的顯著水平α,設tα/2(n-1)是t(n-1)的上側α/2分位數(shù),則當|t|>tα/2(n-1)時,拒絕H0;否則,接受H0。148§1.2.3正態(tài)性檢驗與分布擬合檢驗對給定的顯著水§1.2.3正態(tài)性檢驗與分布擬合檢驗tα/2(n-1)滿足P{|t|>tα/2(n-1)}=α對于具體計算得到的t值t0,若|t0|>tα/2(n-1),拒絕H0;否則接受H0。對大量重復試驗,t是隨機變量,且服從t(n-1).當|t0|>tα/2(n-1)時,有P{|t|≥|t0|}<P{|t|>tα/2(n-1)}=α令p=P{|t|≥|t0|}
稱為上述檢驗問題的p值。149§1.2.3正態(tài)性檢驗與分布擬合檢驗tα/2(n-1)滿足§1.2.3正態(tài)性檢驗與分布擬合檢驗注意到:“|t0|>tα/2(n-1)”與“p<α”等價假設檢驗的P值方法對給定的顯著水平α,當p<α時,拒絕H0;否則接受H0。P值方法的優(yōu)點:避免了查檢驗統(tǒng)計量的臨界值表,由“p<α”或“p≥α”即可得到檢驗問題的結論。150§1.2.3正態(tài)性檢驗與分布擬合檢驗注意到:“|t0|>§1.2.3正態(tài)性檢驗與分布擬合檢驗χ2統(tǒng)計量1.
χ2檢驗法其中n為樣本容量,l是分組數(shù),Oi=mi,Ei=npi為樣本落入第i組的頻數(shù)與樣本在第i組的理論頻數(shù),pi是數(shù)據(jù)落入第i組的概率,其值可根據(jù)原假設指定的分布求得。分布擬合檢驗原理基于對數(shù)據(jù)按其取值范圍進行分組后計算頻數(shù)的基礎上,考察每個區(qū)間的實際頻數(shù){mi}與理論頻數(shù){npi}的差異作出判斷151§1.2.3正態(tài)性檢驗與分布擬合檢驗χ2統(tǒng)計量1.χ2檢設pi是原假設H0為真時,服從F0(x)的隨機變量取值于第i個區(qū)間(ai-1,ai]的概率,即1.
χ2檢驗法假設檢驗問題為將實軸分為l個區(qū)間,分點滿足得l個區(qū)間152設pi是原假設H0為真時,服從F0(x)的隨機變量取值于第i設k是F0(x)中待估計參數(shù)的個數(shù),例如,原假設是正態(tài)分布,其中均值μ與方差σ2待估計,此時k=2.1.
χ2檢驗法從而得到檢驗統(tǒng)計量χ2153設k是F0(x)中待估計參數(shù)的個數(shù),1.χ2檢驗法統(tǒng)計學研究表明:當樣本容量n充分大且原假設H0為真時,χ2統(tǒng)計量近似服從自由度為l-k-1的χ2分布,即χ2~χ2(l-k-1)
1.
χ2檢驗法給定顯著水平α,設由樣本觀測值計算得到的χ2值是,令則當p<α時,拒絕H0;否則接受H0。一般來說,若H0為真,χ2值較小,否則有偏大的趨勢154統(tǒng)計學研究表明:當樣本容量n充分大且原假設H0為真時,χ2§1.2.3正態(tài)性檢驗與分布擬合檢驗2.
經(jīng)驗分布擬合檢驗方法檢驗分布函數(shù)Fn(x)是總體分布函數(shù)F(x)的估計。假設檢驗問題為目的尋找Fn(x)與假設的總體分布函數(shù)F0(x)之間的差異155§1.2.3正態(tài)性檢驗與分布擬合檢驗2.經(jīng)驗分布擬合檢驗2.
經(jīng)驗分布擬合檢驗常用統(tǒng)計量KolmogorovD統(tǒng)計量A-D統(tǒng)計量C-vonM統(tǒng)計量一般來說,若H0為真,上述統(tǒng)計量值均較小,否則有偏大的趨勢1562.經(jīng)驗分布擬合檢驗常用統(tǒng)計量KolmogorovD統(tǒng)計2.
經(jīng)驗分布擬合檢驗P值方法設由樣本觀測x1,x2,…,xn求得的KolmogorovD統(tǒng)計量、A-D統(tǒng)計量、C-vonM統(tǒng)計量的值分別是.令則對給定顯著水平α,(1)K-S檢驗:當p1<α時,拒絕H0;否則接受H0。(2)A-D檢驗:當p2<α時,拒絕H0;否則接受H0。(3)C-M檢驗:當p3<α時,拒絕H0;否則接受H0。1572.經(jīng)驗分布擬合檢驗P值方法設由樣本觀測x1,x2,…§1.2.3正態(tài)性檢驗與分布擬合檢驗3.
正態(tài)性W檢驗方法設樣本觀測值為x1,x2,…,xn,其次序統(tǒng)計量是x(1),x(2),…,x(n).計算校正平方和又計算一般的當n是偶數(shù)時,1≤i≤k=n/2;當n是奇數(shù)時,1≤i≤k=n-1/2158§1.2.3正態(tài)性檢驗與分布擬合檢驗3.正態(tài)性W檢驗方法3.
正態(tài)性W檢驗方法將di與系數(shù)ai(有表可查)相乘并求和,得計算注意W統(tǒng)計量總滿足0<W≤1.當H0成立時,W值接近1,否則趨近0。給定顯著水平α,設由樣本觀測值計算得到的W值是,令則當p<α時,拒絕H0;否則接受H0。1593.正態(tài)性W檢驗方法將di與系數(shù)ai(有表可查)相乘§1.2.3正態(tài)性檢驗與分布擬合檢驗4.
SAS實現(xiàn)(1)正態(tài)性W檢驗方法procunivariate(2)χ2檢驗法proccapability(3)經(jīng)驗分布擬合檢驗proccapability160§1.2.3正態(tài)性檢驗與分布擬合檢驗4.SAS實現(xiàn)(1)例1.14對P5例1.2的數(shù)據(jù)作:(1)正態(tài)性W檢驗;(2)關于正態(tài)分布假設的χ2檢驗;(3)關于正態(tài)分布假設的幾種經(jīng)驗分布擬合檢驗。161例1.14對P5例1.2的數(shù)據(jù)作:64例1.15對P16例1.11的數(shù)據(jù)作:(1)正態(tài)性W檢驗;(2)若不接受總體為正態(tài)分布,選取一種合適的分布類型,作經(jīng)驗分布擬合檢驗。162例1.15對P16例1.11的數(shù)據(jù)作:65§1.3多維數(shù)據(jù)的數(shù)字特征與相關分析多元總體:§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關系數(shù)設(X,Y)T是二元總體,樣本觀測值為(x1,y1)T,(x2,y2)T,…,(xn,yn)T,引進數(shù)據(jù)觀測矩陣163§1.3多維數(shù)據(jù)的數(shù)字特征與相關分析多元總體:§1.3.1§1.3.1二元數(shù)據(jù)的數(shù)字特征及相關系數(shù)記記則,稱為二元觀測數(shù)據(jù)的均值向量。稱
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030中國男士體閑短褲行業(yè)市場深度調研及發(fā)展前景與投融資戰(zhàn)略規(guī)劃研究報告
- 2025-2030中國電子煙具行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略研究報告
- 2025-2030中國熱處理空氣過濾行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略研究報告
- 2025-2030中國洗牙設備行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略研究報告
- 中班健康指導課件及教案
- 2025-2030中國氫氧化鋁干膠行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略研究報告
- 2025-2030中國朗姆酒行業(yè)市場發(fā)展分析及商業(yè)模式與投融資研究報告
- 2025-2030中國智能合約行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略研究報告
- 中班健康我愛運動課件
- 大城縣社區(qū)工作者招聘筆試真題2024
- 問題解決型護理品管圈QCC成果匯報之提高兒科護士橈動脈采血的穿刺成功率
- 瀝青現(xiàn)場攤鋪施工方案
- GB 41317-2024燃氣用具連接用不銹鋼波紋軟管
- 幼小銜接 每日一練
- 《中國書法》參考課件
- 四年級上冊脫式計算400題及答案
- 船運土方方案
- 危巖穩(wěn)定性計算表格-滑移式-傾倒式-墜落式-完整版
- JCT640-2010 頂進施工法用鋼筋混凝土排水管
- 03K132 風管支吊架圖集
- 衛(wèi)生室藥房盤點明細表
評論
0/150
提交評論