數(shù)據(jù)的正態(tài)分布_第1頁(yè)
數(shù)據(jù)的正態(tài)分布_第2頁(yè)
數(shù)據(jù)的正態(tài)分布_第3頁(yè)
數(shù)據(jù)的正態(tài)分布_第4頁(yè)
數(shù)據(jù)的正態(tài)分布_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)的正態(tài)性檢驗(yàn)匯總2012-11-21 00:01:04| 分類: 統(tǒng)計(jì)學(xué)習(xí) |字號(hào) 訂閱如何在 spss中進(jìn)行正態(tài)分布檢驗(yàn)一、圖示法1、p-p 圖以樣本的累計(jì)頻率作為橫坐標(biāo),以安裝正態(tài)分布計(jì)算的相應(yīng)累計(jì)概率作為縱坐標(biāo),把樣本值表現(xiàn)為直角坐標(biāo)系中的散點(diǎn)。如果資料服從整體分布,則樣本點(diǎn)應(yīng)圍繞第一象限的對(duì)角線分布。2、q-q 圖以樣本的分位數(shù)作為橫坐標(biāo),以按照正態(tài)分布計(jì)算的相應(yīng)分位點(diǎn)作為縱坐標(biāo),把樣本表現(xiàn)為指教坐標(biāo)系的散點(diǎn)。如果資料服從正態(tài)分布,則樣本點(diǎn)應(yīng)該呈一條圍繞第一象限對(duì)角線的直線。以上兩種方法以q-q 圖為佳,效率較高。3、直方圖判斷方法:是否以鐘形分布,同時(shí)可以選擇輸出正態(tài)性曲線。4、

2、箱式圖判斷方法:觀測(cè)離群值和中位數(shù)。5、莖葉圖類似與直方圖,但實(shí)質(zhì)不同。二、計(jì)算法1、偏度系數(shù)(skewness )和峰度系數(shù)(kurtosis )計(jì)算公式:g1表示偏度, g2表示峰度,通過(guò)計(jì)算g1 和 g2 及其標(biāo)準(zhǔn)誤g1及 g2然后作 u 檢驗(yàn)。兩種檢驗(yàn)同時(shí)得出u0.05 的結(jié)論時(shí),才可以認(rèn)為該組資料服從正態(tài)分布。由公式可見(jiàn),部分文獻(xiàn)中所說(shuō)的偏度和峰度都接近0 可以認(rèn)為 近似服從正態(tài)分布并不嚴(yán)謹(jǐn)。2、非參數(shù)檢驗(yàn)方法非參數(shù)檢驗(yàn)方法包括kolmogorov-smirnov檢驗(yàn)(d 檢驗(yàn)) 和 shapiro- wilk( w檢驗(yàn))。sas 中規(guī)定:當(dāng)樣本含量n2000時(shí),結(jié)果以 shapir

3、o wilk(w檢驗(yàn))為準(zhǔn),當(dāng)樣本含量n 2000時(shí),結(jié)果以 kolmogorov smirnov(d檢驗(yàn))為準(zhǔn)。spss 中則這樣規(guī)定:(1)如果指定的是非整數(shù)權(quán)重,則在加權(quán)樣本大小位于3 和 50 之間時(shí),計(jì)算shapiro-wilk統(tǒng)計(jì)量。對(duì)于無(wú)權(quán)重或整數(shù)權(quán)重,在加權(quán)樣本大小位于3 和 5000 之間時(shí),計(jì)算該統(tǒng)計(jì)量。由此可見(jiàn),部分spss 教材里面關(guān)于 shapiro wilk適用于樣本量3-50 之間的數(shù)據(jù) 的說(shuō)法實(shí)在是理解片面,誤人子弟。(2)單樣本 kolmogorov-smirnov檢驗(yàn)可用于檢驗(yàn)變量(例如income )是否為正態(tài)分布。對(duì)于此兩種檢驗(yàn),如果p 值大于 0.05

4、,表明資料服從正態(tài)分布。三、 spss 操作示例spss 中有很多操作可以進(jìn)行正態(tài)檢驗(yàn),在此只介紹最主要和最全面最方便的操作:1、工具欄 -分析 描述性統(tǒng)計(jì) 探索性2、選擇要分析的變量,選入因變量框內(nèi),然后點(diǎn)選圖表,設(shè)置輸出莖葉圖和直方圖,選擇輸出正態(tài)性檢驗(yàn)圖表,注意顯示(display )要選擇雙項(xiàng)(both )。3、output 結(jié)果(1)descriptives:描述中有峰度系數(shù)和偏度系數(shù),根據(jù)上述判斷標(biāo)準(zhǔn),數(shù)據(jù)不符合正態(tài)分布。sk=0,ku=0 時(shí),分布呈正態(tài),sk0 時(shí),分布呈正偏態(tài),sk0 曲線比較陡峭, ku 0 時(shí) , 分布呈正偏態(tài),s k 0 時(shí), 分布呈負(fù)偏態(tài)。適用條件:樣

5、本含量應(yīng)大于2002、用夏皮羅 -威爾克 (shapiro-wilk)法檢驗(yàn)數(shù)據(jù)正態(tài)性即 w 檢驗(yàn) ,1965 年提出 , 適用于樣本含量n 50時(shí)的正態(tài)性檢驗(yàn); 。3、用達(dá)戈斯提諾 (dagostino) 法檢驗(yàn)數(shù)據(jù)正態(tài)性即 d 檢驗(yàn) ,1971 提出 ,正態(tài)性 d 檢驗(yàn)該方法效率高,是比較精確的正態(tài)檢驗(yàn)法。4、shapiro-francia 法即 w 檢驗(yàn) ,于 1972 年提出 ,適用于 50 n 5000 結(jié)果以 kolmogorov - smirnov 為準(zhǔn)。而 sas 規(guī)定 :當(dāng)樣本含量n 2000 時(shí) ,結(jié)果以 shapiro - wilk (w 檢驗(yàn) ) 為準(zhǔn) ,當(dāng)樣本含量n

6、2000 時(shí) ,結(jié)果以 kolmogorov - smirnov (d 檢驗(yàn) ) 為準(zhǔn)問(wèn): 對(duì)照組和病例組都是20 例,擬對(duì)某指標(biāo)進(jìn)行正態(tài)性檢驗(yàn),是用kolmogorov-smirnov檢驗(yàn)(簡(jiǎn)稱 k-s 檢驗(yàn) ), 還是 shapiro-wilk 檢驗(yàn)?已用k-s 檢驗(yàn)不能認(rèn)為該指標(biāo)不是正態(tài)分布,但是shapiro-wilk 檢驗(yàn)表明其為非正態(tài)分布, 我該相信哪個(gè)檢驗(yàn)結(jié)果?答:kolmogorov-smirnov檢驗(yàn):檢驗(yàn)頻數(shù)分布的正態(tài)性檢驗(yàn),適合大樣本。shapiro-wilk 檢驗(yàn):小樣本數(shù)據(jù)的正態(tài)性檢驗(yàn)。矩法正態(tài)性檢驗(yàn): 不限樣本。 問(wèn):用 spss中analysze/discript

7、ive statistics/explore法和用 analyze/nonparametric tests/1-sample k-s法評(píng)價(jià)正態(tài)性,結(jié)果不完全相同,為什么?答:以第二個(gè)為準(zhǔn),第一種方法是參數(shù)檢驗(yàn), 而第二種是非參數(shù)檢驗(yàn), 第一種是在知道總體分布的情況下做的, 第二種是在不知道總體分布的情況進(jìn)行的檢驗(yàn),而且大多數(shù)的檢驗(yàn),我們都是不知道總體分布到底是什么才做的k-s 檢驗(yàn)。因此在做分析的時(shí)候一般用第二種,標(biāo)準(zhǔn)的檢驗(yàn)單樣本分布的方法。不過(guò)一般推薦用上面的,并且和 sas 的結(jié)果比較吻合。同時(shí)樣本量小的時(shí)候選s-w 的結(jié)果,至于結(jié)果的不同,應(yīng)該是不同的方法算出的值不同,這很正常,因?yàn)檫@幾

8、個(gè)方法的數(shù)學(xué)表達(dá)式就不一樣,中間對(duì)數(shù)據(jù)的處理也不一樣,會(huì)有信息損失等原因的,在正態(tài)檢驗(yàn)中,尤其是接近水準(zhǔn)時(shí),往往容易出現(xiàn)問(wèn)題,所以要根據(jù)資料的性質(zhì)判斷用什么方法進(jìn)行檢驗(yàn)更合適。不是把所有的方法都做一遍。對(duì)于到底 p 取多少才有意義, 說(shuō)法有好多種,常用的是 0.1 吧,spss自帶的是 0.2 的界值。其實(shí)還是得結(jié)合qq,pp圖之類的來(lái)觀察會(huì)好些。小樣本最好不要看kolmogorov-smirnov的結(jié)果,常常會(huì)有問(wèn)題,shapiro-wilk 的結(jié)果會(huì)好些。 補(bǔ)充: 如果根據(jù)國(guó)標(biāo),其偏態(tài)和峰態(tài)算法,其值為多少時(shí)符合正態(tài)別有規(guī)定呢?k-s 檢驗(yàn)記得在資料上見(jiàn)過(guò)8=n5000 結(jié)果以 kolmo

9、gorm smimov(d檢驗(yàn) )為準(zhǔn)。sas 規(guī)定:當(dāng)樣本含量n2000時(shí),結(jié)果以shapim wilk(w 檢驗(yàn) )為準(zhǔn),當(dāng)樣本含量n2000 時(shí),結(jié)果以 kolmogorovsmimov(d檢驗(yàn) )為準(zhǔn)。在 spss 和 sas 等統(tǒng)計(jì)分析軟件中,通常用統(tǒng)計(jì)描述模塊中的shapiro-wilk檢驗(yàn)、經(jīng)過(guò) lilliefors 顯著水平修正的kolmogorov smirnov 檢驗(yàn)和非參數(shù)檢驗(yàn)?zāi)K中的單一樣本kolmogorov smirnov 檢驗(yàn)進(jìn)行正態(tài)性判定。但是這幾種檢驗(yàn)方法存在以下幾方面的問(wèn)題。(1)在實(shí)際應(yīng)用中常出現(xiàn)檢驗(yàn)結(jié)果與直方圖、正態(tài)性概率圖不一致,甚至幾種假設(shè)檢驗(yàn)方法結(jié)

10、果完全不同的情況。(2)shapiro wilk 檢驗(yàn) ( 檢驗(yàn) )和經(jīng)過(guò) lilliefors 顯著水平修正的kolmogorov smirnov 檢驗(yàn) (d 檢驗(yàn) )是用一個(gè)綜合指標(biāo) (順序統(tǒng)計(jì)量或d)來(lái)判定資料的正態(tài)性由于兩種方法都是用一個(gè)指標(biāo)反映資料的正態(tài)性,所以當(dāng)資料的正態(tài)峰和對(duì)稱性兩個(gè)特征有一個(gè)不滿足正態(tài)性要求時(shí),兩種方法出現(xiàn)假陰性錯(cuò)誤的機(jī)率均較大;而且兩種方法的檢驗(yàn)統(tǒng)計(jì)量都是進(jìn)行大小排序后得到,所以易受異常值的影響。(3)kolmogorov smirnov 單一樣本檢驗(yàn)是根據(jù)實(shí)際的累計(jì)頻數(shù)分布和理論的累計(jì)頻數(shù)分布的最大差異來(lái)檢驗(yàn)資料的正態(tài)性,可對(duì)正態(tài)分布進(jìn)行擬合優(yōu)度檢驗(yàn)。但它并

11、非檢驗(yàn)正態(tài)性的專用方法,因此它的檢驗(yàn)效率是最低的,最容易受樣本量和異常值等因素的影響。沒(méi)有修正的k-s 檢驗(yàn)的原始公式里面,檢驗(yàn)的既是標(biāo)化后的數(shù)據(jù)是否服從理論的分布。正態(tài)性檢驗(yàn)(上)2008-04-25 10:45 1. 樣本量較大時(shí)的結(jié)果:運(yùn)用的數(shù)據(jù)是 spss13.0data里面的 diameter_sub.sav ,樣本含量是 216 對(duì)數(shù)據(jù)分別支用 sas和 spss 進(jìn)行正態(tài)性檢驗(yàn):1.1 sas 中用 proc univariate normal;命令結(jié)果如下:tests for normalitytest -statistic- -p value-shapiro-wilk w 0

12、.993604 pr d 0.0789其中 sas中sas 規(guī)定:當(dāng)樣本含量n 2000 時(shí),結(jié)果以shapiro - wilk (w 檢驗(yàn)) 為準(zhǔn),當(dāng)樣本含量n 2000 時(shí),結(jié)果以kolmogorov - smirnov (d 檢驗(yàn)) 為準(zhǔn)。1.2 spss 里面用 explor 過(guò)程 plots 選項(xiàng)中 normality plots with tests 結(jié)果如下:tests of normalitykolmogorov-smirnov(a)shapiro-wilkstatisticdfsig.statisticdfsig.ap diameter(mm).058216.070.9942

13、16.476a lilliefors significance correction對(duì)于 spss 結(jié)果選用哪個(gè)方法, 我看的資料并不一致: 在 spss13.0書(shū)上以樣本量50,選 shapiro - wilk 檢驗(yàn),(而有文獻(xiàn)spss說(shuō)樣本含量3 n 5000 時(shí),結(jié)果以shapiro - wilk (w 檢驗(yàn))為準(zhǔn),有出入)1.3 在 spss13.0中單樣本的 k-s 擬合優(yōu)度檢驗(yàn)講到:可以用來(lái)檢驗(yàn)樣本的分布是否服從某種理論分布可以是正態(tài)、均勻等。用上述例子選normal 分布進(jìn)行計(jì)算結(jié)果如下:one-sample kolmogorov-smirnov testap diameter(mm)n216normal para

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論