03數(shù)值資料的統(tǒng)計描述new_第1頁
03數(shù)值資料的統(tǒng)計描述new_第2頁
03數(shù)值資料的統(tǒng)計描述new_第3頁
03數(shù)值資料的統(tǒng)計描述new_第4頁
03數(shù)值資料的統(tǒng)計描述new_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第三章第三章 數(shù)值資料的統(tǒng)計描述數(shù)值資料的統(tǒng)計描述 考察數(shù)值變量(定量指標)所獲得的資料稱數(shù)值資料。采用計算統(tǒng)計指標、繪制統(tǒng) 計圖和編制統(tǒng)計表來描述數(shù)值資料的統(tǒng)計特征稱數(shù)值資料的統(tǒng)計描述。它是資料統(tǒng)計分 析的主要步驟,是進一步開展統(tǒng)計推斷的依據(jù)。BASE SAS 模塊提供了對資料統(tǒng)計描述 的多個過程語句,其中 MEANS 過程和 UNIVARIATE 過程可滿足數(shù)值變量的全部各類 統(tǒng)計指標的計算。 3.1 數(shù)值資料常用統(tǒng)計指標 1. 位置度量 (1) 均數(shù)(Mean):是描述數(shù)值資料頻數(shù)分布中心的一種度量,它是一組 n 個觀察值累 加和的平均。 (2) 中位數(shù)(Median):是一組數(shù)據(jù)按其大

2、小有序排列后,居于中間的數(shù)值。 (3) 眾數(shù)(Mode):是觀察值中出現(xiàn)頻率最高的數(shù)值。 (4) 幾何均數(shù)(Geometric mean):是 n 個數(shù)值的乘積開 n 次方根。 (5) 分位數(shù)(Quartiles):包括百分位數(shù)、四分位數(shù)和中位數(shù)。第 X 百分位數(shù)記為 Px,表示 在一組按大小順序排列的數(shù)據(jù)中,有 x%的觀察值小于 Px,有(100-x)%的觀察值大于 Px。P50、P25、P75 分別稱為中位數(shù)、下四分位數(shù)、上四分位數(shù)。 2. 變異性度量 (1) 全距(Range):為一組觀察值中最大值與最小值之差。 (2) 四分位間距(Interquartile range):為上、下四分

3、位數(shù)之差。 (3) 方差(Variance):是離均差平方和除以自由度的商。 (4) 標準差(Standard variance):方差的平方根。 (5) 變異系數(shù)(Coefficient of variation):是以百分比表示的標準差和均數(shù)的比率。 3. 分布形狀度量 偏度(Skewness): 用于度量分布是否對稱。樣本偏度為。其中 3 3 s )xx( )2n)(1n( n n 為樣本含量,為樣本均數(shù),s 為樣本標準差。對稱分布的偏度值為 0,正偏態(tài)分布的x 偏度值大于 0,負偏態(tài)分布的偏度值小于 0。 峰度(Kortosis): 用于度量分布的長尾所占比重。 樣本峰度為。偏離正態(tài)分

4、布較遠的分布可 )3n)(2n( ) 1n(3 s )xx( )3n)(2n)(1n( ) 1n(n 2 4 4 2 能具有較大的正的或負的峰度值。正態(tài)分布的峰度值為 0。 3.2 MEANS 過程 MEANS 過程用來對數(shù)據(jù)集中的數(shù)值變量計算簡單的描述性統(tǒng)計量。該過程對數(shù)據(jù)集中 有 VAR 語句指定的一些數(shù)值變量的全部非缺失的觀測計算簡單的描述統(tǒng)計量。如果使 用 BY 語句,可把數(shù)據(jù)按 BY 變量分為幾個觀測組,并對每個觀測組計算數(shù)值變量的描 述統(tǒng)計量。在 BY 組內(nèi)還可以用 CLASS 語句進一步分組。另外 MEANS 過程可以將若 干統(tǒng)計量的計算結(jié)果輸出到指定的 SAS 數(shù)據(jù)集,供進一步

5、分析計算時調(diào)用。最后, MEANS 過程還可計算總體均數(shù)的可信區(qū)間及 H0:0 的 t 檢驗。 3.2.1 MEANS 過程的語句說明過程的語句說明 1.MEANS 過程語句組成 *PROC MEANS 選擇項(options) VAR 變量名表 BY 變量名表 CLASS 變量名表 FREQ 變量名表 OUTPUT OUT=SAS 數(shù)據(jù)集 統(tǒng)計量關(guān)鍵詞變量名表 其中*標出的是不可缺少的語句,其他語句為可選語句(下同) 。 2. MEANS 過程的語句說明 (1) PROC MEANS 語句 格式: PROC MEANS options; 常用的 options(選擇項)有: DATA=SAS

6、DATASETS: 指明目標數(shù)據(jù)集名。缺省為最近建立的 SAS 數(shù)據(jù) 集。 NOPRINT: 說明不打印任何描述性統(tǒng)計量。多用在將這些描述性統(tǒng)計量輸出 到 SAS 數(shù)據(jù)集時。 MAXDEC=n: 規(guī)定輸出結(jié)果的小數(shù)部分的最大位數(shù)(n 取值為 08)。缺省 n2。 FW=field-width(域?qū)?:給出用來打印每個統(tǒng)計量的域?qū)?。缺省值?12。 VARdef=Df|weight/WGT|N|WDF: 在方差計算中規(guī)定除數(shù)。Df 表示除數(shù)使用自 由度(n-1),為缺省值。Weight/WGT 表示用權(quán)數(shù)和作為除數(shù)。n 表示用觀測個體 數(shù)(樣本含量)做除數(shù)。WDF 表示用權(quán)數(shù)和減 1 做除數(shù)。

7、ALPHA=value: 設(shè)置計算置信區(qū)間的置信水平 。 值在 01 間。例如若規(guī) 定 ALPHA=0.05,則計算均值的 95%置信區(qū)間。 統(tǒng)計量關(guān)鍵詞: 缺省時,該過程將計算 n、mean、std、min、max 等 5 個統(tǒng)計量。統(tǒng)計量的選 擇項有:n,nmiss,mean,std,min,max,range,sum,var,uss,css,cv,stderr,t,prt,sumwgt, skewness,krutosis,clm,lclm,uclm。 (2)VAR 語句 格式: VAR 變量名表; 規(guī)定要求計算簡單描述性統(tǒng)計量的數(shù)值變量及次序。若省略該語句,數(shù)據(jù)集中除去 BY、CLAS

8、S、ID、FREQ 和 WEIGHT 語句中列出的變量外,所有數(shù)值變量依次都被分 別計算。 (3)BY 語句 格式: BY 變量名表; 使用 BY 語句后,MEANS 過程先按 BY 變量的取值形成多個觀測組,然后按組別 分別計算各組對應(yīng)的描述性統(tǒng)計量,并可由每個觀測組產(chǎn)生輸出數(shù)據(jù)集中的一個觀測。 注意在使用 BY 語句前,要求對 BY 變量已排過序。 (4) CLASS 語句 格式: CLASS 變量名表; 同 BY 語句類似,用 CLASS 變量定義觀測組,分別計算各觀測組的描述性統(tǒng)計量。 與 BY 不同的是 CLASS 語句不要求 CLASS 變量事前已排序,而且結(jié)果在輸出時,按 CLA

9、SS 變量的不同取值,以單表的形式輸出。 (5) FREQ 語句 格式: FREQ 變量; 該語句指定一個數(shù)值型的 FREQ 變量,它的值表示輸入數(shù)據(jù)集中相應(yīng)觀測出現(xiàn)的頻數(shù), 該變量的值應(yīng)為正整數(shù)。若 FREQ|T| 檢驗假設(shè) H0:總體均數(shù)為零 檢驗方法:Student t 檢驗 檢驗統(tǒng)計量: T=(-0)/(s/)xn Prob=P(t|T|) M(sign), 及 Prob|M| 檢驗假設(shè) H0:總體中位數(shù)為零 檢驗方法:總體中位數(shù)檢驗 檢驗統(tǒng)計量:M=Min(小于 0 的觀測個數(shù),大于 0 的觀測個數(shù))非零的觀測個數(shù)/2 Prob=P(m|M|) sgn Rank 及 Prob|S|)

10、 檢驗假設(shè) H0:總體中位數(shù)為零 檢驗方法:符號秩和檢驗 檢驗統(tǒng)計量:S=T+ - (n+1)/2n/2 Prob=P(s|S|) 正態(tài)性檢驗的 W 檢驗(n2000) 檢驗假設(shè) H0:樣本來自正態(tài)總體,或觀測數(shù)據(jù)服從正態(tài)分布 檢驗方法:Shapiro-Wilks 的 W 檢驗 檢驗統(tǒng)計量: W=ai(X(x-i+1)-Xi)2/(Xi-)2X 其中 ai為 W 檢驗系數(shù),W 值介于 01 之間。當(dāng) W 值愈接近于 1,提示資料服從正態(tài)分 布;反之,W 偏離 1 愈遠,則拒絕原假設(shè),提示資料不服從正態(tài)分布。亦即對此檢驗而 言,WW,n,則 pW,n,則 p。 Kolmogorov-Smirno

11、v 正態(tài)性檢驗(n2000) 檢驗假設(shè) H0:樣本來自正態(tài)總體,或觀測數(shù)據(jù)服從正態(tài)分布 檢驗方法:Kolmogorov-Smirnov 頻數(shù)分布擬合優(yōu)度檢驗 檢驗統(tǒng)計量: D=|fn(Xi)-F(Xi)|, | fn(Xi-1)-F(Xi)| ni1 max D 值越大,P 值越小,提示資料不服從正態(tài)分布;反之,D 值越小,P 值越大,提示資 料服從正態(tài)分布。 3.3.2 UNIVARIATE 過程與過程與 MEANS 過程的不同過程的不同 由于 PROC UNIVARIATE 語句中增加選項 PLOT、NORMAL 和 FREQ,在 OUTPUT 語句中增加任意百分位數(shù)的計算功能,使其應(yīng)用范

12、圍大大增加。要注意在 PROC UNIVARIATE 過程中不使用 CLASS 語句,這與 PROC MEANS 過程不同。 3.4 實用程序精選 3.4.1 數(shù)值資料的統(tǒng)計描述過程數(shù)值資料的統(tǒng)計描述過程 例例 3.2 對 110 名 7 歲男童身高資料,試編制頻數(shù)表、計算描述性統(tǒng)計量及進行正態(tài) 性檢驗。 SAS 程序為: /*THE FOLLOWING EXAMPLE IS UNIVARIATE ANALYSIS.*/; PROC FORMAT; VALUE YFMT 1=108- 2=110- 3=112- 4=114- 5=116- 6=118- 7=120- 8=122- 9=124-

13、 10=126- 11=128- 12=130- 13=132-134; (/*定義輸出格式 YFMT*/) DATA P6; DO I=1 TO 110; INPUT X; Y=INT(X-108)/2)+1; FORMAT Y YFMT.;/*YFMT 后的點“.”不能少*/ OUTPUT; END; CARDS; 112.4 117.2 122.7 123.0 113.0 110.8 118.2 108.2 118.9 118.1 123.5 118.3 120.3 116.2 114.7 119.7 114.8 119.6 113.2 120.0 119.7 116.8 119.8 1

14、22.5 119.7 120.7 114.3 122.0 117.0 122.5 119.8 122.9 128.0 121.5 126.1 117.7 124.1 129.3 121.8 112.7 120.2 120.8 126.6 120.0 130.5 120.0 121.5 114.3 124.1 117.2 124.4 116.4 119.0 117.1 114.9 129.1 118.4 113.2 116.0 120.4 112.3 114.9 124.4 112.2 125.2 116.3 125.8 121.0 115.4 121.2 117.9 120.1 118.4 1

15、22.8 120.1 112.4 118.5 113.0 120.8 114.8 123.8 119.1 122.8 120.7 117.4 126.2 122.1 125.2 118.0 120.7 116.3 125.1 120.5 114.3 123.1 122.4 110.3 119.3 125.0 111.5 116.8 125.6 123.2 119.5 120.5 127.1 120.6 132.5 116.3 130.8 ; PROC FREQ;列頻數(shù)表 TABLE Y; RUN; PROC UNIVARIATE PLOT NORMAL;單變量分析(包括正態(tài)性檢驗) VAR X

16、; RUN; 運行結(jié)果: Cumulative Cumulative Y Frequency Percent Frequency Percent 108- 1 0.9 1 0.9 110- 3 2.7 4 3.6 112- 9 8.2 13 11.8 114- 9 8.2 22 20.0 116- 15 13.6 37 33.6 118- 18 16.4 55 50.0 120- 21 19.1 76 69.1 122- 14 12.7 90 81.8 124- 10 9.1 100 90.9 126- 4 3.6 104 94.5 128- 3 2.7 107 97.3 130- 2 1.8

17、 109 99.1 132-134 1 0.9 110 100.0 以上為頻數(shù)表。Y表示各組段,F(xiàn)requency為各組段頻數(shù),Percent為各組段頻率, Cumulative Frequency為各組段累積頻數(shù),Cumulative Percent為各組段累積頻率。 Univariate Procedure Variable=X Moments N 110Sum Wgts 110 Mean 119.7273Sum 13170 Std Dev 4.741325Variance 22.48017 Skewness 0.154611Kurtosis -0.02529 USS 1579259CSS

18、 2450.338 CV 3.960105Std Mean 0.452068 T:Mean=0 264.8437Pr|T| 0.0001 Num = 0 110Num 0 110 M(Sign) 55Pr=|M| 0.0001 Sgn Rank 3052.5Pr=|S| 0.0001 W:Normal 0.984798Pr|T|: 在 H0成立條件下,t 統(tǒng)計量 大于 T 絕對值的概率 Num=0 非零觀測的個數(shù)Num0: 觀測值0 的觀測個數(shù) M(sign): 檢驗總體中位數(shù)為 0 的假設(shè) 檢驗的符號統(tǒng)計量值 Prob|M|,: 是在 H0成立條件下,出現(xiàn) 大于 M 絕對值的概率 Sgn R

19、ank: 檢驗總體中位數(shù)為 0 的假 設(shè)檢驗的符號秩和統(tǒng)計量值 Prob|S|:在 H0成立條件下,出現(xiàn)大于 |S|的概率 W:Normal: 正態(tài)性檢驗統(tǒng)計量ProbW: 正態(tài)性檢驗相應(yīng)的顯著性概 率(p 值) Quantiles(Def=5) 100% Max 132.5 99% 130.8 75% Q3 122.8 95% 128 50% Med 119.9 90% 125.7 25% Q1 116.4 10% 113.1 0% Min 108.2 5% 112.3 1% 110.3 Range 24.3 Q3-Q1 6.4 Mode 114.3 Extremes Lowest Obs

20、Highest Obs 108.2( 8) 129.1( 56) 110.3( 97) 129.3( 38) 110.8( 6) 130.5( 45) 111.5( 100) 130.8( 110) 112.2( 64) 132.5( 108) 以上為單變量分析。其中包括正態(tài)性檢驗的W檢驗,檢驗結(jié)果為Pr(w)= 0.7608,說明該 資料服從正態(tài)分布。 Univariate Procedure Variable=X Stem Leaf # Boxplot 132 5 1 0 131 130 58 2 | 129 13 2 | 128 0 1 | 127 1 1 | 126 126 3 | 1

21、25 012268 6 | 124 1144 4 | 123 01258 5 | 122 014557889 9 +-+ 121 02558 5 | | 120 0001123455677788 16 | | 119 0135677788 10 *-+-* 118 01234459 8 | | 117 0122479 7 | | 116 02333488 8 +-+ 115 4 1 | 114 33378899 8 | 113 0022 4 | 112 23447 5 | 111 5 1 | 110 38 2 | 109 | 108 2 1 | -+-+-+-+ 莖葉圖(Stem Leaf):

22、 顯示資料頻數(shù)分布的特征。圖中數(shù)據(jù)值分為莖和葉,以數(shù)據(jù)的 整數(shù)部分表示莖,葉為相應(yīng)的小數(shù)部分,實際數(shù)據(jù)是莖葉乘以尺度比例。 盒狀圖(Boxplot): 由上四分位數(shù)和下四分位數(shù)劃出盒(Box)的頂線和底線,中間的 橫線表示中位數(shù)的位置。盒狀圖中的豎線稱觸須,表示數(shù)據(jù)散布的范圍,它是 1.5 倍的 四分位數(shù)間距。超過該范圍的數(shù)據(jù)用“0”表示;若超過了 3 倍以上四分位數(shù)間距的數(shù)據(jù), 則用#號標記。 Univariate Procedure Variable=X Normal Probability Plot 132.5+ * | + | * *+ | * + | * + | *+ | * | * | *+ | +* | * | +* 120.5+ * | * | * | * | * | *+ | * | * | *+* | *+ | * *+ | + 108.5+*+ +-+-+-+-+-+-+-+-+-+-

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論