第四講SAS的描述統(tǒng)計

上傳人：1*** IP屬地：北京上傳時間：2025-03-12 格式：PPT 頁數(shù)：46 大?。?57.51KB 積分：1.2 舉報 版權(quán)申訴

已閱讀5頁，還剩41頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

SAS提供多個不同的過程步來實現(xiàn)統(tǒng)計量的計算，它們在功能范圍上有許多的重復(fù)，本段介紹計算常用統(tǒng)計量的三個過程：1.

MEANS

常用來計算數(shù)值型變量的均值、標(biāo)準(zhǔn)差等統(tǒng)計量2.

UNIVARIATE

常用來計算數(shù)值型變量的均值、標(biāo)準(zhǔn)差等統(tǒng)計量、繪制一些統(tǒng)計圖3.

FREQ

常用來計算分類變量取值的頻數(shù)2.3編程實現(xiàn)描述性統(tǒng)計計算與繪圖

1、MEANS過程(均值過程)Procmeans<選項><輸出統(tǒng)計量關(guān)鍵字列表>;<Var分析變量名列

；><Class分類變量名列

；><Freq頻數(shù)變量

；><by分類變量名列;

><Outputout=數(shù)據(jù)集名<輸出統(tǒng)計量列表>;>Run;Procmeans主語句選項：1.DATA＝SAS數(shù)據(jù)集:指出SAS數(shù)據(jù)集的名稱，若省略，則使用最近產(chǎn)生的數(shù)據(jù)集。2.MAXDEC=數(shù)字指定該過程輸出結(jié)果中小數(shù)部分的最大位數(shù)(0到8).默認是2。3.FW=域?qū)?/p>

給出該過程用來打印每個統(tǒng)計量的字符長。默認是12。4.

ALPHA=置信水平為1-.默認為=0.05.Means過程默認輸出統(tǒng)計量只有五個：

N,Mean,Std,Min,Max

(1)語法格式(2).應(yīng)用舉例例1：某單位對100名健康的女大學(xué)生測定了血清總蛋白含量（g/L）,試做單變量描述性統(tǒng)計分析。dataaa;inputx@@;cards;74.378.8……70.4;procmeans;procmeansnminmaxmeanstdstderrcvmaxdec=2;MEANS過程分析變量：xN均值標(biāo)準(zhǔn)偏差最小值最大值10073.66000003.940081564.300000084.3000000procmeans;默認的5個統(tǒng)計量其SAS輸出結(jié)果與說明procmeansnminmaxmeanstdstderrcv

maxdec=2;輸出結(jié)果：MEANS過程分析變量：xN最小值最大值均值標(biāo)準(zhǔn)偏差標(biāo)準(zhǔn)誤差偏差系數(shù)10064.3084.3073.663.940.395.35

例2.下表為兩個不同地區(qū)居民家庭收入和支出情況的抽樣調(diào)查（單位：元），試分別統(tǒng)計收入和支出情況。

將下表中數(shù)據(jù)輸入成Excel文件sryzc.xls。4個變量名分別為：ID、R_ID、Income和Outgo，該四個變量分別表示“家庭編號”、“地區(qū)編號”、“家庭總收入”和“家庭總支出”。首先將其導(dǎo)入為SAS數(shù)據(jù)文件mylib.sryzc。IDR_IDIncomeOutgoIDR_IDIncomeOutgo121794155016222002060221716136517127302236313410273018124961455421765153019117601040522184190020128202366622050205021222501966722460218422131702400811976117023212001250912850249624217761350101427527602521980179411220101275261245525501212236181027210801380131330528202821986120014124001976291336923051522250197030215301316

對數(shù)據(jù)集mylib.sryzc中的Income變量計算簡單統(tǒng)計量，用如下MEANS過程即可：proc

means

data=mylib.sryzc;

var

Income;

run;SAS運行結(jié)果：

在PROCMEANS語句中使用統(tǒng)計量關(guān)鍵字列表。輸出數(shù)據(jù)集mylib.sryzc中收入(Income)的觀測個數(shù)、均值、中位數(shù)、第一百分位數(shù)、第五百分位數(shù)、第九十五百分位數(shù)、第九十九百分位數(shù)、第一四分位數(shù)、第三四分位數(shù)、最大值、最小值。proc

means

data=mylib.sryzc

nmeanmedianp1p5p95p99q1q3maxmin

var

Income;run;

運行結(jié)果

可以計算的描述性統(tǒng)計量關(guān)鍵字及其含義見下表。關(guān)鍵字所代表的含義關(guān)鍵字所代表的含義n有效數(shù)據(jù)記錄數(shù)skewness偏度nmiss缺失數(shù)據(jù)記錄數(shù)kurtosis峰度mean均值t分布位置假設(shè)檢驗之t統(tǒng)計量std標(biāo)準(zhǔn)差probt上述t統(tǒng)計量對應(yīng)的概率值stderr標(biāo)準(zhǔn)誤q1第一四分位數(shù)var方差q3第三四分位數(shù)median中位數(shù)qrange四分位數(shù)間距mode眾數(shù)p1第一百分位數(shù)cv變異系數(shù)p5第五百分位數(shù)max最大值p10第十百分位數(shù)min最小值p90第九十百分位數(shù)sum總計p95第九十五百分位數(shù)sumwgt加權(quán)值總計p99第九十九百分位數(shù)css校正平方和CLM置信限uss未校正平方和LCLM置信下限r(nóng)ange極差UCLM置信上限(3)使用CLASS語句或BY語句Class分類變量名列

；by分類變量名列;兩個語句的區(qū)別是：●使用BY語句時要求數(shù)據(jù)集須按BY變量排序，使用CLASS語句無此要求?！袷褂肂Y語句時輸出按BY變量的每個值分別提供一個表，使用CLASS語句則將所有結(jié)果排列在一個表之中。

例3.1)使用BY語句,將上例中的數(shù)據(jù)按地區(qū)(R_Id)分組計算統(tǒng)計量：Proc

sort

data=mylib.sryzc;

R_Id;run;proc

means

data=mylib.sryzc

nmeanmedianp1p5p95p99q1q3maxmin;

var

Income;

R_Id;run;

R_ID=1TheMEANSProcedureAnalysisVariable:INCOMEIncomeNMeanMedian1stPctl5thPtcl95thPctl99thPctl142803.712775.001760.001760.004275.004275.00LowerUpperQuartileQuartileMaximumMinimum2400.003305.004275.001760.00R_ID=2

AnalysisVariable:INCOMEIncomeNMeanMedian1stPctl5thPtcl95thPctl99thPctl161889.441983.001080.001080.002460.002460.00LowerUpperQuartileQuartileMaximumMinimum1740.502192.002460.001080.00使用BY語句分區(qū)域輸出統(tǒng)計量：

2)使用CLASS語句,按地區(qū)(R_Id)分組計算統(tǒng)計量：proc

means

data=mylib.sryzc

nmeanmedianp1p5p95p99q1q3maxmin;

var

Income;

CLASS

R_Id;run;

使用CLASS語句輸出結(jié)果：TheMEANSProcedure

AnalysisVariable:INCOMEIncomeR_ID

ObsNMeanMedian1stPctl5thPtcl95thPctl

14142803.712775.001760.001760.004275.00

16161889.441983.001080.001080.002460.00

LowerUpperR_ID

Obs99thPctlQuartileQuartileMaximumMinimum

144275.002400.003305.004275.001760.00

2162460.001740.502192.002460.001080.00(4)使用Output語句(輸出語句)Outputout=數(shù)據(jù)集名<輸出統(tǒng)計量列表>;輸出統(tǒng)計量列表形式：1)

統(tǒng)計量關(guān)鍵字=;新數(shù)據(jù)集中統(tǒng)計量用原變量名2)統(tǒng)計量關(guān)鍵字=新名字列表3)統(tǒng)計量關(guān)鍵字(變量列表)=新名字列表Procmeansdata=mylib.bclassnoprint;varheightweight;outputout=result2mean=;Run;Procprintdata=result2;run;例4(1)把數(shù)據(jù)集mylib.bclass中變量height和weight的均值輸出到新數(shù)據(jù)集result2.

(2)把變量height和weight的均值(新名分別取為hmean和wmean)

和標(biāo)準(zhǔn)差(新名字分別取為hstd和wstd)輸出到新數(shù)據(jù)集result3.Procmeansdata=mylib.bclassnoprint;varheightweight;outputout=result3mean=hmean

wmeanstd=hstd

wstd;Run;Procprintdata=result3;run;Output<選項><輸出統(tǒng)計量列表>;輸出統(tǒng)計量列表形式：1)

統(tǒng)計量關(guān)鍵字=;新數(shù)據(jù)集中統(tǒng)計量用原變量名2)統(tǒng)計量關(guān)鍵字=新名字列表3)統(tǒng)計量關(guān)鍵字(變量列表)=新名字列表(3)把變量height的均值、變量height和weight的標(biāo)準(zhǔn)差(新名字

分別取為hstd和wstd)和變量weight的方差(新名字取為wvar)輸出到新數(shù)據(jù)集result4.Procmeansdata=mylib.bclassnoprint;varheightweight

;outputout=result4mean(height)=std=hstd

wstdvar(weight)=wvar;Run;Procprintdata=result4;run;Output<選項><輸出統(tǒng)計量列表>;輸出統(tǒng)計量列表形式：1)

統(tǒng)計量關(guān)鍵字=;新數(shù)據(jù)集中統(tǒng)計量用原變量名2)統(tǒng)計量關(guān)鍵字=新名字列表3)統(tǒng)計量關(guān)鍵字(變量列表)=新名字列表2.UNIVARIATE過程(單變量過程)UNIVARIATE過程和MEANS過程的格式非常相似，相同的語句和選項其含義也相同，所不同的是某些統(tǒng)計量只能在UNIVARIATE過程中計算（如眾數(shù)），而且UNIVARIATE過程中具有繪圖功能;MEANS過程默認輸出統(tǒng)計量只有五個；UNIVARIATE過程默認輸出統(tǒng)計量不只一頁。UNIVARIATE過程一般格式：Procunivariate<選項>;Var變量名列；/*分析所列變量*/

<by變量名;>

<class變量名;>

<Id

變量名；>

<Outputout=數(shù)據(jù)集名<輸出統(tǒng)計量列表>;>

<histogram變量名</<選項>;

>Run;

Procunivariate主語句中可使用的選項:Data=

數(shù)據(jù)集名若省略，用最近建立的SAS數(shù)據(jù)集。Freq

:生成包括變量值、頻數(shù)、百分數(shù)和累計頻數(shù)的頻率表Normal

:計算關(guān)于輸入數(shù)據(jù)服從正態(tài)分布假設(shè)的檢驗統(tǒng)計量及P-值。Plot

生成一個莖葉圖(或水平直方圖),箱線圖和正態(tài)概率圖。Noprint:

在Output窗口不輸出計算結(jié)果。Mu0=數(shù)值

若省略，檢驗的均值為0。例5：對數(shù)據(jù)集bclass中變量HEIGHT和

WEIGHT計算常用描述性統(tǒng)計量Proc

univariate

data=mylib.bclass;

Var

height

weight

；Run;使極值部分顯示更直接.對最大和最小的幾個紀(jì)錄不僅顯示它們的觀測序號,還顯示相應(yīng)的Id變量值(如姓名),使我們從輸出結(jié)果就知道誰最高,誰最矮等等.利用Id語句的例子:Procunivariatedata=mylib.bclass;Varheight

weight

；Idname;Run;Id語句:Id識別變量名;利用Id語句前、后輸出(部分):

Variable:HEIGHT(身高（厘米）)

ExtremeObservationsLowestHighest

ValueObsValueObs125316712127271672013525167211373016914142617222

Variable:HEIGHT(身高（厘米）)

ExtremeObservationsLowestHighest

ValueNAMEObsValueNAMEObs125ROBERT3167EDWARD12127LILLIE27167PHILLIP20135JANE25167KIRK21137SUSAN30169JEFFERY14142MICHAEL6172LAWRENCE22不用畫圖語句時Univariate過程輸出一般包括五個部分：第一部分是矩統(tǒng)計量；第二部分為基本的位置和分散程度統(tǒng)計量，位置統(tǒng)計量包括均值、中位數(shù)、眾數(shù)，分散程度統(tǒng)計量包括標(biāo)準(zhǔn)差、方差、極差、四分位間距；第三部分為關(guān)于均值等于零的三種檢驗的結(jié)果，包括t檢驗、符號檢驗和符號秩檢驗；第四部分為各個重要的分位數(shù)；第五部分是觀測數(shù)據(jù)的五個最低值和五個最高值。Histogram語句(畫直方圖語句)，其一般格式：histogram變量名</<選項>>;選項：Midpoints=中點列Vscale=percent|count|proportion直方圖高度。默認是percent。Cfill=顏色

涂上直方圖或擬合曲線下方的顏色Nocurvel

隱藏不同曲線含義的圖例Procunivariatedata=mylib.sryzc

plot;Varincome

;histogramincome/cfill=red

;

Run;

例6計算家庭總收入的描述統(tǒng)計量，并繪制其直方圖、盒形圖及正態(tài)概率圖。Univariate過程輸出的直方圖繪制盒形圖及正態(tài)概率圖選項畫直方圖語句莖葉圖

莖葉圖又稱“枝葉圖”，它的思路是將數(shù)組中的數(shù)按位數(shù)進行比較，將數(shù)的大小基本不變或變化不大的位作為一個主干（莖），將變化大的位數(shù)作為分枝（葉），列在主干的后面，這樣就可以清楚地看到每個主干后面的幾個數(shù)，每個數(shù)具體是多少。莖葉圖是一個與直方圖相類似的特殊工具，但又與直方圖不同，莖葉圖保留原始資料的資訊，直方圖則失去原始資料的訊息。將莖葉圖莖和葉逆時針方向旋轉(zhuǎn)9O度，實際上就是一個直方圖，可以從中統(tǒng)計出次數(shù)，計算出各數(shù)據(jù)段的頻率或百分比。從而可以看出分布是否與正態(tài)分布或單峰偏態(tài)分布逼近。莖葉圖的優(yōu)缺點

1、用莖葉圖表示數(shù)據(jù)有兩個優(yōu)點：一是從統(tǒng)計圖上沒有原始數(shù)據(jù)信息的損失，所有數(shù)據(jù)信息都可以從莖葉圖中得到；二是莖葉圖中的數(shù)據(jù)可以隨時記錄，隨時添加，方便記錄與表示。

2、莖葉圖只便于表示兩位有效數(shù)字的數(shù)據(jù)，而且莖葉圖只方便記錄兩組的數(shù)據(jù)，兩個以上的數(shù)據(jù)雖然能夠記錄，但是沒有表示兩個記錄那么直觀、清晰。莖葉圖的案例分析

莖葉圖是將統(tǒng)計分組和次數(shù)分配一次完成，是探索性數(shù)據(jù)分析中對數(shù)據(jù)的初步形象描繪。其圖形直觀且保留原始信息，均值、中位數(shù)和眾數(shù)均可依原始數(shù)據(jù)準(zhǔn)確方便地算出。現(xiàn)以某班一次考試成績?yōu)槔?，介紹莖葉圖的作法。作圖過程

先作“莖”后填“葉”，將分組標(biāo)志(組距)視為莖，按數(shù)的大小從上到下(也可從下到上)排列。將每一個觀察值視為一個樹葉，每一個樹葉按照樹莖之要求長在應(yīng)長的樹莖上。對于百分制的考試分數(shù)，先將高位數(shù)字按順序排成一列，后將每個分數(shù)的個位數(shù)為葉長在相應(yīng)的莖上，最后將每莖上的葉按從小到大的排列。若人數(shù)較多，樹葉較長，可將高位數(shù)重復(fù)兩次，個位數(shù)分為0～5一枝，5～9一枝。為了便于分析，可將1/4、3/4分位數(shù)及中位數(shù)用符號標(biāo)出。

利用莖葉圖對考試成績進行評估

1）將莖葉圖莖和葉逆時針方向旋轉(zhuǎn)9O度，實際上就是一個班級成績帶有數(shù)字的直方圖，可以從中統(tǒng)計出次數(shù)，計算出各分數(shù)段的頻率或百分比，從它可以看出班級成績的分布是否與正態(tài)分布或單峰偏態(tài)分布逼近。2）若莖葉圖成績表扁而寬，說明該班整體成績較集中，成績差異不大；如果莖葉圖長而窄，說明該班成績較分散，標(biāo)準(zhǔn)差較大，高分低分差距大。這可使教師或校管理部門對學(xué)生成績有所了解。2.盒形圖

盒形圖（boxplot，又稱箱圖、箱線圖、盒子圖）是用更為簡潔的方法表現(xiàn)數(shù)據(jù)在數(shù)軸上的分布及其特點的圖形。

左圖是根據(jù)居民家庭的收入情況所繪的盒形圖；右圖是分地區(qū)居民家庭的收入情況所繪的盒形圖。

盒子的中間橫線是數(shù)據(jù)的中位數(shù)，封閉盒子的上下兩橫線分別為上，下四分位數(shù)。盒子的長度就是分布的四分位間距，其作用類似于標(biāo)準(zhǔn)差，可以反映數(shù)據(jù)分布的分散程度。從盒子邊線向外畫的兩條線叫做觸須線，最長可以延伸到四分位間距的1.5倍，但是如果已經(jīng)到了數(shù)據(jù)的最小值或最大值處就不再延伸了。如果有些數(shù)據(jù)值超出了觸須線的范圍，則這些數(shù)據(jù)用觸須線以外的點來畫出，一般認為這樣的點可能是異常點，在進一步進行數(shù)據(jù)分析時可以考慮是否需要剔除它。

StemLeaf#Boxplot43103323444|25557886++20000022222411*--+--*15788886++1122|++++MultiplyStem.Leafby10**+3NormalProbabilityPlot4250+*+|++++++++|*+*+*+*2750+++++***|+*****+****|**+*******1250+*++*+++++++++++++++-2-10+1+2UNIVARIATE過程輸出的莖葉圖、盒形圖、正態(tài)概率圖正態(tài)概率圖中“*”代表觀測值“+”代表參考直線。當(dāng)觀測數(shù)據(jù)來自正態(tài)分布時，“*”應(yīng)與“+”較為接近或重合。本例中，兩者較接近，數(shù)據(jù)可能來自正態(tài)分布?？蛇M一步利用檢驗統(tǒng)計量進行正態(tài)性檢驗。FREQ過程(頻數(shù)過程.可輸出頻數(shù)表)procfreq

<選項>;

<by變量名;

<tables

變量名列

</選項>>;

<其他SAS語句;>run;

1)Data=

數(shù)據(jù)集名若省略，用最近建立的SAS數(shù)據(jù)集。

2)Order=Freq|Data|Internal|Formatted

規(guī)定變量水平的記錄次序（排列次序）。

Order=

Freq表示按頻數(shù)降序排列，因此最大頻數(shù)的水平第一個出現(xiàn)；

Order=Data表示按輸入數(shù)據(jù)集中值的出現(xiàn)次序排列；

Order=Internal表示按變量的值排序；

Order=Formatted表示按變量格式化值的次序。默認項。

procfreq

主語句中可使用的選項:3)

Page

要求Freq過程每頁只輸出一張表。Tables

語句tables

變量名列

</選項>

；變量名列:列出要輸出頻數(shù)表的變量名，變量名之間要留空格.

在PROCFREQ

的一次執(zhí)行中可以包括任意多個tables語句。如果沒有tables語句，F(xiàn)REQ過程對數(shù)據(jù)集中每個變量都生成一個單向頻數(shù)表(如圖1中兩個變量的表分別為單向頻數(shù)表)。

tables

變量名列

</選項>；

在tables語句的斜杠/后面能使用的選項有：

NOCUM—不輸出單向頻數(shù)表和列表格式下的累計頻數(shù)和累計百分數(shù);

Procfreqdata=sryzc

;tables

R_IdIncome；Run;輸出變量R_Id(地區(qū)編號)和Income(家庭總收入)的單向頻數(shù)表：由地區(qū)編號R_ID的頻數(shù)表知，用1表示的地區(qū)樣本容量為14，用2表示的地區(qū)樣本容量為16，加起來30，即抽樣調(diào)查的家庭為30家。由家庭總收入INCOME的頻數(shù)表知，因為不是分類變量，是區(qū)間形變量，所以此頻數(shù)表意義不大。圖1例7輸出bclass中體重的頻數(shù)表Procfreqdata=bclass;

tablesweight;Run;

對連續(xù)型變量(如weight)，不同觀測的變量值一般不同。因此直接作頻數(shù)表意義不大。通常按變量取值范圍分成若干組后,統(tǒng)計變量在各個組取值的頻數(shù)等。例如，數(shù)據(jù)集bclass中的weight作如下分組后再觀察：由46.5公斤至77.0公斤，每4.5公斤為一組(每組不包括左端點)：

1.45.5公斤—50.0

公斤；

2.50.0公斤—54.5

公斤；

3.54.5公斤—59.0公斤；

4.59.0公斤—63.5

公斤；

5.63.5公斤—68.0

公斤；

6.68.0公斤—72.5

公斤；

7.72.5公斤—77.0

公斤.FORMAT過程（格式化過程）FORMAT過程可以設(shè)定變量值的輸出格式，對變量的不同值或不同范圍的值設(shè)定不同的“標(biāo)簽”來顯示。其一般形式：PROCFORMAT

;VALUE格式名

變量值或范圍1=標(biāo)簽1

變量值或范圍2=標(biāo)簽2……………變量值或范圍n=標(biāo)簽n;RUN;在DATA步或PROC步通過如下FORMAT語句聲明要使用FORMAT過程定義的格式：FORMAT變量名格式名.

;

格式名：是對格式表指定的SAS名。如果變量是字符型的，此名字必須以$開頭，包括$在內(nèi)不能超過8個字符，以字母結(jié)尾，中間的字符可以是字母、下劃線或數(shù)字;

如果變量值或標(biāo)簽中含有字母或空格，一定要用單引號‘

’括起來;在FORMAT語句中，在格式名后面必須緊跟一個點..格式表例8.(1)對數(shù)據(jù)集sryzc中區(qū)域變量值作如下定義標(biāo)簽：

1標(biāo)簽為‘第一地區(qū)’，2標(biāo)簽為‘第二地區(qū)’，并求出該變量的頻數(shù)表。proc

format;

valuea

1='第一地區(qū)'

2='第二地區(qū)';run;procfreqdata=sryzc

;tables

R_Id

；formatR_Ida.;Run;(2)對收入變量值分組：

procformat

;valueincomeb

人人文庫> 全部分類> 應(yīng)用文書 > 產(chǎn)品手冊

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第四講SAS的描述統(tǒng)計

文檔簡介

溫馨提示

最新文檔

評論

第四講SAS的描述統(tǒng)計

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔