




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
統(tǒng)計(jì)描述與過程第一頁,共四十五頁,編輯于2023年,星期一第四章統(tǒng)計(jì)描述與SAS過程4.1變量的數(shù)字特征與MEANS過程4.2單變量分析與UNIVARIATE過程第二頁,共四十五頁,編輯于2023年,星期一1、表示位置的數(shù)字特征總體均值、中位數(shù)、眾數(shù)眾數(shù)是使得隨機(jī)變量密度函數(shù)取最大值的數(shù)值一、隨機(jī)變量的數(shù)字特征2、表示離散程度的數(shù)字特征極差、方差、標(biāo)準(zhǔn)差、標(biāo)準(zhǔn)差(變異)系數(shù)4.1變量的數(shù)字特征與MEANS過程極差:變異系數(shù):第三頁,共四十五頁,編輯于2023年,星期一標(biāo)準(zhǔn)差系數(shù)反映了單位均值上的離散程度常用在兩個總體均值不等的離散程度的比較上。3、表示分布形狀的數(shù)字特征偏度、峰度(對稱正態(tài)為0)偏度:度量總體分布偏斜程度隨機(jī)變量分布為對稱分布;非對稱的右偏分布,即隨機(jī)變量取值在右邊比較分散;非對稱的左偏分布,即隨機(jī)變量取值在左邊比較分散;第四頁,共四十五頁,編輯于2023年,星期一峰度:度量總體分布尾部粗細(xì)程度(與正態(tài)分布相比)正態(tài)分布隨機(jī)變量的峰度為0;與正態(tài)分布相比,隨機(jī)變量X偏離均值的極端值較少,分布形狀較平坦。與正態(tài)分布相比,隨機(jī)變量X偏離均值的極端值較多,分布有一個沉重的尾部,也稱重尾或粗尾,分布形狀較陡峭;第五頁,共四十五頁,編輯于2023年,星期一3、表示分布形狀的樣本統(tǒng)計(jì)量樣本偏度、樣本峰度4、區(qū)間估計(jì)二、參數(shù)估計(jì)1、表示位置的樣本統(tǒng)計(jì)量樣本均值、中位數(shù)、百分位數(shù)2、表示離散程度的樣本統(tǒng)計(jì)量樣本方差、樣本標(biāo)準(zhǔn)差、四分位差,樣本變異系數(shù)、樣本均值標(biāo)準(zhǔn)誤差第六頁,共四十五頁,編輯于2023年,星期一例題4.1,P93在實(shí)際應(yīng)用中,經(jīng)常會遇到數(shù)據(jù)處理的問題,那么為了分析數(shù)據(jù)我們就需要利用相關(guān)的統(tǒng)計(jì)量,數(shù)字特征來反映數(shù)據(jù)的特性。第七頁,共四十五頁,編輯于2023年,星期一
主要功能
:
MEANS過程用來對數(shù)據(jù)集中的數(shù)值變量的全部非丟失觀測計(jì)算簡單的描述統(tǒng)計(jì)量;還可以對均值進(jìn)行假設(shè)檢驗(yàn)并給出置信區(qū)間;對觀測組(BY組)分別計(jì)算簡單描述統(tǒng)計(jì)量。三、MEANS過程第八頁,共四十五頁,編輯于2023年,星期一MEANS過程的一般格式為:PROC
MEANS<option-list><statistic-keyword-list>;(必需的語句)varvariable-list;classvariable-list;freqvariable;weightvariable;idvariable-list;byvariable-list;output<out=sas-data-set><output-sataistic-list>….其余都是可選語句第九頁,共四十五頁,編輯于2023年,星期一1、PROCMEANS語句一般格式:PROCMEANS<options><statistic-keywords>;常用options:(1)DATA=數(shù)據(jù)集名(2)NOPRINT或PRINT:規(guī)定不輸出或輸出描述統(tǒng)計(jì)量;(3)MAXDEC=number;規(guī)定輸出結(jié)果小數(shù)部分的最大位數(shù),缺省為2;(4)ALPHA=value:規(guī)定置信區(qū)間的置信水平,缺省為0.05;常見統(tǒng)計(jì)量:MEAN:均值STD:標(biāo)準(zhǔn)差MIN:最小值MAX:最大值RANGE:極差SUM:求和VAR:方差SKEWNESS:偏度KURTOSIS:峰度等等語句說明statistic-keywords:規(guī)定輸出的統(tǒng)計(jì)量第十頁,共四十五頁,編輯于2023年,星期一2、VAR語句:一般格式VARvariable-list;規(guī)定要求計(jì)算簡單統(tǒng)計(jì)量的數(shù)值變量及次序。3、BY語句:一般格式BYvariable-list;根據(jù)by語句定義的觀測組分別計(jì)算各組相應(yīng)的簡單統(tǒng)計(jì)量。(要先排序)4、CLASS語句:一般格式CLASSvariable-list;可用其規(guī)定的變量定義觀測組,并分別計(jì)算各組相應(yīng)的簡單統(tǒng)計(jì)量。第十一頁,共四十五頁,編輯于2023年,星期一5、FREQ語句:一般格式FREQvariable;指定變量表示相應(yīng)觀測出現(xiàn)的頻數(shù)6、WEIGHT語句:WEIGHTvariable;指定變量表示相應(yīng)觀測的權(quán)數(shù)7、ID語句:一般格式IDvariable;對產(chǎn)生的數(shù)據(jù)集增加一個或幾個附加變量,用于識別輸出數(shù)據(jù)集里的觀測。第十二頁,共四十五頁,編輯于2023年,星期一
要求把計(jì)算的描述統(tǒng)計(jì)量輸出到新的SAS數(shù)據(jù)集中,并對新數(shù)據(jù)集的名字及所包含的統(tǒng)計(jì)量名字列表。8、OUTPUT語句:一般格式:OUTPUT<OUT=SAS-data-set><output-statistic-list><MAXID<(var-1<id-list-1><…var-n<(id-list-n)>>)>=name-list><MINID<(var-1<id-list-1><…var-n<(id-list-n)>>)>=name-list>;第十三頁,共四十五頁,編輯于2023年,星期一三類任選項(xiàng):(1)OUT=SAS-data-set:給出產(chǎn)生輸出數(shù)據(jù)集的名字;(2)output-statistic-list;規(guī)定輸出數(shù)據(jù)集里所要求的統(tǒng)計(jì)量,并規(guī)定這些統(tǒng)計(jì)量的變量名。有以下幾種形式:1)statistic-keyword=:如outputout=resultmean=meanx;2)statistic-keyword=name-list(名字列表)對所有的分析變量規(guī)定統(tǒng)計(jì)量的變量名如:outputout=result1mean=meanx1meanx2;第十四頁,共四十五頁,編輯于2023年,星期一(3)<MAXID<(var-1<id-list-1><…var-n<(id-list-)>>)>=name-list><MINID<(var-1<id-list-1><…var-n<(id-list-n)>>)>=name-list>;該項(xiàng)選擇用不同分析變量的最大或最小值來識別變量的列表。3)statistic-keyword(variable-list)=name-list對部分分析變量規(guī)定統(tǒng)計(jì)量的變量名如:outputout=result2mean=premeanpostmeanstd(post)=stdpost;(統(tǒng)計(jì)關(guān)鍵詞(變量列表)=名字列表)Var是被取最大值或最小值變量;id-list是對最大值或最小值的識別變量。第十五頁,共四十五頁,編輯于2023年,星期一dataa;inputname$sex$heightage;cards;rosef16519katef16817mikem17620johnm18019alicef17022;proc
meansdata=a;varheightage;outputout=newmax=maxhmaxamaxid(height(name)age(name))=heightstagest;run;maxid(height(name)age(name))=heightstagest;要求給出身高和年齡最大者的姓名,并分別用變量名保存在輸出數(shù)據(jù)集中。如:要求找出數(shù)據(jù)集a中身高最高者和年齡最大者第十六頁,共四十五頁,編輯于2023年,星期一輸出結(jié)果第十七頁,共四十五頁,編輯于2023年,星期一課本例4.1(P97)dataincomes;inputincome@@;cards;27139628739946626929533042532422811322617632023040448712774234523164336343330436141388293464200392265403259426262221355324374347261287113135291176342443239302483231292373346293236223371287400314468337308359352273267277184286214351270330238248419330319440427314414299265318415372238323412493286313412;proc
meansdata=incomesmeanvarstdcvskewnesskurtosisalpha=0.1tprtclmmaxdec=2;varincome;run;MEANS過程應(yīng)用第十八頁,共四十五頁,編輯于2023年,星期一mean:均值;var:方差;std:標(biāo)準(zhǔn)差cv:標(biāo)準(zhǔn)差系數(shù);skewness:偏度kurtosis:峰度;alpha=0.1:顯著性水平為0.1,即置信水平為90%;t:均值是否為零的t檢驗(yàn)值;prt:對應(yīng)t值的概率clm:上、下置信限maxdec=2:保留兩位有效小數(shù)第十九頁,共四十五頁,編輯于2023年,星期一輸出結(jié)果第二十頁,共四十五頁,編輯于2023年,星期一1、計(jì)算家庭人均收入(income),家庭人均消費(fèi)支出(consume)和食品支出(food)的均值、標(biāo)準(zhǔn)差、變異系數(shù)、偏度和峰度;第二十一頁,共四十五頁,編輯于2023年,星期一procmeansdata=cjl.xf2000meanstdcvskewnesskurtosismaxdec=2;varincomeconsumefood;run;第二十二頁,共四十五頁,編輯于2023年,星期一procmeansdata=cjl.xf2000meanmaxdec=2;Classarea;varincomeconsumefood;Outputout=newmax=maxinmaxconmaxfmaxid(income(province)consume(province)food(province))=incomestconsumestfoodest;run;procprintdata=new;varareamaxinmaxconmaxfincomestconsumestfoodest;run;2、按地區(qū)計(jì)算家庭人均收入(income),家庭人均消費(fèi)支出(Consume)和食品支出(food)的均值;計(jì)算各地區(qū)以上變量的最大值以及對應(yīng)的省份,并保存到數(shù)據(jù)集new中。第二十三頁,共四十五頁,編輯于2023年,星期一各地區(qū)均值第二十四頁,共四十五頁,編輯于2023年,星期一各地區(qū)三個變量的最大值及相應(yīng)省份第二十五頁,共四十五頁,編輯于2023年,星期一4.2、單變量分析與UNIVARIATE過程
在研究一個隨機(jī)變量的統(tǒng)計(jì)特性時,僅僅靠一些數(shù)字特征是不夠的;還必須研究其他反映變量統(tǒng)計(jì)特征的形式,比如:樣本的極端值、分位數(shù)、直方圖、莖葉圖、盒型圖、正態(tài)概率圖等。第二十六頁,共四十五頁,編輯于2023年,星期一能完成MEANS過程的基本統(tǒng)計(jì)量的計(jì)算描述變量極端值的情況計(jì)算分位數(shù),如中位數(shù),上、下四分位數(shù)生成若干個描述變量分布的圖,如莖葉圖、盒型圖、正態(tài)概率圖等生成頻率表對數(shù)據(jù)進(jìn)行正態(tài)性檢驗(yàn)UNIVARIATE過程的主要功能第二十七頁,共四十五頁,編輯于2023年,星期一UNIVARIATE過程的一般格式為:procunivariate<option-list>;varvariable-list;byvariable-list;freqvariable;weightvariable;idvariable-list;output<out=sas-data-set><output-statistic-list><pctlpts=percentilespctlper=prefix-name-list><pctlname=suffix-name-list>;第二十八頁,共四十五頁,編輯于2023年,星期一
語句說明options除了類似與means過程的選項(xiàng)外還有:1、procunivariate<option-list>語句(1)freq:要求生成包含變量值、頻數(shù)、百分?jǐn)?shù)和累積頻數(shù)的頻率表(2)Normal:要求檢驗(yàn)輸入的數(shù)據(jù)是否服從正態(tài)分布(3)Plot:要求生成莖葉圖、盒型圖、正態(tài)概率圖(4)pctldef=value:規(guī)定計(jì)算百分位數(shù)的方法第二十九頁,共四十五頁,編輯于2023年,星期一(1)Q3、Q1:上下四分位數(shù)(2)QRANGE:上下四分位數(shù)間的差(3)MSIGN:符號統(tǒng)計(jì)量(4)PROBM:大于符號秩統(tǒng)計(jì)量絕對值的概率(5)SIGNRANK:符號秩統(tǒng)計(jì)量(6)PROBS:大于中心符號秩統(tǒng)計(jì)量的絕對值的概率(7)NORMAL:檢驗(yàn)正態(tài)性統(tǒng)計(jì)量(8)PROBN:檢驗(yàn)數(shù)據(jù)來自正態(tài)分布的假設(shè)的概率(9)PCTLPTS=percentiles:規(guī)定用戶希望計(jì)算的百分位數(shù)。2、OUTPUT語句輸出統(tǒng)計(jì)量表除了MEANS語句中常用統(tǒng)計(jì)量外,還有以下一些統(tǒng)計(jì)量:第三十頁,共四十五頁,編輯于2023年,星期一procunivariatedata=cjl.xf2000plotnormal;varincome;run;例4.3檢驗(yàn)例4.2中變量income的正態(tài)性第三十一頁,共四十五頁,編輯于2023年,星期一輸出內(nèi)容第三十二頁,共四十五頁,編輯于2023年,星期一輸出內(nèi)容三種檢驗(yàn)的P值都<0.05,故在給定的顯著性水平0.05下,拒絕均值為0的原假設(shè),即變量income的均值不為0。第三十三頁,共四十五頁,編輯于2023年,星期一輸出內(nèi)容樣本容量小于2000時用W檢驗(yàn),大于2000時用D檢驗(yàn)。W檢驗(yàn)對應(yīng)的P值小于0.05,故在0.05的顯著性水平下拒絕原假設(shè),即變量income不服從正態(tài)分布。第三十四頁,共四十五頁,編輯于2023年,星期一輸出內(nèi)容第三十五頁,共四十五頁,編輯于2023年,星期一輸出內(nèi)容縱軸為莖,數(shù)據(jù)代表觀測間隔。橫軸為葉,表示觀測頻數(shù),數(shù)據(jù)為觀測值的末尾數(shù)字,葉右邊數(shù)字代表這一區(qū)間內(nèi)觀測的個數(shù)。第三十六頁,共四十五頁,編輯于2023年,星期一輸出內(nèi)容盒形圖使用莖葉圖的縱軸,上下頂線對應(yīng)上下四分位數(shù),中間虛線對應(yīng)中位數(shù)(5644.860)
,中間”+”號位平均值(6305.705),明顯大于中位數(shù),說明右邊數(shù)據(jù)比較分散,分布向右偏離。穿過莖葉圖的線為觸須線,表示數(shù)據(jù)的分布范圍;延伸到上下頂線外的范圍是上下四分位數(shù)差的2.5倍,超過范圍的數(shù)用“0”表示,若數(shù)值大于3倍,用“*”表示。
6305.705下頂線下的線較短,說明這個范圍的數(shù)據(jù)分布比較集中。第三十七頁,共四十五頁,編輯于2023年,星期一輸出內(nèi)容“*”代表觀測值,“+”代表參考直線,若觀測來自正態(tài)分布,兩者應(yīng)較為接近或重合。本例顯然不重合,故變量income不服從正態(tài)分布。第三十八頁,共四十五頁,編輯于2023年,星期一輸出內(nèi)容“*”代表觀測值,“+”代表參考直線,若觀測來自正態(tài)分布,兩者應(yīng)較為接近或重合。本例顯然不重合,故變量income不服從正態(tài)分布。第三十九頁,共四十五頁,編輯于2023年,星期一procunivariatedata=cjl.xf2000noprint;varincome;histogramincome/cframe=ligrcfill=green;title'histogramofincome';run;例4.4利用PROCUNIVARIATE過程作直方圖進(jìn)一步分析例4.2中變量income的分布情況第四十頁,共四十五頁,編輯于2023年,星期一顯然不符合正態(tài)分布,右邊比較分散,分布向右偏離。第四十一頁,共四十五頁,編輯于2023年,星期一dataa;inputprovince$x2-x7;cards;bj 2.97 1.68 1.77 1174.48 1078.57 779.61tj 3.00 1.41 2.13 827.61 770.85 581.47sjz 3.04 1.54 1.97 627.9 590.32 427.87ty 2.94 1.63 1.80 644.51 592.17 441.25hhht 2.73 1.28 2.13 641.78 610.47 480.24sy 2.97 1.76 1.69 692.73 623.77 505.27dl 3.06 1.69 1.81 771.92 704.51 621.25cc 3.06 1.77 1.73 635.19 603.23 541.54heb 2.90 1.51 1.92 671.31 654.79 494.76sh 3.00 1.55 1.94 1273.24 1138.71 896.83nj 2.90 1.40 2.07 892.41 833.69 611.76hz 2.99 1.60 1.87 1004.69 895.77 700.04nb 2.89 1.65 1.75 1179.61 1051.65 877.74hf 2.93 1.50 1.95 659.24 606.44 457.92fz 3.12 1.68 1.86 846.35 768.80 527.77xm 3.16 1.67 1.89 1135.11 1020.33 639.36nc 2.93 1.48 1.98 625.4 606.33 364.37jn 2.93 1.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 大班冬季交通安全課件
- 行政事業(yè)單位合同
- 項(xiàng)目推進(jìn)時間表與工作計(jì)劃書
- 泥工裝修詳細(xì)合同
- 大型體育賽事組織協(xié)議
- 能源互聯(lián)網(wǎng)項(xiàng)目戰(zhàn)略合作協(xié)議
- 農(nóng)業(yè)機(jī)械維修技術(shù)作業(yè)指導(dǎo)書
- 季度運(yùn)營策略及任務(wù)部署會議紀(jì)要
- 設(shè)計(jì)行業(yè)設(shè)計(jì)方案修改免責(zé)協(xié)議
- 企業(yè)互聯(lián)網(wǎng)應(yīng)用服務(wù)推廣合作協(xié)議
- 深靜脈血栓形成的診斷和治療指南(第三版)解讀資料講解課件
- 人教版小學(xué)一年級美術(shù)上冊全冊課件
- 統(tǒng)編人教部編版道德與法治四年級下冊教材解讀教師教材培訓(xùn)課件
- 履約專項(xiàng)檢查表
- 人教版數(shù)學(xué)四年級下冊第一單元測試卷
- 模具保養(yǎng)記錄表
- 2023國家自然科學(xué)基金申請書
- 原始狩獵圖 (2)
- 《色彩構(gòu)成——色彩基礎(chǔ)知識》PPT課件
- 鍍層的結(jié)合力
- 霍尼韋爾DDC編程軟件(CARE)簡介
評論
0/150
提交評論