SAS統(tǒng)計(jì)分析介紹課件_第1頁
SAS統(tǒng)計(jì)分析介紹課件_第2頁
SAS統(tǒng)計(jì)分析介紹課件_第3頁
SAS統(tǒng)計(jì)分析介紹課件_第4頁
SAS統(tǒng)計(jì)分析介紹課件_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、1.統(tǒng)計(jì)方法的選擇2.SAS過程步常用語句3.常用SAS過程t檢驗(yàn) MEANS過程 UNIVARIATE過程 卡方檢驗(yàn) FREQ過程方差分析 ANOVA過程 秩和檢驗(yàn) FREQ過程 NPAR1WAY過程4.小結(jié)及幫SAS幫助窗口的使用編寫程序、分析數(shù)據(jù)的一些好習(xí)慣查錯(cuò):怎樣知道自己分析的結(jié)果有沒有問題?(統(tǒng)計(jì)知識(shí)技能因素、編寫SAS程序技術(shù)因素、數(shù)據(jù)本身的因素)幫助窗口的使用:熟悉基本框架,查詢關(guān)鍵詞 “找路”閱讀和理解例子 “學(xué)習(xí)”模擬試驗(yàn) “演練和運(yùn)用” 目 錄1第1頁,共35頁。1.統(tǒng)計(jì)方法的選擇“巧婦難為有米之炊”2第2頁,共35頁。1.1 統(tǒng)計(jì)方法的選擇需(依次)回答以下問題1.手頭

2、資料類型 (已有調(diào)查/研究的數(shù)據(jù))2.研究目的(本研究擬回答的問題類型)3.變量類型、對(duì)比組數(shù)、樣本含量4.選擇合適的統(tǒng)計(jì)方法(是否需要統(tǒng)計(jì)學(xué)檢驗(yàn)?)5.選擇合適的SAS過程步 橫斷面研究?隊(duì)列研究?病例對(duì)照研究?干預(yù)研究?生態(tài)學(xué)研究?某指標(biāo)的分布?某水平(指標(biāo))的影響因素?某幾個(gè)因素之間的相關(guān)或因果關(guān)系?定性資料?有序分類資料?定量資料?T檢驗(yàn),卡方檢驗(yàn),方差分析,秩和檢驗(yàn),多因素分析FREQ, MEANS,ANOVA3第3頁,共35頁。1.2 統(tǒng)計(jì)方法的選擇by 因變量和自變量類型因變量(吸煙率,超重率,血壓水平)自變量(性別、年齡、地區(qū)、受教育程度)數(shù)值變量分類變量有序變量數(shù)值變量相關(guān)分

3、析多因素回歸分析t檢驗(yàn)方差分析協(xié)方差分析多因素回歸分析相關(guān)分析多因素回歸分析分類變量t檢驗(yàn)方差分析logistic回歸分析判別分析聚類分析c2檢驗(yàn)logistic回歸分析c2檢驗(yàn)有序變量方差分析logistic回歸分析判別分析聚類分析c2檢驗(yàn)logistic回歸分析相關(guān)分析c2檢驗(yàn)生存時(shí)間生存分析4第4頁,共35頁。資料類型數(shù)據(jù)特征單組設(shè)計(jì)完全隨機(jī)設(shè)計(jì)配對(duì)或配伍設(shè)計(jì)兩組多組兩組多組定量資料正態(tài)、方差齊樣本與總體均數(shù)比較的t檢驗(yàn)兩樣本t檢驗(yàn)單因素方差分析配對(duì)t檢驗(yàn)隨機(jī)區(qū)組設(shè)計(jì)方差分析非正態(tài)和/或方差不齊Wilcoxon符號(hào)秩和檢驗(yàn) t檢驗(yàn)、Wilcoxon秩和檢驗(yàn)Kruskal-Wallis H

4、秩和檢驗(yàn)Wilcoxon符號(hào)秩和檢驗(yàn)Friedman秩和檢驗(yàn)定性資料無序二項(xiàng)分布直接計(jì)算概率法、正態(tài)近似法(Z檢驗(yàn))c2檢驗(yàn)、Fisher確切概率法R*C表c2檢驗(yàn)Fisher確切概率法配對(duì)四格表c2檢驗(yàn)配對(duì)R*R列聯(lián)表c2檢驗(yàn)有序_Wilcoxon秩和檢驗(yàn)Kruskal-Wallis H秩和檢驗(yàn)Wilcoxon符號(hào)秩和檢驗(yàn)1.3 統(tǒng)計(jì)方法的選擇單變量資料 by 研究設(shè)計(jì)類型5第5頁,共35頁。數(shù)據(jù)特征分析方法相關(guān)分析 定量資料x、y服從雙變量正態(tài)分布直線相關(guān)分析x、y不服從雙變量正態(tài)分布Spearman秩相關(guān) 定性資料( R*C表)雙向無序c2檢驗(yàn)雙向有序、屬性不同Spearman秩相關(guān)、線

5、性趨勢檢驗(yàn)雙向有序、屬性相同一致性檢驗(yàn)(kappa系數(shù)的假設(shè)檢驗(yàn))回歸分析應(yīng)變量為連續(xù)型定量變量,服從正態(tài)分布一個(gè)應(yīng)變量,一個(gè)自變量:直線回歸分析一個(gè)應(yīng)變量,多個(gè)自變量:多重線性回歸分析應(yīng)變量為定性變量Logistic回歸分析應(yīng)變量為含有截尾數(shù)據(jù)的生存時(shí)間Cox比例風(fēng)險(xiǎn)回歸分析1.4 統(tǒng)計(jì)方法的選擇雙/多變量資料的關(guān)聯(lián)性分析方法(相關(guān)、回歸)6第6頁,共35頁。利用慢病監(jiān)測數(shù)據(jù)所發(fā)表文章中出現(xiàn)過的統(tǒng)計(jì)方法7第7頁,共35頁。單純描述,不做統(tǒng)計(jì)學(xué)檢驗(yàn)!采用某一種或幾種統(tǒng)計(jì)方法卡方檢驗(yàn)t檢驗(yàn)Logistic回歸分析秩和檢驗(yàn)方差分析利用慢病監(jiān)測數(shù)據(jù)所發(fā)表文章中出現(xiàn)過的統(tǒng)計(jì)方法8第8頁,共35頁。2.

6、SAS過程步常用的語句9第9頁,共35頁。VAR 指定分析變量BY, CLASS指定分層變量WHERE限定分析范圍等OUTPUT輸出 LABEL,設(shè)置變量標(biāo)簽FORMAT輸出格式等2.SAS過程步常用的語句10第10頁,共35頁。VAR語句在很多過程中用來指定分析變量。在VAR后面給出變量列表:VAR 變量名1 變量名2 變量名n; 變量名列表可以使用省略的形式,如X1-X3,math-chinese等。 如果數(shù)據(jù)集中有幾個(gè)變量依次為math,english,chinese,則var math-chinese 與var math english chinese 等價(jià)。VAR語句11第11頁,共

7、35頁。BY語句和CLASS語句BY語句在過程中一般用來指定一個(gè)或幾個(gè)分組變量,根據(jù)這些分組變量值把觀測分組,然后對(duì)每一組觀測分別進(jìn)行本過程指定的分析。在使用帶有BY語句的過程步之前一般先用SORT過程對(duì)數(shù)據(jù)集排序。如:(本例中數(shù)據(jù)已經(jīng)按sex排序了)(2)BY句和CLASS語句12第12頁,共35頁。Data score;input name $ sex $ math english chinese;cards;李明 男 92 83 76王思明 男 86 72 64張聰 男 74 79 92劉潁 女 95 82 95張紅藝 女 85 98 83;run;proc print data=sco

8、re; by sex;run;13第13頁,共35頁。 在一些過程(如方差分析)中,使用CLASS語句指定一個(gè)或幾個(gè)分類變量。而在另一些過程(如MEANS)中,CLASS語句作用與BY語句類似,可以指定分類變量,把觀測按分類變量分類后分別進(jìn)行分析。使用CLASS時(shí)不需要先按分類變量排序。14第14頁,共35頁。 用WHERE語句可以選擇輸入數(shù)據(jù)集的一個(gè)行子集來進(jìn)行分析,在WHERE關(guān)鍵字后指定一個(gè)條件。比如:where math=60 and chinese=60; 表示指定只分析數(shù)學(xué)、語文成績都及格的學(xué)生。(3) WHERE語句15第15頁,共35頁。 在過程步中經(jīng)常要將指定輸出結(jié)果存放到數(shù)

9、據(jù)集。不同過程中把輸出結(jié)果存入數(shù)據(jù)集的方法各有不同,其中OUTPUT語句是用得最多的一種,其一般格式為:OUTPUT OUT輸出數(shù)據(jù)集名 關(guān)鍵字變量名 關(guān)鍵字變量名 ;其中用“OUT”給出了要生成的結(jié)果數(shù)據(jù)集的名字,而用“關(guān)鍵字變量名”的方式指定了輸出哪些結(jié)果(關(guān)鍵字的例子比如MEANS過程中的MEAN,VAR,STD等等),等號(hào)后面的變量名指定了這些結(jié)果在輸出數(shù)據(jù)集中叫什么名字。(4) OUTPUT語句下一頁16第16頁,共35頁。例如,proc means data=score; var math; output out=result n=n mean=meanmath ;run;proc

10、 print data=result; run;17第17頁,共35頁。LABEL語句為變量指定一個(gè)標(biāo)簽,很多過程可以使用這樣的標(biāo)簽。其格式為 :LABEL 變量名標(biāo)簽 變量名標(biāo)簽 ;例如 :proc print data=score label; id name; var math english chinese; label name=姓名 math=數(shù)學(xué) english=英語 chinese=語文;run;(5) LABEL語句和FORMAT語句18第18頁,共35頁。FORMAT語句可以為變量輸出規(guī)定一個(gè)輸出格式,比如proc print data=score; format math

11、 5.1 chinese 5.1;run; 使得列出的數(shù)學(xué)、語文成績寬度占5位,帶一位小數(shù)。 事實(shí)上,在生成數(shù)據(jù)集的DATA步中也可以用FORMAT語句規(guī)定變量的輸出格式,用LABEL 語句規(guī)定變量的標(biāo)簽,用LENGTH語句規(guī)定變量的存貯長度,用ATTRIB語句同時(shí)規(guī)定變量的各屬性。在數(shù)據(jù)步中規(guī)定的變量屬性是附屬于數(shù)據(jù)集本身的,是永久的;在過程步中規(guī)定的變量屬性(標(biāo)簽、輸出格式等)只用于此過程的本次運(yùn)行。19第19頁,共35頁。3.常用SAS過程步介紹MEANS過程 TTEST過程UNIVARIATE過程FREQ過程ANOVA過程 NPAR1WAY過程20第20頁,共35頁。4.PROC ME

12、ANS (連續(xù)性變量的“均數(shù)”)proc means data=ncd.stat n mean max min range std fw=6;output out=ncd.out1; var h w cir; class urd; by gender;run;統(tǒng)計(jì)量變量標(biāo)簽N均值最大值最小值極差標(biāo)準(zhǔn)差h身高3645160.4193104898.509w體重364562.771453311211.57cir腰圍364482.411333010310.3521第21頁,共35頁。4.PROC TTEST (t檢驗(yàn))單樣本檢驗(yàn)proc ttest data=ncd.stat h0=170 sides

13、=2; var h; where gender=1; by urd;run;單側(cè)還是雙側(cè)?H0假設(shè)TTEST 過程變量: h (身高)N均值標(biāo)準(zhǔn)差標(biāo)準(zhǔn)誤差最小值最大值1573166.57.25620.183104193均值95% CL 均值標(biāo)準(zhǔn)差95% CL 標(biāo)準(zhǔn)差166.5166.1166.87.25627.01127.519自由度t 值Pr |t|1572-19.28 |t|匯總等于157110.15.0001Satterthwaite不等于1568.910.27.000123第23頁,共35頁。proc univariate data=ncd.stat ; var h;run;主要產(chǎn)出結(jié)

14、果:均數(shù)、中位數(shù)、眾數(shù)、最小值、最大值、極差、四分位數(shù)間距(四分位數(shù)極差)標(biāo)準(zhǔn)差、方差偏度系數(shù)(skewness)0正態(tài)分布;0右偏態(tài)(正偏態(tài),峰靠右)峰度系數(shù)(kurtosis)(0 峰尖峭 |t|= |M|= |S| D W-Sq A-Sq0.005026第26頁,共35頁。proc univariate data=ncd.stat noprint; histogram h; class urd ;run;proc univariate data=ncd.stat noprint; histogram h; class urd gender;run;5.PROC UNIVARIATE (畫

15、直方圖)27第27頁,共35頁。3.PROC FREQ (卡方檢驗(yàn))proc freq data=ncd.stat;tables region*obe2/expected nocol nopercent chisq;run;FREQ 過程頻數(shù)表 - region * obe2期望regionobe2行百分比01合計(jì)122575300252.7947.2137525225643299251.9447.05685.6214.38329026316266.2749.73191.778.23合計(jì)771144915頻數(shù)缺失 = 1表“obe2-region”的統(tǒng)計(jì)量統(tǒng)計(jì)量自由度值概率卡方233.2623

16、.0001似然比卡方檢驗(yàn)233.2399.0001Mantel-Haenszel 卡方132.4702 F模型1624.5311624.53119.30.0024誤差91461355.8767.12896校正合計(jì)91561980.4R 方變異系數(shù)根 MSEh 均值0.0100765.1188918.193227160.0586源自由度Anova SS均方F 值Pr Furd1624.531624.5319.30.002429第29頁,共35頁。3.PROC NPAR1WAY (秩和檢驗(yàn))proc anova data =ncd.stat; class urd; model h=urd;run;

17、NPAR1WAY 過程Kolmogorov-Smirnov 檢驗(yàn)- 變量 w按以下變量分類:urdurdN最大值最大值處處的 EDF均值的偏差14500.631111-0.5303824660.6802580.521197合計(jì)9160.656114第 541 個(gè)觀測發(fā)生最大偏差“w”的最大值 = 66.20Kolmogorov-Smirnov 雙樣本檢驗(yàn)(漸近)KS0.024569D0.049146KSa0.743607Pr KSa0.6379Cramer-von Mises 檢驗(yàn)- 變量 w按以下變量分類:urdurdN均值的偏差總和14500.07853124660.075835Cramer-von Mises 統(tǒng)計(jì)量(漸近)CM0.000169CMa0.154366Kuiper 檢驗(yàn)- 變量 w按以下變量分類:urdurdN均值的偏差14500.02789724660.049146Kuiper 雙樣本檢驗(yàn)(漸近)K0.077043Ka1.1657Pr Ka0.586530第30頁,共35頁。4.小結(jié)編寫程序、分析數(shù)據(jù)的一些好習(xí)慣會(huì)不會(huì)查錯(cuò)怎樣知道自己分析的結(jié)果有沒有問題?幫助窗口的使用31第31頁,共35頁?!八烙浻脖场币恍┗緮?shù)字統(tǒng)計(jì)學(xué)的最基本數(shù)字、正反方向:1.96、2.58,其他例子?關(guān)于數(shù)據(jù)庫的基本“數(shù)字”:樣本量、變量數(shù)給文件、變量起名字的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論