SAS統(tǒng)計分析從入門到精通_第1頁
SAS統(tǒng)計分析從入門到精通_第2頁
SAS統(tǒng)計分析從入門到精通_第3頁
SAS統(tǒng)計分析從入門到精通_第4頁
SAS統(tǒng)計分析從入門到精通_第5頁
已閱讀5頁,還剩21頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第一章

數(shù)據(jù)預(yù)處理章澤武博士副教授聯(lián)系:統(tǒng)計學(xué)原理中數(shù)據(jù)預(yù)處理的內(nèi)容:

數(shù)據(jù)預(yù)處理是在對數(shù)據(jù)分類或分組之前所做的必要處理,內(nèi)容包括:數(shù)據(jù)的審核、數(shù)據(jù)的篩選、數(shù)據(jù)的排序、數(shù)據(jù)透視表等內(nèi)容。本課程中數(shù)據(jù)預(yù)處理的內(nèi)容:SAS的編程根底SAS的數(shù)據(jù)處理對象數(shù)據(jù)預(yù)處理的根本方法:數(shù)據(jù)整理、數(shù)據(jù)的分拆與合并、數(shù)據(jù)清洗、數(shù)據(jù)變換1.SAS編程根底1.1.SAS編程語言的根本結(jié)構(gòu)在SAS中可以利用“Editor”或“ProgramEditor”窗口書寫程序SAS語言結(jié)構(gòu)比較簡單,主要由DATAstep和PROCstep組成。程序的每一行以“;”表示結(jié)束。一些全局變量的設(shè)置語句應(yīng)放在DATA步之前。其根本命令有:title“…”;libname…;data…;run;proc…;run;根本運算符號:=<>≤≥≠EqltgtlegeneDATA步〔數(shù)據(jù)步〕是SAS進(jìn)行數(shù)據(jù)管理和操作的根本步驟,其主要功能包括:建立SAS數(shù)據(jù)集,導(dǎo)入外部數(shù)據(jù)文件,分割、修改、合并、更新現(xiàn)有的SAS數(shù)據(jù)集,分析、呈現(xiàn)和管理數(shù)據(jù),利用數(shù)據(jù)集中已有數(shù)據(jù)計算或生成新的變量主要命令有:infile語句:從外部文件獲取數(shù)據(jù)input語句:為讀入的數(shù)據(jù)指定變量名及格式cards語句:用于在SAS系統(tǒng)中直接輸入數(shù)據(jù)PROC步〔過程步〕主要進(jìn)行相應(yīng)的數(shù)據(jù)處理和分析活動主要命令有:data語句表示該PROC步所處理的數(shù)據(jù)集var語句表示處理該數(shù)據(jù)集中的特定變量Where語句表示指定系統(tǒng)處理符合一定條件或表達(dá)式的眼本By語句表示指定系統(tǒng)按照所列示的變量進(jìn)行分組處理,使用該語句時,必須先對該語句中指定的變量進(jìn)行排序此外,常見的PROC過程還有:PRINT顯示數(shù)據(jù)集的變量名及變量值SORT對指定變量進(jìn)行排序MEANS對數(shù)值型變量進(jìn)行描述統(tǒng)計分析UNIVARIATE對數(shù)值型變量進(jìn)行描述統(tǒng)計分析FREQ對定序變量進(jìn)行描述統(tǒng)計分析CHART對指定變量繪制文本形式的圖形GCHART在“Graph”窗口中對指定變量繪制圖形結(jié)構(gòu)化編程語言SAS結(jié)構(gòu)化編程語句主要有順序語句、條件語句和循環(huán)語句。這三種根本形式的語句均可在DATA不和PROC步中使用。條件語句例1.比較X和Y兩個變量的大小。如果X>Y,那么輸出“X>Y”;如果X<Y,那么輸出“X<Y”;如果X=Y(jié),那么輸出“X=Y(jié)”。假定X=10,Y=20。循環(huán)語句:計數(shù)循環(huán)、當(dāng)循環(huán)、直到循環(huán)計數(shù)循環(huán):data;dox=toby;end;Put“y=”y;run;例:計算1~100之內(nèi)的所有的奇數(shù)自然數(shù)之和當(dāng)循環(huán):data;dowhile(限定條件)end;put“y=”y;run;例:計算1~100之內(nèi)的所有的奇數(shù)自然數(shù)之和。直到循環(huán):dountil(限定條件〕例:計算1~100之內(nèi)的所有的奇數(shù)自然數(shù)之和。例:在1~100以內(nèi)計算50以內(nèi)的奇數(shù)自然數(shù)之和。

2.SAS的數(shù)據(jù)處理對象數(shù)據(jù)庫和SAS數(shù)據(jù)集SAS數(shù)據(jù)庫SAS數(shù)據(jù)庫具體是指存放SAS數(shù)據(jù)文件的文件夾,它與計算機(jī)中某個具體的文件夾相對應(yīng)。SAS數(shù)據(jù)庫的分類:臨時庫:只有一個,名為Work。每次啟動SAS時自動生成,關(guān)閉SAS時自動被去除。永久庫:可以有多個。用戶可以自己指定永久庫的庫標(biāo)記。每次啟動SAS,有三個數(shù)據(jù)庫是不可少的:SASUSERSASHELPWORK

SAS永久數(shù)據(jù)庫的建立

通過工具欄建立:

通過菜單方式建立:

資源管理器/邏輯庫/文件選項中的新建

通過命令的方式建立:dmlibassign

通過編程的方式建立:Libname例:建立一個名為“test”的永久數(shù)據(jù)庫,該數(shù)據(jù)庫對應(yīng)的文件夾所在的位置為“D:\Statistics\sas\sas9.2”Libnametest“D:\Statistics\sas\sas9.2”SAS數(shù)據(jù)集與SAS數(shù)據(jù)庫類似,SAS數(shù)據(jù)集也可以分為臨時數(shù)據(jù)集和永久數(shù)據(jù)集??梢允遣怀^8個字符的字符串,但第一個字符必須是字母。每一個數(shù)據(jù)集都有一個二級名字。第一級是庫標(biāo)記,第二級是數(shù)據(jù)集名,中間用“.”格開。調(diào)用永久數(shù)據(jù)庫中數(shù)據(jù)集時,應(yīng)當(dāng)指定該數(shù)據(jù)集對應(yīng)的庫標(biāo)記,而調(diào)用臨時數(shù)據(jù)庫的數(shù)據(jù)集時,那么可以省略庫標(biāo)記,直接引用即可。數(shù)據(jù)集的建立SAS變量的根本類型:數(shù)值型、字符型。默認(rèn)長度為8字節(jié),對于實際數(shù)據(jù)中遇到的缺失值,SAS系統(tǒng)通常用“.”表示。通過菜單建立SAS數(shù)據(jù)集:1.解決方案\分析\交互式數(shù)據(jù)分析\insightsolutions\Analysis\interactivdataanalysis\insight2.解決方案\分析\分析家通過命令建立SAS數(shù)據(jù)集(假設(shè)是非數(shù)值變量,必須在變量名稱后空一格打上$)DATAname;INPUTvariable;CARDS;Datalines;RUN;學(xué)

號12345678910姓名張三李四王二劉五張二李三劉大劉二劉三劉四成績語文89787990958789697570數(shù)學(xué)8790897687896988789210名學(xué)生的期末考試成績試用SAS/insight模塊、Analyst和SAS編程在SASUSER永久庫中建立名為“score”的SAS數(shù)據(jù)集,并且該數(shù)據(jù)包含“ID”〔學(xué)號〕、”“name”(姓名〕、literature”(語文)、“math”〔數(shù)學(xué)〕3個變量和10個觀測值。用編程方式輸入:DataSASUSER.score;Inputidname$literaturemath@@;Labelid=“學(xué)號”name=“姓名”literature=“語文”math=“數(shù)學(xué)”;Cards;8987278903798949076595878789789698698897578107092;Run;輸入@@表示按照input定義的變量順序依次連續(xù)讀入數(shù)據(jù),無論數(shù)據(jù)多少行,遇到“;”那么停止讀入數(shù)據(jù)。如果沒有@@符號,表示系統(tǒng)按照行讀入數(shù)據(jù)。如果讀入字符型變量,需要變量名后空一格加上$符號。在已有數(shù)據(jù)集的情況下可以利用set語句對數(shù)據(jù)集進(jìn)行復(fù)制如在臨時性數(shù)據(jù)庫中建立一個臨時性文件scoreDatascore;SetSASUSER.score;Run;各地區(qū)普通高中根本情況地區(qū)學(xué)校數(shù)招生數(shù)在校學(xué)生數(shù)畢業(yè)生數(shù)教職工數(shù)專任老師數(shù)北京33893519274803665567634718672天津23072335198537526355522313105河北814464146129388731871434468667536山西56022829264726116327318667436985內(nèi)蒙古37217912647356811752512127424593遼寧46425860968519916984818022535586吉林29616990745163710110712302222302黑龍江47920331554679313944118518432648上海344106474313811910177622217832江蘇844494692137346535317733048882855請將上述數(shù)據(jù)用SAS/insight模塊、Analyst和SAS編程方式在永久性數(shù)據(jù)庫中建立DQGZ數(shù)據(jù)集SAS系統(tǒng)的外部數(shù)據(jù)文件

利用SAS\Importdata菜單進(jìn)行數(shù)據(jù)導(dǎo)入:利用編程來實現(xiàn)數(shù)據(jù)的導(dǎo)入:procimportdatafile=“D:\Macroeconomy.xls”out=SASUSER.PerCapitaData;sheet=“economy”;run;利用SAS/importData菜單將儲存在Excel.1中的數(shù)據(jù)導(dǎo)入,在SASUSER永久數(shù)據(jù)庫中建立名為“PerCapitaData”的SAS數(shù)據(jù)集。利用SAS程序?qū)Υ嬖贓xcel.1中的數(shù)據(jù)導(dǎo)入,在SASUSER永久數(shù)據(jù)庫中建立名為“PerCapitaData2”的SAS數(shù)據(jù)集。3.數(shù)據(jù)預(yù)處理原理和根本方法在數(shù)據(jù)預(yù)處理過程中,通常根據(jù)其自身特點把數(shù)據(jù)劃分為臟數(shù)據(jù)和凈數(shù)據(jù)。從廣義上看。臟數(shù)據(jù)是指沒有經(jīng)過數(shù)據(jù)預(yù)處理而直接接受到的、處于原始狀態(tài)的數(shù)據(jù);凈數(shù)據(jù)是指經(jīng)過一定的選取、清洗、變換等數(shù)據(jù)預(yù)處理之后可以直接作為統(tǒng)計分析對象的數(shù)據(jù)。臟數(shù)據(jù)依據(jù)不同的分析目的具有不同的定義。如在常見的數(shù)據(jù)挖掘工作中,臟數(shù)據(jù)是指不完整、含噪音、不一致的數(shù)據(jù)。在問卷調(diào)查中,臟數(shù)據(jù)通常是指不符合問卷要求的數(shù)據(jù)。12345678910某咨詢公司受某品牌汽車的委托,對該品牌汽車的滿意度狀況進(jìn)行了調(diào)查。其中對購置了該品牌汽車的消費者有以下幾個典型問題。A1.你是否擁有某品牌的汽車1.是2.否〔停止問卷調(diào)查〕Q1.您對某品牌汽車總體滿意程度如何?請打分〔滿意程度越高,得分越高,反之得分越低〕。B1.您去年的平均月收入是多少?請選擇。1、3000元以下2、3000~50003、5000~80004、8000元以上B2.您家庭去年的平均月收入是多少?請選擇。1、3000元以下2、3000~50003、5000~80004、8000元以上IDQ1B1B21733282331035494451043663372487449534101124數(shù)據(jù)錄入人員對10份問卷進(jìn)行了數(shù)據(jù)錄入,錄入結(jié)果見下表

請利用編程方式將上述數(shù)據(jù)儲存在SASUSER數(shù)據(jù)庫中的Car數(shù)據(jù)集中。1、請利用編程方式,把例題中的數(shù)據(jù)儲存在SASUSER數(shù)據(jù)庫中的Car數(shù)據(jù)集中。2、請利用菜單和編程兩種方式將B1變量進(jìn)行降序排列3、請利用菜單形式將Q1調(diào)整為第一個變量,以加強數(shù)據(jù)分析人員對汽車滿意度打分的重視程度,并且把問卷編號變量“ID”作為最后一個變量。4、請設(shè)定變量B1對應(yīng)值1、2、3、4的標(biāo)簽5、請用菜單和編程兩種方式刪除問卷編號“ID”的變量6、請將總體數(shù)據(jù)按照個人收入變量,即“B1”變量分拆至高手入和低收入兩個數(shù)據(jù)集

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論