版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
SAS入門(mén)課程講義
廣西工學(xué)院統(tǒng)計(jì)學(xué)教研室
2010年4月
目錄
-第一章SAS系統(tǒng)簡(jiǎn)介
-第二章SAS數(shù)據(jù)集的建立
■第三章制作列表報(bào)告
-第四章數(shù)據(jù)的描述性統(tǒng)計(jì)
-第五章置信區(qū)間和假設(shè)檢驗(yàn)
■第六章回歸分析
■第七章方差分析
-第八章多元統(tǒng)計(jì)分析
第一章SAS系統(tǒng)簡(jiǎn)介
■主要內(nèi)容:使學(xué)生掌握SAS的界面使用和基
本編程使用,為學(xué)習(xí)和應(yīng)用SAS的其他專業(yè)
功能奠定堅(jiān)實(shí)的基礎(chǔ)。
■使用SAS進(jìn)行數(shù)據(jù)的一些簡(jiǎn)單分析和處理
3
推薦教材
■1.SAS系統(tǒng)的幫助以及在線文檔,都是學(xué)習(xí)
SAS的很好的工具。
/documentation/online
doc/sas9doc.html
-2.《SAS系統(tǒng)BaseSAS軟件使用手冊(cè)》高惠
璇等編譯,中國(guó)統(tǒng)計(jì)出版社1997
■3.《SAS系統(tǒng)SAS/STAT軟件使用手冊(cè)》高惠璇
等編譯,中國(guó)統(tǒng)計(jì)出版社1997
■4.《實(shí)用統(tǒng)計(jì)方法與SAS系統(tǒng)》高惠璇北京
大學(xué)出版社2001
4
數(shù)據(jù)類型
■a.橫截面數(shù)據(jù)集(cross-sectionaldata
set):即給定時(shí)點(diǎn)對(duì)個(gè)人、家庭、企業(yè)、
國(guó)家或一系列其他單位采集的樣本所構(gòu)
成的數(shù)據(jù)集(應(yīng)該忽略細(xì)小的時(shí)間差別)
-名詞術(shù)語(yǔ)
數(shù)據(jù)集:數(shù)據(jù)的集合,由樣本(行)和
變量(列)組成
5
數(shù)據(jù)類型
■b,時(shí)間序列數(shù)據(jù)集(timeseriesdata
set):
是由一個(gè)或幾個(gè)變量在不同時(shí)間的觀測(cè)
值所構(gòu)成的。
■c.混合橫截面數(shù)據(jù)集(pooledcross
sectiondataset):
有些數(shù)據(jù)既有橫截面數(shù)據(jù)的特點(diǎn)又有時(shí)
間序列的特點(diǎn),但每一時(shí)點(diǎn)的樣本不同。
6
數(shù)據(jù)類型
■d,綜列數(shù)據(jù)集(paneldataset):
由橫截面數(shù)據(jù)集中每個(gè)樣本的一個(gè)時(shí)間
序列組成。(定點(diǎn)長(zhǎng)期調(diào)查)
■其他專門(mén)數(shù)據(jù)類型:
1、離散數(shù)據(jù)(discretedata):通常在考
察個(gè)人、家庭或企業(yè)的決策行為時(shí),通
過(guò)問(wèn)卷調(diào)查獲得,由此發(fā)展出“離散選
擇模型”。定量數(shù)據(jù)與定性數(shù)據(jù)
7
數(shù)據(jù)集類型
2、持續(xù)數(shù)據(jù)(survivaldata):用于考察
變量從開(kāi)始到結(jié)束或調(diào)查終止前所經(jīng)過(guò)
的時(shí)間長(zhǎng)度,如失業(yè)持續(xù)時(shí)間、罷工持
續(xù)時(shí)間,股市牛熊市持續(xù)時(shí)間
8
數(shù)據(jù)處理的應(yīng)用
■“今天,我們不得不生存在全球化和信息革
命影響下的世界,我們只有兩個(gè)選擇:適應(yīng)它,
或者被它拋棄?!?/p>
■——英特爾公司主席安德魯?格魯夫
■1995年尼葛洛龐帝的《數(shù)字化生存》一書(shū)指明
了即將到來(lái)的數(shù)字時(shí)代,而在未來(lái)一長(zhǎng)段時(shí)間,
數(shù)字化生存仍將是人類的主要生存方式,在經(jīng)
濟(jì)學(xué)領(lǐng)域也不外如是。
9
SAS系統(tǒng)入門(mén)
SAS系統(tǒng)概況
■大型集成、跨平臺(tái)軟件系統(tǒng)
-完備的數(shù)據(jù)訪問(wèn)(Access)、管理
(manage)、分析(analyze)和呈現(xiàn)
(present)及應(yīng)用舁發(fā)(develop)的功能
■在數(shù)據(jù)處理、統(tǒng)計(jì)分析和IT應(yīng)用領(lǐng)域,
SAS系統(tǒng)已經(jīng)成為國(guó)際上的標(biāo)準(zhǔn)軟件系統(tǒng)。
10
SAS的發(fā)展歷程
■SAS(StatisticalAnalysisSystem)系統(tǒng)1966年由
美國(guó)]匕卡羅來(lái)納州(NorthCarolina)州立大
學(xué)開(kāi)始研制
■1976年成立美國(guó)SAS軟件研究所,并開(kāi)始對(duì)SAS
系統(tǒng)進(jìn)行維護(hù)、開(kāi)發(fā)、銷售和培訓(xùn)等工作
■1985年推出了SAS/PC(6.02)版本
11
■1989年推出SAS/PC(6.04)版本
■1997年下半年推出適用于多種操作系統(tǒng)
的6.12版本
-2000年2月又正式推出SAS系統(tǒng)8版本
■2002年推出全新的SAS9版本
12
SAS在中國(guó)的發(fā)展
■SAS公司于1989年在北京成立了辦事處
■1997年,SAS軟件研究所正式宣布成立
大中國(guó)區(qū)
■1999年3月在國(guó)內(nèi)設(shè)立獨(dú)資公司——賽仕
軟件(上海)有限公司。
13
SAS的成績(jī)
■全球十大獨(dú)立軟件開(kāi)發(fā)商之一
■世界六大洲近50個(gè)國(guó)家或地區(qū)設(shè)有分公
司及分支機(jī)構(gòu)
■應(yīng)用遍及120多個(gè)國(guó)家和地區(qū)(包括中國(guó))
的31000多個(gè)機(jī)構(gòu)中
■全球《財(cái)富》100強(qiáng)企業(yè)中,約有98%在
應(yīng)用SAS系統(tǒng)。
SAS系統(tǒng)窗口的組成
■程序窗口(PROGRAMEDITOR)
■運(yùn)行記錄窗口(LOG)
■輸出窗口(OUTPUT)
■資源瀏覽器窗口(EXPLORER)
>結(jié)果窗口(RESULTS)
15
第二章SAS數(shù)據(jù)集的建立
-SAS程序的書(shū)寫(xiě)格式
1、SAS程序由語(yǔ)句組成,語(yǔ)句用分號(hào)結(jié)束;
2、SAS語(yǔ)句可以從某一行的任意位置開(kāi)始;
3、幾個(gè)SAS語(yǔ)句可以寫(xiě)在同一行上,但每句要
使用分號(hào)。
16
4、一個(gè)語(yǔ)句也可以寫(xiě)成幾行,只要語(yǔ)句中的單
詞不被斷開(kāi)就可以。在一個(gè)語(yǔ)句中各個(gè)單詞之
間至少要有一個(gè)空格。
5、SAS程序中一般不區(qū)分大小寫(xiě)(字符串中要
區(qū)分大小寫(xiě))
6、用/*注釋的內(nèi)容*/來(lái)對(duì)程序進(jìn)行注釋
17
SAS程序的結(jié)構(gòu)
■SAS數(shù)據(jù)集
樣本(觀測(cè)、記錄)、變量(字段、域)、
表(數(shù)據(jù)集)、數(shù)據(jù)庫(kù)
■許多SAS語(yǔ)句都是以關(guān)鍵詞開(kāi)始并用它識(shí)別
語(yǔ)句的類型(如data、input、proc)
■絕大部分的SAS語(yǔ)句都可分為兩步:
DATA步和PROC步
18
SAS的變量及格式
■變量屬性(名稱、類型、輸入格式、輸出格式、
標(biāo)簽)
名稱:不多于8個(gè)字符,第一個(gè)須是字母
類型:數(shù)值型、字符串型($)
輸入格式:數(shù)據(jù)被SAS讀取的格式,分自由格
式和固定格式兩種
輸出格式:數(shù)據(jù)呈現(xiàn)給人們的格式
19
SAS文件及命名
-1、SAS數(shù)據(jù)集文件(后綴為sas7bdat)
■2、SAS程序文件(后綴為sas)
-3、SAS日志文件(后綴為log)
-4、SAS輸出文件(后綴為list)
20
SAS數(shù)據(jù)集的分類
■臨時(shí)數(shù)據(jù)集和永久數(shù)據(jù)集
(一)臨時(shí)數(shù)據(jù)集存放在work數(shù)據(jù)庫(kù)中
(二)永久數(shù)據(jù)集存放在永久數(shù)據(jù)庫(kù)中,除了work
數(shù)據(jù)庫(kù)之外,其他的數(shù)據(jù)庫(kù)都是永久數(shù)據(jù)庫(kù)。
1、SAS文件的2級(jí)命名方式:目錄,文件名
2、使用Libname語(yǔ)句創(chuàng)建永久數(shù)據(jù)集,
libname自建SAS數(shù)據(jù)庫(kù)名,目錄地址,;
(程序Libname)
21
b創(chuàng)建與讀取永久SAS數(shù)據(jù)集
-1、創(chuàng)建永久數(shù)據(jù)集
永久數(shù)據(jù)集的擴(kuò)展名是sas7bdat。
(程序libname)
-2、讀取永久數(shù)據(jù)集
(read例)
建立SAS數(shù)據(jù)集的5種方法
1、用data步輸入數(shù)據(jù)建立。newdata例2、利
用infile語(yǔ)句從外部調(diào)入數(shù)據(jù)文件建立SAS數(shù)據(jù)
集,注意:infile語(yǔ)句必須放在input語(yǔ)句的前面。
(Infile例)
3、利用“導(dǎo)入數(shù)據(jù)”功能建立。(Excel例)
4、利用EFI(externalfileinterface)功能導(dǎo)入
(classifydata例)。
5、data步利用set語(yǔ)句建立。(Setl例)
23
《查看SAS數(shù)據(jù)集的內(nèi)容_
-1、使用contents過(guò)程查看數(shù)據(jù)的相關(guān)信息。
proccontentsdata=數(shù)據(jù)集名position;
(Contents例)
■2、用print過(guò)程來(lái)顯示數(shù)據(jù)。
&SAS數(shù)據(jù)集的加工
-一、兩個(gè)SAS數(shù)據(jù)集的合并
1、兩個(gè)SAS數(shù)據(jù)集的串接(set語(yǔ)句);(set2例)
2、兩個(gè)SAS數(shù)據(jù)集的并接(merge語(yǔ)句).
■二、變量值的排序(sort語(yǔ)句)(sort例)
■三、對(duì)變量的選擇(drop語(yǔ)句和ke印語(yǔ)句)。
(Dropl,2例、keep例)
3
-四、對(duì)觀測(cè)的選擇。程序例子:obsl、
obs2>obs_if>obs_if_then>obs_where
-五、產(chǎn)生新變量及其觀測(cè)值,利用賦值
語(yǔ)句:丫3「213后=表達(dá)式;
(例newvariable)
SAS運(yùn)算符
■數(shù)學(xué)運(yùn)算符:
+—***(塞運(yùn)算)
■比較運(yùn)算符:
=(EQ)人=(NE)>(GT)<(LT)
>=(GE)<=(LE)in
■邏輯運(yùn)算符:
&(AND)I(OR)八(Not)
■其它:><(最小值)<>(最大值)
11(連接)
27
運(yùn)算次序一
■第一級(jí)**(十一)前綴入><<>
■第二級(jí)*/
-第三級(jí)+—
■第四級(jí)II
■第五級(jí)其余比較算符
■第六級(jí)&
■第七級(jí):I
注意:括弧可改變運(yùn)算順序,括弧里的先計(jì)算。
28
運(yùn)算次序二
■對(duì)于相同優(yōu)先級(jí)的算符,左邊的運(yùn)算先
做。但有兩個(gè)例外:
■1,對(duì)最高優(yōu)先級(jí),右邊的運(yùn)算先做
■2,當(dāng)兩個(gè)比較算符圍著一個(gè)量時(shí),這個(gè)
表達(dá)式看成是有一個(gè)and出現(xiàn)一樣被計(jì)
算。
如:12<age<20,
等價(jià)于:12<age&age<20
29
SAS函數(shù)
■SAS函數(shù)返回由它的參數(shù)計(jì)算得到的結(jié)
果,它的一般形式為:
SAS函數(shù)名(參數(shù)1,參數(shù)2,…)
參數(shù)之間由逗號(hào)隔開(kāi)。SAS函數(shù)的參數(shù)可
以是參數(shù)、變量、表達(dá)式或者其它函數(shù)。
■SAS函數(shù)分為13種類型,共147個(gè)函數(shù)。
下面我們介紹一些常用的SAS函數(shù)。
30
;SAS函數(shù)(一)
-數(shù)學(xué)函數(shù):
abs(x)x的絕對(duì)值;sign(x)符號(hào)函數(shù)
max(x,y,…)x,y,…中的最大值
min(x,y,…)x,y,…中的最小值
mod(x,y)x/y的余項(xiàng);sqrt(x)x的平方根
exp(x)e的x次幕;log(x)自然對(duì)數(shù)
log10(x)以10為底的對(duì)數(shù)
SAS函數(shù)(二)
Iog2(x)以2為底的對(duì)數(shù)
sin(x)cos(x)tan(x)三角函數(shù)
arsin(x)artan(x)反三角函數(shù)
■樣本統(tǒng)計(jì)函數(shù)
sum(x,y,…)計(jì)算參數(shù)和
mean(x,y〃,.)計(jì)算算術(shù)平均值
var(x,y,…)計(jì)算方差
std(x,y,…)計(jì)算標(biāo)準(zhǔn)差
占SAS函數(shù)(三)
-概率分布函數(shù)
Probbnlm(pznzr)參數(shù)為p,n的二項(xiàng)分布函數(shù),
P{X<=r}的值
Probnorm(x)標(biāo)準(zhǔn)正態(tài)分布函數(shù),P{Xv=x}
Probchi(x,df)自由度為df的卡方分布函數(shù),
P{Xv=x}的值
Probf(x,dfl,df2)F分布probt(xAdf)t分布
SAS函數(shù)(四)
■隨機(jī)數(shù)函數(shù)
Uniform(seed)產(chǎn)生[0,1]區(qū)間上均勻分布
的隨機(jī)數(shù)
Rannor(seed)產(chǎn)生N(0,l)的隨機(jī)數(shù)
Ranbin(seed,n,p)產(chǎn)生二項(xiàng)分布的隨機(jī)數(shù)
■時(shí)間函數(shù)
DATA步中常用語(yǔ)句
■IF語(yǔ)句(條件轉(zhuǎn)移語(yǔ)句)
1、簡(jiǎn)單if語(yǔ)句
一般格式:if條件表達(dá)式;
2、if…then語(yǔ)句
if條件表達(dá)式then執(zhí)行語(yǔ)句;
3、if.??then...else語(yǔ)句
if條件表達(dá)式then執(zhí)行語(yǔ)句1;
else執(zhí)行語(yǔ)句2;(if_then_else例)
■DO語(yǔ)句
1、簡(jiǎn)單do語(yǔ)句(常與IF…THEN一起使用)
do;
SAS語(yǔ)句;…
end;(dol>if_then_do例)
2、循環(huán)DO語(yǔ)句(do2例)
do指標(biāo)變量=初值to終值(by增量);
SAS語(yǔ)句;
end;
■循環(huán)do語(yǔ)句可采用條件控制形式。一般形式:
dountil表達(dá)式;
SAS語(yǔ)句;
end;
(表示循環(huán)語(yǔ)句執(zhí)行到括號(hào)中的表達(dá)式滿足為止,do_until例)
或者:dowhile表達(dá)式;
SAS語(yǔ)句;end;
(表示循環(huán)語(yǔ)句執(zhí)行到括號(hào)內(nèi)的表達(dá)式不滿足為止,do_while例)
■循環(huán)語(yǔ)句還可以采用嵌套形式,即在循環(huán)語(yǔ)句do…end內(nèi)部,
可嵌入另一個(gè)d?!璭nd循環(huán)語(yǔ)句,稱為嵌套循環(huán)。
(do_do例)
■GOTO語(yǔ)句
GOTO語(yǔ)句告訴SAS系統(tǒng)立即轉(zhuǎn)向執(zhí)行GOTO
語(yǔ)句中指出的語(yǔ)句,并從那一點(diǎn)開(kāi)始繼續(xù)執(zhí)行.
(go_to例,do3例)
>LABEL語(yǔ)句
LABEL語(yǔ)句的作用是對(duì)變量進(jìn)行說(shuō)明。格式:
label變量名1='標(biāo)記1'變量名2='標(biāo)記2'…
(label例)
■LENGTH語(yǔ)句
變量長(zhǎng)度的缺省值是8,但有時(shí)長(zhǎng)度超過(guò)了8個(gè)
字符,這時(shí)可用length語(yǔ)句定義變量的長(zhǎng)度。
(length例)
■Delete語(yǔ)句
告訴SAS系統(tǒng)停止處理當(dāng)前觀測(cè)值,且不寫(xiě)入
正在創(chuàng)建的數(shù)據(jù)集中。Delete語(yǔ)句通常用作IF
語(yǔ)句中的THEN字句或作為有條件的執(zhí)行DO語(yǔ)
句的一部分。(deletel例)
第三部分制作列表報(bào)告
■在PROCPRINT中使用其他語(yǔ)句可以產(chǎn)生一些
比較復(fù)雜的報(bào)表,例如產(chǎn)生:
1、標(biāo)題和腳注(TitlesandFootnotes)
2、用戶定制的表頭(ColumnHeading)
3、格式化的數(shù)據(jù)值
4、總和(ColumnTotals)
5、小計(jì)(Columnsubtotals)
6、按組分頁(yè)
§3-1產(chǎn)生列表報(bào)告
■一、產(chǎn)生簡(jiǎn)單的列表
1、產(chǎn)生一個(gè)最簡(jiǎn)單的列表的程序形式:
Procprintdata=數(shù)據(jù)集名;
Run;
在缺省情況下,列表報(bào)告的最左面出現(xiàn)
OBS列,給出了觀測(cè)號(hào);報(bào)告按原數(shù)據(jù)
集的順序顯示。(例lonpar)
■二、Noobs選項(xiàng)
在print過(guò)程中,可以用noobs選項(xiàng)去掉obs列
□(例noobs)
■三、VAR語(yǔ)句
使用var語(yǔ)句可以控制print過(guò)程中變量的出
現(xiàn)與否以及出現(xiàn)的順序,它的一般形式是:
VAR變量1變量2…;
(例var)
■四、where語(yǔ)句:選擇數(shù)據(jù)集的觀測(cè)
where條件表達(dá)式;
例1:between...and:選擇變量值在某一范圍的
觀測(cè):(例where)
where變量名between...and
where變量名notbetween...and
例2:contains,選擇變量中包含某一特殊字
符串的觀測(cè):
where變量名contains'字符串,;
■五、Sum語(yǔ)句:計(jì)算變量的總和(顯示在該變量所在
列的下方)。一般格式:(例sum)
sum變量名;
■六、ID語(yǔ)句。使用了id語(yǔ)句后,
(1)最左面的obs列被取消;
(2)Id/by語(yǔ)句所指定的變量被排列在報(bào)告的最左邊;
(3)Id/by語(yǔ)句所指定的變量只在每個(gè)組的開(kāi)始處出現(xiàn)一
次。(id_by)
■七、Pageby語(yǔ)句:使產(chǎn)生的報(bào)告按組分頁(yè)。
pageby變量名;
(例pageby)
、■§3-2改進(jìn)列表報(bào)告
■一、標(biāo)題(title)和腳注(footnote)
在SAS的所有報(bào)告中,都可以加入標(biāo)題和腳注:
titlen'標(biāo)題文本一
footnoten'腳注文本,;(Wtitle_footnote)
Title語(yǔ)句和Footnote語(yǔ)句具有如下特點(diǎn):
1、n的范圍從1到10,即最多有10個(gè)標(biāo)題和腳注。
2、標(biāo)題出現(xiàn)在每頁(yè)的頂部,腳注出現(xiàn)在底部。
3、缺省的標(biāo)題是'TheSASSystem',缺省的腳注不
出現(xiàn).
4、沒(méi)有n的title和footnote等于titlel和footnotel;
在使用了title和footnote語(yǔ)句后,所定義的標(biāo)題和腳注將一直保持
有效,直到另一個(gè)title和footnote語(yǔ)句被執(zhí)行.
使用以下兩個(gè)簡(jiǎn)單語(yǔ)句,可以取消所有的標(biāo)題和腳注:
titlel;footnote1;(例titlel)
二、Label語(yǔ)句:制作自定義的表頭(給變量產(chǎn)生一個(gè)標(biāo)簽).
變量的標(biāo)簽具有以下屬性:
1、最大長(zhǎng)度為40的字符串
2、在print過(guò)程中必須使用label或split選項(xiàng)才能被顯示
3、如果在過(guò)程步中被定義就只在該過(guò)程中有效;而如果在數(shù)據(jù)步
中被定義,就隨數(shù)據(jù)集一直有效(例由bel_2)
■三、Split語(yǔ)句:控制表頭的分割
split='符號(hào)';
(例split)
第四部分、數(shù)據(jù)的描述性統(tǒng)計(jì)
、.§4-1常用統(tǒng)計(jì)量的含義
-
?N—非缺失值觀測(cè)的數(shù)目Nmiss—缺失值觀測(cè)的數(shù)目
Min一最小值Max—最大值Range一極差(max-min)
Sum—觀測(cè)值的加權(quán)和Mean—均值
Variance—方差StdDev—標(biāo)準(zhǔn)差SStdMean—標(biāo)準(zhǔn)誤
CV一變異系數(shù)Mode—眾數(shù)
USS一平方和CSS一校正平方和
Skewness一偏度系數(shù)Kurtosis—峰度系數(shù)
T—檢驗(yàn)mean=O的T值Median—中位數(shù)
Q3一上四分位數(shù)Q1一下四分位數(shù)
.§4-2變量的概括描述_
■一、PROCMEANS過(guò)程(means例、means」例)
procmeansdata=數(shù)據(jù)集選項(xiàng);
var變量名;
run;
其中的選項(xiàng)包括:nmeanstdvarminmaxsumuss
cssrangeskewnesskurtosistprt等。
■例:用means過(guò)程對(duì)fitness數(shù)福集市的變量age,
runtime按變量group并算均值和方差,并將結(jié)巢存入
數(shù)據(jù)集new中。
(means_2例)
■在means_2例的程序中,
①選項(xiàng)noprint的作用是表示不將計(jì)算結(jié)果在output
窗口輸出;
②利用dass分類比用by來(lái)分類的優(yōu)點(diǎn)是:用dass分
類不需先對(duì)數(shù)據(jù)集進(jìn)行排序。
二、PROCUNIVARIATE過(guò)程(univariate例、univariate_l
例)
procunivariate€1313=數(shù)據(jù)集名選項(xiàng);
var變量名;
run;
其中的“選項(xiàng)〃可以包括:
(1)plot:對(duì)所分析的變量畫(huà)莖葉圖、箱線圖、正態(tài)概率圖
*
(2)freq:生成包括變量值、頻數(shù)、百分?jǐn)?shù)和累計(jì)百分?jǐn)?shù)的
表;
(3)normal:對(duì)數(shù)據(jù)進(jìn)行正態(tài)性檢驗(yàn),并輸出檢驗(yàn)的P值(
如果p值小于給定的顯著性水平,則拒絕原假設(shè),認(rèn)為數(shù)
據(jù)不是來(lái)自正態(tài)分布,反之則認(rèn)為數(shù)據(jù)來(lái)自正態(tài)分布)
(例univariate_2)
■在基本的語(yǔ)句中,對(duì)每個(gè)變量的分析輸出都包含四部分:
第一部分為該變量與矩(moment)相關(guān)的統(tǒng)計(jì)量,如均
值、方差等
第二部分為位置檢驗(yàn):總體均值=0的檢驗(yàn)統(tǒng)計(jì)量及p值.
第三部分是和次序統(tǒng)計(jì)量、分位數(shù)有關(guān)的統(tǒng)計(jì)量。表頭
的"定義5'、表示使用SAS計(jì)算分位數(shù)的定義5,
即
''數(shù)據(jù)按比例分布的經(jīng)驗(yàn)分布函數(shù)
第四部分分別列出了最小和最大的5個(gè)觀測(cè)值以及它們對(duì)
應(yīng)的觀測(cè)序號(hào)。
■如果需要把univariate中的一些統(tǒng)計(jì)量的輸出結(jié)果作進(jìn)一步
的處理,這時(shí)需把上述過(guò)程的計(jì)算結(jié)果存入一個(gè)新的SAS數(shù)
據(jù)集中,為此需利于output語(yǔ)句。(univariate_3例)
procunivariatedata=^據(jù)集名noprint;
var變量名;
outputout=新的數(shù)據(jù)集名統(tǒng)計(jì)量=變量名;run;
其中統(tǒng)計(jì)量可以用以下關(guān)鍵名:mean,var,std,n,css,uss,
sum,min,max,sumwgt,stderr,cv,skewness,kurtosis,T,
prt,range,ql,q3等等
■Univariate過(guò)程還可對(duì)某一變量進(jìn)行分組分析。在進(jìn)行分組
分析之前,必須先對(duì)變量進(jìn)行排序。(例Univariate_4)
■PROCCORR過(guò)程
PROCCORR過(guò)程是用以計(jì)算SAS數(shù)據(jù)集中變量間的相關(guān)系數(shù)
矩陣和協(xié)方差矩陣?;菊Z(yǔ)句為:
proccorrdata=數(shù)據(jù)集options;
var變量名;
run;
其中options(選項(xiàng))包括:
?pearson:要求輸出pearson相關(guān)系數(shù)矩陣
②spearman:要求輸出spearman相關(guān)系數(shù)矩陣
③cov:要求輸出協(xié)方差矩陣(例corr)
、■§4-3變量分布的圖形描述
■Proccapability過(guò)程
該過(guò)程有univariate過(guò)程同樣的分析功能,又有很強(qiáng)的用圖形
表現(xiàn)數(shù)據(jù)分析的能力,而且還能進(jìn)行分布擬合和分布檢驗(yàn)?;?/p>
本語(yǔ)句(capability」例):
Proccapabilitydata二數(shù)據(jù)集名選項(xiàng);
var變量名;
run;
若需畫(huà)直方圖,則只要在程序中增加語(yǔ)句histogram。
(capability_histogram例)
-若需高分辨率的圖形顯示,只需在過(guò)程語(yǔ)句中加上選項(xiàng)
graphics.(例capability_graphics)
■說(shuō)明:⑴上例中PROC語(yǔ)句中的選項(xiàng)noprint是不要求輸出概
括性統(tǒng)計(jì)量而只要求作直方圖,這時(shí)而把varoxygen與
合為一句:
histogramhistogramoxygeno
⑵橫軸上的分組范圍是系統(tǒng)自動(dòng)選的。若想自己設(shè)定,
只要在histogram語(yǔ)句中加進(jìn)表明各個(gè)區(qū)間中點(diǎn)位置的選項(xiàng)即
可??v軸的標(biāo)度有三種選擇:百分?jǐn)?shù)、頻數(shù)、比例,通過(guò)在
histogram語(yǔ)句中加入選項(xiàng)vscle=來(lái)設(shè)定,缺省為百分?jǐn)?shù)。
vscle=percent/cout/proportion
(例capability_2)
■過(guò)程capability還提供了顯示對(duì)分析數(shù)據(jù)擬合多種分布的功能.
如:正態(tài)分布(normal)、對(duì)數(shù)正態(tài)分布(lognormal)、指數(shù)
分布(exponential)、伽瑪分布(gamma)、貝塔分希(beta)
、威布爾分布(weibull)等,還可以設(shè)定曲線的寬度、顏色等.
(例capability_normal,capability_norm_2)
說(shuō)明:在capabilitynormal例子中,選項(xiàng)normal要求顯示擬合
的正態(tài)分布密度曲線,(L=2)是要求擬合密度曲線用虛線表示
,缺省為L(zhǎng)=l。Inset一句是杷變量oxygen的數(shù)據(jù)個(gè)數(shù)、均值
和標(biāo)準(zhǔn)差也顯示在圖上,4」和4.2都是指明格式的。
另外,還可以顯示數(shù)據(jù)的經(jīng)驗(yàn)分布和擬合的累積分布
曲線,這只要將語(yǔ)句histogram換成cdfplot即可。
(例capability_3)
§4-4頻數(shù)統(tǒng)計(jì)
cfreq過(guò)程:描述樣本中各變量取了什么值,以及取各個(gè)值的
頻數(shù)是多少等。基本語(yǔ)句(例freq」):
procfreqdata=數(shù)據(jù)集選項(xiàng);
tables變量名/選項(xiàng);run;
說(shuō)明:1、作列聯(lián)表:只要在變量名之間加一個(gè)*號(hào)。
2、tables語(yǔ)句有如下兩個(gè)選項(xiàng):
①nocum一不要累積頻數(shù)和累積百分?jǐn)?shù);
②nopercent一不要百分?jǐn)?shù)和累積百分?jǐn)?shù)。
3、若需改變輸出結(jié)果中的排列次序,在freq語(yǔ)句中加入選項(xiàng):
order=internal/freq/data/formatted
Internal—按變量的值排列;freq—按頻數(shù)降序排列;
data一按數(shù)據(jù)集中值出現(xiàn)的次序排列;
formatted—按變量格式化的值排列。(例freq_2)
4
■Procformat過(guò)程:對(duì)變量規(guī)定一個(gè)格式。如進(jìn)行變量
分組。
例:對(duì)數(shù)據(jù)集fitness中的變量age分組,小于39歲的為
Young,39到50歲的為Middle,50歲以上的為Old。然
后對(duì)它進(jìn)行頻數(shù)分析。(例freq_3,例freq_format)
,第五章置信區(qū)間和假設(shè)檢驗(yàn)
4§5-1置信區(qū)間的計(jì)算
■一、用MEANS過(guò)程計(jì)算置信區(qū)間
方法一:首先建立一個(gè)數(shù)據(jù)集,然后調(diào)用MEANS過(guò)程,計(jì)算所
需的統(tǒng)計(jì)量;再計(jì)算分位數(shù),確定置信區(qū)間的上、下限。
方法二:利用CLM過(guò)程,得到均值的95%置信區(qū)間
procmeansdata=數(shù)據(jù)集dm;
var變量名;
run;
例1、某種零件的重量服從正態(tài)分布。現(xiàn)從中抽容量為9的樣本,得觀測(cè)值為:
4.84.75.05.24.74.95.04.64.7(單位:KG)。現(xiàn)在來(lái)估計(jì)零件的平均重
量及平均重量的置信水平為0.95的置信區(qū)間。
(^Jconfidence_means>例confidence_means_l)
-二、用capability過(guò)程計(jì)算置信區(qū)間
Capability過(guò)程的intervals語(yǔ)句提供了正態(tài)分布總體均值和方差
的各種類型的置信估計(jì)。基本語(yǔ)句為(^i]confidence_capability):
proccapabilitydata二數(shù)據(jù)集名;
intervals變量名/method=4,6alpha=atype二選項(xiàng);
run;
說(shuō)明:①method=4為計(jì)算均值的置信區(qū)間,method=6為計(jì)算標(biāo)準(zhǔn)差
的置信區(qū)間;缺省時(shí)提供6種不同的區(qū)間,包括預(yù)測(cè)區(qū)間、允許限等.
(2)alpha=<a,則置信水平為1-a.缺省為a=0.010.050.10c
(§)type=lower/twosided/upper:分別表示計(jì)算置信下限、區(qū)間、
上限,缺省為置信區(qū)間。
r.§5-2總體參數(shù)的檢驗(yàn)
■總體均值的檢驗(yàn)
■一、用univariate過(guò)程進(jìn)行t檢驗(yàn)
univariate過(guò)程的缺省輸出結(jié)果包括了均值為零的t檢驗(yàn)的結(jié)果。
為了檢驗(yàn)問(wèn)題:HO:u=uO,只要事先將變量的所有觀測(cè)值減去uO
,得到一個(gè)新變量,再對(duì)新變量進(jìn)行均值為零的檢驗(yàn)。即
“0:〃=="0:〃一=0
例:已知某物質(zhì)的比重為1L53,現(xiàn)購(gòu)得該物質(zhì)若干,為檢驗(yàn)所購(gòu)物質(zhì)比重
是否為是.53,用某種方法重復(fù)測(cè)得其值為:11.4911.5111.5211.53
1L471L551L5011.46。假定測(cè)定值服從正態(tài)分布,問(wèn)所購(gòu)物質(zhì)比重
均值是否為11.53。(例test」)
二、用MEANS過(guò)程進(jìn)行t檢驗(yàn)
Means過(guò)程也提供了檢驗(yàn)HO:u=uO的t檢驗(yàn)法?;菊Z(yǔ)句為:
procmeansdata=數(shù)據(jù)集meanstdtprt;
var變量名;
run;
(例test_2)
■獨(dú)立樣本均值、方差的比較(TTEST過(guò)程)
TTEST過(guò)程是專用于進(jìn)行獨(dú)立樣本均值比較的t檢驗(yàn)法。該過(guò)程首先
對(duì)兩正態(tài)總體的方差是否相等進(jìn)行檢驗(yàn),然后給出了接受方差相等假
定的條件下兩樣本的t檢驗(yàn)和不接受方差相等假定的條件下兩樣本的
近似t檢驗(yàn)。基本語(yǔ)句為:
procttestdata=數(shù)據(jù)集名;
class分類變量名;
var分析變量名;
run;
使用這一過(guò)程要求將兩個(gè)樣本中被比較均值的變量的觀測(cè)值記在同一
分析變量下,分類變量只能取兩個(gè)值。
例:甲、乙兩臺(tái)機(jī)床加工同樣產(chǎn)品,從它們的產(chǎn)品中各隨機(jī)抽若干產(chǎn)
品,測(cè)得產(chǎn)品直徑為:
甲:20.519.819.720.420.120.019.019.9
乙:19,720.820.519.819.420.619.2
假定甲、乙兩臺(tái)機(jī)床生產(chǎn)的產(chǎn)品直徑服從正態(tài)分布。試比較甲、乙兩
臺(tái)機(jī)床生產(chǎn)的產(chǎn)品在質(zhì)量上有無(wú)顯著差異。(例ttest)
■配對(duì)樣本均值的比較(means過(guò)程、univariate過(guò)程)
ttest過(guò)程只能用于獨(dú)立樣本的比較,相依樣本的比較可以用means或
univariate過(guò)程來(lái)進(jìn)行?;菊Z(yǔ)句:
procmeansdata=^據(jù)集名tprt;
var分析變量名;
run;
例:為了比較用來(lái)做鞋子后跟的兩種材料的質(zhì)量,選取了15名男子,
每人穿一雙新鞋,兩只鞋的后跟用不同材料做成,其厚度均為10mm.
過(guò)了一個(gè)月再測(cè)量其厚度,得到數(shù)據(jù)如下:
材料x(chóng)6.67.08.38.25.29.37.98.57.87.56.18.96.19.49.1
TOy7.45.48.88.06.89.16.37.57.06.54.47.74.29.49.1
問(wèn)兩種材料制成的后跟在耐穿行上是否有顯著差異。(例tesjmeans)
練習(xí):下面給出患頭痛的病人服用兩種藥(ASPIRIN和TYLENOL)后感
到頭不痛了所用的時(shí)間(單位:分):
ASPIRIN:4042483562356235
TYLENOL:353742223829
寫(xiě)出讀這些數(shù)據(jù)和進(jìn)行t檢驗(yàn)的SAS程序,請(qǐng)問(wèn)一種藥品的藥效是否比
另一種的顯著。
&§5-3分布擬合檢驗(yàn)
■一、Capability過(guò)程
進(jìn)行分布函數(shù)的檢驗(yàn)實(shí)際上是擬合分布的一部分,所使用的程序與擬
合分布是相同的,如在前面capability_normal例子中,關(guān)心的是擬合
分布的圖形,在histogram語(yǔ)團(tuán)中使用了noprint選項(xiàng),若不使用該選
項(xiàng),就可顯現(xiàn)檢驗(yàn)結(jié)果。
-結(jié)果說(shuō)明:
第一部分:為檢驗(yàn)擬合分布的結(jié)果。首先指出擬合的是正態(tài)分布,給
出均值和標(biāo)準(zhǔn)差。接著是卡方檢驗(yàn)和其他三種經(jīng)驗(yàn)分布的檢驗(yàn)結(jié)果。
第二部分:列舉了不同的分位數(shù),有樣本分位數(shù)和擬合分位數(shù)。便于
比較不同部位樣本數(shù)據(jù)與擬合分布的符合程度。
-可以在一段程序中同時(shí)對(duì)同一數(shù)據(jù)擬合幾種不同分布的檢驗(yàn)。
(例test_3)
二、Univariate過(guò)程
univariate過(guò)程也提供了對(duì)正態(tài)分布的檢驗(yàn)的功能。
當(dāng)樣本容量不超過(guò)2000時(shí),一般使用Shapiro-Wilks統(tǒng)計(jì)量W,
當(dāng)樣本容量超過(guò)2000時(shí),一般使用Kolomogorov統(tǒng)計(jì)量D。
(例test_3)
第六章回歸分析
4§6-1相關(guān)系數(shù)
■瓠CORR過(guò)程計(jì)算相關(guān)系數(shù)
相關(guān)系數(shù)是用來(lái)刻畫(huà)變量間相關(guān)程度的一個(gè)量。Corr過(guò)程涉及到很多
按不同公式定義的相關(guān)系數(shù),其中最常用的是pearson相關(guān)系數(shù),也
是corr過(guò)程缺省時(shí)的輸出結(jié)果。一般格式是:
proccorrdata=數(shù)據(jù)集選項(xiàng);
var變量名;
with變量名;
partial變量名;
run;
說(shuō)明:①這是計(jì)算var中的變量與with中的變量之間的相關(guān)系數(shù)。如果
省略With,就按var中列舉的變量計(jì)算其兩兩之間的相關(guān)系數(shù)。如果var
也省略,就對(duì)數(shù)據(jù)集中所有數(shù)值型變量計(jì)算相關(guān)系數(shù)。
-②過(guò)程corr也自動(dòng)計(jì)算變量的各個(gè)常用統(tǒng)計(jì)量,并對(duì)相關(guān)系數(shù)
是否為零進(jìn)行檢驗(yàn)。選項(xiàng)nosimple和noprob分別表示不輸出單
變量的常用統(tǒng)計(jì)量和檢驗(yàn)的信息。Partial語(yǔ)句是計(jì)算偏相關(guān)系
數(shù)時(shí),指明排除變量用的。
■例6-1對(duì)于數(shù)據(jù)集fitness,計(jì)算oxygen、maxpulse、rstpulse與
runtime、runpulse>weight之間而相關(guān)系數(shù)。
(例relation_corr)
-為了直觀的了解數(shù)據(jù)的分布和相關(guān)系數(shù)的大小,可以通過(guò)gplot
過(guò)程畫(huà)散點(diǎn)圖。
■例6-2對(duì)于數(shù)據(jù)集fitness,畫(huà)出maxpulse與runpulse之間的數(shù)據(jù)
分布的散點(diǎn)圖。(例gplotjinear)
y§6-2一元線性回歸
■REG過(guò)程
SAS系統(tǒng)里面有很多具有回歸分析功能的過(guò)程,其中功能
最全面的是過(guò)程REG?;菊Z(yǔ)句為:
procregdat+數(shù)據(jù)集;
model因變量名=自變量名/選項(xiàng);
run;
例6-3從上一節(jié)關(guān)于數(shù)據(jù)集fitness的相關(guān)分析和所畫(huà)的散點(diǎn)圖
中可以看出,變量runtime與變量oxygen之間線性相關(guān)的程
度很強(qiáng)。試用數(shù)據(jù)集fitness的數(shù)據(jù)擬合變量runtime預(yù)測(cè)
oxygen的一元線性回歸。(例reg_l)
-輸出結(jié)果說(shuō)明:
(1)第一部分為方差分析,對(duì)應(yīng)于模型的F統(tǒng)計(jì)量的值為84.01,相
應(yīng)的p值為0.0001v0.05=a,模型的作用是顯著的。并且R人2和校正
R人2分別為0.7434和0.7345。
(2)第二部分列舉了回歸方程中兩個(gè)參數(shù)的數(shù)值和有關(guān)的顯著性檢
驗(yàn)的結(jié)果。由此得到的回歸方程為:
OXYGEN=82.42177-3.31056*RUNTIME
T檢驗(yàn)的結(jié)果表明兩個(gè)回歸系數(shù)都是顯著的不為零。
■預(yù)測(cè)與置信限
若要利用擬合的回歸方程對(duì)原數(shù)據(jù)集的數(shù)據(jù)進(jìn)行預(yù)測(cè),可在model語(yǔ)
句中使用選項(xiàng)p
例6-4對(duì)例6-3的數(shù)據(jù)集fitness的數(shù)據(jù)進(jìn)行預(yù)測(cè)。(例reg_2)
程序說(shuō)明:
(1)在reg_2.sas中,對(duì)數(shù)據(jù)按自變量runtime進(jìn)行排序,是為了在以
后顯示時(shí)更為清楚,而數(shù)據(jù)排序是不影響回歸擬合的結(jié)果的。
(2)在model語(yǔ)句中增加選項(xiàng)p,就是要求輸出預(yù)測(cè)的結(jié)果。
(3)語(yǔ)句idruntime是要求輸出結(jié)果時(shí)增加變量runtime作為標(biāo)識(shí)變量
,便于比較不同自變量和因變量的取值。
輸出結(jié)果說(shuō)明:
輸出的結(jié)果除了方差分析和回歸參數(shù)估計(jì)檢驗(yàn)外,還包括原數(shù)據(jù)集中
的自變量、因變量和用擬合回歸預(yù)測(cè)的結(jié)果。
-例6-5利用例6-3得到的擬合的回歸方程對(duì)另一些數(shù)據(jù)進(jìn)行預(yù)測(cè),要
得到當(dāng)runtime=8,9,10,ll,12,13,14對(duì),因變量oxygen的預(yù)測(cè)值。
(例reg_3)
-若需要得到預(yù)測(cè)值的置信限,可在model語(yǔ)句中加入選項(xiàng)di,則程序
會(huì)提供預(yù)測(cè)值的95%的置信上限和置信下限。(例reg_4)
■類似的,在model語(yǔ)句中加入選項(xiàng)dm可輸出對(duì)回歸均值的95%置信
區(qū)間。
§6-3HI歸線的作圖
-Ji-
要對(duì)擬合回歸的數(shù)據(jù)作散點(diǎn)圖并附加回歸線,有兩種方式可以實(shí)
現(xiàn),一種是利用過(guò)程REG帶有的作圖功能;另一種是用過(guò)程gplot。
■利用reg過(guò)程作圖
為了利用過(guò)程reg制作高分辨率的圖形,首先必須在proc語(yǔ)句中
加入選項(xiàng)graphics。然后增加plot語(yǔ)句,指明作圖的縱軸變量和橫軸
變量。一般格式為:
procregdata*據(jù)集名graphics;
model因變量名=自變量名;
plot縱軸變量名*橫軸變量名;
symbol格式選項(xiàng);
run;
-程序說(shuō)明:
(1)其中縱軸變量名和橫軸變量名不僅可以是回歸的因變量和自變
量,還可以是回歸分析中得到的其他統(tǒng)計(jì)量,比如:預(yù)測(cè)值(p.)、預(yù)
測(cè)誤差(r.)等。
(2)symbol語(yǔ)句是定義輸出圖形的格式的。具體參見(jiàn)GPLOT過(guò)程中
對(duì)symbol語(yǔ)句中選項(xiàng)的說(shuō)明。
■例6-6利用數(shù)據(jù)集fitness中的數(shù)據(jù),擬合用變量runtime預(yù)測(cè)oxygen
的一元線性回歸,并作出散點(diǎn)圖,以及擬合的回歸線。(例reg_plot)
-例6-7在例6-6的基礎(chǔ)上,輸出觀測(cè)值和預(yù)測(cè)值置信區(qū)間曲線。
(例reg_plot_2)
■利用GPLOT過(guò)程作圖
過(guò)程gplot為制作散點(diǎn)圖和擬合回歸線提供了豐富的功能。基本程序:
procgplot€)313=數(shù)據(jù)集;
plot縱軸變量名*橫軸變量名;
symbolv=符號(hào)5=點(diǎn)的顏色d二線的顏色1=連線選項(xiàng)亞二線的寬度
h二字符的高度;run;
程序說(shuō)明:(1)v=是規(guī)定用什么符號(hào)來(lái)表示各個(gè)散點(diǎn),常用的有6種:
plus—(缺省值)star—'*'squar一小方塊
diamond一小菱形trangle一三角形none—沒(méi)有符合
(2)i=規(guī)定對(duì)散點(diǎn)間如何插值連線的:
i=none:散點(diǎn)間不連線;i=rl:擬合一元線性回歸線
i=r:擬合回歸;i=rq:擬合二次回歸線;
i=rc:擬合三次回歸
■例6-8利用數(shù)據(jù)集fitness中的數(shù)據(jù)制作oxygen關(guān)于runtime的回歸和
散點(diǎn)圖。(例gplot」)
-在上例中,若要附加回歸線的95%的置信限,只需將選項(xiàng)i=rl改為
i=rlclm95o若要附加預(yù)測(cè)值的90%的置信限,只需用i=rlcli90。
(例gplot_2)
4§66多元線性回歸
-使用編程擬合多元線性回歸與擬合一元線性回歸是類似的,同樣使用
過(guò)程reg。只要在Model語(yǔ)句中將所要進(jìn)入回歸的自變量的變量名都填
入?;菊Z(yǔ)句為:
procregdata=^據(jù)集;
model因變量=自變量1自變量2/選項(xiàng);
run;
-例6-9對(duì)于數(shù)據(jù)集fitness,擬合變量OXYGE關(guān)于變量AGE、WEIGHT
、RSTPULSE、MAXPULSE、RUNPULSE、RUNTIME這6個(gè)變量的線性
回歸方程。(例reg_69)
輸出說(shuō)明:(1)輸出結(jié)果與一元線性回歸的輸出是完全相仿的,只
是進(jìn)入回歸的自變量有6個(gè),從參數(shù)的估計(jì)值容易得到擬合的回歸方
程為:
■OXYGEN=102.23834-0.21992*AGE-0.07238*WEIGHT
-0.00084421*RSTPULSE+0.30473*MAXPULSE
-0.37316*RUNPULSE-2.68052*RUNTIME
■從參數(shù)估計(jì)檢驗(yàn)部分可以看出,變量RSTPULSE和WEIGHT的回
歸系數(shù),不能拒絕它們?yōu)?。的原假設(shè)。
-不過(guò),在這里必須小心看待這些參數(shù),因?yàn)樗鼈兌际窃谄渌兞?/p>
加入回歸的前提下進(jìn)行顯著性檢驗(yàn)的,完全可能是因?yàn)樽宰兞恐g存
在較強(qiáng)的相關(guān)性而掩蓋它們對(duì)回歸的貢獻(xiàn)。所以在剔除不顯著的回歸
變量時(shí),必須逐個(gè)執(zhí)行。
-因?yàn)镽EG過(guò)程具有連續(xù)的功能,在執(zhí)行了提交的部分語(yǔ)句時(shí),仍
可繼續(xù)提交語(yǔ)句讓它執(zhí)行,直至提交quit語(yǔ)句或執(zhí)行其它過(guò)程而終止.
若需從已加入的回歸變量中剔除RSTPULSE,可直接提交如下的程序:
deleterstpulse;print;run;
-模型的自動(dòng)選擇(逐步回歸)
若希望由程序自動(dòng)的進(jìn)行變量的選擇,則可在model語(yǔ)句中加入選項(xiàng)
selection,一般用法為:
selection=none/forward/backward/stepwise/rsquare/cp/adjrsq
其中none是缺省的情況,即不進(jìn)行選擇,全部變量都進(jìn)入回歸;
Forward:向前回歸;backward:向后回歸;stepwise:逐步回歸;
rsquare,cp,adjrsq是提供全部可能的回歸,分別用R人2,C(p)和
Adj-R人2進(jìn)行排序。
-例6-10在例6-9中,利用逐步回歸選擇的方法,擬合OXYGEN關(guān)于其
它6個(gè)變量的線性回歸方程。(例reg_610)
■輸出結(jié)果說(shuō)明:
(1)在輸出報(bào)告中,提供了進(jìn)入的回歸變量逐次改變后回歸方差分析和擬
合的信息。
(2)在報(bào)告的最后,給出了用逐步回歸法,RUNTIME,AGE,RUNPULSE,
MAXPULSE四個(gè)變量進(jìn)入回歸,所有進(jìn)入回歸的變量在0.15的水平下是顯著
的,未進(jìn)入回歸的候選變量在0.15的水平下是不顯著的。同時(shí)還概要地提供
了每個(gè)變量變化時(shí),R人2,C(p)等統(tǒng)計(jì)量的變化。
(3)在向前、向后和逐步回歸的變量選擇的過(guò)程中,都有一個(gè)判斷是否可
進(jìn)入或剔除的顯著水平,在程序中分別由model語(yǔ)句中的選項(xiàng)$厄討》二和
5咳3丫=設(shè)定的。缺省的情況是:
ForwardBackwardStepwise
Slentry0.500.15
Slstay0.100.15
■多項(xiàng)式回歸
多項(xiàng)式回歸可化成多元線性回歸來(lái)完成。
-例6-11數(shù)據(jù)engine.txt是一組檢驗(yàn)?zāi)撤N發(fā)動(dòng)機(jī)性能試驗(yàn)的數(shù)據(jù)。原料
是柴油和某種氣體的混合物。在各種不同速度(speed)下,測(cè)量發(fā)
動(dòng)機(jī)產(chǎn)生的馬力(power)。單位為:轉(zhuǎn)/分鐘。試建立變量power關(guān)于
speed的回歸方程。(例reg_611_l、例reg_611_2)
解題過(guò)程說(shuō)明:我們首先畫(huà)一個(gè)power關(guān)于speed的散點(diǎn)圖。從散點(diǎn)
圖可以發(fā)現(xiàn),power與speed之間不能很好的擬合一條直線,它的尾
部有向下彎曲的趨勢(shì)。我們?nèi)缓笤囉枚吻€來(lái)擬合。得到擬合的曲
線方程:
power=-36.78699+8.01383*speed-0.15792*(speed)A2
§6-4HI歸診斷
-對(duì)于擬合回歸的數(shù)據(jù)都有一定的假定,因此需要對(duì)數(shù)據(jù)進(jìn)行鑒別,看
它是否符合這些假定。在某些假定不成立時(shí),是否可以剔除或修整個(gè)
別數(shù)據(jù),使得接近這些假定;另外,還需要分析是否有個(gè)別觀測(cè)對(duì)整
個(gè)結(jié)果有特別大的影響等。這些就是回歸診斷的任務(wù)。對(duì)于一個(gè)擬合
的回歸方程,需要在擬合回歸后進(jìn)行回歸診斷。一般來(lái)講,回歸診斷
主要包括下面幾項(xiàng)內(nèi)容:異方差檢驗(yàn)、自相關(guān)性檢驗(yàn)、異常值檢驗(yàn)。
-這里我們主要利用殘差分析,進(jìn)行異常值(重要觀測(cè)案例)的診斷。
-進(jìn)行殘差分析,只要在model語(yǔ)句中加入選項(xiàng)r,即可。
-例6-12考慮數(shù)據(jù)集fitness。擬合OXYGEN關(guān)于RUNTIME的回歸方程
o并進(jìn)一步進(jìn)行殘差分析。(例reg_612)
■輸出結(jié)果說(shuō)明:
(1)輸出結(jié)果除了一般的回歸參數(shù)、檢驗(yàn)和方差分析外,還包括因
變量及其預(yù)測(cè)值,預(yù)測(cè)的標(biāo)準(zhǔn)誤、殘差、殘差的標(biāo)準(zhǔn)誤和標(biāo)準(zhǔn)化的殘
差(即學(xué)生化殘差studentresidual);
(2)在輸出的結(jié)果中,還包括了一列標(biāo)準(zhǔn)化殘差按其數(shù)據(jù)繪制的圖
形,標(biāo)準(zhǔn)化殘差每增加0.5,就用一個(gè)*號(hào)表示,由此可方便的找出標(biāo)
準(zhǔn)化殘差絕對(duì)值較大的觀測(cè)。
(3)最后一列Cook距離(Cook'D)統(tǒng)計(jì)量,是從回歸系數(shù)的改變來(lái)
衡量一個(gè)觀測(cè)的影響。一般建議的判別標(biāo)準(zhǔn)是:當(dāng)|D(i)|>4/n時(shí),該
觀測(cè)應(yīng)作為對(duì)回歸有較大影響的,應(yīng)加以關(guān)注。
(4)當(dāng)發(fā)現(xiàn)了異常的觀測(cè)案例或特別有影響的觀測(cè),都不是簡(jiǎn)單的
將其刪除,而是要加以特別關(guān)注,從各方面進(jìn)一步加以研究討論。
■作殘差圖
利用殘差圖,可以方便地得到殘差分布的總體情況。由于殘差和預(yù)測(cè)
值(擬合值)幾乎是不相關(guān)的,在作殘差關(guān)于預(yù)測(cè)值的圖時(shí),我們總
可以得到一個(gè)斜率接近于0,在X軸周圍散布的散點(diǎn)圖。
-例6-13在例6-12中,作殘差關(guān)于預(yù)測(cè)值的殘差圖。
,第七章方差分析
4§7-1單因素方差分析
■dfl粗程/ANOVA過(guò)程
對(duì)于方差分析,常用的過(guò)程有ANOVA過(guò)程和GLM過(guò)程。它們的用法和得到的
結(jié)果是基本相同的?;菊Z(yǔ)句為:
procanovadata=^據(jù)集;
class自變量;
model因變量=自變量;run;
說(shuō)明:①dass后的變量名指明描述因素的分類變量(自變量),也就是因
子;
②model語(yǔ)句后等號(hào)左側(cè)為因變量(分析變量),右側(cè)為自變量
(因子)。由于過(guò)程GLM和ANOVA都可用于更一般的多因素
的方差分析,這時(shí)dass后的內(nèi)容與等號(hào)右側(cè)的內(nèi)容就不一致了。
在單因素情形下,都是填一個(gè)因子名(自變量);
③在上面的基本語(yǔ)句中,把a(bǔ)nova換為glm,輸出結(jié)果一樣;
④ANOVA和GLM過(guò)程的不同之處:當(dāng)每個(gè)因子(自變量)的重復(fù)
試驗(yàn)次數(shù)不相等時(shí),不能用anova過(guò)程,只能用GLM過(guò)程。
-例7-1茶是世界上最為廣泛的一種飲料,任何一種茶葉中都含有葉酸
,它是一種維生素B?,F(xiàn)要研究各產(chǎn)地的綠茶的葉酸含量是否有顯著
差異,選了四個(gè)產(chǎn)地,分別記為A1,A2,A3,A4,對(duì)各個(gè)產(chǎn)地的綠茶分
別測(cè)定了5個(gè)茶葉樣品中葉酸的含量,試驗(yàn)結(jié)果見(jiàn)下表:
因子A的水平數(shù)據(jù)(毫克)
A17.96.26.68.68.9
A25.77.59.86.18.4
A36.47.17.94.55.0
A46.87.55.05.36.1
問(wèn):四個(gè)產(chǎn)地的綠茶的葉酸含量是否有顯著差異?
輸出結(jié)果說(shuō)明:
(1)第一部分為分類的信息,說(shuō)明因子A有四個(gè)水平(產(chǎn)地);
(2)第二部分為方差分析表。原假設(shè)為:因子A不顯著,即四個(gè)產(chǎn)
地的葉酸含量沒(méi)有顯著性差異,四個(gè)均值相等。檢驗(yàn)均值相等的F統(tǒng)計(jì)
量的值為L(zhǎng)81,相應(yīng)的P值為0.1853>0.05=a,所以接受原假設(shè),即
四個(gè)產(chǎn)地的綠茶的葉酸含量沒(méi)有顯著的差異。接著是R人2等匯總信息
,為0.253736,它表示全部校正平方和中只有25.3%可以被產(chǎn)地的不
同加以說(shuō)明。
(3)如果將提交的程序中調(diào)用的過(guò)程改為GLM,而其它語(yǔ)句都不改
變,也可以得到完全相同的結(jié)果。
-例7-2(例7-1續(xù))如果每個(gè)地區(qū)綠茶的測(cè)試樣本量不同,A1地區(qū)測(cè)
試了7個(gè)樣本,A2地區(qū)測(cè)試了5個(gè)樣本,A3和A4地區(qū)均測(cè)試了6個(gè)樣本
,共測(cè)試了24個(gè)樣本,得到了24個(gè)葉酸含量數(shù)據(jù),見(jiàn)下表:
因子A的水平數(shù)據(jù)(毫克)
A17.96.26.68.68.910.19.6
A25.77.59.86.18.4
A36.47.17.94.55.04.0
A46.87.55.05.36.17.4
問(wèn):各地區(qū)之間是否有顯著差異?(例glm_4)
程序說(shuō)明:在這個(gè)例子中,由于在每個(gè)因子水平處的重復(fù)試驗(yàn)次數(shù)
不相等,故不能用anova過(guò)程分析,必須使用glm過(guò)程進(jìn)行分析。
■輸出結(jié)果說(shuō)明:
從方差分析表可以看出,檢驗(yàn)均值相等的F統(tǒng)計(jì)量的值為3.75,
相應(yīng)的P值為0,0276<0?05=a,所以拒絕原假設(shè),故因子A顯著,即四
個(gè)產(chǎn)地的綠茶的葉酸含量是有顯著的差異的。
■方差均勻性檢驗(yàn)
方差分析的模型要求不同水平下觀測(cè)結(jié)果方差是相同的。過(guò)程GLM和
ANOVA都提供了這方面的功能。為了進(jìn)行不同水平下觀測(cè)結(jié)果的方
差是否相同的檢驗(yàn),只需要加入如下的means過(guò)程和選項(xiàng)hovtest
means分類變量名/hovtest=levene/bf/obrien/bartlett
其中hovtest等號(hào)后選擇的是檢驗(yàn)方差相等的各個(gè)檢驗(yàn)法的名稱。缺
省時(shí)則使用levene檢驗(yàn)法。
■例7-2要求同時(shí)使用levene和Brown-Forsythe檢驗(yàn)法對(duì)例7-1的問(wèn)題
進(jìn)行檢驗(yàn)。(例glm_2)
-輸出結(jié)果說(shuō)明:
除了輸出一般方差分析的結(jié)果外,還輸出了方差均勻性檢驗(yàn)的結(jié)果。
其中:(1)第一部分提供了用levene檢驗(yàn)法的F統(tǒng)計(jì)量的值為1.06,
相應(yīng)的p值為0.3924>0.05=a;(2)第二部分提供了用Brown-
檢驗(yàn)法的統(tǒng)計(jì)量的值為相應(yīng)的值為
ForsytheF0.42,p0.74>0.05=ao
兩種檢驗(yàn)法都表明可以接受四個(gè)產(chǎn)地的方差無(wú)顯著性差異。
■非參數(shù)檢驗(yàn)(nparlway過(guò)程)
在SAS中,非參數(shù)統(tǒng)計(jì)主要由UNIVARIATE過(guò)程、MEANS過(guò)程和
NPAR1WAY過(guò)程來(lái)實(shí)現(xiàn),NPAR1WAY過(guò)程是一個(gè)單因素的非參數(shù)方
差分析過(guò)程,可進(jìn)行成組設(shè)計(jì)的兩樣本(WILCOXON法)或多樣本比
較(KRUSKAL-WALLIS法)的秩和檢驗(yàn)。若要對(duì)兩個(gè)或多個(gè)均值(或
中位數(shù))的等式用非參數(shù)方法進(jìn)行檢驗(yàn),過(guò)程nparlway提供了這一功
能?;菊Z(yǔ)句為:
procnparlwaydata=數(shù)據(jù)集選項(xiàng);
class變量名;
var因變量名;
run;
-說(shuō)明:(1)選項(xiàng)指定采用的非參數(shù)檢驗(yàn)法的名稱,可供選擇的median
(中位數(shù)檢驗(yàn)法)、Wilcoxon(秩得分檢驗(yàn)法)、anova(通常的方差分析).
缺省時(shí),系統(tǒng)提供所有6種非參數(shù)檢驗(yàn)法和通常的方差分析檢驗(yàn)。
(2)dass語(yǔ)句后指明表示因素的分類變量名,與過(guò)程GLM中的
class語(yǔ)句一樣。
(3)var語(yǔ)句后填入表示效果的分析變量名。
-例7-3對(duì)例7-1中的數(shù)據(jù)集廿,使用非參數(shù)方法比較四個(gè)產(chǎn)地的綠茶中
葉酸的含量。(例nparlway)
■輸出結(jié)果說(shuō)明:
(1)第一張表為秩得分檢驗(yàn)結(jié)果。關(guān)于每個(gè)水平下秩得分和的有關(guān)結(jié)
果。檢驗(yàn)用的是卡方統(tǒng)計(jì)量,其值為4.5594,對(duì)應(yīng)的p值為
0,2071>0.05=a,故接受原假設(shè),其中原假設(shè)是:不同水平下的均值
相同。
(2)第二張表為中位數(shù)得分的檢驗(yàn)結(jié)果,第一部分是關(guān)于每個(gè)水平
下中位數(shù)得分和的有關(guān)結(jié)果,檢驗(yàn)用的統(tǒng)計(jì)量是卡方統(tǒng)計(jì)量,其值為
0.76,對(duì)應(yīng)的p值為0.8590>0.05=a,故不能拒絕原假設(shè)。
(3)由于中位數(shù)得分檢驗(yàn)法并不敏感,所以它校其他檢驗(yàn)法難于發(fā)
現(xiàn)分布間的差異。一般我們采用Wilcoxon秩得分檢驗(yàn)法。
y§7-2多因素方差分析
-過(guò)程GLM也可用于多因素方差分析,其用法與單因素方差分析是相同
的。只需在CLASS語(yǔ)句和model語(yǔ)句中分別填入表示因素的多個(gè)自變
量。一般格式為:
procglmdata=數(shù)據(jù)集名;
class自變量1自變量2…;
model因變量=自變量1自變量2…;run;
■例7-4某農(nóng)業(yè)試驗(yàn)小組作小麥試驗(yàn),小麥品種(A)有三個(gè)品種A1,A2,A3,肥
料(B)有四個(gè)水平:B1,B2,B3,B4,小麥畝產(chǎn)(turnout單位:Kg)數(shù)據(jù)如下:
BlB2B3B4
Al178180176178
A2173174175174
A3177178176177
試就小麥品種和肥料的不同對(duì)小麥產(chǎn)量的影響進(jìn)行分析。(程序:glm_3)
-輸出結(jié)果說(shuō)明:
(1)在方差分析表中,可以看到檢驗(yàn)?zāi)P惋@著性的F統(tǒng)計(jì)量為6.44,
相應(yīng)的p值為0.0211v0.05=a,拒絕原假設(shè),即模型是顯著的。
(2)從后面提供的I型和HI型的兩個(gè)檢驗(yàn)表中,可看到小麥品種
(A)的F檢驗(yàn)統(tǒng)計(jì)量為14.18,檢驗(yàn)p值是0。053VoQ5=a,所以小麥
品種的影響是顯著的;肥料(B)的檢驗(yàn)p值為0.3654>0.05=a,從而
肥料不顯著。
第八章多元統(tǒng)計(jì)分析
§8-1主成分分析
對(duì)同一個(gè)體進(jìn)行多項(xiàng)觀察時(shí),必定涉及多個(gè)隨機(jī)變量X,
M,這些變量之間一般都具有相關(guān)性,一時(shí)難以綜合。
這時(shí)就需要借助主成分分析(principalcomponent
analysis)來(lái)概括諸多信息的主要方面。我們希望有一個(gè)或幾
個(gè)較好的綜合指標(biāo)來(lái)概括信息,而且希望綜合指標(biāo)互相獨(dú)立
地各代表某一方面的性質(zhì)。任何一個(gè)度量指標(biāo)的好壞除了可
靠、真實(shí)之外,還必須能充分反映個(gè)體間的差異。如果有一
項(xiàng)指標(biāo),不同個(gè)體的取值都大同小異,那么該指標(biāo)不能用來(lái)
區(qū)分不同的個(gè)體。由這一點(diǎn)來(lái)看,一項(xiàng)指標(biāo)在個(gè)體間的差異
越大越好。因此我們把“差異大”作為“好”的標(biāo)準(zhǔn)來(lái)尋求
綜合指標(biāo)。
>-
1.主成分的一般定義
設(shè)有隨機(jī)變量X,笈,…,Xp,其樣本均數(shù)記為門(mén),月,…,月,
樣本標(biāo)準(zhǔn)差記為S1,S2,…,Sp。首先作標(biāo)準(zhǔn)化變換
X「
X/二
s,
我們有如下的定義:
(1)若。1=即兇+〃12%2+…+〃1/0,?+-+…+*=i,且使Par(Ci)
最大,則稱Ci為第一主成分;
(2)若。2=〃21/+〃22%2+???+〃2/〃,…+咤=1,(〃21,〃22,…,〃2p)
垂直于(〃11,〃12,…,〃12),且使外(。2)最大,則稱。2為第二主陵
分;
(3)類似地,可有第三、四、五…主成分,至多有2個(gè)。
>-
2.主成分的性質(zhì)
主成分G,。2,…,G具有如下幾個(gè)性質(zhì):
(1)主成分間互不相關(guān),即對(duì)任意Z?和力G和G的相關(guān)系數(shù)
Corr{Ci,Q)=0
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024個(gè)人合同合作協(xié)議范本
- 2024工藝品買賣合同范本
- 2024勞動(dòng)合同法中英文對(duì)照上
- 聯(lián)營(yíng)創(chuàng)業(yè)合同書(shū)
- 2024年二手車交易協(xié)議
- 戶外廣告牌租用協(xié)議
- 2024房屋裝修合同寫(xiě)房屋裝修合同協(xié)議清單樣式
- 2024工程承攬協(xié)議合同
- 2024子女撫養(yǎng)協(xié)議書(shū)
- 2024車輛買賣合同范本大全
- 《人行自動(dòng)門(mén)安全要求》標(biāo)準(zhǔn)
- 廣鐵集團(tuán)校園招聘機(jī)考題庫(kù)
- 第一章、總體概述:施工組織總體設(shè)想、工程概述、方案針對(duì)性及施工標(biāo)段劃分
- 2024-2030年中國(guó)語(yǔ)言服務(wù)行業(yè)發(fā)展規(guī)劃與未來(lái)前景展望研究報(bào)告
- 2024-2030年白玉蝸牛養(yǎng)殖行業(yè)市場(chǎng)發(fā)展現(xiàn)狀及發(fā)展前景與投資機(jī)會(huì)研究報(bào)告
- HGT 2902-2024《模塑用聚四氟乙烯樹(shù)脂》
- 2024 年上海市普通高中學(xué)業(yè)水平等級(jí)性考試 物理 試卷
- 國(guó)家開(kāi)放大學(xué)專科《法理學(xué)》(第三版教材)形成性考核試題及答案
- 計(jì)量基礎(chǔ)知識(shí)考核試題及參考答案
- 眼科學(xué)基礎(chǔ)病例分析
- 混合痔中醫(yī)護(hù)理 方案
評(píng)論
0/150
提交評(píng)論