It計(jì)算機(jī)課件 SAS講義_第1頁(yè)
It計(jì)算機(jī)課件 SAS講義_第2頁(yè)
It計(jì)算機(jī)課件 SAS講義_第3頁(yè)
It計(jì)算機(jī)課件 SAS講義_第4頁(yè)
It計(jì)算機(jī)課件 SAS講義_第5頁(yè)
已閱讀5頁(yè),還剩112頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

SAS入門(mén)課程講義

廣西工學(xué)院統(tǒng)計(jì)學(xué)教研室

2010年4月

目錄

-第一章SAS系統(tǒng)簡(jiǎn)介

-第二章SAS數(shù)據(jù)集的建立

■第三章制作列表報(bào)告

-第四章數(shù)據(jù)的描述性統(tǒng)計(jì)

-第五章置信區(qū)間和假設(shè)檢驗(yàn)

■第六章回歸分析

■第七章方差分析

-第八章多元統(tǒng)計(jì)分析

第一章SAS系統(tǒng)簡(jiǎn)介

■主要內(nèi)容:使學(xué)生掌握SAS的界面使用和基

本編程使用,為學(xué)習(xí)和應(yīng)用SAS的其他專業(yè)

功能奠定堅(jiān)實(shí)的基礎(chǔ)。

■使用SAS進(jìn)行數(shù)據(jù)的一些簡(jiǎn)單分析和處理

3

推薦教材

■1.SAS系統(tǒng)的幫助以及在線文檔,都是學(xué)習(xí)

SAS的很好的工具。

/documentation/online

doc/sas9doc.html

-2.《SAS系統(tǒng)BaseSAS軟件使用手冊(cè)》高惠

璇等編譯,中國(guó)統(tǒng)計(jì)出版社1997

■3.《SAS系統(tǒng)SAS/STAT軟件使用手冊(cè)》高惠璇

等編譯,中國(guó)統(tǒng)計(jì)出版社1997

■4.《實(shí)用統(tǒng)計(jì)方法與SAS系統(tǒng)》高惠璇北京

大學(xué)出版社2001

4

數(shù)據(jù)類型

■a.橫截面數(shù)據(jù)集(cross-sectionaldata

set):即給定時(shí)點(diǎn)對(duì)個(gè)人、家庭、企業(yè)、

國(guó)家或一系列其他單位采集的樣本所構(gòu)

成的數(shù)據(jù)集(應(yīng)該忽略細(xì)小的時(shí)間差別)

-名詞術(shù)語(yǔ)

數(shù)據(jù)集:數(shù)據(jù)的集合,由樣本(行)和

變量(列)組成

5

數(shù)據(jù)類型

■b,時(shí)間序列數(shù)據(jù)集(timeseriesdata

set):

是由一個(gè)或幾個(gè)變量在不同時(shí)間的觀測(cè)

值所構(gòu)成的。

■c.混合橫截面數(shù)據(jù)集(pooledcross

sectiondataset):

有些數(shù)據(jù)既有橫截面數(shù)據(jù)的特點(diǎn)又有時(shí)

間序列的特點(diǎn),但每一時(shí)點(diǎn)的樣本不同。

6

數(shù)據(jù)類型

■d,綜列數(shù)據(jù)集(paneldataset):

由橫截面數(shù)據(jù)集中每個(gè)樣本的一個(gè)時(shí)間

序列組成。(定點(diǎn)長(zhǎng)期調(diào)查)

■其他專門(mén)數(shù)據(jù)類型:

1、離散數(shù)據(jù)(discretedata):通常在考

察個(gè)人、家庭或企業(yè)的決策行為時(shí),通

過(guò)問(wèn)卷調(diào)查獲得,由此發(fā)展出“離散選

擇模型”。定量數(shù)據(jù)與定性數(shù)據(jù)

7

數(shù)據(jù)集類型

2、持續(xù)數(shù)據(jù)(survivaldata):用于考察

變量從開(kāi)始到結(jié)束或調(diào)查終止前所經(jīng)過(guò)

的時(shí)間長(zhǎng)度,如失業(yè)持續(xù)時(shí)間、罷工持

續(xù)時(shí)間,股市牛熊市持續(xù)時(shí)間

8

數(shù)據(jù)處理的應(yīng)用

■“今天,我們不得不生存在全球化和信息革

命影響下的世界,我們只有兩個(gè)選擇:適應(yīng)它,

或者被它拋棄?!?/p>

■——英特爾公司主席安德魯?格魯夫

■1995年尼葛洛龐帝的《數(shù)字化生存》一書(shū)指明

了即將到來(lái)的數(shù)字時(shí)代,而在未來(lái)一長(zhǎng)段時(shí)間,

數(shù)字化生存仍將是人類的主要生存方式,在經(jīng)

濟(jì)學(xué)領(lǐng)域也不外如是。

9

SAS系統(tǒng)入門(mén)

SAS系統(tǒng)概況

■大型集成、跨平臺(tái)軟件系統(tǒng)

-完備的數(shù)據(jù)訪問(wèn)(Access)、管理

(manage)、分析(analyze)和呈現(xiàn)

(present)及應(yīng)用舁發(fā)(develop)的功能

■在數(shù)據(jù)處理、統(tǒng)計(jì)分析和IT應(yīng)用領(lǐng)域,

SAS系統(tǒng)已經(jīng)成為國(guó)際上的標(biāo)準(zhǔn)軟件系統(tǒng)。

10

SAS的發(fā)展歷程

■SAS(StatisticalAnalysisSystem)系統(tǒng)1966年由

美國(guó)]匕卡羅來(lái)納州(NorthCarolina)州立大

學(xué)開(kāi)始研制

■1976年成立美國(guó)SAS軟件研究所,并開(kāi)始對(duì)SAS

系統(tǒng)進(jìn)行維護(hù)、開(kāi)發(fā)、銷售和培訓(xùn)等工作

■1985年推出了SAS/PC(6.02)版本

11

■1989年推出SAS/PC(6.04)版本

■1997年下半年推出適用于多種操作系統(tǒng)

的6.12版本

-2000年2月又正式推出SAS系統(tǒng)8版本

■2002年推出全新的SAS9版本

12

SAS在中國(guó)的發(fā)展

■SAS公司于1989年在北京成立了辦事處

■1997年,SAS軟件研究所正式宣布成立

大中國(guó)區(qū)

■1999年3月在國(guó)內(nèi)設(shè)立獨(dú)資公司——賽仕

軟件(上海)有限公司。

13

SAS的成績(jī)

■全球十大獨(dú)立軟件開(kāi)發(fā)商之一

■世界六大洲近50個(gè)國(guó)家或地區(qū)設(shè)有分公

司及分支機(jī)構(gòu)

■應(yīng)用遍及120多個(gè)國(guó)家和地區(qū)(包括中國(guó))

的31000多個(gè)機(jī)構(gòu)中

■全球《財(cái)富》100強(qiáng)企業(yè)中,約有98%在

應(yīng)用SAS系統(tǒng)。

SAS系統(tǒng)窗口的組成

■程序窗口(PROGRAMEDITOR)

■運(yùn)行記錄窗口(LOG)

■輸出窗口(OUTPUT)

■資源瀏覽器窗口(EXPLORER)

>結(jié)果窗口(RESULTS)

15

第二章SAS數(shù)據(jù)集的建立

-SAS程序的書(shū)寫(xiě)格式

1、SAS程序由語(yǔ)句組成,語(yǔ)句用分號(hào)結(jié)束;

2、SAS語(yǔ)句可以從某一行的任意位置開(kāi)始;

3、幾個(gè)SAS語(yǔ)句可以寫(xiě)在同一行上,但每句要

使用分號(hào)。

16

4、一個(gè)語(yǔ)句也可以寫(xiě)成幾行,只要語(yǔ)句中的單

詞不被斷開(kāi)就可以。在一個(gè)語(yǔ)句中各個(gè)單詞之

間至少要有一個(gè)空格。

5、SAS程序中一般不區(qū)分大小寫(xiě)(字符串中要

區(qū)分大小寫(xiě))

6、用/*注釋的內(nèi)容*/來(lái)對(duì)程序進(jìn)行注釋

17

SAS程序的結(jié)構(gòu)

■SAS數(shù)據(jù)集

樣本(觀測(cè)、記錄)、變量(字段、域)、

表(數(shù)據(jù)集)、數(shù)據(jù)庫(kù)

■許多SAS語(yǔ)句都是以關(guān)鍵詞開(kāi)始并用它識(shí)別

語(yǔ)句的類型(如data、input、proc)

■絕大部分的SAS語(yǔ)句都可分為兩步:

DATA步和PROC步

18

SAS的變量及格式

■變量屬性(名稱、類型、輸入格式、輸出格式、

標(biāo)簽)

名稱:不多于8個(gè)字符,第一個(gè)須是字母

類型:數(shù)值型、字符串型($)

輸入格式:數(shù)據(jù)被SAS讀取的格式,分自由格

式和固定格式兩種

輸出格式:數(shù)據(jù)呈現(xiàn)給人們的格式

19

SAS文件及命名

-1、SAS數(shù)據(jù)集文件(后綴為sas7bdat)

■2、SAS程序文件(后綴為sas)

-3、SAS日志文件(后綴為log)

-4、SAS輸出文件(后綴為list)

20

SAS數(shù)據(jù)集的分類

■臨時(shí)數(shù)據(jù)集和永久數(shù)據(jù)集

(一)臨時(shí)數(shù)據(jù)集存放在work數(shù)據(jù)庫(kù)中

(二)永久數(shù)據(jù)集存放在永久數(shù)據(jù)庫(kù)中,除了work

數(shù)據(jù)庫(kù)之外,其他的數(shù)據(jù)庫(kù)都是永久數(shù)據(jù)庫(kù)。

1、SAS文件的2級(jí)命名方式:目錄,文件名

2、使用Libname語(yǔ)句創(chuàng)建永久數(shù)據(jù)集,

libname自建SAS數(shù)據(jù)庫(kù)名,目錄地址,;

(程序Libname)

21

b創(chuàng)建與讀取永久SAS數(shù)據(jù)集

-1、創(chuàng)建永久數(shù)據(jù)集

永久數(shù)據(jù)集的擴(kuò)展名是sas7bdat。

(程序libname)

-2、讀取永久數(shù)據(jù)集

(read例)

建立SAS數(shù)據(jù)集的5種方法

1、用data步輸入數(shù)據(jù)建立。newdata例2、利

用infile語(yǔ)句從外部調(diào)入數(shù)據(jù)文件建立SAS數(shù)據(jù)

集,注意:infile語(yǔ)句必須放在input語(yǔ)句的前面。

(Infile例)

3、利用“導(dǎo)入數(shù)據(jù)”功能建立。(Excel例)

4、利用EFI(externalfileinterface)功能導(dǎo)入

(classifydata例)。

5、data步利用set語(yǔ)句建立。(Setl例)

23

《查看SAS數(shù)據(jù)集的內(nèi)容_

-1、使用contents過(guò)程查看數(shù)據(jù)的相關(guān)信息。

proccontentsdata=數(shù)據(jù)集名position;

(Contents例)

■2、用print過(guò)程來(lái)顯示數(shù)據(jù)。

&SAS數(shù)據(jù)集的加工

-一、兩個(gè)SAS數(shù)據(jù)集的合并

1、兩個(gè)SAS數(shù)據(jù)集的串接(set語(yǔ)句);(set2例)

2、兩個(gè)SAS數(shù)據(jù)集的并接(merge語(yǔ)句).

■二、變量值的排序(sort語(yǔ)句)(sort例)

■三、對(duì)變量的選擇(drop語(yǔ)句和ke印語(yǔ)句)。

(Dropl,2例、keep例)

3

-四、對(duì)觀測(cè)的選擇。程序例子:obsl、

obs2>obs_if>obs_if_then>obs_where

-五、產(chǎn)生新變量及其觀測(cè)值,利用賦值

語(yǔ)句:丫3「213后=表達(dá)式;

(例newvariable)

SAS運(yùn)算符

■數(shù)學(xué)運(yùn)算符:

+—***(塞運(yùn)算)

■比較運(yùn)算符:

=(EQ)人=(NE)>(GT)<(LT)

>=(GE)<=(LE)in

■邏輯運(yùn)算符:

&(AND)I(OR)八(Not)

■其它:><(最小值)<>(最大值)

11(連接)

27

運(yùn)算次序一

■第一級(jí)**(十一)前綴入><<>

■第二級(jí)*/

-第三級(jí)+—

■第四級(jí)II

■第五級(jí)其余比較算符

■第六級(jí)&

■第七級(jí):I

注意:括弧可改變運(yùn)算順序,括弧里的先計(jì)算。

28

運(yùn)算次序二

■對(duì)于相同優(yōu)先級(jí)的算符,左邊的運(yùn)算先

做。但有兩個(gè)例外:

■1,對(duì)最高優(yōu)先級(jí),右邊的運(yùn)算先做

■2,當(dāng)兩個(gè)比較算符圍著一個(gè)量時(shí),這個(gè)

表達(dá)式看成是有一個(gè)and出現(xiàn)一樣被計(jì)

算。

如:12<age<20,

等價(jià)于:12<age&age<20

29

SAS函數(shù)

■SAS函數(shù)返回由它的參數(shù)計(jì)算得到的結(jié)

果,它的一般形式為:

SAS函數(shù)名(參數(shù)1,參數(shù)2,…)

參數(shù)之間由逗號(hào)隔開(kāi)。SAS函數(shù)的參數(shù)可

以是參數(shù)、變量、表達(dá)式或者其它函數(shù)。

■SAS函數(shù)分為13種類型,共147個(gè)函數(shù)。

下面我們介紹一些常用的SAS函數(shù)。

30

;SAS函數(shù)(一)

-數(shù)學(xué)函數(shù):

abs(x)x的絕對(duì)值;sign(x)符號(hào)函數(shù)

max(x,y,…)x,y,…中的最大值

min(x,y,…)x,y,…中的最小值

mod(x,y)x/y的余項(xiàng);sqrt(x)x的平方根

exp(x)e的x次幕;log(x)自然對(duì)數(shù)

log10(x)以10為底的對(duì)數(shù)

SAS函數(shù)(二)

Iog2(x)以2為底的對(duì)數(shù)

sin(x)cos(x)tan(x)三角函數(shù)

arsin(x)artan(x)反三角函數(shù)

■樣本統(tǒng)計(jì)函數(shù)

sum(x,y,…)計(jì)算參數(shù)和

mean(x,y〃,.)計(jì)算算術(shù)平均值

var(x,y,…)計(jì)算方差

std(x,y,…)計(jì)算標(biāo)準(zhǔn)差

占SAS函數(shù)(三)

-概率分布函數(shù)

Probbnlm(pznzr)參數(shù)為p,n的二項(xiàng)分布函數(shù),

P{X<=r}的值

Probnorm(x)標(biāo)準(zhǔn)正態(tài)分布函數(shù),P{Xv=x}

Probchi(x,df)自由度為df的卡方分布函數(shù),

P{Xv=x}的值

Probf(x,dfl,df2)F分布probt(xAdf)t分布

SAS函數(shù)(四)

■隨機(jī)數(shù)函數(shù)

Uniform(seed)產(chǎn)生[0,1]區(qū)間上均勻分布

的隨機(jī)數(shù)

Rannor(seed)產(chǎn)生N(0,l)的隨機(jī)數(shù)

Ranbin(seed,n,p)產(chǎn)生二項(xiàng)分布的隨機(jī)數(shù)

■時(shí)間函數(shù)

DATA步中常用語(yǔ)句

■IF語(yǔ)句(條件轉(zhuǎn)移語(yǔ)句)

1、簡(jiǎn)單if語(yǔ)句

一般格式:if條件表達(dá)式;

2、if…then語(yǔ)句

if條件表達(dá)式then執(zhí)行語(yǔ)句;

3、if.??then...else語(yǔ)句

if條件表達(dá)式then執(zhí)行語(yǔ)句1;

else執(zhí)行語(yǔ)句2;(if_then_else例)

■DO語(yǔ)句

1、簡(jiǎn)單do語(yǔ)句(常與IF…THEN一起使用)

do;

SAS語(yǔ)句;…

end;(dol>if_then_do例)

2、循環(huán)DO語(yǔ)句(do2例)

do指標(biāo)變量=初值to終值(by增量);

SAS語(yǔ)句;

end;

■循環(huán)do語(yǔ)句可采用條件控制形式。一般形式:

dountil表達(dá)式;

SAS語(yǔ)句;

end;

(表示循環(huán)語(yǔ)句執(zhí)行到括號(hào)中的表達(dá)式滿足為止,do_until例)

或者:dowhile表達(dá)式;

SAS語(yǔ)句;end;

(表示循環(huán)語(yǔ)句執(zhí)行到括號(hào)內(nèi)的表達(dá)式不滿足為止,do_while例)

■循環(huán)語(yǔ)句還可以采用嵌套形式,即在循環(huán)語(yǔ)句do…end內(nèi)部,

可嵌入另一個(gè)d?!璭nd循環(huán)語(yǔ)句,稱為嵌套循環(huán)。

(do_do例)

■GOTO語(yǔ)句

GOTO語(yǔ)句告訴SAS系統(tǒng)立即轉(zhuǎn)向執(zhí)行GOTO

語(yǔ)句中指出的語(yǔ)句,并從那一點(diǎn)開(kāi)始繼續(xù)執(zhí)行.

(go_to例,do3例)

>LABEL語(yǔ)句

LABEL語(yǔ)句的作用是對(duì)變量進(jìn)行說(shuō)明。格式:

label變量名1='標(biāo)記1'變量名2='標(biāo)記2'…

(label例)

■LENGTH語(yǔ)句

變量長(zhǎng)度的缺省值是8,但有時(shí)長(zhǎng)度超過(guò)了8個(gè)

字符,這時(shí)可用length語(yǔ)句定義變量的長(zhǎng)度。

(length例)

■Delete語(yǔ)句

告訴SAS系統(tǒng)停止處理當(dāng)前觀測(cè)值,且不寫(xiě)入

正在創(chuàng)建的數(shù)據(jù)集中。Delete語(yǔ)句通常用作IF

語(yǔ)句中的THEN字句或作為有條件的執(zhí)行DO語(yǔ)

句的一部分。(deletel例)

第三部分制作列表報(bào)告

■在PROCPRINT中使用其他語(yǔ)句可以產(chǎn)生一些

比較復(fù)雜的報(bào)表,例如產(chǎn)生:

1、標(biāo)題和腳注(TitlesandFootnotes)

2、用戶定制的表頭(ColumnHeading)

3、格式化的數(shù)據(jù)值

4、總和(ColumnTotals)

5、小計(jì)(Columnsubtotals)

6、按組分頁(yè)

§3-1產(chǎn)生列表報(bào)告

■一、產(chǎn)生簡(jiǎn)單的列表

1、產(chǎn)生一個(gè)最簡(jiǎn)單的列表的程序形式:

Procprintdata=數(shù)據(jù)集名;

Run;

在缺省情況下,列表報(bào)告的最左面出現(xiàn)

OBS列,給出了觀測(cè)號(hào);報(bào)告按原數(shù)據(jù)

集的順序顯示。(例lonpar)

■二、Noobs選項(xiàng)

在print過(guò)程中,可以用noobs選項(xiàng)去掉obs列

□(例noobs)

■三、VAR語(yǔ)句

使用var語(yǔ)句可以控制print過(guò)程中變量的出

現(xiàn)與否以及出現(xiàn)的順序,它的一般形式是:

VAR變量1變量2…;

(例var)

■四、where語(yǔ)句:選擇數(shù)據(jù)集的觀測(cè)

where條件表達(dá)式;

例1:between...and:選擇變量值在某一范圍的

觀測(cè):(例where)

where變量名between...and

where變量名notbetween...and

例2:contains,選擇變量中包含某一特殊字

符串的觀測(cè):

where變量名contains'字符串,;

■五、Sum語(yǔ)句:計(jì)算變量的總和(顯示在該變量所在

列的下方)。一般格式:(例sum)

sum變量名;

■六、ID語(yǔ)句。使用了id語(yǔ)句后,

(1)最左面的obs列被取消;

(2)Id/by語(yǔ)句所指定的變量被排列在報(bào)告的最左邊;

(3)Id/by語(yǔ)句所指定的變量只在每個(gè)組的開(kāi)始處出現(xiàn)一

次。(id_by)

■七、Pageby語(yǔ)句:使產(chǎn)生的報(bào)告按組分頁(yè)。

pageby變量名;

(例pageby)

、■§3-2改進(jìn)列表報(bào)告

■一、標(biāo)題(title)和腳注(footnote)

在SAS的所有報(bào)告中,都可以加入標(biāo)題和腳注:

titlen'標(biāo)題文本一

footnoten'腳注文本,;(Wtitle_footnote)

Title語(yǔ)句和Footnote語(yǔ)句具有如下特點(diǎn):

1、n的范圍從1到10,即最多有10個(gè)標(biāo)題和腳注。

2、標(biāo)題出現(xiàn)在每頁(yè)的頂部,腳注出現(xiàn)在底部。

3、缺省的標(biāo)題是'TheSASSystem',缺省的腳注不

出現(xiàn).

4、沒(méi)有n的title和footnote等于titlel和footnotel;

在使用了title和footnote語(yǔ)句后,所定義的標(biāo)題和腳注將一直保持

有效,直到另一個(gè)title和footnote語(yǔ)句被執(zhí)行.

使用以下兩個(gè)簡(jiǎn)單語(yǔ)句,可以取消所有的標(biāo)題和腳注:

titlel;footnote1;(例titlel)

二、Label語(yǔ)句:制作自定義的表頭(給變量產(chǎn)生一個(gè)標(biāo)簽).

變量的標(biāo)簽具有以下屬性:

1、最大長(zhǎng)度為40的字符串

2、在print過(guò)程中必須使用label或split選項(xiàng)才能被顯示

3、如果在過(guò)程步中被定義就只在該過(guò)程中有效;而如果在數(shù)據(jù)步

中被定義,就隨數(shù)據(jù)集一直有效(例由bel_2)

■三、Split語(yǔ)句:控制表頭的分割

split='符號(hào)';

(例split)

第四部分、數(shù)據(jù)的描述性統(tǒng)計(jì)

、.§4-1常用統(tǒng)計(jì)量的含義

-

?N—非缺失值觀測(cè)的數(shù)目Nmiss—缺失值觀測(cè)的數(shù)目

Min一最小值Max—最大值Range一極差(max-min)

Sum—觀測(cè)值的加權(quán)和Mean—均值

Variance—方差StdDev—標(biāo)準(zhǔn)差SStdMean—標(biāo)準(zhǔn)誤

CV一變異系數(shù)Mode—眾數(shù)

USS一平方和CSS一校正平方和

Skewness一偏度系數(shù)Kurtosis—峰度系數(shù)

T—檢驗(yàn)mean=O的T值Median—中位數(shù)

Q3一上四分位數(shù)Q1一下四分位數(shù)

.§4-2變量的概括描述_

■一、PROCMEANS過(guò)程(means例、means」例)

procmeansdata=數(shù)據(jù)集選項(xiàng);

var變量名;

run;

其中的選項(xiàng)包括:nmeanstdvarminmaxsumuss

cssrangeskewnesskurtosistprt等。

■例:用means過(guò)程對(duì)fitness數(shù)福集市的變量age,

runtime按變量group并算均值和方差,并將結(jié)巢存入

數(shù)據(jù)集new中。

(means_2例)

■在means_2例的程序中,

①選項(xiàng)noprint的作用是表示不將計(jì)算結(jié)果在output

窗口輸出;

②利用dass分類比用by來(lái)分類的優(yōu)點(diǎn)是:用dass分

類不需先對(duì)數(shù)據(jù)集進(jìn)行排序。

二、PROCUNIVARIATE過(guò)程(univariate例、univariate_l

例)

procunivariate€1313=數(shù)據(jù)集名選項(xiàng);

var變量名;

run;

其中的“選項(xiàng)〃可以包括:

(1)plot:對(duì)所分析的變量畫(huà)莖葉圖、箱線圖、正態(tài)概率圖

*

(2)freq:生成包括變量值、頻數(shù)、百分?jǐn)?shù)和累計(jì)百分?jǐn)?shù)的

表;

(3)normal:對(duì)數(shù)據(jù)進(jìn)行正態(tài)性檢驗(yàn),并輸出檢驗(yàn)的P值(

如果p值小于給定的顯著性水平,則拒絕原假設(shè),認(rèn)為數(shù)

據(jù)不是來(lái)自正態(tài)分布,反之則認(rèn)為數(shù)據(jù)來(lái)自正態(tài)分布)

(例univariate_2)

■在基本的語(yǔ)句中,對(duì)每個(gè)變量的分析輸出都包含四部分:

第一部分為該變量與矩(moment)相關(guān)的統(tǒng)計(jì)量,如均

值、方差等

第二部分為位置檢驗(yàn):總體均值=0的檢驗(yàn)統(tǒng)計(jì)量及p值.

第三部分是和次序統(tǒng)計(jì)量、分位數(shù)有關(guān)的統(tǒng)計(jì)量。表頭

的"定義5'、表示使用SAS計(jì)算分位數(shù)的定義5,

''數(shù)據(jù)按比例分布的經(jīng)驗(yàn)分布函數(shù)

第四部分分別列出了最小和最大的5個(gè)觀測(cè)值以及它們對(duì)

應(yīng)的觀測(cè)序號(hào)。

■如果需要把univariate中的一些統(tǒng)計(jì)量的輸出結(jié)果作進(jìn)一步

的處理,這時(shí)需把上述過(guò)程的計(jì)算結(jié)果存入一個(gè)新的SAS數(shù)

據(jù)集中,為此需利于output語(yǔ)句。(univariate_3例)

procunivariatedata=^據(jù)集名noprint;

var變量名;

outputout=新的數(shù)據(jù)集名統(tǒng)計(jì)量=變量名;run;

其中統(tǒng)計(jì)量可以用以下關(guān)鍵名:mean,var,std,n,css,uss,

sum,min,max,sumwgt,stderr,cv,skewness,kurtosis,T,

prt,range,ql,q3等等

■Univariate過(guò)程還可對(duì)某一變量進(jìn)行分組分析。在進(jìn)行分組

分析之前,必須先對(duì)變量進(jìn)行排序。(例Univariate_4)

■PROCCORR過(guò)程

PROCCORR過(guò)程是用以計(jì)算SAS數(shù)據(jù)集中變量間的相關(guān)系數(shù)

矩陣和協(xié)方差矩陣?;菊Z(yǔ)句為:

proccorrdata=數(shù)據(jù)集options;

var變量名;

run;

其中options(選項(xiàng))包括:

?pearson:要求輸出pearson相關(guān)系數(shù)矩陣

②spearman:要求輸出spearman相關(guān)系數(shù)矩陣

③cov:要求輸出協(xié)方差矩陣(例corr)

、■§4-3變量分布的圖形描述

■Proccapability過(guò)程

該過(guò)程有univariate過(guò)程同樣的分析功能,又有很強(qiáng)的用圖形

表現(xiàn)數(shù)據(jù)分析的能力,而且還能進(jìn)行分布擬合和分布檢驗(yàn)?;?/p>

本語(yǔ)句(capability」例):

Proccapabilitydata二數(shù)據(jù)集名選項(xiàng);

var變量名;

run;

若需畫(huà)直方圖,則只要在程序中增加語(yǔ)句histogram。

(capability_histogram例)

-若需高分辨率的圖形顯示,只需在過(guò)程語(yǔ)句中加上選項(xiàng)

graphics.(例capability_graphics)

■說(shuō)明:⑴上例中PROC語(yǔ)句中的選項(xiàng)noprint是不要求輸出概

括性統(tǒng)計(jì)量而只要求作直方圖,這時(shí)而把varoxygen與

合為一句:

histogramhistogramoxygeno

⑵橫軸上的分組范圍是系統(tǒng)自動(dòng)選的。若想自己設(shè)定,

只要在histogram語(yǔ)句中加進(jìn)表明各個(gè)區(qū)間中點(diǎn)位置的選項(xiàng)即

可??v軸的標(biāo)度有三種選擇:百分?jǐn)?shù)、頻數(shù)、比例,通過(guò)在

histogram語(yǔ)句中加入選項(xiàng)vscle=來(lái)設(shè)定,缺省為百分?jǐn)?shù)。

vscle=percent/cout/proportion

(例capability_2)

■過(guò)程capability還提供了顯示對(duì)分析數(shù)據(jù)擬合多種分布的功能.

如:正態(tài)分布(normal)、對(duì)數(shù)正態(tài)分布(lognormal)、指數(shù)

分布(exponential)、伽瑪分布(gamma)、貝塔分希(beta)

、威布爾分布(weibull)等,還可以設(shè)定曲線的寬度、顏色等.

(例capability_normal,capability_norm_2)

說(shuō)明:在capabilitynormal例子中,選項(xiàng)normal要求顯示擬合

的正態(tài)分布密度曲線,(L=2)是要求擬合密度曲線用虛線表示

,缺省為L(zhǎng)=l。Inset一句是杷變量oxygen的數(shù)據(jù)個(gè)數(shù)、均值

和標(biāo)準(zhǔn)差也顯示在圖上,4」和4.2都是指明格式的。

另外,還可以顯示數(shù)據(jù)的經(jīng)驗(yàn)分布和擬合的累積分布

曲線,這只要將語(yǔ)句histogram換成cdfplot即可。

(例capability_3)

§4-4頻數(shù)統(tǒng)計(jì)

cfreq過(guò)程:描述樣本中各變量取了什么值,以及取各個(gè)值的

頻數(shù)是多少等。基本語(yǔ)句(例freq」):

procfreqdata=數(shù)據(jù)集選項(xiàng);

tables變量名/選項(xiàng);run;

說(shuō)明:1、作列聯(lián)表:只要在變量名之間加一個(gè)*號(hào)。

2、tables語(yǔ)句有如下兩個(gè)選項(xiàng):

①nocum一不要累積頻數(shù)和累積百分?jǐn)?shù);

②nopercent一不要百分?jǐn)?shù)和累積百分?jǐn)?shù)。

3、若需改變輸出結(jié)果中的排列次序,在freq語(yǔ)句中加入選項(xiàng):

order=internal/freq/data/formatted

Internal—按變量的值排列;freq—按頻數(shù)降序排列;

data一按數(shù)據(jù)集中值出現(xiàn)的次序排列;

formatted—按變量格式化的值排列。(例freq_2)

4

■Procformat過(guò)程:對(duì)變量規(guī)定一個(gè)格式。如進(jìn)行變量

分組。

例:對(duì)數(shù)據(jù)集fitness中的變量age分組,小于39歲的為

Young,39到50歲的為Middle,50歲以上的為Old。然

后對(duì)它進(jìn)行頻數(shù)分析。(例freq_3,例freq_format)

,第五章置信區(qū)間和假設(shè)檢驗(yàn)

4§5-1置信區(qū)間的計(jì)算

■一、用MEANS過(guò)程計(jì)算置信區(qū)間

方法一:首先建立一個(gè)數(shù)據(jù)集,然后調(diào)用MEANS過(guò)程,計(jì)算所

需的統(tǒng)計(jì)量;再計(jì)算分位數(shù),確定置信區(qū)間的上、下限。

方法二:利用CLM過(guò)程,得到均值的95%置信區(qū)間

procmeansdata=數(shù)據(jù)集dm;

var變量名;

run;

例1、某種零件的重量服從正態(tài)分布。現(xiàn)從中抽容量為9的樣本,得觀測(cè)值為:

4.84.75.05.24.74.95.04.64.7(單位:KG)。現(xiàn)在來(lái)估計(jì)零件的平均重

量及平均重量的置信水平為0.95的置信區(qū)間。

(^Jconfidence_means>例confidence_means_l)

-二、用capability過(guò)程計(jì)算置信區(qū)間

Capability過(guò)程的intervals語(yǔ)句提供了正態(tài)分布總體均值和方差

的各種類型的置信估計(jì)。基本語(yǔ)句為(^i]confidence_capability):

proccapabilitydata二數(shù)據(jù)集名;

intervals變量名/method=4,6alpha=atype二選項(xiàng);

run;

說(shuō)明:①method=4為計(jì)算均值的置信區(qū)間,method=6為計(jì)算標(biāo)準(zhǔn)差

的置信區(qū)間;缺省時(shí)提供6種不同的區(qū)間,包括預(yù)測(cè)區(qū)間、允許限等.

(2)alpha=<a,則置信水平為1-a.缺省為a=0.010.050.10c

(§)type=lower/twosided/upper:分別表示計(jì)算置信下限、區(qū)間、

上限,缺省為置信區(qū)間。

r.§5-2總體參數(shù)的檢驗(yàn)

■總體均值的檢驗(yàn)

■一、用univariate過(guò)程進(jìn)行t檢驗(yàn)

univariate過(guò)程的缺省輸出結(jié)果包括了均值為零的t檢驗(yàn)的結(jié)果。

為了檢驗(yàn)問(wèn)題:HO:u=uO,只要事先將變量的所有觀測(cè)值減去uO

,得到一個(gè)新變量,再對(duì)新變量進(jìn)行均值為零的檢驗(yàn)。即

“0:〃=="0:〃一=0

例:已知某物質(zhì)的比重為1L53,現(xiàn)購(gòu)得該物質(zhì)若干,為檢驗(yàn)所購(gòu)物質(zhì)比重

是否為是.53,用某種方法重復(fù)測(cè)得其值為:11.4911.5111.5211.53

1L471L551L5011.46。假定測(cè)定值服從正態(tài)分布,問(wèn)所購(gòu)物質(zhì)比重

均值是否為11.53。(例test」)

二、用MEANS過(guò)程進(jìn)行t檢驗(yàn)

Means過(guò)程也提供了檢驗(yàn)HO:u=uO的t檢驗(yàn)法?;菊Z(yǔ)句為:

procmeansdata=數(shù)據(jù)集meanstdtprt;

var變量名;

run;

(例test_2)

■獨(dú)立樣本均值、方差的比較(TTEST過(guò)程)

TTEST過(guò)程是專用于進(jìn)行獨(dú)立樣本均值比較的t檢驗(yàn)法。該過(guò)程首先

對(duì)兩正態(tài)總體的方差是否相等進(jìn)行檢驗(yàn),然后給出了接受方差相等假

定的條件下兩樣本的t檢驗(yàn)和不接受方差相等假定的條件下兩樣本的

近似t檢驗(yàn)。基本語(yǔ)句為:

procttestdata=數(shù)據(jù)集名;

class分類變量名;

var分析變量名;

run;

使用這一過(guò)程要求將兩個(gè)樣本中被比較均值的變量的觀測(cè)值記在同一

分析變量下,分類變量只能取兩個(gè)值。

例:甲、乙兩臺(tái)機(jī)床加工同樣產(chǎn)品,從它們的產(chǎn)品中各隨機(jī)抽若干產(chǎn)

品,測(cè)得產(chǎn)品直徑為:

甲:20.519.819.720.420.120.019.019.9

乙:19,720.820.519.819.420.619.2

假定甲、乙兩臺(tái)機(jī)床生產(chǎn)的產(chǎn)品直徑服從正態(tài)分布。試比較甲、乙兩

臺(tái)機(jī)床生產(chǎn)的產(chǎn)品在質(zhì)量上有無(wú)顯著差異。(例ttest)

■配對(duì)樣本均值的比較(means過(guò)程、univariate過(guò)程)

ttest過(guò)程只能用于獨(dú)立樣本的比較,相依樣本的比較可以用means或

univariate過(guò)程來(lái)進(jìn)行?;菊Z(yǔ)句:

procmeansdata=^據(jù)集名tprt;

var分析變量名;

run;

例:為了比較用來(lái)做鞋子后跟的兩種材料的質(zhì)量,選取了15名男子,

每人穿一雙新鞋,兩只鞋的后跟用不同材料做成,其厚度均為10mm.

過(guò)了一個(gè)月再測(cè)量其厚度,得到數(shù)據(jù)如下:

材料x(chóng)6.67.08.38.25.29.37.98.57.87.56.18.96.19.49.1

TOy7.45.48.88.06.89.16.37.57.06.54.47.74.29.49.1

問(wèn)兩種材料制成的后跟在耐穿行上是否有顯著差異。(例tesjmeans)

練習(xí):下面給出患頭痛的病人服用兩種藥(ASPIRIN和TYLENOL)后感

到頭不痛了所用的時(shí)間(單位:分):

ASPIRIN:4042483562356235

TYLENOL:353742223829

寫(xiě)出讀這些數(shù)據(jù)和進(jìn)行t檢驗(yàn)的SAS程序,請(qǐng)問(wèn)一種藥品的藥效是否比

另一種的顯著。

&§5-3分布擬合檢驗(yàn)

■一、Capability過(guò)程

進(jìn)行分布函數(shù)的檢驗(yàn)實(shí)際上是擬合分布的一部分,所使用的程序與擬

合分布是相同的,如在前面capability_normal例子中,關(guān)心的是擬合

分布的圖形,在histogram語(yǔ)團(tuán)中使用了noprint選項(xiàng),若不使用該選

項(xiàng),就可顯現(xiàn)檢驗(yàn)結(jié)果。

-結(jié)果說(shuō)明:

第一部分:為檢驗(yàn)擬合分布的結(jié)果。首先指出擬合的是正態(tài)分布,給

出均值和標(biāo)準(zhǔn)差。接著是卡方檢驗(yàn)和其他三種經(jīng)驗(yàn)分布的檢驗(yàn)結(jié)果。

第二部分:列舉了不同的分位數(shù),有樣本分位數(shù)和擬合分位數(shù)。便于

比較不同部位樣本數(shù)據(jù)與擬合分布的符合程度。

-可以在一段程序中同時(shí)對(duì)同一數(shù)據(jù)擬合幾種不同分布的檢驗(yàn)。

(例test_3)

二、Univariate過(guò)程

univariate過(guò)程也提供了對(duì)正態(tài)分布的檢驗(yàn)的功能。

當(dāng)樣本容量不超過(guò)2000時(shí),一般使用Shapiro-Wilks統(tǒng)計(jì)量W,

當(dāng)樣本容量超過(guò)2000時(shí),一般使用Kolomogorov統(tǒng)計(jì)量D。

(例test_3)

第六章回歸分析

4§6-1相關(guān)系數(shù)

■瓠CORR過(guò)程計(jì)算相關(guān)系數(shù)

相關(guān)系數(shù)是用來(lái)刻畫(huà)變量間相關(guān)程度的一個(gè)量。Corr過(guò)程涉及到很多

按不同公式定義的相關(guān)系數(shù),其中最常用的是pearson相關(guān)系數(shù),也

是corr過(guò)程缺省時(shí)的輸出結(jié)果。一般格式是:

proccorrdata=數(shù)據(jù)集選項(xiàng);

var變量名;

with變量名;

partial變量名;

run;

說(shuō)明:①這是計(jì)算var中的變量與with中的變量之間的相關(guān)系數(shù)。如果

省略With,就按var中列舉的變量計(jì)算其兩兩之間的相關(guān)系數(shù)。如果var

也省略,就對(duì)數(shù)據(jù)集中所有數(shù)值型變量計(jì)算相關(guān)系數(shù)。

-②過(guò)程corr也自動(dòng)計(jì)算變量的各個(gè)常用統(tǒng)計(jì)量,并對(duì)相關(guān)系數(shù)

是否為零進(jìn)行檢驗(yàn)。選項(xiàng)nosimple和noprob分別表示不輸出單

變量的常用統(tǒng)計(jì)量和檢驗(yàn)的信息。Partial語(yǔ)句是計(jì)算偏相關(guān)系

數(shù)時(shí),指明排除變量用的。

■例6-1對(duì)于數(shù)據(jù)集fitness,計(jì)算oxygen、maxpulse、rstpulse與

runtime、runpulse>weight之間而相關(guān)系數(shù)。

(例relation_corr)

-為了直觀的了解數(shù)據(jù)的分布和相關(guān)系數(shù)的大小,可以通過(guò)gplot

過(guò)程畫(huà)散點(diǎn)圖。

■例6-2對(duì)于數(shù)據(jù)集fitness,畫(huà)出maxpulse與runpulse之間的數(shù)據(jù)

分布的散點(diǎn)圖。(例gplotjinear)

y§6-2一元線性回歸

■REG過(guò)程

SAS系統(tǒng)里面有很多具有回歸分析功能的過(guò)程,其中功能

最全面的是過(guò)程REG?;菊Z(yǔ)句為:

procregdat+數(shù)據(jù)集;

model因變量名=自變量名/選項(xiàng);

run;

例6-3從上一節(jié)關(guān)于數(shù)據(jù)集fitness的相關(guān)分析和所畫(huà)的散點(diǎn)圖

中可以看出,變量runtime與變量oxygen之間線性相關(guān)的程

度很強(qiáng)。試用數(shù)據(jù)集fitness的數(shù)據(jù)擬合變量runtime預(yù)測(cè)

oxygen的一元線性回歸。(例reg_l)

-輸出結(jié)果說(shuō)明:

(1)第一部分為方差分析,對(duì)應(yīng)于模型的F統(tǒng)計(jì)量的值為84.01,相

應(yīng)的p值為0.0001v0.05=a,模型的作用是顯著的。并且R人2和校正

R人2分別為0.7434和0.7345。

(2)第二部分列舉了回歸方程中兩個(gè)參數(shù)的數(shù)值和有關(guān)的顯著性檢

驗(yàn)的結(jié)果。由此得到的回歸方程為:

OXYGEN=82.42177-3.31056*RUNTIME

T檢驗(yàn)的結(jié)果表明兩個(gè)回歸系數(shù)都是顯著的不為零。

■預(yù)測(cè)與置信限

若要利用擬合的回歸方程對(duì)原數(shù)據(jù)集的數(shù)據(jù)進(jìn)行預(yù)測(cè),可在model語(yǔ)

句中使用選項(xiàng)p

例6-4對(duì)例6-3的數(shù)據(jù)集fitness的數(shù)據(jù)進(jìn)行預(yù)測(cè)。(例reg_2)

程序說(shuō)明:

(1)在reg_2.sas中,對(duì)數(shù)據(jù)按自變量runtime進(jìn)行排序,是為了在以

后顯示時(shí)更為清楚,而數(shù)據(jù)排序是不影響回歸擬合的結(jié)果的。

(2)在model語(yǔ)句中增加選項(xiàng)p,就是要求輸出預(yù)測(cè)的結(jié)果。

(3)語(yǔ)句idruntime是要求輸出結(jié)果時(shí)增加變量runtime作為標(biāo)識(shí)變量

,便于比較不同自變量和因變量的取值。

輸出結(jié)果說(shuō)明:

輸出的結(jié)果除了方差分析和回歸參數(shù)估計(jì)檢驗(yàn)外,還包括原數(shù)據(jù)集中

的自變量、因變量和用擬合回歸預(yù)測(cè)的結(jié)果。

-例6-5利用例6-3得到的擬合的回歸方程對(duì)另一些數(shù)據(jù)進(jìn)行預(yù)測(cè),要

得到當(dāng)runtime=8,9,10,ll,12,13,14對(duì),因變量oxygen的預(yù)測(cè)值。

(例reg_3)

-若需要得到預(yù)測(cè)值的置信限,可在model語(yǔ)句中加入選項(xiàng)di,則程序

會(huì)提供預(yù)測(cè)值的95%的置信上限和置信下限。(例reg_4)

■類似的,在model語(yǔ)句中加入選項(xiàng)dm可輸出對(duì)回歸均值的95%置信

區(qū)間。

§6-3HI歸線的作圖

-Ji-

要對(duì)擬合回歸的數(shù)據(jù)作散點(diǎn)圖并附加回歸線,有兩種方式可以實(shí)

現(xiàn),一種是利用過(guò)程REG帶有的作圖功能;另一種是用過(guò)程gplot。

■利用reg過(guò)程作圖

為了利用過(guò)程reg制作高分辨率的圖形,首先必須在proc語(yǔ)句中

加入選項(xiàng)graphics。然后增加plot語(yǔ)句,指明作圖的縱軸變量和橫軸

變量。一般格式為:

procregdata*據(jù)集名graphics;

model因變量名=自變量名;

plot縱軸變量名*橫軸變量名;

symbol格式選項(xiàng);

run;

-程序說(shuō)明:

(1)其中縱軸變量名和橫軸變量名不僅可以是回歸的因變量和自變

量,還可以是回歸分析中得到的其他統(tǒng)計(jì)量,比如:預(yù)測(cè)值(p.)、預(yù)

測(cè)誤差(r.)等。

(2)symbol語(yǔ)句是定義輸出圖形的格式的。具體參見(jiàn)GPLOT過(guò)程中

對(duì)symbol語(yǔ)句中選項(xiàng)的說(shuō)明。

■例6-6利用數(shù)據(jù)集fitness中的數(shù)據(jù),擬合用變量runtime預(yù)測(cè)oxygen

的一元線性回歸,并作出散點(diǎn)圖,以及擬合的回歸線。(例reg_plot)

-例6-7在例6-6的基礎(chǔ)上,輸出觀測(cè)值和預(yù)測(cè)值置信區(qū)間曲線。

(例reg_plot_2)

■利用GPLOT過(guò)程作圖

過(guò)程gplot為制作散點(diǎn)圖和擬合回歸線提供了豐富的功能。基本程序:

procgplot€)313=數(shù)據(jù)集;

plot縱軸變量名*橫軸變量名;

symbolv=符號(hào)5=點(diǎn)的顏色d二線的顏色1=連線選項(xiàng)亞二線的寬度

h二字符的高度;run;

程序說(shuō)明:(1)v=是規(guī)定用什么符號(hào)來(lái)表示各個(gè)散點(diǎn),常用的有6種:

plus—(缺省值)star—'*'squar一小方塊

diamond一小菱形trangle一三角形none—沒(méi)有符合

(2)i=規(guī)定對(duì)散點(diǎn)間如何插值連線的:

i=none:散點(diǎn)間不連線;i=rl:擬合一元線性回歸線

i=r:擬合回歸;i=rq:擬合二次回歸線;

i=rc:擬合三次回歸

■例6-8利用數(shù)據(jù)集fitness中的數(shù)據(jù)制作oxygen關(guān)于runtime的回歸和

散點(diǎn)圖。(例gplot」)

-在上例中,若要附加回歸線的95%的置信限,只需將選項(xiàng)i=rl改為

i=rlclm95o若要附加預(yù)測(cè)值的90%的置信限,只需用i=rlcli90。

(例gplot_2)

4§66多元線性回歸

-使用編程擬合多元線性回歸與擬合一元線性回歸是類似的,同樣使用

過(guò)程reg。只要在Model語(yǔ)句中將所要進(jìn)入回歸的自變量的變量名都填

入?;菊Z(yǔ)句為:

procregdata=^據(jù)集;

model因變量=自變量1自變量2/選項(xiàng);

run;

-例6-9對(duì)于數(shù)據(jù)集fitness,擬合變量OXYGE關(guān)于變量AGE、WEIGHT

、RSTPULSE、MAXPULSE、RUNPULSE、RUNTIME這6個(gè)變量的線性

回歸方程。(例reg_69)

輸出說(shuō)明:(1)輸出結(jié)果與一元線性回歸的輸出是完全相仿的,只

是進(jìn)入回歸的自變量有6個(gè),從參數(shù)的估計(jì)值容易得到擬合的回歸方

程為:

■OXYGEN=102.23834-0.21992*AGE-0.07238*WEIGHT

-0.00084421*RSTPULSE+0.30473*MAXPULSE

-0.37316*RUNPULSE-2.68052*RUNTIME

■從參數(shù)估計(jì)檢驗(yàn)部分可以看出,變量RSTPULSE和WEIGHT的回

歸系數(shù),不能拒絕它們?yōu)?。的原假設(shè)。

-不過(guò),在這里必須小心看待這些參數(shù),因?yàn)樗鼈兌际窃谄渌兞?/p>

加入回歸的前提下進(jìn)行顯著性檢驗(yàn)的,完全可能是因?yàn)樽宰兞恐g存

在較強(qiáng)的相關(guān)性而掩蓋它們對(duì)回歸的貢獻(xiàn)。所以在剔除不顯著的回歸

變量時(shí),必須逐個(gè)執(zhí)行。

-因?yàn)镽EG過(guò)程具有連續(xù)的功能,在執(zhí)行了提交的部分語(yǔ)句時(shí),仍

可繼續(xù)提交語(yǔ)句讓它執(zhí)行,直至提交quit語(yǔ)句或執(zhí)行其它過(guò)程而終止.

若需從已加入的回歸變量中剔除RSTPULSE,可直接提交如下的程序:

deleterstpulse;print;run;

-模型的自動(dòng)選擇(逐步回歸)

若希望由程序自動(dòng)的進(jìn)行變量的選擇,則可在model語(yǔ)句中加入選項(xiàng)

selection,一般用法為:

selection=none/forward/backward/stepwise/rsquare/cp/adjrsq

其中none是缺省的情況,即不進(jìn)行選擇,全部變量都進(jìn)入回歸;

Forward:向前回歸;backward:向后回歸;stepwise:逐步回歸;

rsquare,cp,adjrsq是提供全部可能的回歸,分別用R人2,C(p)和

Adj-R人2進(jìn)行排序。

-例6-10在例6-9中,利用逐步回歸選擇的方法,擬合OXYGEN關(guān)于其

它6個(gè)變量的線性回歸方程。(例reg_610)

■輸出結(jié)果說(shuō)明:

(1)在輸出報(bào)告中,提供了進(jìn)入的回歸變量逐次改變后回歸方差分析和擬

合的信息。

(2)在報(bào)告的最后,給出了用逐步回歸法,RUNTIME,AGE,RUNPULSE,

MAXPULSE四個(gè)變量進(jìn)入回歸,所有進(jìn)入回歸的變量在0.15的水平下是顯著

的,未進(jìn)入回歸的候選變量在0.15的水平下是不顯著的。同時(shí)還概要地提供

了每個(gè)變量變化時(shí),R人2,C(p)等統(tǒng)計(jì)量的變化。

(3)在向前、向后和逐步回歸的變量選擇的過(guò)程中,都有一個(gè)判斷是否可

進(jìn)入或剔除的顯著水平,在程序中分別由model語(yǔ)句中的選項(xiàng)$厄討》二和

5咳3丫=設(shè)定的。缺省的情況是:

ForwardBackwardStepwise

Slentry0.500.15

Slstay0.100.15

■多項(xiàng)式回歸

多項(xiàng)式回歸可化成多元線性回歸來(lái)完成。

-例6-11數(shù)據(jù)engine.txt是一組檢驗(yàn)?zāi)撤N發(fā)動(dòng)機(jī)性能試驗(yàn)的數(shù)據(jù)。原料

是柴油和某種氣體的混合物。在各種不同速度(speed)下,測(cè)量發(fā)

動(dòng)機(jī)產(chǎn)生的馬力(power)。單位為:轉(zhuǎn)/分鐘。試建立變量power關(guān)于

speed的回歸方程。(例reg_611_l、例reg_611_2)

解題過(guò)程說(shuō)明:我們首先畫(huà)一個(gè)power關(guān)于speed的散點(diǎn)圖。從散點(diǎn)

圖可以發(fā)現(xiàn),power與speed之間不能很好的擬合一條直線,它的尾

部有向下彎曲的趨勢(shì)。我們?nèi)缓笤囉枚吻€來(lái)擬合。得到擬合的曲

線方程:

power=-36.78699+8.01383*speed-0.15792*(speed)A2

§6-4HI歸診斷

-對(duì)于擬合回歸的數(shù)據(jù)都有一定的假定,因此需要對(duì)數(shù)據(jù)進(jìn)行鑒別,看

它是否符合這些假定。在某些假定不成立時(shí),是否可以剔除或修整個(gè)

別數(shù)據(jù),使得接近這些假定;另外,還需要分析是否有個(gè)別觀測(cè)對(duì)整

個(gè)結(jié)果有特別大的影響等。這些就是回歸診斷的任務(wù)。對(duì)于一個(gè)擬合

的回歸方程,需要在擬合回歸后進(jìn)行回歸診斷。一般來(lái)講,回歸診斷

主要包括下面幾項(xiàng)內(nèi)容:異方差檢驗(yàn)、自相關(guān)性檢驗(yàn)、異常值檢驗(yàn)。

-這里我們主要利用殘差分析,進(jìn)行異常值(重要觀測(cè)案例)的診斷。

-進(jìn)行殘差分析,只要在model語(yǔ)句中加入選項(xiàng)r,即可。

-例6-12考慮數(shù)據(jù)集fitness。擬合OXYGEN關(guān)于RUNTIME的回歸方程

o并進(jìn)一步進(jìn)行殘差分析。(例reg_612)

■輸出結(jié)果說(shuō)明:

(1)輸出結(jié)果除了一般的回歸參數(shù)、檢驗(yàn)和方差分析外,還包括因

變量及其預(yù)測(cè)值,預(yù)測(cè)的標(biāo)準(zhǔn)誤、殘差、殘差的標(biāo)準(zhǔn)誤和標(biāo)準(zhǔn)化的殘

差(即學(xué)生化殘差studentresidual);

(2)在輸出的結(jié)果中,還包括了一列標(biāo)準(zhǔn)化殘差按其數(shù)據(jù)繪制的圖

形,標(biāo)準(zhǔn)化殘差每增加0.5,就用一個(gè)*號(hào)表示,由此可方便的找出標(biāo)

準(zhǔn)化殘差絕對(duì)值較大的觀測(cè)。

(3)最后一列Cook距離(Cook'D)統(tǒng)計(jì)量,是從回歸系數(shù)的改變來(lái)

衡量一個(gè)觀測(cè)的影響。一般建議的判別標(biāo)準(zhǔn)是:當(dāng)|D(i)|>4/n時(shí),該

觀測(cè)應(yīng)作為對(duì)回歸有較大影響的,應(yīng)加以關(guān)注。

(4)當(dāng)發(fā)現(xiàn)了異常的觀測(cè)案例或特別有影響的觀測(cè),都不是簡(jiǎn)單的

將其刪除,而是要加以特別關(guān)注,從各方面進(jìn)一步加以研究討論。

■作殘差圖

利用殘差圖,可以方便地得到殘差分布的總體情況。由于殘差和預(yù)測(cè)

值(擬合值)幾乎是不相關(guān)的,在作殘差關(guān)于預(yù)測(cè)值的圖時(shí),我們總

可以得到一個(gè)斜率接近于0,在X軸周圍散布的散點(diǎn)圖。

-例6-13在例6-12中,作殘差關(guān)于預(yù)測(cè)值的殘差圖。

,第七章方差分析

4§7-1單因素方差分析

■dfl粗程/ANOVA過(guò)程

對(duì)于方差分析,常用的過(guò)程有ANOVA過(guò)程和GLM過(guò)程。它們的用法和得到的

結(jié)果是基本相同的?;菊Z(yǔ)句為:

procanovadata=^據(jù)集;

class自變量;

model因變量=自變量;run;

說(shuō)明:①dass后的變量名指明描述因素的分類變量(自變量),也就是因

子;

②model語(yǔ)句后等號(hào)左側(cè)為因變量(分析變量),右側(cè)為自變量

(因子)。由于過(guò)程GLM和ANOVA都可用于更一般的多因素

的方差分析,這時(shí)dass后的內(nèi)容與等號(hào)右側(cè)的內(nèi)容就不一致了。

在單因素情形下,都是填一個(gè)因子名(自變量);

③在上面的基本語(yǔ)句中,把a(bǔ)nova換為glm,輸出結(jié)果一樣;

④ANOVA和GLM過(guò)程的不同之處:當(dāng)每個(gè)因子(自變量)的重復(fù)

試驗(yàn)次數(shù)不相等時(shí),不能用anova過(guò)程,只能用GLM過(guò)程。

-例7-1茶是世界上最為廣泛的一種飲料,任何一種茶葉中都含有葉酸

,它是一種維生素B?,F(xiàn)要研究各產(chǎn)地的綠茶的葉酸含量是否有顯著

差異,選了四個(gè)產(chǎn)地,分別記為A1,A2,A3,A4,對(duì)各個(gè)產(chǎn)地的綠茶分

別測(cè)定了5個(gè)茶葉樣品中葉酸的含量,試驗(yàn)結(jié)果見(jiàn)下表:

因子A的水平數(shù)據(jù)(毫克)

A17.96.26.68.68.9

A25.77.59.86.18.4

A36.47.17.94.55.0

A46.87.55.05.36.1

問(wèn):四個(gè)產(chǎn)地的綠茶的葉酸含量是否有顯著差異?

輸出結(jié)果說(shuō)明:

(1)第一部分為分類的信息,說(shuō)明因子A有四個(gè)水平(產(chǎn)地);

(2)第二部分為方差分析表。原假設(shè)為:因子A不顯著,即四個(gè)產(chǎn)

地的葉酸含量沒(méi)有顯著性差異,四個(gè)均值相等。檢驗(yàn)均值相等的F統(tǒng)計(jì)

量的值為L(zhǎng)81,相應(yīng)的P值為0.1853>0.05=a,所以接受原假設(shè),即

四個(gè)產(chǎn)地的綠茶的葉酸含量沒(méi)有顯著的差異。接著是R人2等匯總信息

,為0.253736,它表示全部校正平方和中只有25.3%可以被產(chǎn)地的不

同加以說(shuō)明。

(3)如果將提交的程序中調(diào)用的過(guò)程改為GLM,而其它語(yǔ)句都不改

變,也可以得到完全相同的結(jié)果。

-例7-2(例7-1續(xù))如果每個(gè)地區(qū)綠茶的測(cè)試樣本量不同,A1地區(qū)測(cè)

試了7個(gè)樣本,A2地區(qū)測(cè)試了5個(gè)樣本,A3和A4地區(qū)均測(cè)試了6個(gè)樣本

,共測(cè)試了24個(gè)樣本,得到了24個(gè)葉酸含量數(shù)據(jù),見(jiàn)下表:

因子A的水平數(shù)據(jù)(毫克)

A17.96.26.68.68.910.19.6

A25.77.59.86.18.4

A36.47.17.94.55.04.0

A46.87.55.05.36.17.4

問(wèn):各地區(qū)之間是否有顯著差異?(例glm_4)

程序說(shuō)明:在這個(gè)例子中,由于在每個(gè)因子水平處的重復(fù)試驗(yàn)次數(shù)

不相等,故不能用anova過(guò)程分析,必須使用glm過(guò)程進(jìn)行分析。

■輸出結(jié)果說(shuō)明:

從方差分析表可以看出,檢驗(yàn)均值相等的F統(tǒng)計(jì)量的值為3.75,

相應(yīng)的P值為0,0276<0?05=a,所以拒絕原假設(shè),故因子A顯著,即四

個(gè)產(chǎn)地的綠茶的葉酸含量是有顯著的差異的。

■方差均勻性檢驗(yàn)

方差分析的模型要求不同水平下觀測(cè)結(jié)果方差是相同的。過(guò)程GLM和

ANOVA都提供了這方面的功能。為了進(jìn)行不同水平下觀測(cè)結(jié)果的方

差是否相同的檢驗(yàn),只需要加入如下的means過(guò)程和選項(xiàng)hovtest

means分類變量名/hovtest=levene/bf/obrien/bartlett

其中hovtest等號(hào)后選擇的是檢驗(yàn)方差相等的各個(gè)檢驗(yàn)法的名稱。缺

省時(shí)則使用levene檢驗(yàn)法。

■例7-2要求同時(shí)使用levene和Brown-Forsythe檢驗(yàn)法對(duì)例7-1的問(wèn)題

進(jìn)行檢驗(yàn)。(例glm_2)

-輸出結(jié)果說(shuō)明:

除了輸出一般方差分析的結(jié)果外,還輸出了方差均勻性檢驗(yàn)的結(jié)果。

其中:(1)第一部分提供了用levene檢驗(yàn)法的F統(tǒng)計(jì)量的值為1.06,

相應(yīng)的p值為0.3924>0.05=a;(2)第二部分提供了用Brown-

檢驗(yàn)法的統(tǒng)計(jì)量的值為相應(yīng)的值為

ForsytheF0.42,p0.74>0.05=ao

兩種檢驗(yàn)法都表明可以接受四個(gè)產(chǎn)地的方差無(wú)顯著性差異。

■非參數(shù)檢驗(yàn)(nparlway過(guò)程)

在SAS中,非參數(shù)統(tǒng)計(jì)主要由UNIVARIATE過(guò)程、MEANS過(guò)程和

NPAR1WAY過(guò)程來(lái)實(shí)現(xiàn),NPAR1WAY過(guò)程是一個(gè)單因素的非參數(shù)方

差分析過(guò)程,可進(jìn)行成組設(shè)計(jì)的兩樣本(WILCOXON法)或多樣本比

較(KRUSKAL-WALLIS法)的秩和檢驗(yàn)。若要對(duì)兩個(gè)或多個(gè)均值(或

中位數(shù))的等式用非參數(shù)方法進(jìn)行檢驗(yàn),過(guò)程nparlway提供了這一功

能?;菊Z(yǔ)句為:

procnparlwaydata=數(shù)據(jù)集選項(xiàng);

class變量名;

var因變量名;

run;

-說(shuō)明:(1)選項(xiàng)指定采用的非參數(shù)檢驗(yàn)法的名稱,可供選擇的median

(中位數(shù)檢驗(yàn)法)、Wilcoxon(秩得分檢驗(yàn)法)、anova(通常的方差分析).

缺省時(shí),系統(tǒng)提供所有6種非參數(shù)檢驗(yàn)法和通常的方差分析檢驗(yàn)。

(2)dass語(yǔ)句后指明表示因素的分類變量名,與過(guò)程GLM中的

class語(yǔ)句一樣。

(3)var語(yǔ)句后填入表示效果的分析變量名。

-例7-3對(duì)例7-1中的數(shù)據(jù)集廿,使用非參數(shù)方法比較四個(gè)產(chǎn)地的綠茶中

葉酸的含量。(例nparlway)

■輸出結(jié)果說(shuō)明:

(1)第一張表為秩得分檢驗(yàn)結(jié)果。關(guān)于每個(gè)水平下秩得分和的有關(guān)結(jié)

果。檢驗(yàn)用的是卡方統(tǒng)計(jì)量,其值為4.5594,對(duì)應(yīng)的p值為

0,2071>0.05=a,故接受原假設(shè),其中原假設(shè)是:不同水平下的均值

相同。

(2)第二張表為中位數(shù)得分的檢驗(yàn)結(jié)果,第一部分是關(guān)于每個(gè)水平

下中位數(shù)得分和的有關(guān)結(jié)果,檢驗(yàn)用的統(tǒng)計(jì)量是卡方統(tǒng)計(jì)量,其值為

0.76,對(duì)應(yīng)的p值為0.8590>0.05=a,故不能拒絕原假設(shè)。

(3)由于中位數(shù)得分檢驗(yàn)法并不敏感,所以它校其他檢驗(yàn)法難于發(fā)

現(xiàn)分布間的差異。一般我們采用Wilcoxon秩得分檢驗(yàn)法。

y§7-2多因素方差分析

-過(guò)程GLM也可用于多因素方差分析,其用法與單因素方差分析是相同

的。只需在CLASS語(yǔ)句和model語(yǔ)句中分別填入表示因素的多個(gè)自變

量。一般格式為:

procglmdata=數(shù)據(jù)集名;

class自變量1自變量2…;

model因變量=自變量1自變量2…;run;

■例7-4某農(nóng)業(yè)試驗(yàn)小組作小麥試驗(yàn),小麥品種(A)有三個(gè)品種A1,A2,A3,肥

料(B)有四個(gè)水平:B1,B2,B3,B4,小麥畝產(chǎn)(turnout單位:Kg)數(shù)據(jù)如下:

BlB2B3B4

Al178180176178

A2173174175174

A3177178176177

試就小麥品種和肥料的不同對(duì)小麥產(chǎn)量的影響進(jìn)行分析。(程序:glm_3)

-輸出結(jié)果說(shuō)明:

(1)在方差分析表中,可以看到檢驗(yàn)?zāi)P惋@著性的F統(tǒng)計(jì)量為6.44,

相應(yīng)的p值為0.0211v0.05=a,拒絕原假設(shè),即模型是顯著的。

(2)從后面提供的I型和HI型的兩個(gè)檢驗(yàn)表中,可看到小麥品種

(A)的F檢驗(yàn)統(tǒng)計(jì)量為14.18,檢驗(yàn)p值是0。053VoQ5=a,所以小麥

品種的影響是顯著的;肥料(B)的檢驗(yàn)p值為0.3654>0.05=a,從而

肥料不顯著。

第八章多元統(tǒng)計(jì)分析

§8-1主成分分析

對(duì)同一個(gè)體進(jìn)行多項(xiàng)觀察時(shí),必定涉及多個(gè)隨機(jī)變量X,

M,這些變量之間一般都具有相關(guān)性,一時(shí)難以綜合。

這時(shí)就需要借助主成分分析(principalcomponent

analysis)來(lái)概括諸多信息的主要方面。我們希望有一個(gè)或幾

個(gè)較好的綜合指標(biāo)來(lái)概括信息,而且希望綜合指標(biāo)互相獨(dú)立

地各代表某一方面的性質(zhì)。任何一個(gè)度量指標(biāo)的好壞除了可

靠、真實(shí)之外,還必須能充分反映個(gè)體間的差異。如果有一

項(xiàng)指標(biāo),不同個(gè)體的取值都大同小異,那么該指標(biāo)不能用來(lái)

區(qū)分不同的個(gè)體。由這一點(diǎn)來(lái)看,一項(xiàng)指標(biāo)在個(gè)體間的差異

越大越好。因此我們把“差異大”作為“好”的標(biāo)準(zhǔn)來(lái)尋求

綜合指標(biāo)。

>-

1.主成分的一般定義

設(shè)有隨機(jī)變量X,笈,…,Xp,其樣本均數(shù)記為門(mén),月,…,月,

樣本標(biāo)準(zhǔn)差記為S1,S2,…,Sp。首先作標(biāo)準(zhǔn)化變換

X「

X/二

s,

我們有如下的定義:

(1)若。1=即兇+〃12%2+…+〃1/0,?+-+…+*=i,且使Par(Ci)

最大,則稱Ci為第一主成分;

(2)若。2=〃21/+〃22%2+???+〃2/〃,…+咤=1,(〃21,〃22,…,〃2p)

垂直于(〃11,〃12,…,〃12),且使外(。2)最大,則稱。2為第二主陵

分;

(3)類似地,可有第三、四、五…主成分,至多有2個(gè)。

>-

2.主成分的性質(zhì)

主成分G,。2,…,G具有如下幾個(gè)性質(zhì):

(1)主成分間互不相關(guān),即對(duì)任意Z?和力G和G的相關(guān)系數(shù)

Corr{Ci,Q)=0

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論