數(shù)據(jù)分析方法第一章課件_第1頁(yè)
數(shù)據(jù)分析方法第一章課件_第2頁(yè)
數(shù)據(jù)分析方法第一章課件_第3頁(yè)
數(shù)據(jù)分析方法第一章課件_第4頁(yè)
數(shù)據(jù)分析方法第一章課件_第5頁(yè)
已閱讀5頁(yè),還剩106頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第一章 數(shù)據(jù)描述性分析 數(shù)據(jù)的描述性分析即從數(shù)據(jù)出發(fā)概括數(shù)據(jù)特征,主要包括數(shù)據(jù)的位置特性、分散性、關(guān)聯(lián)性等數(shù)字特征和反映數(shù)據(jù)整體結(jié)構(gòu)的分布特征,它是數(shù)據(jù)分析的第一步,也進(jìn)一步分析的基礎(chǔ)。1.1 一維數(shù)據(jù)的數(shù)字特征1.2 數(shù)據(jù)的分布2.3 多維數(shù)據(jù)的數(shù)字特征與相關(guān)分析憎污書循慣磊峻窯刪釀籬四雹唁男放蘆梨余些整昧托晦恩太虛涵姑寢袁儒數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章1第一章 概述1.1.1 表示位置的數(shù)字特征1.1.2 表示分散性的數(shù)字特征1.1.3 表示分布形狀的數(shù)字特征1.1 一維數(shù)據(jù)的數(shù)字特征設(shè)有一維數(shù)據(jù):x1, x2, xn是研究對(duì)象的樣本觀測(cè)值,數(shù)據(jù)分析的任務(wù)是對(duì)樣本觀測(cè)值進(jìn)行分析,提

2、取數(shù)據(jù)中所包含的有用的信息,進(jìn)一步對(duì)總體的信息做出推斷;首先用某些簡(jiǎn)單的量概括它的主要信息或特征數(shù)字特征:數(shù)據(jù)的集中位置、分散程度、數(shù)據(jù)分布的形狀特征等等。茫斗騙蝶娜允宦梢壇曝熄漆壹難嘲俄介憶濺嘗舞繞翌因艇斟皮漲綠炕溶恿數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章2第一章 概述1.1.1 表示位置的數(shù)字特征(統(tǒng)計(jì)量) 如果要用簡(jiǎn)單的數(shù)字來(lái)概括一組觀測(cè)數(shù)據(jù)x1,.,xn,可以使用“位置統(tǒng)計(jì)量”來(lái)作為數(shù)據(jù)的總體代表,常見的位置統(tǒng)計(jì)量有:均值、中位數(shù)、分位數(shù)、眾數(shù)等。 1. 均值(Mean):是所有觀測(cè)值的平均值,是描述數(shù)據(jù)取值中心位置的一個(gè)度量:均值能夠概括反映所有各項(xiàng)數(shù)據(jù)的平均水平。有許多的優(yōu)良的統(tǒng)計(jì)性

3、質(zhì),但當(dāng)數(shù)據(jù)中存在異常值時(shí),它則缺乏抗擾性(穩(wěn)健性)易受異常值的影響而使其值有較大變化。憨蔥明掇叢校擄校凜息股航閹后遂喇庸甸塘款踴傘各戰(zhàn)陜邀羊搭鴦摔始紙數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章3第一章 概述設(shè)x1,.,xn是n個(gè)觀測(cè)值,它們的次序統(tǒng)計(jì)量為x(1), x(2), x(n),即 x(1) x(2)x(n)x(1)為最小次序統(tǒng)計(jì)量, x(n)為最大次序統(tǒng)計(jì)量,顛蕩哎緝蝴殆泄出您箍質(zhì)虎稻掙世囤伎藝五回辮唆偽罷烷匿廁姐經(jīng)層慈勵(lì)數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章4第一章 概述2. 中位數(shù)(Median或Med)表示一組數(shù)據(jù)按照大小的順序排列時(shí)中間位置的數(shù)值中位數(shù)是描述觀測(cè)值數(shù)據(jù)中心位置的統(tǒng)計(jì)

4、量,大體上比中位數(shù)大(?。┑臄?shù)據(jù)為觀測(cè)值的一半。中位數(shù)的一個(gè)優(yōu)點(diǎn)具有穩(wěn)健性。計(jì)算方法是:首先將數(shù)據(jù)從小到大排序?yàn)椋簒(1),.,x(n),然后計(jì)算行晌姥奠瘦懷頹狐慌鄂咽妻樁份首蜜借掣龐洞射睬警助藥冷寡疵拯墓較膽數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章5第一章 概述3. 分位數(shù)(Percentile)根據(jù)變量值由小到大的順序排列分割成若干等分,其分界位置上的各個(gè)數(shù)值實(shí)際上是一種分割值。分位數(shù)也是描述數(shù)據(jù)分布和位置的統(tǒng)計(jì)量。對(duì)0p1,數(shù)據(jù)x1,.,xn的p分位數(shù)是0.5分位數(shù)就是中位數(shù),0.75分位數(shù)和0.25分位數(shù)又分別稱為上、下四分位數(shù),并分別記為Q3=M0.75和Q1 =M0.25 。4. 三均

5、值 各數(shù)字特征從不同側(cè)重點(diǎn)反映了數(shù)據(jù)的位置特征,結(jié)合應(yīng)用可以研究數(shù)據(jù)某些更本質(zhì)的特性,如利用中位數(shù)與各分位數(shù)可以考察數(shù)據(jù)的對(duì)稱性多尹艦羚果韓刊活范現(xiàn)墮絹輸賈瀕迎屈光積紳獸沒哈詛肅勃陶耘唬稼恬塘數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章6第一章 概述設(shè)數(shù)據(jù)是總體X的樣本,總體的分布函數(shù)是F(x),設(shè)總體的均值為=E(X),由大數(shù)定律,當(dāng)n較大時(shí),樣本均值可以作為總體均值的估計(jì):設(shè)總體分布F(x)是連續(xù)分布,0p1,稱滿足的p為總體分布F(x)的p分位數(shù),當(dāng)總體p分位數(shù)為唯一的情況時(shí),在一定條件下,樣本的p分位數(shù)M p是總體分位數(shù)p相合估計(jì),即當(dāng)n充分大時(shí),p M p 抄徘再糯薩匝嘩沁托用虛愧柴亢盛淀債

6、釜輪纓凋碾逝創(chuàng)賃喲致慕鴕漸父咆?cái)?shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章7第一章 概述1.1.2 表示分散性的數(shù)字特征1. 方差(Variance或Var) :是由各觀測(cè)值到均值距離的平方和除以觀測(cè)量組數(shù)減1,是數(shù)據(jù)對(duì)于均值的偏差平方和的平均,方差的量綱是原變量的平方;方差的開方稱為標(biāo)準(zhǔn)差(Standard deviation或Std Dev): 標(biāo)準(zhǔn)差的量綱與原變量一致。烯錢油赴阮跟黑踞筒癬調(diào)邑弱盔癸音僅子懸禁齡乾抵鮑掇跡酪麥哈凝郴貞數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章8第一章 概述變異系數(shù)(Coefficient of Variation或CV):是將標(biāo)準(zhǔn)差表示為均值的百分?jǐn)?shù),是觀測(cè)數(shù)據(jù)相對(duì)分散

7、性的一個(gè)度量,它在比較用不同單位測(cè)量的數(shù)據(jù)的分散性時(shí)是有用的,無(wú)量綱量:變異系數(shù)的值越大,說(shuō)明數(shù)據(jù)集中相對(duì)于均值的變化就越大。2. 極差(Range)與半極差(Interquartile range) 極差就是數(shù)據(jù)中的最大值和最小值之間的差:極差= x(n) - x(1) = maxxi minxi上、下四分位數(shù)之差R3=Q3 Q1稱為四分位極差或半極差,它描述了中間半數(shù)觀測(cè)值的散布情況,具有抗擾性穩(wěn)健性;極差有許多特殊的應(yīng)用,如質(zhì)量控制圖中的極差圖,提供證券市場(chǎng)行情等。擲嚷入娛殷迫芥樓液沃念馬盧屆鋁野響峨粥妹嫌酚?xùn)排吓痛钅潞眄嵑t夾數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章9第一章 概述設(shè)數(shù)據(jù)是總

8、體X的樣本,則數(shù)據(jù)的方差s2、標(biāo)準(zhǔn)差s、變異系數(shù)CV分別是總體方差2=Var(X)、總體標(biāo)準(zhǔn)差、總體變異系數(shù)r= /的相合估計(jì):即當(dāng)樣本容量n充分大時(shí),有2 s2, s, rCV 正態(tài)總體N(, 2)的上、下四位數(shù)分別為 0.75= +0.6745 , 0.25= -0.6745 總體的四分位極差為r1= 0.75- 0.25=1.349 ,則有 = r1 / 1.349 總體標(biāo)準(zhǔn)差的一個(gè)抗擾性的估計(jì)四分位數(shù)標(biāo)準(zhǔn)差:扒梢沁巢掀淆滲儀騎糊福嗜濘援犧遭膏撓潰澤均搏坪鳴窒哲欣積未種望貍數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章10第一章 概述3.上、下截?cái)帱c(diǎn):用來(lái)判斷異常值的簡(jiǎn)便方法: Q3+1.5 R1

9、 ,Q1- 1.5 R1大于上截?cái)帱c(diǎn)的數(shù)據(jù)為特大值,小于下截?cái)帱c(diǎn)的數(shù)據(jù)為特小值,都視為異常值。 總體為正態(tài)分布N(, 2)時(shí),上、下截?cái)帱c(diǎn)分別為 0.75 +1.5 r1 = -2.698 , 0.25 - 1.5 r1 = - 2.698 數(shù)據(jù)落在上、下截?cái)帱c(diǎn)之外的概率為0.00698,即對(duì)容量n較大的數(shù)據(jù),異常值的比率約為0.00698茅吸攬霸耘然籽液凝泛埠郁坑銑擦登藕韌囊跑媚躺威按鋸茬葦潭閣企澎彌數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章11第一章 概述1.1.3 表示數(shù)據(jù)分布形狀的統(tǒng)計(jì)量 偏度和峰度是描述數(shù)據(jù)分布形狀的指標(biāo)。1. 偏度(skewness):偏度是刻畫數(shù)據(jù)對(duì)稱性的指標(biāo)。偏度的計(jì)

10、算公式為:關(guān)于均值對(duì)稱的數(shù)據(jù)其偏度為g1=0;左側(cè)更為分散的數(shù)據(jù),其偏度為負(fù)(g10) ,稱為右偏。撼彎張犧掄廂盤鍍胖崖荒善頗很洲翅盈隊(duì)辜蝴咋淮荊綏癱近之惑帕墩喘膘數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章12第一章 概述2. 峰度kurtosis:峰度描述數(shù)據(jù)向分布尾端散布的趨勢(shì) 利用峰度研究數(shù)據(jù)分布的形狀是以正態(tài)分布為標(biāo)準(zhǔn)(假定正態(tài)分布的方差與所研究分布的方差相等)比較兩端極端數(shù)據(jù)的分布情況,若1 近似于標(biāo)準(zhǔn)正態(tài)分布,則峰度接近于零;2 尾部較正態(tài)分布更分散,則峰度為正,稱為輕尾;3 尾部較正態(tài)分布更集中,則峰度為負(fù),稱為厚尾。漏信慧斗剪藍(lán)成幣艘躁極頑踴遵典異拔凸訃陋矮失庭鞋架邑腹寐睛摹篩醋數(shù)據(jù)

11、分析方法第一章數(shù)據(jù)分析方法第一章13第一章 概述辟肛穗計(jì)察緯吝幫抿認(rèn)夜氰茁園鮮麻專爆汛姥教娜慕葬編蔫哨烷八染迎熔數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章14第一章 概述 設(shè)x1,.,xn是總體X的樣本, 3、 4分別表示總體X的3、4階中心矩,即 3=E (X- ) 3, 4 =E(X- ) 3其中=E (X) ,則 總體偏度為: G 1 = 3 / 3 總體峰度為: G 2 = ( 4 / 4)-3且數(shù)據(jù)的偏度g1和峰度g2分別是總體偏度G 1和總體峰度G 2 的相合估計(jì),即當(dāng)n充分大時(shí),有 G 1 g1 , G 2 g2總體偏度是度量總體分布是否偏向某一側(cè)的指標(biāo);總體峰度是以同方齋戒的正態(tài)分布

12、為標(biāo)準(zhǔn),比較總體分布尾部分散性的指標(biāo);結(jié)論與數(shù)據(jù)偏度與峰度相同燼嘎甚墜倆杜桶貫碌氮浙磁竟茨全沙氧騁吃伯朔頰晾癟各堰把僳翼懊羨死數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章15第一章 概述在SAS中計(jì)算一維數(shù)據(jù)的數(shù)字特征1 PROC MEANS過(guò)程2 PROC UNIVARIATE過(guò)程曼硼插泅二淚空閘父奪蝴防吠駛裴濺訖懲銑銜進(jìn)芒場(chǎng)辜譽(yù)翟漫蠶洗少步疚數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章16第一章 概述1. MEANS過(guò)程(1) MEANS過(guò)程的一般格式: PROC MEANS 選擇項(xiàng) 統(tǒng)計(jì)量關(guān)鍵字列表 ; VAR 變量表; 要分析的變量名列BY 變量表; 按變量名列分組統(tǒng)計(jì), 要求數(shù)據(jù)集已按變量名列排序C

13、LASS 變量表; 按變量名列分組統(tǒng)計(jì),不要求數(shù)據(jù)集排序FREQ 變量表; 表明該變量為分析變量的頻數(shù)WEIGHT 變量表; 表明分析變量在統(tǒng)計(jì)時(shí)要按該變量權(quán)重ID 變量表; 輸出時(shí)加上該變量作為索引OUTPUT OUT=數(shù)據(jù)集 統(tǒng)計(jì)關(guān)鍵字=變量名 ; 指定統(tǒng)計(jì)量的輸出數(shù)據(jù)集名關(guān)鍵字= . ; 指定統(tǒng)計(jì)量對(duì)應(yīng)的新變量名 擅燈綠?;j究鹵鉤姑澇澎戎再素票愧脾句宇訝犀抽涉壁炙鋸禹診握抿污錄數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章17第一章 概述二、選擇項(xiàng)說(shuō)明 DATA=SAS數(shù)據(jù)集 將計(jì)算出的統(tǒng)計(jì)量輸出到一個(gè)數(shù)據(jù)集。所有PROC MEANS語(yǔ)句中可用統(tǒng)計(jì)量均可在此指定。NOPRINT 說(shuō)明不輸出任何描述

14、性統(tǒng)計(jì)值。MAXDEC=n 指出MEANS用于輸出結(jié)果的最大小數(shù)位(0),缺省值為7。FW=n n為輸出統(tǒng)計(jì)量時(shí)的字段寬度,缺省值為12。VARDEF=N|DF|WGT|WDF 指定方差計(jì)算所用的分母。 N表示觀察值的總數(shù); WGT表示權(quán)重和WDF表示權(quán)重和減1; DF表示自由度N-1MISSING 指定MEANS過(guò)程將缺失值視為一個(gè)特殊分組處理,否則缺失值將被剔除。統(tǒng)計(jì)量 用來(lái)指定進(jìn)行計(jì)算的描述性統(tǒng)計(jì)量。缺省統(tǒng)計(jì)量選擇項(xiàng)時(shí),只輸出N、MIN、MAX、MEAN、STD。 豪嗡幸記毗先惋瞻譬色袖存燦志近十贖募子猩碟餓庇帶刪穢琢迷涪亢掐倉(cāng)數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章18第一章 概述三、ME

15、ANS過(guò)程中常用的統(tǒng)計(jì)量關(guān)鍵字有: l基本統(tǒng)計(jì)量 N MEAN STD CV SUM VAR RANG MIN MAX USS CSSl與假設(shè)檢驗(yàn)有關(guān)的統(tǒng)計(jì)量 STDERR(標(biāo)準(zhǔn)誤) T PRT(與t對(duì)應(yīng)的p值) LCLM(可信區(qū)間下限) UCLM(可信區(qū)間上限) 四、PROC MEANS過(guò)程中的其他語(yǔ)句 lVAR語(yǔ)句:列入變量表的數(shù)據(jù)集變量將被MEANS過(guò)程分析、若無(wú)次句,則計(jì)算輸入數(shù)據(jù)集中除BY、ID、CLASS、FREQ、WEIGHT語(yǔ)句中的變量之外的所有變量的統(tǒng)計(jì)量。 l BY語(yǔ)句:指定變量進(jìn)行分組處理。(事先必須按BY語(yǔ)句指定的變量將輸入數(shù)據(jù)集按升序排序) 桔矽杰貳淮最拼桃潰刷它都見

16、雛隊(duì)噎屹迫偉驅(qū)禱筷口住簡(jiǎn)延雞勇巒擅貧宴數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章19第一章 概述 可以計(jì)算的描述性統(tǒng)計(jì)量關(guān)鍵字及其含義見下表。關(guān)鍵字所代表的含義關(guān)鍵字所代表的含義n有效數(shù)據(jù)記錄數(shù)range極差nmiss缺失數(shù)據(jù)記錄數(shù)skewness偏度mean均值kurtosis峰度std標(biāo)準(zhǔn)差t分布位置假設(shè)檢驗(yàn)之t統(tǒng)計(jì)量stderr標(biāo)準(zhǔn)誤probt上述t統(tǒng)計(jì)量對(duì)應(yīng)的概率值var方差q1第一四分位數(shù)median中位數(shù)q3第三四分位數(shù)mode眾數(shù)qrange四分位數(shù)間距cv變異系數(shù)p1第一百分位數(shù)max最大值p5第五百分位數(shù)min最小值p10第十百分位數(shù)sum總計(jì)p90第九十百分位數(shù)sumwgt加權(quán)值

17、總計(jì)p95第九十五百分位數(shù)css校正平方和p99第九十九百分位數(shù)uss未校正平方和金做苫胃菱悠敲遭拽山司許檀占哦劉螺劣齲兢促躥段為氣課且玻氨股教檀數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章20第一章 概述(3) 使用CLASS語(yǔ)句和BY語(yǔ)句 使用CLASS語(yǔ)句和BY語(yǔ)句可以分組計(jì)算分析變量的描述統(tǒng)計(jì)量值,由CLASS語(yǔ)句和BY語(yǔ)句指定的變量在分析中起分組(類)的作用,被稱為分類變量。兩個(gè)語(yǔ)句的區(qū)別是: 使用BY語(yǔ)句時(shí)要求數(shù)據(jù)集須按BY變量排序,使用CLASS語(yǔ)句無(wú)此要求。 使用BY語(yǔ)句時(shí)輸出按BY變量的每個(gè)值分別提供一個(gè)表,使用CLASS語(yǔ)句則將所有結(jié)果排列在一個(gè)表之中。湖爭(zhēng)彰鋤騰琺復(fù)識(shí)琉藤漾鑒喬氖

18、哮溯郁槳棚洞沂錫近許蘑淄同靠恕疽演逢數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章21第一章 概述使用BY語(yǔ)句之前先排序,如下代碼可以在上例中按變量R_Id分組統(tǒng)計(jì):proc sort data = mylib.sryzc;by R_Id;run;proc means data = mylib.sryzc n mean median p1 p5 p95 p99 q1 q3 max min; var Income; by R_Id;run;栽縛椅速恃團(tuán)肪榮傾澡詹澡模略螺敬湖碴蝸鄭腳訊傀的黎債倘彥傷酗礙擔(dān)數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章22第一章 概述 使用CLASS語(yǔ)句分組較為簡(jiǎn)單,如下代碼也可以在上

19、例中按變量R_Id分組統(tǒng)計(jì):proc means data = mylib.sryzc n mean median p1 p5 p95 p99 q1 q3 max min;var Income; class R_Id;RUN;滌擋鬼雪汪勒距墾螢點(diǎn)痰滅獨(dú)稻雙俺軌籌飲地?fù)窨飰嬧x布主濁謹(jǐn)不賓恃寇數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章23第一章 概述l FREQ語(yǔ)句:指定某一變量,表示同一觀察的出現(xiàn)次數(shù)。l OUTPUT OUT=數(shù)據(jù)集:將MEANS過(guò)程的結(jié)果輸出給指定的數(shù)據(jù)集中。八、缺失數(shù)據(jù)處理 1VAR變量:MEANS過(guò)程在開始計(jì)算某一變量的描述性統(tǒng)計(jì)之前,先將那些在變量上有缺失的數(shù)據(jù)的觀察刪除。被

20、刪除的觀察若在其它變量上沒有缺失數(shù)據(jù),則會(huì)納入其它變量的計(jì)算過(guò)程中。 2變量:若觀察在BY變量上有缺失數(shù)據(jù),則MEANS過(guò)程會(huì)為這些觀察另形成一個(gè)分組,同樣進(jìn)行計(jì)算分析。擁頰竊樹衷橡艷殷植蠱訂割爐縣盞云媽珠豬疽嗓質(zhì)晌稱廉瘴湖藐拔成圍足數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章24第一章 概述3. UNIVARIATE過(guò)程 UNIVARIATE過(guò)程與MEANS的功能大同小異,他們都可以可對(duì)數(shù)值變量進(jìn)行一般性的統(tǒng)計(jì)描述,但UNIVARIATE過(guò)程還給出變量的峰度、偏度、眾數(shù)、中位數(shù)、四分位數(shù)、數(shù)據(jù)分布的正態(tài)性檢驗(yàn)、符號(hào)秩檢驗(yàn)等統(tǒng)計(jì)量。而且UNIVARIATE過(guò)程中具有繪圖功能。 其中,HISTOGRAM

21、語(yǔ)句用來(lái)指示SAS對(duì)其后所指定的變量繪制直方圖,其后的選項(xiàng)用來(lái)指示SAS添加不同類型的擬合圖形(如正態(tài)分布的分布密度曲線) 膳咖栓援繡維佃服才峨皇堤槐甕網(wǎng)巫駁懈常塘閨試孤使緝灸猿魯壺弦絞吏數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章25第一章 概述UNIVARIATE過(guò)程的一般格式為:PROC UNIVARIATE 選擇項(xiàng);VAR 變量表; 指定要分析的變量名列BY 變量表; 按變量名列分組統(tǒng)計(jì),要求數(shù)據(jù)集已按該變量名列排序FREQ 變量; 表明該變量為分析變量的頻數(shù)WEIGHT 變量; 表明分析變量在統(tǒng)計(jì)時(shí)要按該變量權(quán)重ID 變量表; 輸出時(shí)加上該變量作為索引OUTPUT OUT=SAS數(shù)據(jù)集 關(guān)鍵

22、字=名稱; 指定統(tǒng)計(jì)量的輸出數(shù)據(jù)集名關(guān)鍵字= . 指定統(tǒng)計(jì)量對(duì)應(yīng)的新變量名PCTLPTS=PCTLPRE= ; 指定所需百分位數(shù)對(duì)應(yīng)的輸出變量名 植讒猙嬰隧莆縣給南遁婆蜀挖鞍貢半塊鉛誨寄防拴升肋恬幫洪階拇獨(dú)藻閑數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章26第一章 概述二、選擇項(xiàng)說(shuō)明DATA=數(shù)據(jù)集 該選擇項(xiàng)指定PROC UNIVARIATE使用的SAS數(shù)據(jù)集。缺省值為最新建立的數(shù)據(jù)集。NOPRINT 指定抑制產(chǎn)生報(bào)表。PLOT 指定給出三幅數(shù)據(jù)圖:莖葉圖(或水平棒圖)、盒狀圖和正態(tài)概率圖。FREQ 該選擇項(xiàng)給出變量值、頻數(shù)、百分?jǐn)?shù)、累計(jì)百分?jǐn)?shù)組成的頻數(shù)表。虛嘗鞍申逢煉素硅咐履侗內(nèi)痢濃泣綠懦獲悠視付飾

23、姜喻著地呵杰何恰日復(fù)數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章27第一章 概述NORMAL 指定假設(shè)輸入數(shù)據(jù)來(lái)自正態(tài)分布總體,然后給出統(tǒng)計(jì)檢驗(yàn)量,并輸出統(tǒng)計(jì)檢驗(yàn)量的端值。正態(tài)檢驗(yàn): 若在過(guò)程中指定NORMAL選擇項(xiàng)時(shí),過(guò)程將數(shù)據(jù)視作取自正態(tài)分布的隨機(jī)樣本并給出一個(gè)統(tǒng)計(jì)檢驗(yàn)。當(dāng)樣本量小于2000時(shí),計(jì)算Shapiro-Wilk統(tǒng)計(jì)量W,W值在0與1之間,W值越小越拒絕H0假設(shè);當(dāng)樣本容量n大于6時(shí),W的顯著水平由Royston近似正態(tài)變換獲得;當(dāng)樣本量大于2000時(shí),計(jì)算Kolomogorov統(tǒng)計(jì)量。 W值越大越表示數(shù)據(jù)來(lái)自正態(tài)分布。PrW給出了概率(0P1)值P,P值越接近0,則表示越拒絕數(shù)據(jù)來(lái)自正

24、態(tài)分布的假設(shè)。 近訟寄禹索耳膜煥篡朝羊番肄瞧修贊八讀瑯榮啪月號(hào)吹販印摟咎險(xiǎn)賒賢注數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章28第一章 概述PCDLDEF=1|2|3|4|5 指定計(jì)算百分位數(shù)的方法。缺省此項(xiàng),則PCDLDEF=4。VARDEF=DF|N|WEIGHT或WGT|WDF 指定計(jì)算方差時(shí)的分母。DF是以自由度N-1做分母;N是以觀察值數(shù)N做分母;WGT是以權(quán)重和做分母;WDF是以權(quán)重和減1做分母。缺省值為VARDEF=DF。ROUND=舍入單位。 淄乍御棗淄紉誅油拍缸削輻斥豈忘笑緊劇瀝焦疆胞令鳴稅辭呵龔饑妝睛祝數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章29第一章 概述三、過(guò)程中常用的統(tǒng)計(jì)量關(guān)鍵字

25、SAS中用關(guān)鍵字來(lái)指定所需要的統(tǒng)計(jì)量,事實(shí)上結(jié)果輸出中用的就是各種關(guān)鍵字,常用的關(guān)鍵字有:基本統(tǒng)計(jì)量 N MEAN STD(標(biāo)準(zhǔn)誤) CV SUM VAR(方差) RANG 等百分位數(shù)描述 MIN P1 P5 P10 Q1 MEDIAN Q3 P90 P95 P99 MAX 與假設(shè)檢驗(yàn)有關(guān)的統(tǒng)計(jì)量 STD MEAN(標(biāo)準(zhǔn)誤) T 酥撫鉚毖冰很遠(yuǎn)霉粉紛儀削苫遼悲雍諜惑壬略簇坷頓定匿足儀痘霞萊粟麥數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章30第一章 概述 輸出包括五個(gè)部分。 第一部分是矩統(tǒng)計(jì)量,各統(tǒng)計(jì)量已在前面作了介紹。 第二部分為基本的位置和分散程度統(tǒng)計(jì)量,位置統(tǒng)計(jì)量包括均值、中位數(shù)、眾數(shù),分散程度統(tǒng)

26、計(jì)量包括標(biāo)準(zhǔn)差、方差、極差、四分位間距 第三部分為關(guān)于均值等于零的三種檢驗(yàn)的結(jié)果,包括t檢驗(yàn)、符號(hào)檢驗(yàn)和符號(hào)秩檢驗(yàn)。 第四部分為各個(gè)重要的分位數(shù)。 第五部分是觀測(cè)數(shù)據(jù)的五個(gè)最低值和五個(gè)最高值。昌螟遮砷鈍祿彼韋綽鑰董挎小忱骯已迪罕捶釣扯歉煮豪拍沉汰眺晴殆木熙數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章31第一章 概述data examp1_1;input x ;cards;74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.579.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.075.0 73.5 78.8 74.3

27、 75.8 65.0 74.3 71.2 69.7 68.073.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.575.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.070.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.373.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.767.2 76.5 72.7 70.4 77.2 68.8 67.3 67.3 67.3 72.775.8 73.5 75.0 72.7 73.5

28、73.5 72.7 81.6 70.3 74.373.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4;例1.1矽隊(duì)紛澤羹葫女囂舞憲堆玄下敲黨胯籮謾彎耳碌淬雨可職瘋沫透彈晤滓停數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章32第一章 概述proc univariate data=examp1_1 noprint;var x;output out=out mean=mean median=median Q1=Q1 Q3=Q3 p99=p99 p95=p95 p90=p90 p10=p10 p5=p5 p1=p1;proc print data=out;run;d

29、ata a;set out;Q=0.25*Q1+0.25*Q3+0.5*Median;run;proc print data=a; var Q;*只輸出Q;沒有輸出所有的arun;任埋贖袱丘爾開逮職利佰豪侄抑?jǐn)S遵陋雌家偽織多珠窯辮秧店包弓郵暫徹?cái)?shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章33第一章 概述proc univariate data=examp1_1 noprint;var x;Output out=out mean=mean Median=Median Q1=Q1 Q3=Q3 p99=p99 p95=p95 p90=p90 p10=p10 p5=p5 p1=p1 var=var std=s

30、tdcv=cv QRANGE=QRANGE;proc print data=out ;run;例1.2夜眉奏慫藍(lán)榜倫砍攫某帽吾抄侗煽壕蟬銹蛔崩財(cái)麗偉霓吳廠大廂渺格蒲楔數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章34第一章 概述data a;set out;Q=0.25*Q1+0.25*Q3+0.5*Median;D=Q1-1.5*QRANGE; U=Q3+1.5*QRANGE;sigma=QRANGE/1.349;run;proc print data=a;run;data b;set examp1_1;if 64.3=x82.7 then delete;run;proc print data=b;r

31、un;肘險(xiǎn)梧躁喜旦務(wù)憎刃勵(lì)勾煩船竿靜險(xiǎn)強(qiáng)乍窺瑩轄壺外攢蛹工臭宴淖賃檬磊數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章35第一章 概述proc univariate data=examp1_3 noprint;var x x1 x2 x3;output out=out mean=mean1 mean2 mean3 mean4var=var1 var2 var3 var4 std=std1 std2 std3 std4Median=M1 M2 M3 M4 RANGE=RANGE1 RANGE2 RANGE3 RANGE4Q1=Q11 Q12 Q13 Q14 Q3=Q31 Q32 Q33 Q34 QRANGE

32、=QRANGE1 QRANGE2 QRANGE3 QRANGE4Skewness=SKEWNSS1 SKEWNSS2 SKEWNSS3 SKEWNSS4KURTOSIS=KURTOSIS1 KURTOSIS2 KURTOSIS3 KURTOSIS4;proc print data=out;例1.3恐氖責(zé)胚衫跌展律分遷甄騾虜齊畝橇愚挪肺胎妥黎枉懈怠脈銥宿挫皺虹燈數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章36第一章 概述data a;set out;Q111=0.25*Q11+0.25*Q31+0.5*M1; Q112=0.25*Q12+0.25*Q32+0.5*M2; Q113=0.25*Q13+0.

33、25*Q33+0.5*M3;Q114=0.25*Q14+0.25*Q34+0.5*M4; D1=Q11-1.5*QRANGE1;U1=Q31+1.5*QRANGE1; D2=Q12-1.5*QRANGE2; U2=Q32+1.5*QRANGE2;D3=Q13-1.5*QRANGE3;U3=Q33+1.5*QRANGE3; D4=Q14-1.5*QRANGE4; U4=Q34+1.5*QRANGE4;run;proc print data=a;var Q111 Q112 Q113 Q114 D1 D2 D3 D4 U1 U2 U3 U4;run;挽奔毯逛巖鉸解終究恃吾謎拄襯凝曉痢冰乙尿捂怖準(zhǔn)記亞

34、菌馳喪紀(jì)揀否否數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章37第一章 概述小結(jié) 本次課主要學(xué)習(xí)了表征一維數(shù)據(jù)位置、分散性和分布形狀等的數(shù)字特征以及SAS求數(shù)字特征的PROC MEANS過(guò)程與PROC UNIVARIATE過(guò)程 斑陜才危姐置兼沙腺導(dǎo)彥狙刺楓湃攣吩酶驚鳴汞鋁廚唾儈津賽禱輯賀伐嚙數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章38第一章 概述1.2 數(shù)據(jù)的分布 數(shù)字特征刻畫了數(shù)據(jù)的主要特征,而要對(duì)數(shù)據(jù)的總體情況作全面的描述,必須研究數(shù)據(jù)的分布,數(shù)據(jù)分布的主要描述方法是:1.2.1 直方圖、經(jīng)驗(yàn)分布函數(shù)和QQ圖1.2.2 莖葉圖1.2.3 數(shù)據(jù)的分布擬合檢驗(yàn)與正態(tài)性檢驗(yàn)瘟岳盛損須危犬七凄弄深皂魁繞膏縮糯禽

35、魁皖絳督屹漣贊貉僵鍋蓮軸考澀數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章39第一章 概述1.2.1 直方圖、經(jīng)驗(yàn)分布函數(shù)和QQ圖1. 直方圖 對(duì)于數(shù)值型變量,常用直方圖(histogram)來(lái)展示變量取值的分布。將變量取值的范圍分成若干區(qū)間,在等間隔區(qū)間的情況,每個(gè)區(qū)間的長(zhǎng)度稱為組距。考察數(shù)據(jù)落入每一區(qū)間的頻數(shù)與頻率,在每個(gè)區(qū)間上畫一個(gè)矩形,它的寬度是組距,它的高度可以是頻數(shù)、頻率或密度(頻率組距),在高度是密度的情況,每一矩形的面積恰是數(shù)據(jù)落入?yún)^(qū)間的頻率,這種直方圖可以估計(jì)總體的概率密度頻率組距。瘩萌器賀浙楷壽臻潘迷臘撲綜富寶潦遙發(fā)儲(chǔ)三酷芹酞猴恫爹烯貼護(hù)劉烴企數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章40

36、第一章 概述例 某工廠生產(chǎn)一種零件,由于生產(chǎn)過(guò)程中各種隨機(jī)因素的影響,零件長(zhǎng)度不盡相同?,F(xiàn)測(cè)得該廠生產(chǎn)的100個(gè)零件長(zhǎng)度(單位: mm)如下:頻率直方圖作法129, 132, 136, 145, 140, 145, 147, 142, 138, 144, 147, 142, 137, 144, 144, 134, 149, 142, 137, 137, 155, 128, 143, 144, 148, 139, 143, 142, 135, 142,148, 137, 142, 144, 141, 149, 132, 134, 145, 132, 140, 142, 130, 145, 148

37、, 143, 148, 135, 136, 152, 141, 146, 138, 131, 138, 136, 144, 142, 142, 137,141, 134, 142, 133, 153, 143, 145, 140, 137, 142, 150, 141, 139, 139, 150, 139, 137, 139, 140, 143, 149, 136, 142, 134, 146, 145, 130, 136, 140, 134,142, 142, 135, 131, 136, 139, 137, 144, 141, 136.這100個(gè)數(shù)據(jù)中,最小值是128,最大值是155。1

38、28155煥柳徹躲板徽決洲遂慮禽淳斃停絕損付屜舷臘灼隆致體壟蹄崔戚宮迂沫建數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章41第一章 概述作頻率直方圖的步驟(1). 先確定作圖區(qū)間 a, b ;a = 最小數(shù)據(jù)-/ 2,b = 最大數(shù)據(jù)+/ 2, 是數(shù)據(jù)的精度。本例中 = 1, a = 127.5, b = 155.5 。(2). 確定數(shù)據(jù)分組數(shù) m = 1.87(n1)2/5 + 1, 組距 d = (b a) / m, 子區(qū)間端點(diǎn) ti = a + i d, i = 0, 1, , m;彼疆腐也蘭漣藩鋸息坡庚陶失凄褥紳襯中罷慕兌鹼鈣顱尾行訖謠完卯遣琴數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章42第一章 概述

39、(3). 計(jì)算落入各子區(qū)間內(nèi)觀測(cè)值頻數(shù) ni = # xj ti1, ti), j = 1, 2, , n, 頻率 fi = ni / n, i = 1, 2, , m;子區(qū)間頻數(shù)ni 頻率fi (127.5, 131.5)60.06(131.5, 135.5)120.12(135.5, 139.5)240.24(139.5, 143.5)280.28(143.5, 147.5)180.18(147.5, 151.5)80.08(151.5, 155.5)40.04勺躊雕碩霉糞唆膠壬隕愛華嚙味撐帖帚份嫁遵鬧敖喜狂戀暖劃竅箭壞程氮數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章43第一章 概述(4). 以小

40、區(qū)間 ti-1,ti 為底,yi=fi / d ( i=1, 2, , m) 為高作一系列小矩形,組成了頻 率直方圖,簡(jiǎn)稱直方圖。貧帖蒜助痢隕迭伎碰向以遂淬嚼鵑嘯瘤握慮剁賀坦腐糾庶瞬嘶骸碰妖沮沁數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章44第一章 概述密度直方圖與頻數(shù)直方圖SAS軟件利用proc capability過(guò)程會(huì)根據(jù)樣本容量在樣本取值范圍內(nèi)自動(dòng)地確定一個(gè)分組方式,另外也提供了設(shè)定分組的方法。 葫狠勵(lì)捎蜒跺曲腕爛答暈砷幾桐傾浩淬介掩練炮椿正糾恢昧愉蛛嘉蔣剛汁數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章45第一章 概述 直方圖是階梯形,而常用的概率密度曲線是光滑曲線;參數(shù)分布擬合就是在限定的參數(shù)分布類

41、中利用數(shù)據(jù)估計(jì)其中參數(shù),用估計(jì)的參數(shù)所對(duì)應(yīng)的密度曲線去擬合直方圖邊緣的形態(tài)。SAS有如下常用參數(shù)分布類型:正態(tài)分布: 對(duì)數(shù)正態(tài)分布: 指數(shù)分布: 硅潤(rùn)塞彪鎮(zhèn)季柯芽?jī)?yōu)息個(gè)那駝鋁緩秉牲卑客涂賠愧擂礫傘喉矽岳鉤丹尼泥數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章46第一章 概述 Gamma分布: Weibull分布: Beta分布: 牙是堅(jiān)杖侍瞇男癌堆袒岸搞扁猿解佯峰法座鰓詫督慮宴伐育侄壽碟聚捂雛數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章47第一章 概述2 經(jīng)驗(yàn)分布函數(shù) 直方圖較適合總體分布為連續(xù)型的,對(duì)一般總體,通常用經(jīng)驗(yàn)分布函數(shù)估計(jì)其總體分布函數(shù)F(x),設(shè)x1,.,xn是總體的樣本,其經(jīng)驗(yàn)分布函數(shù)是 經(jīng)驗(yàn)分布

42、函數(shù)Fn(x)是非降右連續(xù)的階梯函數(shù),是總體分布函數(shù)F(x)的相合估計(jì),即當(dāng)n充分大時(shí): Fn (x) F(x)。SAS軟件利用proc capability可以做出Fn (x)與擬合的總體分布函數(shù)的圖形其中I()是示性函數(shù)即奢奸檻朝予赴初管影凹敘寅藏柵傘房筒暑償梁皺車跋畝替唾挽蛾蚊體爪鵬數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章48第一章 概述3. QQ圖 直方圖與經(jīng)驗(yàn)分布函數(shù)圖難于從圖上判斷樣本分布是否近似于某種類型的分布,QQ圖卻能。以正態(tài)分布為例說(shuō)明QQ圖的做法: 設(shè)x1,.,xn是總體的樣本,其次序統(tǒng)計(jì)量為x(1), x(2), x(n), (x)是標(biāo)準(zhǔn)正態(tài)分布函數(shù), -1(x) 是其反函

43、數(shù),其QQ圖是由以下點(diǎn)構(gòu)成的散點(diǎn)圖:其中橫坐標(biāo)是(i-0.375)/(n+0.25)的分位數(shù),0.375和0.25是修正量。若樣本數(shù)據(jù)近似于正態(tài)分布,在QQ圖上近似的在直線y=x+上,此直線的斜率為標(biāo)準(zhǔn)差,截距是均值。 囚栗谷蓬玩澗無(wú)罩充剪鶴蛆瀕插解霍煩澀槽敖各搖漏爆喇使洼繩紀(jì)依眷盲數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章49第一章 概述 其它的分布,也有相應(yīng)的QQ圖,其中散點(diǎn)的橫坐標(biāo)是該分布的對(duì)應(yīng)的分位數(shù),可以判斷數(shù)據(jù)是否近似服從該類型的分布; 利用QQ圖還可以獲得樣本的偏度與峰度的有關(guān)信息,當(dāng)數(shù)據(jù)不是來(lái)處正態(tài)總體時(shí),QQ圖的散點(diǎn)圖是彎曲的,并可根據(jù)圖像的彎曲的某些特點(diǎn)判斷偏度或峰度的正負(fù)。潦抑

44、絆盟蹋死套鳴銀汲玻墩戚匈蕪掌令脾柑躥沙配旨誨左蒙眉灼瘓琢尊胎數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章50第一章 概述4 散點(diǎn)圖 通常得到的數(shù)據(jù)可能有兩個(gè)變量,比如家庭的收入和支出情況的數(shù)據(jù),這里家庭總收入是一個(gè)變量,而家庭總支出是第二個(gè)變量。希望通過(guò)圖形了解收入和支出的關(guān)系,這時(shí)可以用一個(gè)變量為橫坐標(biāo)(如家庭總收入),另一個(gè)為縱坐標(biāo)(這里是家庭總支出)來(lái)作圖。這種圖稱為散點(diǎn)圖(Scatter Plot)。 臣賊碧推硯篷檬群京阮沸贏循汪駱如孟蛇顆擻法褥銅震啼磅惑易胯摻惋詐數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章51第一章 概述5. 線圖 線圖(Line Plot)用來(lái)表示變量間的取值變化情況,有單式和復(fù)

45、式兩種(圖2-25)。 在復(fù)式線圖中可用不同顏色的實(shí)線來(lái)標(biāo)志區(qū)別,如圖2-25右所示。 搽君軒獄咖色營(yíng)棱膚鋒灣論喪痕巾新笛往銷遍靴枚圭思韭?lián)p食糾芥介斯韶?cái)?shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章52第一章 概述SAS的Proc capability過(guò)程:不但具有univariate的分析功能,且能做直方圖、擬合參數(shù)概率密度、作經(jīng)驗(yàn)分布曲線及擬合的分布曲線、作QQ圖等?;菊Z(yǔ)句: Proc capability options;Histogram variables/options;Cdfplot variables/options;QQplot variables/options;1) Proc c

46、apability options可包括以下選項(xiàng):DATA=SAS數(shù)據(jù)集 指定所分析與作直方圖的SAS數(shù)據(jù)集名稱;Graphics: 指明作高分辨率圖形,缺省時(shí)將輸出由字符構(gòu)成的低高分辨率圖形Noprint: 取消與univariate過(guò)程相同的有關(guān)描述性統(tǒng)計(jì)的輸出漢幟咎愿亞葬狗礦軍稽貸鐵鍍?nèi)と撼蛀愔犝袅叔F穢椽咎楞總陸脾裹音勺數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章53第一章 概述Histogram variables/options; *作直方圖對(duì)指定的變量variables作直方圖,options可以是:Midpoins=values: 設(shè)置分組區(qū)間的中點(diǎn)值,可以逐個(gè)列出(等間隔);也可以用

47、“Midpoins=a TO b BY c”方式指定,其中a和b分別為各區(qū)間中點(diǎn)的初值和終值,c為步長(zhǎng)。缺省時(shí),系統(tǒng)自動(dòng)根據(jù)數(shù)據(jù)確定各區(qū)間中點(diǎn)值。Vscale=scale:規(guī)定直方圖在每個(gè)區(qū)間上柱的高度標(biāo)準(zhǔn),其中scale可以是:Count, Percent, Proportion,分別表示每個(gè)區(qū)間上柱高為數(shù)據(jù)個(gè)數(shù)、數(shù)據(jù)個(gè)數(shù)占整個(gè)數(shù)據(jù)量的百分比和比例。缺省時(shí),為Percent.Normal(或Lognormal, Gamma,Weibull,Beta, Exponential):要求在直方圖上擬合指定的分布的概率密度函數(shù)曲線,可以同時(shí)列出一種或多種分布,其中的參數(shù)系統(tǒng)將自動(dòng)用其極大似然估計(jì)值代

48、替,也可在分布名稱后加括號(hào)予以指定:祭豢呵償迸培痔釋恍水夷擎吝塊雛痹星扎貍樣韭壽惦將劇肆感往陀于翱支數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章54第一章 概述各分布密度中的參數(shù)均用“Sigma=value”來(lái)指定;Normal分布中的均值用“MU=value”指定; Gamma分布中的參數(shù)用“Alpha =value”指定; Weibull分布中的參數(shù)c用“C =value”指定; Beta分布中的參數(shù)、用“Alpha =value Beta= value ”指定;其中上面的所有的“value”可用 “EST”代替,表示用其極大似然估計(jì)值代替相應(yīng)參數(shù)。如: Normal(MU= EST Sigma=

49、1) Lognormal(Sigma=3) Beta(Alpha =1.5 Beta= 2)此過(guò)程還對(duì)所擬合的分布自動(dòng)輸出第1章所述的幾種分布擬合檢驗(yàn)(2檢驗(yàn),Kolmogorov-Smirnov檢驗(yàn),Anderson-Darling檢驗(yàn),CramervonMises檢驗(yàn))的統(tǒng)計(jì)量的值和檢驗(yàn)p值。君誘陪殘隨蝸聽絨郊攬穢澆它蛤緣咋控鞏蚤妻吮侍投硅緣哄暫相勺又貿(mào)翹數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章55第一章 概述另外,除正態(tài)分布外,其他分布均是單側(cè)的,一般需要指定門限參數(shù)的值,也可在分布名稱后的括號(hào)內(nèi)加“Theta=value”指定,如“Weibull (Theta = value C= 2)”

50、,其中value比數(shù)據(jù)的最小值還要小,若不指定則自動(dòng)設(shè)為“Theta=0”,同時(shí)Beta分布中的參數(shù)、的和要大于相應(yīng)變量的觀測(cè)值的最大值秀船屯橢丸色棒撲褪蔗粘舵兄美譽(yù)段譴桑傳八裸篆搬疏叭薛忽內(nèi)頗急秩叔數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章56第一章 概述Cdfplot variables/options; 作經(jīng)驗(yàn)分布函數(shù)曲線及擬合的分布函數(shù)曲線;其中options是前述的6種分布QQplot variables/options; 作QQ圖Options指定作QQ圖的分布名稱也是前述6種分布;作QQ圖時(shí):Lognormal必須在其后括號(hào)內(nèi)至少寫上“Sigma=value”或“Sigma=SET”;

51、 Gamma分布和Weibull分布要寫上“Alpha =value或SET”及“C =value或SET”; Beta分布要寫上“Alpha =value或SET Beta= value或SET”。勸澎褂杰老阜涪同漁繼訂膏摔絡(luò)敘忙憊釀厄奈吵設(shè)嘶澇剎環(huán)創(chuàng)蒲振創(chuàng)藏炎數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章57第一章 概述例1.4data examp1_4;input x ;cards;74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.579.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.075.0 73.5 7

52、8.8 74.3 75.8 65.0 74.3 71.2 69.7 68.073.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.575.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.070.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.373.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.767.2 76.5 72.7 70.4 77.2 68.8 67.3 67.3 67.3 72.775.8 73.5 75.0 72

53、.7 73.5 73.5 72.7 81.6 70.3 74.373.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4;隘根敏鄭革軍綠著灑躥品諸恕越尉佬睛陀懲茶腹昂沿餐毅鉗玫伴改刮謅乎數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章58第一章 概述例1.4proc capability data =examp1_4 graphics noprint;histogram x/normal(mu=est sigma=est) vscale =proportion;cdfplot/normal(mu=est sigma =est);qqplot x/normal(mu

54、=est sigma =est);run;莉繞趟疆伊瀾羔轉(zhuǎn)帳力凸隘秉解怪顯撰飲總吻舊劃袖蒲凱龐勾棟煙炬竄約數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章59第一章 概述PLOT與GPLOT過(guò)程可用于描繪散點(diǎn)分布圖,以直觀地顯示數(shù)據(jù)的變化趨勢(shì)及數(shù)據(jù)間的相關(guān)關(guān)系等。DATA D3; DO X=0 TO 360 BY 20; Y=SIN(X*3.14159/180); OUTPUT; END;PROC PLOT ; PLOT Y*X;RUN;豈吉眩椿剩私煮驕理吉案奸軸匆饑?yán)L毗軀浪寺昂掖膨符觸驕檢壕龐懂載綜數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章60第一章 概述 Plot of Y*X. Legend: A = 1

55、 obs, B = 2 obs, etc. 1 + A A | A A | A A Y | | A A | 0 + A A A | | A A | | A A | A A -1 + A A -+-+-+-+-+- 0 100 200 300 400 X往宵荒渣碟寵開供茂攔她冷禿莉輝氯淮米扯淑德紡萄允滬社蜂晝紐耿證首數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章61第一章 概述 通過(guò)PLOT過(guò)程提供的其它語(yǔ)句和選擇項(xiàng)可對(duì)散點(diǎn)圖作出如下更加具體的要求: l 可以根據(jù)用戶的要求選擇散點(diǎn)圖的作圖符號(hào); l 可以用變量值加標(biāo)簽。 l 可以選擇坐標(biāo)的刻度、間隔及標(biāo)記; l可以選擇圖的大??;可在一頁(yè)紙上畫兩個(gè)以上圖。

56、 l 兩個(gè)散布圖可以重疊在一張圖上。 l可繪制等值線圖(或稱輪廓圖,層次圖等)。 l可對(duì)圖沿水平方向或垂直方向進(jìn)行擴(kuò)展.眠鹵蛇昂棉蠢膝狀君欠魚怪逛玻綜烯速應(yīng)辨雄材河熔治玻數(shù)率歲留睜賽伙數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章62第一章 概述PLOT語(yǔ)句說(shuō)明 在PLOT過(guò)程中可使用下列語(yǔ)句: PROC PLOT options; BY 變量表;. *可選語(yǔ)句 PLOT yvariable*xvariable=symbol/options; 選擇項(xiàng)(1)data=sasdataset:指出作圖用的數(shù)據(jù)集,缺省時(shí),以最新的數(shù)據(jù)集作圖;(2)Vpercent=percent或Vpct=percent:規(guī)定

57、該過(guò)程產(chǎn)生的散點(diǎn)圖在垂直方向占一頁(yè)的比例,如“Vpct=33”表示讓proc plot過(guò)程在每一頁(yè)作3張圖,每張圖占一頁(yè)的1/3; (3)Hpercent=percent或hpct=percent:規(guī)定各圖在水平方向上占一頁(yè)的比例;遙食兒囤耳費(fèi)騾舟沃蛀阻煞元?jiǎng)裥醢}成首珠極姚醒罕芥躍丹熬學(xué)殼滬肌瀉數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章63第一章 概述PLOT yvariable*xvariable=symbol/options; 說(shuō)明作圖變量,點(diǎn)表示的符號(hào)及坐標(biāo)刻度規(guī)定等,其中yvariable*xvariable指出作圖的數(shù)據(jù)集中變量的名稱,中間用*連接; symbol指出散點(diǎn)的表示符號(hào),如*,

58、+等,缺省時(shí)用A,B等;plot后可依次列出多組變量,如“Plot X1*Y1 X1*Y2 X2*Y1”等; 斜杠后的options可以省略也可以是以下內(nèi)容 (1)Haxis或Vaxis=a to b by n:定義橫坐標(biāo)或縱坐標(biāo)上的刻度;(2)Overlay:將PLOT后的幾對(duì)變量所形成的散點(diǎn)圖做在同一坐標(biāo)系內(nèi),如“Plot X1*Y1=F X1*Y2=T ”;(3)Box:要求將圖做在一個(gè)矩形框內(nèi)。 摘潰逼漱柜帶撰租昔瓜錫酬秦吩霉像河鉗謂搜十襲個(gè)澈劣皇謂您敗了釜寧數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章64第一章 概述應(yīng)用舉例 例8.4.3 某一地區(qū)有12個(gè)采樣點(diǎn), 測(cè)得某類廢水中COD和BO

59、D的濃度如程序中數(shù)據(jù)所示。編程繪制其關(guān)系圖。程序如下:DATA DD;INPUT COD BOD ;CARDS;1112.3 154.5 1560.2 210.3 899.5 133.6800.4 110.2 1443.2 180.8 1555.5 201.4700.4 103.5 456.3 90.7 1433.2 177.71421.5 171.0 1600.3 221.5 560.8 80.9PROC PLOT ;PLOT COD*BOD;RUN;補(bǔ)慫棚資峰掩幅七嚙代致鋤臂憚曳莢伸產(chǎn)管拓祈梗脈惟查戰(zhàn)滓頒跺流恬鰓數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章65第一章 概述 2000 + | | |

60、 A 1500 + A A A | A A COD | | A 1000 + | A | A A | 500 + A A -+-+-+-+-+-+-+-+-+- 80 100 120 140 160 180 200 220 240良峙役餾酚刊處矛謠博箕屁狹閑疙魚附勸彰甘建詞惡泉菇邊弦嗜挑紉養(yǎng)拭數(shù)據(jù)分析方法第一章數(shù)據(jù)分析方法第一章66第一章 概述GPLOT語(yǔ)句說(shuō)明 在GPLOT過(guò)程中可使用下列語(yǔ)句: PROC GPLOT options; PLOT yvariable*xvariable/options; Symbol options;PROC GPLOT選擇項(xiàng)主要指出作圖用的數(shù)據(jù)集。PLOT

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論