




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)分析實(shí)務(wù)與案例實(shí)驗(yàn)教學(xué)練習(xí)手冊(cè)管理科學(xué)與工程學(xué)院實(shí)驗(yàn)一 SAS基本操作與數(shù)據(jù)集建立、瀏覽【實(shí)驗(yàn)?zāi)康摹空莆諉?dòng)SAS的方法,熟悉常用的操作界面;理解SAS數(shù)據(jù)庫(kù)、臨時(shí)|永久數(shù)據(jù)集等基本概念,熟練掌握建立數(shù)據(jù)集、瀏覽編輯數(shù)據(jù)集的基本使用方法?!緦?shí)驗(yàn)內(nèi)容】n 實(shí)驗(yàn)項(xiàng)目1輸入下列程序,運(yùn)行并保存在恰當(dāng)?shù)奈募A中:data tmp;input name$ birthday date9. score1 score2 score3 wage comma8.2 percent;cards;zhangsanfen 02-oct-76 78 81 65 1,256.12 0.21lisi 18-jan-75
2、74 93 65 1,080.5 0.15wangwu 14,feb,74 88 90 95 2,040. 0.3xuliu 30/jun/77 75 89 69 980.38 0.12proc print;format birthday monyy7. wage dollar4.2;run;上述程序建立了一個(gè)含有姓名、生日、項(xiàng)目13的考核分、工資、加薪比率這些字段的臨時(shí)數(shù)據(jù)集tmp。實(shí)驗(yàn)指導(dǎo)有關(guān)知識(shí)SAS主界面中有幾個(gè)常用的工作窗口:“編輯窗口”用于錄入、編輯程序;“日志窗口”用于顯示SAS系統(tǒng)運(yùn)行信息;“輸出窗口”用于顯示運(yùn)行SAS程序產(chǎn)生的文字輸出結(jié)果;。SAS主界面上有幾個(gè)常用的菜單:
3、有關(guān)文件操作的功能都組織在“文件菜單”中,SAS程序的提交運(yùn)行、已運(yùn)行過(guò)程序在編輯窗口的重新顯示等功能組織在“運(yùn)行菜單”中;。n 實(shí)驗(yàn)項(xiàng)目2。試用編程方法和菜單|工具條方式分別建立用戶(hù)數(shù)據(jù)庫(kù)MyLib和MySas。實(shí)驗(yàn)指導(dǎo)有關(guān)知識(shí)SAS主界面中工具條上有“創(chuàng)建新的數(shù)據(jù)庫(kù)”工具圖標(biāo),用于指定“庫(kù)標(biāo)識(shí)”與實(shí)際文件夾之間關(guān)聯(lián)以創(chuàng)建一個(gè)邏輯數(shù)據(jù)庫(kù)。用libname語(yǔ)句可以創(chuàng)建、取消邏輯數(shù)據(jù)庫(kù)。LIBNAME語(yǔ)句的一般用法為:libname 數(shù)據(jù)庫(kù)名 引擎 庫(kù)位置;libname 數(shù)據(jù)庫(kù)名 (庫(kù)位置1 庫(kù)位置2 );庫(kù)位置通常是目錄的全路徑文件名表示;引擎為讀寫(xiě)數(shù)據(jù)的格式說(shuō)明,如v8,v6,xport等
4、。n 實(shí)驗(yàn)項(xiàng)目3。有10位同學(xué)的名字、年齡、體重、身高數(shù)據(jù)如下表所示; 試用多種手段將這些數(shù)據(jù)新建為一個(gè)存放在MyLib庫(kù)下的health永久數(shù)據(jù)集。health數(shù)據(jù)集的內(nèi)容NameAgeWeightHeightTom1040165Mike1142160Jack1046162Brown1041172Lucy1039155Gup1138166Lee946182Mary1039159Kate1137155Vencent1040160將上述程序輸入編輯窗口并運(yùn)行,觀(guān)察輸出結(jié)果和日志窗口中的內(nèi)容。實(shí)驗(yàn)指導(dǎo)有關(guān)知識(shí)建立SAS數(shù)據(jù)集方法有兩大類(lèi):一類(lèi)是批處理式的,即用編程方法等建立數(shù)據(jù)集;另一類(lèi)是交互式的
5、,如在viewtable窗、Analyist、INSIGHT等窗口中,交互錄入數(shù)據(jù)。n 實(shí)驗(yàn)項(xiàng)目4。記事本stock.txt中存放有code(證券代碼)、name (證券名稱(chēng))、scale (流通盤(pán))、EPS (每股收益)、share (投資組合中所占份額)、price (價(jià)格)的數(shù)據(jù)(以空格分隔),將其讀入到SAS 臨時(shí)數(shù)據(jù)集stock中。實(shí)驗(yàn)指導(dǎo)有關(guān)知識(shí)SAS數(shù)據(jù)步編程的基本結(jié)構(gòu)為:data 數(shù)據(jù)集名;infile 文本格式數(shù)據(jù)的路徑文件名;input 變量名表;run;data 數(shù)據(jù)集名;input 變量名表;cards;原始數(shù)據(jù)源run;結(jié)構(gòu)1結(jié)構(gòu)2input語(yǔ)句用于建立數(shù)據(jù)集的變量并
6、從源數(shù)據(jù)中讀入變量值;若建立的變量為字符型,則在變量名后帶上美圓號(hào)$。n 實(shí)驗(yàn)項(xiàng)目5試著將SAS數(shù)據(jù)集stock中的數(shù)據(jù)導(dǎo)出到Excel 表格stock.xls中。實(shí)驗(yàn)指導(dǎo)有關(guān)知識(shí)在FILE菜單中的IMPORT DATA和EXPORT DATA子菜單可實(shí)現(xiàn)一些常見(jiàn)數(shù)據(jù)格式的數(shù)據(jù)文件與SAS數(shù)據(jù)集之間的轉(zhuǎn)換。實(shí)驗(yàn)練習(xí)二 通過(guò)編程建立SAS數(shù)據(jù)集(1)【實(shí)驗(yàn)?zāi)康摹炕菊莆站幊探AS數(shù)據(jù)集的方法,熟練運(yùn)用input語(yǔ)句的4種基本輸入模式以及混合模式?!緦?shí)驗(yàn)內(nèi)容】n 實(shí)驗(yàn)項(xiàng)目1。有一個(gè)文本格式數(shù)據(jù)文件ex21.dat,其每行數(shù)據(jù)中含有工號(hào)(id)占前5位、姓名(Name)從第7-14位、部門(mén)號(hào)(d
7、ep)占據(jù)第1-2位、體重 (weight)占據(jù)第16-19位,其部分?jǐn)?shù)據(jù)如下:13011 zhangsan 52.802021 wangwuzi 64.310005 xuxiake 55.0試用列輸入模式將其讀入從而建立數(shù)據(jù)集dem21。實(shí)驗(yàn)指導(dǎo)有關(guān)知識(shí)對(duì)數(shù)據(jù)字段位置固定的源數(shù)據(jù),用input語(yǔ)句讀入數(shù)據(jù)時(shí),可按列模式輸入,其一般形式為:input 變量名1$ 開(kāi)始列數(shù)-結(jié)束列數(shù) 變量名2 ;n 實(shí)驗(yàn)項(xiàng)目2。有一個(gè)文本格式數(shù)據(jù)文件ex22.dat,其內(nèi)各行依次含有id (工號(hào))、birthday (生日)、marryday (結(jié)婚紀(jì)念日)、salaray (薪水)四變量,其部分?jǐn)?shù)據(jù)如下:10
8、0 07:31:68 31jul98 $21,456.20101 07/21/67 21jul97 $30,234.85102 05-22-66 22may96 $15,876.試用格式化輸入模式將其讀入從而建立數(shù)據(jù)集dem22。實(shí)驗(yàn)指導(dǎo)有關(guān)知識(shí)對(duì)數(shù)據(jù)字段位置固定的源數(shù)據(jù),也可以采用格式化的輸入模式更靈活地建立SAS數(shù)據(jù)集。一般形式:input 指針控制 變量名 輸入格式名 ;適用范圍:源文件中各變量所在位置必須是規(guī)則的(字段寬度固定);可用指針控制變量讀入的始點(diǎn),終點(diǎn)由輸入格式確定;每個(gè)變量按輸入格式讀入指定的長(zhǎng)度;該模式特點(diǎn)與列模式基本類(lèi)似,但可讀入多種格式的數(shù)值字段,尤其在輸入日期型數(shù)據(jù)
9、時(shí)應(yīng)使用該模式。n 實(shí)驗(yàn)項(xiàng)目3。有一個(gè)文本格式數(shù)據(jù)文件ex23.dat,其內(nèi)各行依次含有id (學(xué)號(hào))、name(姓名)、age (年齡)、score (成績(jī))四類(lèi)數(shù)據(jù),彼此間空格分隔,其部分?jǐn)?shù)據(jù)如下:021496001 張三豐 21 596012256021 司馬相如 22 612991034099 王小二 25 498試用列表輸入模式將數(shù)據(jù)讀入從而建立數(shù)據(jù)集dem23。實(shí)驗(yàn)指導(dǎo)有關(guān)知識(shí)對(duì)分隔符(通常為空格)固定的數(shù)據(jù)源,可以采用自由列表模式輸入數(shù)據(jù)。一般形式為:input 變量名$ ; /*變量長(zhǎng)度默認(rèn)8,超過(guò)會(huì)截?cái)?/其中,變量名指明數(shù)據(jù)集中要建立的變量,它們出現(xiàn)的順序必須與數(shù)據(jù)源中的數(shù)
10、據(jù)字段順序匹配。一般情況下,變量的長(zhǎng)度默認(rèn)為8個(gè)字節(jié),這對(duì)字符型變量而言,只能存放8個(gè)字符(4個(gè)漢字)。length語(yǔ)句可改變變量的長(zhǎng)度屬性,一般形式為:length 變量名表$ 長(zhǎng)度. ;另外,為突破變量的默認(rèn)長(zhǎng)度限制,也可以在列表輸入模式中還可以加入輸入格式修飾說(shuō)明,一般形式為:input 變量名:$ 輸入格式. ;n 實(shí)驗(yàn)項(xiàng)目4。通過(guò)DATA步內(nèi)編程來(lái)建立一個(gè)由姓名(name)、學(xué)號(hào)(id)、生日(birthday)、性別(sex)、總分(score)組成的SAS數(shù)據(jù)集,并輸出數(shù)據(jù)集。原始數(shù)據(jù)(不能改變其格式)部分如下:?jiǎn)瘫竟硖?84/09/01 601.8 id=001 sex=男龜
11、田次一郎 82/12/23 588.7 id=002 sex=男山本美智子 87/01/18 623.3 id=003 sex=女張美萍 85/04/30 589.6 id=018 sex=女王曉剛 84/09/11 578 id=021 sex=男楊英 82/11/19 587.9 id=034 sex=女實(shí)驗(yàn)指導(dǎo)有關(guān)知識(shí)當(dāng)源數(shù)據(jù)文件中的數(shù)據(jù)字段里包含字段名時(shí),往往需要采用命名模式輸入較為方便。一般形式為:INPUT 指針 變量名=$ . |;INPUT 變量名= $ 始列 -終列 .小數(shù)位 |;INPUT 指針 變量名=informat. |;對(duì)一些復(fù)雜的非標(biāo)準(zhǔn)的源數(shù)據(jù)文件,各數(shù)據(jù)字段需要
12、不同的讀入模式才能正確匹配,這時(shí)可在input語(yǔ)句中混合使用各種讀入模式。但注意,在混合模式中,命名模式必須出現(xiàn)在最后。n 實(shí)驗(yàn)項(xiàng)目5。上題中如要計(jì)算每人的年齡(age),應(yīng)如何修改程序?實(shí)驗(yàn)指導(dǎo)有關(guān)知識(shí)利用date()、time()等函數(shù)獲取系統(tǒng)日期和時(shí)間。例如:dt=date(); te=time();也能利用sysdate、systime系統(tǒng)宏變量獲取日期時(shí)間。例如:dd=&sysdated; tt=&systimet;用SAS函數(shù)INTCK(int,from,to)可以計(jì)算from到to兩個(gè)日期之間的間隔數(shù)int,當(dāng)int取“year”時(shí),則計(jì)算的是間隔年份。實(shí)驗(yàn)練習(xí)三 SAS數(shù)據(jù)步編
13、程建立數(shù)據(jù)集(2)【實(shí)驗(yàn)?zāi)康摹磕芫C合運(yùn)用數(shù)據(jù)步編程的各種輸入模式以及SAS函數(shù),較熟練地將非規(guī)則的原始數(shù)據(jù)、多種數(shù)據(jù)格式準(zhǔn)確地讀入SAS數(shù)據(jù)集;熟悉常用的SAS函數(shù),如系統(tǒng)日期時(shí)間函數(shù)、隨機(jī)數(shù)發(fā)生器函數(shù)、對(duì)數(shù)/指數(shù)/三角/求和/差分等數(shù)學(xué)函數(shù)?!緦?shí)驗(yàn)內(nèi)容】n 實(shí)驗(yàn)項(xiàng)目1。編輯程序計(jì)算1989 年5 月1 日(01MAY89d)與2000 年7 月1 日(01JUL00d)之間相隔的天數(shù),并輸出在日志窗中。實(shí)驗(yàn)指導(dǎo)有關(guān)知識(shí)用SAS函數(shù)INTCK(int,from,to)可以計(jì)算from到to兩個(gè)日期之間的間隔數(shù)int,當(dāng)int取“day”時(shí),則計(jì)算的是間隔天數(shù)。日期常數(shù)可用ddmmmyyd形式表
14、示,其中ddmmmyy是date7格式的數(shù)據(jù)。n 實(shí)驗(yàn)項(xiàng)目2。用金融函數(shù)(終值=compound(初值,.,復(fù)利率,期數(shù)); 復(fù)利率=compound(初值, 終值,.,期數(shù));)計(jì)算在1980年7月1日存入1000元,年利率為1.25%,到2000年7月1日的終值,并輸出在日志窗中;若要在20年內(nèi)獲得本利和共2000,則年復(fù)利率應(yīng)達(dá)到多少?實(shí)驗(yàn)指導(dǎo)有關(guān)知識(shí)用SAS金融函數(shù)compound 可以計(jì)算資金的終值或利率。一般使用格式為:終值=compound(初值,.,復(fù)利率,期數(shù)); 復(fù)利率=compound(初值, 終值,.,期數(shù));n 實(shí)驗(yàn)項(xiàng)目3。要建立一個(gè)含變量課程(course)、教師(
15、teacher)、學(xué)生(student)、學(xué)號(hào)(id)、成績(jī)(score)的數(shù)據(jù)集。根據(jù)原始數(shù)據(jù)的2種不同情況,請(qǐng)分別編程:Math LiMingWangFang 1501 95English ZhangJunGeMing 1543 89Chinese ChenHongHeFei 1628 84:Statistics YangHuiWangFang 1501 95GeMing 1543 89HeFei 1628 84。實(shí)驗(yàn)指導(dǎo)有關(guān)知識(shí)RETAIN語(yǔ)句使其中的變量為保留變量,即在數(shù)據(jù)步的每次循環(huán)時(shí),不被重新初始化。(有點(diǎn)類(lèi)似C中的靜態(tài)變量。) 使用格式:RETAIN 變量名1 初值1 變量2初值
16、2; 或: RETAIN 變量名表 (初值表);SAS數(shù)據(jù)步循環(huán)執(zhí)行的次數(shù)被動(dòng)態(tài)地保存在SAS預(yù)定義的變量 _n_ 中。使用if語(yǔ)句能實(shí)現(xiàn)有條件的執(zhí)行某些SAS語(yǔ)句,一般使用形式為:IF 表達(dá)式 THEN 語(yǔ)句1;ELSE 語(yǔ)句2;注意:如果THEN或ELSE后需要一組語(yǔ)句時(shí),可放在“DO;”和“END;”語(yǔ)句之間。算法思路(僅供參考,不是唯一的方法)第一種情況:在數(shù)據(jù)步內(nèi)連續(xù)用兩個(gè)input語(yǔ)句即可。第二種情況:在數(shù)據(jù)步內(nèi)設(shè)置course、teacher變量為保留變量;首先僅當(dāng)數(shù)據(jù)步循環(huán)在第一輪執(zhí)行時(shí),用input語(yǔ)句讀入course、teacher的數(shù)據(jù);隨后對(duì)數(shù)據(jù)步每次循環(huán)都用input
17、語(yǔ)句讀入student、id、score的數(shù)據(jù)。n 實(shí)驗(yàn)項(xiàng)目4。使用隨機(jī)數(shù)函數(shù)生成服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)數(shù)100個(gè),存放在數(shù)據(jù)集Norm內(nèi)。實(shí)驗(yàn)指導(dǎo)有關(guān)知識(shí)SAS函數(shù)rannor(0)返回服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)數(shù)。n 實(shí)驗(yàn)項(xiàng)目5。在外部數(shù)據(jù)文件consume.dat(純文本格式)中存放有A、B兩市郊區(qū)若干期的人均消費(fèi)額的數(shù)據(jù),具體內(nèi)容如下(注意:原文一字不差):Acity 3186 2775 1913 1536 2318 2254 1948 2131 3261 2066 3389 1961 2468 1853 2411 1864 1908 2524 2816 1668Bcity 994 136
18、2 1176 1525 1441 1077 1847 1990 1221 862 1045 1379 1128 1182 3124 1769 2130 1096 1926 1408試用數(shù)據(jù)步編程建立變量為“城市名稱(chēng)(city)”、“人均消費(fèi)(consume)”的SAS數(shù)據(jù)集。實(shí)驗(yàn)指導(dǎo)有關(guān)知識(shí)同【項(xiàng)目3】。算法思路(僅供參考,不是唯一的方法)在數(shù)據(jù)步循環(huán)內(nèi),首先用input讀入臨時(shí)變量tmp的值;設(shè)置保留變量city;給變量consume賦初值0;接著判斷tmp的值是否為Acity 或Bcity,如是則令city=tmp,如不是,則令consume=tmp,并將PDV緩沖器的內(nèi)容輸出到數(shù)據(jù)集而成
19、為一條記錄。n 實(shí)驗(yàn)項(xiàng)目6。用下列程序可建立某班學(xué)生學(xué)號(hào)num、班別代號(hào)code的數(shù)據(jù)集:data chance;input num ;code=A01;cards;1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 2526 2728 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50proc print noobs;run;現(xiàn)在想在該班上以0.1的概率隨機(jī)選代表參加校學(xué)代會(huì),請(qǐng)?jiān)O(shè)法修改上述程序,進(jìn)行隨機(jī)挑選,并使數(shù)據(jù)集chance中再增加
20、一個(gè)列變量存放每人被挑選的結(jié)果。實(shí)驗(yàn)指導(dǎo)有關(guān)知識(shí)SAS函數(shù)ranuni(0)將返回服從0,1均勻分布的隨機(jī)數(shù)(模擬服從0,1均勻分布的隨機(jī)變量)。若XU0,1(0,1均勻分布)則PX0.1=0.1,即事件“ranuni(0)260的觀(guān)測(cè)提取出來(lái),生成新的數(shù)據(jù)集tmp。實(shí)驗(yàn)指導(dǎo)有關(guān)知識(shí)用數(shù)據(jù)集選項(xiàng)(數(shù)據(jù)集名后圓括號(hào)內(nèi)的選項(xiàng))firstobs=n obs=m可以從數(shù)據(jù)集中挑選出第n條到第m條記錄供數(shù)據(jù)步處理。用if語(yǔ)句、where語(yǔ)句可對(duì)記錄進(jìn)行條件篩選。n 實(shí)驗(yàn)項(xiàng)目2。在上題生成的數(shù)據(jù)集tmp中刪除變量DATE中年份為八十年代的觀(guān)測(cè),以及刪除變量ELECTRIC。實(shí)驗(yàn)指導(dǎo)有關(guān)知識(shí)可用數(shù)據(jù)集選項(xiàng)D
21、ROP=變量名表、KEEP=變量名表來(lái)刪除或保留原有的一些變量,這樣的任務(wù)也可有drop和keep語(yǔ)句來(lái)實(shí)現(xiàn)。要?jiǎng)h除記錄可用delete語(yǔ)句。n 實(shí)驗(yàn)項(xiàng)目3。請(qǐng)用數(shù)據(jù)集fix中的數(shù)據(jù)去更新數(shù)據(jù)集xsfs(見(jiàn)實(shí)驗(yàn)四)。其中fix中數(shù)據(jù)為:950207李小麗21 500950106周緬21 640實(shí)驗(yàn)指導(dǎo)有關(guān)知識(shí)要用一個(gè)數(shù)據(jù)集的觀(guān)測(cè)值對(duì)另一個(gè)數(shù)據(jù)集進(jìn)行批量修改,可用數(shù)據(jù)步過(guò)程的UPDATE語(yǔ)句來(lái)完成。其語(yǔ)法格式為:UPDATE 主數(shù)據(jù)集 (IN=變量名) 修正數(shù)據(jù)集 (IN=變量名) (END=變量名);注意:要正確進(jìn)行批量修正,UPDATE通常總是與BY語(yǔ)句配合使用,因而預(yù)先應(yīng)將兩數(shù)據(jù)集排序。n
22、 實(shí)驗(yàn)項(xiàng)目4。請(qǐng)將數(shù)據(jù)集xsfs轉(zhuǎn)置為數(shù)據(jù)集tmp。實(shí)驗(yàn)指導(dǎo)有關(guān)知識(shí)利用TRANSPOSE過(guò)程可將SAS數(shù)據(jù)集轉(zhuǎn)置,使新數(shù)據(jù)集中的變量對(duì)應(yīng)原數(shù)據(jù)集的觀(guān)察,而新數(shù)據(jù)集的觀(guān)察對(duì)應(yīng)原數(shù)據(jù)集的變量。該過(guò)程通常的使用格式為:PROC TRANSPOSE 選項(xiàng);VAR 變量表;ID 變量;IDLABEL 變量;COPY 變量表;BY 變量表;RUN;n 實(shí)驗(yàn)項(xiàng)目5。在數(shù)據(jù)集student(變量:name,id,sex)、chengji(變量:id,kno,score)、kecheng(變量:kno,kname)中用SQL窗查詢(xún)滿(mǎn)足條件成績(jī)大于85分的學(xué)生姓名(name)、課程名(kname)、成績(jī)(sco
23、re)記錄數(shù)據(jù),并將查詢(xún)結(jié)果生成SAS數(shù)據(jù)集report。實(shí)驗(yàn)指導(dǎo)有關(guān)知識(shí)結(jié)構(gòu)化查詢(xún)語(yǔ)言SQL過(guò)程是一種在關(guān)系型數(shù)據(jù)庫(kù)中廣泛使用的標(biāo)準(zhǔn)查詢(xún)語(yǔ)言,SAS系統(tǒng)使用PROC SQL過(guò)程實(shí)現(xiàn)對(duì)SQL的支持。SQL過(guò)程的基本格式:PROC SQL 選項(xiàng)表; ALTER TABLE alter語(yǔ)句說(shuō)明項(xiàng); CREATE create語(yǔ)句說(shuō)明項(xiàng); DISCRIBE discribe語(yǔ)句說(shuō)明項(xiàng); DROP drop語(yǔ)句說(shuō)明項(xiàng); INSERT insert語(yǔ)句說(shuō)明項(xiàng); RESET 選項(xiàng)表; SELECT select語(yǔ)句說(shuō)明項(xiàng); UPDATE update語(yǔ)句說(shuō)明項(xiàng); VALIDATE validate語(yǔ)句說(shuō)明
24、項(xiàng); CONNECT TO DBMS名 AS 別名 選項(xiàng)表; DISCONNECT FROM DBMS名|別名; EXECUTE (SQL語(yǔ)句) BY DBMS名|別名;RUN;在SAS中,可以用查詢(xún)器來(lái)完成對(duì)數(shù)據(jù)集的SQL查詢(xún)操作,只要單擊菜單項(xiàng)“Tools= Query”即可打開(kāi)SQL查詢(xún)表窗口,進(jìn)行數(shù)據(jù)查詢(xún)。n 實(shí)驗(yàn)項(xiàng)目6。用SQL窗查找出GPA數(shù)據(jù)集中g(shù)pa大于5的所有記錄并且計(jì)算出它們的gpa的平均值。實(shí)驗(yàn)指導(dǎo)有關(guān)知識(shí)同項(xiàng)目5。實(shí)驗(yàn)六 聚類(lèi)分析【實(shí)驗(yàn)?zāi)康摹?.通過(guò)上機(jī)操作使學(xué)生掌握系統(tǒng)聚類(lèi)分析方法在SAS軟件中的實(shí)現(xiàn),熟悉系統(tǒng)聚類(lèi)的用途和操作方法,了解各種距離,能按要求將樣本進(jìn)行分類(lèi)
25、;2.要求學(xué)生重點(diǎn)掌握該方法的用途,能正確解釋軟件處理的結(jié)果,尤其是冰柱圖和樹(shù)形圖結(jié)果的解釋?zhuān)籲 實(shí)驗(yàn)項(xiàng)目1用CLUSTER過(guò)程和TREE過(guò)程進(jìn)行譜系聚類(lèi)有關(guān)知識(shí)聚類(lèi)分析又稱(chēng)群分析、點(diǎn)群分析,是定量研究分類(lèi)問(wèn)題的一種多元統(tǒng)計(jì)方法。聚類(lèi)分析的基本思想是認(rèn)為所研究的樣品或指標(biāo)之間存在著程度不同的相似性,于是根據(jù)一批樣品的多個(gè)觀(guān)測(cè)指標(biāo),找出能夠度量樣品或變量之間相似程度的統(tǒng)計(jì)量,并以此為依據(jù),采用某種聚類(lèi)法,將所有的樣品或變量分別聚合到不同的類(lèi)中,使同一類(lèi)中的個(gè)體有較大的相似性,不同類(lèi)中的個(gè)體差異較大。所以,聚類(lèi)分析依賴(lài)于對(duì)觀(guān)測(cè)間的接近程度(距離)或相似程度的理解,定義不同的距離量度和相似性量度就可
26、以產(chǎn)生不同的聚類(lèi)結(jié)果。SAS/STAT模塊中提供了譜系聚類(lèi)(CLUSTER)、快速聚類(lèi)(FASTCLUS)、變量聚類(lèi)(VARCLUS)等聚類(lèi)過(guò)程。我們重點(diǎn)要求掌握譜系聚類(lèi)法。譜系聚類(lèi)是一種逐次合并類(lèi)的方法,最后得到一個(gè)聚類(lèi)的二叉樹(shù)聚類(lèi)圖。其基本計(jì)算過(guò)程是,對(duì)于n個(gè)觀(guān)測(cè),先計(jì)算其兩兩的距離得到一個(gè)距離矩陣,然后把離得最近的兩個(gè)觀(guān)測(cè)合并為一類(lèi),于是我們現(xiàn)在只剩了n-1 個(gè)類(lèi)(每個(gè)單獨(dú)的未合并的觀(guān)測(cè)作為一個(gè)類(lèi))。計(jì)算這 n-1個(gè)類(lèi)兩兩之間的距離,找到離得最近的兩個(gè)類(lèi)將其合并,就只剩下了 n-2個(gè)類(lèi)直到剩下兩個(gè)類(lèi),把它們合并為一個(gè)類(lèi)為止。當(dāng)然,真的合并成一個(gè)類(lèi)就失去了聚類(lèi)的意義,所以上面的聚類(lèi)過(guò)程應(yīng)該
27、在某個(gè)類(lèi)水平數(shù)(即未合并的類(lèi)數(shù))停下來(lái),最終的類(lèi)數(shù)就是這些未合并的類(lèi)的個(gè)數(shù)。決定聚類(lèi)個(gè)數(shù)是一個(gè)很復(fù)雜的問(wèn)題。1.譜系聚類(lèi)類(lèi)數(shù)的確定譜系聚類(lèi)最終得到一個(gè)聚類(lèi)樹(shù)形圖,可以把所有觀(guān)測(cè)聚為一類(lèi)。到底應(yīng)該把觀(guān)測(cè)分為幾類(lèi)合適是一個(gè)比較難抉擇的問(wèn)題,因?yàn)榉诸?lèi)問(wèn)題本身就是沒(méi)有一定標(biāo)準(zhǔn)的,關(guān)于這一點(diǎn)實(shí)用多元統(tǒng)計(jì)分析(王學(xué)仁、王松桂,上海科技出版社)第十章給出了一個(gè)很好的例子,即撲克牌的分類(lèi)。我們可以把撲克牌按花色分類(lèi),按大小點(diǎn)分類(lèi),按橋牌的高花色低花色分類(lèi),等等。決定類(lèi)數(shù)的一些方法來(lái)自于統(tǒng)計(jì)的方差分析的思想,我們?cè)谶@里作一些介紹。(1)統(tǒng)計(jì)量 其中 為分類(lèi)數(shù)為 個(gè)類(lèi)時(shí)的總類(lèi)內(nèi)離差平方和, 為所有變量的總離差平方
28、和。 越大,說(shuō)明分為 個(gè)類(lèi)時(shí)每個(gè)類(lèi)內(nèi)的離差平方和都比較小,也就是分為 個(gè)類(lèi)是合適的。但是,顯然分類(lèi)越多,每個(gè)類(lèi)越小, 越大,所以我們只能取 使得 足夠大,但 本身比較小,而且 不再大幅度增加。 (2)半偏相關(guān) 在把類(lèi) 和類(lèi) 合并為下一水平的類(lèi) 時(shí),定義半偏相關(guān)半偏其中 為合并類(lèi)引起的類(lèi)內(nèi)離差平方和的增量,半偏相關(guān)越大,說(shuō)明這兩個(gè)類(lèi)越不應(yīng)該合并,所以如果由 類(lèi)合并為 類(lèi)時(shí)如果半偏相關(guān)很大就應(yīng)該取 類(lèi)。 (3)偽F統(tǒng)計(jì)量偽F統(tǒng)計(jì)量評(píng)價(jià)分為 個(gè)類(lèi)的效果。如果分為 個(gè)類(lèi)合理,則類(lèi)內(nèi)離差平方和(分母)應(yīng)該較小,類(lèi)間平方和(分子)相對(duì)較大。所以應(yīng)該取偽F統(tǒng)計(jì)量較大而類(lèi)數(shù)較小的聚類(lèi)水平。(4)偽 統(tǒng)計(jì)量用此
29、統(tǒng)計(jì)量評(píng)價(jià)合并類(lèi) 和類(lèi) 的效果,該值大說(shuō)明不應(yīng)合并這兩個(gè)類(lèi),所以應(yīng)該取合并前的水平。2.CLUSTER過(guò)程用法 由于在SAS系統(tǒng)中聚類(lèi)分析過(guò)程沒(méi)有現(xiàn)成的窗口操作,所以實(shí)現(xiàn)聚類(lèi)分析必須編寫(xiě)SAS程序。SAS/STAT模塊中的Cluster過(guò)程可實(shí)現(xiàn)系統(tǒng)聚類(lèi)分析,可調(diào)用Tree過(guò)程生成聚類(lèi)譜系圖。CLUSTER過(guò)程的一般格式為: PROC CLUSTER DATA=輸入數(shù)據(jù)集 METHOD=聚類(lèi)方法 選項(xiàng);VAR 聚類(lèi)用變量;COPY 復(fù)制變量;RUN;其中的VAR語(yǔ)句指定用來(lái)聚類(lèi)的變量。COPY語(yǔ)句把指定的變量復(fù)制到OUTTREE的數(shù)據(jù)集中。 PROC CLUSTER語(yǔ)句的主要選項(xiàng)有: (1)M
30、ETHOD=選項(xiàng),這是必須指定的,此選項(xiàng)決定我們要用的聚類(lèi)方法,主要由類(lèi)間距離定義決定。方法有AVERAGE、CENTROID、COMPLETE、SINGLE、DENSITY、WARD、EML、FLEXIBLE、MCQUITTY 、MEDIAN、TWOSTAGE等,其中DENSITY、TWOSTAGE等方法還要額外指定密度估計(jì)方法(K=、R= 或HYBRID)。 (2)DATA輸入數(shù)據(jù)集,可以是原始觀(guān)測(cè)數(shù)據(jù)集,也可以是距離矩陣數(shù)據(jù)集。 (3)OUTTREE=輸出數(shù)據(jù)集,把繪制譜系聚類(lèi)樹(shù)的信息輸出到一個(gè)數(shù)據(jù)集,可以用TREE過(guò)程調(diào)用此數(shù)據(jù)集繪圖樹(shù)形圖并實(shí)際分類(lèi)。 (4)STANDARD選項(xiàng),把變
31、量標(biāo)準(zhǔn)化為均值為0,標(biāo)準(zhǔn)差為1。 (5)PSEUDO選項(xiàng)和CCC選項(xiàng)。PSEUDO選項(xiàng)要求計(jì)算偽F和偽 統(tǒng)計(jì)量,CCC選項(xiàng)要求計(jì)算 、半偏 和CCC統(tǒng)計(jì)量。其中CCC統(tǒng)計(jì)量也是一種考察聚類(lèi)效果的統(tǒng)計(jì)量,CCC較大的聚類(lèi)水平是較好的。 3.TREE過(guò)程用法TREE過(guò)程可以把CLUSTER過(guò)程產(chǎn)生的OUTTREE數(shù)據(jù)集作為輸入數(shù)據(jù)集,畫(huà)出譜系聚類(lèi)的樹(shù)形圖,并按照用戶(hù)指定的聚類(lèi)水平(類(lèi)數(shù))產(chǎn)生分類(lèi)結(jié)果數(shù)據(jù)集。其一般格式如下: PROC TREE DATA數(shù)據(jù)集 OUT=輸出數(shù)據(jù)集 NCLUSTER=類(lèi)數(shù) 選項(xiàng); COPY 復(fù)制變量; RUN;其中COPY語(yǔ)句把輸入數(shù)據(jù)集中的變量復(fù)制到輸出數(shù)據(jù)集(實(shí)際
32、上這些變量也必須在CLUSTER 過(guò)程中用COPY語(yǔ)句復(fù)制到OUTTREE數(shù)據(jù)集)。PROC TREE語(yǔ)句的重要選項(xiàng)有:(1)DATA數(shù)據(jù)集,指定從CLUSTER過(guò)程生成的OUTTREE數(shù)據(jù)集作為輸入數(shù)據(jù)集。 (2)OUT數(shù)據(jù)集,指定包含最后分類(lèi)結(jié)果(每一個(gè)觀(guān)測(cè)屬于哪一類(lèi),用一個(gè)CLUSTER變量區(qū)分)的輸出數(shù)據(jù)集。 (3)NCLUSTERS選項(xiàng),由用戶(hù)指定最后把樣本觀(guān)測(cè)分為多少個(gè)類(lèi)(即聚類(lèi)水平)。 (4)HORIZONTAL,畫(huà)樹(shù)形圖時(shí)沿水平方向畫(huà),即繪制水平方向的樹(shù)形圖,系統(tǒng)默認(rèn)繪制垂直方向的樹(shù)形圖。【實(shí)驗(yàn)過(guò)程(步驟、程序)】以多元統(tǒng)計(jì)分析中一個(gè)經(jīng)典的數(shù)據(jù)作為例子,這是Fisher分析過(guò)的
33、鳶尾花數(shù)據(jù),有三種不同鳶尾花(Setosa、Versicolor、Virginica),種類(lèi)信息存入了變量SPECIES,并對(duì)每一種測(cè)量了50棵植株的花瓣長(zhǎng)(PETALLEN)、花瓣寬(PETALWID)、花萼長(zhǎng)(SEPALLEN)、花萼寬(SEPALWID)。這個(gè)數(shù)據(jù)已知分類(lèi),并不屬于聚類(lèi)分析的研究范圍。這里我們?yōu)榱耸纠傺b不知道樣本的分類(lèi)情況(既不知道類(lèi)數(shù)也不知道每一個(gè)觀(guān)測(cè)屬于的類(lèi)別),用SAS去進(jìn)行聚類(lèi)分析,如果得到的類(lèi)數(shù)和分類(lèi)結(jié)果符合真實(shí)的植物分類(lèi),我們就可以知道聚類(lèi)分析產(chǎn)生了好的結(jié)果。這里假定數(shù)據(jù)已輸入SASUSER.IRIS中(見(jiàn)系統(tǒng)幫助菜單的“Sample Programs |
34、 SAS/STAT | Documentation Example 3 from Proc Cluster”)。為了進(jìn)行譜系聚類(lèi)并產(chǎn)生幫助確定類(lèi)數(shù)的統(tǒng)計(jì)量,編寫(xiě)如下程序:proc cluster data=sasuser.iris method=ward outtree=otree pseudo ccc;var petallen petalwid sepallen sepalwid;copy species;run; 可以顯示如下的聚類(lèi)過(guò)程(節(jié)略): T Pseudo Pseudo i NCL -Clusters Joined- FREQ SPRSQ RSQ ERSQ CCC F t*2 e
35、149 OB16 OB76 2 0.000000 1.0000 . . . . 148 OB2 OB58 2 0.000007 1.0000 . . 1854.1 . T147 OB96 OB107 2 0.000007 1.0000 . . 1400.1 . T 146 OB89 OB113 2 0.000007 1.0000 . . 1253.1 . T 145 OB65 OB126 2 0.000007 1.0000 . . 1182.9 . T 25 CL50 OB57 7 0.000634 0.9824 0.973335 6.446 291.0 5.6 24 CL78 CL62 7
36、0.000742 0.9817 0.972254 6.430 293.5 9.8 23 CL68 CL38 9 0.000805 0.9809 0.971101 6.404 296.0 6.9 22 CL30 OB137 6 0.000896 0.9800 0.969868 6.352 298.3 5.1 21 CL70 CL33 4 0.000976 0.9790 0.968545 6.290 300.7 3.2 20 CL36 OB25 10 0.001087 0.9779 0.967119 6.206 302.9 9.8 19 CL40 CL22 19 0.001141 0.9768 0
37、.965579 6.146 306.1 7.7 18 CL25 CL39 10 0.001249 0.9755 0.963906 6.082 309.5 6.2 17 CL29 CL45 16 0.001351 0.9742 0.962081 6.026 313.5 8.2 16 CL34 CL32 15 0.001462 0.9727 0.960079 5.984 318.4 9.0 15 CL24 CL28 15 0.001641 0.9711 0.957871 5.929 323.7 9.8 14 CL21 CL53 7 0.001873 0.9692 0.955418 5.850 32
38、9.2 5.1 13 CL18 CL48 15 0.002271 0.9669 0.952670 5.690 333.8 8.9 12 CL16 CL23 24 0.002274 0.9647 0.949541 4.632 342.4 9.6 11 CL14 CL43 12 0.002500 0.9622 0.945886 4.675 353.3 5.8 10 CL26 CL20 22 0.002694 0.9595 0.941547 4.811 368.1 12.9 9 CL27 CL17 31 0.003060 0.9564 0.936296 5.018 386.6 17.8 8 CL35
39、 CL15 23 0.003095 0.9533 0.929791 5.443 414.1 13.8 7 CL10 CL47 26 0.005811 0.9475 0.921496 5.426 430.1 19.1 6 CL8 CL13 38 0.006042 0.9414 0.910514 5.806 463.1 16.3 5 CL9 CL19 50 0.010532 0.9309 0.895232 5.817 488.5 43.2 4 CL12 CL11 36 0.017245 0.9137 0.872331 3.987 515.1 41.0 3 CL6 CL7 64 0.030051 0.8836 0.826664 4.329 558.1 57.2 2 CL4 CL3 100 0.111026 0.7726 0.696871 3.833 502.8 115.6 1 CL5 CL2 150 0.772595 0.0000 0.000000 0.000 . 502.8偽F圖形 CCC圖形 偽圖形 半偏圖形 輸出結(jié)果列出了把150個(gè)觀(guān)測(cè)每次合并兩類(lèi),共合并149次的過(guò)程。NCL列指定了聚類(lèi)水平G (即這一步存在的單獨(dú)的類(lèi)數(shù))?!?Clusters Joined-”為兩列,指明這一步合并了哪兩個(gè)類(lèi)。其中OB
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 小班藝術(shù)活動(dòng)豐富孩子的創(chuàng)意計(jì)劃
- 倉(cāng)庫(kù)物流環(huán)節(jié)的協(xié)同管理計(jì)劃
- 中學(xué)教育改革計(jì)劃
- 醫(yī)保相關(guān)知識(shí)培訓(xùn)課件
- 貴州豐聯(lián)礦業(yè)有限公司普安縣久豐煤礦變更礦產(chǎn)資源綠色開(kāi)發(fā)利用方案(三合一)評(píng)審意見(jiàn)
- 《且末縣邦泰礦業(yè)投資有限公司新疆且末縣屈庫(kù)勒克東礦區(qū)金(銻)礦礦產(chǎn)資源開(kāi)發(fā)利用與生態(tài)保護(hù)修復(fù)方案》專(zhuān)家意見(jiàn)的認(rèn)定
- 《8 節(jié)日美食》(教學(xué)設(shè)計(jì))-2023-2024學(xué)年五年級(jí)下冊(cè)綜合實(shí)踐活動(dòng)皖教版
- 如何改善個(gè)人責(zé)任意識(shí)提升組織效率
- 第三單元第十三課《使用電子郵件和QQ》-教學(xué)設(shè)計(jì) 2023-2024學(xué)年粵教版(2019)初中信息技術(shù)七年級(jí)上冊(cè)
- 2025年粘土主題組合創(chuàng)意標(biāo)準(zhǔn)教案
- 中華人民共和國(guó)文物保護(hù)法學(xué)習(xí)課程PPT
- 中班健康《身體上的洞洞》課件
- 2023年國(guó)家漢辦(HSK)漢語(yǔ)水平考試四級(jí)考試真題
- ROE預(yù)算管理:培養(yǎng)經(jīng)營(yíng)干部
- 山西省中小學(xué)生轉(zhuǎn)學(xué)申請(qǐng)表及說(shuō)明、電子操作流程
- 工行全國(guó)地區(qū)碼
- 2021年八省聯(lián)考數(shù)學(xué)試卷
- 《景陽(yáng)岡》課本劇劇本
- qc小組活動(dòng)記錄
- Book Unit Learning Chinese Style的實(shí)用學(xué)習(xí)課件
- 益盟軟件使用說(shuō)明書(shū)
評(píng)論
0/150
提交評(píng)論