數(shù)據(jù)分析實(shí)驗(yàn)指導(dǎo)書(shū)_第1頁(yè)
數(shù)據(jù)分析實(shí)驗(yàn)指導(dǎo)書(shū)_第2頁(yè)
數(shù)據(jù)分析實(shí)驗(yàn)指導(dǎo)書(shū)_第3頁(yè)
數(shù)據(jù)分析實(shí)驗(yàn)指導(dǎo)書(shū)_第4頁(yè)
數(shù)據(jù)分析實(shí)驗(yàn)指導(dǎo)書(shū)_第5頁(yè)
已閱讀5頁(yè),還剩53頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

目錄實(shí)驗(yàn)一 描述性分析實(shí)驗(yàn)二 正態(tài)總體的均值檢驗(yàn)實(shí)驗(yàn)三 非參數(shù)檢驗(yàn)實(shí)驗(yàn)四 方差分析實(shí)驗(yàn)五 回歸分析實(shí)驗(yàn)六 判別、聚類(lèi)分析實(shí)驗(yàn)七 主成分分析實(shí)驗(yàn)八 因子分析實(shí)驗(yàn)一 描述性分析【實(shí)驗(yàn)?zāi)康摹空莆諗?shù)字特征的計(jì)算(A);2. 掌握相關(guān)矩陣計(jì)算(A)?!緦?shí)驗(yàn)原理】數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計(jì)方法對(duì)收集來(lái)的大量第一手資料和第二手資料進(jìn)行分析,以求最大化地開(kāi)發(fā)數(shù)據(jù)資料的功能,發(fā)揮數(shù)據(jù)的作用;是為了提取有用信息和形成結(jié)論而對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過(guò)程。要對(duì)數(shù)據(jù)進(jìn)行分析,當(dāng)然要分析數(shù)據(jù)中包含的主要信息,即要分析數(shù)據(jù)的主要特征,也就是說(shuō),要研究數(shù)據(jù)的數(shù)字特征。對(duì)于數(shù)據(jù)的數(shù)字特征,要分析數(shù)據(jù)的集中位置、分散程度。數(shù)據(jù)的分布是正態(tài)的還是偏態(tài)等。對(duì)于多元數(shù)據(jù),還要分析多元數(shù)據(jù)的各個(gè)分量之間的相關(guān)性等?!緦?shí)驗(yàn)項(xiàng)目設(shè)計(jì)】給定一組單變量數(shù)據(jù),分組計(jì)算均值、方差、Q1、Q3、偏度、峰度。給定一組多變量數(shù)據(jù),計(jì)算相關(guān)矩陣?!緦?shí)驗(yàn)內(nèi)容】一、單樣本的數(shù)字特征計(jì)算(習(xí)題1.4)從某商店的營(yíng)業(yè)日中隨機(jī)抽取12天,得日營(yíng)業(yè)額數(shù)據(jù)為(單位:萬(wàn)元):12.5,17.2,9.1,25.4,31.2,20,18.9,22.8,21.1,17.8,25.1,27.7試求樣本均值、樣本方差、樣本變異系數(shù)、樣本中位數(shù)、上樣本四分位數(shù)、下樣本四分位數(shù)、樣本四分位數(shù)間距和極差。1. 建數(shù)據(jù)集Datad4;Inputx@@;Cards;12.517.29.125.431.22018.922.821.117.825.127.7;Run;2. 使用“SAS/分析家”菜單打開(kāi)“分析家”界面。選擇SAS界面的級(jí)聯(lián)菜單:“解決方案”“分析”“分析家”。調(diào)出數(shù)據(jù)文件Work.D4。在界面的空白處,右鍵彈出菜單,選擇級(jí)聯(lián)菜單:“文件”“按SAS名稱(chēng)打開(kāi)”。依次選擇邏輯庫(kù)和文件對(duì)象,分別為“Work”、“D4”,單擊“確定”按鈕。確定分析方法。選擇界面上的級(jí)聯(lián)菜單:“統(tǒng)計(jì)”“描述性統(tǒng)計(jì)”“分布”輸送變量。首先選中變量“x”,然后單擊“Analyst”按鈕。即完成變量的輸送,確定變量“x”作為分析變量。單擊“OK”。得到輸出結(jié)果上述使用“分析家”的調(diào)用過(guò)程等價(jià)于程序調(diào)用univariate過(guò)程:procunivariatedata=d4;Varx;Run;3. 解答樣本均值mean= 樣本方差Variance=樣本變異系數(shù)CoeffVariation=樣本上四分位數(shù)75%Q3=樣本中位數(shù)Median=樣本下四分位數(shù)25%Q1=極差Range=樣本四分位數(shù)間距InterquartileRange=二、相關(guān)矩陣計(jì)算(例3.2.3)1. 對(duì)于給定EXCEL數(shù)據(jù)文件,導(dǎo)入數(shù)據(jù)建數(shù)據(jù)集e323.sas7bdat2. 使用SAS/INSIGHT菜單3. 輸出 實(shí)驗(yàn)二 正態(tài)總體的均值檢驗(yàn)【實(shí)驗(yàn)?zāi)康摹空莆諉握龖B(tài)總體樣本的均值檢驗(yàn)(B);掌握兩獨(dú)立組樣本(服從正態(tài)總體)進(jìn)行均值比較(A);掌握兩對(duì)照組樣本(服從正態(tài)總體)進(jìn)行均值比較(A);了解兩組樣本均值差的置信區(qū)間計(jì)算(C)?!緦?shí)驗(yàn)原理】單樣本總體均值的t檢驗(yàn)兩獨(dú)立組樣本總體的方差比較【實(shí)驗(yàn)項(xiàng)目設(shè)計(jì)】單個(gè)正態(tài)總體的均值檢驗(yàn);兩獨(dú)立組樣本(服從正態(tài)總體)進(jìn)行均值比較檢驗(yàn);兩對(duì)照組樣本(服從正態(tài)總體)進(jìn)行均值比較檢驗(yàn)?!緦?shí)驗(yàn)內(nèi)容】一、單個(gè)正態(tài)總體的均值檢驗(yàn)(習(xí)題1.4)從某商店的營(yíng)業(yè)日中隨機(jī)抽取12天,得日營(yíng)業(yè)額數(shù)據(jù)為(單位:萬(wàn)元):12.5,17.2,9.1,25.4,31.2,20,18.9,22.8,21.1,17.8,25.1,27.7試檢驗(yàn):μ0=10。1. 建數(shù)據(jù)集Datad4;Inputx@@;Cards;12.517.29.125.431.22018.922.821.117.825.127.7;Run;2. 使用“SAS/分析家”菜單打開(kāi)“分析家”界面。調(diào)出數(shù)據(jù)文件Work.D4。確定分析方法。選擇界面上的級(jí)聯(lián)菜單:“統(tǒng)計(jì)”“假設(shè)檢驗(yàn)”“均值的單樣本T檢驗(yàn)”輸送變量。確定變量“x”為分析變量。得到輸出結(jié)果3. 解答H0:μ0=10H1:μ0≠10檢驗(yàn)方法:t檢驗(yàn)統(tǒng)計(jì)量取值: t=____檢驗(yàn)p值=_______結(jié)論:拒絕/接受H0.兩獨(dú)立組樣本(服從正態(tài)總體)進(jìn)行均值比較(習(xí)題1.22)為比較甲、乙兩種安眠藥的療效,將20名患者分成兩組,每組10人,假定服藥后延長(zhǎng)的睡眠時(shí)間都近似服從正態(tài)分布且方差相等,測(cè)得其數(shù)據(jù)如下:1.9,0.8,1.1,0.1,-0.1,4.4,5.5,1.6,4.6,3.40.7,-1.6,-0.2,-1.2,-0.1,3.4,3.7,0.8,0,2試問(wèn)在顯著性水平a=0.05下檢驗(yàn)兩種安眠藥的療效有無(wú)顯著性差異,p值是多少?1. 建數(shù)據(jù)集前面的“分析家”界面不要關(guān)閉,切換到程序編輯窗口,輸入程序。Datad22;Inputxy;Cards;1.90.70.8-1.61.1-0.20.1-1.2-0.1-0.14.43.45.53.71.60.84.603.4 2;Run;2. 使用“SAS/分析家”菜單回到“分析家”界面,調(diào)出數(shù)據(jù)文件work.d22確定分析方法。選擇級(jí)聯(lián)菜單:“統(tǒng)計(jì)”“假設(shè)檢驗(yàn)”“均值的雙樣本T檢驗(yàn)”設(shè)置數(shù)據(jù)集work.d22中,各樣本分組數(shù)據(jù)對(duì)應(yīng)的變量個(gè)數(shù):“Twovariables”。輸送變量。將變量“x”輸送給“group1”,“y”輸送給“group2”,單擊“OK輸出結(jié)果如下涉及到兩獨(dú)立組的方差,繼續(xù)檢驗(yàn)兩組方差是否相等?;氐健胺治黾摇苯缑嫔?,選擇級(jí)聯(lián)菜單“統(tǒng)計(jì)”“假設(shè)檢驗(yàn)”“方差的雙樣本T檢驗(yàn)”輸送變量。將變量“x”輸送給“group1”,“y”輸送給“group2”,單擊“OK”輸出結(jié)果如下3. 解答H0:σ1=σ2H1:σ1≠σ2檢驗(yàn)方法:F檢驗(yàn)統(tǒng)計(jì)量取值:F=____檢驗(yàn)p值=_______結(jié)論:拒絕/接受H0.兩獨(dú)立組的方差是/否相等。H0:μ1=μ2H1:μ1≠μ2檢驗(yàn)方法:t檢驗(yàn)統(tǒng)計(jì)量取值:t=____檢驗(yàn)p值=_______結(jié)論:拒絕/接受H0.兩種安眠藥的療效有/無(wú)顯著性差異三、兩對(duì)照組樣本(服從正態(tài)總體)進(jìn)行均值比較(習(xí)題1.24)甲、乙兩種稻種分別播種在10塊試驗(yàn)田中,每塊試驗(yàn)田甲、乙稻種各種一半。假設(shè)同一塊田中兩種作物的產(chǎn)量之差服從正態(tài)分布?,F(xiàn)獲10塊田的成對(duì)產(chǎn)量如下表所示(單位:公斤),試問(wèn)兩種稻種產(chǎn)量有無(wú)顯著性差異(a=0.05),p值是多少?12345678910甲種140137136140145148140135144141乙種1351381251401281311301401311251. 建數(shù)據(jù)集Datad24;Inputxy@@;Cards;140 135 137 138 136 125 140 140 145 128148 131 140 130 135 140 144 131 141 125;Run;2. 使用“SAS/分析家”菜單回到“分析家”界面,調(diào)出數(shù)據(jù)文件work.d24確定分析方法。選擇級(jí)聯(lián)菜單:“統(tǒng)計(jì)”“假設(shè)檢驗(yàn)”“均值的雙樣本成對(duì)T檢驗(yàn)”輸送變量。設(shè)置各分組數(shù)據(jù)對(duì)應(yīng)的變量個(gè)數(shù):“Twovariables”,并輸送變量“x”“y”,單擊“OK”,得到輸出結(jié)果如下:3. 解答H0:μ1=μ2H1:μ1≠μ2檢驗(yàn)方法:t檢驗(yàn)統(tǒng)計(jì)量取值:t=____檢驗(yàn)p值=_______結(jié)論:拒絕/接受H0,兩種稻種產(chǎn)量有/無(wú)顯著性差異.實(shí)驗(yàn)三 非參數(shù)檢驗(yàn)【實(shí)驗(yàn)?zāi)康摹空莆湛ǚ綑z驗(yàn)(A);熟悉符合檢驗(yàn)、符號(hào)秩和檢驗(yàn)、秩和檢驗(yàn)?!緦?shí)驗(yàn)原理】非參數(shù)統(tǒng)計(jì)是統(tǒng)計(jì)分析的重要組成部分??墒桥c之很不相稱(chēng)的是它的理論發(fā)展遠(yuǎn)遠(yuǎn)不及參數(shù)檢驗(yàn)完善,因而比較完善的可供使用的方法也不多。在SAS中,非參數(shù)統(tǒng)計(jì)主要由UNIVARIATE過(guò)程、MEANS過(guò)程和NPAR1WAY過(guò)程來(lái)實(shí)現(xiàn),使用SAS的“分析家”系統(tǒng)可以方便地進(jìn)行界面操作?!緦?shí)驗(yàn)項(xiàng)目設(shè)計(jì)】對(duì)列聯(lián)表,檢驗(yàn)行變量與列變量的關(guān)聯(lián)性;給定一組未知總體的樣本數(shù)據(jù),檢驗(yàn)μ=μ0;給定兩組未知總體的樣本數(shù)據(jù),檢驗(yàn)μ1=μ2?!緦?shí)驗(yàn)內(nèi)容】一、對(duì)列聯(lián)表,檢驗(yàn)行變量與列變量的關(guān)聯(lián)性(習(xí)題4.7)下表為某藥治療感冒效果的3x3列表。療效\年齡 兒童 成年 老年 合計(jì)顯著 58 38 32 128一般 28 44 45 117較差 23 18 14 55合計(jì) 109 100 91 300試問(wèn):療效與年齡是否關(guān)聯(lián)(a=0.05)?1. 建數(shù)據(jù)集Datad0407;Doeffect='顯著','一般','較差'; Doage='兒童','成年','老年'; inputnum@@; output; end;end;Cards;58 38 32 28 44 45 23 18 14 ;Run;2. 使用“SAS/分析家”菜單打開(kāi)“分析家”界面。調(diào)出數(shù)據(jù)文件Work.D0407。確定分析方法。選擇界面上的級(jí)聯(lián)菜單:“統(tǒng)計(jì)”“表分析”得到列聯(lián)表的空白界面。輸送變量。選中變量“effect”,單擊“Row”按鈕;選中變量“age”,單擊“Column”按鈕;選中變量“num”,單擊“CellCounts”按鈕。完成變量輸送。顯示如下。選擇附加的統(tǒng)計(jì)方法。在列聯(lián)表分析(TableAnalysis)界面的右邊下角,點(diǎn)擊“statistics”按鈕,打開(kāi)選項(xiàng)設(shè)置頁(yè)。勾選“chi-squarestatistics”。如圖所示。單擊“OK”按鈕。值得一提的是,卡方檢驗(yàn)?zāi)J(rèn)使用近似計(jì)算,目的是為了節(jié)省時(shí)間。當(dāng)然也可以勾選中間的“Exacttest”選項(xiàng)卡,來(lái)指定精確檢驗(yàn),只是某些時(shí)候的運(yùn)行時(shí)間無(wú)法控制。得到輸出結(jié)果3. 解答H0:療效與年齡獨(dú)立。檢驗(yàn)統(tǒng)計(jì)量及其分布:統(tǒng)計(jì)量=檢驗(yàn)p值=結(jié)論:二、對(duì)未知總體的一組樣本數(shù)據(jù),進(jìn)行均值的非參數(shù)檢驗(yàn)(H0:μ=μ0)(習(xí)題4.9)從某企業(yè)中隨機(jī)抽取12名職工,調(diào)查他們的年抽入,數(shù)據(jù)如下(單位:萬(wàn)元):5.42 5.65 5.64 5.13 4.69 5.13 4.81 4.37 5.82 6.31 4.78 5.52試用符號(hào)檢驗(yàn)對(duì)該企業(yè)職工年收入的中位數(shù)是否顯著超過(guò)了5萬(wàn)元進(jìn)行符號(hào)檢驗(yàn)(a=0.05)。建數(shù)據(jù)集前面的“分析家”界面不要關(guān)閉,切換到程序窗口,運(yùn)行以下程序。Datad0409;inputincome@@;d=income-5;cards;5.42 5.65 5.64 5.13 4.69 5.13 4.81 4.37 5.82 6.31 4.78 5.52;run;2. 使用“SAS/分析家”菜單在未關(guān)閉的“分析家”界面中,調(diào)出數(shù)據(jù)文件Work.D0409。打開(kāi)對(duì)應(yīng)于univariate程序功能的菜單分析界面。選擇界面上的級(jí)聯(lián)菜單:“統(tǒng)計(jì)”“描述性統(tǒng)計(jì)”“分布”輸送差值變量“d”。選中差值變量“d”,單擊Analysis框。單擊“OK”。得到輸出結(jié)果。3. 解答H0:m=5H1:m>5①符號(hào)檢驗(yàn)檢驗(yàn)統(tǒng)計(jì)量及其分布:統(tǒng)計(jì)量s+=2+E(S+)=8 檢驗(yàn)p值=0.3877/2=0.194(單邊檢驗(yàn),故概率除以2)結(jié)論:接受H0。②符號(hào)秩檢驗(yàn)(前提:假定總體的分布式對(duì)稱(chēng)的)檢驗(yàn)統(tǒng)計(jì)量代表差值變量d中取值為正的數(shù)據(jù)項(xiàng)秩總和。統(tǒng)計(jì)量T+=19+E(T+)=19+12(12+1)/4=19+39=58,檢驗(yàn)p值=0.1455/2=0.073(單邊檢驗(yàn),故概率除以2)結(jié)論:接受H0。三、兩組未知總體的樣本數(shù)據(jù),非參數(shù)檢驗(yàn)總體均值(習(xí)題4.12)在甲、乙兩臺(tái)同型梳棉機(jī)上,進(jìn)行纖維轉(zhuǎn)移率試驗(yàn),除機(jī)臺(tái)外其他工藝條件都相同,經(jīng)試驗(yàn)得兩個(gè)容量不同的纖維轉(zhuǎn)移率樣本數(shù)據(jù)如下表:甲8.6359.0719.2318.7979.8710.325乙7.3427.4368.038.9469.1316.8238.9658.6968.345試用秩和檢驗(yàn),對(duì)纖維轉(zhuǎn)移率而言,這兩臺(tái)機(jī)器是否存在顯著的機(jī)臺(tái)差異(a=0.05).建數(shù)據(jù)集前面的“分析家”界面不要關(guān)閉,切換到程序窗口,運(yùn)行以下程序。datad04012;inputx class$;cards;8.635 甲9.071 甲9.231 甲8.797 甲9.87 甲10.325 甲7.342 乙7.436 乙8.03 乙8.946 乙9.131 乙6.823 乙8.965 乙8.696 乙8.345 乙;run;運(yùn)行npar1way過(guò)程procnpar1waydata=d04012wilcoxon;classc;varx;run;3.得到輸出結(jié)果4.解答H0:兩臺(tái)機(jī)器沒(méi)有顯著的差異(即μ1=μ2) H1:兩臺(tái)機(jī)器存在顯著的差異(即μ1≠μ2)T=67,(統(tǒng)計(jì)量T代表甲臺(tái)機(jī)器的樣本數(shù)據(jù)在混合數(shù)據(jù)中的秩和),檢驗(yàn)p值=0.0292(雙邊檢驗(yàn),故選用z檢驗(yàn)的“Two–sidedPr>|Z|”),拒絕H0,認(rèn)為兩臺(tái)機(jī)器存在顯著差異?!舅伎碱}】問(wèn)題1說(shuō)出非參數(shù)檢驗(yàn)和參數(shù)檢驗(yàn)的區(qū)別。問(wèn)題2說(shuō)出非參數(shù)檢驗(yàn)中,都有哪幾類(lèi)問(wèn)題有需要以引入差值變量d。實(shí)驗(yàn)四 方差分析【實(shí)驗(yàn)?zāi)康摹空莆諉我蛩胤讲罘治?、多重比較(A);掌握兩因素方差分析算(A)。【實(shí)驗(yàn)原理】方差分析(analysisofvariance,簡(jiǎn)稱(chēng)ANOVA)是用來(lái)對(duì)多個(gè)總體的均值作比較檢驗(yàn)的統(tǒng)計(jì)方法。在進(jìn)行單因素方差分析時(shí),如果檢驗(yàn)拒絕了原假設(shè),則我們有時(shí)還需進(jìn)一步檢驗(yàn)到底哪些均值之間存在差異,把同時(shí)比較任意兩個(gè)水平下的總體均值有無(wú)顯著差異的問(wèn)題稱(chēng)為多重比較問(wèn)題。常用的有費(fèi)希爾LSD法和邦弗倫尼法?!緦?shí)驗(yàn)項(xiàng)目設(shè)計(jì)】進(jìn)行單變量方差分析;考慮交互作用進(jìn)行雙因素方差分析;不考慮交互作用進(jìn)行雙因素方差分析。【實(shí)驗(yàn)內(nèi)容】一、單因素方差分析&多重比較(例5.1.1)為檢驗(yàn)甲、乙、丙三種型號(hào)的機(jī)器混合一批原料所需平均時(shí)間是否相同,某管理人員得到了混合原料所需時(shí)間的如表5.1.1所示的數(shù)據(jù)。機(jī)器 所 需 時(shí) 間甲 21 25 22 26 23 22乙 27 23 25 24 27 26丙 19 22 21 25 21 20(例5.2.1)在例5.1.1中,k=3,n1=n2=n3=6,n=18,并假定在三個(gè)水平下的總體分布皆為正態(tài),且方差相等。試給出方差分析表(參考教材124頁(yè))并進(jìn)行多重比較。1. 建數(shù)據(jù)集/*引入組別變量a和數(shù)值變量x,建數(shù)據(jù)集c0501*/Datac0501;inputx@@;if_n_<7thena=’甲’;elseif_n_<13thena=’乙’;elsea=’丙’;cards;21 25 22 26 23 2227 23 25 24 27 2619 22 21 25 21 20;run;2. 使用“SAS/分析家”菜單打開(kāi)“分析家”界面,調(diào)出數(shù)據(jù)文件Work.C0501。打開(kāi)單因素方差分析界面。/*SAS\ANALYST菜單:“統(tǒng)計(jì)”“方差分析(A)”“單向方差分析(O)”*/輸送變量。得到輸出結(jié)果。驗(yàn)證:SST=SSA+SSE3. 進(jìn)行多重比較打開(kāi)單因素方差分析界面/*SAS\ANALYST菜單:“統(tǒng)計(jì)”“方差分析(A)”“單向方差分析(O)”*/單擊界面上的“Means”按鈕單擊選項(xiàng)卡“ComparisonMethod”右側(cè)的黑色下箭頭,彈出的列表中選擇合適的方法。使用Fisher’sLSD法的多重比較結(jié)果(參考教材126頁(yè))使用邦弗倫尼法的多重比較結(jié)果(參考教材127頁(yè)) 二、考慮交互作用的雙因素方差分析(例5.3.1) 為研究影響合成纖維抗斷強(qiáng)度的因素,表5.3.1記錄了三位操作員用同一批產(chǎn)品的纖維在四臺(tái)生產(chǎn)機(jī)器上試驗(yàn)的數(shù)據(jù)。機(jī)器 甲 乙 丙 丁操作員1 109,110 110,115 108,109 110,1082 110,112 110,111 111,109 114,1123 116,114 112,115 114,119 120,117(例5.3.21. 建數(shù)據(jù)集/*引入因素變量A、B和數(shù)值變量x,建數(shù)據(jù)集c0502*/Datac0502;DoA='p1','p2','p3';DoB='甲','乙','丙','丁';Dor=1,2; Inputx@@; Output;End;end;end;cards;109110 110115 108109 110108110112 110111 111109 114112116114 112115 114119 120117;Run;2. 使用“SAS/分析家”菜單打開(kāi)“分析家”界面,調(diào)出數(shù)據(jù)文件Work.C0502。打開(kāi)雙因素方差分析界面。/*SAS\ANALYST菜單:“統(tǒng)計(jì)”“方差分析(A)”“因子方差分析(O)”*/輸送雙因素變量A、B和數(shù)值變量x。保留窗口。輸送交互因素A×B。單擊Model按鈕,彈出如下頁(yè)面。同時(shí)選中左側(cè)變量A、B,單擊cross按鈕,完成交互因素的添加。單擊“OK”按鈕。得到輸出結(jié)果。三、不考慮交互作用的雙因素方差分析(例5.3.3)為了考察壓強(qiáng)與溫度對(duì)某種粘合劑抗剪強(qiáng)度的影響,選定壓強(qiáng)(單位:10?5牛頓/毫米2)的四個(gè)水平和溫度(單位:℃)的三個(gè)水平作試驗(yàn),每個(gè)水平組合下作一次試驗(yàn),結(jié)果見(jiàn)表5.3.6。假定這兩個(gè)因素?zé)o交互作用,且在各水平組合下粘合劑的抗剪強(qiáng)度均服從方差相同的正態(tài)分布,試檢驗(yàn)兩個(gè)因素的效應(yīng)是否顯著(α=0.05)。

溫度(B)130140150yi?壓強(qiáng)(A)

609.6011.289.0029.88659.6910.109.5729.36708.4311.019.0328.47759.9810.449.8030.22y?j37.742.8337.4y??=117.93試給出方差分析表(參考教材136頁(yè))1. 建數(shù)據(jù)集/*引入因素變量A、B和數(shù)值變量x,建數(shù)據(jù)集c0503*/Datac0503;DoA=60,65,70,75;DoB=130,140,150; Inputx@@; Output;End;end;cards;9.60 11.28 9.009.69 10.10 9.578.43 11.01 9.039.98 10.44 9.80;Run;2. 使用“SAS/分析家”菜單同上,只是省去添加交互因素這一步驟。實(shí)驗(yàn)五 回歸分析【實(shí)驗(yàn)?zāi)康摹空莆斩嘣€性回歸方程的擬合、檢驗(yàn)(A)?!緦?shí)驗(yàn)原理】客觀世界中事物之間的關(guān)系是各種各樣的。從定量的角度看,主要有兩種:一是確定性關(guān)系,如重力加速度,即自由落體的距離與時(shí)間:S=0.5gt2;另一類(lèi)是不確定性關(guān)系,即相關(guān)關(guān)系。由于事物的變化常常受多種因素的影響,導(dǎo)致了事物變化的不確定性。人們常用相關(guān)系數(shù)來(lái)描述事物之間的這種不確定性程度。但對(duì)于如何通過(guò)一個(gè)事物的值去估計(jì)和預(yù)測(cè)另一個(gè)事物的發(fā)展變化,相關(guān)系數(shù)卻無(wú)能為力。但是,通過(guò)大量的實(shí)際調(diào)查,可以總結(jié)出它們之間的關(guān)系,回歸分析即是對(duì)這種關(guān)系的描述。“回歸”一詞最早由英國(guó)統(tǒng)計(jì)學(xué)家高爾頓(FrancisGalton)在19世紀(jì)末期研究孩子的身高和他們父母身高關(guān)系時(shí)提出。研究發(fā)現(xiàn),孩子的身高總是趨于他們父母身高的平均值。孩子的身高,比身材矮的父母要高,比身材高的父母要矮,這種趨于中間值的趨勢(shì)稱(chēng)作“回歸效應(yīng)”,而他提出的這種研究?jī)蓚€(gè)數(shù)值變量關(guān)系的方法稱(chēng)作回歸分析。回歸分析是借助數(shù)學(xué)模型對(duì)客觀世界所存在的事物間的不確定關(guān)系的一種數(shù)量化描寫(xiě),即通過(guò)一個(gè)或幾個(gè)變量的變化去解釋另一變量的變化。目的在于對(duì)相關(guān)隨機(jī)變量進(jìn)行估計(jì)、預(yù)測(cè)和控制,確定變這些量之間數(shù)量關(guān)系的可能形式,并用一個(gè)數(shù)學(xué)模型來(lái)表示?;貧w分析中,自變量(independentvariable)也稱(chēng)為解釋變量,給定的或可以控制的、用來(lái)解釋、預(yù)測(cè)因變量的變量;因變量(dependentvariable)也稱(chēng)為響應(yīng)變量,由自變量來(lái)解釋其變化的變量。只有一個(gè)自變量的線性回歸叫一元線性回歸,也叫簡(jiǎn)單回歸。與方差分析不同,在回歸分析中,“元”是指自變量,而不是指因變量?!緦?shí)驗(yàn)項(xiàng)目設(shè)計(jì)】給定樣本數(shù)據(jù),進(jìn)行一元線性回歸擬合、檢驗(yàn);給定樣本數(shù)據(jù),進(jìn)行多元線性回歸擬合、檢驗(yàn)。帶虛擬變量(啞元變量)的線性回歸?!緦?shí)驗(yàn)內(nèi)容】一、一元回歸分析(習(xí)題5.2)關(guān)于汽車(chē)輪胎的等級(jí)和承載能力的一個(gè)樣本統(tǒng)計(jì)資料如下: 序號(hào)123456789承載能力y85310471135120112351356138914332039輪胎等級(jí)x7582858788919293105(1)用汽車(chē)輪胎的等級(jí)作自變量,畫(huà)出這些數(shù)據(jù)的散點(diǎn)圖;(2)利用最小二乘法,求出估計(jì)回歸函數(shù);1. 建數(shù)據(jù)集Datad0604;Inputyx1@@;Cards;補(bǔ)充;Run;2. 使用“SAS/分析家”菜單打開(kāi)“分析家”界面。調(diào)出數(shù)據(jù)文件Work.D0602。繪制散點(diǎn)圖。單擊工具欄“散點(diǎn)圖”圖標(biāo)彈出散點(diǎn)圖頁(yè)面:(2.1)輸送變量。(2.2)設(shè)置星號(hào)為散點(diǎn)顯示符號(hào)。單擊“display”按鈕,彈出頁(yè)面如下,單擊黑色下箭頭,彈出列表中單擊“star”。單擊“OK”返回。擬合回歸函數(shù)。步驟同實(shí)驗(yàn)內(nèi)容二。略。二、多元回歸分析(習(xí)題6.4)關(guān)下表是30家計(jì)算機(jī)硬件設(shè)備公司的每股價(jià)格(y)、每股賬面價(jià)值(x1)和每股資本收益率(x2)的統(tǒng)計(jì)資料:yx1x2yx1x212.314.94-49.728.756.3515.121.759.46-71.830.53.7811.8114.9517.227.1912.599.83.254.335.116.313.6428.365.59.5820.811.883.56435.948.4613.33310.0316.582.062.3374.528.1910.643.3157.35-11.927.449.12-4.34322.4-12.915.136.1516.114.254.1118.855.522.3811.116.256.8310.7486.426.212.889.13934.249.498.739.136.0728.838.9410.2514.361.514.1418.711.310.681.6101.3820.1229.914.633.4824.3試求估計(jì)回歸函數(shù);檢驗(yàn)H0:0=1=0(a=0.05);試求復(fù)判定系數(shù)R2;試求0和1的95%置信區(qū)間;對(duì)于一家每股賬面價(jià)值x1=9.48和每股資本收益率x2=17.5的計(jì)算機(jī),硬件設(shè)備公司,試對(duì)它的平均每股價(jià)格作出點(diǎn)估計(jì)并對(duì)其每股價(jià)格作出點(diǎn)預(yù)測(cè);在(5)中,試求平均每股價(jià)格的95%置信區(qū)間和每股價(jià)格的0.95置信區(qū)間.1. 建數(shù)據(jù)集Datad0604;Inputyx1x2@@;Cards;12.31 4.94 -49.7 28.75 6.35 15.121.75 9.46 -71.8 30.5 3.78 11.811 4.95 17.2 27.19 12.59 9.83.25 4.33 5.1 16.31 3.64 28.365.5 9.58 20.8 11.88 3.56 435.94 8.46 13.3 33 10.03 16.582.06 2.33 74.5 28.19 10.64 3.315 7.35 -11.9 27.44 9.12 -4.343 22.4 -12.9 15.13 6.15 16.114.25 4.11 18.8 55.5 22.38 11.116.25 6.83 10.7 48 6.4 26.212.88 9.13 9 34.24 9.49 8.739.13 6.07 28.8 38.94 10.25 14.361.5 14.14 18.7 11.31 0.68 1.6101.38 20.12 29.9 14.63 3.48 24.3;Run;2. 使用“SAS/分析家”菜單打開(kāi)“分析家”界面。調(diào)出數(shù)據(jù)文件Work.D0604。打開(kāi)(多元)線性回歸界面。單擊工具欄“(多元)線性回歸”圖標(biāo):設(shè)置(多元)線性回歸界面,如圖。(3.1)輸送變量。(此步驟操作必選,余下步驟可選)輸送y為Dependent變量;同時(shí)選中x1、x2設(shè)置為Explanatory變量。(3.2)求回歸系數(shù)求0和1的95%置信區(qū)間。單擊Statistics按鈕,彈出頁(yè)面:在Parameterestimates選項(xiàng)框中,勾選前兩項(xiàng)。如圖。即設(shè)置輸出標(biāo)準(zhǔn)回歸系數(shù)和參數(shù)估計(jì)置信區(qū)間。(3.3)新采樣點(diǎn)的點(diǎn)預(yù)測(cè)。依據(jù)題目為例:x1=9.48,x2=17.5。對(duì)平均每股價(jià)格作出點(diǎn)估計(jì)并對(duì)其每股價(jià)格作出點(diǎn)預(yù)測(cè)。切換到程序編輯窗口,建立待預(yù)測(cè)數(shù)據(jù)集temp并運(yùn)行程序。Datatemp;x1=9.48;x2=17.5;y=.;run;切換到多元線性回歸界面,單擊Predictions按鈕,彈出頁(yè)面:在”預(yù)測(cè)輸入”選項(xiàng)框中,勾選“Predictadditionaldata”,單擊實(shí)黑色右箭頭,將彈出“選擇成員”頁(yè)面,選擇新建的待預(yù)測(cè)數(shù)據(jù)集work.temp。然后,在“預(yù)測(cè)輸出”選項(xiàng)框中,勾選“Listpredictions”,將顯示預(yù)測(cè)結(jié)果列表。單擊“OK”返回。多元線性回歸界面,單擊Savedata按鈕,彈出頁(yè)面:勾選“Createandsavediagnosticsdata”選項(xiàng)。按住鍵盤(pán)shift按鈕,依次單擊Predicted、L95M、U95M、L95、U95(含義分別是:預(yù)測(cè)值,平均y值的95%置信下限、上限,預(yù)測(cè)y值的95%置信下限、上限),單擊界面“Add”按鈕,完成預(yù)測(cè)統(tǒng)計(jì)量的添加。單擊OK返回。(3.4)完成多元線性回歸界面設(shè)置,單擊OK按鈕。得到輸出結(jié)果。保存數(shù)據(jù)的查看。在SAS資源管理器中,雙擊新出現(xiàn)的文件夾_proj_,雙擊Score,即可查看預(yù)測(cè)輸出保存數(shù)據(jù)。3. 解答略。帶虛擬變量的多元回歸分析(習(xí)題6.4)一位經(jīng)濟(jì)學(xué)家想研究采取某項(xiàng)改革措施所需時(shí)間(y)對(duì)保險(xiǎn)公司規(guī)模(x1,單位:百萬(wàn)美元)和保險(xiǎn)公司類(lèi)型(互助公司和股份公司)的關(guān)系。因變量的計(jì)量是第一個(gè)公司采納這項(xiàng)革新和給定公司采納這項(xiàng)革新在時(shí)間上先后間隔的月數(shù)。令虛擬變量X2=1互助公司;X2=0股份公司??紤]回歸模型:Yi=0+1xi1+2xi2+i10個(gè)互助公司和10個(gè)股份公司的有關(guān)調(diào)查數(shù)據(jù)見(jiàn)下表:公司yx1公司類(lèi)型公司Yx1公司類(lèi)型117151互助1128164股份22692互助1215272股份321175互助1311295股份43031互助143868股份522104互助153185股份60277互助1621224股份712210互助1720166股份819120互助1813305股份94290互助1930124股份1016238互助2014246股份試求估計(jì)回歸函數(shù),并寫(xiě)出對(duì)每一公司類(lèi)型的估計(jì)回歸函數(shù);解釋回歸系數(shù)的含義;檢驗(yàn)H0:1=2=0(a=0.05);檢驗(yàn)驗(yàn)H0:1=0和H0:2=0(a=0.05);試求1和2的95%置信區(qū)間。實(shí)驗(yàn)步驟同上。略。實(shí)驗(yàn)六(1) 判別分析【實(shí)驗(yàn)?zāi)康摹空莆沾袠悠返木嚯x判別法和貝葉斯判別法(A)?!緦?shí)驗(yàn)原理】判別分析要解決的問(wèn)題是,在已知?dú)v史上用某些方法已把研究對(duì)象分成若干組的情況下,來(lái)判定新的觀測(cè)樣品應(yīng)歸屬的組別。三種常用的判別分析方法分別是距離判別、貝葉斯(Bayes)判別和費(fèi)希爾(Fisher)判別。對(duì)組的事先劃分有時(shí)也可以通過(guò)聚類(lèi)分析得到?!緦?shí)驗(yàn)項(xiàng)目設(shè)計(jì)】距離判別;貝葉斯判別。【實(shí)驗(yàn)內(nèi)容】(習(xí)題8.4) 根據(jù)經(jīng)驗(yàn),今天和昨天的濕度差x1及今天的壓溫差(氣壓與溫度之差)x2是預(yù)報(bào)明天是否下雨的兩個(gè)重要因素。現(xiàn)收集到一批樣本數(shù)據(jù)列于下表。1(雨天)2(非雨天)x1(濕度差)x2(壓溫差)x1(濕度差)x2(壓溫差)-1.93.20.26.2-6.910.4-0.17.55.220.414.652.52.78.37.302.10.86.812.7-4.64.30.9-15.4-1.710.9-12.5-2.5-2.613.11.51.32.612.83.86.8-2.810今測(cè)得x1=0.6,x2=3.0,假定兩組的協(xié)方差陣相等。試用距離判別法預(yù)報(bào)明天是否下雨,用(8.2.7)式即回判法來(lái)估計(jì)誤判概率;解答:明天下雨/不下雨_明天下雨_。誤判率的回判法估計(jì):0.2,0.1。假定兩組的均服從二元正態(tài)分布,且根據(jù)其他信息及經(jīng)驗(yàn)給出先驗(yàn)概率p1=0.3,p2=0.7,試用貝葉斯判別法預(yù)報(bào)明天是否下雨;解答:明天下雨/不下雨_____不下雨______。假如你現(xiàn)考慮是否為明天安排一項(xiàng)活動(dòng),該活動(dòng)在時(shí)間上有緊迫性,但又不太適合在雨天進(jìn)行,并認(rèn)為C(2|1)=3C(1|2),那么你今天是否應(yīng)該安排項(xiàng)這活動(dòng)呢?判別規(guī)則為:,解答:安排/不安排_(tái)_不安排_(tái)________。8.4 程序附錄:Datad0804;Inputgroupx1x2@@;Cards;1 -1.9 3.2 2 0.2 6.2 1 -6.9 10.4 2 -0.1 7.51 5.2 2 2 0.4 14.6 1 5 2.5 2 2.7 8.31 7.3 0 2 2.1 0.8 1 6.8 12.7 2 -4.6 4.31 0.9 -15.4 2 -1.7 10.9 1 -12.5 -2.5 2 -2.6 13.11 1.5 1.3 2 2.6 12.8 1 3.8 6.8 2 -2.8 10;Run;Datat_d;x1=0.6; x2=3.0; group=.; run;Procdiscrimdata=d0804testdata=t_dpool=yeslisttestlistlisterr;Classgroup;Varx1x2;run;Procdiscrimdata=d0804testdata=t_dpool=yestestlist;Classgroup;Varx1x2;Priors'1'=0.3'2'=0.7;run; (習(xí)題8.5)對(duì)28名一級(jí)和25名健將級(jí)標(biāo)槍運(yùn)動(dòng)員測(cè)試了6個(gè)影響標(biāo)槍成績(jī)的訓(xùn)練項(xiàng)目,這些訓(xùn)練項(xiàng)目(成績(jī))為:30米跑(x1),投擲小球(x2),挺舉重量(x3),拋實(shí)心球(x4),前拋鉛球(x5),五級(jí)跳(x6),全部數(shù)據(jù)列于下表。編號(hào)X1X2X3X4X5X6組別13.64.382.3709018.52123.34.187.488010018.48133.34.2287.748511518.56143.214.0588.67510019.1153.14.3889.989512020.14163.24.989.18510519.44173.34.289758519.17183.54.584.28010018.8193.74.682.1708517.681103.44.490.187510019.141113.64.382.1709018.11123.64.582557017.41133.64.282.2709018.121143.44.285.48510018.661153.34.390.18010019.861163.124.28985100201173.14.290.28511520.81183.64.281.96658017.21193.74.4818095171203.34.3908011019.81213.84.0980608016.891223.74.383.98510018.761233.54.285.48510018.71243.44.186.78511018.51253.34.188.1758518.961263.74.184.1709518.71273.64.382709018.41283.24.289.28511519.881293.441039511024.82303.34.51189012025.72313.14.51058511025.12323.84.1104.538010024.9823334.21129512525.352343.93.798.2859021.82353.54.198.79012022.782363.13.998.2609021.982373.33.910910012025.32383.13.9598.49511525.22393.143.995.39011021.422403.64.393.6758520.842413.123.995.88010521.824233.993.8859021.082433.43.9196.311012021.982443.633.7898.568512022.362453.33.9897.48510022.342463.34.41127511025.12473.54.1107.787.511025.12483.44.292.18012022.162493.64.199.488512023.12503.14.41167511025.32513.124102.78011024.682523.64.11158511523.72533.54.397.87510024.12另有14名未定級(jí)的運(yùn)動(dòng)員也測(cè)試了同樣6個(gè)項(xiàng)目,數(shù)據(jù)列表如下。編號(hào)X1X2X3X4X5X613.54.185.37510518.6523.44.485.4759518.633.64.385.36759018.643.64.183.77510518.653.24.189.35759520.2863.44.1586.286077.518.973.64.284.18010018.783.14.1989513022.3934.112210011527.1103.24.392.688010520.68113.14.291.768510022.2123.34.298.46510022.86133.34.6928019523.07143.44.397.367511022.12假定兩組數(shù)據(jù)均來(lái)自于電影正態(tài)總體,且C(2|1)=C(1|2)。對(duì)14名未定級(jí)的運(yùn)動(dòng)員,假設(shè)p1=p2,試在和的兩組情形下分別都他們歸屬何組作出貝葉斯判別;①判入一級(jí)的運(yùn)動(dòng)員編號(hào):{1,3,5,6,7,9,11,12,13}判入二級(jí)的運(yùn)動(dòng)員編號(hào):{2,4,8,10,14}②判入一級(jí)的運(yùn)動(dòng)員編號(hào):{1,3,5,6,7,9,11,13 }判入二級(jí)的運(yùn)動(dòng)員編號(hào):{2,4,8,10,12,14 }試按(8.2.7)和(8.2.8)兩式分別對(duì)(1)的誤判概率作出估計(jì);①回判法的誤判率:0,0。刀切法的誤判率:0,0。②回判法的誤判率:0,0.08。刀切法的誤判率:0,0。假設(shè),p1=0.8,p2=0.2,試對(duì)14名未定級(jí)的運(yùn)動(dòng)員的歸屬作出貝葉斯判別。判入一級(jí)的運(yùn)動(dòng)員編號(hào):{1,2,3,5,6,7,9,11,12,13}判入一級(jí)的運(yùn)動(dòng)員編號(hào):{4,8,10,14}PAGEPAGE588.5程序附錄:Datad0805;Inputnox1-x6group@@;Cards;1 3.6 4.3 82.3 70 90 18.52 1 29 3.4 4 103 95 110 24.8 22 3.3 4.1 87.48 80 100 18.48 1 30 3.3 4.5 118 90 120 25.7 23 3.3 4.22 87.74 85 115 18.56 1 31 3.1 4.5 105 85 110 25.1 24 3.21 4.05 88.6 75 100 19.1 1 32 3.8 4.1 104.53 80 100 24.98 25 3.1 4.38 89.98 95 120 20.14 1 33 3 4.2 112 95 125 25.35 26 3.2 4.9 89.1 85 105 19.44 1 34 3.9 3.7 98.2 85 90 21.8 27 3.3 4.2 89 75 85 19.17 1 35 3.5 4.1 98.7 90 120 22.78 28 3.5 4.5 84.2 80 100 18.8 1 36 3.1 3.9 98.2 60 90 21.98 29 3.7 4.6 82.1 70 85 17.68 1 37 3.3 3.9 109 100 120 25.3 210 3.4 4.4 90.18 75 100 19.14 1 38 3.1 3.95 98.4 95 115 25.2 211 3.6 4.3 82.1 70 90 18.1 1 39 3.14 3.9 95.3 90 110 21.42 212 3.6 4.5 82 55 70 17.4 1 40 3.6 4.3 93.6 75 85 20.84 213 3.6 4.2 82.2 70 90 18.12 1 41 3.12 3.9 95.8 80 105 21.8 214 3.4 4.2 85.4 85 100 18.66 1 42 3 3.9 93.8 85 90 21.08 215 3.3 4.3 90.1 80 100 19.86 1 43 3.4 3.91 96.3 110 120 21.98 216 3.12 4.2 89 85 100 20 1 44 3.63 3.78 98.56 85 120 22.36 217 3.1 4.2 90.2 85 115 20.8 1 45 3.3 3.98 97.4 85 100 22.34 218 3.6 4.2 81.96 65 80 17.2 1 46 3.3 4.4 112 75 110 25.1 219 3.7 4.4 81 80 95 17 1 47 3.5 4.1 107.7 87.5 110 25.1 220 3.3 4.3 90 80 110 19.8 1 48 3.4 4.2 92.1 80 120 22.16 221 3.8 4.09 80 60 80 16.89 1 49 3.6 4.1 99.48 85 120 23.1 222 3.7 4.3 83.9 85 100 18.76 1 50 3.1 4.4 116 75 110 25.3 223 3.5 4.2 85.4 85 100 18.7 1 51 3.12 4 102.7 80 110 24.68 224 3.4 4.1 86.7 85 110 18.5 1 52 3.6 4.1 115 85 115 23.7 225 3.3 4.1 88.1 75 85 18.96 1 53 3.5 4.3 97.8 75 100 24.1 226 3.7 4.1 84.1 70 95 18.7 1 27 3.6 4.3 82 70 90 18.4 1 28 3.2 4.2 89.2 85 115 19.88 1 ;Run;Datat_d;Inputnox1-x6@@;group=.;Cards;1 3.5 4.1 85.3 75 105 18.65 8 3.1 4.1 98 95 130 22.32 3.4 4.4 85.4 75 95 18.6 9 3 4.1 122 100 115 27.13 3.6 4.3 85.36 75 90 18.6 10 3.2 4.3 92.68 80 105 20.684 3.6 4.1 83.7 75 105 18.6 11 3.1 4.2 91.76 85 100 22.25 3.2 4.1 89.35 75 95 20.28 12 3.3 4.2 98.4 65 100 22.866 3.4 4.15 86.28 60 77.5 18.9 13 3.3 4.6 92 80 195 23.077 3.6 4.2 84.1 80 100 18.7 14 3.4 4.3 97.36 75 110 22.12;run;Procdiscrimdata=d0805testdata=t_dpool=yeslistcrosslistlisterrtestlistout01testout02;Classgroup;Varx1-x6;priors'1'=0.5'2'=0.5;run;Procdiscrimdata=d0805testdata=t_dpool=nolistcrosslistlisterrtestlisttestout03;Classgroup;Varx1-x6;priors'1'=0.5'2'=0.5;run;Procdiscrimdata=d0805testdata=t_dpool=yeslistcrosslistlisterrtestlisttestout04;Classgroup;Varx1-x6;priors'1'=0.8'2'=0.2;run;實(shí)驗(yàn)六(2) 聚類(lèi)分析【實(shí)驗(yàn)?zāi)康摹空莆諏?duì)未知分類(lèi)樣品進(jìn)行系統(tǒng)聚類(lèi)。【實(shí)驗(yàn)原理】判別分析和聚類(lèi)分析是兩種不同目的的分類(lèi)方法,它們所起的作用是不同的。聚類(lèi)分析:將未分類(lèi)對(duì)象分成若干類(lèi),相似的歸為同一類(lèi),不相似的歸為不同的類(lèi)。聚類(lèi)分析分為Q型(分類(lèi)對(duì)象為樣品)和R型(分類(lèi)對(duì)象為變量)兩種。Q型聚類(lèi)分析較多常見(jiàn)。【實(shí)驗(yàn)項(xiàng)目設(shè)計(jì)】教學(xué)實(shí)驗(yàn)學(xué)生實(shí)驗(yàn)學(xué)生實(shí)驗(yàn)參考解答【實(shí)驗(yàn)內(nèi)容】一、教學(xué)實(shí)驗(yàn)例9.3.1(257頁(yè))設(shè)有五個(gè)樣品,只測(cè)量了一個(gè)指標(biāo),分別是1,2,6,8,11,。例9.3.2(260頁(yè))對(duì)305名中學(xué)生測(cè)量8個(gè)指標(biāo): x1:身高 x5:體重 x2:手臂長(zhǎng) x6:頸圍 x3:上肢長(zhǎng) x7:胸圍 x4:下肢長(zhǎng) x8:胸寬例9.3.3(261頁(yè))表9.3.14列出了1999年全國(guó)31個(gè)省、直轄市和自治區(qū)的城鎮(zhèn)居民家庭平均每人全年消費(fèi)性支出的八個(gè)主要變量數(shù)據(jù)。這八個(gè)變量是 x1:食品 x5:交通和通訊 x2:衣著 x6:娛樂(lè)教育文化服務(wù) x3:家庭設(shè)備用品及服務(wù) x7:居住 x4:醫(yī)療保健 x8:雜項(xiàng)商品和服務(wù)作聚類(lèi)分析。為同等地對(duì)待每一變量,在作聚類(lèi)前,先對(duì)各變量作標(biāo)準(zhǔn)化變換。程序附錄1:例9.3.1系統(tǒng)聚類(lèi)法procclusterdata=e0901method=single|complete|centroid|average|ward std outtree=treedata1;varx;/*用x作為計(jì)算距離的變量 */idx;/*用x作為樣品的標(biāo)識(shí)變量*/run;proctreedata=treedata1horizontal;idx;/*用x作為樣品的標(biāo)識(shí)變量,顯示在譜系聚類(lèi)圖中 */run;程序附錄2:例9.3.2變量的距離聚類(lèi)datae0902(type=distance);arrayx(8)x1-x8;inputvarname$x1-x8;doi=1to8; x(i)=1-x(i);end;dropi;cards;x11.000.......x2.8461.000......x3.805.8811.000.....x4.859.826.8011.000....x5.473.376.380.4361.000...x6.398.326.319.329.7621.000..x7.301.277.237.327.730.5831.000.x8.382.415.345.365.629.577.5391.000;run;procclusterdata=e0902method=com;varx1-x8;idvarname;proctreehorizontal; idvarname;run;程序附錄3:例9.3.3大樣品的k均值法快速聚類(lèi)—Fastclus過(guò)程大樣本快速聚類(lèi)(n=100~100,000)輸出類(lèi)內(nèi)指標(biāo)均值,比較類(lèi)間差異沒(méi)有原始數(shù)據(jù)標(biāo)準(zhǔn)化功能需要指定類(lèi)別數(shù)或初始凝聚點(diǎn)間最小距離不能輸出作樹(shù)狀圖的聚類(lèi)信息procstandanddata=e0903mean=0std=1out=stddata;varx1-x8;/*指定進(jìn)行標(biāo)準(zhǔn)化的變量*/run;procfastclusdata=stddatamaxc=5driftlist;varx1-x8;idregion;run;說(shuō)明:data=sas數(shù)據(jù)集,maxc|maxcluster=選項(xiàng):指定允許的最大分類(lèi)個(gè)數(shù)。drift選項(xiàng):初始凝聚點(diǎn)選好后,每當(dāng)一個(gè)觀測(cè)歸入最靠近的凝聚點(diǎn)所在的類(lèi)后,該類(lèi)的凝聚點(diǎn)都要被類(lèi)中現(xiàn)有觀測(cè)的均值替代。list選項(xiàng):列表顯示所有的樣本點(diǎn)、它的id值、它歸為哪一個(gè)cluster、它到自己的cluster的凝聚點(diǎn)的距離。二、學(xué)生實(shí)驗(yàn)對(duì)例9.3.3,不進(jìn)行標(biāo)準(zhǔn)化變換,使用系統(tǒng)聚類(lèi)法;寫(xiě)出程序和聚類(lèi)結(jié)果。使用k均值快速聚類(lèi)法分為5類(lèi);寫(xiě)出程序和聚類(lèi)結(jié)果。學(xué)生實(shí)驗(yàn)參考解答使用系統(tǒng)聚類(lèi)法;寫(xiě)出程序和聚類(lèi)結(jié)果程序procstandanddata=e0903mean=0std=1out=stddata;varx1-x8;run;procclusterdata=e0903method=warstdouttree=treedata1;varx1-X8;idregion;run;proctreedata=treedata1horizontaln=3out=clsdata;idregion;run;procsort;bycluster;run;procprintdata=clsdata;run;聚類(lèi)結(jié)果G1={山西,甘肅,黑龍江,寧夏,河北,新疆,遼寧,青海,湖南,四川,內(nèi)蒙古吉林,陜西,江西,河南,湖北,山東,貴州,安徽,廣西,海南}G2={江蘇,云南,重慶,天津,浙江,福建,西藏}G3={北京,上海,廣東 }使用k均值快速聚類(lèi)法分為5類(lèi);寫(xiě)出程序和聚類(lèi)結(jié)果。程序procstandanddata=e0903mean=0std=1out=stddata;varx1-x8;run;procfastclusdata=stddatamaxc=5driftlist;varx1-x8;idregion;run;聚類(lèi)結(jié)果G1={北京,上海,浙江 }G2={廣東}G3={天津,江蘇,福建,山東,湖南,廣西,重慶,四川,云南}G4={河北,山西,內(nèi)蒙古,遼寧,吉林,黑龍江,安徽,江西,河南湖北,海南,貴州,陜西,甘肅,青海,寧夏,新疆}G5={西藏}實(shí)驗(yàn)七 主成分分析【實(shí)驗(yàn)?zāi)康摹空莆諒亩嘧兞恐刑崛≈鞒煞值囊?guī)則、方法(A)【實(shí)驗(yàn)原理】主成分分析(或稱(chēng)主分量分析,principalcomponentanalysis)由皮爾遜(Pearson,1901)首先引入,后來(lái)被霍特林(Hotelling,1933)發(fā)展了。主成分分析是一種通過(guò)降維技術(shù)把多個(gè)變量化為少數(shù)幾個(gè)主成分(即綜合變量)的統(tǒng)計(jì)分析方法。這些主成分能夠反映原始變量的絕大部分信息,它們通常表示為原始變量的某種線性組合。主成分分析的一般目的是:a)變量的降維;b)主成分的解釋。【實(shí)驗(yàn)項(xiàng)目設(shè)計(jì)】給定若干組多變量數(shù)據(jù),進(jìn)行主成分提?。灰罁?jù)前兩個(gè)主成分得分繪制散點(diǎn)圖;對(duì)主成分進(jìn)行合理解釋?!緦?shí)驗(yàn)內(nèi)容】(習(xí)題10.5)表中給出的是美國(guó)50個(gè)州每100000個(gè)人中七種犯罪的比率數(shù)據(jù),試做主成份分析。數(shù)據(jù)下載即可。實(shí)驗(yàn)要求:寫(xiě)出主成分的表達(dá)式;畫(huà)出前兩個(gè)主成分的散點(diǎn)圖,并貼圖。1參考程序procprintdata=tmp1.c1005;run;procprincompdata=c1005out=prin;varx1-x7;run;procplot;plotprin2*prin1$state='*';run;2解答內(nèi)容變量的個(gè)數(shù)p=;選取的主成分個(gè)數(shù)m=。主成分和原始變量的相關(guān)系數(shù)矩陣(貼圖)。總方差=。對(duì)選取的m個(gè)主成分:(3.1)對(duì)方差的累計(jì)貢獻(xiàn)率=;(3.2)對(duì)原始變量的貢獻(xiàn)率變量x1x2x3x4x2x3X72主成分的表達(dá)式。Y1=;Y2=;畫(huà)出前兩個(gè)主成分的散點(diǎn)圖,并貼圖。

(習(xí)題10.6)下表是紐約股票交易所的5只股票從75年·月到76年12月期間的周回報(bào)。周回報(bào)率定義為:試做主成分分析。數(shù)據(jù)下載即可。實(shí)驗(yàn)要求:寫(xiě)出主成分的表達(dá)式;并依據(jù)個(gè)人理解進(jìn)行解釋。1參考程序procprincompdata=tmp1.c1006;varx1-x5;run;2主成分的表達(dá)式及解釋Y1=;解釋?zhuān)?;Y2=;解釋?zhuān)海粎⒖即鸢福?0.5表中給出的是美國(guó)50個(gè)州沒(méi)100000個(gè)人中七種犯罪的比率數(shù)據(jù),試做主成份分析。數(shù)據(jù)下載即可。實(shí)驗(yàn)要求:寫(xiě)出主成分的表達(dá)式;畫(huà)出前兩個(gè)主成分的散點(diǎn)圖,并貼圖。1參考程序procprintdata=tmp1.c1005;run;procprincompdata=c1005out=prin;varx1-x7;run;procplot;plotprin2*prin1$state='*';run;2解答內(nèi)容(1)變量的個(gè)數(shù)p=7;選取的主成分個(gè)數(shù)m=3。(2)主成分和原始變量的相關(guān)系數(shù)矩陣(貼圖)。0.6091-0.70030.1519-0.13060.27330.12210.09430.8758-0.1886-0.2080.0350.0957-0.3644-0.10440.80510.0470.4224-0.3139-0.2641-0.0539-0.00140.8046-0.3823-0.05920.3543-0.25730.08120.06750.89290.2263-0.1788-0.03240.05130.2526-0.22830.72490.4478-0.4594-0.13210.01530.01860.21190.59880.55920.48420.23580.1878-0.0270.0518(3)總方差=7。對(duì)選取的m個(gè)主成分:3.1對(duì)方差的累計(jì)貢獻(xiàn)率=86.85%;3.2對(duì)原始變量的貢獻(xiàn)率變量x1x2x3x4X5X6X720.88440.84590.828820.79710.88040.9370530.9057(4)主成分的表達(dá)式。Y1=0.3003*x1+0.4318*x2+0.3969*x3+0.3967*x4+0.4402*x5+0.3574*x6+0.2952*x7;Y2=-0.6292*x1-0.1694*x2+0.0422*x3-0.3435*x4+0.2033*x5+0.4023*x6+0.5024*x7;(5)畫(huà)出前兩個(gè)主成分的散點(diǎn)圖,并貼圖。

10.6下表是紐約股票交易所的5只股票從75年·月到76年12月期間的周回報(bào)。周回報(bào)率定義為:試做主成份分析。數(shù)據(jù)下載即可。實(shí)驗(yàn)要求:寫(xiě)出主成分的表達(dá)式;并依據(jù)個(gè)人理解進(jìn)行解釋。1參考程序procprincompdata=tmp1.c1006;varx1-x5;run;2主成分的表達(dá)式及解釋Y1=0.4635*x1+0.4571*x2+0.4700*x3+0.4217*x4+0.4213*x4;解釋?zhuān)旱谝恢鞒煞諽1對(duì)所有(標(biāo)準(zhǔn)化)原始變量都有近似相等的正載荷,在的Y1值意味著各變量都傾向于有大的值,即表示各股票的市場(chǎng)萬(wàn)分大,小的Y1值意味著各變量都傾向于有較小的值,即表示市場(chǎng)股分小。;Y2=-0.2409*x1-0.5091*x2-0.2606*x3+0.5253*x3+0.5822*x4;解釋?zhuān)旱诙鞒煞諽2在x3,x4上有中等程度的正載荷,而在x1,x2,x3上有中等程度的負(fù)載荷,大的Y2值意味著變量x3,x4傾向于有大的值,而變量x1,x2,x3有傾向于小的值。因此第二主成分為行業(yè)成分。實(shí)驗(yàn)八 因子分析【實(shí)驗(yàn)?zāi)康摹渴煜ひ蜃臃治龅姆治鲞^(guò)程(B)?!緦?shí)驗(yàn)原理】因子分析起源于20世紀(jì)初,K.皮爾遜(Pearson)和C.斯皮爾曼(Spearman)等學(xué)者為定義和測(cè)定智力所作的努力,主要是由對(duì)心理測(cè)量學(xué)有興趣的科學(xué)家們培育和發(fā)展了因子分析。因子分析的用途與主成分分析類(lèi)似,它也是一種降維方法。因子分析降維的方式是試圖用少數(shù)幾個(gè)潛在的、不可觀測(cè)的隨機(jī)變量來(lái)描述原始變量間的協(xié)方差關(guān)系。由于因子往往比主成分更易得到解釋?zhuān)室蜃臃治霰戎鞒煞址治龈菀壮晒Γ瑥亩懈鼜V泛的應(yīng)用?!緦?shí)驗(yàn)項(xiàng)目設(shè)計(jì)】依據(jù)相關(guān)矩陣進(jìn)行變量因子分析;給定一組多變量數(shù)據(jù),進(jìn)行變量公共因子提取和解釋。參考解答【實(shí)驗(yàn)內(nèi)容】一、依據(jù)相關(guān)矩陣進(jìn)行變量因子分析(習(xí)題11.1)在例11.1.1中,十項(xiàng)全能運(yùn)動(dòng)得分的樣本相關(guān)矩陣為R=[10.5910.350.4210.340.510.3810.630.490.190.2910.40.520.360.460.3410.280.310.730.270.170.3210.20.360.240.390.230.330.2410.110.210.440.170.130.180.340.241-0.070.09-0.080.180.390-0.020.17-01]寫(xiě)出因子分析的實(shí)驗(yàn)程序。databexec11c1(type=corr);inputx1-x10;cards;1.000.590.350.340.630.400.280.200.11-0.07.1.000.420.510.490.520.310.360.210.09..1.000.380.190.360.730.240.44-0.08...1.000.290.460.270.390.170.18....1.000.340.170.230.130.39...

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論