sas統(tǒng)計(jì)分析報(bào)告_第1頁
sas統(tǒng)計(jì)分析報(bào)告_第2頁
sas統(tǒng)計(jì)分析報(bào)告_第3頁
sas統(tǒng)計(jì)分析報(bào)告_第4頁
sas統(tǒng)計(jì)分析報(bào)告_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上統(tǒng)計(jì)軟件報(bào)告聚類分析和方差分析在統(tǒng)計(jì)學(xué)成績分析中的應(yīng)用班 級:精算0801班姓 名:張倪學(xué) 號:報(bào)告時(shí)間:2011年11月指導(dǎo)老師:郝際貴成 績:專心-專注-專業(yè)目 錄聚類分析和方差分析在統(tǒng)計(jì)學(xué)成績分析中的應(yīng)用一、背景及數(shù)據(jù)來源SAS 系統(tǒng)全稱為Statistics Analysis System,最早由北卡羅來納大學(xué)的兩位生物統(tǒng)計(jì)學(xué)研究生編制,并于1976年成立了SAS軟件研究所,正式推出了SAS軟件。SAS是用于決策支持的大型集成信息系統(tǒng),但該軟件系統(tǒng)最早的功能限于統(tǒng)計(jì)分析,至今,統(tǒng)計(jì)分析功能也仍是它的重要組成部分和核心功能。SAS 系統(tǒng)是一個(gè)組合軟件系統(tǒng),它由多

2、個(gè)功能模塊組合而成,其基本部分是BASE SAS模塊。BASE SAS模塊是SAS系統(tǒng)的核心,承擔(dān)著主要的數(shù)據(jù)管理任務(wù),并管理用戶使用環(huán)境,進(jìn)行用戶語言的處理,調(diào)用其他SAS模塊和產(chǎn)品。也就是說,SAS系統(tǒng)的運(yùn)行,首先必須啟動(dòng)BASE SAS模塊,它除了本身所具有數(shù)據(jù)管理、程序設(shè)計(jì)及描述統(tǒng)計(jì)計(jì)算功能以外,還是SAS系統(tǒng)的中央調(diào)度室。它除可單獨(dú)存在外,也可與其他產(chǎn)品或模塊共同構(gòu)成一個(gè)完整的系統(tǒng)。各模塊的安裝及更新都可通過其安裝程序非常方便地進(jìn)行。本文利用SAS軟件進(jìn)行描述性統(tǒng)計(jì)、聚類分析等統(tǒng)計(jì)分析方法,將學(xué)生按照多指標(biāo)綜合考慮進(jìn)行聚類。數(shù)據(jù)來源:選取20102011第一學(xué)期統(tǒng)計(jì)學(xué)選教課成績單,選

3、取性別系別等變量進(jìn)行考察。將中文名稱改為英文。數(shù)據(jù)類型如下所示:學(xué)號性別班級系部課程名稱老師平時(shí)成績期末成績總評學(xué)年數(shù)值型數(shù)值型字符型字符型字符型字符型數(shù)值型數(shù)值型數(shù)值型數(shù)值型SnSexclassdepttitleteacherS1S2S3year當(dāng)輸入字符型的變量時(shí),需要加上符號$在該變量的后面,用于區(qū)分?jǐn)?shù)值型變量,所以用$來作為后綴。刪除缺考錯(cuò)誤分?jǐn)?shù)等異常值。命名為2010stat.xls二、描述性統(tǒng)計(jì)分析(一)導(dǎo)入數(shù)據(jù)首先建立永久磁盤路徑,導(dǎo)入數(shù)據(jù)集statlibname path D:sas;run;(二)描述性統(tǒng)計(jì)分析然后進(jìn)行描述性統(tǒng)計(jì)對性別、平時(shí)成績、期末成績、總評成績進(jìn)行計(jì)算,代

4、碼如下:proc means data=path.stat; var sex s1 s2 s3; run; 輸出結(jié)果如下:從結(jié)果可以分析出,總體學(xué)生平時(shí)成績平均分為86.28分,總評成績均分為77.15分。按照系別分類,每個(gè)系進(jìn)行描述性統(tǒng)計(jì),代碼如下:proc means data=path.stat; var sex s1 s2 s3; class dept; run;運(yùn)行的輸出結(jié)果如下所示:從結(jié)果可以分析得出,各個(gè)系別學(xué)生成績的均值、觀測值、標(biāo)準(zhǔn)差及最大值和最小值。其中,會計(jì)系、財(cái)政系和市場營銷系人數(shù)眾多,除了經(jīng)濟(jì)系、市場營銷系和留學(xué)生以外,各系都有100分。(三)統(tǒng)計(jì)圖繪制頻率直方圖,直

5、方圖可以良好的反映各系的人數(shù)和性別比例。代碼如下所示:proc gchart data=path.stat; vbar dept/type=sum subgroup=sex; run;統(tǒng)計(jì)直方圖如下所示:直方圖的橫軸是系別變量,縱軸是人數(shù)。藍(lán)色是男生紅色是女生。根據(jù)直方圖顯示會計(jì)系、營銷系、財(cái)政系三系人數(shù)最高。分別表示各系別男女生人數(shù)分布。三、聚類分析輸入代碼:proc cluster data=path.stat method=ward outtree=tree standard pseudo ccc;proc tree data=tree graphics horizontal; run;

6、上述程序說明了使用系統(tǒng)聚類法來進(jìn)行研究,并且繪制出聚類分析結(jié)果的樹狀圖。ccc說明需要計(jì)算半偏R2、R2和CCC統(tǒng)計(jì)量。這三個(gè)統(tǒng)計(jì)量和下面的偽F和偽T2統(tǒng)計(jì)量主要用于檢驗(yàn)聚類的效果。當(dāng)把數(shù)據(jù)從G+1類合并為G類時(shí),半偏R2統(tǒng)計(jì)量說明了本次合并信息的損失程度,半偏R2統(tǒng)計(jì)量大說明信息的損失程度大。R2統(tǒng)計(jì)量反映了類內(nèi)離差平方和的大小,R2統(tǒng)計(jì)量大說明類內(nèi)離差平方和小。CCC統(tǒng)計(jì)量的值大說明聚類的效果好。Pseudo說明要計(jì)算偽F和偽T2統(tǒng)計(jì)量一般認(rèn)為偽F統(tǒng)計(jì)量在出現(xiàn)峰值的是所對應(yīng)的分類是較佳的分類選擇。當(dāng)把數(shù)據(jù)從G+1類合并為G類時(shí),如果偽T2統(tǒng)計(jì)量的值大,說明不應(yīng)該合并這兩類。后面的tree過

7、程是用來繪制聚類分析結(jié)果的樹狀圖。運(yùn)行結(jié)果如下:上面的運(yùn)行結(jié)果給出了對樣品的聚類過程。SPRSQ為半偏R2統(tǒng)計(jì)量、RSQ為R2統(tǒng)計(jì)量 、 CCC為立方聚類標(biāo)準(zhǔn)、 PSF為偽F統(tǒng)計(jì)量、PST2為偽T2統(tǒng)計(jì)量。結(jié)果分析:從半偏R2統(tǒng)計(jì)量的結(jié)果可以看出,當(dāng)樣本數(shù)據(jù)從3類合并為2類時(shí),信息的損失程度較前面的的合并有明顯的增加。從R2統(tǒng)計(jì)量的結(jié)果可以看出,當(dāng)樣本數(shù)據(jù)從3類合并為2類時(shí),R2統(tǒng)計(jì)量較前面的合并顯著減小,這意味著類內(nèi)離差平方和增加,違背了Word,s的分類原則。從CCC統(tǒng)計(jì)量的結(jié)果可以看出,最大值對應(yīng)的類數(shù)為3類。從6類合并為5類時(shí),偽T2統(tǒng)計(jì)量顯著增加,偽T2統(tǒng)計(jì)量下降顯著。由聚類分析的分

8、析結(jié)果的樹狀圖可知分為3類也是符合圖形的。綜合各類統(tǒng)計(jì)量的結(jié)果,學(xué)生的統(tǒng)計(jì)學(xué)成績分為3類比較合適。四、方差分析輸入代碼:proc glm;class sex s3;model s3=sex s3 sex*s1/ ss1 ss2 ss3 ss4;means s1/duncan;run;輸出結(jié)果如下所示:從輸出結(jié)果可以看出,平時(shí)成績對總評成績有顯著的影響。性別對成績影響中,女生成績要優(yōu)于男生,平均分比男生高,方差比男生小??梢姡谄綍r(shí)成績和性別對學(xué)生統(tǒng)計(jì)學(xué)總評成績的影響。五、結(jié)果分析與結(jié)論本文選取20102011年統(tǒng)計(jì)學(xué)成績作為樣本數(shù)據(jù),運(yùn)用SAS軟件先對學(xué)生成績進(jìn)行描述性統(tǒng)計(jì)分析,再選用聚類分析法,最后進(jìn)行方差分析。聚類分析(Cluster Analysis)根據(jù)樣品的統(tǒng)計(jì)量將相似程度較大的樣品聚合到一個(gè)小的分類單位,相似程度較小的聚合到一個(gè)大的分類單位,使得同一類中的對象之間的相似性比與其他類的對象的相似性更強(qiáng),直到把所有的樣品都聚合完畢,形成一個(gè)由小到大的分類系統(tǒng),并將整個(gè)分類系統(tǒng)畫成一張譜系圖。方差分析(Analysis of Variance)由于各種因素的影響,研究所得的數(shù)據(jù)呈現(xiàn)波動(dòng)狀。造成波動(dòng)的原因可分成兩類,一是不可控的隨機(jī)因素,另一是研究中

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論