實(shí)驗(yàn)聚類分析_第1頁
實(shí)驗(yàn)聚類分析_第2頁
實(shí)驗(yàn)聚類分析_第3頁
實(shí)驗(yàn)聚類分析_第4頁
實(shí)驗(yàn)聚類分析_第5頁
已閱讀5頁,還剩15頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

實(shí)驗(yàn) 聚類分聚類分析可分為對(duì)變量分類和對(duì)樣品分類,實(shí)質(zhì)上是尋找一種能客觀反映元間親疏SASCLUSTERTREE過程進(jìn)行系統(tǒng)聚類VARCLUSTREESAS主要有以下5個(gè)聚類過程,即cluster,fastclus,modeclus、varclus和tree過程。5個(gè)過程的比較和選擇為:cluster過程為系統(tǒng)聚類過程,可使用十一種聚類方法進(jìn)行譜系聚類,包括重心法、Ward離差平方和法和歐氏平均距離法等等。fastclus過程為動(dòng)態(tài)聚類過程,使用K-means算法尋找不相交的聚類,適宜于大樣本分析,觀察值可多達(dá)10萬個(gè)。modeclusvarclus過程可用于系統(tǒng)或動(dòng)態(tài)聚類,通過斜交多組分量分析對(duì)變量作譜系的和不相交的這兩種聚類。cluster過程、fastclus過程和modeclus過程用于對(duì)樣品聚類,varclus過程用于對(duì)變量聚類。tree過程將cluster或varclus過程的聚類結(jié)果畫出樹形結(jié)構(gòu)圖或譜系圖。Clusterclusterproc<選項(xiàng)列表變量表變量變量變量表變量 proccluster語句<選項(xiàng)列表>data=輸入數(shù)據(jù)集——命名包含進(jìn)行聚類的觀察的輸入數(shù)據(jù)集。通過選項(xiàng)type=可以outtree=輸出數(shù)據(jù)集——tree,average(,centroid(comple(singl(media(densit(flexibl(twostag(,em(mcquitty(相似分析法standard——nonorm——距離被正態(tài)化成均數(shù)為1或均為1nosquare——過程在method=average、centroid、median、ward方法中距離數(shù)mode=n——n個(gè)成員。method=density或twostage時(shí)一起使用。penalty=p——methodemlp02trim=p——要求從分析中刪去那些概率密度估計(jì)較小的點(diǎn)。p0100method=wardcomplete時(shí),因類可能被異常值嚴(yán)重地歪曲,最好使用這個(gè)選項(xiàng)。也可用于method=single中。dim=n——methoddensity或twostage時(shí)指定使用的維數(shù)。n的值必須大于11。hybrid——Wongk均值法的初始聚類分析中的均method=density或twostage時(shí)使用。k=n——kn2且小于觀察r=n——指明均勻核密度估計(jì)法的支撐球半徑。n0notie——cluster過程在聚類歷史過程中檢查每次產(chǎn)生的類間最小距離連(ties)rsquare——打印輸出R2和半偏R2rmsstd——打印輸出每一類的均標(biāo)準(zhǔn)差ccc——要求打印輸出在均勻的原假設(shè)下判斷聚類分成幾類合適的一種立方聚類準(zhǔn)則統(tǒng)計(jì)量cc和近似期望值2。同時(shí)打印輸出選項(xiàng)quae有關(guān)的2和半偏2適合于ehod=nge,因?yàn)樵摲椒ㄈ菀讋h掉分布的結(jié)尾部分。pseudo——F統(tǒng)計(jì)量(PSF)和偽t2統(tǒng)計(jì)量(PST2)。當(dāng)simple——std——在輸出報(bào)表中,可以根據(jù)輸出的 sf和pst2統(tǒng)計(jì)量確定多少分類數(shù)較合適。當(dāng)和psfpst21copy語句——outtree=rmsstd語句——當(dāng)輸入數(shù)據(jù)集中的坐標(biāo)數(shù)據(jù)代表類的均值時(shí),定義表示均標(biāo)準(zhǔn)freq語句中的變量配合使用。cluster過程的輸出結(jié)果包括觀察值間均距離、聚類數(shù)目等FastclusFastclus過程稱為快速聚類過程或動(dòng)態(tài)聚類過程。它是根據(jù)由一個(gè)或幾個(gè)定量變量計(jì)算的k出很好的分類結(jié)果,這些類之間互不相交。當(dāng)需要聚類的樣品數(shù)較多時(shí),如果采用cluster過fastclus過程就能很快地Fastclus②通過可選擇地分配,把每一個(gè)觀察分配到與這些“凝聚點(diǎn)”中最近距離的類里來形成臨時(shí)類。每次對(duì)一個(gè)觀察進(jìn)行分類,同時(shí)對(duì)加入的“凝聚點(diǎn)”更新為這一③重復(fù)步驟②直到所有觀察分配完成之后,這些類的“凝聚點(diǎn)”用臨時(shí)類的均值替代。0時(shí)停止;④距離。特別要注意,fastclus過程對(duì)異常點(diǎn)很敏感,通常會(huì)把異常點(diǎn)分配為單獨(dú)的一個(gè)類,因fastclusprocfastclus 變量 變量 變量 procfastclus語句<選項(xiàng)列表>4①data=輸入數(shù)據(jù)集——seed=輸入數(shù)據(jù)集——SAS②100radius=t——為選擇新的“凝聚點(diǎn)”指定最小距離準(zhǔn)則。當(dāng)一個(gè)觀察點(diǎn)與已有“凝聚點(diǎn)”tt0。要注t值,可以得到好的分類結(jié)果。maxclusters=radius=replacefull|part|none|random——指定“凝聚點(diǎn)”的替換方式。full為用統(tǒng)計(jì)方法替換,缺省值;part為僅當(dāng)觀察點(diǎn)與最近的“凝聚點(diǎn)”距離大于“凝聚點(diǎn)”之間的最小距離時(shí),那么有一個(gè)老的“凝聚點(diǎn)”被替換;none為“凝聚點(diǎn)”的替換;random為從完整的觀察樣本③convergec=c(conv=c)——指定收斂的判斷準(zhǔn)則,c為任意非負(fù)值,缺省值為0.02。c值時(shí),循環(huán)過maxiter=n——strict=s——s④distance——list——id變量值,觀察所歸入類的類號(hào),及觀察與最終“凝聚點(diǎn)”var、id、freq、weight、by等語句,意義同其他聚類過程中的語句,不再贅述。fastclusstandard程轉(zhuǎn)換成標(biāo)準(zhǔn)分(例如:procstandardmean=0std=1out=abc;varx1x2;)factor過程產(chǎn)生因fastclus過程加以聚類。varcusvarcus過程能夠被用來作為變量壓縮的方法。對(duì)于含有很多變量的變量集,常常用信息損失很少的類分量集替代若采用相關(guān)矩陣的信息則所有變量都當(dāng)協(xié)方差矩陣分析時(shí).某變量有較大方差,該變量則較為重要。varclus過程生成的輸出數(shù)據(jù)集,可score過程計(jì)算出每類的得分。varclus①首先挑選一個(gè)將被的類。根據(jù)規(guī)定的選項(xiàng),選中的類應(yīng)該是:或者用它的類分②把選中的類成兩個(gè)類先計(jì)算出開頭兩個(gè)主成份再進(jìn)行斜交旋轉(zhuǎn)并把每個(gè)變量分配到旋轉(zhuǎn)分量對(duì)應(yīng)的類里,分配原則為使變量與這個(gè)主成份的相關(guān)系數(shù)最大。③變量重新分類。通過迭代,變量被重新分配到這些類里,使得由這些類分量所解釋④當(dāng)每一類滿足用戶規(guī)定的準(zhǔn)則時(shí),過程停止迭代。用戶準(zhǔn)則:或者是每個(gè)類分量所1,則過程停止。varclusproc<選項(xiàng)列表變量表變量表變量表變量變量變量表procvarclus語句<選項(xiàng)列表>4①data=輸入數(shù)據(jù)集——type=corrucorrcovucorsscpoutstat=輸出數(shù)據(jù)集——均值、標(biāo)準(zhǔn)差、相關(guān)系數(shù)、類得分系數(shù)和聚類結(jié)構(gòu)outtree=輸出數(shù)據(jù)集——tree②minc=n——最小聚類個(gè)數(shù)(默認(rèn)為lmaxc=n——maxeigen=n——percent=n——③centroid——maxiter=n——maxsearch=n——cov——hi——initial=group|input|random|seed——④corr——simple——short——summary——trace——var、partial、seed、freq、weight、by語句,意義同其他聚類過程中的語句,不再Treeclustervarclus過程生成的數(shù)據(jù)集來繪制樹狀結(jié)構(gòu)圖。這個(gè)樹狀結(jié)構(gòu)圖可以按垂直或水平方向輸出。tree過程可以把輸入數(shù)據(jù)集中的任何數(shù)值變量都能夠用來規(guī)定這treeproc<選項(xiàng)列表變量變量變量變量變量表變量變量表proctree語句<選項(xiàng)列表>3①data=輸入數(shù)據(jù)集——clustervarclusout=輸出數(shù)據(jù)集——②level=n——out=的輸出數(shù)據(jù)集,規(guī)定確定不相交類的樹狀圖水平(層次ncl=n——out=dock=n——當(dāng)某個(gè)類中的對(duì)象(觀察或變量)nout=的輸clusterclusnamen0。root=“名稱值”——name變量③height=常規(guī)變量——規(guī)定在樹狀圖中用以確定高度軸的常規(guī)變量。常規(guī)變量為h/l/m/n,分別指_height_變量、根到自己節(jié)點(diǎn)的路徑長(zhǎng)度、_mode_變量、_ncl_maxh=n——minh=n——ntich=n——pages=n——pos=n——spaces=n——tickpos=n——fillchar=“字母”——joinchar=“字母”——規(guī)定已連成一類的樹葉之間的打印字符。缺省值為X.——規(guī)定表示有子輩的類的打印字符。缺省值為“X④其他選項(xiàng)sort——heightdes——sortlist——noprint——out=graphics——graph窗口中輸出高分辨率的樹狀圖,類的合并用連接線歸納表name語句——規(guī)定一個(gè)字符或數(shù)值變量,用以標(biāo)識(shí)每個(gè)觀察代表的節(jié)點(diǎn)。name變parent變量聯(lián)合確定樹的結(jié)構(gòu)。語句缺省時(shí)尋找_name_變量。parent語句——規(guī)定一個(gè)字符或數(shù)值變量,用以標(biāo)識(shí)每個(gè)觀察的父輩節(jié)點(diǎn)。語句缺height語句——規(guī)定一個(gè)數(shù)值變量用于定義這個(gè)樹中每個(gè)節(jié)點(diǎn)(類)的高度。高度height=規(guī)定。copy語句——把語句中列出的一個(gè)或幾個(gè)變量到out=的輸出數(shù)據(jù)集中id語句——id一、使用CLUSTER過程和TREE過程進(jìn)行系統(tǒng)聚大學(xué)以上文化程度的人口占全部人口的比例初中文化程度的人口占全部人口的比例文盲半文盲人口占全部人口的比例表13-11990年人口普查文化程度人口比例地序24298河32415山4內(nèi)5遼62328吉72黑龍263111江浙12317福1615江1816山251626湖2212廣海221321161424云1325344陜11627青13-1sy13_113-1datainput DXCZlabeldq='地區(qū)'dx='大學(xué)'cz='初中'wm='文盲';9.330.558.7河山內(nèi)河山內(nèi)遼吉黑龍江浙福江山湖廣海云陜青;procclusterdata=sy13_1standardmethod=ward/*ward可以換成averagemedianflexible等*/outtree=otreepseudo;/*pseudo要求輸出偽Ft2統(tǒng)計(jì)量*/vardxczwm;copydq;(ward(average(median13-2圖13-2相關(guān)系數(shù)矩陣特征值方面的信最后兩行給出的是樣本均標(biāo)準(zhǔn)差以及樣品間均距離。運(yùn)行結(jié)果第二部分為聚類分析的完整過程(ClusterHistory)13-3圖13-3聚類過“--ClustersJoined表示某一個(gè)原始樣品,而CL R2RSQR2PSFPST2NCL個(gè)類越分開,故聚類的效果好。R201R2的值總是隨著分NCLR2n個(gè)樣品分為幾類最為合適。3個(gè)類之前(NCL>3)R23類=3個(gè)類是較合適的。查看R2變化的大小也可以由合并類時(shí)的半偏R2(列標(biāo)題為SPRSQ)得到。半偏R2的值是上一步R2與該步R2的差值,故某步的半偏R2值越大,說明上一步合并的效果好。本例中半R2NCL=12R2準(zhǔn)則分為兩個(gè)類或三個(gè)類是較合適F統(tǒng)計(jì)量(PSF)NCLF值越大表示這NCLF無局部最大值。t2t2值大表明上一次t2最大和次大分別為NCL=23t2準(zhǔn)則分為三個(gè)類或四個(gè)類是較合適的。由此看出:R2t2統(tǒng)計(jì)量支持分為三類或四類。綜合分析認(rèn)Ward29個(gè)地區(qū)分為三類較合適。TREE13-4proctreedata=otreehorizontal;IDdq;圖13-4標(biāo)準(zhǔn)化數(shù)據(jù)的譜系聚類從圖中可見分為三類的結(jié)果為G1={G2=河北內(nèi)蒙山西,吉林,黑龍江,遼寧,江蘇,浙東,,,福建,江西,湖南,,廣西,海南,,陜西,},3={,,,云南,,青海,。二、使用VARCLUSTREE過程進(jìn)行變量聚13-24815項(xiàng)指標(biāo)打表13- 項(xiàng)指標(biāo)得分情求信外貌專能喜自心洞力誠(chéng)實(shí)推能經(jīng)驗(yàn)駕水事心理能潛能交能適性8975795899599888783698974998685685659284587656888449585588777776875965866699888888889899989988999999788885989888472739347083959825474782883769854944454768898963825266756488754275366466967898988768687779586678667868848864336726467847854426835448788952679889386888536788589878938887799939998987829799869774593244445478785482345655627989535676456353535003300504343300004400504656943843255348333577932537552235779322364523496488999791285526998699780212020300380110000000349824536286888865969772793350002200000600mylib.sy13_2圖13-5數(shù)據(jù)集VARCLUSOPTIONSPS=500; /*要求輸出的結(jié)果中每頁500行內(nèi)容,可避免不必要的SAS標(biāo)題反復(fù)出現(xiàn)。*/PROCVARCLUSdata=Mylib.sy13_2outtree=otree;varx1-x15;說明:默認(rèn)的變量聚類方法是主成分聚類法,每次按第二特征值最大選擇的類。選項(xiàng):centroid11513-67.513794(大于允許的最大值:maxeigen=1,需要進(jìn)一步分類。第2步將1類成2類 圖13-6變量聚類第113-7圖13-7聚類概114VariationExplained(解釋方差,即第一特征值、ProportionExplained(解釋方差占本類總方差的百分比、Second(第二特征值)等。此時(shí)能解釋的方差為9.190276,占總方差15的61.27%。第1類分量的1.3915,需要進(jìn)一步分類。第二部分(13-8)R23R-SquaredWithOwnClusterR2x21類中,它與1類分量之間的R2是0.3671,同理可理解該列中的其他相關(guān)系數(shù)的含義。圖13-8相關(guān)系數(shù)的平4R-squaredwithNextClosest是指每個(gè)變量與相鄰類的類分量之間的相關(guān)系數(shù)的平R22R20.0918,該值越小,說明分類越合5R-squaredwith1-R**2Ratio1R**2Ratio1(RsquaredwithOwn1(RsquaredwithNext如:(1–0.3377)/(1–0.0918)=0.7292,此值越小,表明分類越合理。從此列可看出,很152類是不太合適的。第三部分(圖13-9)給出從標(biāo)準(zhǔn)化變量類分量的標(biāo)準(zhǔn)回歸系數(shù)。各變量只對(duì)本類的0。 圖13-9標(biāo)準(zhǔn)回歸系 圖13-10類結(jié)第四部分(13-10)組合。如:x1=0.334308C1+0.793821C2。第五部分(13-11)圖13-11類內(nèi)相第3步將2類成3類,輸出結(jié)果分為五部分第一部分(圖13-12)給出將2類成3類時(shí)的聚類概要。3個(gè)類分別含8個(gè)、4個(gè)310.449111569.66圖13-12聚類概第二部分(圖13-13)給出分三類時(shí)有關(guān)相關(guān)系數(shù)平方R2圖13-13相關(guān)系數(shù)平第三部分(13-14)圖13-14標(biāo)準(zhǔn)回歸系第四部分(13-15)C1、C2、C3123C1=0.097x2+0.146x5+0.150x6+0.154x8+0.143x10+0.154x11+0.153x12+0.150x13C2=0.349x1+0.135x3+0.388x9+0.386x15C3=0.0.419x4+0.370x7+圖13-15類結(jié)第五部分(13-16)圖13-16類分量之間的相關(guān)系數(shù)4步:經(jīng)過判斷,分三類后無需再進(jìn)一步分類(21最后給出整個(gè)聚類過程的匯總信息(13-17 圖13-17匯總信1類、231類、3151類、31151類、231。1R2;第⑥列為各類中(1-R2)own/(1-R2)next的最大比值。參見前面輸出結(jié)果及其解釋。TREE13-18所示。PROCTREEdata=otreehorizontalgraphics;圖13-18譜系從圖中可以直到,可將所有15個(gè)指標(biāo)分成3類第二類包括三個(gè)變

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論