聚類分析的案例分析和聚類分析實(shí)例分析題_第1頁
聚類分析的案例分析和聚類分析實(shí)例分析題_第2頁
聚類分析的案例分析和聚類分析實(shí)例分析題_第3頁
聚類分析的案例分析和聚類分析實(shí)例分析題_第4頁
聚類分析的案例分析和聚類分析實(shí)例分析題_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

《應(yīng)用多元統(tǒng)計(jì)分析》——報(bào)告班級:學(xué)號:姓名:聚類分析的案例分析摘要本文主要用SPSS軟件對實(shí)驗(yàn)數(shù)據(jù)運(yùn)用系統(tǒng)聚類法和K均值聚類法進(jìn)行聚類分析,從而實(shí)現(xiàn)聚類分析及其運(yùn)用。利用聚類分析研究某化工廠周圍的幾個(gè)地區(qū)的氣體濃度的情況,從而判斷出這幾個(gè)地區(qū)的污染程度。經(jīng)過聚類分析可以得到,樣本6這一地區(qū)的氣體濃度值最高,污染程度是最嚴(yán)重的,樣本3和樣本4氣體濃度較高,污染程度也比較嚴(yán)重,因此要給予及時(shí)的控制和改善。關(guān)鍵詞:SPSS軟件聚類分析學(xué)生成績數(shù)學(xué)模型聚類分析的基本思想是認(rèn)為各個(gè)樣本與所選擇的指標(biāo)之間存在著不同程度的相似性??梢愿鶕?jù)這些相似性把相似程度較高的歸為一類,從而對其總體進(jìn)行分析和總結(jié),判斷其之間的差距。系統(tǒng)聚類法的基本思想是在這幾個(gè)樣本之間定義其之間的距離,在多個(gè)變量之間定義其相似系數(shù),距離或者相似系數(shù)代表著樣本或者變量之間的相似程度。根據(jù)相似程度的不同大小,將樣本進(jìn)行歸類,將關(guān)系較為密切的歸為一類,關(guān)系較為疏遠(yuǎn)的后歸為一類,用不同的方法將所有的樣本都聚到合適的類中,這里我們用的是最近距離法,形成一個(gè)聚類樹形圖,可據(jù)此清楚的看出樣本的分類情況。K均值法是將每個(gè)樣品分配給最近中心的類中,只產(chǎn)生指定類數(shù)的聚類結(jié)果。數(shù)據(jù)來源《應(yīng)用多元統(tǒng)計(jì)分析》第一版164頁第6題我國山區(qū)有一某大型化工廠,在該廠區(qū)的鄰近地區(qū)中挑選其中最具有代表性的8個(gè)大氣取樣點(diǎn),在固定的時(shí)間點(diǎn)每日4次抽取6種大氣樣本,測定其中包含的8個(gè)取樣點(diǎn)中每種氣體的平均濃度,數(shù)據(jù)如下表。試用聚類分析方法對取樣點(diǎn)及大氣污染氣體進(jìn)行分類。建立數(shù)學(xué)模型運(yùn)行過程(一)系統(tǒng)聚類分析在SPSS界面對上述數(shù)據(jù)進(jìn)行系統(tǒng)聚類分析如圖1和圖2所示,進(jìn)行最近距離分類。圖1圖2(二)K均值聚類分析對數(shù)據(jù)進(jìn)行K均值聚類分析,如下圖所示:圖3圖4圖5運(yùn)行結(jié)果聚類樹形圖圖6由圖可以看出,將數(shù)據(jù)進(jìn)行聚類分析,根據(jù)設(shè)定的分為了二類到三類。若分為兩類則樣本6為一類,其他為一類;若分為三類則將樣本四分離出來,其他分為一類。新變量圖7該圖顯示將分類結(jié)果的新變量,分別為CLU3_1和CLU2_1。可以清楚的看到將數(shù)據(jù)聚為2類和3類的分類情況。新變量迭代過程中類中心的變化量迭代歷史記錄a迭代聚類中心內(nèi)的更改12341.049.042.000.0742.000.000.000.000a.由于聚類中心內(nèi)沒有改動或改動較小而達(dá)到收斂。任何中心的最大絕對坐標(biāo)更改為.000。當(dāng)前迭代為2。初始中心間的最小距離為.230。圖8從表中可以看出本次聚類過程共進(jìn)行了兩次迭代。由于我們在Iterate子對話框中設(shè)置最大迭代次數(shù)為10和收斂判據(jù)為0,所以在第二次迭代后,類中心的變化為0,從而迭代停止。各觀測量所屬類成員表聚類成員案例號聚類距離11.04921.07134.07444.07452.04263.00072.04281.060圖9最終類中心表最終聚類中心聚類1234X1.0580.0660.0640.0360X2.0753.0775.0720.1125X3.0527.0455.1000.0685X4.0660.2900.2100.1650X5.0397.0250.0280.1290X6.0168.03851.3800.0360圖10根據(jù)結(jié)果(五)和結(jié)果(六)可以看出,將8個(gè)樣本聚為了4類。第一類包括樣本1、樣本2和樣本8,根據(jù)圖1中聚類1這一列可以看出,這一類為這四類中氣體濃度值最低的一類,也就是說該類的環(huán)境污染不嚴(yán)重,屬于優(yōu);第二類包括樣本5和樣本7,該類氣體濃度也是比較低的一類,環(huán)境污染有些嚴(yán)重,屬于良;第三類包括樣本6,這一氣體濃度最高,環(huán)境污染最嚴(yán)重,屬于差;第四類包括樣本3和樣本4,環(huán)境污染較嚴(yán)重,屬于中。新變量如圖所示,QCL_1為分類情況,而QCL_2為所屬類中心距離。結(jié)論通過在SPSS軟件中對聚類分析案例的運(yùn)用將不同的樣本聚為不同的類,并算出其間的距離更加清楚方便的將多項(xiàng)不同的樣本進(jìn)行聚類分析,并對其的總體情況進(jìn)行估計(jì),最后能夠得到各類別的氣體濃度總體情況,從而判斷出環(huán)境污染的嚴(yán)重情況。經(jīng)過這次實(shí)驗(yàn)學(xué)到了很多東西,遇到的問題也一一得到解決。5.2釀酒葡萄的等級劃分5.2.1葡萄酒的質(zhì)量分類由問題1中我們得知,第二組評酒員的的評價(jià)結(jié)果更為可信,所以我們通過第二組評酒員對于酒的評分做出處理。我們通過excel計(jì)算出每位評酒員對每支酒的總分,然后計(jì)算出每支酒的10個(gè)分?jǐn)?shù)的平均值,作為總的對于這支酒的等級評價(jià)。通過國際釀酒工會對于葡萄酒的分級,以百分制標(biāo)準(zhǔn)評級,總共評出了六個(gè)級別(見表5)。表5:葡萄酒等級表等級特優(yōu)優(yōu)優(yōu)良良及格不及格分?jǐn)?shù)95-10090-9480-8970-7960-690-59在問題2的計(jì)算中,我們求出了各支酒的分?jǐn)?shù),考慮到所有分?jǐn)?shù)在區(qū)間[61.6,81.5]波動,以原等級表分級,結(jié)果將會很模糊,不能分得比較清晰。為此我們需要進(jìn)一步細(xì)化等級。為此我們重新細(xì)化出5個(gè)等級,為了方便計(jì)算,我們還對等級進(jìn)行降序數(shù)字等級(見表6)。表6:細(xì)化后的葡萄酒等級表等級偏優(yōu)偏優(yōu)良良中及格分?jǐn)?shù)80-8475-7970-7465-6960-64數(shù)字等級54321通過對數(shù)據(jù)的預(yù)處理,我們得到了一個(gè)新的關(guān)于葡萄酒的分級表格(見表7):表7:各支葡萄酒的等級編號紅酒原等級細(xì)化等級白酒原等級細(xì)化等級1號68.12277.9342號743375.8343號74.63475.6344號71.23376.9345號72.13381.5456號66.32275.5347號65.32274.2338號662272.3339號78.23480.44510號68.82279.83411號61.62171.43312號68.32272.43313號68.82273.93314號72.63377.13415號65.72278.43416號69.92367.32217號74.53380.34518號65.42276.73419號72.63376.43420號75.83476.63421號72.23279.23422號71.63379.43423號77.13477.43424號71.53376.13425號68.22279.53426號723374.33327號71.533773428號79.634經(jīng)過整理,我們初步得到了對于葡萄酒的質(zhì)量的分類的表格。考慮到葡萄酒的質(zhì)量與釀酒葡萄間有比較之間的關(guān)系,我們將保留葡萄酒質(zhì)量對于釀酒葡萄的影響,先單純從釀酒葡萄的理化指標(biāo)對釀酒葡萄進(jìn)行分類,然后在通過葡萄酒質(zhì)量對釀酒葡萄質(zhì)量的優(yōu)劣進(jìn)一步進(jìn)行劃分。5.2.2建立模型在通過釀酒葡萄的理化指標(biāo)對釀酒葡萄分類的過程,我們用到了聚類分析方法中的ward最小方差法,又叫做離差平方和法。聚類分析是研究分類問題的一種多元統(tǒng)計(jì)方法。所謂類,通俗地說,就是指相似元素的集合。為了將樣品進(jìn)行分類,就需要研究樣品之間關(guān)系。這里的最小方差法的基本思想就是將一個(gè)樣品看作P維空間的一個(gè)點(diǎn),并在空間的定義距離,距離較近的點(diǎn)歸為一類;距離較遠(yuǎn)的點(diǎn)歸為不同的類。面對現(xiàn)在的問題,我們不知道元素的分類,連要分成幾類都不知道?,F(xiàn)在我們將用SAS系統(tǒng)里面的stepdisc和cluster過程完成判別分析和聚類分析,最終確定元素對象的分類問題。建立數(shù)據(jù)陣,具體數(shù)學(xué)表示為:QUOTEX=x11?x1m??式中,行向量QUOTEXi=(xi1,…,x列向量QUOTEXj=x1j,…,xnj’接下來我們將要對數(shù)據(jù)進(jìn)行變化,以便于我們比較和消除綱量。在此我們用了使用最廣范的方法,ward最小方差法。其中用到了類間距離來進(jìn)行比較,定義為:QUOTEDkl=||Xk-XLWard方法并類時(shí)總是使得并類導(dǎo)致的類內(nèi)離差平方和增量最小。系統(tǒng)聚類數(shù)的確定。在聚類分析中,系統(tǒng)聚類最終得到的一個(gè)聚類樹,如何確定類的個(gè)數(shù),這是一個(gè)十分困難但又必須解決的問題;因?yàn)榉诸惐旧砭蜎]有一定標(biāo)準(zhǔn),人們可以從不同的角度給出不同的分類。在實(shí)際應(yīng)用中常使用下面幾種方法確定類的個(gè)數(shù)。由適當(dāng)?shù)拈y值確定,此處閥值為。根據(jù)樣本的散點(diǎn)圖直觀的確定。當(dāng)樣本所含指標(biāo)只有2個(gè)或3個(gè)時(shí),可運(yùn)用散點(diǎn)圖直觀觀察。如果指標(biāo)超過3個(gè)時(shí),可用主成份法先綜合指標(biāo)。根據(jù)統(tǒng)計(jì)量確定分類個(gè)數(shù)。在SAS中,提供了一些來自方差分析思想的統(tǒng)計(jì)量近似檢驗(yàn)類個(gè)數(shù)如何選擇更合適。1)統(tǒng)計(jì)量:QUOTER2=1-SA2S其中,為分類數(shù)為k個(gè)數(shù)時(shí)的總類內(nèi)離差平方和,為所有樣品或變量的總離差平方和。QUOTER2越大,說明類內(nèi)的離差平方和在總離差平方和中比例較小,也就是分為k個(gè)類的效果越好。顯然分類越多,每個(gè)類離差越小,越大,所以我們只能取k使得足夠大,但k本身比較小,而且不再大幅度增加。2)半偏統(tǒng)計(jì)量:在把類和類合并為下一水平的類時(shí),定義半偏相關(guān):(5.2.4)其中為合并類引起的類內(nèi)離差平方和的增量:QUOTEST為類的類內(nèi)離差平方和。半偏用于評價(jià)單次合并效果,其值越大,說明上次合并效果越好。3)偽QUOTEF統(tǒng)計(jì)量:QUOTE偽F=(T-PK)/(k偽F統(tǒng)計(jì)量評價(jià)分為k個(gè)類的效果。偽統(tǒng)計(jì)量越大,表達(dá)分為k個(gè)類越合理。通常取偽F統(tǒng)計(jì)量較大而類數(shù)小的聚類水平。4)偽統(tǒng)計(jì)量:QUOTEt2=BkL/((S用此統(tǒng)計(jì)量評價(jià)合并類和類的效果,該值大說明合并的兩個(gè)類和類是很分開的,這個(gè)合并不成功,而應(yīng)該去合并前的水平。通過使用sas軟件的cluster過程和tree過程,可以求解分析出結(jié)果。5.2.3模型的求解與分析首先,我們利用附件2中白葡萄酒中釀酒葡萄的59個(gè)理化指標(biāo),通過聚類分析,把釀酒葡萄分成五類,得到初步的結(jié)果(見圖3):從圖中我們能夠直觀的看到把釀酒葡萄分為5大類,為了檢驗(yàn)效果,我們通過判別分析檢驗(yàn)原本的28種葡萄分類的結(jié)果,得到表8.表8:誤判概率表(具體表見附錄)組號12345概率0.27270.12500.33330.40001.000在誤差一欄我們看到,每一組的分類都存在或多或少的誤差,我們覺得這個(gè)結(jié)果是不滿意的。為了進(jìn)一步優(yōu)化方案以及簡化分析過程,我們利用逐步判別法對參與分類的因素進(jìn)行逐步剔除,以達(dá)到減少噪聲干擾的目的,讓得到的結(jié)果更加合理和完善。通過逐步判別法,我們剔除了原本59個(gè)數(shù)據(jù)中的35個(gè)相關(guān)不大,造成干擾的因素,剩下了24個(gè)因素。經(jīng)過剔除干擾項(xiàng)后,為了檢驗(yàn)剔除后干擾項(xiàng)后的結(jié)果是否更加合理,我們重新對剩余的24個(gè)因素進(jìn)行了聚類分析,做譜系聚類圖和判別分析。得到了新的結(jié)果(見表9):表9:優(yōu)化后的聚類分析部分結(jié)果(詳細(xì)見附錄)分類數(shù)樣品數(shù)半偏偽統(tǒng)計(jì)量偽統(tǒng)計(jì)量640.01710.91547.69.1560.05000.86537.06.14110.06120.80432.917.33210.10320.70129.317.9270.16480.53630.110.01280.53620.30.1綜合個(gè)數(shù)據(jù)檢驗(yàn),把葡萄分為5個(gè)類別是比較合理的一種方案,為了檢驗(yàn)與之前的差異我們得到了新的譜系聚類圖(見圖4)圖3:譜系聚類圖圖4:優(yōu)化后的譜系聚類圖通過對比前后的兩圖,我們可以發(fā)現(xiàn),分類的結(jié)果除了組間的類別有點(diǎn)波動之外,整體的分組是沒有改變的。所以,我們第一步得到了優(yōu)化結(jié)果的可靠。但僅僅用圖說明是不夠的,為此我們通過判別分析法,通過具體數(shù)據(jù)來說明分析結(jié)果的可靠。表10:優(yōu)化后的判別分析表數(shù)據(jù)組號12345概率000.166701.000我們不難發(fā)現(xiàn),表中的錯(cuò)誤只在第3組出現(xiàn)了0.1667的誤差,其他組是沒有存在誤差的。這個(gè)結(jié)果是比較令人滿意也令人信服的。由此,我們得到的結(jié)果是,我們此次對于白葡萄酒的釀酒葡萄進(jìn)行的分類是合理可靠的。具體分類結(jié)果為:表11:白葡萄酒釀酒葡萄分類分類/組數(shù)組別A/共組P1,P8,P13,P16,P17,P18,P19,P22B/共組P14,P21,P23C/共組P2,P3,P4,P6,P7,P9,P11,P12D/共組P10,P20,P25,P26E/共組P3,P5,P15,P24,P27,P28通過該組的成功檢驗(yàn),我們接下來將會對紅葡萄酒的釀酒葡萄進(jìn)行同算法的分類。由于用到的算法與檢驗(yàn)方法一樣,所以這里不再累贅,將直接輸出最后分組結(jié)果。部分詳細(xì)內(nèi)容見附錄。表12:紅葡萄酒釀酒葡萄的分類分類/組數(shù)組別A/共組P1,P4,P5,P8,P15,P17,P24B/共組P2,P7,P9,P11,P19,P20,P22,P23C/共組P10,P13,P14,P16,P25,P26,P27D/共組P6,P12,P18E/共組P3,P21分類完畢,接下來我們將利用關(guān)于紅酒質(zhì)量的評分等級來對對應(yīng)的葡萄進(jìn)行評分,首先應(yīng)該說明的是,爛葡萄是不能釀出好酒,根據(jù)這個(gè),我們可以客觀的說出一點(diǎn),一般好的葡萄能釀出好的酒,可能釀酒過程會意外讓酒變質(zhì)導(dǎo)致酒變差,但好的酒由好的葡萄釀制出來是毫無疑問的。為此我們把對于酒的等級相當(dāng)于對葡萄打分。每種葡萄分別得到分?jǐn)?shù),表示第種葡萄。通過將每組的葡萄總分除以組內(nèi)總數(shù)得到的數(shù)據(jù),對葡萄進(jìn)行分類,通過指標(biāo)的具體分?jǐn)?shù),我們就可以輕松對葡萄進(jìn)行等級劃分,結(jié)果見表13:表13:對白葡萄酒和紅葡萄酒的釀酒葡萄評價(jià)分類有:白葡萄酒釀酒葡萄得分等級E4.2特優(yōu)B4優(yōu)C,D3.75良好A3.62中紅葡萄酒釀酒葡萄得分等級B,E3良好A,C2.57中等D2及格procclusterdata=wgouttree=treemethod=wardcccpseudoprint=15;vara1-a59;idnumber;run;proctreedata=treeout=newnclusters=5graphics;copya1-a59;idnumber;run;procstepdiscdata=new;classcluster;run;procdiscrimdata=newoutstat=newstatmethod=normalpool=

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論