聚類分析實例分析題_第1頁
聚類分析實例分析題_第2頁
聚類分析實例分析題_第3頁
聚類分析實例分析題_第4頁
聚類分析實例分析題_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、精選優(yōu)質(zhì)文檔-傾情為你奉上5.2釀酒葡萄的等級劃分5.2.1葡萄酒的質(zhì)量分類由問題1中我們得知,第二組評酒員的的評價結(jié)果更為可信,所以我們通過第二組評酒員對于酒的評分做出處理。我們通過excel計算出每位評酒員對每支酒的總分,然后計算出每支酒的10個分數(shù)的平均值,作為總的對于這支酒的等級評價。通過國際釀酒工會對于葡萄酒的分級,以百分制標準評級,總共評出了六個級別(見表5)。表5:葡萄酒等級表等級特優(yōu)優(yōu)優(yōu)良良及格不及格分數(shù)95-10090-9480-8970-7960-690-59在問題2的計算中,我們求出了各支酒的分數(shù),考慮到所有分數(shù)在區(qū)間61.6,81.5波動,以原等級表分級,結(jié)果將會很模糊

2、,不能分得比較清晰。為此我們需要進一步細化等級。為此我們重新細化出5個等級,為了方便計算,我們還對等級進行降序數(shù)字等級(見表6)。表6:細化后的葡萄酒等級表等級偏優(yōu)偏優(yōu)良良中及格分數(shù)80-8475-7970-7465-6960-64數(shù)字等級54321通過對數(shù)據(jù)的預(yù)處理,我們得到了一個新的關(guān)于葡萄酒的分級表格(見表7):表7:各支葡萄酒的等級編號紅酒原等級細化等級白酒原等級細化等級1號68.12277.9342號743375.8343號74.63475.6344號71.23376.9345號72.13381.5456號66.32275.5347號65.32274.2338號662272.3339

3、號78.23480.44510號68.82279.83411號61.62171.43312號68.32272.43313號68.82273.93314號72.63377.13415號65.72278.43416號69.92367.32217號74.53380.34518號65.42276.73419號72.63376.43420號75.83476.63421號72.23279.23422號71.63379.43423號77.13477.43424號71.53376.13425號68.22279.53426號723374.33327號71.533773428號79.634經(jīng)過整理,我們初步得到了

4、對于葡萄酒的質(zhì)量的分類的表格??紤]到葡萄酒的質(zhì)量與釀酒葡萄間有比較之間的關(guān)系,我們將保留葡萄酒質(zhì)量對于釀酒葡萄的影響,先單純從釀酒葡萄的理化指標對釀酒葡萄進行分類,然后在通過葡萄酒質(zhì)量對釀酒葡萄質(zhì)量的優(yōu)劣進一步進行劃分。5.2.2建立模型在通過釀酒葡萄的理化指標對釀酒葡萄分類的過程,我們用到了聚類分析方法中的ward最小方差法,又叫做離差平方和法。聚類分析是研究分類問題的一種多元統(tǒng)計方法。所謂類,通俗地說,就是指相似元素的集合。為了將樣品進行分類,就需要研究樣品之間關(guān)系。這里的最小方差法的基本思想就是將一個樣品看作P維空間的一個點,并在空間的定義距離,距離較近的點歸為一類;距離較遠的點歸為不同

5、的類。面對現(xiàn)在的問題,我們不知道元素的分類,連要分成幾類都不知道。現(xiàn)在我們將用SAS系統(tǒng)里面的stepdisc和cluster過程完成判別分析和聚類分析,最終確定元素對象的分類問題。建立數(shù)據(jù)陣,具體數(shù)學(xué)表示為: (5.2.1)式中,行向量表示第個樣品;列向量,表示第j項指標。(i=1,2,n;j=1,2,m)接下來我們將要對數(shù)據(jù)進行變化,以便于我們比較和消除綱量。在此我們用了使用最廣范的方法,ward最小方差法。其中用到了類間距離來進行比較,定義為: (5.2.2)Ward方法并類時總是使得并類導(dǎo)致的類內(nèi)離差平方和增量最小。系統(tǒng)聚類數(shù)的確定。在聚類分析中,系統(tǒng)聚類最終得到的一個聚類樹,如何確定

6、類的個數(shù),這是一個十分困難但又必須解決的問題;因為分類本身就沒有一定標準,人們可以從不同的角度給出不同的分類。在實際應(yīng)用中常使用下面幾種方法確定類的個數(shù)。由適當(dāng)?shù)拈y值確定,此處閥值為。根據(jù)樣本的散點圖直觀的確定。當(dāng)樣本所含指標只有2個或3個時,可運用散點圖直觀觀察。如果指標超過3個時,可用主成份法先綜合指標。根據(jù)統(tǒng)計量確定分類個數(shù)。在SAS中,提供了一些來自方差分析思想的統(tǒng)計量近似檢驗類個數(shù)如何選擇更合適。1) 統(tǒng)計量: (5.2.3)其中,為分類數(shù)為k個數(shù)時的總類內(nèi)離差平方和,為所有樣品或變量的總離差平方和。越大,說明類內(nèi)的離差平方和在總離差平方和中比例較小,也就是分為k個類的效果越好。顯然

7、分類越多,每個類離差越小,越大,所以我們只能取k使得足夠大,但k本身比較小,而且不再大幅度增加。2)半偏統(tǒng)計量:在把類和類合并為下一水平的類時,定義半偏相關(guān): (5.2.4)其中為合并類引起的類內(nèi)離差平方和的增量: 為類的類內(nèi)離差平方和。半偏用于評價單次合并效果,其值越大,說明上次合并效果越好。3)偽統(tǒng)計量: (5.2.5)偽F統(tǒng)計量評價分為k個類的效果。偽統(tǒng)計量越大,表達分為k個類越合理。通常取偽F統(tǒng)計量較大而類數(shù)小的聚類水平。4) 偽統(tǒng)計量: (5.2.6)用此統(tǒng)計量評價合并類和類的效果,該值大說明合并的兩個類和類是很分開的,這個合并不成功,而應(yīng)該去合并前的水平。通過使用sas軟件的clu

8、ster過程和tree過程,可以求解分析出結(jié)果。5.2.3模型的求解與分析首先,我們利用附件2中白葡萄酒中釀酒葡萄的59個理化指標,通過聚類分析,把釀酒葡萄分成五類,得到初步的結(jié)果(見圖3):從圖中我們能夠直觀的看到把釀酒葡萄分為5大類,為了檢驗效果,我們通過判別分析檢驗原本的28種葡萄分類的結(jié)果,得到表8.表8:誤判概率表(具體表見附錄)組號12345概率0.27270.12500.33330.40001.000在誤差一欄我們看到,每一組的分類都存在或多或少的誤差,我們覺得這個結(jié)果是不滿意的。為了進一步優(yōu)化方案以及簡化分析過程,我們利用逐步判別法對參與分類的因素進行逐步剔除,以達到減少噪聲干

9、擾的目的,讓得到的結(jié)果更加合理和完善。通過逐步判別法,我們剔除了原本59個數(shù)據(jù)中的35個相關(guān)不大,造成干擾的因素,剩下了24個因素。經(jīng)過剔除干擾項后,為了檢驗剔除后干擾項后的結(jié)果是否更加合理,我們重新對剩余的24個因素進行了聚類分析,做譜系聚類圖和判別分析。得到了新的結(jié)果(見表9):表9:優(yōu)化后的聚類分析部分結(jié)果 (詳細見附錄)分類數(shù)樣品數(shù)半偏偽統(tǒng)計量偽統(tǒng)計量640.01710.91547.69.1560.05000.86537.06.14110.06120.80432.917.33210.10320.70129.317.9270.16480.53630.110.01280.53620.30.

10、1綜合個數(shù)據(jù)檢驗,把葡萄分為5個類別是比較合理的一種方案,為了檢驗與之前的差異我們得到了新的譜系聚類圖(見圖4)圖3:譜系聚類圖 圖4:優(yōu)化后的譜系聚類圖通過對比前后的兩圖,我們可以發(fā)現(xiàn),分類的結(jié)果除了組間的類別有點波動之外,整體的分組是沒有改變的。所以,我們第一步得到了優(yōu)化結(jié)果的可靠。但僅僅用圖說明是不夠的,為此我們通過判別分析法,通過具體數(shù)據(jù)來說明分析結(jié)果的可靠。表10:優(yōu)化后的判別分析表數(shù)據(jù)組號12345概率000.166701.000我們不難發(fā)現(xiàn),表中的錯誤只在第3組出現(xiàn)了0.1667的誤差,其他組是沒有存在誤差的。這個結(jié)果是比較令人滿意也令人信服的。由此,我們得到的結(jié)果是,我們此次對

11、于白葡萄酒的釀酒葡萄進行的分類是合理可靠的。具體分類結(jié)果為: 表11:白葡萄酒釀酒葡萄分類分類/組數(shù)組別A/共組P1,P8,P13,P16,P17,P18,P19,P22B/共組P14,P21,P23C/共組P2,P3,P4,P6,P7,P9,P11,P12D/共組P10,P20,P25,P26E/共組P3,P5,P15,P24,P27,P28通過該組的成功檢驗,我們接下來將會對紅葡萄酒的釀酒葡萄進行同算法的分類。由于用到的算法與檢驗方法一樣,所以這里不再累贅,將直接輸出最后分組結(jié)果。部分詳細內(nèi)容見附錄。 表12:紅葡萄酒釀酒葡萄的分類分類/組數(shù)組別A/共組P1,P4,P5,P8,P15,P1

12、7,P24B/共組P2,P7,P9,P11,P19,P20,P22,P23C/共組P10,P13,P14,P16,P25,P26,P27D/共組P6,P12,P18E/共組P3,P21分類完畢,接下來我們將利用關(guān)于紅酒質(zhì)量的評分等級來對對應(yīng)的葡萄進行評分,首先應(yīng)該說明的是,爛葡萄是不能釀出好酒,根據(jù)這個,我們可以客觀的說出一點,一般好的葡萄能釀出好的酒,可能釀酒過程會意外讓酒變質(zhì)導(dǎo)致酒變差,但好的酒由好的葡萄釀制出來是毫無疑問的。為此我們把對于酒的等級相當(dāng)于對葡萄打分。每種葡萄分別得到分數(shù),表示第種葡萄。通過將每組的葡萄總分除以組內(nèi)總數(shù)得到的數(shù)據(jù),對葡萄進行分類,通過指標的具體分數(shù),我們就可以

13、輕松對葡萄進行等級劃分,結(jié)果見表13:表13:對白葡萄酒和紅葡萄酒的釀酒葡萄評價分類有:白葡萄酒釀酒葡萄得分等級E4.2特優(yōu)B4優(yōu)C,D3.75良好A3.62中紅葡萄酒釀酒葡萄得分等級B,E3良好A,C2.57中等D2及格proc cluster data=wg outtree=tree method=wardccc pseudo print=15;var a1-a59;id number;run;proc tree data=tree out=new nclusters=5 graphics;copy a1-a59;id number;run;proc stepdisc data=new;c

14、lass cluster;run;proc discrim data=new outstat=newstat method=normal pool=yes listcrossvalidate;class cluster;priors proportional;var a1-a59;附錄四:第二小題,優(yōu)化后的數(shù)據(jù)運行程序proc cluster data=nwg outtree=tree method=wardccc pseudo print=15;var b1-b24;id number;run;proc tree data=tree out=new nclusters=5 graphics;copy b1-b24;id number;run;proc stepdisc data=new;class cluster;run;proc discrim data=new outstat=newstat method=normal pool=yes listcrossvalidate;class cluster;priors proportional;var b1-b24;run;附錄五:原判別分析表附錄六:優(yōu)化后的判別分析表在表中的各列數(shù)據(jù)代表的意思是:”NCL”

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論