聚類分析實(shí)例分析題(推薦文檔_第1頁
聚類分析實(shí)例分析題(推薦文檔_第2頁
聚類分析實(shí)例分析題(推薦文檔_第3頁
聚類分析實(shí)例分析題(推薦文檔_第4頁
聚類分析實(shí)例分析題(推薦文檔_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、5.2釀酒葡萄的等級劃分5.2.1葡萄酒的質(zhì)量分類由問題1中我們得知,第二組評酒員的的評價(jià)結(jié)果更為可信,所以我們通過 第二組評酒員對于酒的評分做出處理。我們通過excel計(jì)算出每位評酒員對每支 酒的總分,然后計(jì)算出每支酒的10個(gè)分?jǐn)?shù)的平均值,作為總的對于這支酒的等 級評價(jià)。通過國際釀酒工會對于葡萄酒的分級,以百分制標(biāo)準(zhǔn)評級,總共評出了六個(gè)級別(見表5)0表5:葡萄酒等級表等級特優(yōu)優(yōu)優(yōu)良良及格不及格分?jǐn)?shù)95-10090-9480-8970-7960-690-59在問題2的計(jì)算中,我們求出了各支酒的分?jǐn)?shù),考慮到所有分?jǐn)?shù)在區(qū)間61.6, 81.5波動,以原等級表分級,結(jié)果將會很模糊,不能分得比較清晰

2、。為此我們 需要進(jìn)一步細(xì)化等級。為此我們重新細(xì)化出5個(gè)等級,為了方便計(jì)算,我們還對 等級進(jìn)行降序數(shù)字等級(見表60 0表6:細(xì)化后的葡萄酒等級表等級偏優(yōu)偏優(yōu)良良中及格分?jǐn)?shù)80-8475-7970-7465-6960-64數(shù)字等級54321通過對數(shù)據(jù)的預(yù)處理,我們得到了一個(gè)新的關(guān)于葡萄酒的分級表格(見表70:表7:各支葡萄酒的等級編號紅酒原等級細(xì)化等級白酒原等級細(xì)化等級1號68.12277.9342號743375.8343號74.63475.6344號71.23376.9345號72.13381.5456號66.32275.5347號65.32274.2338號662272.3339號78.23

3、480.44510號68.82279.83411號61.62171.43312號68.32272.43313號68.82273.93314號72.63377.13415號65.72278.43416號69.92367.32217號74.53380.34518號65.42276.73419號72.63376.43420號75.83476.63421號72.23279.23422號71.63379.43423號77.13477.43424號71.53376.13425號68.22279.53426號723374.33327號71.533773428號79.6345.2.2建立模型在通過釀酒葡萄的理

4、化指標(biāo)對釀酒葡萄分類的過程,我們用到了聚類分析方法中的ward最小方差法,又叫做離差平方和法。聚類分析是研究分類問題的一種多元統(tǒng)計(jì)方法。所謂類,通俗地說,就是指 相似元素的集合。為了將樣品進(jìn)行分類,就需要研究樣品之間關(guān)系。這里的最小 方差法的基本思想就是將一個(gè)樣品看作 P維空間的一個(gè)點(diǎn),并在空間的定義距 離,距離較近的點(diǎn)歸為一類;距離較遠(yuǎn)的點(diǎn)歸為不同的類。面對現(xiàn)在的問題,我 們不知道元素的分類,連要分成幾類都不知道?,F(xiàn)在我們將用SAS系統(tǒng)里面的step disc和cluster過程完成判別分析和聚類分析,最終確定元素對象的分類 問題。建立數(shù)據(jù)陣,具體數(shù)學(xué)表示為:XX =.LX11n1X1mX

5、八nm(521 )經(jīng)過整理,我們初步得到了對于葡萄酒的質(zhì)量的分類的表格。考慮到葡萄酒的質(zhì)量與釀酒葡萄間有比較之間的關(guān)系,我們將保留葡萄酒質(zhì)量對 于釀酒葡萄的影響,先單純從釀酒葡萄的理化指標(biāo)對釀酒葡萄進(jìn)行分類, 然后在 通過葡萄酒質(zhì)量對釀酒葡萄質(zhì)量的優(yōu)劣進(jìn)一步進(jìn)行劃分。(522 )式中,行向量Xi =(Xii,., Xm)表示第i個(gè)樣品;列向量 Xj =(Xij,., Xnj),表示第 j 項(xiàng)指標(biāo)。(i=1,2,n;j=1,2,m)接下來我們將要對數(shù)據(jù)進(jìn)行變化,以便于我們比較和消除綱量。在此我們用 了使用最廣范的方法,ward最小方差法。其中用到了類間距離來進(jìn)行比較,定 義為:Dki T|Xk-

6、Xi心/nk +1/ni)Ward方法并類時(shí)總是使得并類導(dǎo)致的類內(nèi)離差平方和增量最小。系統(tǒng)聚類數(shù)的確定。在聚類分析中,系統(tǒng)聚類最終得到的一個(gè)聚類樹,如何 確定類的個(gè)數(shù),這是一個(gè)十分困難但又必須解決的問題;因?yàn)榉诸惐旧砭蜎]有一定標(biāo)準(zhǔn),人們可以從不同的角度給出不同的分類。 在實(shí)際應(yīng)用中常使用下面幾種方法確定類的個(gè)數(shù)。由適當(dāng)?shù)拈y值確定,此處閥值為 Dkl。根據(jù)樣本的散點(diǎn)圖直觀的確定。當(dāng)樣本所含指標(biāo)只有 2個(gè)或3個(gè)時(shí),可運(yùn)用 散點(diǎn)圖直觀觀察。如果指標(biāo)超過 3個(gè)時(shí),可用主成份法先綜合指標(biāo)。根據(jù)統(tǒng)計(jì)量確定分類個(gè)數(shù)。在SAS中,提供了一些來自方差分析思想的統(tǒng)計(jì) 量近似檢驗(yàn)類個(gè)數(shù)如何選擇更合適。1) R2統(tǒng)計(jì)

7、量:r2 =i-sA/s2 =sB/s2(523 )其中,sA為分類數(shù)為k個(gè)數(shù)時(shí)的總類內(nèi)離差平方和,ST2為所有樣品或變量 的總離差平方和。R2越大,說明類內(nèi)的離差平方和在總離差平方和中比例較小,也就是分為k個(gè)類的效果越好。顯然分類越多,每個(gè)類離差越小,R2越大,所 以我們只能取k使得R2足夠大,但k本身比較小,而且R2不再大幅度增加。2)半偏R2統(tǒng)計(jì)量:在把類Ck和類Cl合并為下一水平的類Cm時(shí),定義半偏相關(guān):(524)半偏 R2 = Bki /T其中Bkl =Sm-(Sk+Sl)為合并類引起的類內(nèi)離差平方和的增量:St為類Ct的類內(nèi)離差平方和。半偏R2用于評價(jià)單次合并效果,其值越大,說明上

8、次合并效果越好。3)偽F統(tǒng)計(jì)量:偽F統(tǒng)計(jì)量評價(jià)分為偽 F = (T-Pk)/(k-1)Pk/( n-k)(525)k個(gè)類的效果。偽F統(tǒng)計(jì)量越大,表達(dá)分為k個(gè)類越合理。通常取偽F統(tǒng)計(jì)量較大而類數(shù)小的聚類水平。4)偽t2統(tǒng)計(jì)量:(526)2t =Bkl/(Sk +Sl)/(nk+ n -2)用此統(tǒng)計(jì)量評價(jià)合并類Ck和類G的效果,該值大說明合并的兩個(gè)類Ck和類G是很分開的,這個(gè)合并不成功,而應(yīng)該去合并前的水平。通過使用sas軟件的cluster過程和tree過程,可以求解分析出結(jié)果。523模型的求解與分析首先,我們利用附件2中白葡萄酒中釀酒葡萄的59個(gè)理化指標(biāo),通過聚類 分析,把釀酒葡萄分成五類,得

9、到初步的結(jié)果(見圖3):從圖中我們能夠直觀的看到把釀酒葡萄分為 5大類,為了檢驗(yàn)效果,我們通 過判別分析檢驗(yàn)原本的28種葡萄分類的結(jié)果,得到表8.表&誤判概率表(具體表見附錄)組號123|45概率0.27270.12500.33330.40001.000在誤差一欄我們看到,每一組的分類都存在或多或少的誤差, 我們覺得這個(gè) 結(jié)果是不滿意的。為了進(jìn)一步優(yōu)化方案以及簡化分析過程, 我們利用逐步判別法 對參與分類的因素進(jìn)行逐步剔除,以達(dá)到減少噪聲干擾的目的,讓得到的結(jié)果更 加合理和完善。分類的結(jié)果除了組間的類別有點(diǎn)波動通過逐步判別法,我們剔除了原本59個(gè)數(shù)據(jù)中的35個(gè)相關(guān)不大,造成干擾 的因素,剩下了

10、 24個(gè)因素。經(jīng)過剔除干擾項(xiàng)后,為了檢驗(yàn)剔除后干擾項(xiàng)后的結(jié) 果是否更加合理,我們重新對剩余的 24個(gè)因素進(jìn)行了聚類分析,做譜系聚類圖 和判別分析。得到了新的結(jié)果(見表 9):表9:優(yōu)化后的聚類分析部分結(jié)果(詳細(xì)見附錄)分類數(shù)樣品數(shù)半偏R2R2偽F統(tǒng)計(jì)量偽t統(tǒng)計(jì)量640.01710.91547.69.1560.05000.86537.06.14110.06120.80432.917.33210.10320.70129.317.9270.16480.53630.110.01280.5362030.14)綜合個(gè)數(shù)據(jù)檢驗(yàn),把葡萄分為5個(gè)類別是比較合理的一種方案,為了檢驗(yàn)與 之前的差異我們得到了新的譜系

11、聚類圖(見圖通過對比前后的兩圖,我們可以發(fā)現(xiàn),之外,整體的分組是沒有改變的。所以,我們第一步得到了優(yōu)化結(jié)果的可靠。但僅僅用圖說明是不夠的,為此我們通過判別分析法,通過具體數(shù)據(jù)來說明分析結(jié) 果的可靠。表10:優(yōu)化后的判別分析表數(shù)據(jù)組號12345概率000.166701.000我們不難W發(fā)現(xiàn),表中的錯(cuò)誤只在第3組出現(xiàn)了 0.1667的誤差,其他組是沒有存在誤差的。這個(gè)結(jié)果是比較令人滿意也令人信服的。 由此,我們得到的結(jié)果 是,我們此次對于白葡萄酒的釀酒葡萄進(jìn)行的分類是合理可靠的。具體分類結(jié)果為:表11:白葡萄酒釀酒葡萄分類分類/組數(shù)組別A/共組P1, P8,P13,P16,P17,P18,P19,

12、P22B/共組P14, P21, P23C/共組P2,P 3, P4, P6,P 7, P9,P 11, P12D/共組P10, P20,P 25, P26E/共組P 3, P5, P15 ,P 24, P27,P 28通過該組的成功檢驗(yàn),我們接下來將會對紅葡萄酒的釀酒葡萄進(jìn)行同算法的 分類。由于用到的算法與檢驗(yàn)方法一樣, 所以這里不再累贅,將直接輸出最后分 組結(jié)果。部分詳細(xì)內(nèi)容見附錄。表12:紅葡萄酒釀酒葡萄的分類分類/組數(shù)組別A/共組P1,P4,P5,P8,P15,P17,P24B/共組P 2, P7, P9, P11, P19 ,P 20, P22, P23C/共組P10, P13 ,P

13、 14, P16 ,P 25, P26, P27D/共組P6,P12,P18E/共組P3, P21分類完畢,接下來我們將利用關(guān)于紅酒質(zhì)量的評分等級來對對應(yīng)的葡萄進(jìn)行 評分,首先應(yīng)該說明的是,爛葡萄是不能釀出好酒,根據(jù)這個(gè),我們可以客觀的 說出一點(diǎn),一般好的葡萄能釀出好的酒,可能釀酒過程會意外讓酒變質(zhì)導(dǎo)致酒變 差,但好的酒由好的葡萄釀制出來是毫無疑問的。 為此我們把對于酒的等級相當(dāng) 于對葡萄打分。每種葡萄分別得到分?jǐn)?shù) s,i表示第i種葡萄。通過將每組的葡 萄總分除以組內(nèi)總數(shù)得到的數(shù)據(jù),對葡萄進(jìn)行分類,分類指標(biāo)匹S/組內(nèi)數(shù)通過指標(biāo)的具體分?jǐn)?shù),我們就可以輕松對葡萄進(jìn)行等級劃分,結(jié)果見表13:表13:

14、對白葡萄酒和紅葡萄酒的釀酒葡萄評價(jià)分類有:白葡萄酒釀酒葡萄得分等級E4.2特優(yōu)B4優(yōu)C,D3.75良好A3.62中紅葡萄酒釀酒葡萄得分等級B,E3良好A,C2.57中等D2及格proc cluster data =wg outtree =tree method=ward ccc pseudo print =15;var a1-a59;id number;run;proc tree data =tree out =new nclusters =5 graphies;copy a1-a59;id number;run;proc stepdisc data= new;class cluster;ru

15、n;proc discrim data= new outstat =n ewstat method= no rmal poo I =yes list crossvalidate ;class cluster;p riorsprop orti onal ;var a1-a59;附錄四:第二小題,優(yōu)化后的數(shù)據(jù)運(yùn)行程序proc cluster data =nwg outtree =tree method=ward ccc pseudo print =15;var b1-b24;id number;run;proc tree data =tree out =new nclusters =5 graph

16、ies;copy b1-b24;id number;ste pdisc data= new; cluster;run;proc classrun;discrim data= new outstat =n ewstat method= no rmal poo I =yes listproc crossvalidate ;class cluster; p riorsprop orti onal ;var b1-b24;run;附錄五:原判別分析表Froi DJUSTBI12345TdUINuriber of Observe! icns erid Percent Class訐 id into CLU

17、STEFlCLUGTER1234ETotal1i01d006lOD.OOO.UOD.OOo.doD.OO100.002010fl00100.00lao.co0.000.000.00190.(0S01sD06D.OO16.G783.330.00D.OO100.00A00fl3030.00O.UO0.00100.000.00100.005100001lOD.DO0.009. DO0.009. DO1(*0.00FqUI511530203?. 14陽.29i7.se10.710.00190.00Priors0,2ftS710.357140.2(42S0.107140.03S71Error Count

18、E冷t i utaS f orCLIKIER12345TotalRite0.00(*00.00000.IG670.00001.00000.07I4Pf1ors(.Sas?0.JH30.10?10.0857HLnbcr af Ebsc-rvblians ind PEno=nl ClHssifi亡d into CLUSTERFrom附錄六:優(yōu)化后的判別分析表ClusterHistoryNCL-ClustersJoinedFREESPRSQRSCEREQoccPEFPST2ft15CLPCL1750.0019.98879.23.014pl 4P230.0020.98678.913CL?4p253a.0033.38372.77.512CL19CL1350.0034.3S070.14.111CL16CL30E0.0035

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論