云南師范大學(xué)葡萄酒的類(lèi)別判定_第1頁(yè)
云南師范大學(xué)葡萄酒的類(lèi)別判定_第2頁(yè)
云南師范大學(xué)葡萄酒的類(lèi)別判定_第3頁(yè)
云南師范大學(xué)葡萄酒的類(lèi)別判定_第4頁(yè)
云南師范大學(xué)葡萄酒的類(lèi)別判定_第5頁(yè)
已閱讀5頁(yè),還剩17頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、葡萄酒的類(lèi)別判定組員:楊岳、楊昊雯、張涵宇、張江、趙輝輝、趙慧娟一、案例背景一、案例背景 常見(jiàn)的多元截面數(shù)據(jù)有兩個(gè)維度,即變量的維度和觀測(cè)的維度,因此,多元數(shù)據(jù)分析可以從這兩個(gè)維度入手。對(duì)于變量維度的分析,既可以考慮變量的組合(如主成分分析),也可以考慮從變量中提取潛變量(如因子分析),從而達(dá)到降低數(shù)據(jù)維度的目的,得到各變量間相關(guān)關(guān)系的解釋?zhuān)粚?duì)于觀測(cè)維度的分析,可以采用不同的方法對(duì)觀測(cè)分類(lèi),既可以是完全基于數(shù)據(jù)產(chǎn)生的(如聚類(lèi)分析),也可以是數(shù)據(jù)分析之前已經(jīng)給定的(如判別分析)。對(duì)于各種多元數(shù)據(jù)分析方法,又可以基于不同的數(shù)據(jù)假定或者算法細(xì)分為更多的數(shù)據(jù)分析方法。二、數(shù)據(jù)描述二、數(shù)據(jù)描述 本案例試

2、圖對(duì)UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)中Wine recognition 數(shù)據(jù)進(jìn)行分析,從變量角度分析各變量間的相關(guān)關(guān)系,從觀測(cè)角度嘗試對(duì)觀測(cè)進(jìn)行分類(lèi),前者采用主成分分析和因子分析等方法,后者采用聚類(lèi)分析和判別分析等方法。這四種方法均采用最常見(jiàn)、最基本的算法,因?yàn)楸景咐哪康氖欠治鰯?shù)據(jù)、挖掘數(shù)據(jù)中蘊(yùn)含的信息,而不是比較方法的優(yōu)劣。該數(shù)據(jù)為產(chǎn)于意大利同一地區(qū)不同種植園的3中葡萄酒的成分分析樣本,三種葡萄酒的觀測(cè)數(shù)目分別為59,71,48,因此觀測(cè)容量為178個(gè),共有13個(gè)變量,各變量的單位不同,由這些變量確定葡萄酒產(chǎn)自哪個(gè)種植園。這13個(gè)變量包括:酒精度、蘋(píng)果酸、灰分、灰分的堿度、Mg、酚類(lèi)、黃酮類(lèi)、非黃酮類(lèi)

3、、原花色素類(lèi)(酚類(lèi)化合物的一種)、色度、色調(diào)、經(jīng)稀釋后的吸光度比值、脯氨酸(氨基酸的一種)。三、名詞解釋三、名詞解釋主成分分析:主成分分析:主成分分析是指將多個(gè)變量通過(guò)線性變換以選出較少個(gè)數(shù)重要變量的一種多元統(tǒng)計(jì)分析方法。又稱(chēng)主分量分析。在用統(tǒng)計(jì)分析方法研究多變量的課題時(shí),變量個(gè)數(shù)太多就會(huì)增加課題的復(fù)雜性。人們自然希望變量個(gè)數(shù)較少而得到的信息較多。在很多情形,變量之間是有一定的相關(guān)關(guān)系的,當(dāng)兩個(gè)變量之間有一定相關(guān)關(guān)系時(shí),可以解釋為這兩個(gè)變量反映此課題的信息有一定的重疊。主成分分析是對(duì)于原先提出的所有變量,將重復(fù)的變量(關(guān)系緊密的變量)刪去多余,建立盡可能少的新變量,使得這些新變量是兩兩不相關(guān)的

4、,而且這些新變量在反映課題的信息方面盡可能保持原有的信息。因子分析:因子分析:因子分析是指研究從變量群中提取共性因子的統(tǒng)計(jì)技術(shù)。最早由英國(guó)心理學(xué)家C.E.斯皮爾曼提出。他發(fā)現(xiàn)學(xué)生的各科成績(jī)之間存在著一定的相關(guān)性,一科成績(jī)好的學(xué)生,往往其他各科成績(jī)也比較好,從而推想是否存在某些潛在的共性因子,或稱(chēng)某些一般智力條件影響著學(xué)生的學(xué)習(xí)成績(jī)。因子分析可在許多變量中找出隱藏的具有代表性的因子。將相同本質(zhì)的變量歸入一個(gè)因子,可減少變量的數(shù)目,還可檢驗(yàn)變量間關(guān)系的假設(shè)。聚類(lèi)分析:聚類(lèi)分析:聚類(lèi)分析指將物理或抽象對(duì)象的集合分組為由類(lèi)似的對(duì)象組成的多個(gè)類(lèi)的分析過(guò)程。它是一種重要的人類(lèi)行為。聚類(lèi)分析的目標(biāo)就是在相似

5、的基礎(chǔ)上收集數(shù)據(jù)來(lái)分類(lèi)。聚類(lèi)源于很多領(lǐng)域,包括數(shù)學(xué),計(jì)算機(jī)科學(xué),統(tǒng)計(jì)學(xué),生物學(xué)和經(jīng)濟(jì)學(xué)。在不同的應(yīng)用領(lǐng)域,很多聚類(lèi)技術(shù)都得到了發(fā)展,這些技術(shù)方法被用作描述數(shù)據(jù),衡量不同數(shù)據(jù)源間的相似性,以及把數(shù)據(jù)源分類(lèi)到不同的簇中。判別分析判別分析:判別分析又稱(chēng)“分辨法”,是在分類(lèi)確定的條件下,根據(jù)某一研究對(duì)象的各種特征值判別其類(lèi)型歸屬問(wèn)題的一種多變量統(tǒng)計(jì)分析方法。其基本原理是按照一定的判別準(zhǔn)則,建立一個(gè)或多個(gè)判別函數(shù),用研究對(duì)象的大量資料確定判別函數(shù)中的待定系數(shù),并計(jì)算判別指標(biāo)。據(jù)此即可確定某一樣本屬于何類(lèi)。當(dāng)?shù)玫揭粋€(gè)新的樣品數(shù)據(jù),要確定該樣品屬于已知類(lèi)型中哪一類(lèi),這類(lèi)問(wèn)題屬于判別分析問(wèn)題。四四、數(shù)據(jù)圖視化

6、、數(shù)據(jù)圖視化 在開(kāi)始多元數(shù)據(jù)分析之前,我們可采用Andrew曲線圖和平行坐標(biāo)圖兩種方法展開(kāi)高維數(shù)據(jù)。前者利用傅里葉變換,可以粗略地得知數(shù)據(jù)是否適合分類(lèi);后者在原始數(shù)據(jù)標(biāo)準(zhǔn)化之后,將所有維度的數(shù)據(jù)均展示在二維坐標(biāo)軸上,可以判斷數(shù)據(jù)在哪些變量處可以有較好的分類(lèi)效果。由于描繪了所有觀測(cè)的圖形的展示效果不夠好,因此考慮隨機(jī)抽取一半的觀測(cè)進(jìn)行數(shù)據(jù)可視化展示,設(shè)定抽樣的種子后,抽取3種葡萄酒的觀測(cè)數(shù)目分別為28,37,24. 實(shí)際上,Andrew曲線圖(圖一)表明,第1類(lèi)數(shù)據(jù)和第2類(lèi)數(shù)據(jù)混雜程度較高,體現(xiàn)了較強(qiáng)的相似性,這在后面的分析中也會(huì)體現(xiàn)出來(lái);但總的來(lái)說(shuō),數(shù)據(jù)在t屬于(2,3)時(shí),3組數(shù)據(jù)可以較好的

7、區(qū)分,數(shù)據(jù)的質(zhì)量保證了我們可以繼續(xù)進(jìn)行多元數(shù)據(jù)分析。-3-2-10123-2024tf(t)半數(shù)觀測(cè)的半數(shù)觀測(cè)的Andrew曲線圖曲線圖(圖一)(圖一) 數(shù)據(jù)的平行坐標(biāo)圖(圖二)展示了各變量在數(shù)據(jù)分類(lèi)中的表現(xiàn),可以看出,V8(黃酮類(lèi)),V11(色度),V14(脯氨酸)這三個(gè)變量能夠較好地區(qū)分3種葡萄酒,另外單個(gè)變量的區(qū)分效果較弱,也說(shuō)明有必要進(jìn)行變量組合。MinMaxV2V3V4V5V6V7V8V9V10V11V12V13V14半數(shù)觀測(cè)的平行坐標(biāo)圖(圖二)半數(shù)觀測(cè)的平行坐標(biāo)圖(圖二)五五、分析方法、分析方法1、主成分分析:、主成分分析: 由于葡萄酒數(shù)據(jù)中13個(gè)變量的度量尺度存在較大差異,考慮在

8、矩陣譜分解運(yùn)算時(shí)采用標(biāo)準(zhǔn)化后的相關(guān)系數(shù)矩陣。譜分解得到13個(gè)成分,做出碎石圖(圖三)??梢钥闯觯谶x擇第4個(gè)主成分后曲線變得較為平緩,選定4個(gè)主成分可能是恰當(dāng)?shù)模藭r(shí)累積方差比例已達(dá)到73.6%。 Variances01234Comp.1Comp.3Comp.5Comp.7Comp.9Comp.12主成分分析的碎石主成分分析的碎石圖圖(圖三)圖三) 雖然兩個(gè)主成分提取的信息只占55.4%,但是可以得到變量和這兩個(gè)主成分的相關(guān)關(guān)系,并且展示各觀測(cè)在兩個(gè)主成分上的得分?;谥鞒煞址治龅腂iplot圖(圖四),可以看出,所有觀測(cè)較明顯的聚集為3群,部分變量之間存在較強(qiáng)的相關(guān)性,且所有變量的箭頭長(zhǎng)度相

9、近,說(shuō)明在兩個(gè)主成分上各變量所占權(quán)重相似,但是由于兩個(gè)主成分提取的信息不夠充分,主成分載荷陣并未經(jīng)過(guò)旋轉(zhuǎn),使得變量之間的關(guān)系看起來(lái)比較混亂,不能很好地進(jìn)行解釋?zhuān)荒茏龌镜奶剿餍苑治觥?0.15-0.10-0.050.000.050.100.15-0.15-0.10-0.050.000.050.100.15Comp.1Comp.212345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758596061626364656667686970717

10、2737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178-10-5051

11、0-10-50510V2V3V4V5V6V7V8V9V10V11V12V13V14基于主成分分析的基于主成分分析的Biplot圖圖(圖四)(圖四) 2、因子分析、因子分析 假定數(shù)據(jù)服從多元正態(tài)分布,采用極大似然估計(jì)方法,并同時(shí)進(jìn)行因子個(gè)數(shù)選定的似然比檢驗(yàn),發(fā)現(xiàn)因子數(shù)目取6時(shí),該檢驗(yàn)不再顯著,說(shuō)明6個(gè)因子提取的信息已經(jīng)足夠了,此時(shí)累積方差比例為75.7%(圖五)。 Factor1 Factor2 Factor3 Factor4 Factor5 Factor6SS loadings 3.268 1.775 1.355 1.265 1.138 1.046Proportion Var 0.251 0.

12、137 0.104 0.097 0.088 0.080Cumulative Var 0.251 0.388 0.492 0.589 0.677 0.757 圖五圖五 為了得到更好的因子解釋?zhuān)紤]對(duì)因子分析載荷陣進(jìn)行Varimax旋轉(zhuǎn),得到新的因子載荷陣(圖六),我們可以為提取出來(lái)并經(jīng)過(guò)方差最大化旋轉(zhuǎn)的6個(gè)因子命名,分別為酚酮類(lèi)物質(zhì)、氨基酸與酒精、灰分及其堿度、色調(diào)和色度、蘋(píng)果酸、Mg含量。由于各因子間還存在一定的變量混雜,需要進(jìn)行更具體的各種化學(xué)成分及物理性質(zhì)之間的關(guān)系分析。經(jīng)經(jīng)Varimax旋轉(zhuǎn)后的因子分析載荷陣旋轉(zhuǎn)后的因子分析載荷陣 (wine.fal=varimax(loadings(w

13、ine.fa),normalize=F)$loadingsLoadings: Factor1 Factor2 Factor3 Factor4 Factor5 Factor6V2 0.180 0.668 0.420 0.115 0.130 V3 -0.278 0.135 0.146 0.772 V4 0.974 0.119 0.141 V5 -0.260 -0.500 0.507 0.171 V6 0.105 0.122 0.128 0.972 V7 0.860 0.191 -0.123 V8 0.929 0.179 -0.181 V9 -0.512 -0.143 0.257 -0.230 V1

14、0 0.691 0.172 V11 -0.122 0.203 0.126 0.952 V12 0.409 0.152 -0.482 -0.475 V13 0.766 0.131 -0.367 -0.117 V14 0.368 0.703 0.101 0.205 -0.143 0.242 圖六圖六 3、聚類(lèi)分析、聚類(lèi)分析 我們嘗試對(duì)原始數(shù)據(jù)進(jìn)行聚類(lèi),然后將基于數(shù)據(jù)的類(lèi)和實(shí)際的葡萄酒 分類(lèi)進(jìn)行對(duì)比,判斷觀測(cè)間是否存在明顯的差異。 由于各變量的度量尺度存在較大差異,考慮先對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,以各變量的標(biāo)準(zhǔn)差為權(quán)重,得到加權(quán)的L2-norm距離??紤]采用等級(jí)聚類(lèi)算法,類(lèi)間采用Ward距離,得到聚類(lèi)分析的

15、樹(shù)形圖(圖七),由圖可見(jiàn),觀測(cè)可以明顯的聚為3類(lèi),與實(shí)際的分類(lèi)相同,且各類(lèi)之間的距離較遠(yuǎn)。159160154176177168172165173157149175170178167169153151150152162141143140163841441391661191471481611561741581371381551351366261691451421461641719713113313213449563313416541718141543594531132506193624253366275837353822839521213479723301214157104845552242442

16、040846967079122747226529106931088991921201307178651138783881149011510011612880123606377761019495819882861041091026810710511775649951671111241251218511073118103112126127129020406080100120hclust (*, ward.D)dist(wine.dat)Height聚類(lèi)分析的樹(shù)形圖(圖七)聚類(lèi)分析的樹(shù)形圖(圖七) 我們將觀測(cè)聚為3類(lèi),與實(shí)際的葡萄酒的分類(lèi)變量Type相比,178個(gè)觀測(cè)中只有14個(gè)觀測(cè)與實(shí)際不符,符合

17、度達(dá)92.1%,其中第2類(lèi)葡萄酒的符合度僅為81.7%,說(shuō)明這類(lèi)葡萄酒的數(shù)據(jù)特征不是很明顯,不能夠進(jìn)行很好的區(qū)分,這個(gè)結(jié)論將在后面的分析中得到印證。聚類(lèi)分析結(jié)果與真實(shí)分類(lèi)的比較:4、判別分析 首先假定各類(lèi)別的協(xié)方差矩陣相等,采用Fisher線性判別分析,提取兩個(gè)線性判別函數(shù);在第一個(gè)線性判別函數(shù)的維度上,我們繪出3組數(shù)據(jù)的概率密度曲線(圖八),發(fā)現(xiàn)各類(lèi)之間存在一定混雜,存在一定誤判率,畢竟第一個(gè)線性判別函數(shù)只提取68.8%的信息,于是考慮同時(shí)使用兩個(gè)線性判別函數(shù)。-6-4-20240.00.10.20.30.40.5LD1基于第一個(gè)線性判別函數(shù)的數(shù)據(jù)概率密度圖(圖八) 在兩個(gè)線性判別函數(shù)的二維

18、平面上,繪出各觀測(cè)的散點(diǎn)圖(圖九),發(fā)現(xiàn)各類(lèi)別間差異明顯,判別效果較好。實(shí)際上,表面誤判率為0(圖十),由于該判別直接針對(duì)訓(xùn)練集樣本,這個(gè)數(shù)值顯然被高估了。 -6-4-2024-6-4-202LD1LD21111111111111111111111111111111111111111111111111111111111122222222222222222222222222222222222222222222222222222222222222222222222333333333333333333333333333333333333333333333333基于兩個(gè)線性判別函數(shù)的基于兩個(gè)線性判別函數(shù)的散點(diǎn)圖散點(diǎn)圖(圖九)(圖九)(圖十)(圖十) 為了得到更恰當(dāng)?shù)恼`判率,我們采用Leave-one-out方法進(jìn)行交叉驗(yàn)證,得到線性判別方法的實(shí)際誤判率為1.1%(圖十一),判別效果很好。 放松各類(lèi)別協(xié)方差矩陣相等的假定,同時(shí)假定數(shù)據(jù)服從多元正態(tài)分布,采用Bayes

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論