云南師范大學(xué)葡萄酒的類別判定_第1頁
云南師范大學(xué)葡萄酒的類別判定_第2頁
云南師范大學(xué)葡萄酒的類別判定_第3頁
云南師范大學(xué)葡萄酒的類別判定_第4頁
云南師范大學(xué)葡萄酒的類別判定_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

葡萄酒的類別判定組員:楊岳、楊昊雯、張涵宇、張江、趙輝輝、趙慧娟一、案例背景

常見的多元截面數(shù)據(jù)有兩個維度,即變量的維度和觀測的維度,因此,多元數(shù)據(jù)分析可以從這兩個維度入手。對于變量維度的分析,既可以考慮變量的組合(如主成分分析),也可以考慮從變量中提取潛變量(如因子分析),從而達(dá)到降低數(shù)據(jù)維度的目的,得到各變量間相關(guān)關(guān)系的解釋;對于觀測維度的分析,可以采用不同的方法對觀測分類,既可以是完全基于數(shù)據(jù)產(chǎn)生的(如聚類分析),也可以是數(shù)據(jù)分析之前已經(jīng)給定的(如判別分析)。對于各種多元數(shù)據(jù)分析方法,又可以基于不同的數(shù)據(jù)假定或者算法細(xì)分為更多的數(shù)據(jù)分析方法。二、數(shù)據(jù)描述

本案例試圖對UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫中Winerecognition數(shù)據(jù)進(jìn)行分析,從變量角度分析各變量間的相關(guān)關(guān)系,從觀測角度嘗試對觀測進(jìn)行分類,前者采用主成分分析和因子分析等方法,后者采用聚類分析和判別分析等方法。這四種方法均采用最常見、最基本的算法,因?yàn)楸景咐哪康氖欠治鰯?shù)據(jù)、挖掘數(shù)據(jù)中蘊(yùn)含的信息,而不是比較方法的優(yōu)劣。該數(shù)據(jù)為產(chǎn)于意大利同一地區(qū)不同種植園的3中葡萄酒的成分分析樣本,三種葡萄酒的觀測數(shù)目分別為59,71,48,因此觀測容量為178個,共有13個變量,各變量的單位不同,由這些變量確定葡萄酒產(chǎn)自哪個種植園。這13個變量包括:酒精度、蘋果酸、灰分、灰分的堿度、Mg、酚類、黃酮類、非黃酮類、原花色素類(酚類化合物的一種)、色度、色調(diào)、經(jīng)稀釋后的吸光度比值、脯氨酸(氨基酸的一種)。三、名詞解釋主成分分析:主成分分析是指將多個變量通過線性變換以選出較少個數(shù)重要變量的一種多元統(tǒng)計分析方法。又稱主分量分析。在用統(tǒng)計分析方法研究多變量的課題時,變量個數(shù)太多就會增加課題的復(fù)雜性。人們自然希望變量個數(shù)較少而得到的信息較多。在很多情形,變量之間是有一定的相關(guān)關(guān)系的,當(dāng)兩個變量之間有一定相關(guān)關(guān)系時,可以解釋為這兩個變量反映此課題的信息有一定的重疊。主成分分析是對于原先提出的所有變量,將重復(fù)的變量(關(guān)系緊密的變量)刪去多余,建立盡可能少的新變量,使得這些新變量是兩兩不相關(guān)的,而且這些新變量在反映課題的信息方面盡可能保持原有的信息。因子分析:因子分析是指研究從變量群中提取共性因子的統(tǒng)計技術(shù)。最早由英國心理學(xué)家C.E.斯皮爾曼提出。他發(fā)現(xiàn)學(xué)生的各科成績之間存在著一定的相關(guān)性,一科成績好的學(xué)生,往往其他各科成績也比較好,從而推想是否存在某些潛在的共性因子,或稱某些一般智力條件影響著學(xué)生的學(xué)習(xí)成績。因子分析可在許多變量中找出隱藏的具有代表性的因子。將相同本質(zhì)的變量歸入一個因子,可減少變量的數(shù)目,還可檢驗(yàn)變量間關(guān)系的假設(shè)。聚類分析:聚類分析指將物理或抽象對象的集合分組為由類似的對象組成的多個類的分析過程。它是一種重要的人類行為。聚類分析的目標(biāo)就是在相似的基礎(chǔ)上收集數(shù)據(jù)來分類。聚類源于很多領(lǐng)域,包括數(shù)學(xué),計算機(jī)科學(xué),統(tǒng)計學(xué),生物學(xué)和經(jīng)濟(jì)學(xué)。在不同的應(yīng)用領(lǐng)域,很多聚類技術(shù)都得到了發(fā)展,這些技術(shù)方法被用作描述數(shù)據(jù),衡量不同數(shù)據(jù)源間的相似性,以及把數(shù)據(jù)源分類到不同的簇中。判別分析:判別分析又稱“分辨法”,是在分類確定的條件下,根據(jù)某一研究對象的各種特征值判別其類型歸屬問題的一種多變量統(tǒng)計分析方法。其基本原理是按照一定的判別準(zhǔn)則,建立一個或多個判別函數(shù),用研究對象的大量資料確定判別函數(shù)中的待定系數(shù),并計算判別指標(biāo)。據(jù)此即可確定某一樣本屬于何類。當(dāng)?shù)玫揭粋€新的樣品數(shù)據(jù),要確定該樣品屬于已知類型中哪一類,這類問題屬于判別分析問題。四、數(shù)據(jù)圖視化

在開始多元數(shù)據(jù)分析之前,我們可采用Andrew曲線圖和平行坐標(biāo)圖兩種方法展開高維數(shù)據(jù)。前者利用傅里葉變換,可以粗略地得知數(shù)據(jù)是否適合分類;后者在原始數(shù)據(jù)標(biāo)準(zhǔn)化之后,將所有維度的數(shù)據(jù)均展示在二維坐標(biāo)軸上,可以判斷數(shù)據(jù)在哪些變量處可以有較好的分類效果。由于描繪了所有觀測的圖形的展示效果不夠好,因此考慮隨機(jī)抽取一半的觀測進(jìn)行數(shù)據(jù)可視化展示,設(shè)定抽樣的種子后,抽取3種葡萄酒的觀測數(shù)目分別為28,37,24.

實(shí)際上,Andrew曲線圖(圖一)表明,第1類數(shù)據(jù)和第2類數(shù)據(jù)混雜程度較高,體現(xiàn)了較強(qiáng)的相似性,這在后面的分析中也會體現(xiàn)出來;但總的來說,數(shù)據(jù)在t屬于(2,3)時,3組數(shù)據(jù)可以較好的區(qū)分,數(shù)據(jù)的質(zhì)量保證了我們可以繼續(xù)進(jìn)行多元數(shù)據(jù)分析。半數(shù)觀測的Andrew曲線圖(圖一)

數(shù)據(jù)的平行坐標(biāo)圖(圖二)展示了各變量在數(shù)據(jù)分類中的表現(xiàn),可以看出,V8(黃酮類),V11(色度),V14(脯氨酸)這三個變量能夠較好地區(qū)分3種葡萄酒,另外單個變量的區(qū)分效果較弱,也說明有必要進(jìn)行變量組合。半數(shù)觀測的平行坐標(biāo)圖(圖二)五、分析方法1、主成分分析:由于葡萄酒數(shù)據(jù)中13個變量的度量尺度存在較大差異,考慮在矩陣譜分解運(yùn)算時采用標(biāo)準(zhǔn)化后的相關(guān)系數(shù)矩陣。譜分解得到13個成分,做出碎石圖(圖三)。可以看出,在選擇第4個主成分后曲線變得較為平緩,選定4個主成分可能是恰當(dāng)?shù)?,此時累積方差比例已達(dá)到73.6%。

主成分分析的碎石圖(圖三)

雖然兩個主成分提取的信息只占55.4%,但是可以得到變量和這兩個主成分的相關(guān)關(guān)系,并且展示各觀測在兩個主成分上的得分。基于主成分分析的Biplot圖(圖四),可以看出,所有觀測較明顯的聚集為3群,部分變量之間存在較強(qiáng)的相關(guān)性,且所有變量的箭頭長度相近,說明在兩個主成分上各變量所占權(quán)重相似,但是由于兩個主成分提取的信息不夠充分,主成分載荷陣并未經(jīng)過旋轉(zhuǎn),使得變量之間的關(guān)系看起來比較混亂,不能很好地進(jìn)行解釋,只能做基本的探索性分析。基于主成分分析的Biplot圖(圖四)

2、因子分析

假定數(shù)據(jù)服從多元正態(tài)分布,采用極大似然估計方法,并同時進(jìn)行因子個數(shù)選定的似然比檢驗(yàn),發(fā)現(xiàn)因子數(shù)目取6時,該檢驗(yàn)不再顯著,說明6個因子提取的信息已經(jīng)足夠了,此時累積方差比例為75.7%(圖五)。

Factor1Factor2Factor3Factor4Factor5Factor6SSloadings3.2681.7751.3551.2651.1381.046ProportionVar0.2510.1370.1040.0970.0880.080CumulativeVar0.2510.3880.492

0.5890.677

0.757

圖五

為了得到更好的因子解釋,考慮對因子分析載荷陣進(jìn)行Varimax旋轉(zhuǎn),得到新的因子載荷陣(圖六),我們可以為提取出來并經(jīng)過方差最大化旋轉(zhuǎn)的6個因子命名,分別為酚酮類物質(zhì)、氨基酸與酒精、灰分及其堿度、色調(diào)和色度、蘋果酸、Mg含量。由于各因子間還存在一定的變量混雜,需要進(jìn)行更具體的各種化學(xué)成分及物理性質(zhì)之間的關(guān)系分析。經(jīng)Varimax旋轉(zhuǎn)后的因子分析載荷陣>(wine.fal=varimax(loadings(wine.fa),normalize=F))$loadingsLoadings:Factor1Factor2Factor3Factor4Factor5Factor6V20.1800.6680.4200.1150.130V3-0.2780.1350.1460.772V40.9740.1190.141V5-0.260-0.5000.5070.171V60.1050.1220.1280.972V70.8600.191-0.123V80.9290.179-0.181V9-0.512-0.1430.257-0.230V100.6910.172V11-0.1220.2030.1260.952V120.4090.152-0.482-0.475V130.7660.131-0.367-0.117V140.3680.7030.1010.205-0.1430.242

圖六

3、聚類分析

我們嘗試對原始數(shù)據(jù)進(jìn)行聚類,然后將基于數(shù)據(jù)的類和實(shí)際的葡萄酒分類進(jìn)行對比,判斷觀測間是否存在明顯的差異。

由于各變量的度量尺度存在較大差異,考慮先對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,以各變量的標(biāo)準(zhǔn)差為權(quán)重,得到加權(quán)的L2-norm距離。考慮采用等級聚類算法,類間采用Ward距離,得到聚類分析的樹形圖(圖七),由圖可見,觀測可以明顯的聚為3類,與實(shí)際的分類相同,且各類之間的距離較遠(yuǎn)。聚類分析的樹形圖(圖七)

我們將觀測聚為3類,與實(shí)際的葡萄酒的分類變量Type相比,178個觀測中只有14個觀測與實(shí)際不符,符合度達(dá)92.1%,其中第2類葡萄酒的符合度僅為81.7%,說明這類葡萄酒的數(shù)據(jù)特征不是很明顯,不能夠進(jìn)行很好的區(qū)分,這個結(jié)論將在后面的分析中得到印證。聚類分析結(jié)果與真實(shí)分類的比較:4、判別分析

首先假定各類別的協(xié)方差矩陣相等,采用Fisher線性判別分析,提取兩個線性判別函數(shù);在第一個線性判別函數(shù)的維度上,我們繪出3組數(shù)據(jù)的概率密度曲線(圖八),發(fā)現(xiàn)各類之間存在一定混雜,存在一定誤判率,畢竟第一個線性判別函數(shù)只提取68.8%的信息,于是考慮同時使用兩個線性判別函數(shù)?;诘谝粋€線性判別函數(shù)的數(shù)據(jù)概率密度圖(圖八)

在兩個線性判別函數(shù)的二維平面上,繪出各觀測的散點(diǎn)圖(圖九),發(fā)現(xiàn)各類別間差異明顯,判別效果較好。實(shí)際上,表面誤判率為0(圖十),由于該判別直接針對訓(xùn)練集樣本,這個數(shù)值顯然被高估了。

基于兩個線性判別函數(shù)的散點(diǎn)圖(圖九)(圖十)為了得到更恰當(dāng)?shù)恼`判率,我們采用Leave-one-out方法進(jìn)行交叉驗(yàn)證,得到線性判別方法的實(shí)際誤判率為1.1%(圖十一),判別效果很好。

放松各類別協(xié)方差矩陣相等的假定,同時假定數(shù)據(jù)服從多元正態(tài)分布,采用Bayes二次判別分析,得到實(shí)際誤判率為0.6%(圖十二),判別效果進(jìn)一步增強(qiáng)。值得注意的是,對比線性判別與二次判別的結(jié)果可知,誤判均發(fā)生在第2類葡萄酒(Andrew曲線圖表明,第1類葡萄酒與第2類相似),因此,可以考慮針對第2類葡萄酒進(jìn)行更有效的判別研究。(圖十一)(圖十二)六、結(jié)論通過以上對Wine

recognition數(shù)據(jù)的分析,可以形成兩點(diǎn)結(jié)論:

(1)變量間相關(guān)關(guān)系并不很強(qiáng),各變量蘊(yùn)涵的信息差異程度并不太大,需要形成較多的變量的線性組合,或者提取較多的潛在因子,才能夠掌握充分的數(shù)據(jù)信息,使得降低變量為度的效果最佳;通過方差最大化旋轉(zhuǎn)后,形成的因子分析載荷能夠?qū)π纬傻囊蜃虞^好地命名,但是因子見更細(xì)致的變量g關(guān)系有待專業(yè)人士進(jìn)行分析。變量間表現(xiàn)出的這種特殊關(guān)系有可能源于變量選擇問題,即本數(shù)據(jù)中變量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論