數(shù)據(jù)挖掘之紅酒鑒別.doc_第1頁
數(shù)據(jù)挖掘之紅酒鑒別.doc_第2頁
數(shù)據(jù)挖掘之紅酒鑒別.doc_第3頁
數(shù)據(jù)挖掘之紅酒鑒別.doc_第4頁
數(shù)據(jù)挖掘之紅酒鑒別.doc_第5頁
已閱讀5頁,還剩7頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于數(shù)據(jù)挖掘的葡萄酒質(zhì)量識(shí)別 我們知道,傳統(tǒng)的葡萄酒鑒別靠感覺器官的品嘗來判斷其質(zhì)量的好壞,這就必須要求品嘗者是訓(xùn)練有素的品酒專家。但感官品嘗結(jié)果容易受各種因素的影響。隨著科學(xué)技術(shù)的發(fā)展,葡萄酒質(zhì)量品鑒成了一項(xiàng)可以替代性的工作,不在局限于釀酒工作者的工作才能完成。因此,將數(shù)據(jù)挖掘方法用于葡萄酒評(píng)級(jí)早已被各國所采用。下面主要基于數(shù)據(jù)挖掘的分類和回歸方法對(duì)葡萄酒質(zhì)量的鑒別做一個(gè)簡(jiǎn)單的分析與判斷。1. 數(shù)據(jù)挖掘理論方法論述1.1主成分回歸 在數(shù)據(jù)處理中,經(jīng)常會(huì)遇到高維數(shù)據(jù)組,由于數(shù)據(jù)維數(shù)高,變量多,而且變量間往往存在相關(guān)關(guān)系,因此很難抓住他們的相關(guān)關(guān)系信息。在實(shí)際問題中,研究多變量問題是經(jīng)常遇到的,再加上變量指標(biāo)之間有一定的相關(guān)性,這勢(shì)必增加了問題的復(fù)雜性,主成分分析就是設(shè)法將原來指標(biāo)重新組合成一組新的互相無關(guān)的較少的綜合指標(biāo)來代替原來的指標(biāo),同時(shí)根據(jù)實(shí)際需要從中可取幾個(gè)較少的綜合指標(biāo)盡可能多的反映原來指標(biāo)的信息。這種將多個(gè)變量化為少數(shù)互相無關(guān)的綜合指標(biāo)的統(tǒng)計(jì)方法稱為主成分分析。 主成分分析就是設(shè)法將原來眾多具有一定相關(guān)性的變量重新組合成一組新的相互無關(guān)的綜合指標(biāo)來代替,通常數(shù)學(xué)上的處理就是將原來個(gè)變量作線性組合,作為新的綜合指標(biāo),但是這種線性組合,需要加以限制。假設(shè)第一個(gè)綜合指標(biāo)記為,自然希望盡可能多的反映原來指標(biāo)的信息,這里最經(jīng)典的方法是用的方差來表達(dá),即越大,表示包含的信息越。因此所有線性組合中所選取的應(yīng)該是方差最大的,故將稱為第一主成分,如果不足以代表原來個(gè)指標(biāo)的信息,在滿足的條件下,再考慮選取作為第二個(gè)主成分,同理可以構(gòu)造第三,四,.,第個(gè)主成分。要求:(1)(2)求得的主成分為協(xié)房陣的特征向量為系數(shù)的線性組合。得到主成分,提取所需要的前幾個(gè)主要成分后,回歸的過程與線性回歸是一致的。只是自變量變成了選取的主成分,因變量不變。1.2 分類回歸樹1.2.1分類回歸樹的構(gòu)建 分類回歸樹的構(gòu)建是通過學(xué)習(xí)給定的訓(xùn)練樣本,尋找最佳的分支規(guī)則。分類回歸樹的分支規(guī)則是根據(jù)不純度作為評(píng)估度量來實(shí)現(xiàn)的,以尋找最佳的分支規(guī)則。最常用的不純度函數(shù)為基尼指數(shù),其定義為其中是指中第類的頻率,也就是說當(dāng)基尼指數(shù)越小時(shí),意味著該節(jié)點(diǎn)所包含的樣本集越集中,該節(jié)點(diǎn)越純。 樹的構(gòu)建大致可以這樣表述為:所有的樣本都屬于樹的根節(jié)點(diǎn),尋找第一個(gè)節(jié)點(diǎn)的分支規(guī)則時(shí),從第一個(gè)自變量開始,記錄樣本數(shù)據(jù)該變量的每個(gè)取值作為分支閾值時(shí)不純度的下降值,直到所有變量的每個(gè)取值作為分支閾值的不純度下降值記錄完畢,選擇不純度下降值最大的自變量和分叉閾值作為樹根節(jié)點(diǎn)的分支變量和分支閾值。如此往復(fù)生成一顆最大的樹。由此過程可見,分類回歸樹屬于貪心算法。在構(gòu)建樹的過程中,滿足以下條件之一,則不再對(duì)葉節(jié)點(diǎn)進(jìn)行分支操作:(1) 葉節(jié)點(diǎn)中的樣本數(shù)小于給定的值,一般默認(rèn);(2) 分支后的葉節(jié)點(diǎn)中的樣本屬于同一類;(3) 無屬性向量用于分支選擇。經(jīng)過此過程,最終得到一顆最大的樹1.2.2分類回歸樹的修剪 為了解決所建立的最大樹過分?jǐn)M合的問題,需要對(duì)生成的樹進(jìn)行修剪,去掉那些對(duì)未知檢驗(yàn)樣本的分類精度沒有幫助的部分樹,使得模型更簡(jiǎn)單、更容易理解。 常用的剪枝有兩種:一種是先剪枝法,一種是后剪枝法。它們都采用統(tǒng)計(jì)度量,剪去最不可靠的分支,提高分類回歸樹獨(dú)立于測(cè)試數(shù)據(jù)的測(cè)試能力。最小成本復(fù)雜度的后剪枝法較為常用,其統(tǒng)計(jì)度量為 其中表示復(fù)雜度參數(shù),用于表示每個(gè)終止點(diǎn)復(fù)雜度的代價(jià),當(dāng)為0時(shí),對(duì)應(yīng)的最大樹。為的估計(jì)錯(cuò)分率,為該樹的估計(jì)錯(cuò)分類與對(duì)復(fù)雜度懲罰值之和的成本復(fù)合值。當(dāng)一定時(shí),越大,其可取性也就越小。1.2.3分類回歸樹的評(píng)估 經(jīng)過樹的修剪,得到了一系列的子樹,那么如果選擇最優(yōu)大小的樹作為最終構(gòu)建分類回歸樹,就需要對(duì)分類回歸樹進(jìn)行評(píng)估,最常用的評(píng)估方法有測(cè)試樣本評(píng)估和交互檢驗(yàn)評(píng)估。文中采用的是交互檢驗(yàn)評(píng)估。 折交互檢驗(yàn)是將樣本集平均分為個(gè)子集,每次用其中的個(gè)子集進(jìn)行建模,剩下的子集用來預(yù)測(cè),循環(huán)次,計(jì)算平均的錯(cuò)分率。對(duì)所生成的一系列子樹分別進(jìn)行折交互檢驗(yàn),得到個(gè)平均錯(cuò)分率,那么最小平均錯(cuò)分率對(duì)應(yīng)的子樹就是最優(yōu)的構(gòu)建樹,即2.數(shù)據(jù)處理與基本分析2.1數(shù)據(jù)說明與預(yù)處理 葡萄酒數(shù)據(jù)來源于/ml/datasets/Wine+Quality,包含紅酒和白酒兩種。紅酒1599個(gè)樣本記錄,11個(gè)表示成分和含量的自變量以及一個(gè)關(guān)于葡萄酒質(zhì)量好壞的因變量。白酒則有4898個(gè)樣本記錄,也是11個(gè)表示成分和含量的自變量以及一個(gè)關(guān)于葡萄酒質(zhì)量好壞的因變量。為簡(jiǎn)化問題,我主要討論了紅酒的質(zhì)量識(shí)別,白酒的質(zhì)量識(shí)別可以對(duì)照參考。本文數(shù)據(jù)分析所使用的工具主要有SPSS和R語言。首先將葡萄酒質(zhì)量等級(jí)分為低等、中等以及高等三類 (質(zhì)量為3和4的視為低等,5和6的視為中等,7和8的視為高等,見表1-1),對(duì)應(yīng)樣本量分別為63、1319、217。 表1-1葡萄酒質(zhì)量等級(jí)分類quality頻率百分比有效百分比累積百分比等級(jí)有效3低45568142.642.646.5中663839.939.986.4719912.412.498.9高8181.11.1100.0合計(jì)1599100.0100.0具體的11個(gè)自變量如表1-2所示。 表1-2 紅酒質(zhì)量自變量的簡(jiǎn)單描述 自變量N極小值極大值均值標(biāo)準(zhǔn)差Fixed acidity15994.615.98.3201.7411Volatile acidity15990.1201.5800.527820.179060Citric acid15990.001.000.27100.19480Residual sugar15990.9015.502.53881.40993chlorides15990.0120.6110.087470.047065Free sulfur dioxide159917215.8710.460Total sulfur dioxide1599628946.4732.895density15990.99011.00370.9967470.0018873pH15992.744.013.31110.15439sulphates15990.332.000.65810.16951alcohol15998.414.910.4231.0657有效的 N (列表狀態(tài))1599其中體現(xiàn)紅酒的酸、甜、咸、苦的成分歸納如下:酸:Fixed acidity(酒石酸)、Volatile acidity(醋酸) 、 Citric acid(檸檬酸) 甜:Residual sugar(糖分) 、alcohol(酒精)咸:chlorides(氯化鈉)苦:Free sulfur dioxide(游離二氧化硫)、Total sulfur dioxide(總二氧化硫)、sulphates(硫酸鉀) 表1-2顯示的變量只是紅酒主要的基本成分,并沒有微量成分,由葡萄酒的品嘗原理我們知道,葡萄酒中的微量成分是香氣和滋味成分中最主要的部分,這些成分?jǐn)?shù)目極大而濃度極小。這可能對(duì)我們的分析會(huì)造成不利的影響,即體現(xiàn)紅酒質(zhì)量的自變量缺失了,某些甚至可能是重要的變量。2.2 數(shù)據(jù)基本分析2.2.1相關(guān)性分析 首先對(duì)自變量之間進(jìn)行相關(guān)性分析,圖1-3給出了部分相關(guān)性相對(duì)較大的變量?jī)牲c(diǎn)之間的散點(diǎn)圖。透過散點(diǎn)圖我們可以觀察到酸度與密度,酸度與PH值之間的相關(guān)性程度較高。其他各個(gè)變量之間的相關(guān)系數(shù)詳見表1-4. 表1-3 變量間相關(guān)性散點(diǎn)圖 從表1-4可以看出,除了酒石酸與密度,酒石酸與檸檬酸、酒石酸與PH、游離二氧化硫與總二氧化硫的相關(guān)系數(shù)在0.68左右,其他變量之間的相關(guān)程度并不高。其中,酒石酸與PH、醋酸與酒石酸、酒精與密度之間存在負(fù)相關(guān)性。綜上也說明了,在葡萄酒的成分里,酒石酸和許多化學(xué)成分存在相關(guān)性。 表1-4 紅酒質(zhì)量各自變量之間的相關(guān)系數(shù)表相關(guān)性FixedacidyVolatileacidityCitricacidResidualsugarchlorides FreeSulfurdioxideTotalSulfurdioxidedensitypHsulphatesalcoholFixedacidity1-0.256*0.672*0.115*0.094*-0.154*-0.113*0.668*-0.683*0.183*-0.062*Volatileacidity-0.256*1-0.552*0.0020.061*-0.0110.076*0.0220.235*-0.261*-0.202*Citricacid0.672*-0.552*10.144*0.204*-0.061*0.0360.365*-0.542*0.313*0.110*Residualsugar0.115*0.0020.144*10.056*0.187*0.203*0.355*-0.086*0.0060.042chlorides0.094*0.061*0.204*0.056*10.0060.0470.201*-0.265*0.371*-0.221*FreeSulfurdioxide-0.154*-0.011-0.061*0.187*0.00610.668*-0.0220.070*0.052*-0.069*TotalSulfurdioxide-0.113*0.076*0.0360.203*0.0470.668*10.071*-0.066*0.043-0.206*density0.668*0.0220.365*0.355*0.201*-0.0220.071*1-0.342*0.149*-0.496*pH-0.683*0.235*-0.542*-0.086*-0.265*0.070*-0.066*-0.342*1-0.197*0.206*sulphates0.183*-0.261*0.313*0.0060.371*0.052*0.0430.149*-0.197*10.094*alcohol-0.062*-0.202*0.110*0.042-0.221*-0.069*-0.206*-0.496*0.206*0.094*1*. 在0 .01 水平(雙側(cè))上顯著相關(guān)。*. 在 0.05 水平(雙側(cè))上顯著相關(guān)。 由前面我們知道,變量很多且部分變量之間存在相關(guān)性,那么可以考慮用主成分分析。到第五個(gè)主成分時(shí)累積方差已經(jīng)達(dá)到了79.53%,所以選擇五個(gè)主成分進(jìn)行回歸分析。 表1-5 主成分概況解釋的總方差成份初始特征值提取平方和載入合計(jì)方差的 %累積 %合計(jì)方差的 %累積 %13.09928.17428.1743.09928.17428.17421.92617.50845.6821.92617.50845.68231.55114.09659.7781.55114.09659.77841.21311.02970.8071.21311.02970.8075.9598.72179.5286.6605.99685.5257.5845.30790.8328.4233.84594.6779.3453.13397.81010.1811.64899.45911.060.541100.000提取方法:主成份分析。成份矩陣a成份1234Fixed acidity.861-.153-.154-.253Volatile acidity-.420.382-.560.087Citric acid.816-.211.297-.087Residual sugar.257.378.126-.411chlorides.374.205-.115.734Free sulfur dioxide-.064.713.534-.048Total sulfur dioxide.042.790.401-.038density.696.324-.422-.192pH-.772.009.072-.004sulphates.428-.052.348.607alcohol-.199-.536.587-.135提取方法 :主成份。a. 已提取了 4 個(gè)成份。表1-6表示三種主成分分類圖,點(diǎn)表示不同的類別,可以看出主成分可以分類,但是并不能分的很開。由表1-4我們也可以看出,只有少數(shù)的變量之間存在相關(guān)性,且相關(guān)程度并不高。由于主成分分析只有在多數(shù)變量之間存在較高的相關(guān)度的情況下顯示出其算法的優(yōu)勢(shì),因此本文的數(shù)據(jù)并不適合用主成分分析。 表1-6 主成分分類圖 因?yàn)橐蜃兞靠梢钥闯深悇e,也可以看成連續(xù)的、有大小之分的變量??煞謩e利用分類回歸樹進(jìn)行分類和回歸。建立分類回歸樹后需要對(duì)樹進(jìn)行修剪,降低模型的復(fù)雜度,使得模型不至于出現(xiàn)過度擬合。 回歸和分類的結(jié)果表明,分類的預(yù)測(cè)精確度比回歸的要高。回歸的結(jié)果是使得總預(yù)測(cè)精確度最高來確定其分叉點(diǎn),這就可能導(dǎo)致回歸的結(jié)果都是靠近某個(gè)整數(shù),使得最終處理得到的結(jié)果預(yù)測(cè)精確度下降。所以,我們僅考慮利用分類樹建模。圖1-7是回歸樹的初始結(jié)果。 圖1-7 分類回歸樹節(jié)點(diǎn)的收益匯總節(jié)點(diǎn)N百分比均值130821.0%10.901524516.7%10.747432922.4%10.190358539.9%10.142 增長(zhǎng)方法:CHAID因變量列表: alcohol風(fēng)險(xiǎn)估計(jì)標(biāo)準(zhǔn) 誤差1.00

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論