基于wine數(shù)據(jù)集的數(shù)據(jù)分析報(bào)告R語言_第1頁
基于wine數(shù)據(jù)集的數(shù)據(jù)分析報(bào)告R語言_第2頁
基于wine數(shù)據(jù)集的數(shù)據(jù)分析報(bào)告R語言_第3頁
基于wine數(shù)據(jù)集的數(shù)據(jù)分析報(bào)告R語言_第4頁
基于wine數(shù)據(jù)集的數(shù)據(jù)分析報(bào)告R語言_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》課程論文基于Wine數(shù)據(jù)集的數(shù)據(jù)分析匯報(bào)專業(yè):計(jì)算機(jī)科學(xué)與技術(shù)五月二十五日

基于wine數(shù)據(jù)集的數(shù)據(jù)分析匯報(bào)摘要:數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中自動(dòng)搜索隱藏于其中的有著特殊關(guān)系性的信息的過程。在大數(shù)據(jù)時(shí)代,怎樣從海量數(shù)據(jù)中挖掘有用信息成為了信息產(chǎn)業(yè)的熱門話題。作為數(shù)據(jù)挖掘課程內(nèi)容的回憶與應(yīng)用,本文對wine數(shù)據(jù)集進(jìn)行了數(shù)據(jù)探索性分析,并將數(shù)據(jù)挖掘的決策樹、支持向量機(jī)、聚類等常用措施應(yīng)用于詳細(xì)的數(shù)據(jù)挖掘任務(wù),并獲得了很好的效果。關(guān)鍵詞:wine數(shù)據(jù)集、決策樹、支持向量機(jī)、聚類引言數(shù)據(jù)挖掘(Datamining),又譯為資料探勘、數(shù)據(jù)挖掘、數(shù)據(jù)采礦。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中自動(dòng)搜索隱藏于其中的有著特殊關(guān)系性(屬于Associationrulelearning)的信息的過程。數(shù)據(jù)挖掘一般與計(jì)算機(jī)科學(xué)有關(guān),并通過記錄、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)和模式識別等諸多措施來實(shí)現(xiàn)上述目的。在大數(shù)據(jù)時(shí)代,怎樣從海量數(shù)據(jù)中挖掘有用信息成為了信息產(chǎn)業(yè)的熱門話題。本文作為數(shù)據(jù)挖掘課程內(nèi)容的回憶與應(yīng)用,將數(shù)據(jù)挖掘的理論與措施運(yùn)用于詳細(xì)的數(shù)據(jù)挖掘任務(wù)中,并獲得很好的效果。本次試驗(yàn)選擇的數(shù)據(jù)集為wine數(shù)據(jù)集。本文首先對其進(jìn)行了數(shù)據(jù)探索性分析,包括:數(shù)據(jù)概括、變量分布、離群點(diǎn)、缺失值、有關(guān)性等,并運(yùn)用了合適的圖形進(jìn)行描述,然后在探索性分析的基礎(chǔ)上,采用了決策樹、支持向量機(jī)、聚類等措施進(jìn)行了分類預(yù)測,并比較了不一樣措施的分類效果。數(shù)據(jù)探索性分析數(shù)據(jù)概況本次試驗(yàn)選用的數(shù)據(jù)集為UCI的WineQuality數(shù)據(jù)集中whitewine的4898條數(shù)據(jù),每條數(shù)據(jù)有12種屬性,分別為:fixedacidity,volatileacidity,citricacid,residualsugar,chlorides,freesulfurdioxide,totalsulfurdioxide,density,pH,sulphates,alcohol,quality.其中,quality為輸出,以0到10之間的數(shù)字來表達(dá)酒的品質(zhì)。試驗(yàn)使用RStudio軟件將數(shù)據(jù)集讀入,并使用summary命令概括數(shù)據(jù)集概況。如圖一所示,summary概括了數(shù)據(jù)集中各個(gè)變量的平均值、中位數(shù)、最大值、最小值等信息。圖1數(shù)據(jù)概括變量分布使用hist()繪制各變量的直方圖。如圖二所示,直方圖直觀的展示了變量的分布狀況。圖2變量直方圖直方圖只能對變量進(jìn)行直觀的描述,而變量與否滿足正態(tài)分布則需要正態(tài)性驗(yàn)證。使用shapirotest對各變量進(jìn)行正態(tài)驗(yàn)證,通過查當(dāng)作果中的p-value值就可以得到變量與否符合正態(tài)分布。假如p-value值不小于0.05即符合正態(tài)分布,而對所有變量進(jìn)行shapirotest得到p-value均不不小于0.05,因此wine數(shù)據(jù)集各特性均不是正態(tài)分布。離群點(diǎn)分析箱形圖(Box-plot)又稱為盒須圖、盒式圖或箱線圖,是一種用作顯示一組數(shù)據(jù)分散狀況資料的記錄圖。重要包括六個(gè)數(shù)據(jù)節(jié)點(diǎn),將一組數(shù)據(jù)從大到小排列,分別計(jì)算出他的上邊緣,上四分位數(shù)Q3,中位數(shù),下四分位數(shù)Q1,下邊緣,尚有一種異常值。箱形圖的異常值就可以可視化的展示數(shù)據(jù)集中的離群點(diǎn)。圖3展示了各變量的離群點(diǎn)分布狀況,可以看出離群點(diǎn)較多,也許對預(yù)測產(chǎn)生影響。圖3變量箱形圖缺失值分析Wine數(shù)據(jù)集不具有缺失值。有關(guān)性分析數(shù)據(jù)集中各變量間的有關(guān)性關(guān)系可由cor()函數(shù)計(jì)算出的協(xié)方差矩陣來表達(dá),如表4所示。表1協(xié)方差矩陣表ROW123456789101111.00-0.020.290.090.02-0.050.090.27-0.43-0.02-0.122-0.021.00-0.150.060.07-0.100.090.03-0.03-0.040.0730.29-0.151.000.090.110.090.120.15-0.160.06-0.0840.090.060.091.000.090.300.400.84-0.19-0.03-0.4550.020.070.110.091.000.100.200.26-0.090.02-0.366-0.05-0.100.090.300.101.000.620.290.000.06-0.2570.090.090.120.400.200.621.000.530.000.13-0.4580.270.030.150.840.260.290.531.00-0.090.07-0.789-0.43-0.03-0.16-0.19-0.090.000.00-0.091.000.160.1210-0.02-0.040.06-0.030.020.060.130.070.161.00-0.0211-0.120.07-0.08-0.45-0.36-0.25-0.45-0.780.12-0.021.00由表1可以看出wine數(shù)據(jù)集各變量之間有關(guān)度大部分都很低,不過residualsugar與density之間有關(guān)度較高。葡萄酒品質(zhì)分類挖掘直接分類預(yù)測數(shù)據(jù)預(yù)處理在運(yùn)用數(shù)據(jù)挖掘算法對數(shù)據(jù)集進(jìn)行分類預(yù)測前,需要對數(shù)據(jù)集進(jìn)行預(yù)處理。詳細(xì)操作如下:將數(shù)據(jù)集的前11維變量用scale()函數(shù)原則化,并使用factor()函數(shù)把最終一位變量quality轉(zhuǎn)化為因子;以7:3的比例將數(shù)據(jù)集劃分為訓(xùn)練集與測試集,其中訓(xùn)練集為7,測試集為3.分類預(yù)測使用C50包中的C5.0決策樹措施對數(shù)據(jù)集進(jìn)行分類預(yù)測。在訓(xùn)練集上訓(xùn)練出決策樹模型,計(jì)算出分類對的率,然后將模型應(yīng)用于測試集,并計(jì)算對的率。此外,試驗(yàn)中還使用了Metrics包中的平均絕度誤差MAE作為指標(biāo)來描述模型對訓(xùn)練集與測試集的分類效果。使用支持向量機(jī)對數(shù)據(jù)集進(jìn)行分類預(yù)測則使用了e1071包,操作方式與決策樹措施基本一致。將兩種措施的到得的成果進(jìn)行比較,如表2所示。表2直接分類預(yù)測成果模型訓(xùn)練集測試集對的率MAE對的率MAE決策樹0.830.20.570.51支持向量機(jī)0.610.440.570.48通過表二可以看出,兩種模型的分類精度都比較低。再回憶數(shù)據(jù)探索性分析中有關(guān)離群點(diǎn)部分的內(nèi)容可知,數(shù)據(jù)集中具有大量離群點(diǎn)。而決策樹與支持向量機(jī)屬于對離群點(diǎn)非常敏感的模型,這也許就是分類精度較低的原因。因此需要選用一種可以克服離群點(diǎn)影響的模型來對wine數(shù)據(jù)集進(jìn)行預(yù)測,因此我們選用了class包中的1-近鄰模型來進(jìn)行分類預(yù)測,成果如表3所示,可以看出分類效果有提高。表3直接分類預(yù)測成果模型訓(xùn)練集測試集對的率MAE對的率MAE決策樹0.830.20.570.51支持向量機(jī)0.610.440.570.481-近鄰0.610.45離散化后分類預(yù)測數(shù)據(jù)預(yù)處理首先使用cut()函數(shù)將wine數(shù)據(jù)集中的quality按(-∞,5),[5,6],(6,+∞),劃分為[差、中、好]三類,為了以便將三類類標(biāo)簡化為[1,2,3].然后使用3.1.1中的環(huán)節(jié)進(jìn)行預(yù)處理,得到試驗(yàn)數(shù)據(jù)集。分類預(yù)測Wine數(shù)據(jù)集quality離散化后的分類預(yù)測同樣也可以參照3.1.2中的環(huán)節(jié),使用決策樹、支持向量機(jī)、1-近鄰模型進(jìn)行預(yù)測。成果如表4所示,可以看出在對輸出離散化后,1-近鄰得到了最優(yōu)的分類效果。表4離散化后分類預(yù)測成果模型訓(xùn)練集測試集對的率MAE對的率MAE決策樹0.850.150.760.24支持向量機(jī)0.810.190.780.211-近鄰0.810.19聚類分類預(yù)測將wine數(shù)據(jù)集去掉quality變量使用cluster包pam()函數(shù)進(jìn)行K-MEDOIDS聚類,聚類成果直方圖如圖4所示。圖4聚類成果運(yùn)用得到的成果與支持向量機(jī)得到的分類成果生成混淆矩陣,如表5所示。表5混淆矩陣123141642562115416311233414由于聚類的成果與分類成果的類標(biāo)不一致,調(diào)整類標(biāo)后得到新的混淆矩陣,如表6所示。表6調(diào)整類標(biāo)后的混淆矩陣123111541562416426311233414通過混淆矩陣可以得出聚類成果與支持向量機(jī)的預(yù)測成果只有42%相似,成果重疊度較低。通過觀測圖4的聚類成果與圖2中quality的直方圖,以(-∞,6),[6],(6,+∞),將quality重新劃分為[差、中、好]三類,運(yùn)用支持向量機(jī)進(jìn)行預(yù)測并與聚類預(yù)測成果進(jìn)行比較如表7所示。表7SVM與聚類成果模型wine數(shù)據(jù)集對的率MAE支持向量機(jī)0.650.46聚類0.440.64由表7可以看出,對按照新的劃分重新離散化的數(shù)據(jù)集使用支持向量機(jī)進(jìn)行擬合,得到的預(yù)測成果比原本的預(yù)測成果要差。同步,使用K-MEDOIDS聚類措施來預(yù)測數(shù)據(jù)的類標(biāo)對的率只有44%,效果很差,并不合用于wine數(shù)據(jù)集的分類預(yù)測

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論