基于wine數(shù)據(jù)集的數(shù)據(jù)分析報(bào)告R語言

上傳人：彤*** IP屬地：江蘇上傳時(shí)間：2023-09-28 格式：DOC 頁數(shù)：9 大?。?06KB 積分：12 舉報(bào) 版權(quán)申訴

基于wine數(shù)據(jù)集的數(shù)據(jù)分析報(bào)告R語言_第2頁

基于wine數(shù)據(jù)集的數(shù)據(jù)分析報(bào)告R語言_第3頁

基于wine數(shù)據(jù)集的數(shù)據(jù)分析報(bào)告R語言_第4頁

基于wine數(shù)據(jù)集的數(shù)據(jù)分析報(bào)告R語言_第5頁

已閱讀5頁，還剩4頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

《數(shù)據(jù)倉庫與數(shù)據(jù)挖掘》課程論文基于Wine數(shù)據(jù)集的數(shù)據(jù)分析匯報(bào)專業(yè)：計(jì)算機(jī)科學(xué)與技術(shù)五月二十五日

基于wine數(shù)據(jù)集的數(shù)據(jù)分析匯報(bào)摘要：數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中自動(dòng)搜索隱藏于其中的有著特殊關(guān)系性的信息的過程。在大數(shù)據(jù)時(shí)代，怎樣從海量數(shù)據(jù)中挖掘有用信息成為了信息產(chǎn)業(yè)的熱門話題。作為數(shù)據(jù)挖掘課程內(nèi)容的回憶與應(yīng)用，本文對(duì)wine數(shù)據(jù)集進(jìn)行了數(shù)據(jù)探索性分析，并將數(shù)據(jù)挖掘的決策樹、支持向量機(jī)、聚類等常用措施應(yīng)用于詳細(xì)的數(shù)據(jù)挖掘任務(wù)，并獲得了很好的效果。關(guān)鍵詞：wine數(shù)據(jù)集、決策樹、支持向量機(jī)、聚類引言數(shù)據(jù)挖掘（Datamining），又譯為資料探勘、數(shù)據(jù)挖掘、數(shù)據(jù)采礦。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中自動(dòng)搜索隱藏于其中的有著特殊關(guān)系性（屬于Associationrulelearning）的信息的過程。數(shù)據(jù)挖掘一般與計(jì)算機(jī)科學(xué)有關(guān)，并通過記錄、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)和模式識(shí)別等諸多措施來實(shí)現(xiàn)上述目的。在大數(shù)據(jù)時(shí)代，怎樣從海量數(shù)據(jù)中挖掘有用信息成為了信息產(chǎn)業(yè)的熱門話題。本文作為數(shù)據(jù)挖掘課程內(nèi)容的回憶與應(yīng)用，將數(shù)據(jù)挖掘的理論與措施運(yùn)用于詳細(xì)的數(shù)據(jù)挖掘任務(wù)中，并獲得很好的效果。本次試驗(yàn)選擇的數(shù)據(jù)集為wine數(shù)據(jù)集。本文首先對(duì)其進(jìn)行了數(shù)據(jù)探索性分析，包括：數(shù)據(jù)概括、變量分布、離群點(diǎn)、缺失值、有關(guān)性等，并運(yùn)用了合適的圖形進(jìn)行描述，然后在探索性分析的基礎(chǔ)上，采用了決策樹、支持向量機(jī)、聚類等措施進(jìn)行了分類預(yù)測，并比較了不一樣措施的分類效果。數(shù)據(jù)探索性分析數(shù)據(jù)概況本次試驗(yàn)選用的數(shù)據(jù)集為UCI的WineQuality數(shù)據(jù)集中whitewine的4898條數(shù)據(jù)，每條數(shù)據(jù)有12種屬性，分別為：fixedacidity,volatileacidity,citricacid,residualsugar,chlorides,freesulfurdioxide,totalsulfurdioxide,density,pH,sulphates,alcohol,quality.其中，quality為輸出，以0到10之間的數(shù)字來表達(dá)酒的品質(zhì)。試驗(yàn)使用RStudio軟件將數(shù)據(jù)集讀入，并使用summary命令概括數(shù)據(jù)集概況。如圖一所示，summary概括了數(shù)據(jù)集中各個(gè)變量的平均值、中位數(shù)、最大值、最小值等信息。圖1數(shù)據(jù)概括變量分布使用hist()繪制各變量的直方圖。如圖二所示，直方圖直觀的展示了變量的分布狀況。圖2變量直方圖直方圖只能對(duì)變量進(jìn)行直觀的描述，而變量與否滿足正態(tài)分布則需要正態(tài)性驗(yàn)證。使用shapirotest對(duì)各變量進(jìn)行正態(tài)驗(yàn)證，通過查當(dāng)作果中的p-value值就可以得到變量與否符合正態(tài)分布。假如p-value值不小于0.05即符合正態(tài)分布，而對(duì)所有變量進(jìn)行shapirotest得到p-value均不不小于0.05，因此wine數(shù)據(jù)集各特性均不是正態(tài)分布。離群點(diǎn)分析箱形圖（Box-plot）又稱為盒須圖、盒式圖或箱線圖，是一種用作顯示一組數(shù)據(jù)分散狀況資料的記錄圖。重要包括六個(gè)數(shù)據(jù)節(jié)點(diǎn)，將一組數(shù)據(jù)從大到小排列，分別計(jì)算出他的上邊緣，上四分位數(shù)Q3，中位數(shù)，下四分位數(shù)Q1，下邊緣，尚有一種異常值。箱形圖的異常值就可以可視化的展示數(shù)據(jù)集中的離群點(diǎn)。圖3展示了各變量的離群點(diǎn)分布狀況，可以看出離群點(diǎn)較多，也許對(duì)預(yù)測產(chǎn)生影響。圖3變量箱形圖缺失值分析Wine數(shù)據(jù)集不具有缺失值。有關(guān)性分析數(shù)據(jù)集中各變量間的有關(guān)性關(guān)系可由cor()函數(shù)計(jì)算出的協(xié)方差矩陣來表達(dá)，如表4所示。表1協(xié)方差矩陣表ROW123456789101111.00-0.020.290.090.02-0.050.090.27-0.43-0.02-0.122-0.021.00-0.150.060.07-0.100.090.03-0.03-0.040.0730.29-0.151.000.090.110.090.120.15-0.160.06-0.0840.090.060.091.000.090.300.400.84-0.19-0.03-0.4550.020.070.110.091.000.100.200.26-0.090.02-0.366-0.05-0.100.090.300.101.000.620.290.000.06-0.2570.090.090.120.400.200.621.000.530.000.13-0.4580.270.030.150.840.260.290.531.00-0.090.07-0.789-0.43-0.03-0.16-0.19-0.090.000.00-0.091.000.160.1210-0.02-0.040.06-0.030.020.060.130.070.161.00-0.0211-0.120.07-0.08-0.45-0.36-0.25-0.45-0.780.12-0.021.00由表1可以看出wine數(shù)據(jù)集各變量之間有關(guān)度大部分都很低，不過residualsugar與density之間有關(guān)度較高。葡萄酒品質(zhì)分類挖掘直接分類預(yù)測數(shù)據(jù)預(yù)處理在運(yùn)用數(shù)據(jù)挖掘算法對(duì)數(shù)據(jù)集進(jìn)行分類預(yù)測前，需要對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理。詳細(xì)操作如下：將數(shù)據(jù)集的前11維變量用scale()函數(shù)原則化，并使用factor()函數(shù)把最終一位變量quality轉(zhuǎn)化為因子；以7:3的比例將數(shù)據(jù)集劃分為訓(xùn)練集與測試集，其中訓(xùn)練集為7，測試集為3.分類預(yù)測使用C50包中的C5.0決策樹措施對(duì)數(shù)據(jù)集進(jìn)行分類預(yù)測。在訓(xùn)練集上訓(xùn)練出決策樹模型，計(jì)算出分類對(duì)的率，然后將模型應(yīng)用于測試集，并計(jì)算對(duì)的率。此外，試驗(yàn)中還使用了Metrics包中的平均絕度誤差MAE作為指標(biāo)來描述模型對(duì)訓(xùn)練集與測試集的分類效果。使用支持向量機(jī)對(duì)數(shù)據(jù)集進(jìn)行分類預(yù)測則使用了e1071包，操作方式與決策樹措施基本一致。將兩種措施的到得的成果進(jìn)行比較，如表2所示。表2直接分類預(yù)測成果模型訓(xùn)練集測試集對(duì)的率MAE對(duì)的率MAE決策樹0.830.20.570.51支持向量機(jī)0.610.440.570.48通過表二可以看出，兩種模型的分類精度都比較低。再回憶數(shù)據(jù)探索性分析中有關(guān)離群點(diǎn)部分的內(nèi)容可知，數(shù)據(jù)集中具有大量離群點(diǎn)。而決策樹與支持向量機(jī)屬于對(duì)離群點(diǎn)非常敏感的模型，這也許就是分類精度較低的原因。因此需要選用一種可以克服離群點(diǎn)影響的模型來對(duì)wine數(shù)據(jù)集進(jìn)行預(yù)測，因此我們選用了class包中的1-近鄰模型來進(jìn)行分類預(yù)測，成果如表3所示，可以看出分類效果有提高。表3直接分類預(yù)測成果模型訓(xùn)練集測試集對(duì)的率MAE對(duì)的率MAE決策樹0.830.20.570.51支持向量機(jī)0.610.440.570.481-近鄰0.610.45離散化后分類預(yù)測數(shù)據(jù)預(yù)處理首先使用cut()函數(shù)將wine數(shù)據(jù)集中的quality按(-∞,5),[5,6],(6,+∞)，劃分為[差、中、好]三類，為了以便將三類類標(biāo)簡化為[1,2,3].然后使用3.1.1中的環(huán)節(jié)進(jìn)行預(yù)處理，得到試驗(yàn)數(shù)據(jù)集。分類預(yù)測Wine數(shù)據(jù)集quality離散化后的分類預(yù)測同樣也可以參照3.1.2中的環(huán)節(jié)，使用決策樹、支持向量機(jī)、1-近鄰模型進(jìn)行預(yù)測。成果如表4所示，可以看出在對(duì)輸出離散化后，1-近鄰得到了最優(yōu)的分類效果。表4離散化后分類預(yù)測成果模型訓(xùn)練集測試集對(duì)的率MAE對(duì)的率MAE決策樹0.850.150.760.24支持向量機(jī)0.810.190.780.211-近鄰0.810.19聚類分類預(yù)測將wine數(shù)據(jù)集去掉quality變量使用cluster包pam()函數(shù)進(jìn)行K-MEDOIDS聚類，聚類成果直方圖如圖4所示。圖4聚類成果運(yùn)用得到的成果與支持向量機(jī)得到的分類成果生成混淆矩陣，如表5所示。表5混淆矩陣123141642562115416311233414由于聚類的成果與分類成果的類標(biāo)不一致，調(diào)整類標(biāo)后得到新的混淆矩陣，如表6所示。表6調(diào)整類標(biāo)后的混淆矩陣123111541562416426311233414通過混淆矩陣可以得出聚類成果與支持向量機(jī)的預(yù)測成果只有42%相似，成果重疊度較低。通過觀測圖4的聚類成果與圖2中quality的直方圖，以(-∞,6),[6],(6,+∞)，將quality重新劃分為[差、中、好]三類，運(yùn)用支持向量機(jī)進(jìn)行預(yù)測并與聚類預(yù)測成果進(jìn)行比較如表7所示。表7SVM與聚類成果模型wine數(shù)據(jù)集對(duì)的率MAE支持向量機(jī)0.650.46聚類0.440.64由表7可以看出，對(duì)按照新的劃分重新離散化的數(shù)據(jù)集使用支持向量機(jī)進(jìn)行擬合，得到的預(yù)測成果比原本的預(yù)測成果要差。同步，使用K-MEDOIDS聚類措施來預(yù)測數(shù)據(jù)的類標(biāo)對(duì)的率只有44%，效果很差，并不合用于wine數(shù)據(jù)集的分類預(yù)測

人人文庫> 全部分類> 應(yīng)用文書 > 技術(shù)指導(dǎo)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于wine數(shù)據(jù)集的數(shù)據(jù)分析報(bào)告R語言

文檔簡介

溫馨提示

最新文檔

評(píng)論

基于wine數(shù)據(jù)集的數(shù)據(jù)分析報(bào)告R語言

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔