數(shù)據(jù)挖掘?qū)嶒?yàn)報(bào)告_第1頁(yè)
數(shù)據(jù)挖掘?qū)嶒?yàn)報(bào)告_第2頁(yè)
數(shù)據(jù)挖掘?qū)嶒?yàn)報(bào)告_第3頁(yè)
數(shù)據(jù)挖掘?qū)嶒?yàn)報(bào)告_第4頁(yè)
數(shù)據(jù)挖掘?qū)嶒?yàn)報(bào)告_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、學(xué)生姓名:學(xué)號(hào):6008專業(yè):計(jì)算機(jī)科學(xué)與技術(shù)班級(jí):計(jì)算機(jī)208班41實(shí)驗(yàn)內(nèi)容()在算法中數(shù)據(jù)集大小與精度之間的關(guān)系()屬性個(gè)數(shù)對(duì)該關(guān)系的影響實(shí)驗(yàn)思路實(shí)驗(yàn)要求探究數(shù)據(jù)集大小與精度的關(guān)系以及數(shù)據(jù)屬性個(gè)數(shù)對(duì)這個(gè)關(guān)系的影響。對(duì)于第一個(gè)問(wèn)題來(lái)說(shuō),影響算法精度的因素很多,數(shù)據(jù)集大小只是其中的一個(gè)。在研究訓(xùn)練集對(duì)算法精度影響實(shí)驗(yàn)中要求固定其他影響因素,即在實(shí)驗(yàn)中分析訓(xùn)練集大小與精度的關(guān)系時(shí),對(duì)訓(xùn)練集進(jìn)行多次不同隨機(jī)采樣,采用同樣的測(cè)試集測(cè)試模型精度并記錄每次測(cè)試的結(jié)果,最后分析比較得出結(jié)論。在研究測(cè)試集對(duì)算法精度影響時(shí),采用同樣的訓(xùn)練集對(duì)測(cè)試集進(jìn)行不同的抽樣得到不同的測(cè)試集,然后進(jìn)行測(cè)試并記錄結(jié)果,對(duì)結(jié)果

2、進(jìn)行歸納總結(jié)得出結(jié)論。對(duì)于第二個(gè)問(wèn)題,使用同一個(gè)數(shù)據(jù)集,采用帶篩選器的分類器,對(duì)處理后的數(shù)據(jù)進(jìn)行10重交叉驗(yàn)證,記錄所得精度,修改篩選器的抽樣比率,得到不同的數(shù)據(jù)集,重復(fù)實(shí)驗(yàn),比較得最后的結(jié)論。此次試驗(yàn)要求采用多組數(shù)據(jù)進(jìn)行相同的測(cè)試,最后分析歸納得出結(jié)論。3實(shí)驗(yàn)過(guò)程對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行預(yù)處理,將數(shù)據(jù)中的數(shù)值型數(shù)據(jù)轉(zhuǎn)變?yōu)殡x散型數(shù)據(jù)。使用將數(shù)據(jù)集中的數(shù)據(jù)離散化。選中中的得到圖的界面進(jìn)行參數(shù)設(shè)置設(shè)置的是想要離散化屬性的標(biāo)號(hào),設(shè)置將屬性離散為幾個(gè)離散值。這里設(shè)置的是將第1,5,個(gè)1屬0性分別離散到三個(gè)數(shù)據(jù)段內(nèi)。點(diǎn)擊確定返回主頁(yè)面并點(diǎn)擊完成離散化。圖數(shù)1據(jù)集大小與精度之間的關(guān)系3.1訓(xùn).練1集大小與以訓(xùn)練集圖

3、數(shù)1據(jù)集大小與精度之間的關(guān)系3.1訓(xùn).練1集大小與以訓(xùn)練集()打開訓(xùn)練集算法精度之間的關(guān)系i實(shí)例個(gè)數(shù),屬性個(gè)數(shù)為例進(jìn)行實(shí)驗(yàn)過(guò)程:選擇篩選器,篩選器路徑為對(duì)原訓(xùn)練集進(jìn)行處理,對(duì)原訓(xùn)練數(shù)據(jù)集進(jìn)行無(wú)監(jiān)督的隨機(jī)抽樣,選中進(jìn)行參數(shù)設(shè)置得到圖2,將屬性設(shè)置為0點(diǎn)擊確定返回主頁(yè)面并點(diǎn)擊即抽取10個(gè)0數(shù)據(jù)作為新的訓(xùn)練數(shù)據(jù)集。SmmrarySmmrary圖廣魚1TestInstance-5回圖廣魚1TestInstance-5回R亡1比tioii;HohieAttributes;IToxi已Instuc亡旨;ITqjlsSumweights;UotleClas5IToclass分類器并選中2)切換到分類界面選擇

4、分類器并選中選項(xiàng),點(diǎn)擊打開測(cè)試集進(jìn)行測(cè)試如圖Openfile.;OpenURL.Close(3)測(cè)試完成后得到圖4的結(jié)果我們可以看到當(dāng)訓(xùn)練集為10時(shí)0得到的精度為。這個(gè)結(jié)果相對(duì)來(lái)說(shuō)比較低。SmmrarySmmraryCorr-sc-tlyClassifiedlustslices137274IncorrectlyClaasifisdInstances3372-%Kappastatisticu0702Kean,ahsoluteerroru29g3Hootmeansquarederroru44.33kelaciveahaoluceerror95.9012呂Rootrelative3!jusi:ede

5、rror113.121%Coverageofcases(0-95leve1)63.2%Heanrel.regionsiza(0.35leval)52.04%bC社_-bC社_-clajsllledas0L219a=classl15925131b=class223lfi2t15Iu=Cla.3331455C231=class4394243E=匚1匕口!54)重新加載訓(xùn)練集,修改抽樣個(gè)數(shù),重復(fù)試驗(yàn)得到如下=DetailedAccuracj/ByClass=TPRateFPRat-ePrecisionRecallF-lfeia3ureMCCROCAreaPRCAreaClassCL140,0940.

6、1220.140.130.0430T5fi30.10(classl0.2110,2070.1440.2110.1710.0030-5050.153class20.1B80.1280.2320.1880.2080m0650m&080170class3CL550.2760.3570.550.4330.240654O319CliB534l0.2080.2270.3f40.2080.265-0.0220532039Cli3335KEijiiL-ed.陽(yáng)aO.Z740.207ozeaQ.2140.2670.0590.554O.Z63=CoutuslddMatrix=SmmrarySmmrarySmmra

7、rySmmrary數(shù)據(jù):訓(xùn)練集抽樣數(shù)1002003004005006007008009001100模型精度27.427.027.527.632.633.433.433.831.034.4對(duì)其他數(shù)據(jù)進(jìn)行同樣的實(shí)驗(yàn)得到下列數(shù)據(jù)數(shù)據(jù)集,實(shí)例個(gè)數(shù),屬性個(gè)數(shù)訓(xùn)練集抽樣數(shù)10020050010002000500010000200003000045211模型精度87.1988.4788.8589.2189.2989.2989.4089.4189.6089.76數(shù)據(jù)集數(shù)據(jù)集,實(shí)例個(gè)數(shù),屬性個(gè)數(shù)數(shù)據(jù)集訓(xùn)練集抽樣數(shù)1020304050607080100138模型精度74.0374.0374.0374.0374.0

8、374.0374.0374.0374.0374.03,實(shí)例個(gè)數(shù),屬性個(gè)數(shù)訓(xùn)練集抽樣數(shù)306090120150180210240270310模型精度64666670707069707171由以上數(shù)據(jù)可以得出結(jié)論:算法精度隨著數(shù)據(jù)集的增加而增大,當(dāng)訓(xùn)練數(shù)據(jù)集規(guī)模增大到一定程度時(shí),建立模型的精度不會(huì)再持續(xù)增大,且最大分類精度不會(huì)超過(guò)模型對(duì)訓(xùn)練數(shù)據(jù)的擬合度。測(cè)試集與算法精度之間的關(guān)系按照3.1實(shí).驗(yàn)1中的方法把測(cè)試集進(jìn)行隨機(jī)抽樣,并保存為新的測(cè)試集。修改隨機(jī)抽樣的數(shù)量得到不同的測(cè)試集,對(duì)不同的測(cè)試集選用相同的訓(xùn)練集進(jìn)行分類,得到如下數(shù)據(jù):訓(xùn)練集實(shí)例個(gè)數(shù),屬性測(cè)試集,實(shí)例個(gè)數(shù)0屬性測(cè)試集抽樣數(shù)50100

9、150200250300350400450500模型精度403638.738.536.83736.835.535.134.4訓(xùn)練集,實(shí)例個(gè)數(shù),屬性個(gè)數(shù)測(cè)試集,實(shí)例個(gè)數(shù),屬性個(gè)數(shù)測(cè)試集抽樣數(shù)305010020050010001500200030004521模型精度989594909290.39090.888.789.7訓(xùn)練集,實(shí)例個(gè)數(shù),屬性個(gè)數(shù)測(cè)試集,實(shí)例個(gè)數(shù),屬性個(gè)數(shù)測(cè)試集抽樣數(shù)102030405060708090100模型精度80657072.57473.372.872.571.171由以上數(shù)據(jù)我們可以得出結(jié)論:當(dāng)數(shù)據(jù)集過(guò)小時(shí)精度的變化幅度較大因此沒(méi)有代表性,當(dāng)測(cè)試集的規(guī)模達(dá)到一定數(shù)量時(shí),算

10、法的精度趨于穩(wěn)定并在一個(gè)很小的范圍內(nèi)上下浮動(dòng)。3.屬2性個(gè)數(shù)對(duì)數(shù)據(jù)集大小與精度關(guān)系的影響以數(shù)據(jù)集為例講解實(shí)驗(yàn)過(guò)程:()對(duì)數(shù)據(jù)不做預(yù)處理直接打開數(shù)據(jù)集,并進(jìn)入分類器界面。(2選擇分類器如圖所示:ClbZiLfl*r&ClbZiLfl*r&孔di咤FLltereddasEifLerAtirisutESelsctEdClssELfi&rBi&ggi.咤CLselficatiDnhaCLxistaringCIaSIZL1CtlLDUCdsISeilsltiveClbssltierCVPorH141orblaciicm班籌in?BeccirsteEMi二|腎ska白口clBssiEiers臥己b町naw

11、ElJjtunclions旺門117日己neta-AdaBoDstHl()單擊右邊的白框,并選擇的選項(xiàng)選出下面選項(xiàng)如圖所示:OK0wekia.gui.GenericQbjectEdiOK0wekia.gui.GenericQbjectEditrAboutJ48一匚U.35-H2elaEsifii-匚hdesfi1RanloiTiSubet_NU.5_S1filterCanellClassforrunninganarbitraryclassifierondata.thathasbeenpassed!throughanarbitraryfilter.*eka.eLs-sslf1ers.即己七乞Fi

12、1tered-La-ssitierajabi1ities()單擊邊上的白框設(shè)置參數(shù),將的值設(shè)置為即篩選器的抽樣比率為點(diǎn)擊確定。5)返回分類器界面點(diǎn)擊5)返回分類器界面點(diǎn)擊按鈕開始對(duì)數(shù)據(jù)集進(jìn)行處理,并得到圖的結(jié)果:CoiiEctl/ClassifiedInatanceaL12fi4S.D4InaorreatlyClassifiedInatanaES13745496Ehppaazatistic0.D121MjeanELtaaluteerrar0.37SRo&tzeansquarederi&r0.5441Relaciveifca3Dluteezia-r99B73%RdoXrelativesqpiar

13、ederror124.9159咅CovEzzmgieofoases4tl9levelI71BS咅IEaxLrelregionsize(0level)61.4%TcitaiNuzcerafinstancea25C0detailedAccuracy3yC1E33IPRateEPRatePreaisi&n.ReohILF-feasureMCCROCAreaPRCAreaClass0.4390.4560-453o.ies0炕0.Q2L0.5070.4354classl0 x4S20*4740.4730.4520u47To.ooe0.1990 x47cla332O.C-110.0-150-0710.04

14、10.052-O.QOS0.50.079clasaWeighted0.4S0.4360-4370.4S0u4430.0120.503D.432=Confuaionfda.triK=abaciassiEledas55352751|1a=classl5555553|Ifc=Eilass2Ea102E|:=Ella333我們從上圖可以看出這個(gè)模型的精度為6)設(shè)置不同的抽樣比率對(duì)數(shù)據(jù)進(jìn)行處理得到如下的數(shù)據(jù):屬性抽樣數(shù)102030405060708090原屬性模型精度45.0446.4047.2446.0044.2044.4445.2066.4066.2466.40(7)以同樣的方法得到如下數(shù)據(jù):數(shù)據(jù)集,實(shí)例個(gè)數(shù),屬性個(gè)數(shù)屬性抽樣數(shù)102030405060708090原屬性模型精度49.2849.7258.0857.7656.3656.4455.3253.8060.2060.20數(shù)據(jù)集,實(shí)例個(gè)數(shù),屬性個(gè)數(shù)屬性抽樣數(shù)10203040506

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論