版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、學(xué)生姓名:學(xué)號(hào):6008專業(yè):計(jì)算機(jī)科學(xué)與技術(shù)班級(jí):計(jì)算機(jī)208班41實(shí)驗(yàn)內(nèi)容()在算法中數(shù)據(jù)集大小與精度之間的關(guān)系()屬性個(gè)數(shù)對(duì)該關(guān)系的影響實(shí)驗(yàn)思路實(shí)驗(yàn)要求探究數(shù)據(jù)集大小與精度的關(guān)系以及數(shù)據(jù)屬性個(gè)數(shù)對(duì)這個(gè)關(guān)系的影響。對(duì)于第一個(gè)問(wèn)題來(lái)說(shuō),影響算法精度的因素很多,數(shù)據(jù)集大小只是其中的一個(gè)。在研究訓(xùn)練集對(duì)算法精度影響實(shí)驗(yàn)中要求固定其他影響因素,即在實(shí)驗(yàn)中分析訓(xùn)練集大小與精度的關(guān)系時(shí),對(duì)訓(xùn)練集進(jìn)行多次不同隨機(jī)采樣,采用同樣的測(cè)試集測(cè)試模型精度并記錄每次測(cè)試的結(jié)果,最后分析比較得出結(jié)論。在研究測(cè)試集對(duì)算法精度影響時(shí),采用同樣的訓(xùn)練集對(duì)測(cè)試集進(jìn)行不同的抽樣得到不同的測(cè)試集,然后進(jìn)行測(cè)試并記錄結(jié)果,對(duì)結(jié)果
2、進(jìn)行歸納總結(jié)得出結(jié)論。對(duì)于第二個(gè)問(wèn)題,使用同一個(gè)數(shù)據(jù)集,采用帶篩選器的分類器,對(duì)處理后的數(shù)據(jù)進(jìn)行10重交叉驗(yàn)證,記錄所得精度,修改篩選器的抽樣比率,得到不同的數(shù)據(jù)集,重復(fù)實(shí)驗(yàn),比較得最后的結(jié)論。此次試驗(yàn)要求采用多組數(shù)據(jù)進(jìn)行相同的測(cè)試,最后分析歸納得出結(jié)論。3實(shí)驗(yàn)過(guò)程對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行預(yù)處理,將數(shù)據(jù)中的數(shù)值型數(shù)據(jù)轉(zhuǎn)變?yōu)殡x散型數(shù)據(jù)。使用將數(shù)據(jù)集中的數(shù)據(jù)離散化。選中中的得到圖的界面進(jìn)行參數(shù)設(shè)置設(shè)置的是想要離散化屬性的標(biāo)號(hào),設(shè)置將屬性離散為幾個(gè)離散值。這里設(shè)置的是將第1,5,個(gè)1屬0性分別離散到三個(gè)數(shù)據(jù)段內(nèi)。點(diǎn)擊確定返回主頁(yè)面并點(diǎn)擊完成離散化。圖數(shù)1據(jù)集大小與精度之間的關(guān)系3.1訓(xùn).練1集大小與以訓(xùn)練集圖
3、數(shù)1據(jù)集大小與精度之間的關(guān)系3.1訓(xùn).練1集大小與以訓(xùn)練集()打開訓(xùn)練集算法精度之間的關(guān)系i實(shí)例個(gè)數(shù),屬性個(gè)數(shù)為例進(jìn)行實(shí)驗(yàn)過(guò)程:選擇篩選器,篩選器路徑為對(duì)原訓(xùn)練集進(jìn)行處理,對(duì)原訓(xùn)練數(shù)據(jù)集進(jìn)行無(wú)監(jiān)督的隨機(jī)抽樣,選中進(jìn)行參數(shù)設(shè)置得到圖2,將屬性設(shè)置為0點(diǎn)擊確定返回主頁(yè)面并點(diǎn)擊即抽取10個(gè)0數(shù)據(jù)作為新的訓(xùn)練數(shù)據(jù)集。SmmrarySmmrary圖廣魚1TestInstance-5回圖廣魚1TestInstance-5回R亡1比tioii;HohieAttributes;IToxi已Instuc亡旨;ITqjlsSumweights;UotleClas5IToclass分類器并選中2)切換到分類界面選擇
4、分類器并選中選項(xiàng),點(diǎn)擊打開測(cè)試集進(jìn)行測(cè)試如圖Openfile.;OpenURL.Close(3)測(cè)試完成后得到圖4的結(jié)果我們可以看到當(dāng)訓(xùn)練集為10時(shí)0得到的精度為。這個(gè)結(jié)果相對(duì)來(lái)說(shuō)比較低。SmmrarySmmraryCorr-sc-tlyClassifiedlustslices137274IncorrectlyClaasifisdInstances3372-%Kappastatisticu0702Kean,ahsoluteerroru29g3Hootmeansquarederroru44.33kelaciveahaoluceerror95.9012呂Rootrelative3!jusi:ede
5、rror113.121%Coverageofcases(0-95leve1)63.2%Heanrel.regionsiza(0.35leval)52.04%bC社_-bC社_-clajsllledas0L219a=classl15925131b=class223lfi2t15Iu=Cla.3331455C231=class4394243E=匚1匕口!54)重新加載訓(xùn)練集,修改抽樣個(gè)數(shù),重復(fù)試驗(yàn)得到如下=DetailedAccuracj/ByClass=TPRateFPRat-ePrecisionRecallF-lfeia3ureMCCROCAreaPRCAreaClassCL140,0940.
6、1220.140.130.0430T5fi30.10(classl0.2110,2070.1440.2110.1710.0030-5050.153class20.1B80.1280.2320.1880.2080m0650m&080170class3CL550.2760.3570.550.4330.240654O319CliB534l0.2080.2270.3f40.2080.265-0.0220532039Cli3335KEijiiL-ed.陽(yáng)aO.Z740.207ozeaQ.2140.2670.0590.554O.Z63=CoutuslddMatrix=SmmrarySmmrarySmmra
7、rySmmrary數(shù)據(jù):訓(xùn)練集抽樣數(shù)1002003004005006007008009001100模型精度27.427.027.527.632.633.433.433.831.034.4對(duì)其他數(shù)據(jù)進(jìn)行同樣的實(shí)驗(yàn)得到下列數(shù)據(jù)數(shù)據(jù)集,實(shí)例個(gè)數(shù),屬性個(gè)數(shù)訓(xùn)練集抽樣數(shù)10020050010002000500010000200003000045211模型精度87.1988.4788.8589.2189.2989.2989.4089.4189.6089.76數(shù)據(jù)集數(shù)據(jù)集,實(shí)例個(gè)數(shù),屬性個(gè)數(shù)數(shù)據(jù)集訓(xùn)練集抽樣數(shù)1020304050607080100138模型精度74.0374.0374.0374.0374.0
8、374.0374.0374.0374.0374.03,實(shí)例個(gè)數(shù),屬性個(gè)數(shù)訓(xùn)練集抽樣數(shù)306090120150180210240270310模型精度64666670707069707171由以上數(shù)據(jù)可以得出結(jié)論:算法精度隨著數(shù)據(jù)集的增加而增大,當(dāng)訓(xùn)練數(shù)據(jù)集規(guī)模增大到一定程度時(shí),建立模型的精度不會(huì)再持續(xù)增大,且最大分類精度不會(huì)超過(guò)模型對(duì)訓(xùn)練數(shù)據(jù)的擬合度。測(cè)試集與算法精度之間的關(guān)系按照3.1實(shí).驗(yàn)1中的方法把測(cè)試集進(jìn)行隨機(jī)抽樣,并保存為新的測(cè)試集。修改隨機(jī)抽樣的數(shù)量得到不同的測(cè)試集,對(duì)不同的測(cè)試集選用相同的訓(xùn)練集進(jìn)行分類,得到如下數(shù)據(jù):訓(xùn)練集實(shí)例個(gè)數(shù),屬性測(cè)試集,實(shí)例個(gè)數(shù)0屬性測(cè)試集抽樣數(shù)50100
9、150200250300350400450500模型精度403638.738.536.83736.835.535.134.4訓(xùn)練集,實(shí)例個(gè)數(shù),屬性個(gè)數(shù)測(cè)試集,實(shí)例個(gè)數(shù),屬性個(gè)數(shù)測(cè)試集抽樣數(shù)305010020050010001500200030004521模型精度989594909290.39090.888.789.7訓(xùn)練集,實(shí)例個(gè)數(shù),屬性個(gè)數(shù)測(cè)試集,實(shí)例個(gè)數(shù),屬性個(gè)數(shù)測(cè)試集抽樣數(shù)102030405060708090100模型精度80657072.57473.372.872.571.171由以上數(shù)據(jù)我們可以得出結(jié)論:當(dāng)數(shù)據(jù)集過(guò)小時(shí)精度的變化幅度較大因此沒(méi)有代表性,當(dāng)測(cè)試集的規(guī)模達(dá)到一定數(shù)量時(shí),算
10、法的精度趨于穩(wěn)定并在一個(gè)很小的范圍內(nèi)上下浮動(dòng)。3.屬2性個(gè)數(shù)對(duì)數(shù)據(jù)集大小與精度關(guān)系的影響以數(shù)據(jù)集為例講解實(shí)驗(yàn)過(guò)程:()對(duì)數(shù)據(jù)不做預(yù)處理直接打開數(shù)據(jù)集,并進(jìn)入分類器界面。(2選擇分類器如圖所示:ClbZiLfl*r&ClbZiLfl*r&孔di咤FLltereddasEifLerAtirisutESelsctEdClssELfi&rBi&ggi.咤CLselficatiDnhaCLxistaringCIaSIZL1CtlLDUCdsISeilsltiveClbssltierCVPorH141orblaciicm班籌in?BeccirsteEMi二|腎ska白口clBssiEiers臥己b町naw
11、ElJjtunclions旺門117日己neta-AdaBoDstHl()單擊右邊的白框,并選擇的選項(xiàng)選出下面選項(xiàng)如圖所示:OK0wekia.gui.GenericQbjectEdiOK0wekia.gui.GenericQbjectEditrAboutJ48一匚U.35-H2elaEsifii-匚hdesfi1RanloiTiSubet_NU.5_S1filterCanellClassforrunninganarbitraryclassifierondata.thathasbeenpassed!throughanarbitraryfilter.*eka.eLs-sslf1ers.即己七乞Fi
12、1tered-La-ssitierajabi1ities()單擊邊上的白框設(shè)置參數(shù),將的值設(shè)置為即篩選器的抽樣比率為點(diǎn)擊確定。5)返回分類器界面點(diǎn)擊5)返回分類器界面點(diǎn)擊按鈕開始對(duì)數(shù)據(jù)集進(jìn)行處理,并得到圖的結(jié)果:CoiiEctl/ClassifiedInatanceaL12fi4S.D4InaorreatlyClassifiedInatanaES13745496Ehppaazatistic0.D121MjeanELtaaluteerrar0.37SRo&tzeansquarederi&r0.5441Relaciveifca3Dluteezia-r99B73%RdoXrelativesqpiar
13、ederror124.9159咅CovEzzmgieofoases4tl9levelI71BS咅IEaxLrelregionsize(0level)61.4%TcitaiNuzcerafinstancea25C0detailedAccuracy3yC1E33IPRateEPRatePreaisi&n.ReohILF-feasureMCCROCAreaPRCAreaClass0.4390.4560-453o.ies0炕0.Q2L0.5070.4354classl0 x4S20*4740.4730.4520u47To.ooe0.1990 x47cla332O.C-110.0-150-0710.04
14、10.052-O.QOS0.50.079clasaWeighted0.4S0.4360-4370.4S0u4430.0120.503D.432=Confuaionfda.triK=abaciassiEledas55352751|1a=classl5555553|Ifc=Eilass2Ea102E|:=Ella333我們從上圖可以看出這個(gè)模型的精度為6)設(shè)置不同的抽樣比率對(duì)數(shù)據(jù)進(jìn)行處理得到如下的數(shù)據(jù):屬性抽樣數(shù)102030405060708090原屬性模型精度45.0446.4047.2446.0044.2044.4445.2066.4066.2466.40(7)以同樣的方法得到如下數(shù)據(jù):數(shù)據(jù)集,實(shí)例個(gè)數(shù),屬性個(gè)數(shù)屬性抽樣數(shù)102030405060708090原屬性模型精度49.2849.7258.0857.7656.3656.4455.3253.8060.2060.20數(shù)據(jù)集,實(shí)例個(gè)數(shù),屬性個(gè)數(shù)屬性抽樣數(shù)10203040506
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 遼寧中醫(yī)藥大學(xué)《C程序設(shè)計(jì)及醫(yī)學(xué)應(yīng)用》2023-2024學(xué)年第一學(xué)期期末試卷
- 蘭州理工大學(xué)《醫(yī)學(xué)實(shí)驗(yàn)基本技術(shù)與設(shè)備》2023-2024學(xué)年第一學(xué)期期末試卷
- 集美大學(xué)《口腔人文醫(yī)學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 湖南文理學(xué)院芙蓉學(xué)院《社會(huì)保障發(fā)展前沿》2023-2024學(xué)年第一學(xué)期期末試卷
- 湖南高速鐵路職業(yè)技術(shù)學(xué)院《世界建筑裝飾風(fēng)格與流派》2023-2024學(xué)年第一學(xué)期期末試卷
- 重慶郵電大學(xué)《計(jì)算機(jī)學(xué)科課程教學(xué)論》2023-2024學(xué)年第一學(xué)期期末試卷
- 重慶健康職業(yè)學(xué)院《工程造價(jià)及管理》2023-2024學(xué)年第一學(xué)期期末試卷
- 中原工學(xué)院《軟件質(zhì)量保證與測(cè)試實(shí)驗(yàn)》2023-2024學(xué)年第一學(xué)期期末試卷
- 浙江農(nóng)林大學(xué)暨陽(yáng)學(xué)院《野生動(dòng)植物保護(hù)與管理》2023-2024學(xué)年第一學(xué)期期末試卷
- 中國(guó)石油大學(xué)(華東)《表演基礎(chǔ)元素訓(xùn)練》2023-2024學(xué)年第一學(xué)期期末試卷
- 建設(shè)項(xiàng)目施工現(xiàn)場(chǎng)春節(jié)放假期間的安全管理方案
- 基于“產(chǎn)教結(jié)合”的電子商務(wù)專業(yè)實(shí)習(xí)實(shí)訓(xùn)教學(xué)評(píng)價(jià)體系
- TSEESA 010-2022 零碳園區(qū)創(chuàng)建與評(píng)價(jià)技術(shù)規(guī)范
- GB/T 19867.5-2008電阻焊焊接工藝規(guī)程
- 2023年市場(chǎng)部主管年終工作總結(jié)及明年工作計(jì)劃
- 國(guó)有資產(chǎn)出租出借審批表(學(xué)校事業(yè)單位臺(tái)賬記錄表)
- 30第七章-農(nóng)村社會(huì)治理課件
- 考研考博-英語(yǔ)-東北石油大學(xué)考試押題三合一+答案詳解1
- 出國(guó)學(xué)生英文成績(jī)單模板
- 植物細(xì)胞中氨基酸轉(zhuǎn)運(yùn)蛋白的一些已知或未知的功能
- 山東省高等學(xué)校精品課程
評(píng)論
0/150
提交評(píng)論