數(shù)據(jù)挖掘?qū)嵱?xùn)weka試驗(yàn)報(bào)告_第1頁
數(shù)據(jù)挖掘?qū)嵱?xùn)weka試驗(yàn)報(bào)告_第2頁
數(shù)據(jù)挖掘?qū)嵱?xùn)weka試驗(yàn)報(bào)告_第3頁
數(shù)據(jù)挖掘?qū)嵱?xùn)weka試驗(yàn)報(bào)告_第4頁
數(shù)據(jù)挖掘?qū)嵱?xùn)weka試驗(yàn)報(bào)告_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘?qū)嵱?xùn)課程論文(報(bào)告、案例分析)院 系_專業(yè)_班級10級統(tǒng)計(jì)3班學(xué)生姓名 李健_學(xué)號2010210453_任課教師 劉 洪 偉2013年01月17日課程論文評分表各項(xiàng)滿分評分標(biāo)準(zhǔn)學(xué)生得分評分標(biāo)準(zhǔn)一10有明確的研究背景和意義評分標(biāo)準(zhǔn)二30數(shù)據(jù)準(zhǔn)確、有時(shí)效性,必須是最新的數(shù)據(jù)評分標(biāo)準(zhǔn)三40方法得當(dāng),有實(shí)證分析評分標(biāo)準(zhǔn)四10條理性和邏輯性強(qiáng),內(nèi)容闡述清晰、結(jié)論明確評分標(biāo)準(zhǔn)五10論文按規(guī)定的格式撰寫,文章中引用的內(nèi)容需用腳注注明來源評分標(biāo)準(zhǔn)六特別提醒文章出現(xiàn)大段抄襲或者兩人之間內(nèi)容雷問達(dá)到80姆上,均不能及格。論文按規(guī)定的時(shí)間上交,每推退一天,扣減2分總分評閱人簽字?jǐn)?shù)據(jù)挖掘?qū)嵱?xùn)課程論文選題要求:

2、根據(jù)公開發(fā)表統(tǒng)計(jì)數(shù)據(jù),請結(jié)合 數(shù)據(jù)挖掘 理論與方法, 撰寫一篇與數(shù)據(jù)挖掘領(lǐng)域相關(guān)的論文。寫作要求:(1)數(shù)據(jù)準(zhǔn)確、有時(shí)效性,必須是最新的數(shù)據(jù)。(2)文章必須有相應(yīng)的統(tǒng)計(jì)方法,這些統(tǒng)計(jì)方法包括以 前專業(yè)課中學(xué)到的任何統(tǒng)計(jì)方法,如參數(shù)估計(jì)、假設(shè)檢驗(yàn)、 相關(guān)與回歸、多元統(tǒng)計(jì)等等。(3)論文的內(nèi)容必須是原創(chuàng),有可靠的分析依據(jù)和明確 的結(jié)論。(4)論文按照規(guī)定的格式化撰寫;(5)字?jǐn)?shù)不少于2000字。數(shù)據(jù)挖掘(WEKA軟件)實(shí)驗(yàn)報(bào)告統(tǒng)計(jì)學(xué) 專業(yè) 學(xué)生 李健 學(xué)號20102104532010210453關(guān)鍵詞:數(shù)據(jù)挖掘;游玩;因素;WEKA本次實(shí)驗(yàn)指在熟練的運(yùn)用軟件weka進(jìn)行數(shù)據(jù)處理,其中包括數(shù)據(jù)準(zhǔn)備,

3、關(guān)聯(lián)規(guī)則等同時(shí)了解weka的基本用法。一、軟件介紹1簡介數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)這些字眼,在一些人看來,是門檻很高的東西。誠然,如果做算法實(shí)現(xiàn)甚至算法優(yōu)化, 確實(shí)需要很多背景知識。但事實(shí)是,絕大多數(shù)數(shù)據(jù)挖掘工程師,不需要去做算法層面的東西。他們的精力,集中在特征提取,算法選擇和參數(shù)調(diào)優(yōu)上。那么,一個(gè)可以方便地提供這些功能的工具,便是十分必要的了。而weka,便是數(shù)據(jù)挖掘工具中的佼佼者。WEKA的全名是懷卡托智能分析環(huán)境(Waikato Environment forKnowledge Analysis),是由新西蘭懷卡托(Waikato)大學(xué)開發(fā)的機(jī)器學(xué)習(xí)軟件,純Java技 術(shù)實(shí)現(xiàn)的開源軟件,遵循于

4、GNU General PublicLicense,跨平臺運(yùn)行,集合 了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,分類器實(shí)現(xiàn)了常用ZeroR算法、Id3算法、J4. 8算法等40多個(gè)算法,聚類器實(shí)現(xiàn)了EM算法、SimpleKMeans算法和Cobweb法3種算法,能對數(shù)據(jù)進(jìn)行預(yù)處理、分類、回歸、聚類、關(guān)聯(lián)規(guī)則以 及在新的交互式界面上的可視化。2oo5年8月,在第11屆ACM SIGKD國際會 議上,懷卡托大學(xué)的WEKAI、組榮獲了數(shù)據(jù)挖掘和知識探索領(lǐng)域的最高服務(wù)獎(jiǎng),WEKAI統(tǒng)得到了廣泛的認(rèn)可,被譽(yù)為數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)歷史上的里程碑,是 現(xiàn)今最完備的數(shù)據(jù)挖掘工具之一。WEK瘢用的是一種叫做arff

5、(Attribute一Relation FileFormat)的數(shù)據(jù)文件結(jié)構(gòu)。這種arff文件是普通的ASCII文本文 件,內(nèi)部結(jié)構(gòu)很簡單,主要是測試算法使用的輕量級的數(shù)據(jù)文件結(jié)構(gòu)。arff文件可以自己建立,也可通過JDBC從Oracle和Mysql等流行數(shù)據(jù)庫中獲得。整個(gè)arf文件可以分為兩個(gè)部分。第一部分給出了頭信息(Head information),包括關(guān)系聲明(Relation Declaration)和屆性聲明(AttributeDeclarations)。第二部分給出了數(shù)據(jù)信息(Datainformation),即數(shù)據(jù)集中給出的數(shù)據(jù)。關(guān)系聲明的 定義格式為:relation屆性聲

6、明的定義格式為:attribute;數(shù)據(jù)信息的定義格式為獨(dú)占一行的data,后面跟著的就是數(shù)據(jù)信息。2.安裝Weka勺官方地址是http:/www.cs.waikato.ac.nz/ml/weka/。點(diǎn)開左側(cè)download欄,可以進(jìn)入下載頁面,里面有windows, mac os, linux等平臺下的 版本,我們以windows系統(tǒng)作為示例。目前穩(wěn)定的版本是3.6。如果本機(jī)沒有安裝java,可以選擇帶有jre的版本。下載后是一個(gè)exe的可執(zhí) 行文件,雙擊進(jìn)行安裝即可。安裝完畢,打開啟動weka的快捷方式,如果可以看到下面的界面,那么恭喜, 安裝成功了。共有4個(gè)應(yīng)用,分別是1)Explore

7、r用來進(jìn)行數(shù)據(jù)實(shí)驗(yàn)、挖掘的環(huán)境,它提供了分類,聚類,關(guān)聯(lián)規(guī)則,特征選擇, 數(shù)據(jù)可視化的功能。(An environment for exploring data with WEKA )2)Experimentor用來進(jìn)行實(shí)驗(yàn),對不同學(xué)習(xí)方案進(jìn)行數(shù)據(jù)測試的環(huán)境。(An environment for performing experimentsand conducting statistical tests between learning schemes.)3)KnowledgeFlow功能和Explorer差不多,不過提供的接口不同,用戶可以使用拖拽的方式去建立實(shí)驗(yàn)方案。另夕卜,它支持增量學(xué)

8、習(xí)。(This environment supports essentially the same functionsas the Explorer but with a drag-and-drop interface.One advantage is that it supports incremental learning.)4)SimpleCLI簡單的命令行界面。(Provides a simple command-line interface that allows direct execution of WEKAcommands for operating systems that

9、do not provide their own command line interface. )、實(shí)驗(yàn)內(nèi)容1.選用數(shù)據(jù)文件為:small_dataset中的weather.arff數(shù)據(jù)文件2.在WEK沖點(diǎn)擊explorer打開文件weather.arff3.對數(shù)據(jù)整理分析.i.1veka. gux. GenericOb jectEditorweka. f:iIters. uriEupeirTi sed. attribute. DiscretiisAboutAn instance filter that discretizes a range of numericMoreattributes

10、 in the dataset into nominal attributes.-Capibili tisattr ibutelndi ces 1,2, 34,5bins 2如mi mdNei ghtO flnw t ancsPerlnt ervalNonbT o binsfiikdlTmuiiBirLE FalseVi明orwCly mFelmVinvertSelectionFalseVm MkwE i ikaryFU眼Vus E qnalF r quencyFalseVOpen. . .Save.OKC play=no 4 conf:(0.57) lev:(0.11) 1 conv:(1.

11、13)2. play=no 5 = humidity=80.5_max 4 conf:(0.8) lev:(0.11) 1 conv:(1.25)3. outlook=overcast 4 = play=yes 4 conf:(1) lev:(0.1) 1 conv:(1.43)4. play=yes 9 = outlook=overcast 4 conf:(0.44) lev:(0.1) 1 conv:(1.07)5.humidity=0_80.5 windy=FALSE 4 = play=yes 4 conf: lev:(0.1)1 conv:(1.43)6.play=yes 9 = hu

12、midity=0_80.5 windy=FALSE 4 conf:(0.44)lev:(0.1)1 conv:(1.07)7.outlook=rainy 5 =temperature=0_74.54conf:(0.8)lev:(0.08)1conv:(1.07)8.temperature=0_74.58 = outlook=rainy4conf:(0.5)lev:(0.08)1conv:(1.03)9. humidity=0_80.5 7 = play=yes 6 conf:(0.86) lev:(0.11) 1 conv:(1.25)10. play=yes 9 = humidity=0_80.5 6 conf:(0.67) lev:(0.11) 1 conv:(1.13)三、總結(jié):通過實(shí)踐周的學(xué)習(xí),我們不僅繼續(xù)學(xué)習(xí)了R還學(xué)習(xí)了Weka軟件的應(yīng)用。使我重新學(xué)習(xí)了一下數(shù)據(jù)挖掘的相關(guān)概念、知識和軟件的應(yīng)用,理解了數(shù)據(jù)挖掘的用途和使用步驟。在此過程中學(xué)會了運(yùn)用各個(gè)模塊的分析方法。通過本次實(shí)訓(xùn)操作,也認(rèn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論