數(shù)據(jù)挖掘?qū)嶒?yàn)報(bào)告-實(shí)驗(yàn)1-Weka基礎(chǔ)操作_第1頁(yè)
數(shù)據(jù)挖掘?qū)嶒?yàn)報(bào)告-實(shí)驗(yàn)1-Weka基礎(chǔ)操作_第2頁(yè)
數(shù)據(jù)挖掘?qū)嶒?yàn)報(bào)告-實(shí)驗(yàn)1-Weka基礎(chǔ)操作_第3頁(yè)
數(shù)據(jù)挖掘?qū)嶒?yàn)報(bào)告-實(shí)驗(yàn)1-Weka基礎(chǔ)操作_第4頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、學(xué)生實(shí)驗(yàn)報(bào)告學(xué)院:信息管理學(xué)院課程名稱(chēng):數(shù)據(jù)挖掘教學(xué)班級(jí):B01姓名:學(xué)號(hào):實(shí)驗(yàn)報(bào)告課程名稱(chēng)數(shù)據(jù)挖掘教學(xué)班級(jí)B01指導(dǎo)老師學(xué)號(hào)姓名行政班級(jí)實(shí)驗(yàn)項(xiàng)目實(shí)驗(yàn)一: Weka的基本操作組員名單獨(dú)立完成實(shí)驗(yàn)類(lèi)型操作性實(shí)驗(yàn)驗(yàn)證性實(shí)驗(yàn)綜合性實(shí)驗(yàn)實(shí)驗(yàn)地點(diǎn)H535實(shí)驗(yàn)日期1. 實(shí)驗(yàn)?zāi)康暮鸵螅海?1) Explorer 界面的各項(xiàng)功能;注意不能與課件上的截圖相同,可采用打開(kāi)不同的數(shù)據(jù)文件以示區(qū)別。( 2) Weka的兩種數(shù)據(jù)表格編輯文件方式下的功能介紹;Explorer-Preprocess-edit,彈出 Viewer 對(duì)話框;Weka GUI選擇器窗口 -Tools | ArffViewer,打開(kāi) ARFF-

2、Viewer 窗口。( 3) ARFF文件組成。2實(shí)驗(yàn)過(guò)程(記錄實(shí)驗(yàn)步驟、分析實(shí)驗(yàn)結(jié)果)2.1 Explorer界面的各項(xiàng)功能初始界面示意其中: explorer 選項(xiàng)是數(shù)據(jù)挖掘梳理數(shù)據(jù)最常用界面,也是使用weka 最簡(jiǎn)單的方法。Experimenter :實(shí)驗(yàn)者選項(xiàng),提供不同數(shù)值的比較,發(fā)現(xiàn)其中規(guī)律。KnowledgeFlow :知識(shí)流,其中包含處理大型數(shù)據(jù)的方法,初學(xué)者應(yīng)用較少。Simple CLI:命令行窗口,有點(diǎn)像cmd 格式,非圖形界面。進(jìn)入 Explorer界面功能介紹(1)任務(wù)面板Preprocess(數(shù)據(jù)預(yù)處理) :選擇和修改要處理的數(shù)據(jù)。Classify (分類(lèi)):訓(xùn)練和測(cè)試

3、分類(lèi)或回歸模型。Cluster(聚類(lèi)):從數(shù)據(jù)中聚類(lèi)。聚類(lèi)分析時(shí)用的較多。Associate(關(guān)聯(lián)分析) :從數(shù)據(jù)中學(xué)習(xí)關(guān)聯(lián)規(guī)則。Select Attributes (選擇屬性):選擇數(shù)據(jù)中最相關(guān)的屬性。Visualize (可視化):查看數(shù)據(jù)的二維散布圖。(2)常用按鈕Openfile :打開(kāi)文件Open URL :打開(kāi) URL 格式文件Open DB :打開(kāi)數(shù)據(jù)庫(kù)文件Generate:數(shù)據(jù)生成Undo:撤銷(xiāo)操作Edit :編輯數(shù)據(jù)Save:保存數(shù)據(jù)文件,可實(shí)現(xiàn)文件格式的轉(zhuǎn)換,比如csv 格式文件向ARFF 格式文件轉(zhuǎn)換等等。(3)篩選數(shù)據(jù)Choose:從這個(gè)按鈕進(jìn)去可以選擇某個(gè)過(guò)濾器對(duì)數(shù)據(jù)

4、進(jìn)行篩選,數(shù)據(jù)預(yù)處理一般使用這個(gè)。Apply :處理完成后,點(diǎn)擊這個(gè)按鈕,處理生效。( 4)數(shù)據(jù)集的屬性關(guān)系和操作current relation :展示了屬性的(relation )關(guān)系名稱(chēng) ,(attributes) 屬性數(shù), (Insetances)實(shí)例數(shù), (sum ofweights) 權(quán)重的總和等多種屬性關(guān)系。Attributes :展示了屬性的所有列, 上邊的四個(gè)按鈕是對(duì)屬性列的快捷選擇按鈕,包括 (all) 全選,(none)全不選, (Ivert) 反選,(patern)模式,選擇符合某一條件的屬性列。最下邊的remove 按鈕可以刪除選中的屬性列,如果想撤回,可以使用上邊提

5、到的undo 按鈕 ( 5)屬性摘要和直方圖Selected attributes:如果是數(shù)值屬性:屬性名(Name)、屬性類(lèi)型( Type)、缺失值( Missing )個(gè)數(shù)及百分比、不同值(Distinct )數(shù)、唯一值(Unique )數(shù)及百分比等等。對(duì)于數(shù)值屬性和標(biāo)稱(chēng)屬性,摘要的方式是不一樣的。圖中顯示的是標(biāo)簽的取值及相應(yīng)取值的實(shí)例數(shù)。選中屬性的直方圖。若數(shù)據(jù)集的最后一個(gè)屬性是類(lèi)標(biāo)變量(這是分類(lèi)或回歸任務(wù)的默認(rèn)目標(biāo)變量,如 “play ”),直方圖中的每個(gè)長(zhǎng)方形就會(huì)按照該變量的比例分成不同顏色的段。要想換個(gè)分段的依據(jù),在上方的下拉框中選個(gè)不同的分類(lèi)屬性就可以了。下拉框里選上“No Cl

6、ass或”者一個(gè)數(shù)值屬性會(huì)變成黑白的直方圖。Visualize :展示所有的屬性的直方圖( 6)狀態(tài)欄( status)顯示一些信息讓你知道正在做什么。在狀態(tài)欄中的任意位置右擊鼠標(biāo)將會(huì)出現(xiàn)一個(gè)小菜單。有兩個(gè)選項(xiàng):Memory Information- 顯示 WEKA 可用的內(nèi)存量。Run garbage collector- 強(qiáng)制運(yùn)行Java 垃圾回收器,搜索不再需要的內(nèi)存空間并將之釋放,從而可為新任務(wù)分配更多的內(nèi)存。Log :按鈕可以查看以weka 操作日志。沒(méi)有任務(wù)時(shí),右邊的小鳥(niǎo)是坐著的,任務(wù)運(yùn)行時(shí),小鳥(niǎo)會(huì)站起來(lái)左右搖擺。若小鳥(niǎo)站著但不轉(zhuǎn)動(dòng),表示任務(wù)出了問(wèn)題。引例操作顯示功能( 1)2.2

7、 weka 的兩種數(shù)據(jù)表格編輯方式下的功能介紹Explorer-Preprocess-edit,彈出 Viewer 對(duì)話框;1、 雙擊鼠標(biāo)可以對(duì)數(shù)據(jù)進(jìn)行修改,2、 在數(shù)據(jù)上使用右鍵可以對(duì)數(shù)據(jù)修改進(jìn)行撤回(undo)3、 對(duì)數(shù)據(jù)修改之后,如果想保存,點(diǎn)擊下方的ok,撤回點(diǎn)擊undo,不保存直接點(diǎn)擊cancelWeka GUI選擇器窗口 -Tools | ArffViewer,打開(kāi) ARFF-Viewer 窗口。1、 在最開(kāi)始進(jìn)入界面點(diǎn)擊上邊的tools,進(jìn)入arffviewer 。2、 點(diǎn)擊打開(kāi)不同的文件,會(huì)在上沿像瀏覽器一樣挨個(gè)展示arff文件的內(nèi)容。3、 鼠標(biāo)移動(dòng)到屬性名稱(chēng)旁邊是會(huì)顯示對(duì)屬性

8、列操作的格式,單機(jī)左鍵會(huì)對(duì)所有數(shù)據(jù)按照這個(gè)屬性按照升序排列, ( shift + 左鍵)會(huì)對(duì)屬性按照這個(gè)屬性進(jìn)行降序排列,( Alt+ 左鍵)或者直接右鍵出現(xiàn)對(duì)數(shù)據(jù)進(jìn)行操作的菜單,對(duì)屬性列進(jìn)行重命名,所有數(shù)據(jù)相加之類(lèi)的操作都可以在菜單中找到。4、 鼠標(biāo)定在某行時(shí),可以刪除某一行5、 有點(diǎn)像 excel 中的操作2.2ARFF 文件組成、對(duì)文件格式介紹WEKA 存儲(chǔ)數(shù)據(jù)的格式是ARFF ( Attribute-Relation File Format )文件1、 這是一種 ASCII 文本文件2、 文件的擴(kuò)展名為.arff3、 可以用寫(xiě)字板打開(kāi)、編輯ARFF 文件。建議用UltraEdit 等編

9、輯器使用寫(xiě)字板打開(kāi)時(shí)如下“%”表示注釋?zhuān)?WEKA 將忽略這些行。除去注釋后,整個(gè)ARFF 文件可以分為兩個(gè)部分:( a)第一部分給出了頭信息(Head information),包括了對(duì)關(guān)系的聲明和對(duì)屬性的聲明。( b)第二部分給出了數(shù)據(jù)信息( Data information),即數(shù)據(jù)集中給出的數(shù)據(jù)。從 “data”標(biāo)記開(kāi)始,后面的就是數(shù)據(jù)信息了。關(guān)系名稱(chēng)在ARFF 文件的第一個(gè)有效行來(lái)定義,格式為:relation < 關(guān)系名 ><關(guān)系名 >是一個(gè)字符串。如果這個(gè)字符串包含空格,它必須加上引號(hào)(指英文標(biāo)點(diǎn)的單引號(hào)或雙引號(hào)) 。屬性聲明用一列以“attribute

10、開(kāi)”頭的語(yǔ)句表示。數(shù)據(jù)集中的每一個(gè)屬性都有對(duì)應(yīng)的“attribute 語(yǔ)”句,來(lái)定義它的屬性名稱(chēng)和數(shù)據(jù)類(lèi)型( datatype):attribute < 屬性名 > <數(shù)據(jù)類(lèi)型 >其中 <屬性名 >必須以字母開(kāi)頭的字符串。和關(guān)系名稱(chēng)一樣,如果這個(gè)字符串包含空格,它必須加上引號(hào)。屬性聲明語(yǔ)句的順序很重要,它表明了該項(xiàng)屬性在數(shù)據(jù)部分的位置。最后一個(gè)聲明的屬性被稱(chēng)作class 屬性,在分類(lèi)或回歸任務(wù)中,它是默認(rèn)的目標(biāo)變量。WEKA 一共支持五種數(shù)據(jù)類(lèi)型numeric數(shù)值型nominal標(biāo)稱(chēng)( nominal )型string字符串型date <date-fo

11、rmat>日期和時(shí)間型Relational關(guān)系型還可以使用兩個(gè)類(lèi)型“integer和”“real,”但是 WEKA 把它們都當(dāng)作 “numeric 看”待。注意: “integer,”“real,”“numeric,”“date,”“string這”些關(guān)鍵字是區(qū)分大小寫(xiě)的,而 “relation、”“ attribute 和 “ ”data則”不區(qū)分。每個(gè)實(shí)例占一行,實(shí)例的各屬性值用逗號(hào)“,隔”開(kāi)。如果某個(gè)屬性的值是缺失值( missing value ),用問(wèn)號(hào) “?表”示,且這個(gè)問(wèn)號(hào)不能省略。文件轉(zhuǎn) arff 文件(1)創(chuàng)建 xls 文件,保存為csv 文件(2)weka中打開(kāi) csv 格式的文件, 另存為 arff 文件,因?yàn)樵跀?shù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論