數(shù)據(jù)挖掘?qū)嶒?yàn)報告-實(shí)驗(yàn)1-Weka基礎(chǔ)操作_第1頁
數(shù)據(jù)挖掘?qū)嶒?yàn)報告-實(shí)驗(yàn)1-Weka基礎(chǔ)操作_第2頁
數(shù)據(jù)挖掘?qū)嶒?yàn)報告-實(shí)驗(yàn)1-Weka基礎(chǔ)操作_第3頁
數(shù)據(jù)挖掘?qū)嶒?yàn)報告-實(shí)驗(yàn)1-Weka基礎(chǔ)操作_第4頁
免費(fèi)預(yù)覽已結(jié)束,剩余6頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、學(xué)生實(shí)驗(yàn)報告學(xué)院:信息管理學(xué)院課程名稱:數(shù)據(jù)挖掘教學(xué)班級:B01姓名:學(xué)號:實(shí)驗(yàn)報告課程名稱數(shù)據(jù)挖掘教學(xué)班級B01指導(dǎo)老師學(xué)號姓名行政班級實(shí)驗(yàn)項目實(shí)驗(yàn)一: Weka的基本操作組員名單獨(dú)立完成實(shí)驗(yàn)類型操作性實(shí)驗(yàn)驗(yàn)證性實(shí)驗(yàn)綜合性實(shí)驗(yàn)實(shí)驗(yàn)地點(diǎn)H535實(shí)驗(yàn)日期1. 實(shí)驗(yàn)?zāi)康暮鸵螅海?1) Explorer 界面的各項功能;注意不能與課件上的截圖相同,可采用打開不同的數(shù)據(jù)文件以示區(qū)別。( 2) Weka的兩種數(shù)據(jù)表格編輯文件方式下的功能介紹;Explorer-Preprocess-edit,彈出 Viewer 對話框;Weka GUI選擇器窗口 -Tools | ArffViewer,打開 ARFF-

2、Viewer 窗口。( 3) ARFF文件組成。2實(shí)驗(yàn)過程(記錄實(shí)驗(yàn)步驟、分析實(shí)驗(yàn)結(jié)果)2.1 Explorer界面的各項功能初始界面示意其中: explorer 選項是數(shù)據(jù)挖掘梳理數(shù)據(jù)最常用界面,也是使用weka 最簡單的方法。Experimenter :實(shí)驗(yàn)者選項,提供不同數(shù)值的比較,發(fā)現(xiàn)其中規(guī)律。KnowledgeFlow :知識流,其中包含處理大型數(shù)據(jù)的方法,初學(xué)者應(yīng)用較少。Simple CLI:命令行窗口,有點(diǎn)像cmd 格式,非圖形界面。進(jìn)入 Explorer界面功能介紹(1)任務(wù)面板Preprocess(數(shù)據(jù)預(yù)處理) :選擇和修改要處理的數(shù)據(jù)。Classify (分類):訓(xùn)練和測試

3、分類或回歸模型。Cluster(聚類):從數(shù)據(jù)中聚類。聚類分析時用的較多。Associate(關(guān)聯(lián)分析) :從數(shù)據(jù)中學(xué)習(xí)關(guān)聯(lián)規(guī)則。Select Attributes (選擇屬性):選擇數(shù)據(jù)中最相關(guān)的屬性。Visualize (可視化):查看數(shù)據(jù)的二維散布圖。(2)常用按鈕Openfile :打開文件Open URL :打開 URL 格式文件Open DB :打開數(shù)據(jù)庫文件Generate:數(shù)據(jù)生成Undo:撤銷操作Edit :編輯數(shù)據(jù)Save:保存數(shù)據(jù)文件,可實(shí)現(xiàn)文件格式的轉(zhuǎn)換,比如csv 格式文件向ARFF 格式文件轉(zhuǎn)換等等。(3)篩選數(shù)據(jù)Choose:從這個按鈕進(jìn)去可以選擇某個過濾器對數(shù)據(jù)

4、進(jìn)行篩選,數(shù)據(jù)預(yù)處理一般使用這個。Apply :處理完成后,點(diǎn)擊這個按鈕,處理生效。( 4)數(shù)據(jù)集的屬性關(guān)系和操作current relation :展示了屬性的(relation )關(guān)系名稱 ,(attributes) 屬性數(shù), (Insetances)實(shí)例數(shù), (sum ofweights) 權(quán)重的總和等多種屬性關(guān)系。Attributes :展示了屬性的所有列, 上邊的四個按鈕是對屬性列的快捷選擇按鈕,包括 (all) 全選,(none)全不選, (Ivert) 反選,(patern)模式,選擇符合某一條件的屬性列。最下邊的remove 按鈕可以刪除選中的屬性列,如果想撤回,可以使用上邊提

5、到的undo 按鈕 ( 5)屬性摘要和直方圖Selected attributes:如果是數(shù)值屬性:屬性名(Name)、屬性類型( Type)、缺失值( Missing )個數(shù)及百分比、不同值(Distinct )數(shù)、唯一值(Unique )數(shù)及百分比等等。對于數(shù)值屬性和標(biāo)稱屬性,摘要的方式是不一樣的。圖中顯示的是標(biāo)簽的取值及相應(yīng)取值的實(shí)例數(shù)。選中屬性的直方圖。若數(shù)據(jù)集的最后一個屬性是類標(biāo)變量(這是分類或回歸任務(wù)的默認(rèn)目標(biāo)變量,如 “play ”),直方圖中的每個長方形就會按照該變量的比例分成不同顏色的段。要想換個分段的依據(jù),在上方的下拉框中選個不同的分類屬性就可以了。下拉框里選上“No Cl

6、ass或”者一個數(shù)值屬性會變成黑白的直方圖。Visualize :展示所有的屬性的直方圖( 6)狀態(tài)欄( status)顯示一些信息讓你知道正在做什么。在狀態(tài)欄中的任意位置右擊鼠標(biāo)將會出現(xiàn)一個小菜單。有兩個選項:Memory Information- 顯示 WEKA 可用的內(nèi)存量。Run garbage collector- 強(qiáng)制運(yùn)行Java 垃圾回收器,搜索不再需要的內(nèi)存空間并將之釋放,從而可為新任務(wù)分配更多的內(nèi)存。Log :按鈕可以查看以weka 操作日志。沒有任務(wù)時,右邊的小鳥是坐著的,任務(wù)運(yùn)行時,小鳥會站起來左右搖擺。若小鳥站著但不轉(zhuǎn)動,表示任務(wù)出了問題。引例操作顯示功能( 1)2.2

7、 weka 的兩種數(shù)據(jù)表格編輯方式下的功能介紹Explorer-Preprocess-edit,彈出 Viewer 對話框;1、 雙擊鼠標(biāo)可以對數(shù)據(jù)進(jìn)行修改,2、 在數(shù)據(jù)上使用右鍵可以對數(shù)據(jù)修改進(jìn)行撤回(undo)3、 對數(shù)據(jù)修改之后,如果想保存,點(diǎn)擊下方的ok,撤回點(diǎn)擊undo,不保存直接點(diǎn)擊cancelWeka GUI選擇器窗口 -Tools | ArffViewer,打開 ARFF-Viewer 窗口。1、 在最開始進(jìn)入界面點(diǎn)擊上邊的tools,進(jìn)入arffviewer 。2、 點(diǎn)擊打開不同的文件,會在上沿像瀏覽器一樣挨個展示arff文件的內(nèi)容。3、 鼠標(biāo)移動到屬性名稱旁邊是會顯示對屬性

8、列操作的格式,單機(jī)左鍵會對所有數(shù)據(jù)按照這個屬性按照升序排列, ( shift + 左鍵)會對屬性按照這個屬性進(jìn)行降序排列,( Alt+ 左鍵)或者直接右鍵出現(xiàn)對數(shù)據(jù)進(jìn)行操作的菜單,對屬性列進(jìn)行重命名,所有數(shù)據(jù)相加之類的操作都可以在菜單中找到。4、 鼠標(biāo)定在某行時,可以刪除某一行5、 有點(diǎn)像 excel 中的操作2.2ARFF 文件組成、對文件格式介紹WEKA 存儲數(shù)據(jù)的格式是ARFF ( Attribute-Relation File Format )文件1、 這是一種 ASCII 文本文件2、 文件的擴(kuò)展名為.arff3、 可以用寫字板打開、編輯ARFF 文件。建議用UltraEdit 等編

9、輯器使用寫字板打開時如下“%”表示注釋, WEKA 將忽略這些行。除去注釋后,整個ARFF 文件可以分為兩個部分:( a)第一部分給出了頭信息(Head information),包括了對關(guān)系的聲明和對屬性的聲明。( b)第二部分給出了數(shù)據(jù)信息( Data information),即數(shù)據(jù)集中給出的數(shù)據(jù)。從 “data”標(biāo)記開始,后面的就是數(shù)據(jù)信息了。關(guān)系名稱在ARFF 文件的第一個有效行來定義,格式為:relation < 關(guān)系名 ><關(guān)系名 >是一個字符串。如果這個字符串包含空格,它必須加上引號(指英文標(biāo)點(diǎn)的單引號或雙引號) 。屬性聲明用一列以“attribute

10、開”頭的語句表示。數(shù)據(jù)集中的每一個屬性都有對應(yīng)的“attribute 語”句,來定義它的屬性名稱和數(shù)據(jù)類型( datatype):attribute < 屬性名 > <數(shù)據(jù)類型 >其中 <屬性名 >必須以字母開頭的字符串。和關(guān)系名稱一樣,如果這個字符串包含空格,它必須加上引號。屬性聲明語句的順序很重要,它表明了該項屬性在數(shù)據(jù)部分的位置。最后一個聲明的屬性被稱作class 屬性,在分類或回歸任務(wù)中,它是默認(rèn)的目標(biāo)變量。WEKA 一共支持五種數(shù)據(jù)類型numeric數(shù)值型nominal標(biāo)稱( nominal )型string字符串型date <date-fo

11、rmat>日期和時間型Relational關(guān)系型還可以使用兩個類型“integer和”“real,”但是 WEKA 把它們都當(dāng)作 “numeric 看”待。注意: “integer,”“real,”“numeric,”“date,”“string這”些關(guān)鍵字是區(qū)分大小寫的,而 “relation、”“ attribute 和 “ ”data則”不區(qū)分。每個實(shí)例占一行,實(shí)例的各屬性值用逗號“,隔”開。如果某個屬性的值是缺失值( missing value ),用問號 “?表”示,且這個問號不能省略。文件轉(zhuǎn) arff 文件(1)創(chuàng)建 xls 文件,保存為csv 文件(2)weka中打開 csv 格式的文件, 另存為 arff 文件,因?yàn)樵跀?shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論