數(shù)據(jù)挖掘工具軟件介紹weka課件_第1頁
數(shù)據(jù)挖掘工具軟件介紹weka課件_第2頁
數(shù)據(jù)挖掘工具軟件介紹weka課件_第3頁
數(shù)據(jù)挖掘工具軟件介紹weka課件_第4頁
數(shù)據(jù)挖掘工具軟件介紹weka課件_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘軟件介紹目前較為著名的數(shù)據(jù)挖掘軟件傳統(tǒng)的數(shù)據(jù)挖掘套件(Classic suites):SAS Enterprise Miner 5.3SPSS Clementine 12開源數(shù)據(jù)挖掘軟件(Open Source):RapidMiner 4.2 / KNIME 2.0 / Weka 3.6專門化的數(shù)據(jù)挖掘軟件(Specialized):Viscovery SOMiner 5.0prudsys Discovery 5.5 / Basket Analyzer 5.2Bissantz Delta Master 5.3.62目前較為著名的數(shù)據(jù)挖掘軟件自動(dòng)化數(shù)據(jù)挖掘軟件(Self-Acting):

2、KXEN Analytic Framework 4.04BI產(chǎn)品內(nèi)置的數(shù)據(jù)挖掘軟件(BI Vendors):SAP NetWear 7.0 Data Mining WorkbenchOracle 11g Data MiningMicrosoft SQL Server 2005 Analysis Services其他優(yōu)秀的軟件Teradata Warehouse MinerIBM的DB2 Intelligence MinerAngoss的KnowledgeSTUDIOUnica3WEKA簡介http:/www.cs.waikato.ac.nz/ml/weka中文論壇/功能ProgramLogWi

3、ndowMemeryUsageExitVisualization4WEKA PLOTROCTreeVisualizerGraphVisualizerBoundaryVisualizerToolsArffViewerSqlViewerBayesNetEditer5WEKAApplicationsExplorerExperimenterKnowledgeFlowSimpleCLIHelpWeka homepageHOWTOs, code snippets, etc.Weka on SourceforgeSystemInfo6WEKA WEKA Explorer 1. Preprocess. 選擇和

4、修改要處理的數(shù)據(jù)。 2. Classify. 訓(xùn)練和測試關(guān)于分類或回歸的學(xué)習(xí)方案。 3. Cluster. 從數(shù)據(jù)中學(xué)習(xí)聚類。 4. Associate. 從數(shù)據(jù)中學(xué)習(xí)關(guān)聯(lián)規(guī)則。 5. Select attributes. 選擇數(shù)據(jù)中最相關(guān)的屬性。 6. Visualize. 查看數(shù)據(jù)的交互式二維圖像。 7. Memory Information. 在 log 欄中顯示 WEKA 可用的內(nèi)存量。 8. Run garbage collector. 強(qiáng)制運(yùn)行 Java 垃圾回收器,搜索不再需要的內(nèi)存空間7WEKA EXPLORER載入數(shù)據(jù)1. Open file 打開一個(gè)對話框,允許你瀏覽本地文

5、件系統(tǒng)上的數(shù)據(jù)文件。2. Open URL 請求一個(gè)存有數(shù)據(jù)的 URL 地址。3. Open DB 從數(shù)據(jù)庫中讀取數(shù)據(jù) (注意, 要使之可用, 可能需要編輯weka/experiment/ DatabaseUps 中的文件)4. Generate 從一些數(shù)據(jù)生成器(DataGenerators)中生成人造數(shù)據(jù)。8WEKA EXPLORER處理屬性1. No. 一個(gè)數(shù)字,用來標(biāo)識數(shù)據(jù)文件中指定的各屬性的順序。2. 選擇框. 允許勾選關(guān)系中呈現(xiàn)的各屬性。3. Name. 數(shù)據(jù)文件中聲明的各屬性的名稱。當(dāng)點(diǎn)擊屬性列表中的不同行時(shí),右邊Selected attribute 一欄的內(nèi)容隨之改變。這一欄給

6、出了列表中當(dāng)前高亮顯示的屬性的一些描述:1. Name. 屬性的名稱,和屬性列表中給出的相同。2. Type. 屬性的類型,最常見的是分類型(Nominal)和數(shù)值型(Numeric)。3. Missing. 數(shù)據(jù)中該屬性缺失(或者未指定)的實(shí)例的數(shù)量(及百分比)。4. Distinct. 數(shù)據(jù)中該屬性包含的不同值的數(shù)目。5. Unique. 唯一地?fù)碛心持档膶?shí)例的數(shù)目(及百分比),這些實(shí)例每個(gè)的取值都和別的不一樣。9WEKA EXPLORER ATTRIBUTESPattern.讓用戶基于 Perl 5 正則表達(dá)式來選擇屬性。例如所有以M開頭的屬性。篩選器filterGenericObjec

7、tEditor 對話框應(yīng)用篩選器 注意:一些篩選器會(huì)依據(jù)是否設(shè)置了 class 屬性來做出不同的動(dòng)作。(點(diǎn)擊直方圖上方那一欄時(shí),會(huì)出現(xiàn)一個(gè)可供選擇的下拉列表。)特別的,“supervised filters”(監(jiān)督式篩選器)需要設(shè)置一個(gè) class 屬性, 而某些“unsupervised attribute filters”(非監(jiān)督式屬性篩選器)將忽略 class 屬性。注意也可以將 Class 設(shè)成 None,這時(shí)沒有設(shè)置 class屬性。10WEKA EXPLORER CLASSIFY分類器選擇分類器測試選項(xiàng)1. Using training set. 根據(jù)分類器在用來訓(xùn)練的實(shí)例上的預(yù)測

8、效果來評價(jià)它。2. Supplied test set. 從文件載入的一組實(shí)例,根據(jù)分類器在這組實(shí)例上的預(yù)測效果來評價(jià)它。點(diǎn)擊 Set 按鈕將打開一個(gè)對話框來選擇用來測試的文件。3. Cross-validation. 使用交叉驗(yàn)證來評價(jià)分類器,所用的折數(shù)填在Folds 文本框中。4.Percentage split. 從數(shù)據(jù)集中按一定百分比取出部分?jǐn)?shù)據(jù)放在一邊作測試用,根據(jù)分類器這些實(shí)例上預(yù)測效果來評價(jià)它。取出的數(shù)據(jù)量由% 一欄中的值決定。11WEKA EXPLORER CLASSIFY分類器輸出文本Classifier output 區(qū)域的文本有一個(gè)滾動(dòng)條以便瀏覽結(jié)果。按住 Alt 和 S

9、hift 鍵,在這個(gè)區(qū)域點(diǎn)擊鼠標(biāo)左鍵,會(huì)出現(xiàn)一個(gè)對話框,讓你用各種格式(目前可用 JPEG 和 EPS)保存輸出的結(jié)果。輸出結(jié)果1. Run information. 給出了學(xué)習(xí)算法各選項(xiàng)的一個(gè)列表。包括了學(xué)習(xí)過程中涉及到的關(guān)系名稱,屬性,實(shí)例和測試模式。2. Classifier model (full training set). 用文本表示的基于整個(gè)訓(xùn)練集的分類模型。所選測試模式的結(jié)果可以分解為以下幾個(gè)部分:3. Summary. 一列統(tǒng)計(jì)量,描述了在指定測試模式下,分類器預(yù)測 class 屬性的準(zhǔn)確程度。4. Detailed Accuracy By Class. 更詳細(xì)地給出了關(guān)于每

10、一類的預(yù)測準(zhǔn)確度的描述。5. Confusion Matrix. 給出了預(yù)測結(jié)果中每個(gè)類的實(shí)例數(shù)。其中矩陣的行是實(shí)際的類,矩陣的列是預(yù)測得到的類,矩陣元素就是相應(yīng)測試樣本的個(gè)數(shù)。12WEKA EXPLORER CLUSTER聚類聚類模式Use training setSupplied test set Percentage split前三個(gè)和分類的一樣Classes to clusters evaluation是要比較所得到的聚類與在數(shù)據(jù)中預(yù)先給出的類別吻合得怎樣。13WEKA EXPLORER ASSOCIATE關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則的學(xué)習(xí)器也可以跟其它面板的聚類器,篩選器和分類器一樣選擇和配置。

11、14Attribute Selection屬性選擇屬性選擇是說搜索數(shù)據(jù)集中全部屬性的所有可能組合,找出預(yù)測效果最好的那一組屬性。為實(shí)現(xiàn)這一目標(biāo),必須設(shè)定兩個(gè)東西:屬性評估器(evaluator)和搜索策略。評估器決定了怎樣給一組屬性安排一個(gè)表示它們好壞的值。搜索策略決定了要怎樣進(jìn)行搜索。Attribute Selection Mode 一欄有兩個(gè)選項(xiàng)。1. Use full training set. 使用訓(xùn)練數(shù)據(jù)的全體好決定一組屬性的好壞。2. Cross-validation. 一組屬性的好壞通過一個(gè)交叉驗(yàn)證過程來決定。Fold 和Seed 分別給出了交叉驗(yàn)證的折數(shù)和打亂數(shù)據(jù)時(shí)的隨機(jī)種子。

12、15WEKA EXPLORER Visualize散點(diǎn)圖矩陣選擇了 Visualize 面板后,會(huì)為所有的屬性給出一個(gè)散點(diǎn)圖矩陣,它們會(huì)根據(jù)所選的class 屬性來著色。在這里可以改變每個(gè)二維散點(diǎn)圖的大小,改變各點(diǎn)的大小,以及隨機(jī)地抖動(dòng)(jitter)數(shù)據(jù)(使得被隱藏的點(diǎn)顯示出來)。也可以改變用來著色的屬性,可以只選擇一組屬性的子集放在散點(diǎn)圖矩陣中,還可以取出數(shù)據(jù)的一個(gè)子樣本。注意這些改變只有在點(diǎn)擊了Update 了按鈕之后才會(huì)生效。選擇實(shí)例1. Select Instance. 點(diǎn)擊各數(shù)據(jù)點(diǎn)會(huì)打開一個(gè)窗口列出它的屬性值,如果點(diǎn)擊處的點(diǎn)超過一個(gè),則更多組的屬性值也會(huì)列出來。2. Rectang

13、le. 通過拖動(dòng)創(chuàng)建一個(gè)矩形,選取其中的點(diǎn)。16WEKA EXPLORER Visualize3. Polygon. 創(chuàng)建一個(gè)形式自由的多邊形并選取其中的點(diǎn)。左鍵點(diǎn)擊添加多邊形的頂點(diǎn),右鍵點(diǎn)擊完成頂點(diǎn)設(shè)置。起始點(diǎn)和最終點(diǎn)會(huì)自動(dòng)連接起來因此多邊形總是閉合的。4. Polyline. 可以創(chuàng)建一條折線把它兩邊的點(diǎn)區(qū)分開。左鍵添加折線頂點(diǎn),右鍵結(jié)束設(shè)置。折線總是打開的(與閉合的多邊形相反)。使用 Rectangle,Polygon 或 Polyline 選取了散點(diǎn)圖的一個(gè)區(qū)域后,該區(qū)域會(huì)變成灰色。這時(shí)點(diǎn)擊Submit 按鈕會(huì)移除落在灰色區(qū)域之外的所有實(shí)例。點(diǎn)擊Clear 按鈕會(huì)清除所選區(qū)域而不對圖形

14、產(chǎn)生任何影響。17Weka 試驗(yàn)(Experiment)Experimenter 有兩種模式:一種具有較簡單的界面,并提供了試驗(yàn)所需要的大部分功能,另一種則提供了一個(gè)可以使用 Experimenter 所有功能的界面。你可使用 Experiment Configuration Mode 單選按鈕在這兩者間進(jìn)行選擇。 Simple Advanced18Weka 試驗(yàn)(Experiment)Simple(簡單)模式1.新試驗(yàn)2. Result Destination (結(jié)果的目的文件) 如果文件名為空,將在系統(tǒng)的 TEMP 目錄下創(chuàng)建一個(gè)臨時(shí)文件。 連接數(shù)據(jù)庫:這個(gè)時(shí)候還沒有測試數(shù)據(jù)庫連接;啟動(dòng)試

15、驗(yàn)時(shí)才會(huì)進(jìn)行連接測試。 JDBC 數(shù)據(jù)庫的優(yōu)點(diǎn)是可以繼續(xù)運(yùn)行那些被中止的或擴(kuò)展了的試驗(yàn)。它不用重新運(yùn)行那些已試驗(yàn)過的算法/數(shù)據(jù)集組合,而僅計(jì)算還沒有被試驗(yàn)的那些。193. Experiment type(試驗(yàn)類型) Cross-validation (交叉驗(yàn)證) (默認(rèn)) 根據(jù)給定的折數(shù)執(zhí)行分層交叉驗(yàn)證 Train/Test Percentage Split (data randomized) (按比例分割訓(xùn)練/測試集,隨機(jī)挑選數(shù)據(jù)) 把數(shù)據(jù)打亂順序并確定層次后,根據(jù)給定的百分比把這個(gè)數(shù)據(jù)集分割成一個(gè)訓(xùn)練文件和一個(gè)測試文件 Train/Test Percentage Split (order

16、preserved) (按比例分割訓(xùn)練/測試集,按順序挑選數(shù)據(jù))20Weka 試驗(yàn)(Experiment)4. Datasets (數(shù)據(jù)集) 可以通過絕對路徑或相對路徑添加數(shù)據(jù)集文件。后者使得在不同的機(jī)器上運(yùn)行試驗(yàn)更加方便,因此你在點(diǎn)擊 Add new之前,應(yīng)該勾選 Use relative paths (使用相對路徑)。5. Iteration control (迭代控制) Number of repetitions (重復(fù)次數(shù)) Data sets first/Algorithms first (數(shù)據(jù)集優(yōu)先/算法優(yōu)先) 當(dāng)存在多個(gè)數(shù)據(jù)集和算法的時(shí)候,切換成優(yōu)先迭代數(shù)據(jù)集的模式可能會(huì)有用。舉個(gè)例子,會(huì)有人把結(jié)果存儲(chǔ)在數(shù)據(jù)庫中,并且想盡早完成某個(gè)算法在所有數(shù)據(jù)集上的結(jié)果。 21Weka 試驗(yàn)(Experiment)6. Algorithms (算法) 使用 Load options. 和 Save options. 按鈕,你可從 XML 加載或保存選中分類器的設(shè)置。這對 配置相當(dāng)復(fù)雜的分類器(如 nested meta-分類器)尤其有用,因?yàn)槭謩?dòng)設(shè)置它們需要一些時(shí)間,卻又經(jīng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論