版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、數(shù)據(jù)發(fā)掘軟件引見目前較為著名的數(shù)據(jù)發(fā)掘軟件n傳統(tǒng)的數(shù)據(jù)發(fā)掘套件(Classic suites):SAS Enterprise Miner 5.3SPSS Clementine 12n開源數(shù)據(jù)發(fā)掘軟件(Open Source):RapidMiner 4.2 rapidminer/ KNIME 2.0 / Weka 3.6n專門化的數(shù)據(jù)發(fā)掘軟件(Specialized):Viscovery SOMiner 5.0prudsys Discovery 5.5 / Basket Analyzer 5.2Bissantz Delta Master 5.3.6目前較為著名的數(shù)據(jù)發(fā)掘軟件n自
2、動化數(shù)據(jù)發(fā)掘軟件(Self-Acting):KXEN Analytic Framework 4.04nBI產品內置的數(shù)據(jù)發(fā)掘軟件(BI Vendors):SAP NetWear 7.0 Data Mining WorkbenchOracle 11g Data MiningMicrosoft SQL Server 2005 Analysis Servicesn其他優(yōu)秀的軟件nTeradata Warehouse MinernIBM的DB2 Intelligence MinernAngoss的KnowledgeSTUDIOnUnicaWEKAn簡介ncs.waikato.ac.nz/ml/weka
3、n中文論壇/n功能nProgramnLogWindownMemeryUsagenExitnVisualizationWEKA PLOTROCTreeVisualizerGraphVisualizerBoundaryVisualizerToolsArffViewerSqlViewerBayesNetEditerWEKAApplicationsExplorerExperimenterKnowledgeFlowSimpleCLIHelpWeka homepageHOWTOs, code snippets, etc.Weka on SourceforgeSyste
4、mInfoWEKA nWEKA Explorern 1. Preprocess. 選擇和修正要處置的數(shù)據(jù)。選擇和修正要處置的數(shù)據(jù)。n 2. Classify. 訓練和測試關于分類或回歸的學習方訓練和測試關于分類或回歸的學習方案。案。n 3. Cluster. 從數(shù)據(jù)中學習聚類。從數(shù)據(jù)中學習聚類。n 4. Associate. 從數(shù)據(jù)中學習關聯(lián)規(guī)那么。從數(shù)據(jù)中學習關聯(lián)規(guī)那么。n 5. Select attributes. 選擇數(shù)據(jù)中最相關的屬性。選擇數(shù)據(jù)中最相關的屬性。n 6. Visualize. 查看數(shù)據(jù)的交互式二維圖像。查看數(shù)據(jù)的交互式二維圖像。n 7. Memory Informatio
5、n. 在在 log 欄中顯示欄中顯示 WEKA 可用的內存量??捎玫膬却媪俊 8. Run garbage collector. 強迫運轉強迫運轉 Java 渣滓渣滓回收器,搜索不再需求的內存空間回收器,搜索不再需求的內存空間WEKA EXPLORERn載入數(shù)據(jù)n1. Open file. 翻開一個對話框,允許他閱讀本地文件系統(tǒng)上的數(shù)據(jù)文件。n2. Open URL. 懇求一個存有數(shù)據(jù)的 URL 地址。n3. Open DB. 從數(shù)據(jù)庫中讀取數(shù)據(jù) (留意, 要使之可用, 能夠需求編輯nweka/experiment/ DatabaseUps 中的文件)n4. Generate
6、. 從一些數(shù)據(jù)生成器DataGenerators中生成人造數(shù)據(jù)。WEKA EXPLORERn處置屬性處置屬性n1. No. 一個數(shù)字,用來標識數(shù)據(jù)文件中指定的各屬性一個數(shù)字,用來標識數(shù)據(jù)文件中指定的各屬性的順序。的順序。n2. 選擇框選擇框. 允許勾選關系中呈現(xiàn)的各屬性。允許勾選關系中呈現(xiàn)的各屬性。n3. Name. 數(shù)據(jù)文件中聲明的各屬性的稱號。數(shù)據(jù)文件中聲明的各屬性的稱號。n當點擊屬性列表中的不同行時,右邊當點擊屬性列表中的不同行時,右邊Selected attribute 一欄的內容隨之改動。這一欄給出了列表一欄的內容隨之改動。這一欄給出了列表中當前高亮顯示的屬性的一些描畫:中當前高亮顯
7、示的屬性的一些描畫:n1. Name. 屬性的稱號,和屬性列表中給出的一樣。屬性的稱號,和屬性列表中給出的一樣。n2. Type. 屬性的類型,最常見的是分類型屬性的類型,最常見的是分類型Nominal和數(shù)值型和數(shù)值型Numeric。n3. Missing. 數(shù)據(jù)中該屬性缺失數(shù)據(jù)中該屬性缺失(或者未指定或者未指定)的實例的的實例的數(shù)量數(shù)量(及百分比及百分比)。n4. Distinct. 數(shù)據(jù)中該屬性包含的不同值的數(shù)目。數(shù)據(jù)中該屬性包含的不同值的數(shù)目。n5. Unique. 獨一地擁有某值的實例的數(shù)目及百分比獨一地擁有某值的實例的數(shù)目及百分比,這些實例每個的取值都和別的不一樣。,這些實例每個的取
8、值都和別的不一樣。WEKA EXPLORER ATTRIBUTESnPattern.n讓用戶基于讓用戶基于 Perl 5 正那么表達式來選擇屬性。例如一正那么表達式來選擇屬性。例如一切以切以M開頭的屬性。開頭的屬性。n挑選器挑選器filternGenericObjectEditor 對話框對話框n運用挑選器運用挑選器n 留意:一些挑選器會根據(jù)能否設置了留意:一些挑選器會根據(jù)能否設置了 class 屬性來屬性來做出不同的動作。點擊直方圖上方那一欄時,會出做出不同的動作。點擊直方圖上方那一欄時,會出現(xiàn)一個可供選擇的下拉列表。特別的,現(xiàn)一個可供選擇的下拉列表。特別的,“supervised filt
9、ers監(jiān)視式挑選器需求設置一監(jiān)視式挑選器需求設置一個個 class 屬性,屬性, 而某些而某些“unsupervised attribute filters非監(jiān)視式屬性挑選器將忽略非監(jiān)視式屬性挑選器將忽略 class 屬性屬性。留意也可以將。留意也可以將 Class 設成設成 None,這時沒有設置,這時沒有設置 class屬性。屬性。WEKA EXPLORER CLASSIFYn分類器分類器n選擇分類器選擇分類器n測試選項測試選項n1. Using training set. 根據(jù)分類器在用來訓練的實根據(jù)分類器在用來訓練的實例上的預測效果來評價它。例上的預測效果來評價它。n2. Suppli
10、ed test set. 從文件載入的一組實例,根據(jù)從文件載入的一組實例,根據(jù)分類器在這組實例上的預測效果來評價它。點擊分類器在這組實例上的預測效果來評價它。點擊 Set 按鈕將翻開一個對話框來選擇用來測試的文件按鈕將翻開一個對話框來選擇用來測試的文件。n3. Cross-validation. 運用交叉驗證來評價分類器,運用交叉驗證來評價分類器,所用的折數(shù)填在所用的折數(shù)填在Folds 文本框中。文本框中。n4.Percentage split. 從數(shù)據(jù)集中按一定百分比取出部從數(shù)據(jù)集中按一定百分比取出部分數(shù)據(jù)放在一邊作測試用,根據(jù)分類器這些實例上預分數(shù)據(jù)放在一邊作測試用,根據(jù)分類器這些實例上預
11、測效果來評價它。取出的數(shù)據(jù)量由測效果來評價它。取出的數(shù)據(jù)量由% 一欄中的值決議一欄中的值決議。WEKA EXPLORER CLASSIFYn分類器輸出文本分類器輸出文本nClassifier output 區(qū)域的文本有一個滾動條以便閱讀區(qū)域的文本有一個滾動條以便閱讀結果。按住結果。按住 Alt 和和 Shift 鍵,在這個區(qū)域點擊鼠標左鍵,在這個區(qū)域點擊鼠標左鍵,會出現(xiàn)一個對話框,讓他用各種格式目前可用鍵,會出現(xiàn)一個對話框,讓他用各種格式目前可用 JPEG 和和 EPS保管輸出的結果。保管輸出的結果。n輸出結果輸出結果n1. Run information. 給出了學習算法各選項的一個給出了學
12、習算法各選項的一個列表。包括了學習過程中涉及到的關系稱號,屬性,列表。包括了學習過程中涉及到的關系稱號,屬性,實例和測試方式。實例和測試方式。n2. Classifier model (full training set). 用文本表示用文本表示的基于整個訓練集的分類模型。的基于整個訓練集的分類模型。n所選測試方式的結果可以分解為以下幾個部分:所選測試方式的結果可以分解為以下幾個部分:n3. Summary. 一列統(tǒng)計量,描畫了在指定測試方式下一列統(tǒng)計量,描畫了在指定測試方式下,分類器預測,分類器預測 class 屬性的準確程度。屬性的準確程度。n4. Detailed Accuracy By
13、 Class. 更詳細地給出了關更詳細地給出了關于每一類的預測準確度的描畫。于每一類的預測準確度的描畫。n5. Confusion Matrix. 給出了預測結果中每個類的實給出了預測結果中每個類的實例數(shù)。其中矩陣的行是實踐的類,矩陣的列是預測得例數(shù)。其中矩陣的行是實踐的類,矩陣的列是預測得到的類,矩陣元素就是相應測試樣本的個數(shù)。到的類,矩陣元素就是相應測試樣本的個數(shù)。WEKA EXPLORER CLUSTERn聚類n聚類方式nUse training setnSupplied test set nPercentage splitn前三個和分類的一樣nClasses to clusters e
14、valuation是要比較所得到的聚類與在數(shù)據(jù)中預先給出的類別吻合得怎樣。WEKA EXPLORER ASSOCIATEn關聯(lián)規(guī)那么n關聯(lián)規(guī)那么的學習器也可以跟其它面板的聚類器,挑選器和分類器一樣選擇和配置。Attribute Selectionn屬性選擇屬性選擇n屬性選擇是說搜索數(shù)據(jù)集中全部屬性的一切能夠組合屬性選擇是說搜索數(shù)據(jù)集中全部屬性的一切能夠組合,找出預測效果最好的那一組屬性。為實現(xiàn)這一目的,找出預測效果最好的那一組屬性。為實現(xiàn)這一目的,必需設定兩個東西:屬性評價器,必需設定兩個東西:屬性評價器evaluator和和搜索戰(zhàn)略。評價器決議了怎樣給一組屬性安排一個表搜索戰(zhàn)略。評價器決議了
15、怎樣給一組屬性安排一個表示它們好壞的值。搜索戰(zhàn)略決議了要怎樣進展搜索。示它們好壞的值。搜索戰(zhàn)略決議了要怎樣進展搜索。nAttribute Selection Mode 一欄有兩個選項。一欄有兩個選項。n1. Use full training set. 運用訓練數(shù)據(jù)的全體好決議運用訓練數(shù)據(jù)的全體好決議一組屬性的好壞。一組屬性的好壞。n2. Cross-validation. 一組屬性的好壞經過一個交叉一組屬性的好壞經過一個交叉驗證過程來決議。驗證過程來決議。Fold 和和nSeed 分別給出了交叉驗證的折數(shù)和打亂數(shù)據(jù)時的隨分別給出了交叉驗證的折數(shù)和打亂數(shù)據(jù)時的隨機種子。機種子。WEKA EXP
16、LORER Visualizen散點圖矩陣散點圖矩陣n選擇了選擇了 Visualize 面板后,會為一切的屬性給出一個面板后,會為一切的屬性給出一個散點圖矩陣,它們會根據(jù)所選的散點圖矩陣,它們會根據(jù)所選的class 屬性來著色。屬性來著色。在這里可以改動每個二維散點圖的大小,改動各點的在這里可以改動每個二維散點圖的大小,改動各點的大小,以及隨機地抖動大小,以及隨機地抖動jitter數(shù)據(jù)使得被隱藏的數(shù)據(jù)使得被隱藏的點顯示出來。也可以改動用來著色的屬性,可以只點顯示出來。也可以改動用來著色的屬性,可以只選擇一組屬性的子集放在散點圖矩陣中,還可以取出選擇一組屬性的子集放在散點圖矩陣中,還可以取出數(shù)據(jù)
17、的一個子樣本。留意這些改動只需在點擊了數(shù)據(jù)的一個子樣本。留意這些改動只需在點擊了Update 了按鈕之后才會生效。了按鈕之后才會生效。n選擇實例選擇實例n1. Select Instance. 點擊各數(shù)據(jù)點會翻開一個窗口列點擊各數(shù)據(jù)點會翻開一個窗口列出它的屬性值,假設點擊處的點超越一個,那么更多出它的屬性值,假設點擊處的點超越一個,那么更多組的屬性值也會列出來。組的屬性值也會列出來。n2. Rectangle. 經過拖動創(chuàng)建一個矩形,選取其中的經過拖動創(chuàng)建一個矩形,選取其中的點。點。WEKA EXPLORER Visualizen3. Polygon. 創(chuàng)建一個方式自在的多邊形并選取其中的點。
18、左鍵點擊添加多邊形的頂n點,右鍵點擊完成頂點設置。起始點和最終點會自動銜接起來因此多邊形總是閉n合的。n4. Polyline. 可以創(chuàng)建一條折線把它兩邊的點區(qū)分開。左鍵添加折線頂點,右鍵終了n設置。折線總是翻開的與閉合的多邊形相反。n運用 Rectangle,Polygon 或 Polyline 選取了散點圖的一個區(qū)域后,該區(qū)域會變成灰色。這時點擊Submit 按鈕會移除落在灰色區(qū)域之外的一切實例。點擊Clear 按鈕會去除所選區(qū)域而不對圖形產生任何影響。Weka 實驗ExperimentnExperimenter 有兩種方式:一種具有較簡單的界面,并提供了實驗所需求的大部分功能,另一種那么
19、n提供了一個可以運用 Experimenter 一切功能的界面。他可運用 Experiment Configuration Mode 單項選擇n按鈕在這兩者間進展選擇。n Simplen AdvancedWeka 實驗ExperimentnSimple簡單方式n1.新實驗n2. Result Destination 結果的目的文件n 假設文件名為空,將在系統(tǒng)的 TEMP 目錄下創(chuàng)建一個暫時文件。n 銜接數(shù)據(jù)庫:這個時候還沒有測試數(shù)據(jù)庫銜接;啟動實驗時才會進展銜接測試。n JDBC 數(shù)據(jù)庫的優(yōu)點是可以繼續(xù)運轉那些被中止的或擴展了的實驗。它不用重新運轉那些已實驗過的算法/數(shù)據(jù)集組合,而僅計算還沒有
20、被實驗的那些。n3. Experiment type實驗類型n Cross-validation 交叉驗證 (默許)n 根據(jù)給定的折數(shù)執(zhí)行分層交叉驗證n Train/Test Percentage Split (data randomized) 按比例分割訓練/測試集,隨機挑選數(shù)據(jù)n 把數(shù)據(jù)打亂順序并確定層次后,根據(jù)給定的百分比把這個數(shù)據(jù)集分割成一個訓練文件和一個測試文件n Train/Test Percentage Split (order preserved) 按比例分割訓練/測試集,按順序挑選數(shù)據(jù)Weka 實驗Experimentn4. Datasets 數(shù)據(jù)集n 可以經過絕對途徑或相對
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 戶外兒童樂園合同范例
- 《古代商業(yè)政策》課件
- 幼兒園小區(qū)物業(yè)合同范例
- 個人雇傭阿姨合同范例
- 智能農機:開啟未來
- 家具和設計合同范例
- 保險理賠勞動合同模板
- 弱承包施工合同模板
- 寵物繁殖售賣合同范例
- 《海洋大氣環(huán)境應用》課件
- 電站庫區(qū)清淤方案
- 體育課堂數(shù)字化教學設計方案
- 2024年中鐵高新工業(yè)股份有限公司招聘筆試參考題庫含答案解析
- 中樞性面癱與周圍性面癱的區(qū)別課件
- 人行安全門通道閘機施工方案
- 《愛情婚姻家庭》課件
- 多模態(tài)影像學在視網膜病變中的應用
- 外賣配送部管理制度
- 20100927-宣化上人《愣嚴咒句偈疏解》(簡體全)
- 口腔科心理護理課件
- 護理員服務外包投標方案(技術方案)
評論
0/150
提交評論