S16050488張安元數(shù)據(jù)挖掘工具使用說明書_第1頁
S16050488張安元數(shù)據(jù)挖掘工具使用說明書_第2頁
S16050488張安元數(shù)據(jù)挖掘工具使用說明書_第3頁
S16050488張安元數(shù)據(jù)挖掘工具使用說明書_第4頁
S16050488張安元數(shù)據(jù)挖掘工具使用說明書_第5頁
已閱讀5頁,還剩7頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

姓名張安元姓名張安元學(xué)號:S1600488ChangchunUniversityofScienceandTechnology碩士學(xué)位論文數(shù)據(jù)挖掘工具使用說明書研究生姓名:張安元學(xué)科、專業(yè):計算機(jī)科學(xué)與技術(shù)二o—七年五月分類號: 密級: UDC: 編號: 數(shù)據(jù)挖掘工具使用說明書學(xué)位授予單位及代碼:長春理工大學(xué) (10186)學(xué)科專業(yè)名稱及代碼:計算機(jī)科學(xué)與技術(shù)研究方向:基于表面肌電信號的上臂康復(fù)系統(tǒng) 申請學(xué)位級別:指導(dǎo)教師:李奇教授 研究生:張安元論文起止時間:該軟件是WEKA的全名是懷卡托智能分析環(huán)境(WaikatoEnvironmentforKnowledgeAnalysis),它的源代碼可通過http://www.cs.waikato.ac.nz/ml/weka得到。Weka作為一個公開的數(shù)據(jù)挖掘工作平臺,集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對數(shù)據(jù)進(jìn)行預(yù)處理,分類,回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。如果想自己實(shí)現(xiàn)數(shù)據(jù)挖掘算法的話,可以看一看Weka的接口文檔。在Weka中集成自己的算法甚至借鑒它的方法自己實(shí)現(xiàn)可視化工具并不是件很困難的事情。關(guān)鍵詞:WEKA數(shù)據(jù)挖掘分類回歸聚類L J9^snI0£'ZT9 (聯(lián)妊菜&)^JisseiozTT£ (儲解逾沃)owwossvJ7?££ 驅(qū)直酹鼾瞬嫌李看血溝乙?£Z £?「£z 3?「£Z 親翩IITI 團(tuán)昨「£I 師刪麻?£I 修目呻M7i ¥製昭叫1W目lovaisav盜M1.Weka簡介該軟件是WEKA的全名是懷卡托智能分析環(huán)境(WaikatoEnvironmentforKnowledgeAnalysis),它的源代碼可通過http://www.cs.waikato.ac.nz/ml/weka得到。Weka作為一個公開的數(shù)據(jù)挖掘工作平臺,集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對數(shù)據(jù)進(jìn)行預(yù)處理,分類,回歸、聚類、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化。如果想自己實(shí)現(xiàn)數(shù)據(jù)挖掘算法的話,可以看一看Weka的接口文檔。在Weka中集成自己的算法甚至借鑒它的方法自己實(shí)現(xiàn)可視化工具并不是件很困難的事情。2.Weka啟動打開Weka主界面后會出現(xiàn)一個對話框,如圖:圖2.1Weka啟動對話框主要使用右方的四個模塊,說明如下:Explorer:使用Weka探索數(shù)據(jù)的環(huán)境,包括獲取關(guān)聯(lián)項(xiàng),分類預(yù)測,聚簇等;Experimenter:運(yùn)行算法試驗(yàn)、管理算法方案之間的統(tǒng)計檢驗(yàn)的環(huán)境;KnowledgeFlow:這個環(huán)境本質(zhì)上和Explorer所支持的功能是一樣的,但是它有一個可以拖放的界面。它有一個優(yōu)勢,就是支持增量學(xué)習(xí);SimpleCLI:提供了一個簡單的命令行界面,從而可以在沒有自帶命令行的操作系統(tǒng)中直接執(zhí)行Weka命令(某些情況下使用命令行功能更好一些)。3.主要操作說明點(diǎn)擊進(jìn)入Explorer模塊開始數(shù)據(jù)探索環(huán)境。3.1主界面進(jìn)入Explorer模式后的主界面如下:圖2.2Weka主界面3.1.1標(biāo)簽欄主界面最左上角(標(biāo)題欄下方)的是標(biāo)簽欄,分為五個部分,功能依次是:Preprocess(數(shù)據(jù)預(yù)處理):選擇和修改要處理的數(shù)據(jù);Classfy(分類):訓(xùn)練和測試關(guān)于分類或回歸的學(xué)習(xí)方案;Cluster(聚類):從數(shù)據(jù)中學(xué)習(xí)聚類;Associate(關(guān)聯(lián)):從數(shù)據(jù)中學(xué)習(xí)關(guān)聯(lián)規(guī)則;Selectattributes(屬性選擇):選擇數(shù)據(jù)中最相關(guān)的屬性;Visualize(可視化):查看數(shù)據(jù)的交互式二維圖像。3.1.2載入、編輯數(shù)據(jù)標(biāo)簽欄下方是載入數(shù)據(jù)欄,功能如下:Openfile:打開一個對話框,允許你瀏覽本地文件系統(tǒng)上的數(shù)據(jù)文件(.dat);OpenURL:請求一個存有數(shù)據(jù)的URL地址;OpenDB:從數(shù)據(jù)庫中讀取數(shù)據(jù);Generate:從一些數(shù)據(jù)生成器中生成人造數(shù)據(jù)。3.1.3其他界面說明接下來的主界面中依次是Filter(篩選器),Currtentrelation(當(dāng)前關(guān)系)、Attributes(屬性信息)、Selectedattribute(選中的屬性信息)以及Class(類信息),分別介紹如下:Filter在預(yù)處理階段,可以定義篩選器來以各種方式對數(shù)據(jù)進(jìn)行變換。Filter一欄用于對各種篩選器進(jìn)行必要設(shè)置。Filter一欄的左邊是一個Choose按鈕。點(diǎn)擊這個按鈕就可選擇Weka中的某個篩選器。用鼠標(biāo)左鍵點(diǎn)擊這個choose左邊的顯示框,將出現(xiàn)GenericObjectEditor對話框。用鼠標(biāo)右鍵點(diǎn)擊將出現(xiàn)一個菜單,你可從中選擇,要么在GenericObjectEditor對話框中顯示相關(guān)屬性,要么將當(dāng)前的設(shè)置字符復(fù)制到剪貼板。Currtentrelation顯示當(dāng)前打開的數(shù)據(jù)文件的基本信息:Relation(關(guān)系名)‘Instances(實(shí)例數(shù))以及Attributes(屬性個數(shù))。Attributes顯示數(shù)據(jù)文件中的屬性信息,并且包含四個操作按鍵:All Hone Invert Pattern圖3.1操作按鍵All:所有選擇框都被勾選;None:所有選擇框被取消;Invert:已勾選的選擇框都被取消,反之亦然;Pattern:讓用戶基于Perl5正則表達(dá)式來選擇屬性。例如,用*_id選擇所有名稱以_id結(jié)束的屬性。底下顯示的就是數(shù)據(jù)文件包含的屬性,可以進(jìn)行勾選等操作。特別地,當(dāng)數(shù)據(jù)預(yù)處理是不要某個屬性時,將其各選,點(diǎn)擊列表正下方的Remove按鍵即可刪除這一屬性:圖3.2Remove按鍵Selectedattribute顯示勾選的屬性的基本信息。Class顯示屬性中數(shù)據(jù)元組的直方圖。點(diǎn)擊Visualizeall按鍵可以查看所有屬性中元組的直方圖。3.2實(shí)現(xiàn)基本數(shù)據(jù)挖掘功能:3.2.1Associate(關(guān)聯(lián)規(guī)則)注意:目前,Weka的關(guān)聯(lián)規(guī)則分析功能僅能用來作示范,不適合用來挖掘大型數(shù)據(jù)集。各部分功能說明如下:Associator切換到Associate選項(xiàng)卡。單擊choose按鍵,可以選擇關(guān)聯(lián)規(guī)則算法,系統(tǒng)默認(rèn)關(guān)聯(lián)規(guī)則分析算法是Apriori算法。

圖3.3關(guān)聯(lián)界面選擇關(guān)聯(lián)規(guī)則算法后,點(diǎn)Choose右邊的文本框修改默認(rèn)的參數(shù),彈出的窗口中點(diǎn)More可以看到各參數(shù)的說明。一下簡列幾項(xiàng):upperBoundMinSupport:最小支持度上限r(nóng)emoveAllMissingCols:移除具有遺失值的列l(wèi)owerBoundMinSupport:最小支持度下限outputItemSets:如果有可能也輸出項(xiàng)集significanceLevel:顯著性水平classindex:確定分類屬性,如果設(shè)為-1,則最后一個屬性為分類屬性treatZeroAsMissing:將遺失值全部置為0numRules:在某種關(guān)聯(lián)規(guī)則下取出的滿足條件的規(guī)則數(shù);metricType:關(guān)聯(lián)、程度指標(biāo);

圖3.4參數(shù)設(shè)置注意:各種關(guān)聯(lián)規(guī)則算法都是尤其使用范圍的,并不是所有的屬性的數(shù)據(jù)類型都能被某一算法處理,典型的例如Apriori算法。因此可以在choose下拉菜單中選擇Filter選項(xiàng),在其中勾選待處理數(shù)據(jù)的屬性的類型以濾除無法使用的算法。要想知道每種算法都是用哪些數(shù)據(jù)類型,可以左擊choose旁邊的文本框,在彈出的菜單欄中單擊capabilities選項(xiàng)可以看到這種算法能夠處理的數(shù)據(jù)類型。Resultlist點(diǎn)擊Associator下方的start按鍵可以開始進(jìn)行關(guān)聯(lián)項(xiàng)分析,結(jié)果列表即出現(xiàn)在Resultlist中,右擊出現(xiàn)更多選項(xiàng)可供選擇。Associatoroutput這里顯示關(guān)聯(lián)分析結(jié)果,如圖為一個例子:

圖3.5關(guān)聯(lián)分析樣例一次顯示了10個符合條件的關(guān)聯(lián)規(guī)則,并且在其后顯示了關(guān)聯(lián)規(guī)則的四項(xiàng)指標(biāo)以供參考。3.2.2Classify(分類預(yù)測)該部分實(shí)現(xiàn)數(shù)據(jù)挖掘中的分類與預(yù)測功能,提供了各種主要的分類預(yù)測算法供使用者選擇。下面是界面各部分的介紹:Classifier在choose一欄中選擇需要的分類算法,同樣地方法,每當(dāng)選擇一個算法,這個算法便在choose左邊的文本框中進(jìn)行顯示,單擊他會出現(xiàn)一個菜單,其中包含了一些參數(shù)的設(shè)定和more以及capabilities選項(xiàng),欠著用來獲取那些需要設(shè)定參數(shù)的具體信息,后者用來獲取算法適合的屬性數(shù)據(jù)類型,這一點(diǎn)是相似的,因此在對數(shù)據(jù)進(jìn)行處理是也應(yīng)該注意數(shù)據(jù)的屬性類型,單擊choose在下拉菜單中選擇Filter按鍵可以進(jìn)行數(shù)據(jù)類型的選擇從而過濾掉不能使用的算法。。Testoption提供四種測試模式:Usingtrainingset?根據(jù)分類器在用來訓(xùn)練的實(shí)例上的預(yù)測效果來評價它。Suppliedtestset.從文件載入的一組實(shí)例,根據(jù)分類器在這組實(shí)例上的預(yù)測效果來評價它。點(diǎn)擊Set…按鈕將打開一個對話框來選擇用來測試的文件。Cross-validation.使用交叉驗(yàn)證來評價分類器,所用的折數(shù)填在Folds文本框中。Percentagesplit?從數(shù)據(jù)集中按一定百分比取出部分?jǐn)?shù)據(jù)放在一邊作測試用,根據(jù)分類器這些實(shí)例上預(yù)測效果來評價它。取出的數(shù)據(jù)量由%一欄中的值決定。當(dāng)一切準(zhǔn)備就緒時,點(diǎn)擊start按鍵開始分類過程,完成后Resultlist中會顯示結(jié)果列表,并且Classifieroutput中會顯示出結(jié)果。右擊Resultlist中的結(jié)果,可以看見多個選項(xiàng),選擇Visualizetree,新窗口里可以看到圖形模式的決策樹。建議把這個新窗口最大化,然后點(diǎn)右鍵,選“Fittoscreen”,可以把這個樹看清楚些。先運(yùn)行一個結(jié)果解釋其中一些內(nèi)容,如圖所示:CorrectlyClassifiedInstances20668.€667;IncorrectlyClassifiedInstances9431.3333Kappastatistic0.3576Meanabsoluteerror0.379RootmeansquaredError0.4S1CRelativeabsoluteerror75.2791%RootrelativesquarederrDr9^.€145%IotalNumber□三Instances300===DetailedAccuracyByC;lass===IFRate FFRatePrecisionReciallF-Mteia3ureROCArea€153330.536 0.1550.7120.5360.6120.663YES0.S15 0.4€4O.fi730.8150?7370.683NOWeightedAvg. 0.€87 0.3360.591O.€870.680.663ConfusionMiatrixab<--classifiedas74 64Ia=YES30132Ib=NO第一行的CorrectlyClassifiedInstances表示當(dāng)前參與分類的實(shí)例中被正確分類的實(shí)例數(shù)目,第二行IncorrectlyClassifiedInstances表示未被正確分類的實(shí)例數(shù)目。===ConzuaionMatrix===ab <--clasaifiedas74 €4|a=YES30132Ib=NG關(guān)于ConfusionMatrix,解釋如下:原本“pep”是“YES”的實(shí)例,有74個被正確的預(yù)測為“YES”,有64個錯誤的預(yù)測成了“NO”;原本“pep”是“NO”的實(shí)例,有30個被錯誤的預(yù)測為“YES”,有132個正確的預(yù)測成了“NO”。74+64+30+132=300是實(shí)例總數(shù),而(74+132)/300=0.68667正好是正確分類的實(shí)例所占比例。這個矩陣對角線上的數(shù)字越大,說明預(yù)測得越好。更多選項(xiàng)及解釋內(nèi)容參見:3?2?3Cluster(聚簇分析)聚簇分析的原理就是將為標(biāo)定類的數(shù)據(jù)根據(jù)其相似性分為幾個類,在同一類中的數(shù)據(jù)元組具有較強(qiáng)的相似性,而

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論