數(shù)據(jù)挖掘WEKA實驗報告_第1頁
數(shù)據(jù)挖掘WEKA實驗報告_第2頁
數(shù)據(jù)挖掘WEKA實驗報告_第3頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘 -WAKA實驗報告一、WEKA軟件簡介在我所從事的證券行業(yè)中,存在著海量的信息和數(shù)據(jù),但是這些數(shù)據(jù) 日常知識發(fā)揮了一小部分的作用,其包含了大量的隱性的信息并不為所用, 但是卻可以為一些公司的決策和對客戶的服務(wù)提供不小的價值。因此 , 我們 可以通過一些數(shù)據(jù)采集、數(shù)據(jù)挖掘來獲得潛在的有價值的信息。數(shù)據(jù)挖掘就是通過分析存在于數(shù)據(jù)庫里的數(shù)據(jù)來解決問題。 在數(shù)據(jù)挖掘中計 算機以電子化的形式存儲數(shù)據(jù), 并且能自動的查詢數(shù)據(jù), 通過關(guān)聯(lián)規(guī)則、 分類于 回歸、聚類分析等算法對數(shù)據(jù)進行一系列的處理, 尋找和描述數(shù)據(jù)里的結(jié)構(gòu)模式, 進而挖掘出潛在的有用的信息。 數(shù)據(jù)挖掘就是通過分析存在于數(shù)據(jù)庫里的數(shù)據(jù)

2、來 解決問題。WEK的出現(xiàn)讓我們把數(shù)據(jù)挖掘無需編程即可輕松搞定。WEKA是由新西蘭懷卡托大學開發(fā)的開源項目,全名是懷卡托智能分析環(huán)境(WaikatoEnvironmentforKnowledgeAnalysis)。WEKA是 由 JAVA編寫的,WEK得到,并且限制在GBU!用公眾證書的條件下發(fā)布,可以運行在所有的操作系統(tǒng)中。是一款免費的,非商業(yè)化的機器學習以及數(shù)據(jù)挖掘軟 件WEKA乍為一個公開的數(shù)據(jù)挖掘工作平臺,集合了大量能承擔數(shù)據(jù)挖掘 任務(wù)的機器學習算法,包括對數(shù)據(jù)進行預處理,分類,回歸、聚類、關(guān)聯(lián) 規(guī)則以及在新的交互式界面上的可視化。如果想自己實現(xiàn)數(shù)據(jù)挖掘算法的 話,可以看一看 WEKA

3、的接口文檔。在 WEKA中集成自己的算法甚至借鑒它 的方法自己實現(xiàn)可視化工具并不是件很困難的事情。安裝WEKA也十分簡單,首相要下載安裝 JDK環(huán)境,JDK在這個頁面可以 找到它的下載。點擊 JDK6 之后的 Download 按鈕,轉(zhuǎn)到下載頁面。選擇 Accepct ,過一會兒頁面會刷新。我們需要的是這個 WindowsOfflineInstallation,Multi-languagejdk-6-windows-i586.exe5 3.16MB ,點擊它下載。也可以右鍵點擊它上面的鏈接,在 Flashget 等工具中 下載。安裝它和一般軟件沒什么區(qū)別。不過中間會中斷一下提示你安裝 JRE,

4、 并裝上即可。之后就是安裝 WEKA 軟件,這個在網(wǎng)上很多地方都有。同樣簡單 地按默認方法安裝后即可使用。點擊啟動運行 WEK軟件后,我門發(fā)現(xiàn) WEKA存儲數(shù)據(jù)的格式是 ARFF( A ttribute-RelationFileFormat )文件,這是一種 ASCII 文本文件。我 們?nèi)鐖D 1 通過軟件的 Tools 菜單進入 ArffViewer 可以在安裝目錄下查看軟 件自帶的幾個ARF F文件。圖1圖2如圖 2,打開文件后選擇 data 自目錄下的任意一張表,我們都可以看到如圖 3 所示的二維表格存儲在如下的ARFF文件中。這也就是 WEKAI帶的“ contact-lenses.ar

5、ff ”文件。這里我們要介紹一下 WEKA 中的術(shù)語。表格 里的一個橫行稱作一個實例( Instance ),相當于統(tǒng)計學中的一個樣本,或者 數(shù)據(jù)庫中的一條記錄。豎行稱作一個屬性( Attrbute ),相當于統(tǒng)計學中的一 個變量,或者數(shù)據(jù)庫中的一個字段。這樣一個表格,或者叫數(shù)據(jù)集,在 WEKA 看來,呈現(xiàn)了屬性之間的一種關(guān)系 (Relation) 。圖 1 中一共有 22 個實例, 5 個 屬性,關(guān)系名稱為“ contact-lenses ”。除了 ARFF格式,WEKA還支持另外一種常見格式,CSV格式。CSV同樣是 一種二進制保存的文本格式,我們可以在 WEKA中直接打開CSV格式的文件

6、, 并保存為ARFF格式。這樣就給我提供了把常見的數(shù)據(jù)格式轉(zhuǎn)換為ARFF格式的方法,如對于Excel文件,我們可以通過把每張表保存為 CSV格式,進而保存為 ARFF格式,與此同時,我們可以利用filter對數(shù)據(jù)進行相應(yīng)的預處理。而對于 Matlab格式的數(shù)據(jù),我們可以通過命令csvwrite把數(shù)據(jù)轉(zhuǎn)化成CSV格式的文件, 進而轉(zhuǎn)化為ARFF格式文件。對于海量數(shù)據(jù),一般保存在數(shù)據(jù)庫中,WEKA同時支持JDBC訪問數(shù)據(jù)庫。圖3打開WEKA,首先出現(xiàn)一個命令行窗口。原以為要在這個命令行下寫java語句呢,不過稍等一秒, WEKAGUIChooser 的出現(xiàn)了。這是一個很簡單的窗 體,提供四個按鈕:

7、 SimpleCLI 、Explorer 、Experimenter 、 Know l edge F low 。 SimpleCLI應(yīng)該是一個使用命令行的界面,有點像 SAS的編輯器;Explorer是則 是視窗模式下的數(shù)據(jù)挖掘工具;Experimenter和KnowledgeFlow的使用有待進 一步摸索 圖4(1) Explorer使用WEKA探索數(shù)據(jù)的環(huán)境。在這個環(huán)境中,WEKA提供了數(shù)據(jù)的預處理,數(shù)據(jù)格式的轉(zhuǎn)化(從CSV格式到ARFF格式的轉(zhuǎn)化),各種數(shù)據(jù)挖掘算法(包括分 類與回歸算法,聚類算法,關(guān)聯(lián)規(guī)則等),并提供了結(jié)果的可視化工具。對于一 個數(shù)據(jù)集,通過簡單的數(shù)據(jù)的預處理,并對數(shù)據(jù)

8、挖掘算法進行選擇(在WEKA3.5 版本之后, 加入了算法的過濾功能, 可以過濾掉那些不適合當前數(shù)據(jù)集類型的算 法),接著通過窗口界面對算法的參數(shù)進行配置。 可視化工具分為對數(shù)據(jù)集的可 視化和對部分結(jié)果的可視化, 并且我們可以通過屬性選擇工具 (SelectAttribute) , 通過搜索數(shù)據(jù)集中所有屬性的可能組合,找出預測效果最好的那一組屬性。Explorer是普通用戶最常用的一個界面。用戶可以從 ARFF文件(Weka使用 的一種文本文件格式 )、網(wǎng)頁或數(shù)據(jù)庫中讀取數(shù)據(jù)集。打開數(shù)據(jù)文件后,可以選 擇算法對數(shù)據(jù)進行預處理。這時窗體上給出了這個數(shù)據(jù)集的一些基本特征,如 含有多少屬性,各屬性的

9、一些簡單統(tǒng)計量,右下方還給出一些可視化效果圖。 這些都是比較直觀的分析,如果想發(fā)現(xiàn)隱藏在數(shù)據(jù)集背后的關(guān)系,還需要選擇 Weka提供的各種分類、聚類或關(guān)聯(lián)規(guī)則的算法。所有設(shè)置完成后,點擊Start按鈕,就可以安心地等待weka帶來最終的結(jié)果。哪些結(jié)果是真正有用的還要靠 經(jīng)驗來判斷。( 2)Experimenter運行算法試驗、管理算法方案之間的統(tǒng)計檢驗的環(huán)境。Experiment環(huán)境可以 讓用戶創(chuàng)建, 運行, 修改和分析算法試驗, 這也許比單獨的分析各個算法更加方 便。例如,用戶可創(chuàng)建一次試驗, 在一系列數(shù)據(jù)集上運行多個算法 ( schemes), 然后分析結(jié)果以判斷是否某個算法比其他算法(在統(tǒng)

10、計意義下)更好。Explorermenter 主要包括簡單模式,復雜模式和遠程模式。復雜模式是對簡 單模式的基本功能的擴充,而遠程模式允許我們通過分布式的方法進行實驗。 就功能模塊而言, 分為設(shè)置模塊, 運行模塊和分析模塊。 在設(shè)置模塊中我們可以 自定義實驗,加入多個算法和多方的源數(shù)據(jù)(支持ARFF文件,CSV文件和數(shù)據(jù)庫), 在運行模塊中我們可以運行我們的實驗, 而在分析模塊中, 我們可以分析各種算 法的的準確性,并提供了各種統(tǒng)計方法對結(jié)果進行檢驗比較。值得一提的是,我們可以把實驗的各種參數(shù),包括算法,數(shù)據(jù)集等,保存以 方便下一次相同實驗的進行; 也可以把各種算法保存, 方便應(yīng)用在不同的數(shù)據(jù)

11、集 上;如果數(shù)據(jù)集來源于數(shù)據(jù)庫的話, 實驗在過程中可以中止并繼續(xù) (原因可以是被中止或者是擴展了實驗),這樣就不用重新運行那些已實驗過的算法/數(shù)據(jù)集祝賀,而僅計算還沒有被實驗的那些。( 2) KnowledgeFlowExplorer 的一個不足在于, 當用戶打開一個數(shù)據(jù)集時, 所有數(shù)據(jù)將全部被讀 入到主存當中,隨著任務(wù)規(guī)模的增大,普通配置的計算機很難滿足要求。Kn owledgeFlow提供了一個用于處理大型數(shù)據(jù)集的遞增算法,專門處理這一問題。 這個環(huán)境本質(zhì)上和Explorer所支持的功能是一樣的,但是它有一個可以拖放的界 面。它有一個優(yōu)勢,就是支持增量學習( incrementallear

12、ning )。KnowledgeFlow為WEKA提供了一個"數(shù)據(jù)流"形式的界面。用戶可以從一 個工具欄中選擇組件, 把它們放置在面板上并按一定的順序連接起來, 這樣組成 一個"知識流"(knowledgeflow )來處理和分析數(shù)據(jù)。目前,所有的 WEKA分 類器(classifier)、篩選器(filter)、聚類器(clusterer)、載入器(loader )、 保存器(saver),以及一些其他的功能可以在 KnowledgeFlow中使用。KnowledgeFlow 可以使用增量模式( incrementally )或者批量模式( inbat

13、ches )來處理數(shù)據(jù)( Explorer 只能使用批量模式)。當然對數(shù)據(jù)進行增量學習要求分類器能夠根據(jù)各實例逐個逐個的更新現(xiàn)在WEKA中有五個分類器能夠增量地處理數(shù)據(jù):NaiveBayesUpdateable , IB1 , IBk, LWR (局部加權(quán)回歸)。 還有一個meta分類器RacedIncrementalLogitBoost可以使用任意基于回歸的學 習器來增量地學習離散的分類任務(wù)。( 4) SimpleCLI提供了一個簡單的命令行界面, 能通過鍵入文本命令的方式來實現(xiàn)其他三個 用戶界面所提供的所有功能, 從而可以在沒有自帶命令行的操作系統(tǒng)中直接執(zhí)行 WEKA命令。使用命令行有兩個

14、好處: 一個是可以把模型保存下來, 這樣有新的待預測數(shù) 據(jù)出現(xiàn)時, 不用每次重新建模, 直接應(yīng)用保存好的模型即可。 另一個是對預測結(jié) 果給出了置信度, 我們可以有選擇的采納預測結(jié)果, 例如, 只考慮那些置信度在 85% 以上的結(jié)果。、實驗案例介紹本文用WEK軟件作為工具,結(jié)合券商的基金某一個時段交易業(yè)務(wù)數(shù)據(jù)進 行分析。實驗的數(shù)據(jù)是一個交易周的基金交易業(yè)務(wù)數(shù)據(jù)。該表含有date(日期)、fund_code(基金代碼)、fund_name (基金名稱)、company_code(基金公司代碼)、 compa ny (基金公司名稱)、bus in ess_code(業(yè)務(wù)代碼)、bus in ess_

15、 name (業(yè)務(wù) 名稱)、shares(基金份額)、balanee(資金金額)、fares(手續(xù)費)、fares_type(手續(xù)費類型)、internet_shares (網(wǎng)上交易基金份額)、internet_balanee (網(wǎng) 上交易資金金額)、remark (備注)等字段,通過實驗,希望能找出客戶的基金 交易分布情況。該數(shù)據(jù)的數(shù)據(jù)屬性如下:date(numeric) ,交易發(fā)生日期;fund_code(numeric) ,基金代碼;fund_name(character) ,基金名稱;company_code(numeric) ,用于報送的基金公司代碼;company(characte

16、r) ,所屬的基金公司;business_code(numeric) ,交易業(yè)務(wù)代碼;business_name(character) ,交易業(yè)務(wù)名稱;shares(numeric) ,基金交易份額;balance(numeric) ,資金交易金額;fares(numeric) ,交易手續(xù)費;fares_type(enum) ,手續(xù)費類型,取值范圍“全額結(jié)算” / “凈額結(jié)算”;internet_shares(numeric) ,網(wǎng)上交易基金份額;internet_balance(numeric) ,網(wǎng)上交易資金金額;remark(character) ,備注;、數(shù)據(jù)分析。用 UltraEdi

17、t 打開, 儲存了一個二維我們給出一個 CSV文件的例子(Fu nd-data.csv它可以看到,這種格式也是一種逗號分割數(shù)據(jù)的文本文件 表格。Excel的XLS文件可以讓多個二維表格放到不同的工作表(Sheet)中,我們只能把每個工作表存成不同的CSV文件。打開一個 XLS文件并切換到需要轉(zhuǎn)換的工作表,另存為CSV類型,點“確定”、“是”忽略提示即可完成操作。需要注意的是, Matllab 給出的CSV文件往往沒有屬性名(Excel給出 的也有可能沒有)。而WEK必須從CSV文件的第一行讀取屬性名,否則就會把第一行的各屬性值讀成變量名。因此我們對于Matllab給出的CSV文件需要用 Ult

18、raEdit 打開,手工添加一行屬性名。注意屬性名的個數(shù)要跟 數(shù)據(jù)屬性的個數(shù)一致,仍用逗號隔開。1、.csv->.arff將CSV轉(zhuǎn)換為ARFF最迅捷的辦法是使用WEKA所帶的命令行工具。運行WEKA勺主程序,出現(xiàn) GUI后可以點擊下方按鈕進入相應(yīng)的模塊。我們點擊進入“ SimpleCLI ”模塊提供的命令行功能。由于weka暫不支持中文輸入,所以挑選了在D盤下進行轉(zhuǎn)換,在新窗口的最下方(上方是不能寫字的)輸入框?qū)懮蟡avaD:/Fund-data.csv>D:/Fund-data.csv.arff即可完成轉(zhuǎn)換,生成文件“ D:/Fund-data.csv.arff ”。見下圖 5

19、: 圖5進入“ Exploer ”模塊,從上方的按鈕中打開CSV文件然后另存為 ARFF文件亦可。我們應(yīng)該注意到,“ Exploer ”還提供了很多功能,實際上可以 說這是 WEK使用最多的模塊?,F(xiàn)在我們先來熟悉它的界面,然后利用它對 數(shù)據(jù)進行預處理。界面展現(xiàn)見下圖6:圖中顯示的是使用“ Exploer ”打開“ Fund-data.csv.csv ”的情況。 圖62、預處理通常對于 WEK來說并不支持中文,所以我們將一些涉及中文的字段刪 除。勾選屬性 “ fund_name” 、 “ company”、“ business_name ”、“ remark ”, 并點擊“ Removd'

20、;。將新的數(shù)據(jù)集保存一次。其中“ fares_type ”只有2 個取值:全額結(jié)算和凈額結(jié)算。這時我們在UltraEdit 中直接修改ARFF文件,把attributefares_type 全額結(jié)算,凈額結(jié)算 改為attributefares_typeFull, Netattributedatenumeric 改為attributdate2009/8/24,2009/8/25,2009/8/26,2009/8/27,2009/8/28 就可以了。在“ Explorer ”中重新打開“ fund-data.arff ”,選中“ date ”和 “ fund_type ”,看到屬性已經(jīng)變成“ No

21、minal ”了。WEK支持的<datatype>有四種,分別是:numeric-數(shù)值型, vnominal-specification>-分類(nominal) 型,string- 字符串型,date<date-format>- 日期和時間型而本表只有nemeric和nominal兩種類型,數(shù)值屬性(nemeric )數(shù)值型屬 性可以是整數(shù)或者實數(shù),但 WEKA把它們都當作實數(shù)看待。分類屬性(nominal) 分類屬性由 vnominal-specification> 列出一系列可能的類別名稱并放在花括號 中: vnominal-name1>,vno

22、minal-name2>,.。數(shù)據(jù)集中該屬性的值只能是其中一種類別。如果類別名稱帶有空格,仍需要將之放入引號中?!皊hares”,“banlance”,“fares”,“internet_shares”和“internet_banlance” 的離散化我們需要借助 WEKA中名為“ Discretize”的Filter來完成。在區(qū)域2中 點“ Choose',出現(xiàn)一棵“ Filter樹”,逐級找到“”,點擊。若無法關(guān)閉這個 樹,在樹之外的地方點擊“ Explorer”面板即可?,F(xiàn)在“ Choose"旁邊的文本框應(yīng)該顯示“ Discretize-B1O-M-O.1-Rfi

23、rst-lasf。 點擊這個文本框會彈出新窗口以修改離散化的參數(shù)。我們不打算對所有的屬性離散化,只是針對對第 4, 5, 6, 8, 9 個,故把 attributeIndices 右邊改成“ 4, 5, 6, 8, 9”。我們把這兩個屬性都分成 1O 段, 于是把“ bins”改成“ 10”。其它不變。點“ OK'回到“ Explorer”,可以看到“ shares', “ banlance”, “ fares”, “ intern et_shares ”和 “i ntern et_ba nlance ”已經(jīng)被離散化成分類型的屬性。同時我們可以用UltraEdit打開保存后的

24、ARFF文 件,把所有的類似“ ''(-inf-1464805.884'' ”替換成“ 0_1464805.884”。其它標 識做類似地手動替換。經(jīng)刪減后,保留 date 、shares、balance、fares、fares_type、internet_shares、 internet_balance7 個屬性,如圖 7圖7 在進行數(shù)據(jù)搜集和整理的過程中,我們發(fā)現(xiàn)如果屬性的類型為數(shù)值型的話, 在做關(guān)聯(lián)分析時將不能得到結(jié)果, 因為關(guān)聯(lián)分析無法處理數(shù)值型數(shù)據(jù)。 因此,我 們進行了數(shù)據(jù)離散處理后使得需要分析的數(shù)據(jù)變?yōu)榉诸愋停?這樣就可以關(guān)聯(lián)分析 得以順利進行。 因此

25、通過預處理數(shù)據(jù)可以提高原數(shù)據(jù)的質(zhì)量, 清除數(shù)據(jù)噪聲和與 挖掘目標無關(guān)的數(shù)據(jù),為進一步的挖掘工作莫定可靠的基礎(chǔ)。3、分類與回歸WEKA中的“ Classify ”選項卡中包含了分類(Classification)和回歸(Regression) ,在這兩個任務(wù)中,都有一個共同的目標屬性(輸出變量)。 可以根據(jù)一個樣本(WEKA中稱作實例)的一組特征(輸入變量),對目標進 行預測。為了實現(xiàn)這一目的,我們需要有一個訓練數(shù)據(jù)集,這個數(shù)據(jù)集中 每個實例的輸入和輸出都是已知的。觀察訓練集中的實例,可以建立起預 測的模型。有了這個模型,我們就可以新的輸出未知的實例進行預測了。 衡量模型的好壞就在于預測的準確程

26、度。在WEKA中,待預測的目標(輸出)被稱作 Class 屬性,這應(yīng)該是來自分類任務(wù)的“類”。一般的,若Class屬性是分類型時我們的任務(wù)才叫分類, Class 屬性是數(shù)值型時我們的任務(wù)叫 回歸。而我們使用決策樹算法 C4.5 對 Fund-data-normal 建立起分類模型。 因此我們制作分類不做回歸。我們用“ Explorer ”打開訓練集“ Fund-data-normal.arff ”,。切換 到“ Classify ”選項卡,點擊“ Choose”按鈕后可以看到很多分類或者回 歸的算法分門別類的列在一個樹型框里。樹型框下方有一個“Filter.”按鈕,點擊后勾選“ Binarya

27、ttributes ”“ Numericattributes ”和“ Binaryclass ”。點“ OK后回到樹形圖,可以發(fā)現(xiàn)一些算法名稱變灰了, 說明它們不能用。選擇“ trees ”下的“ J48”,這就是我們需要的 C4.5算 法。點擊“ Choose”右邊的文本框,彈出新窗口為該算法設(shè)置各種參數(shù)。 我們把參數(shù)保持默認。選上“ Cross-validation ”并在“ Folds ”框填上“ 10”。點“ Start 按鈕開始讓算法生成決策樹模型。很快,用文本表示的一棵決策樹以及對 這個決策樹的誤差分析結(jié)果出現(xiàn)在右邊“ Classifieroutput ”中。見圖 8 圖84、聚類

28、分析 聚類的任務(wù)是把所有的實例分配到若干的簇,使得同一個簇的實例聚 集在一個簇中心的周圍,它們之間距離的比較近;而不同簇實例之間的距 離比較遠。現(xiàn)在我們對前面的“ Fund-data-normal ”作聚類分析,使用最 常見的K均值(K-means)算法。用“ Explorer ”打開剛才得到的“ Fund-data-normal.arff ”,并切換 到“ Cluster ”。點“ Choose” 按鈕選擇“ SimpleKMeans ”,這是 WEKA中 實現(xiàn)K均值的算法。點擊旁邊的文本框,修改“numClusters ”為6,說明我們希望把這734條實例聚成6類,即K=5。下面的“ se

29、ed ”參數(shù)是要設(shè)置 一個隨機種子,依此產(chǎn)生一個隨機數(shù),用來得到 K 均值算法中第一次給出 的 K 個簇中心的位置。我們不妨暫時讓它就為10。選中“ ClusterMode ”的“ Usetrainingset ”,點擊“ Start ”按鈕,觀察 右邊“ Clustereroutput ”給出的聚類結(jié)果。見下圖9:圖95、關(guān)聯(lián)規(guī)則我們打算對前面的“ Fund-data-normal ”數(shù)據(jù)作關(guān)聯(lián)規(guī)則的分析。用“ Explorer ”打開“ Fund-data-normal.arff ”后,切換到“ Associate ” 選項卡。默認關(guān)聯(lián)規(guī)則分析是用 Apriori 算法,我們就用這個算法,

30、但是 點“ Choose”右邊的文本框修改默認的參數(shù)。從網(wǎng)上獲得的 Apriori有關(guān)知識:對于一條關(guān)聯(lián)規(guī)則L->R,我們常用支持度( Support )和置信度( Confidence )來衡量它的重要性。規(guī)則的支 持度是用來估計在一個購物籃中同時觀察到L和R的概率P(L,R),而規(guī)則 的置信度是估計購物欄中出現(xiàn)了 L 時也出會現(xiàn) R 的條件概率 P(R|L) 。關(guān)聯(lián) 規(guī)則的目標一般是產(chǎn)生支持度和置信度都較高的規(guī)則。有幾個類似的度量代替置信度來衡量規(guī)則的關(guān)聯(lián)程度,它們分別是Lift (提升度?): P(L,R)/(P(L)P(R)Lift=1 時表示 L 和 R 獨立。這個數(shù)越大,越表

31、明L 和 R 存在在一個購物籃中不是偶然現(xiàn)象。Leverage (不知道怎么翻譯): P(L,R)-P(L)P(R) 它和 Lift 的含義差不多。 Leverage=0 時 L 和 R 獨立, Leverage 越大 L 和 R 的關(guān)系越密切。Conviction (更不知道譯了): P(L)P(!R)/P(L,!R)(!R 表示 R 沒有發(fā)生)Conviction 也是用來衡量 L 和 R 的獨立性。從它和 lift 的關(guān)系(對 R 取反,代入 Lift 公式后求倒數(shù))可以看出,我們也希望這個值越大越好。值得注意的是,用 Lift和Leverage作標準時,L和R是對稱的, Confide

32、nce 和 Conviction 則不然?,F(xiàn)在我們計劃挖掘出支持度在10%到 100%之間,并且 lift 值超過 1.5且 lift 值排在前 100 位的那些關(guān)聯(lián)規(guī)則。 我們把“ lowe rBoundM inSuppo rt ” 和“ upperBoundMinSupport ”分別設(shè)為 0.1 和 1,“metricType ”設(shè)為 lift ,“ min Metric ”設(shè)為1.5 , “nu mRules ”設(shè)為10,其他參數(shù)不變。點擊“ start ” 見圖 10圖10我們也可以利用命令行來完成挖掘任務(wù),在“ SimlpeCL”I 模塊中輸入如下格式的 命令:java-N100-

33、T1-C1.5-D0.05-U1.0-M0.1-S-1.0-l-td:fund-data-normal.arff即可得 到如圖 11 的結(jié)果。圖116、屬性分析用“ Explorer ”打開剛才得到的“ Fund-data-normal.arff ”,并切換 到“ Selectattributes ”。點“ AttributeEvaluator ” 中的“ Choose” 按 鈕選擇“ ClassifierSubsetEval ”,點“ SearchMethod ”中的“ Choose”按鈕選擇“ RaceSearch ”。在“ AttributeSelection ”中選中“ Cross-v

34、alidation”項,參數(shù)默認Folds=10 和 Seed=1。點擊“ start見圖 12圖 127、可視化分析用“ Explorer ”打開剛才得到的“ Fund-data-normal.arff ”,并切換到 “ Visualize ”。見圖 13圖13四、分析結(jié)果1 、分類與回歸我們看到“ J48 ”算法交叉驗證的結(jié)果之一為CorrectlyClassifiedInstances73099.455%IncorrectlyClassifiedInstances40.545% =ConfusionMatrix= abcdefghij<-classifiedas 730000000000|a='(0_1430078.883'1000000000|b='(1430078.883-2860157.766'100000

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論