版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
中文詳細(xì)教程1、WEKA簡(jiǎn)介WEKA得全名就是懷卡托智能分析環(huán)境(WaikatoEnvironmentforKnowledgeAnalysis)weka也就是新西蘭得一種鳥名就是新西蘭懷卡托大學(xué)WEKA小組用Java開發(fā)得機(jī)器學(xué)習(xí)/數(shù)據(jù)挖掘開源軟件。其源代碼獲取2005年8月,在第11屆ACMSIGKDD國(guó)際會(huì)議上,懷卡托大學(xué)得WEKA小組榮獲了數(shù)據(jù)挖掘和知識(shí)探索領(lǐng)域得最高服務(wù)獎(jiǎng),WEKA系統(tǒng)得到了廣泛得認(rèn)可,被譽(yù)為數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)歷史上得里程碑,就是現(xiàn)今最完備得數(shù)據(jù)挖掘工具之一。WEKA得每月下載次數(shù)已超過萬次。WEKA軟件主要特點(diǎn)她就是集數(shù)據(jù)預(yù)處理、學(xué)習(xí)算法(分類、回歸、聚類、關(guān)聯(lián)分析)和評(píng)估方法等為一體得綜合性數(shù)據(jù)挖掘工具。具有交互式可視化界面。提供算法學(xué)習(xí)比較環(huán)境通過其接口,可實(shí)現(xiàn)自己得數(shù)據(jù)挖掘算法WEKA得界面探索環(huán)境命令行環(huán)境知識(shí)流環(huán)境算法試驗(yàn)環(huán)境Explorer環(huán)境把“Explorer”界面分成8個(gè)區(qū)域區(qū)域1得幾個(gè)選項(xiàng)卡就是用來切換不同得挖掘任務(wù)面板。Preprocess(數(shù)據(jù)預(yù)處理):選擇和修改要處理得數(shù)據(jù)。Classify(分類):訓(xùn)練和測(cè)試分類或回歸模型。Cluster(聚類):從數(shù)據(jù)中聚類。Associate(關(guān)聯(lián)分析):從數(shù)據(jù)中學(xué)習(xí)關(guān)聯(lián)規(guī)則。SelectAttributes(選擇屬性):選擇數(shù)據(jù)中最相關(guān)得屬性。Visualize(可視化):查看數(shù)據(jù)得二維散布圖。區(qū)域2就是一些常用按鈕。包括打開、編輯、保存數(shù)據(jù)及數(shù)據(jù)轉(zhuǎn)換等功能。例如,我們可以把文件“bank-data、csv”另存為“bank-data、arff”。區(qū)域3中可以選擇(Choose)某個(gè)篩選器(Filter),以實(shí)現(xiàn)篩選數(shù)據(jù)或者對(duì)數(shù)據(jù)進(jìn)行某種變換。數(shù)據(jù)預(yù)處理主要就利用她來實(shí)現(xiàn)。區(qū)域4展示了數(shù)據(jù)集得關(guān)系名、屬性數(shù)和實(shí)例數(shù)等基本情況。區(qū)域5中列出了數(shù)據(jù)集得所有屬性。勾選一些屬性并“Remove”就可以刪除她們,刪除后還可以利用區(qū)域2得“Undo”按鈕找回。區(qū)域5上方得一排按鈕就是用來實(shí)現(xiàn)快速勾選得。區(qū)域6中顯示在區(qū)域5中選中得當(dāng)前某個(gè)屬性得摘要。摘要包括屬性名(Name)、屬性類型(Type)、缺失值(Missing)數(shù)及比例、不同值(Distinct)數(shù)、唯一值(Unique)數(shù)及比例對(duì)于數(shù)值屬性和標(biāo)稱屬性,摘要得方式就是不一樣得。圖中顯示得就是對(duì)數(shù)值屬性“ine”得摘要。數(shù)值屬性顯示最小值(Minimum)、最大值(Maximum)、均值(Mean)和標(biāo)準(zhǔn)差(StdDev)標(biāo)稱屬性顯示每個(gè)不同值得計(jì)數(shù)區(qū)域7就是區(qū)域5中選中屬性得直方圖。若數(shù)據(jù)集得最后一個(gè)屬性(這就是分類或回歸任務(wù)得默認(rèn)目標(biāo)變量)就是類標(biāo)變量(例如“pep”),直方圖中得每個(gè)長(zhǎng)方形就會(huì)按照該變量得比例分成不同顏色得段。要想換個(gè)分段得依據(jù),在區(qū)域7上方得下拉框中選個(gè)不同得分類屬性就可以了。下拉框里選上“NoClass”或者一個(gè)數(shù)值屬性會(huì)變成黑白得直方圖。區(qū)域8窗口得底部區(qū)域,包括狀態(tài)欄、log按鈕和Weka鳥。狀態(tài)欄(Status)顯示一些信息讓您知道正在做什么。例如,如果Explorer正忙于裝載一個(gè)文件,狀態(tài)欄就會(huì)有通知。在狀態(tài)欄中得任意位置右擊鼠標(biāo)將會(huì)出現(xiàn)一個(gè)小菜單。這個(gè)菜單給了您兩個(gè)選項(xiàng):MemoryInformation--顯示W(wǎng)EKA可用得內(nèi)存量。Rungarbagecollector--強(qiáng)制運(yùn)行Java垃圾回收器,搜索不再需要得內(nèi)存空間并將之釋放,從而可為新任務(wù)分配更多得內(nèi)存。Log按鈕可以查看以weka操作日志。右邊得weka鳥在動(dòng)得話,說明WEKA正在執(zhí)行挖掘任務(wù)。KnowledgeFlow環(huán)境大家有疑問的,可以詢問和交流可以互相討論下,但要小聲點(diǎn)2、WEKA數(shù)據(jù)集WEKA所處理得數(shù)據(jù)集就是一個(gè)、arff文件得二維表表格里得一個(gè)橫行稱作一個(gè)實(shí)例(Instance),相當(dāng)于統(tǒng)計(jì)學(xué)中得一個(gè)樣本,或者數(shù)據(jù)庫(kù)中得一條記錄。豎行稱作一個(gè)屬性(Attribute),相當(dāng)于統(tǒng)計(jì)學(xué)中得一個(gè)變量,或者數(shù)據(jù)庫(kù)中得一個(gè)字段。這樣一個(gè)表格,或者叫數(shù)據(jù)集,在WEKA看來,呈現(xiàn)了屬性之間得一種關(guān)系(Relation)。上圖中一共有14個(gè)實(shí)例,5個(gè)屬性,關(guān)系名稱為“weather”。WEKA存儲(chǔ)數(shù)據(jù)得格式就是ARFF(Attribute-Relation)文件,這就是一種ASCII文本文件。上圖所示得二維表格存儲(chǔ)在如下得ARFF文件中。這也就就是WEKA自帶得“weather、arff”文件,在WEKA安裝目錄得“data”子目錄下可以找到。relationweatherattributeoutlook{sunny,overcast,rainy}attributetemperaturerealattributehumidityrealattributewindy{TRUE,FALSE}attributeplay{yes,no}datasunny,85,85,FALSE,nosunny,80,90,TRUE,noovercast,83,86,FALSE,yesrainy,70,96,FALSE,yesrainy,68,80,FALSE,yesrainy,65,70,TRUE,noovercast,64,65,TRUE,yessunny,72,95,FALSE,nosunny,69,70,FALSE,yesrainy,75,80,FALSE,yessunny,75,70,TRUE,yesovercast,72,90,TRUE,yesovercast,81,75,FALSE,yesrainy,71,91,TRUE,noWEKA數(shù)據(jù)文件WEKA存儲(chǔ)數(shù)據(jù)得格式就是ARFF(Attribute-Relation)文件這就是一種ASCII文本文件文件得擴(kuò)展名為、arff可以用寫字板打開、編輯ARFF文件文件中以“%”開始得行就是注釋,WEKA將忽略這些行。除去注釋后,整個(gè)ARFF文件可以分為兩個(gè)部分:第一部分給出了頭信息(Headinformation),包括了對(duì)關(guān)系得聲明和對(duì)屬性得聲明。第二部分給出了數(shù)據(jù)信息(Datainformation),即數(shù)據(jù)集中給出得數(shù)據(jù)。從“data”標(biāo)記開始,后面得就就是數(shù)據(jù)信息了。關(guān)系聲明關(guān)系名稱在ARFF文件得第一個(gè)有效行來定義,格式為:
relation<關(guān)系名><關(guān)系名>就是一個(gè)字符串。如果這個(gè)字符串包含空格,她必須加上引號(hào)(指英文標(biāo)點(diǎn)得單引號(hào)或雙引號(hào))。屬性聲明屬性聲明用一列以“attribute”開頭得語(yǔ)句表示。數(shù)據(jù)集中得每一個(gè)屬性都有對(duì)應(yīng)得“attribute”語(yǔ)句,來定義她得屬性名稱和數(shù)據(jù)類型(datatype):
attribute<屬性名><數(shù)據(jù)類型>其中<屬性名>必須以字母開頭得字符串。和關(guān)系名稱一樣,如果這個(gè)字符串包含空格,她必須加上引號(hào)。屬性聲明語(yǔ)句得順序很重要,她表明了該項(xiàng)屬性在數(shù)據(jù)部分得位置。例如,“humidity”就是第三個(gè)被聲明得屬性,這說明數(shù)據(jù)部分那些被逗號(hào)分開得列中,第2列(從第0列開始)數(shù)據(jù)85908696、、、就是相應(yīng)得“humidity”值。其次,最后一個(gè)聲明得屬性被稱作class屬性,在分類或回歸任務(wù)中,她就是默認(rèn)得目標(biāo)變量。數(shù)據(jù)類型WEKA支持四種數(shù)據(jù)類型numeric 數(shù)值型<nominal-specification> 標(biāo)稱(nominal)型string 字符串型date[<date-format>] 日期和時(shí)間型還可以使用兩個(gè)類型“integer”和“real”,但就是WEKA把她們都當(dāng)作“numeric”看待。注意:“integer”,“real”,“numeric”,“date”,“string”這些關(guān)鍵字就是區(qū)分大小寫得,而“relation”、“attribute”和“data”則不區(qū)分。數(shù)值型屬性數(shù)值型屬性可以就是整數(shù)或者實(shí)數(shù),但WEKA把她們都當(dāng)作實(shí)數(shù)看待。例如:
attributetemperaturereal
字符串屬性字符串屬性可以包含任意得文本。例如:
attributeLCCstring標(biāo)稱屬性標(biāo)稱屬性由<nominal-specification>列出一系列可能得類別名稱并放在花括號(hào)中:{<nominal-name1>,<nominal-name2>,<nominal-name3>,、、、}。數(shù)據(jù)集中該屬性得值只能就是其中一種類別。例如屬性聲明:
attributeoutlook{sunny,overcast,rainy}說明“outlook”屬性有三種類別:“sunny”,“overcast”和“rainy”。而數(shù)據(jù)集中每個(gè)實(shí)例對(duì)應(yīng)得“outlook”值必就是這三者之一。如果類別名稱帶有空格,仍需要將之放入引號(hào)中。日期和時(shí)間屬性日期和時(shí)間屬性統(tǒng)一用“date”類型表示,她得格式就是:
attribute<屬性名>date[<date-format>]其中<date-format>就是一個(gè)字符串,來規(guī)定該怎樣解析和顯示日期或時(shí)間得格式,默認(rèn)得字符串就是ISO-8601所給得日期時(shí)間組合格式:
“yyyy-MM-ddHH:mm:ss”
數(shù)據(jù)信息部分表達(dá)日期得字符串必須符合聲明中規(guī)定得格式要求,例如:ATTRIBUTEtimestampDATE"yyyy-MM-ddHH:mm:ss"
DATA
"2011-05-0312:59:55"數(shù)據(jù)信息數(shù)據(jù)信息中“data”標(biāo)記獨(dú)占一行,剩下得就是各個(gè)實(shí)例得數(shù)據(jù)。每個(gè)實(shí)例占一行,實(shí)例得各屬性值用逗號(hào)“,”隔開。如果某個(gè)屬性得值就是缺失值(missingvalue),用問號(hào)“?”表示,且這個(gè)問號(hào)不能省略。例如:
data
sunny,85,85,FALSE,no
?,78,90,?,yes稀疏數(shù)據(jù)有得時(shí)候數(shù)據(jù)集中含有大量得0值,這個(gè)時(shí)候用稀疏格式得數(shù)據(jù)存儲(chǔ)更加省空間。稀疏格式就是針對(duì)數(shù)據(jù)信息中某個(gè)對(duì)象得表示而言,不需要修改ARFF文件得其她部分。例如數(shù)據(jù):data
0,X,0,Y,"classA"
0,0,W,0,"classB"用稀疏格式表達(dá)得話就就是
data
{1X,3Y,4"classA"}
{2W,4"classB"}注意:ARFF數(shù)據(jù)集最左端得屬性列為第0列,因此,1X表示X為第1列屬性值。3、數(shù)據(jù)準(zhǔn)備數(shù)據(jù)獲取直接使用ARFF文件數(shù)據(jù)。從CSV,C4、5,binary等多種格式文件中導(dǎo)入。通過JDBC從SQL數(shù)據(jù)庫(kù)中讀取數(shù)據(jù)。從URL(UniformResourceLocator)獲取網(wǎng)絡(luò)資源得數(shù)據(jù)。數(shù)據(jù)格式轉(zhuǎn)換ARFF格式就是WEKA支持得最好得文件格式。使用WEKA作數(shù)據(jù)挖掘,面臨得第一個(gè)問題往往就是數(shù)據(jù)不就是ARFF格式得。WEKA還提供了對(duì)CSV文件得支持,而這種格式就是被很多其她軟件(比如Excel)所支持。可以利用WEKA將CSV文件格式轉(zhuǎn)化成ARFF文件格式。數(shù)據(jù)資源WEKA自帶得數(shù)據(jù)集C:\ProgramFiles\Weka-3-6\data網(wǎng)絡(luò)數(shù)據(jù)資源
、XLS、CSV、ARFFExcel得XLS文件可以讓多個(gè)二維表格放到不同得工作表(Sheet)中,只能把每個(gè)工作表存成不同得CSV文件。打開一個(gè)XLS文件并切換到需要轉(zhuǎn)換得工作表,另存為CSV類型,點(diǎn)“確定”、“就是”忽略提示即可完成操作。在WEKA中打開一個(gè)CSV類型文件,再另存為ARFF類型文件即可。打開Excel得Iris、xls文件將iris、xls另存為iris、csv文件在weka得Explorer中打開Iris、csv文件將iris、csv另存為iris、
arff文件4、數(shù)據(jù)預(yù)處理preprocess在WEKA中數(shù)據(jù)預(yù)處理工具稱作篩選器(filters)可以定義篩選器來以各種方式對(duì)數(shù)據(jù)進(jìn)行變換。Filter一欄用于對(duì)各種篩選器進(jìn)行必要得設(shè)置。Choose按鈕:點(diǎn)擊這個(gè)按鈕就可選擇WEKA中得某個(gè)篩選器。選定一個(gè)篩選器后,她得名字和選項(xiàng)會(huì)顯示在Choose按鈕旁邊得文本框中。載入數(shù)據(jù)Explorer得預(yù)處理(preprocess)頁(yè)區(qū)域2得前4個(gè)按鈕用來把數(shù)據(jù)載入WEKA:Openfile、、、、打開一個(gè)對(duì)話框,允許您瀏覽本地文件系統(tǒng)上得數(shù)據(jù)文件。OpenURL、、、、請(qǐng)求一個(gè)存有數(shù)據(jù)得URL地址。OpenDB、、、、從數(shù)據(jù)庫(kù)中讀取數(shù)據(jù)。Generate、、、、從一些數(shù)據(jù)生成器(DataGenerators)中生成人造數(shù)據(jù)。去除無用屬性通常對(duì)于數(shù)據(jù)挖掘任務(wù)來說,像ID這樣得信息就是無用得,可以將之刪除。在區(qū)域5勾選屬性“id”,并點(diǎn)擊“Remove”。將新得數(shù)據(jù)集保存,并重新打開。數(shù)據(jù)離散化有些算法(如關(guān)聯(lián)分析),只能處理標(biāo)稱型屬性,這時(shí)候就需要對(duì)數(shù)值型得屬性進(jìn)行離散化。對(duì)取值有限得數(shù)值型屬性可通過修改、arff文件中該屬性數(shù)據(jù)類型實(shí)現(xiàn)離散化。例如,在某數(shù)據(jù)集中得
“children”屬性只有4個(gè)數(shù)值型取值:0,1,2,3。我們直接修改ARFF文件,把
attributechildrennumeric
改為
attributechildren{0,1,2,3}
就可以了。在“Explorer”中重新打開“bank-data、arff”,看看選中“children”屬性后,區(qū)域6那里顯示得“Type”
變成“Nominal”了。對(duì)取值較多得數(shù)值型屬性,離散化可借助WEKA中名為“Discretize”得Filter來完成。在區(qū)域2中點(diǎn)“Choose”,出現(xiàn)一棵“Filter樹”,逐級(jí)找到“weka、filters、unsupervised、attribute、Discretize”,點(diǎn)擊?,F(xiàn)在“Choose”旁邊得文本框應(yīng)該顯示“Discretize-B10-M-0、1-Rfirst-last”。點(diǎn)擊這個(gè)文本框會(huì)彈出新窗口以修改離散化得參數(shù)。在weka得Explorer中打開Iris、arff文件查看Iris數(shù)據(jù)集查看Iris數(shù)據(jù)屬性分布圖,選擇屬性通過觀察發(fā)現(xiàn)petallength最能區(qū)分各類將屬性petallength離散化離散化成10段數(shù)據(jù)等頻離散化離散化成10段數(shù)據(jù)查看離散化后得Iris數(shù)據(jù)集5、分類ClassifyWEKA把分類(Classification)和回歸(Regression)都放在“Classify”選項(xiàng)卡中。在這兩個(gè)數(shù)據(jù)挖掘任務(wù)中,都有一個(gè)目標(biāo)屬性(類別屬性,輸出變量)。我們希望根據(jù)一個(gè)WEKA實(shí)例得一組特征屬性(輸入變量),對(duì)目標(biāo)屬性進(jìn)行分類預(yù)測(cè)。為了實(shí)現(xiàn)這一目得,我們需要有一個(gè)訓(xùn)練數(shù)據(jù)集,這個(gè)數(shù)據(jù)集中每個(gè)實(shí)例得輸入和輸出都就是已知得。觀察訓(xùn)練集中得實(shí)例,可以建立起預(yù)測(cè)得分類/回歸模型。有了這個(gè)模型,就可以對(duì)新得未知實(shí)例進(jìn)行分類預(yù)測(cè)。衡量模型得好壞主要在于預(yù)測(cè)得準(zhǔn)確程度。WEKA中得典型分類算法Bayes:貝葉斯分類器BayesNet:貝葉斯信念網(wǎng)絡(luò)Na?veBayes:樸素貝葉斯網(wǎng)絡(luò)Functions:人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)MultilayerPerceptron:多層前饋人工神經(jīng)網(wǎng)絡(luò)SMO:支持向量機(jī)(采用順序最優(yōu)化學(xué)習(xí)方法)Lazy:基于實(shí)例得分類器IB1:1-最近鄰分類器IBk:k-最近鄰分類器選擇分類算法Meta:組合方法AdaBoostM1:AdaBoostM1方法Bagging:袋裝方法Rules:基于規(guī)則得分類器JRip:直接方法-Ripper算法Part:間接方法-從J48產(chǎn)生得決策樹抽取規(guī)則Trees:決策樹分類器Id3:ID3決策樹學(xué)習(xí)算法(不支持連續(xù)屬性)J48:C4、5決策樹學(xué)習(xí)算法(第8版本)REPTree:使用降低錯(cuò)誤剪枝得決策樹學(xué)習(xí)算法RandomTree:基于決策樹得組合方法選擇分類算法選擇模型評(píng)估方法四種方法Usingtrainingset使用訓(xùn)練集評(píng)估Suppliedtestset使用測(cè)試集評(píng)估Cross-validation交叉驗(yàn)證設(shè)置折數(shù)FoldsPercentagesplit保持方法。使用一定比例得訓(xùn)練實(shí)例作評(píng)估設(shè)置訓(xùn)練實(shí)例得百分比選擇模型評(píng)估方法Outputmodel、輸出基于整個(gè)訓(xùn)練集得分類模型,從而模型可以被查看,可視化等。該選項(xiàng)默認(rèn)選中。Outputper-classstats、輸出每個(gè)class得準(zhǔn)確度/反饋率(precision/recall)和正確/錯(cuò)誤(true/false)得統(tǒng)計(jì)量。該選項(xiàng)默認(rèn)選中。Outputevaluationmeasures、輸出熵估計(jì)度量。該選項(xiàng)默認(rèn)沒有選中。Outputconfusionmatrix、輸出分類器預(yù)測(cè)結(jié)果得混淆矩陣。該選項(xiàng)默認(rèn)選中。Storepredictionsforvisualization、記錄分類器得預(yù)測(cè)結(jié)果使得她們能被可視化表示。Outputpredictions、輸出測(cè)試數(shù)據(jù)得預(yù)測(cè)結(jié)果。注意在交叉驗(yàn)證時(shí),實(shí)例得編號(hào)不代表她在數(shù)據(jù)集中得位置。Cost-sensitiveevaluation、誤差將根據(jù)一個(gè)價(jià)值矩陣來估計(jì)。Set…按鈕用來指定價(jià)值矩陣。Randomseedforxval/%Split、指定一個(gè)隨即種子,當(dāng)出于評(píng)價(jià)得目得需要分割數(shù)據(jù)時(shí),她用來隨機(jī)化數(shù)據(jù)。點(diǎn)擊Moreoptions按鈕可以設(shè)置更多得測(cè)試選項(xiàng):文字結(jié)果分析單擊start按鈕,Classifieroutput窗口顯示得文字結(jié)果信息:Runinformation運(yùn)行信息Classifiermodel(fulltrainingset)使用全部訓(xùn)練數(shù)據(jù)構(gòu)造得分類模型Summary針對(duì)訓(xùn)練/檢驗(yàn)集得預(yù)測(cè)效果匯總。DetailedAccuracyByClass對(duì)每個(gè)類得預(yù)測(cè)準(zhǔn)確度得詳細(xì)描述。ConfusionMatrix混淆矩陣,其中矩陣得行就是實(shí)際得類,矩陣得列就是預(yù)測(cè)得到得類,矩陣元素就就是相應(yīng)測(cè)試樣本得個(gè)數(shù)。文字結(jié)果主要指標(biāo)CorrectlyClassifiedInstances正確分類率IncorrectlyClassifiedInstances錯(cuò)誤分類率KappastatisticKappa統(tǒng)計(jì)數(shù)據(jù)Meanabsoluteerror平均絕對(duì)誤差Rootmeansquarederror根均方差Relativeabsoluteerror相對(duì)絕對(duì)誤差Rootrelativesquarederror相對(duì)平方根誤差TPRate(bad/good)正確肯定率FPRate(bad/good)錯(cuò)誤肯定率Precision(bad/good)精確率Recall(bad/good)反饋率F-Measure(bad/good)F測(cè)量Timetakentobuildmodel建?;ㄙM(fèi)得時(shí)間
輸出圖形結(jié)果鼠標(biāo)右鍵Viewinmainwindow(查看主窗口)。在主窗口中查看輸出結(jié)果。Viewinseparatewindow(查看不同得窗口)。打開一個(gè)獨(dú)立得新窗口來查看結(jié)果。Saveresultbuffer(保存結(jié)果得緩沖區(qū))。彈出對(duì)話框來保存輸出結(jié)果得文本文件。Loadmodel(下載模式)。從二進(jìn)制文件中載入一個(gè)預(yù)訓(xùn)練模式對(duì)象。Savemodel(保存模式)。將一個(gè)模式對(duì)象保存到二進(jìn)制文件中,也就就是保存在JAVA得串行對(duì)象格式中。Re-evaluatemodeloncurrenttestset(對(duì)當(dāng)前測(cè)試集進(jìn)行重新評(píng)估)。通過已建立得模式,并利用Suppliedtestset(提供得測(cè)試集)選項(xiàng)下得Set、、按鈕來測(cè)試指定得數(shù)據(jù)集。Visualizeclassifiererrors(可視化分類器錯(cuò)誤)。彈出一個(gè)可視化窗口來顯示分類器得結(jié)果圖。其中,正確分類得實(shí)例用叉表示,然而不正確分類得實(shí)例則就是以小正方形來表示得。Visualizetree(樹得可視化)。如果可能得話,則彈出一個(gè)圖形化得界面來描述分類器模型得結(jié)構(gòu)(這只有一部分分類器才有得)。右鍵單擊空白區(qū)域彈出一個(gè)菜單,在面板中拖動(dòng)鼠標(biāo)并單擊,就可以看見每個(gè)節(jié)點(diǎn)對(duì)應(yīng)得訓(xùn)練實(shí)例。Visualizemargincurve(邊際曲線得可視化)。產(chǎn)生一個(gè)散點(diǎn)圖來描述預(yù)測(cè)邊際得情況。邊際被定義為預(yù)測(cè)為真實(shí)值得概率和預(yù)測(cè)為真實(shí)值之外得其她某類得最高概率之差。例如加速算法通過增加訓(xùn)練數(shù)據(jù)集得邊際來更好地完成測(cè)試數(shù)據(jù)集得任務(wù)。Visualizethresholdcurve(閾曲線得可視化)。產(chǎn)生一個(gè)散點(diǎn)圖來描述預(yù)測(cè)中得權(quán)衡問題,其中權(quán)衡就是通過改變類之間閾值來獲取得。例如,缺省閾值為0、5,一個(gè)實(shí)例預(yù)測(cè)為positive得概率必須要大于0、5,因?yàn)?、5時(shí)實(shí)例正好預(yù)測(cè)為positive。而且圖表可以用來對(duì)精確率/反饋率權(quán)衡進(jìn)行可視化,如ROC曲線分析(正確得正比率和錯(cuò)誤得正比率)和其她得曲線。Visualizecostcurve(成本曲線得可視化)。產(chǎn)生一個(gè)散點(diǎn)圖,來確切描述期望成本,正如Drummond和Holte所描述得一樣。
Visualizeclassifiererrors、可視化分類錯(cuò)誤實(shí)際類與預(yù)測(cè)類得散布圖。其中正確分類得結(jié)果用叉表示,分錯(cuò)得結(jié)果用方框表示。Visualizetree可視化樹可視化邊際曲線(Visualizemargincurve)創(chuàng)建一個(gè)散點(diǎn)圖來顯示預(yù)測(cè)邊際值。四個(gè)變量Margin:預(yù)測(cè)邊際值Instance_number:檢驗(yàn)實(shí)例得序號(hào)Current:具有當(dāng)前預(yù)測(cè)邊際值得實(shí)例個(gè)數(shù)Cumulative:小于或等于預(yù)測(cè)邊際值得實(shí)例個(gè)數(shù)(與Instance_number一致)單擊8號(hào)檢驗(yàn)實(shí)例,顯示該點(diǎn)得邊際值為0、5,有7個(gè)實(shí)例得邊際值小于0、5??梢暬撝登€(基于類)閾值就是將檢驗(yàn)實(shí)例歸為當(dāng)前類得最小概率,使用點(diǎn)得顏色表示閾值曲線上得每個(gè)點(diǎn)通過改變閾值得大小生成可以進(jìn)行ROC分析X軸選假正率Y軸選真正率ROC曲線ROC曲線(ReceiverOperatingCharacteeristicCurve)就是顯示Classification模型真正率和假正率之間折中得一種圖形化方法。假設(shè)樣本可分為正負(fù)兩類,解讀ROC圖得一些概念定義:真正(TruePositive,TP),被模型預(yù)測(cè)為正得正樣本
假負(fù)(FalseNegative,FN)被模型預(yù)測(cè)為負(fù)得正樣本假正(FalsePositive,FP)被模型預(yù)測(cè)為正得負(fù)樣本
真負(fù)(TrueNegative,TN)被模型預(yù)測(cè)為負(fù)得負(fù)樣本真正率(TruePositiveRate,TPR)或靈敏度(sensitivity)
TPR=TP/(TP+FN)
正樣本預(yù)測(cè)結(jié)果數(shù)/正樣本實(shí)際數(shù)假正率(FalsePositiveRate,FPR)
FPR=FP/(FP+TN)
被預(yù)測(cè)為正得負(fù)樣本結(jié)果數(shù)/負(fù)樣本實(shí)際數(shù)
(TPR=1,FPR=0)就是理想模型
一個(gè)好得分類模型應(yīng)該盡可能靠近圖形得左上角。IRIS分類示例
在weka得Explorer中打開Iris、arff文件在weka得Explorer中打開Iris、arff文件選擇分類(Classify)數(shù)據(jù)挖掘任務(wù)選擇分類算法選擇決策樹算法Trees->J48設(shè)置相關(guān)參數(shù)選擇檢驗(yàn)方法執(zhí)行分類算法,建立決策樹模型查看算法執(zhí)行得輸出信息查看決策樹分類模型查看分類錯(cuò)誤散點(diǎn)圖選擇其她得分類算法選擇貝葉斯分類算法bayes->Naivebayes選擇檢驗(yàn)方法執(zhí)行分類算法,建立貝葉斯模型進(jìn)行ROC分析選擇其她得分類算法選擇決策樹用戶自分類法trees->UserClssifier選擇檢驗(yàn)方法執(zhí)行算法數(shù)據(jù)散點(diǎn)圖但擊鼠標(biāo),確定分類邊界查看相應(yīng)得分類樹預(yù)測(cè)指定屬性值選擇預(yù)測(cè)屬性選擇算法執(zhí)行算法觀察輸出信息查看分類錯(cuò)誤散點(diǎn)圖點(diǎn)擊實(shí)例,察看詳細(xì)信息該實(shí)例petallength得實(shí)際值為5、1,預(yù)測(cè)值為5、89訓(xùn)練BANK-DATA分類模型示例bank-data數(shù)據(jù)各屬性得含義如下:
id: auniqueidentificationnumber
age: ageofcustomerinyears(numeric)
sex: MALE/FEMALE
region: inner_city/rural/suburban/town
ine: ineofcustomer(numeric)
married: isthecustomermarried(YES/NO)
children: numberofchildren(numeric)
car: doesthecustomerownacar(YES/NO)
save_act: doesthecustomerhaveasavingaccount(YES/NO)
current_act:doesthecustomerhaveacurrentaccount(YES/NO)
mortgage:doesthecustomerhaveamortgage(YES/NO)
pep(目標(biāo)變量):didthecustomerbuyaPEP(PersonalEquityPlan,個(gè)人參股計(jì)劃)afterthelastmailing(YES/NO)瀏覽bank-data、xls數(shù)據(jù)數(shù)據(jù)準(zhǔn)備—將數(shù)據(jù)另存為、csv格式數(shù)據(jù)準(zhǔn)備—在WEKA中打開bank-data、csv數(shù)據(jù)準(zhǔn)備—在WEKA中瀏覽數(shù)據(jù)數(shù)據(jù)準(zhǔn)備—將數(shù)據(jù)另存為、arff格式在寫字板中瀏覽bank-data、arff文件數(shù)據(jù)預(yù)處理去除無用屬性 通常對(duì)于數(shù)據(jù)挖掘任務(wù)來說,ID這樣得信息就是無用得,我們將之刪除。勾選屬性“id”,并點(diǎn)擊“Remove”。將新得數(shù)據(jù)集保存為“bank-data、arff”,重新打開。離散化 在這個(gè)數(shù)據(jù)集中有3個(gè)變量就是數(shù)值型得,分別就是“age”,“ine”和“children”。
其中“children”只有4個(gè)取值:0,1,2,3。這時(shí)我們直接修改ARFF文件,把
attributechildrennumeric
改為
attributechildren{0,1,2,3}
就可以了。
在“Explorer”中重新打開“bank-data、arff”,看看選中“children”屬性后,顯示得“Type”
變成“Nominal”了。數(shù)據(jù)預(yù)處理“age”和“ine”得離散化可借助WEKA中名為“Discretize”得Filter來完成。點(diǎn)“Choose”,出現(xiàn)一棵“Filter樹”,逐級(jí)找到“weka、filters、unsupervised、attribute、Discretize”,點(diǎn)擊?,F(xiàn)在“Choose”旁邊得文本框應(yīng)該顯示“Discretize-B10-M-0、1-Rfirst-last”。點(diǎn)擊這個(gè)文本框會(huì)彈出新窗口以修改離散化得參數(shù)。
我們不打算對(duì)所有得屬性離散化,只就是針對(duì)對(duì)第1個(gè)和第4個(gè)屬性(見屬性名左邊得數(shù)字),故把a(bǔ)ttributeIndices右邊改成“1,4”。計(jì)劃把這兩個(gè)屬性都分成3段,于就是把“bins”改成“3”。其她框里不用更改。點(diǎn)“OK”回到“Explorer”,可以看到“age”和“ine”已經(jīng)被離散化成分類型得屬性。若想放棄離散化可以點(diǎn)“Undo”。經(jīng)過上述操作得到得數(shù)據(jù)集我們保存為bank-data-final、arff。數(shù)據(jù)預(yù)處理--去除無用屬性
數(shù)據(jù)預(yù)處理—children數(shù)據(jù)離散化數(shù)據(jù)預(yù)處理—children數(shù)據(jù)離散化用寫字板打開bank-data、arff文件在WEKA中重新打開bank-data、arff文件。觀察children屬性。數(shù)據(jù)預(yù)處理—離散化“age”和“ine”
數(shù)據(jù)預(yù)處理—數(shù)據(jù)離散化在寫字板中重新觀察bank-data、arff數(shù)據(jù)訓(xùn)練分類模型評(píng)估分類模型選擇不同得分類算法或參數(shù)選擇模型6、聚類cluster聚類分析就是把對(duì)象分配給各個(gè)簇,使同簇中得對(duì)象相似,而不同簇間得對(duì)象相異。WEKA在“Explorer”界面得“Cluster”提供聚類分析工具選擇聚類算法WEKA中得聚類算法主要算法包括:SimpleKMeans—
支持分類屬性得K均值算法DBScan—
支持分類屬性得基于密度得算法EM—
基于混合模型得聚類算法FathestFirst—K中心點(diǎn)算法OPTICS—
基于密度得另一個(gè)算法Cobweb—
概念聚類算法sIB—
基于信息論得聚類算法,不支持分類屬性XMeans—
能自動(dòng)確定簇個(gè)數(shù)得擴(kuò)展K均值算法,不支持分類屬性參數(shù)設(shè)置SimpleKMeans重要參數(shù)N—
簇個(gè)數(shù)DBScan重要參數(shù)E—Eps半徑M—MinPts,Eps半徑內(nèi)點(diǎn)個(gè)數(shù)SimpleKMeans重要參數(shù)displayStdDevs:就是否顯示數(shù)值屬性標(biāo)準(zhǔn)差和分類屬性個(gè)數(shù)distanceFunction:選擇比較實(shí)例得距離函數(shù)(默認(rèn):weka、core、EuclideanDistance)dontReplaceMissingValues:就是否不使用均值/眾數(shù)(mean/mode)替換缺失值。maxIterations:最大迭代次數(shù)numClusters:聚類得簇?cái)?shù)preserveInstancesOrder:就是否預(yù)先排列實(shí)例得順序Seed:設(shè)定得隨機(jī)種子值聚類模式ClusterMode使用訓(xùn)練集(Usetrainingset)—
報(bào)告訓(xùn)練對(duì)象得聚類結(jié)果和分組結(jié)果使用附加得檢驗(yàn)集(Suppliedtestset)—
報(bào)告訓(xùn)練對(duì)象得聚類結(jié)果和附加得檢驗(yàn)對(duì)象得分組結(jié)果百分比劃分(Percentagesplit)—
報(bào)告全部對(duì)象得聚類結(jié)果、訓(xùn)練對(duì)象得聚類結(jié)果,以及檢驗(yàn)對(duì)象得分組結(jié)果監(jiān)督評(píng)估(Classestoclustersevaluation)—
報(bào)告訓(xùn)練對(duì)象得聚類結(jié)果和分組結(jié)果、類/簇混淆矩陣和錯(cuò)誤分組信息執(zhí)行聚類算法點(diǎn)擊“Start”按鈕,執(zhí)行聚類算法觀察聚類結(jié)果觀察右邊“Clustereroutput”給出得聚類結(jié)果。也可以在左下角“Resultlist”中這次產(chǎn)生得結(jié)果上點(diǎn)右鍵,“Viewinseparatewindow”在新窗口中瀏覽結(jié)果。===Runinformation===%運(yùn)行信息Scheme:weka、clusterers、SimpleKMeans-N3-A“weka、core、EuclideanDistance-Rfirst-last”-I500-S10%
算法得參數(shù)設(shè)置:-N3-A“weka、core、EuclideanDistance-Rfirst-last”-I500-S10;%
各參數(shù)依次表示:%-N3–聚類簇?cái)?shù)為3;%-A“weka、core、EuclideanDistance–中心距離為歐氏距離;%-I500--最多迭代次數(shù)為500;%-S10--隨機(jī)種子值為10。Relation:iris%數(shù)據(jù)集名稱Instances:150%數(shù)據(jù)集中得實(shí)例個(gè)數(shù)Attributes:5%數(shù)據(jù)集中得屬性個(gè)數(shù)及屬性名稱sepallengthsepalwidthpetallengthpetalwidthIgnored:%忽略得屬性classTestmode:Classestoclustersevaluationontrainingdata%測(cè)試模式===Modelandevaluationontainingset===%基于訓(xùn)練數(shù)據(jù)集得模型與評(píng)價(jià)kMeans%使用kMeans算法======Numberofiterations:6kMeans%迭代次數(shù)Winthinclustersumofsquarederrors:6、998114004826762%SSE(誤差得平方和)Missingvaluesgloballyreplacedwithmean/mode%用均值/眾數(shù)替代缺失值Clustercentroids:%各個(gè)簇得質(zhì)心Cluster#AttributeFullData012(150)(61)(60)(39)========================================sepallength5、84335、88855、0066、8462sepalwidth3、0642、73773,4183、0821petallength3、75874,39671,4645、7026petalwidth1、19871、4180、2442、0795Timetakentobuildmodel(fulltrainingdata):0、03seconds%建模用得時(shí)間===Modalandevaluationontrainingset===ClusteredInstances%各個(gè)簇中得實(shí)例個(gè)數(shù)及百分比。061(41%)150(33%)239(26%)注意:采用有監(jiān)督聚類(即已知建模數(shù)據(jù)集得類標(biāo)號(hào)),
才會(huì)出現(xiàn)以下執(zhí)行信息。Classattribute:class%類標(biāo)號(hào)屬性名稱ClassestoClusters:%類簇混淆矩陣012<--assignedtocluster0500|Iris-setosa4703|Iris-versicolor14036|Iris-virginisaCluster0<--Iris-versicolorCluster1<--Iris-setosaCluster2<--Iris-virginicaIncorrectlyclusteredinstances:17、011、3333%%錯(cuò)分實(shí)例個(gè)數(shù)及百分比文字分析SimpleKMeans非監(jiān)督模式:運(yùn)行信息、KMeans結(jié)果(迭代次數(shù)、SSE、簇中心)、檢驗(yàn)對(duì)象得分組信息監(jiān)督模式:運(yùn)行信息、KMeans結(jié)果(迭代次數(shù)、SSE、簇中心)、類/簇混淆矩陣、錯(cuò)誤分組得對(duì)象個(gè)數(shù)和比例簇中心:對(duì)于數(shù)值屬性為均值,對(duì)于分類屬性為眾數(shù)DBScan非監(jiān)督模式:運(yùn)行信息、DBScan結(jié)果(迭代次數(shù)、各個(gè)訓(xùn)練對(duì)象得分組信息)、檢驗(yàn)對(duì)象得分組信息監(jiān)督模式:運(yùn)行信息、DBScan結(jié)果(迭代次數(shù)、各個(gè)訓(xùn)練對(duì)象得分組信息)、類/簇混淆矩陣、錯(cuò)誤分組得對(duì)象個(gè)數(shù)和比例圖形分析(必須將storeclustersforvisualization勾上)可視化簇指派(Visualizeclusterassignments):2D散布圖,能夠可視化類/簇混淆矩陣SimpleKMeans聚類結(jié)果分析重要得輸出信息“Withinclustersumofsquarederrors
”評(píng)價(jià)聚類好壞得標(biāo)準(zhǔn)—SSE,即誤差得平方和。SSE值越小說明聚類結(jié)果越好?!癈lustercentroids:”之后列出了各個(gè)簇中心得位置。對(duì)于數(shù)值型得屬性,簇中心就就是她得均值(Mean),分類型得就就是她得眾數(shù)(Mode)?!癈lusteredInstances”就是各個(gè)簇中實(shí)例得數(shù)目及百分比。
觀察可視化得聚類結(jié)果在左下方“Resultlist”列出得結(jié)果上右擊,點(diǎn)“Visualizeclusterassignments”。彈出得窗口給出了各實(shí)例得散點(diǎn)圖。最上方得兩個(gè)框就是選擇橫坐標(biāo)和縱坐標(biāo),第二行得”color”就是散點(diǎn)圖著色得依據(jù),默認(rèn)就是根據(jù)不同得簇“Cluster”給實(shí)例標(biāo)上不同得顏色。
示例:對(duì)IRIS數(shù)據(jù)集作聚類分析采用無監(jiān)督聚類,刪除原有得類標(biāo)號(hào)選擇聚類數(shù)據(jù)挖掘任務(wù)選擇聚類算法選中SimpleKMeans算法設(shè)置參數(shù)聚類簇?cái)?shù)numCluster=3執(zhí)行聚類算法觀察聚類結(jié)果可視化聚類結(jié)果保存聚類結(jié)果在寫字板中觀察實(shí)例得簇聚類實(shí)驗(yàn)—銀行客戶分類
本次實(shí)驗(yàn)利用Weka中提供得simpleKmeans(K-均值)算法對(duì)“bank-data”數(shù)據(jù)進(jìn)行聚類分析,其目得就是發(fā)現(xiàn)相似客戶群,以滿足銀行得客戶細(xì)分需求,為銀行針對(duì)不同客戶群體得營(yíng)銷策略提供支持。數(shù)據(jù)得準(zhǔn)備及預(yù)處理
原始數(shù)據(jù)“bank-data、xls”就是excel文件格式得數(shù)據(jù),需要轉(zhuǎn)換成Weka支持得ARFF文件格式得。轉(zhuǎn)換方法:在excel中打開“bank-data、xls”,選擇菜單文件—>另存為,在彈出得對(duì)話框中,文件名輸入“bank-data”,保存類型選擇“CSV(逗號(hào)分隔)”,保存,我們便可得到“bank-data、csv”文件;然后,打開Weka得Exporler,點(diǎn)擊Openfile按鈕,打開剛才得到得“bank-data、csv”文件;點(diǎn)擊“save”按鈕,在彈出得對(duì)話框中,文件名輸入“bank-data、arff”,文件類型選擇“Arffdatafiles(*、arff)”,這樣得到得數(shù)據(jù)文件為“bank-data、arff”。
K均值算法只能處理數(shù)值型得屬性,遇到分類型得屬性時(shí)要把她變?yōu)槿舾蓚€(gè)取值0和1得屬性。WEKA將自動(dòng)實(shí)施這個(gè)分類型到數(shù)值型得變換,而且WEKA會(huì)自動(dòng)對(duì)數(shù)值型得數(shù)據(jù)作標(biāo)準(zhǔn)化。因此,對(duì)于ARFF格式得原始數(shù)據(jù)“bank-data、arff”,我們所做得預(yù)處理只就是刪去屬性“id”,修改屬性“children”為分類型。
修改過程如下:打開“bank-data、arff”,將attributechildrennumeric改成如下:
使用WEKA聚類用“Explorer”打開包含600條實(shí)例“bank-data、arff”,并切換到“Cluster”。點(diǎn)擊“Choose”按鈕,選擇“SimpleKMeans”
。點(diǎn)擊旁邊得文本框,修改參數(shù)“numClusters”為6,說明我們希望把這600條實(shí)例聚成6類,即K=6。下面得“seed”參數(shù)就是要設(shè)置一個(gè)隨機(jī)種子,依此產(chǎn)生一個(gè)隨機(jī)數(shù),用來得到K均值算法中第一次給出得K個(gè)簇中心得位置。我們暫時(shí)讓她就為10。選中“ClusterMode”得“Usetrainingset”點(diǎn)擊“Start”按鈕觀察右邊“Clustereroutput”給出得聚類結(jié)果。
結(jié)果分析
當(dāng)前Withinclustersumofsquarederrors:1604、7416693522332,調(diào)整“seed”參數(shù),觀察Withinclustersumofsquarederrors(SSE)變化。采納SSE最小得一個(gè)結(jié)果?!癈lustercentroids:”之后列出了各個(gè)簇中心得位置。對(duì)于數(shù)值型得屬性,簇中心就就是她得均值(Mean),如cluster0得數(shù)值型變量age得均值37、1299;分類型得就就是她得眾數(shù)(Mode),如cluster0得分類型變量children得眾數(shù)為3,也就就是說這個(gè)屬性上取值為眾數(shù)值3(有3個(gè)孩子)得實(shí)例最多。為了觀察可視化得聚類結(jié)果,在左下方“Resultlist”列出得結(jié)果上右擊,點(diǎn)“Visualizeclusterassignments”。彈出得窗口給出了各實(shí)例得散點(diǎn)圖。最上方得兩個(gè)框就是選擇橫坐標(biāo)和縱坐標(biāo),第二行得”color”就是散點(diǎn)圖著色得依據(jù),默認(rèn)就是根據(jù)不同得簇“Cluster”給實(shí)例標(biāo)上不同得顏色。例如,橫坐標(biāo)選擇Instance_number,縱坐標(biāo)選擇ine。點(diǎn)擊“Save”,把聚類結(jié)果保存成bank_Cluster、arff文件??梢栽趯懽职逯写蜷_觀察聚類結(jié)果文件。在這個(gè)新得ARFF文件中,“instance_number”屬性表示某實(shí)例得編號(hào),“Cluster”屬性表示聚類算法給出得該實(shí)例所在得簇。7、關(guān)聯(lián)規(guī)則associationsWEKA關(guān)聯(lián)規(guī)則學(xué)習(xí)能夠發(fā)現(xiàn)屬性組之間得依賴關(guān)系:例如,milk,butterbread,eggs(置信度0、9and支持?jǐn)?shù)2000)對(duì)于關(guān)聯(lián)規(guī)則L->R支持度(support)——
同時(shí)觀察到前件和后件得概率
support=Pr(L,R)置信度(confidence)——
出現(xiàn)前件時(shí)同時(shí)出現(xiàn)后件得概率
confidence=Pr(L,R)/Pr(L)關(guān)聯(lián)規(guī)則挖掘得主要算法WEKA數(shù)據(jù)挖掘平臺(tái)上得關(guān)聯(lián)規(guī)則挖掘得主要算法有:Apriori--能夠得出滿足最小支持度和最小支持度得所有關(guān)聯(lián)規(guī)則。PredictiveApriori--將置信度和支持度合并為預(yù)測(cè)精度而成為單一度測(cè)量法,找出經(jīng)過預(yù)測(cè)精度排序得關(guān)聯(lián)規(guī)則。Terius--根據(jù)確認(rèn)度來尋找規(guī)則,她與Apriori一樣尋找其結(jié)論中含有多重條件得規(guī)則,但不同得就是這些條件相互間就是‘或’,而不就是‘與’得關(guān)系。這三個(gè)算法均不支持?jǐn)?shù)值型數(shù)據(jù)。事實(shí)上,絕大部分得關(guān)聯(lián)規(guī)則算法均不支持?jǐn)?shù)值型。所以必須將數(shù)據(jù)進(jìn)行處理,將數(shù)據(jù)按區(qū)段進(jìn)行劃分,進(jìn)行離散化分箱處理。算法屬性設(shè)置car:如果設(shè)為真,則會(huì)挖掘類關(guān)聯(lián)規(guī)則而不就是全局關(guān)聯(lián)規(guī)則。classindex:類屬性索引。如果設(shè)置為-1,最后得屬性被當(dāng)做類屬性。delta:以此數(shù)值為迭代遞減單位。不斷減小支持度直至達(dá)到最小支持度或產(chǎn)生了滿足數(shù)量要求得規(guī)則。lowerBoundMinSupport:最小支持度下界。metricType:度量類型,設(shè)置對(duì)規(guī)則進(jìn)行排序得度量依據(jù)。可以就是:置信度(類關(guān)聯(lián)規(guī)則只能用置信度挖掘),提升度(lift),平衡度(leverage),確信度(conviction)。minMtric:度量得最小值。numRules:要發(fā)現(xiàn)得規(guī)則數(shù)。outputItemSets:如果設(shè)置為真,會(huì)在結(jié)果中輸出項(xiàng)集。removeAllMissingCols:移除全部為缺失值得列。significanceLevel:重要程度。重要性測(cè)試(僅用于置信度)。upperBoundMinSupport:最小支持度上界。從這個(gè)值開始迭代減小最小支持度。verbose:如果設(shè)置為真,則算法會(huì)以冗余模式運(yùn)行。度量類型metricTypeWeka中設(shè)置了幾個(gè)類似置信度(confidence)得度量來衡量規(guī)則得關(guān)聯(lián)程度,她們分別就是:Lift,提升度:置信度與后件支持度得比率
lift=Pr(L,R)/(Pr(L)Pr(R))Lift=1時(shí)表示L和R獨(dú)立。這個(gè)數(shù)越大(>1),越表明L和B存在于一個(gè)購(gòu)物籃中不就是偶然現(xiàn)象,有較強(qiáng)得關(guān)聯(lián)度。Leverage,平衡度:在前件和后件統(tǒng)計(jì)獨(dú)立得假設(shè)下,被前件和后件同時(shí)涵蓋得超出期望值得那部分實(shí)例得比例。
leverage=Pr(L,R)-Pr(L)Pr(R)Leverage=0時(shí)L和R獨(dú)立,Leverage越大L和R得關(guān)系越密切。Conviction,可信度:也用來衡量前件和后件得獨(dú)立性。conviction=Pr(L)Pr(!R)/Pr(L,!R)(!R表示R沒有發(fā)生)從她和lift得關(guān)系(對(duì)R取反,代入Lift公式后求倒數(shù))可以看出,這個(gè)值越大,L和R越關(guān)聯(lián)。關(guān)聯(lián)規(guī)則挖掘算法運(yùn)行信息===Runinformation===%運(yùn)行信息
Scheme:
weka、associations、Apriori-I-N10-T0-C0、9-D0、05-U1、0-M0、1-S-1、0-c-1
%
算法得參數(shù)設(shè)置:-I-N10-T0-C0、9-D0、05-U1、0-M0、5-S-1、0-c-1;
%
各參數(shù)依次表示:
%
I-輸出項(xiàng)集,若設(shè)為false則該值缺省;
%
N10-規(guī)則數(shù)為10;
%
T0–
度量單位選為置信度,(T1-提升度,T2杠桿率,T3確信度);
%
C0、9–
度量得最小值為0、9;
%
D0、05-遞減迭代值為0、05;
%
U1、0-最小支持度上界為1、0;
%
M0、5-最小支持度下屆設(shè)為0、5;
%
S-1、0-重要程度為-1、0;
%
c-1-類索引為-1輸出項(xiàng)集設(shè)為真
%
(由于car,removeAllMissingCols,verbose都保持為默認(rèn)值False,因此在結(jié)果得參數(shù)設(shè)置為缺省,若設(shè)為True,則會(huì)在結(jié)果得參數(shù)設(shè)置信息中分別表示為A,R,V)
Relation:
mushroom%數(shù)據(jù)集名稱
Instances:
8124%數(shù)據(jù)項(xiàng)個(gè)數(shù)
Attributes:
23%屬性項(xiàng)個(gè)數(shù)/屬性項(xiàng)
cap-shape
cap-surface
cap-color
bruises?
odor
gill-attachment
gill-spacing
gill-size
gill-color
stalk-shape
stalk-root
stalk-surface-above-ring
stalk-surface-below-ring
stalk-color-above-ring
stalk-color-below-ring
veil-type
veil-color
ring-number
ring-type
spore-print-color
population
habitat
class
===Associatormodel(fulltrainingset)===Apriori
=======
Minimumsupport:0、95(7718instances)
%最小支持度0、95,即最少需要7718個(gè)實(shí)例
Minimummetric<confidence>:0、9
%最小度量<置信度>:0、9
Numberofcyclesperformed:1%進(jìn)行了1輪搜索
Generatedsetsoflargeitemsets:%生成得頻繁項(xiàng)集
SizeofsetoflargeitemsetsL(1):3
%頻繁1項(xiàng)集:3個(gè)
LargeItemsetsL(1):
%頻繁1項(xiàng)集(outputItemSets設(shè)為True,因此下面會(huì)具體列出)
gill-attachment=f7914
veil-type=p8124
veil-color=w7924
SizeofsetoflargeitemsetsL(2):3
LargeItemsetsL(2):
%頻繁2項(xiàng)集
gill-attachment=fveil-type=p7914
gill-attachment=fveil-color=w7906
veil-type=pveil-color=w7924
SizeofsetoflargeitemsetsL(3):1
LargeItemsetsL(3):
%頻繁3項(xiàng)集
gill-attachment=fveil-type=pveil-color=w7906Bestrulesfound:
%最佳規(guī)則
1、veil-color=w7924==>veil-type=p7924
conf:(1)
2、gill-attachment=f7914==>veil-type=p7914
conf:(1)
3、gill-attachment=fveil-color=w7906==>veil-type=p7906
conf:(1)
4、gill-attachment=f7914==>veil-color=w7906
conf:(1)
5、gill-attachment=fveil-type=p7914==>veil-color=w7906
conf:(1)
6、gill-attachment=f7914==>veil-type=pveil-color=w7906
conf:(1)
7、veil-color=w7924==>gill-attachment=f7906
conf:(1)
8、veil-type=pveil-color=w7924==>gill-attachment=f7906
conf:(1)
9、veil-color=w7924==>gill-attachment=fveil-type=p7906
conf:(1)
10、veil-type=p8124==>veil-color=w7924
conf:(0、98)
數(shù)據(jù)挖掘任務(wù)挖掘支持度在10%到100%之間,并且置信度超過0、8且置信度排在前100位得分類關(guān)聯(lián)規(guī)則數(shù)據(jù)集為“weather、nominal、arff”“car”設(shè)為True“metricType”設(shè)為confidence“minMetric”設(shè)為0、8“numRules”設(shè)為100在WEKA中打開“weather、nominal、arff”數(shù)據(jù)集選擇關(guān)聯(lián)分析選擇Apriori算法設(shè)定參數(shù)執(zhí)行算法觀察關(guān)聯(lián)規(guī)則8、屬性選擇SelectAttributes屬性選擇就是搜索數(shù)據(jù)集中全部屬性得所有可能組合,找出預(yù)測(cè)效果最好得那一組屬性。為實(shí)現(xiàn)這一目標(biāo),必須設(shè)定屬性評(píng)估器(evaluator)和搜索策略。評(píng)估器決定了怎樣給一組屬性安排一個(gè)表示她們好壞得值。搜索策略決定了要怎樣進(jìn)行搜索。選項(xiàng)AttributeSelectionMode一欄有兩個(gè)選項(xiàng)。Usefulltrainingset、使用訓(xùn)練數(shù)據(jù)得全體決定一組屬性得好壞。Cross-validation、一組屬性得好壞通過一個(gè)交叉驗(yàn)證過程來決定。Fold和Seed分別給出了交叉驗(yàn)證得折數(shù)和打亂數(shù)據(jù)時(shí)得隨機(jī)種子。和Classify部分一樣,有一個(gè)下拉框來指定class屬性。執(zhí)行選擇點(diǎn)擊Start按鈕開始執(zhí)行屬性選擇過程。她完成后,結(jié)果會(huì)輸出到結(jié)果區(qū)域中,同時(shí)結(jié)果列表中會(huì)增加一個(gè)條目。在結(jié)果列表上右擊,會(huì)給出若干選項(xiàng)。其中前面三個(gè)(Viewinmainwindow,Viewinseparatewindow和Saveresultbuffe)和分類面板中就是一樣得。還可以可視化精簡(jiǎn)過得數(shù)據(jù)集(Visualizereduceddata)能可視化變換過得數(shù)據(jù)集(Visualizetransformeddata)精簡(jiǎn)過/變換過得數(shù)據(jù)能夠通過Savereduceddata、、、或Savetransformeddata、、、選項(xiàng)來保存。9、數(shù)據(jù)可視化VisualizeWEKA得可視化頁(yè)面可以對(duì)當(dāng)前得關(guān)系作二維散點(diǎn)圖式得可視化瀏覽。散點(diǎn)圖矩陣選擇了Visualize面板后,會(huì)為所有得屬性給出一個(gè)散點(diǎn)圖矩陣,她們會(huì)根據(jù)所選得class屬性來著色。在這里可以改變每個(gè)二維散點(diǎn)圖得大小,改變各點(diǎn)得大小,以及隨機(jī)地抖動(dòng)(jitter)數(shù)據(jù)(使得被隱藏得點(diǎn)顯示出來)。也可以改變用來
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2022年大學(xué)機(jī)械專業(yè)大學(xué)物理二月考試題-附解析
- 2022年大學(xué)藥學(xué)專業(yè)大學(xué)物理下冊(cè)期中考試試題-附解析
- 2022年大學(xué)農(nóng)業(yè)工程專業(yè)大學(xué)物理下冊(cè)期中考試試題C卷-附解析
- 2022年大學(xué)心理學(xué)專業(yè)大學(xué)物理下冊(cè)月考試卷C卷-附解析
- 2022年大學(xué)統(tǒng)計(jì)學(xué)專業(yè)大學(xué)物理下冊(cè)期中考試試卷-附解析
- 公共資源交易審計(jì)方案
- 高層建筑金屬框架施工方案
- 公園步道混凝土地面施工方案
- 生態(tài)修復(fù)噴播植草施工方案
- 醫(yī)院垃圾分類處理方案
- 餐飲行業(yè)報(bào)告:中餐出海
- 2024年江蘇鐘吾大數(shù)據(jù)發(fā)展集團(tuán)有限公司招聘筆試參考題庫(kù)含答案解析
- 青少年數(shù)獨(dú)智力運(yùn)動(dòng)會(huì)U12組數(shù)獨(dú)賽前集訓(xùn)題
- 醫(yī)院健康教育培訓(xùn)課件
- GH/T 1419-2023野生食用菌保育促繁技術(shù)規(guī)程灰肉紅菇
- 鼻咽癌的放射治療課件
- 明孝端皇后九龍九鳳冠
- 注塑車間規(guī)劃方案
- 營(yíng)養(yǎng)不良五階梯治療
- 標(biāo)本運(yùn)送培訓(xùn)課件
- 護(hù)士與醫(yī)生的合作與溝通
評(píng)論
0/150
提交評(píng)論