數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘?qū)嶒?yàn)指導(dǎo).doc_第1頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘?qū)嶒?yàn)指導(dǎo).doc_第2頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘?qū)嶒?yàn)指導(dǎo).doc_第3頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘?qū)嶒?yàn)指導(dǎo).doc_第4頁(yè)
數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘?qū)嶒?yàn)指導(dǎo).doc_第5頁(yè)
已閱讀5頁(yè),還剩13頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘課程實(shí)驗(yàn)本實(shí)驗(yàn)是數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘課程的驗(yàn)證性實(shí)驗(yàn)環(huán)節(jié)。課程共計(jì)8學(xué)時(shí)。實(shí)驗(yàn)?zāi)繕?biāo):1、掌握建立和配置數(shù)據(jù)倉(cāng)庫(kù)的基本操作技能。主要包括數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的安裝。2、掌握數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的處理技術(shù)。主要包括數(shù)據(jù)倉(cāng)庫(kù)的建模、事務(wù)數(shù)據(jù)的轉(zhuǎn)換、備份數(shù)據(jù)的恢復(fù)。3、掌握基于數(shù)據(jù)倉(cāng)庫(kù)的自動(dòng)數(shù)據(jù)分析技術(shù)的基本操作技能。包括多維數(shù)據(jù)分析和數(shù)據(jù)挖掘。4、掌握一種專用數(shù)據(jù)挖掘軟件,用以分析處理文本或電子表格的數(shù)據(jù)。實(shí)驗(yàn)環(huán)境:l Microsoft SQLServer2000l Microsoft SQLServer2000 Analysis Servcel DBMiner2.0l Microsoft SQLServer2000 PACK4l JAVA運(yùn)行時(shí)環(huán)境:JRE5.0l WEKA3.55實(shí)驗(yàn)項(xiàng)目:l實(shí)驗(yàn)1:安裝數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)平臺(tái) 1.5學(xué)時(shí)l實(shí)驗(yàn)2:構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)環(huán)境 1.5學(xué)時(shí)l實(shí)驗(yàn)3:多維數(shù)據(jù)分析 1.5學(xué)時(shí)l實(shí)驗(yàn)4:基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘?qū)嶒?yàn) 2.0學(xué)時(shí)l實(shí)驗(yàn)5:數(shù)據(jù)挖掘平臺(tái)應(yīng)用實(shí)驗(yàn) 1.5學(xué)時(shí)實(shí)驗(yàn)1:安裝數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)平臺(tái)l實(shí)驗(yàn)任務(wù):1.掌握Microsoft Server2000 數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的安裝與配置2.安裝實(shí)驗(yàn)分析環(huán)境:1安裝Microsoft Server2000 analysis Service2安裝DBMiner2.03 安裝Java運(yùn)行時(shí)環(huán)境JRE5.04安裝WEKAl實(shí)驗(yàn)準(zhǔn)備:請(qǐng)從黑板或網(wǎng)上獲取安裝文件所在的網(wǎng)絡(luò)地址。并記在下面:網(wǎng)絡(luò)資料的地址是:_本實(shí)驗(yàn)不得超過(guò)1.5學(xué)時(shí)。l實(shí)驗(yàn)指導(dǎo):Lab1.1檢查并安裝Microsoft Server2000單元目標(biāo):確保完整正確的數(shù)據(jù)倉(cāng)庫(kù)實(shí)驗(yàn)環(huán)境工作步驟:1.檢查你所使用的電腦上是否有Microsoft Server2000。如果有,啟動(dòng)并檢查Microsoft Server2000 是否安裝了Server Pack3以上的補(bǔ)丁文件。2.如果以上都沒問(wèn)題,則本實(shí)驗(yàn)結(jié)束。3.下載相應(yīng)的系統(tǒng)文件安裝。先安裝Microsoft Server2000,再安裝Server Pack3或Server Pack4。Lab1.2檢查并安裝數(shù)據(jù)分析環(huán)境單元目標(biāo):確保安裝了相應(yīng)的數(shù)據(jù)分析軟件工作步驟:1.檢查你所使用的電腦是否安裝了Microsoft Server2000 analysisService,DBMiner2.0, JRE5.0, WEKA3.5.5。如果都已安裝且能正常運(yùn)行,則本實(shí)驗(yàn)結(jié)束。否則進(jìn)入以下步驟。2.如果沒有安裝以上軟件。請(qǐng)按以下次序從網(wǎng)絡(luò)資料地址上下載軟件完成安裝。完成Lab1.1 和Lab1,2后,本實(shí)驗(yàn)結(jié)束。實(shí)驗(yàn)2:構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)環(huán)境l實(shí)驗(yàn)任務(wù):本實(shí)驗(yàn)主要驗(yàn)證ETL的數(shù)據(jù)處理過(guò)程。主要實(shí)驗(yàn)任務(wù)有:1.構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)模型,并在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中生成相應(yīng)的數(shù)據(jù)表。2.將事務(wù)數(shù)據(jù)庫(kù)中的數(shù)據(jù)轉(zhuǎn)入數(shù)據(jù)倉(cāng)庫(kù)中。3.還原備份和還原的數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)。l實(shí)驗(yàn)準(zhǔn)備:請(qǐng)從黑板或網(wǎng)上獲取數(shù)據(jù)文件所在的網(wǎng)絡(luò)地址。并記在下面:數(shù)據(jù)文件的地址是:_ 本實(shí)驗(yàn)不得超過(guò)1.5學(xué)時(shí)。本實(shí)驗(yàn)將使用Microsoft SQLserver的示例數(shù)據(jù)庫(kù):Northwind,這是一個(gè)商貿(mào)公司的銷售數(shù)據(jù)庫(kù)。我們將這個(gè)事務(wù)型的數(shù)據(jù)導(dǎo)入到分析型的數(shù)據(jù)倉(cāng)庫(kù)中去。l實(shí)驗(yàn)指導(dǎo):Lab2.1用caseStudio2.15 建立數(shù)據(jù)倉(cāng)庫(kù)的星型模型單元目標(biāo):建立Northwind_DW的數(shù)據(jù)倉(cāng)庫(kù)模型。如下圖所示。并根據(jù)該模型生成相應(yīng)的數(shù)據(jù)倉(cāng)庫(kù)的維表和事實(shí)表的結(jié)構(gòu)。工作步驟:1. 按下圖樣式建立Northwind_DW的昨型數(shù)據(jù)模型,請(qǐng)根據(jù)原事務(wù)數(shù)據(jù)庫(kù)中相應(yīng)字段的數(shù)據(jù)類型和寬度,對(duì)應(yīng)地設(shè)計(jì)相應(yīng)字段的數(shù)據(jù)類型和寬度。 2. 安裝并啟動(dòng)CaseStudio2.15,設(shè)計(jì)以上模型。3. 運(yùn)行生成腳本(Generate script生成相應(yīng)的SQL代碼。Lab2.2將事務(wù)型數(shù)據(jù)加載到分析數(shù)據(jù)環(huán)境中單元目標(biāo):根據(jù)以上實(shí)驗(yàn)單元建立的數(shù)據(jù)模型,在MicrosoftSQL2000中建立相應(yīng)的物理數(shù)據(jù)倉(cāng)庫(kù)。工作步驟:1. 請(qǐng)從教師課件中“數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘”目錄下的Lab2008中下載文檔“多維數(shù)據(jù)分析操作演練.pdf ”2. 用Adobe reader打開該文檔。3. 在數(shù)據(jù)倉(cāng)庫(kù)創(chuàng)建部分,可以使用Lab2.1中的模型進(jìn)行創(chuàng)建和轉(zhuǎn)化。4. 按照上面所列步驟進(jìn)行操作。最終完成事實(shí)表和維表的數(shù)據(jù)轉(zhuǎn)移。Lab2.3數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的備份與恢復(fù)單元目標(biāo):1.將已生成的數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)進(jìn)行備份。2.利用備份文件向新的數(shù)據(jù)庫(kù)中還原數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)。工作步驟:1、備份打開Sqlserver企業(yè)管理器,在需要備份的數(shù)據(jù)庫(kù)上點(diǎn)鼠標(biāo)右鍵,所有任務(wù)中選備份數(shù)據(jù)庫(kù)。再?gòu)腟qlserver安裝目錄中的Data目錄下,拷貝出要備份的數(shù)據(jù)庫(kù)文件*.mdf,*.ldf,并備份這兩個(gè)文件2、還原將要還原的數(shù)據(jù)庫(kù)文件*.mdf,*.ldf拷貝到Sqlserver安裝目錄下的Data目錄下。打開Sqlserver企業(yè)管理器,新建一個(gè)數(shù)據(jù)庫(kù),在數(shù)據(jù)庫(kù)這一項(xiàng)上點(diǎn)鼠標(biāo)右鍵,在所有任務(wù)中選導(dǎo)入數(shù)據(jù)庫(kù),以拷貝到Data目錄下的mdf恢復(fù)數(shù)據(jù)庫(kù)。還原過(guò)程中,如果有什么異常,請(qǐng)參考“數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)上機(jī)”目錄下的“數(shù)據(jù)倉(cāng)庫(kù)實(shí)習(xí)指導(dǎo).pdf”中的還原部分的內(nèi)容。實(shí)驗(yàn)3:多維數(shù)據(jù)分析l實(shí)驗(yàn)任務(wù):本實(shí)驗(yàn)主要驗(yàn)證OLAP多維分析的過(guò)程。主要包括完成OLAP數(shù)據(jù)庫(kù)的創(chuàng)建,多維數(shù)據(jù)集的創(chuàng)建。存儲(chǔ)和處理多維數(shù)據(jù),瀏覽多維數(shù)據(jù)集等實(shí)驗(yàn)任務(wù)。l實(shí)驗(yàn)準(zhǔn)備:本實(shí)驗(yàn)使用的操作參考為L(zhǎng)ab2.2中下載的文檔,“多維數(shù)據(jù)分析操作演練.pdf ”。本實(shí)驗(yàn)不得超過(guò)1.5學(xué)時(shí)。l實(shí)驗(yàn)指導(dǎo):Lab3.1多維數(shù)據(jù)分析實(shí)驗(yàn)單元目標(biāo):1.掌握Microsoft analysis Service的中對(duì)OALP數(shù)據(jù)庫(kù)的操作步驟2.在使用過(guò)程中熟悉和理解相應(yīng)的概念。工作步驟:1.在“多維數(shù)據(jù)分析操作演練.pdf ”中從P85開始進(jìn)行相應(yīng)的操作演練。2.在實(shí)驗(yàn)過(guò)程中,如果對(duì)相應(yīng)的操作還不是很理解,請(qǐng)?jiān)凇睌?shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)上機(jī)”目錄下有“Sqlserver數(shù)據(jù)分析.rar ”文檔,解壓后,有詳細(xì)的幫助和演練信息。實(shí)驗(yàn)4:基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘?qū)嶒?yàn)l實(shí)驗(yàn)任務(wù):1.基于Microsoft SQLserver2000 Analyses Service的數(shù)據(jù)挖掘模型對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行決策樹分析和聚類分析;2.使用DBMiner2.0對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行聚類、關(guān)聯(lián)分析;3.使用DBMiner2.0對(duì)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)分析進(jìn)行可視化。l實(shí)驗(yàn)準(zhǔn)備:本實(shí)驗(yàn)的實(shí)驗(yàn)指導(dǎo)參考資料在網(wǎng)上,請(qǐng)下載參考。本實(shí)驗(yàn)不得超過(guò)1.5學(xué)時(shí)。l實(shí)驗(yàn)指導(dǎo):Lab4.1 基于Microsoft SQLserver2000 Analyses Service的數(shù)據(jù)挖掘單元目標(biāo):掌握Microsoft SQLserver2000 Analyses Service的數(shù)據(jù)挖掘模型的使用步驟工作步驟:請(qǐng)?jiān)凇睌?shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)上機(jī)”目錄下有“Sqlserver數(shù)據(jù)分析.rar ”文檔,解壓后,按下圖所指,完成“數(shù)據(jù)挖掘”的演練。 Lab4.2 基于DBMiner2.0的數(shù)據(jù)挖掘(選做單元目標(biāo):掌握DBminer2.0對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行可視化分類、聚類、關(guān)聯(lián)分析由于時(shí)間有限,指導(dǎo)教師將進(jìn)行一些現(xiàn)場(chǎng)的演練指導(dǎo)。工作步驟:1. 在”數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)Lab2008”目錄下下載相應(yīng)的操作手冊(cè)“DBMinerManual.pdf ”文檔,閱讀第一、二章。2. 對(duì)多維數(shù)據(jù)集進(jìn)行可視化分析。(chapter 43. 對(duì)多維數(shù)據(jù)集進(jìn)行關(guān)聯(lián)分析。(chapter 64. 對(duì)多維數(shù)據(jù)集進(jìn)行分類挖掘。(chapter 75. 對(duì)多維數(shù)據(jù)集進(jìn)行聚類分析。(chapter 8實(shí)驗(yàn)5:數(shù)據(jù)挖掘平臺(tái)應(yīng)用實(shí)驗(yàn)l實(shí)驗(yàn)任務(wù):1.熟悉WEKA數(shù)據(jù)挖掘平臺(tái)的基本功能。2.能夠?qū)Υ嬗谖谋净螂娮颖砀裰械臄?shù)據(jù)進(jìn)行數(shù)據(jù)挖掘分析3.本實(shí)驗(yàn)為選做,對(duì)畢業(yè)論文分析數(shù)據(jù)有利用價(jià)值。l實(shí)驗(yàn)準(zhǔn)備:1.下載Java運(yùn)行時(shí)環(huán)境JRE1.5。2.下載WEKA并安裝運(yùn)行3. 在”數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)Lab2008”目錄下下載“WEKA中文使用手冊(cè).pdf”,有較詳細(xì)的使用說(shuō)明4.所需要的數(shù)據(jù)存放在“數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)Lab2008WEKA_DATA”下。l實(shí)驗(yàn)指導(dǎo):Lab5.1用WEKA進(jìn)行決策樹分析單元目標(biāo):掌握WEKA進(jìn)行決策樹分析的步驟。工作步驟:WEKA把分類(Classification和回歸(Regression都放在“Classify”選項(xiàng)卡中,這是有原因的。在這兩個(gè)任務(wù)中,都有一個(gè)目標(biāo)屬性(輸出變量。我們希望根據(jù)一個(gè)樣本(WEKA中稱作實(shí)例的一組特征(輸入變量,對(duì)目標(biāo)進(jìn)行預(yù)測(cè)。為了實(shí)現(xiàn)這一目的,我們需要有一個(gè)訓(xùn)練數(shù)據(jù)集,這個(gè)數(shù)據(jù)集中每個(gè)實(shí)例的輸入和輸出都是已知的。觀察訓(xùn)練集中的實(shí)例,可以建立起預(yù)測(cè)的模型。有了這個(gè)模型,我們就可以新的輸出未知的實(shí)例進(jìn)行預(yù)測(cè)了。衡量模型的好壞就在于預(yù)測(cè)的準(zhǔn)確程度。在WEKA中,待預(yù)測(cè)的目標(biāo)(輸出被稱作Class屬性,這應(yīng)該是來(lái)自分類任務(wù)的“類”。一般的,若Class屬性是分類型時(shí)我們的任務(wù)才叫分類,Class屬性是數(shù)值型時(shí)我們的任務(wù)叫回歸。選擇算法我們使用C4.5決策樹算法對(duì)bank-data建立起分類模型。我們來(lái)看原來(lái)的“bank-data.csv”文件?!癐D”屬性肯定是不需要的。由于C4.5算法可以處理數(shù)值型的屬性,我們不用像前面用關(guān)聯(lián)規(guī)則那樣把每個(gè)變量都離散化成分類型。盡管如此,我們還是把“Children”屬性轉(zhuǎn)換成分類型的兩個(gè)值“YES”和“NO”。另外,我們的訓(xùn)練集僅取原來(lái)數(shù)據(jù)集實(shí)例的一半;而從另外一半中抽出若干條作為待預(yù)測(cè)的實(shí)例,它們的“pep”屬性都設(shè)為缺失值。經(jīng)過(guò)了這些處理的訓(xùn)練集數(shù)據(jù)在這里下載;待預(yù)測(cè)集數(shù)據(jù)在這里下載。我們用“Explorer”打開訓(xùn)練集“bank.arff”,觀察一下它是不是按照前面的要求處理好了。切換到“Classify”選項(xiàng)卡,點(diǎn)擊“Choose”按鈕后可以看到很多分類或者回歸的算法分門別類的列在一個(gè)樹型框里。3.5版的WEKA中,樹型框下方有一個(gè)“Filter.”按鈕,點(diǎn)擊可以根據(jù)數(shù)據(jù)集的特性過(guò)濾掉不合適的算法。我們數(shù)據(jù)集的輸入屬性中有“Binary”型(即只有兩個(gè)類的分類型和數(shù)值型的屬性,而Class變量是“Binary”的;于是我們勾選“Binary attributes”“Numeric attributes”和“Binary class”。點(diǎn)“OK”后回到樹形圖,可以發(fā)現(xiàn)一些算法名稱變紅了,說(shuō)明它們不能用。選擇“trees”下的“J48”,這就是我們需要的C4.5算法,還好它沒有變紅。點(diǎn)擊“Choose”右邊的文本框,彈出新窗口為該算法設(shè)置各種參數(shù)。點(diǎn)“More”查看參數(shù)說(shuō)明,點(diǎn)“Capabilities”是查看算法適用范圍。這里我們把參數(shù)保持默認(rèn)?,F(xiàn)在來(lái)看左中的“Test Option”。我們沒有專門設(shè)置檢驗(yàn)數(shù)據(jù)集,為了保證生成的模型的準(zhǔn)確性而不至于出現(xiàn)過(guò)擬合(overfitting的現(xiàn)象,我們有必要采用10折交叉驗(yàn)證(10-fold cross validation來(lái)選擇和評(píng)估模型。若不明白交叉驗(yàn)證的含義可以Google一下。建模結(jié)果OK,選上“Cross-validation”并在“Folds”框填上“10”。點(diǎn)“Start”按鈕開始讓算法生成決策樹模型。很快,用文本表示的一棵決策樹,以及對(duì)這個(gè)決策樹的誤差分析等等結(jié)果出現(xiàn)在右邊的“Classifier output”中。同時(shí)左下的“Results list”出現(xiàn)了一個(gè)項(xiàng)目顯示剛才的時(shí)間和算法名稱。如果換一個(gè)模型或者換個(gè)參數(shù),重新“Start”一次,則“Results list”又會(huì)多出一項(xiàng)。我們看到“J48”算法交叉驗(yàn)證的結(jié)果之一為Correctly Classified Instances 206 68.6667 % 也就是說(shuō)這個(gè)模型的準(zhǔn)確度只有69%左右。也許我們需要對(duì)原屬性進(jìn)行處理,或者修改算法的參數(shù)來(lái)提高準(zhǔn)確度。但這里我們不管它,繼續(xù)用這個(gè)模型。右鍵點(diǎn)擊“Results list”剛才出現(xiàn)的那一項(xiàng),彈出菜單中選擇“Visualize tree”,新窗口里可以看到圖形模式的決策樹。建議把這個(gè)新窗口最大化,然后點(diǎn)右鍵,選“Fit to screen”,可以把這個(gè)樹看清楚些??赐旰蠼貓D或者關(guān)掉。這里我們解釋一下“Confusion Matrix”的含義。= Confusion Matrix =a b R,我 們常用支持度(Support)和置信度(Confidence)來(lái)衡量它的重要性。規(guī)則的支 持度是用來(lái)估計(jì)在一個(gè)購(gòu)物籃中同時(shí)觀察到 L 和 R 的概率 P(L,R,而規(guī)則的置信 度是估計(jì)購(gòu)物欄中出現(xiàn)了 L 時(shí)也出會(huì)現(xiàn) R 的條件概率 P(R|L。關(guān)聯(lián)規(guī)則的目標(biāo)一 般是產(chǎn)生支持度和置信度都較高的規(guī)則。 有幾個(gè)類似的度量代替置信度來(lái)衡量規(guī)則的關(guān)聯(lián)程度,它們分別是 Lift(提升 度?) P(L,R/(P(LP(R Lift=1 時(shí)表示 L 和 R 獨(dú)立。這個(gè)數(shù)越大,越表明 L 和 : R 存 在 在 一 個(gè) 購(gòu) 物 籃 中 不 是 偶 然 現(xiàn) 象 。 Leverage ( 不 知 道 怎 么 翻 譯 ) : P(L,R-P(LP(R 它和 Lift 的含義差不多。Leverage=0 時(shí) L 和 R 獨(dú)立,Leverage 越大 L 和 R 的關(guān)系越密切。 Conviction (更不知道譯了) P(LP(!R/P(L,!R (!R : 表示 R 沒有發(fā)生) Conviction 也是用來(lái)衡量 L 和 R 的獨(dú)立性。從它和 lift 的關(guān)系 (對(duì) R 取反,代入 Lift 公式后求倒數(shù))可以看出,我們也希望這個(gè)值越大越好。 值得注意的是,用 Lift 和 Leverage 作標(biāo)準(zhǔn)時(shí),L 和 R 是對(duì)稱的,Confidence 和 Conviction 則不然。 參數(shù)設(shè)置 現(xiàn)在我們計(jì)劃挖掘出支持度在 10%到 100%之間, 并且 lift 值超過(guò) 1.5 且 lift 值排在前 100 位的那些關(guān)聯(lián)規(guī)則。 我們把“l(fā)owerBoundMinSupport”和“upperBoundMinSupport”分別設(shè)為 0.1 和 1, “metricType”設(shè)為 lift, “minMetric”設(shè)為 1.5, “numRules”設(shè)為 100。 其他選項(xiàng)保持默認(rèn)即可。 “OK” 之后在“Explorer”中點(diǎn)擊“Start”開始運(yùn)行算 法,在右邊窗口顯示數(shù)據(jù)集摘要和挖掘結(jié)果。 下面是挖掘出來(lái)的 lift 排前 5 的規(guī)則。 Best rules found: 1. age=52_max save_act=YES current_act=YES 113 = income=43759_max 61 conf:(0.54 lev:(0.0 45 conv:(1.85 2. income=43759_max 80 = age=52_max save_act=YES current_act=YES 61 conf:(0.76 lev:(0.0 45 conv:(3.25 3. income=43759_max current_act=YES 63 = age=52_max save_act=YES 61 conf:(0.97 lev:(0.0 45 conv:(15.72 4. age=52_max save_act=YES 151 = income=43759_max current_act=YES 61 conf:(0.4 lev:(0.0 45 conv:(1.49 5. age=52_max save_act=YES 151 = income=43759_max 76 conf:(0.5 lev:(0.09 55 conv:(1.72 對(duì)于挖掘出的每條規(guī)則,WEKA 列出了它們關(guān)聯(lián)程度的四項(xiàng)指標(biāo)。 命令行方式 我們也可以利用命令行來(lái)完成挖掘任務(wù),在“Simlpe CLI”模塊中輸入如下格式 的命令: java weka.associations.Apriori options -t directory-pathbank-data-final.arff 即可完成 Apriori 算法。 注意, “-t”參數(shù)后的文件路徑中不能含有空格。 在前面我們使用的 option 為 -N 100 -T 1 -C 1.5 -D 0.05 -U 1.0 -M 0.1 -S -1.0 命令行中使用這些參數(shù)得到的結(jié)果和前面利用 GUI 得到的一樣。 我們還可以加上 I” “- 參數(shù), 得到不同項(xiàng)數(shù)的頻繁項(xiàng)集。 我用的命令如下: java weka.associations.Apriori -N 100 -T 1 -C 1.5 -D 0.05 -U 1.0 -M 0.1 -S -1.0 -I -t d:wekabank-data-final.arff 挖掘結(jié)果在上方顯示。 Lab5.3 用 WEKA 進(jìn)行聚類分析 單元目標(biāo): 掌握 WEKA 進(jìn)行聚類分析的步驟。 工作步驟: 聚類分析中的 “類” (cluster) 和前面分類的 “類” (class) 是不同的, cluster 對(duì) 更加準(zhǔn)確的翻譯應(yīng)該是“簇” 。聚類的任務(wù)是把所有的實(shí)例分配到若干的簇,使得 同一個(gè)簇的實(shí)例聚集在一個(gè)簇中心的周圍,它們之間距離的比較近;而不同簇實(shí) 例之間的距離比較遠(yuǎn)。對(duì)于由數(shù)值型屬性刻畫的實(shí)例來(lái)說(shuō),這個(gè)距離通常指歐氏 距離。 現(xiàn)在我們對(duì)前面的 “bank data” 作聚類分析, 使用最常見的 K 均值 (K-means) 算法。下面我們簡(jiǎn)單描述一下 K 均值聚類的步驟。 K 均值算法首先隨機(jī)的指定 K 個(gè)簇中心。然后:1將每個(gè)實(shí)例分配到距它最近的簇中心,得到 K 個(gè)簇;2計(jì)分 別計(jì)算各簇中所有實(shí)例的均值,把它們作為各簇新的簇中心。重復(fù) 1和 2,直到 K 個(gè)簇中心的位置都固定,簇的分配也固定。 上述 K 均值算法只能處理數(shù)值型的 屬性,遇到分類型的屬性時(shí)要把它變?yōu)槿舾蓚€(gè)取值 0 和 1 的屬性。WEKA 將自動(dòng) 實(shí)施這個(gè)分類型到數(shù)值型的變換,而且 WEKA 會(huì)自動(dòng)對(duì)數(shù)值型的數(shù)據(jù)作標(biāo)準(zhǔn)化。 因此,對(duì)于原始數(shù)據(jù)“bank-data.csv” ,我們所做的預(yù)處理只是刪去屬性“id” , 保存為 ARFF 格式后,修改屬性“children”為分類型。這樣得到的數(shù)據(jù)文件為 “bank.arff” ,含 600 條實(shí)例。 用 “Explorer” 打開剛才得到的 “bank.arff” 并切換到 , “Cluster” 點(diǎn) 。 “Choose” 按鈕選擇“SimpleKMeans” ,這是 WEKA 中實(shí)現(xiàn) K 均值的算法。 點(diǎn)擊旁邊的文本框,修改“numClusters”為 6,說(shuō)明我們希望把這 600 條實(shí) 例聚成 6 類,即 K=6。下面的“seed”參數(shù)是要設(shè)置一個(gè)隨機(jī)種子,依此產(chǎn)生一 個(gè)隨機(jī)數(shù),用來(lái)得到 K 均值算法中第一次給出的 K 個(gè)簇中心的位置。我們不妨?xí)?時(shí)讓它就為 10。 選中“Cluster Mode”的“Use training set” ,點(diǎn)擊

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論