數(shù)據(jù)挖掘xxxxxxx_第1頁
數(shù)據(jù)挖掘xxxxxxx_第2頁
數(shù)據(jù)挖掘xxxxxxx_第3頁
數(shù)據(jù)挖掘xxxxxxx_第4頁
數(shù)據(jù)挖掘xxxxxxx_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、中南民族大學(xué)計算機科學(xué)學(xué)院數(shù)據(jù)挖掘與知識發(fā)現(xiàn)綜合實驗報告姓 名 年 級 級 專 業(yè) 軟件工程指導(dǎo)教師 李波 學(xué) 號 序 號 31 實驗類型 綜合型 成績評定評語:教師簽名: 年 月 日 2016 年 12月 15 日年級 專 業(yè)軟件工程班級組號實驗室9-205日期實驗名稱  數(shù)據(jù)挖掘與知識發(fā)現(xiàn)實驗內(nèi)容分項內(nèi)容實驗級別weka環(huán)境熟悉;決策樹(1)決策樹(2)關(guān)聯(lián)規(guī)則,聚類分析kdd案例屬性相關(guān)性,神經(jīng)網(wǎng)絡(luò)(1)神經(jīng)網(wǎng)絡(luò)(2)小 組 成 員姓名學(xué)號組內(nèi)分工自我評分教師評分     實驗分項1  weka環(huán)境

2、熟悉;決策樹(1)實驗?zāi)康?. 熟悉weka軟件的環(huán)境和基本用法。2. 掌握arff數(shù)據(jù)文件的編制方法。3. 學(xué)習(xí)應(yīng)用weka軟件建立決策樹的方法,并理解決策樹的剪枝和未剪枝的分類效果。實驗要求1、 參照教材 19 -22 頁內(nèi)容,熟悉 頁內(nèi)容,熟悉 wekaweka weka軟件的安裝及使用環(huán)境; 2、在記事本程序中編制 coldtype training.arff, coldtypetest.arff .3、打開 wekaweka weka軟件,并參 軟件,并參 照教材 1.9.2 1.9.2 ,完成相關(guān)操作并 小節(jié),完成相關(guān)操作并 小節(jié),完成相關(guān)操作并 小節(jié),完成相關(guān)操作并 理解 相應(yīng)

3、處理結(jié)果。4、根據(jù)教材表 2.1 所提供的數(shù)據(jù)集 t,基于 wekaweka weka軟件,應(yīng)用 c4.5 算法建立決策樹, 預(yù)測某個學(xué)生是否決定去打籃球。要求:( 1)采用 arff arff文件來完成; 文件來完成;(2)分別完成決策樹剪枝和未的情況。實驗原理步驟(算法流程)1熟悉weka軟件的環(huán)境和基本用法并編寫arff文件。(1) 我們實驗中weka訪問的數(shù)據(jù)格式是arff格式的。(2) 運行weka后,出現(xiàn)了窗口,我們在里面選擇explorer界面。(3) 在preprocess選項卡,點擊file按鈕,加載arff文件,就可以對文件中的數(shù)據(jù)進行采集挖掘。(4) 用data定義數(shù)據(jù)集

4、的開始,數(shù)據(jù)值用逗號隔開,若存在缺失數(shù)據(jù),則用問號表示。2打開weka軟件,按照教材要求完成相關(guān)操作,并理解相應(yīng)處理結(jié)果 (1)在打開arff文件后,界面詳細顯示了數(shù)據(jù)集的實例個數(shù),屬性值的比例關(guān)系等。圖1實驗原理步驟(算法流程) (2)在界面中可以進行屬性和實例的篩選,直接在對話框中對數(shù)據(jù)實例進行篩選,對缺失數(shù)據(jù)進行填補,重命名甚至進行排序也可以。  (3)建立分類模型,切換到classify選項卡,單擊choose按鈕,打開分類器選擇對話框,選擇j48來建立決策樹模型。在test options面板底部有一個more options按鈕,單擊該按鈕,

5、打開classifier evaluation options對話框,設(shè)置選中output predictions復(fù)選框,可以在輸出結(jié)果中出現(xiàn)預(yù)測輸出結(jié)果。單擊start按鈕,就可以執(zhí)行數(shù)據(jù)挖掘。 圖2 (3)在result list列表框的會話條目上右擊,從快捷菜單中選擇visualize tree命令,打開tree view窗口,可以看到感冒類型診斷決策樹。實驗原理步驟(算法流程) 圖3 (4)利用所建立的分類模型分類未知實例,在執(zhí)行數(shù)據(jù)挖掘前,將test options檢驗方式設(shè)置為supplies test set,并打開coldtype-tes

6、t.arff文件作為檢驗集。在輸出結(jié)果中顯示預(yù)測結(jié)果,再單擊start按鈕,執(zhí)行數(shù)據(jù)挖掘。 (5)切換到cluster選項卡,選擇簡單k-均值算法,打開算法參數(shù)設(shè)置對話框,在其中設(shè)置聚類的相關(guān)參數(shù),本次實驗中簇的個數(shù)為2,分類屬性為cold-type。實驗原理步驟(算法流程)  (6)為了能夠更客觀的顯示,打開可視化窗口,將x軸改為cluster,將y軸改為cold-type,拖動jitter滑塊至中間,可以清楚地看到分布結(jié)果。 我們可以清楚地看見數(shù)據(jù)分為了兩個簇,每一個簇中的感冒性質(zhì)是一樣的,兩個簇的種類分別是病毒性感冒和細菌性感冒。 (7)

7、并且能夠看清楚坐標系中每個點所在的信息。實驗結(jié)果及分析(8)使用weka進行關(guān)聯(lián)分析,切換到associate選項卡,規(guī)則書默認為10條,最小置信度為0.9.執(zhí)行關(guān)聯(lián)分析。由上圖我們可以發(fā)現(xiàn)并不是所有的關(guān)聯(lián)規(guī)則都是有價值的,所以在參數(shù)設(shè)置上還有很大的改進空間。(9)根據(jù)打籃球的數(shù)據(jù)集建立剪枝與未剪枝的決策樹。由于打籃球的數(shù)據(jù)太少,所以剪枝與未剪枝的決策樹是一樣的,只有當數(shù)據(jù)很多的時候,決策樹才會有明顯的不同。(10)預(yù)測某個學(xué)生是否決定去打籃球經(jīng)test文件的數(shù)據(jù)集以及由籃球數(shù)據(jù)得出的決策樹得到是否決定打籃球的輸出結(jié)果。在這次的test文件中得到的兩個預(yù)測結(jié)果一個是yes,一個是no。實驗收獲

8、通過本次實驗,我基本掌握了weka軟件的使用,掌握arff數(shù)據(jù)文件的編制方法。并學(xué)習(xí)應(yīng)用weka軟件建立決策樹的方法,并理解決策樹的剪枝和未剪枝的分類效果 實驗分項2  決策樹(2)實驗?zāi)康?. 進一步熟悉weka軟件的環(huán)境和基本用法。2. 學(xué)習(xí)應(yīng)用weka軟件建立決策樹的方法,并理解決策樹的剪枝和未剪枝的分類結(jié)果。實驗要求具體題目1. 使用來自uci的credit screening database數(shù)據(jù)集,應(yīng)用weka的j48算法建立2棵決策樹,分別為剪枝和未剪枝的情形。2. 分別采用use training set和cross-validation方式進行驗證。3. 將表的第三

9、條實例play屬性值由yes改為no,在進行決策樹訓(xùn)練,比較生成的分類模型。實驗原理步驟(算法流程)1. 使用來自uci的credit screening database數(shù)據(jù)集,應(yīng)用weka的j48算法建立2棵決策樹,分別為剪枝和未剪枝的情形。(1) 在j48的算法下,先設(shè)置未剪枝情況,單擊classify選項卡中的choose后面的文本框,在打開的參數(shù)設(shè)置對話框中選擇,可以看到?jīng)Q策樹的參數(shù)設(shè)置。經(jīng)過剪枝的決策樹 未經(jīng)過剪枝的決策樹 上面兩個驗證方法采用的是use training set,下面我們采用交叉驗證cross validation來驗證分類器,所用的折數(shù)填為10。 實驗原理步驟(

10、算法流程) 下圖表示的是剪枝的圖,采用的cross validation驗證。 下圖表示的是未剪枝的圖,采用的cross validation驗證。 下圖是cross validation的剪枝決策樹決策樹的狀態(tài)如下:下圖是cross validation的未剪枝的決策樹,與use training set 的未剪枝決策樹是一樣的。但是在數(shù)據(jù)分析中分的更仔細一些,精確一些。2. 將表的第三條實例play屬性值由yes改為no,在進行決策樹訓(xùn)練,比較生成的分類模型上圖是屬性未改之前的決策樹實驗結(jié)果及分析 由于表的第三條實例play屬性值由yes改為no,在進行決策樹訓(xùn)練,這種選擇影響著

11、所有的后續(xù)子樹。 從上圖中我們可以發(fā)現(xiàn)通過屬性值的更改直接導(dǎo)致了根結(jié)點的變化,之前的根結(jié)點是courses,現(xiàn)在根節(jié)點是weather。實驗收獲通過本次實驗,學(xué)習(xí)應(yīng)用weka軟件建立決策樹的方法,并理解決策樹的剪枝和未剪枝的分類結(jié)果。實驗分項3關(guān)聯(lián)規(guī)則,聚類分析實驗?zāi)康?. 進一步熟悉weka軟件的環(huán)境和基本用法。2. 學(xué)習(xí)應(yīng)用weka軟件生成關(guān)聯(lián)規(guī)則的方法。3. 學(xué)習(xí)應(yīng)用weka軟件進行k-means聚類分析的方法。實驗要求具體題目1.根據(jù)教材表2.3所提供的數(shù)據(jù)集,基于weka軟件,應(yīng)用apriori算法建立關(guān)聯(lián)規(guī)則。2.對教材表2.6的數(shù)據(jù)集,應(yīng)用weka軟件進行k-means聚類,先建

12、立一個arff文件。3.對教材習(xí)題2-10題,進行上機驗證。系統(tǒng)平臺。weka軟件實驗原理步驟(算法流程)1. 根據(jù)教材表2.3所提供的數(shù)據(jù)集,基于weka軟件,應(yīng)用apriori算法建立關(guān)聯(lián)規(guī)則。(1) 為適應(yīng)apriori算法,我們要將數(shù)值型數(shù)據(jù)轉(zhuǎn)換成分類類型數(shù)據(jù),將其中的1替換成yes,0替換成no。(2) 加載數(shù)據(jù)項之后,用weka打開文件,切換到associate選項卡,單擊choose按鈕,選擇apriori算法。(3) 單擊choose按鈕右方的文本框,在算法參數(shù)設(shè)置對話框中,設(shè)置outputitemsets為true,希望輸出條目集,從圖中可以看到使用置信度confidence

13、進行規(guī)則的度量,最小置信度為0.9,支持度support閾值的上下限為0.11.0,我在此次的實驗中閾值設(shè)為0.1。實驗原理步驟(算法流程)(4)單擊start按鈕,輸出結(jié)果如下圖,在圖中看到支持度閾值為0.35,置信度閾值為0.9,以及各個條目集,而我們可以看到生成的關(guān)聯(lián)規(guī)則有10條,置信度全為100%。實驗結(jié)果及分析apriori算法輸出結(jié)果關(guān)聯(lián)規(guī)則結(jié)果分析:1. 關(guān)聯(lián)規(guī)則應(yīng)用廣泛,大型數(shù)據(jù)之間可以經(jīng)常發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系。2. 但是一次關(guān)聯(lián)分析輸出的規(guī)則往往數(shù)量較多,但多數(shù)并無利用價值,所以我們應(yīng)用要謹慎。2. 對教材表2.6的數(shù)據(jù)集,應(yīng)用weka軟件進行k-means聚類,先建立一個ar

14、ff文件。(1) 加載arff文件,切換到cluster選項卡,單擊choose按鈕,打開算法對話框,選擇simplekmeans算法(2) 單擊choose按鈕右方的文本框,打開參數(shù)設(shè)置對話框,查看參數(shù),保持默認值,將k值設(shè)為2,距離函數(shù)選擇歐氏距離。實驗結(jié)果及分析(3) 單擊start按鈕,查看結(jié)果,注意結(jié)果中將實例分為0和1兩個簇,最后分別有兩個和三個實例,并且每個簇中心的值分別為(4.1667,4.3333)和(1.5,1.25),與算出來的結(jié)果完全相同。、(4) k-means聚類的輸出結(jié)果k-means聚類的可視化輸出結(jié)果實驗結(jié)果及分析(4)在result list窗格中的本次數(shù)據(jù)

15、挖掘會話條目上右擊,選擇visualize cluster assignments命令,打開聚類可視化窗口,選擇x,y,分別顯示屬性值。k-means算法小結(jié):(1) 在算法開始前,需要選擇k值,不同的k值會有不同的聚類效果。(2) 當簇的大小近似相等時,k-means的算法效果最好。對于習(xí)題2-10的驗證:1. 我們先加載籃球的數(shù)據(jù)集,選擇play列,單擊remove按鈕,使該屬性不參加訓(xùn)練。切換到cluster選項卡,單擊choose按鈕,打開算法選擇對話框,選擇simplekmeans算法。2. 單擊choose右方的文本框,打開參數(shù)設(shè)置對話框,保持默認值。3. 單擊start按鈕,查看

16、結(jié)果。實例被分成了0,1兩個簇,分別是7,8個實例,與play的實際分類情況一致。4. 在result list窗格中的本次數(shù)據(jù)挖掘會話條目上右擊,會出現(xiàn)如下圖所示的可視化輸出結(jié)果。本次實驗基本算法是k-means算法:1. 隨機選擇一個k值,用以確定簇的總數(shù)。2. 在數(shù)據(jù)集中任選k個實例,將他們作為初始簇中心。3. 計算這k個簇中心與其他剩余實例的簡單歐氏距離,按照這個劃分到簇中。4. 使用每個簇中的實例計算該簇的新簇中心。當計算得到新的簇中心與上次一致,則終止算法。實驗收獲1. 算法中使用置信度和支持度兩個指標來確定關(guān)聯(lián)規(guī)則,關(guān)聯(lián)規(guī)則是從大型數(shù)據(jù)庫中找到數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,關(guān)聯(lián)規(guī)則和傳統(tǒng)的

17、產(chǎn)生式規(guī)則不同。2. k-means算法:隨機選擇一個k值,用以確定簇的總數(shù);在數(shù)據(jù)集中任選k個實例,將他們作為初始簇中心;計算這k個簇中心與其他剩余實例的簡單歐氏距離,按照這個劃分到簇中;使用每個簇中的實例計算該簇的新簇中心;當計算得到新的簇中心與上次一致,則終止算法。實驗分項4kdd案例實驗?zāi)康?. 學(xué)習(xí)應(yīng)用weka軟件進行kdd案例分析的基本步驟。2. 學(xué)習(xí)通過k-means聚類算法對輸入屬性進行評估的方法。實驗要求具體題目參照教材3.3小結(jié),基于weka軟件,完成kdd過程模型和分析任務(wù)系統(tǒng)平臺weka軟件實驗原理步驟(算法流程)步驟:建模 使用weka進行有指導(dǎo)的學(xué)習(xí)訓(xùn)練,選擇c4.

18、5數(shù)據(jù)挖掘算法,在weka中名為j48將test option 設(shè)置為percentage split,并使用默認百分比66%。選擇class為輸出屬性,并選中classifier evaluation options 對話框中的output predictions 復(fù)選框,以顯示在檢驗集上的預(yù)測結(jié)果。步驟:評估通過檢查如下圖所示,我們可以得出檢驗集分類正確率為84.3%,是一個不算太差的結(jié)果,可以用于評估。步驟:評估而我們?yōu)榱说玫礁哔|(zhì)量的分類器,我們可以作以下考慮:1. 修改算法參數(shù)2. 進行屬性評估3. 進行實例選擇4. 選擇其他有指導(dǎo)學(xué)習(xí)算法其中對于在嘗試修改算法參數(shù),而分類器質(zhì)量未得

19、到明顯的改善的情況下,可考慮進行屬性評估。即檢查輸入屬性是否能夠很好的定義數(shù)據(jù)中所包含的類。如果輸入屬性很好的定義了輸出類,將看到實例很自然被聚類到已知的類中。所以通過無指導(dǎo)聚類技術(shù),可以對輸入屬性進行評估。下圖是分類模型訓(xùn)練結(jié)果評估步驟如下:1. 先加載信用卡篩選數(shù)據(jù)集到weka,切換到cluster選項卡,選擇simple kmeans算法。2. 設(shè)置算法參數(shù),顯示標準差,迭代次數(shù)設(shè)置為5000次,其他保持默認,簇的默認情況下為2。3. 在cluster mode面板中設(shè)置評估數(shù)據(jù)為use training set,并單擊ignore attributes按鈕,選擇忽略class屬性。4.

20、 單擊start按鈕,執(zhí)行聚類,結(jié)果如下圖,觀察結(jié)果可發(fā)現(xiàn),共有690個實例,其中有518個實例被分類到cluster0中,172個實例被分類到cluster1中,但是與實際分類情況不相似,實際情況是被分成了307個實例和383個實例,所以該聚類所形成的簇沒有較高的質(zhì)量,初步斷定輸入屬性對于實例的分類能力不太強,如下圖所示:實驗原理步驟(算法流程)聚類結(jié)果對屬性進行進一步分析,包括兩個方面。1. 對缺失屬性進行檢測。2. 對所有屬性的分類能力進行檢測,找出較大分類能力的幾個屬性和具有較小分類能力的屬性。對于缺失屬性值的檢測結(jié)果,通過weka的preprocess預(yù)處理選項卡。選擇不同屬性,查看

21、missing項,如下圖的six屬性檢測情況。實驗原理步驟(算法流程)missing顯示該屬性有9個缺失值,通過查看數(shù)據(jù)集數(shù)據(jù),發(fā)現(xiàn)該屬性的確缺失9個屬性值,所以weka將所有的缺失值檢測出來了。對于所有屬性的分類能力的檢測,可通過查看clusterer output窗口中每個屬性的每個取值在兩個簇中的分布來初步確定。如屬性a1的一個取值b分別在cluster0和cluster1中出現(xiàn)了356和124,分別占出現(xiàn)的所有的a1取值的68%和72%。屬性a1的另外一個取值分別在cluster0和cluster1中出現(xiàn)了162和48,分別占出現(xiàn)的所有的a1取值的31%和27%。而a1 中的每個取值分

22、別在兩個簇中的出現(xiàn)的比例差不多,表明屬性a1分別取值a和b的實例并沒有很好地被聚類到不同的簇。這就說明屬性a1不具有較好的分類能力。但我們可以從聚類圖中看出如a5 的分類能力就比較好,同樣我們也可以通過visualize cluster assignments 窗口直觀地觀察15個屬性的分類能力。屬性a1:屬性a2:實驗原理步驟(算法流程)屬性a9:屬性a12:實驗原理步驟(算法流程)屬性a11:屬性a4:實驗原理步驟(算法流程):通過對15個輸入屬性進行分類能力的檢查,發(fā)現(xiàn)a9,a10,a11,a12這4個屬性具有較好的分類預(yù)測能力,而a1,a2,a4,a5,a6這5個屬性具有較差的分類預(yù)測

23、能力。下面我們可以選擇a9,a10,a11,a12這4個具有較好分類預(yù)測能力的屬性,刪除其他屬性進行實驗,發(fā)現(xiàn)分類的正確率仍為84.3%,分類正確率并未得到提升,說明依靠屬性選擇期望提高分類器質(zhì)量的辦法不行。但是若刪除這四個屬性,使用其他的輸入屬性進行實驗,得到的正確率會有很大幅度的下降,所以我們可以僅使用這四個屬性建模,在提高實驗效率的同時,又不降低分類器的質(zhì)量。通過屬性選擇不能達到提高分類模型質(zhì)量的目的,那么我們可以通過實例選擇來提高,選擇具有代表性的屬性值的實例,其中分類類型的屬性值為出現(xiàn)比例最高的屬性值,如a1的b屬性值,數(shù)值型屬性值為接近各類中均值的取值如a2中屬性32.55,28.

24、6,所以我們要取屬性a2的值接近這兩個值的實例。選擇這些輸入屬性進行實驗,會發(fā)現(xiàn)分類的正確率有所提高。最后的輸出結(jié)果如下圖所示:實驗結(jié)果及分析我們可以發(fā)現(xiàn)正確率從84.3%提高到了92.3%,所以我們有代表性屬性值的數(shù)據(jù)實例建立有指導(dǎo)的模型比訓(xùn)練實例建立的模型效果更好。本次實驗基本算法是k-means算法:5. 隨機選擇一個k值,用以確定簇的總數(shù)。6. 在數(shù)據(jù)集中任選k個實例,將他們作為初始簇中心。7. 計算這k個簇中心與其他剩余實例的簡單歐氏距離,按照這個劃分到簇中。8. 使用每個簇中的實例計算該簇的新簇中心。9. 當計算得到新的簇中心與上次一致,則終止算法。實驗收獲 通過這次實驗,我知道了

25、基本算法是k-means算法,k-means是一種無指導(dǎo)的聚類技術(shù),使用它可以將相似性高的實例劃分到相應(yīng)的簇中,但是它缺乏對數(shù)據(jù)集屬性的重要性判斷。實驗分項5屬性相關(guān)性,神經(jīng)網(wǎng)絡(luò)(1)神經(jīng)網(wǎng)絡(luò)(2)實驗?zāi)康?. 理解屬性評估的原理,掌握屬性相關(guān)性的計算。2. 理解bp神經(jīng)網(wǎng)絡(luò)的基本原理,掌握應(yīng)用bp算法建立前饋神經(jīng)網(wǎng)絡(luò)的方法和步驟。實驗要求具體題目1. 根據(jù)教材5.4節(jié)的5.4.1小節(jié),基于excel的correl函數(shù)計算屬性相關(guān)性,并使用散點圖來查看屬性相關(guān)性,對結(jié)果進行分析。2. 參照教材6.2.3小節(jié),基于weka軟件,使用bp算法創(chuàng)建有指導(dǎo)的分類模型。實驗內(nèi)容為6.2.3中實驗1:建立

26、邏輯異或模型。系統(tǒng)平臺 weka軟件和excel表格實驗原理步驟(算法流程)1. 使用ms excel的correl函數(shù)計算屬性相關(guān)性用excel的correl函數(shù)計算iris數(shù)據(jù)集中的petal_width(花瓣寬度)和petal_length(花瓣長度),petal_width(花瓣寬度)和sepal_ width(花萼寬度)兩對屬性之間的分別相關(guān)度。過程如下。(1) 在excel中加載iris.xls數(shù)據(jù)集。(2) 在一個空白單元格中輸入=correl(b2:b151,c2:c151),單擊確定按鈕。(3) 在另一個空白單元格中輸入=correl(b2:b151,d2:d151),單擊確

27、定按鈕。 在兩個單元格中分別顯示了0.9627和-0.3661。前一個值接近于1,說明花瓣寬度和長度之間具有較強的正相關(guān)性;而后一個值說明花瓣寬度和花萼寬度兩個屬性之間具有一定的但較小的負相關(guān)性。2. 使用散點圖檢查屬性的相關(guān)性相關(guān)系數(shù)只能表示兩個屬性之間的線性相關(guān)程度。兩個具有較小r值的屬性仍可能存在曲線的關(guān)系。通過散點圖可以檢查兩個屬性之間是否存在曲線相關(guān),當然也能顯示兩個屬性間的線性相關(guān)性。實驗原理步驟(算法流程)步驟:1. 在excel中加載iris.xls數(shù)據(jù)集。2. 選中petal_width和petal_length列,打開“插入”菜單,單擊“散點圖”按鈕,插入以這兩個屬性為x坐

28、標和y坐標的散點圖。3. 選中petal_width和sepal_width列,打開“插入”菜單,單擊“散點圖”按鈕,插入以這兩個屬性為x坐標和y坐標的另一個散點圖。petal_width和petal_length的散點圖petal_width和sepal_width的散點圖上圖顯示了生成的兩個散點圖,根據(jù)散點圖和相關(guān)系數(shù)我們可知petal_width 實驗原理步驟(算法流程)和petal_length之間具有較強的正相關(guān)性,而petal_width和sepal_width兩個屬性之間沒有相關(guān)性。4. 應(yīng)用bp算法建立前饋神經(jīng)網(wǎng)絡(luò)(1) 準備訓(xùn)練數(shù)據(jù)。新建excel電子表格文件,輸入內(nèi)容如下圖

29、,另存為.csv文件,并加載到explorer中。(2) 定義網(wǎng)絡(luò)體系結(jié)構(gòu),設(shè)置相關(guān)參數(shù)。定義網(wǎng)絡(luò)體系結(jié)構(gòu)需要作出以下幾項選擇。1. 隱層:可以設(shè)置12個隱層,并指定每個隱層中節(jié)點的個數(shù)。在weka中的格式為用逗號分隔的各隱層中節(jié)點的個數(shù),如指定的兩個隱層,分別有5個和3個隱層節(jié)點,設(shè)置格式(5,3)。2. 學(xué)習(xí)率:可以是0.10.9的范圍內(nèi)的數(shù)值,通常較低的學(xué)習(xí)率需要較多的訓(xùn)練迭代,較高的學(xué)習(xí)率使得網(wǎng)絡(luò)收斂的更快,由此獲得不理想的輸出結(jié)果的機會更大。3. 周期:全部訓(xùn)練數(shù)據(jù)通過網(wǎng)絡(luò)的總次數(shù)。4. 收斂性:通過收斂性的設(shè)置來選擇一個訓(xùn)練終止的最大均方根誤差,收斂參數(shù)的合理設(shè)置為0.1,如果希望

30、根據(jù)周期數(shù)來終止訓(xùn)練,收斂參數(shù)可以設(shè)置為一個任意小的值。在weka中切換到classify選項卡,單擊classifier窗口的choose按鈕,選擇分類器multilayerperceptron,在choose按鈕右邊的文本框中右擊,在彈出的快捷菜單中選擇show properties命令,打開分類器的屬性設(shè)置對話框。在屬性設(shè)置對話框中,將gui設(shè)置為true,使得在訓(xùn)練前,可查看包含神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)的gui界面。 并且可交互式地修改結(jié)構(gòu)和設(shè)置其他參數(shù),且可以在網(wǎng)絡(luò)訓(xùn)練過程中暫停,進行結(jié)構(gòu)和參數(shù)的反復(fù)修改。在屬性設(shè)置對話框中,設(shè)置hiddenlayers為“5,3”,表示有2個隱層,分別有5

31、個和3個隱層節(jié)點;設(shè)置learning-rate為“0.5”,trainingtime為“10000” 單擊ok按鈕,回到wekaexplorer的classifier窗口,設(shè)置test options為use training set,并單擊more options按鈕,打開classifier evaluation options對話框,選中output predictions復(fù)選框,以確保在輸出中能夠看到檢驗集的分類情況。 步驟三:訓(xùn)練網(wǎng)絡(luò) 單擊weka explorer的classifier窗口中的start按鈕,開始神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程。彈出神經(jīng)網(wǎng)絡(luò)gui界面,單擊start按鈕,執(zhí)行

32、訓(xùn)練,并選擇accept訓(xùn)練結(jié)果。實驗結(jié)果及分析xor classifier的輸出結(jié)果步驟四:解釋訓(xùn)練結(jié)果 從輸出結(jié)果中可以看到,結(jié)果并不理想,其中的root mean squared為0.5005,4個檢驗集,2個屬于xor等于1的類實例分類正確,而2個屬于xor等于0的類實例中的計算輸出值分別為0.522和0.522,不能清晰的確定屬于哪個類。步驟五:結(jié)果不理想,更改結(jié)果,調(diào)整參數(shù),重復(fù)實驗 觀察到分類器的輸出結(jié)果不理想,更改網(wǎng)絡(luò)結(jié)構(gòu),調(diào)整參數(shù),重復(fù)實驗。這次實驗指定1個隱層,具有兩個隱層節(jié)點。學(xué)習(xí)率設(shè)置為0.1,降低學(xué)習(xí)率的目的是提高迭代次數(shù),希望得到更理想的結(jié)果。其他參數(shù)保持默認值。 開始訓(xùn)練,通過觀察下圖分析結(jié)果。實驗結(jié)果分析第二次實驗的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論