



版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、廈門大學軟件學院數(shù)據挖掘實驗報告數(shù)據挖掘實驗報告聚類技術姓名:湯凱 (24320142202489)王崇菲 (24320142202492)陳東東 (24320142202402)指導老師:劉昆宏實驗地點:海韻實驗樓完成時間:1廈門大學軟件學院數(shù)據挖掘實驗報告一. 實驗目的使用 scikit-learn 包中的 kmeans, dbscan等聚類算法分析數(shù)據。比較不同參數(shù)對聚類結果的影響,使用不同測度分析聚類的質量,包括:precisionij = 預定義第 i 類并被分配到第 j 個聚類的樣本數(shù) / 第 j 個聚類中的樣本數(shù)recallij = 預定義第 i 類并被分配到第 j 個聚類的文檔
2、數(shù) / 預定義第 i 類的樣本數(shù)fij = 2 * precisionij * recallij / (precisionij + recallij)二. 實驗內容熟悉 scikit-learn 包中的 kmeans, dbscan等聚類算法,并能夠熟練的調整算法參數(shù),實現(xiàn)數(shù)據的預處理,并對結果進行分析。三實驗步驟以及結果1、K-means 算法( 1) K-means 基本介紹:K-means 算法接受輸入量 k;然后將 n 個數(shù)據對象劃分為 k 個聚類以便使得獲得的聚類滿足: :同一聚類中的對象相似度比較高; 而不同聚類中的對象相似度較小。聚類相似是利用各聚類中對象的均值所獲得一個“中心對
3、象” (引力中心)來進行計算。K-means 算法,主要有幾個參數(shù)需要進行設置, 我們實驗主要采用的是調整三個參數(shù)(其中一個參數(shù) k,由于我們的數(shù)據是給定的幾類,也就是說我們的 k 值是確定的,所以我們就不對 k 進行調整)K-means 算法我們采用的是如下初始化方法:KMeans(init='k-means+', n_clusters=n_digits, n_init=100)其中 init: 初始簇中心的獲取方法; n_clusters:簇的個數(shù),即你想聚成幾類(也即我們上面說的 k);n_init: 獲取初始簇中心的更迭次數(shù),為了彌補初始質心的影響,算法默認會初始 10
4、 個質心,實現(xiàn)算法,然后返回最好的結果。( 2)實驗步驟:步驟一:數(shù)據讀取以及處理首先是把我們的訓練數(shù)據和測試數(shù)據讀入 (由于我們的數(shù)據是處理好的,所以我們沒有進行缺失數(shù)據處理等處理,只是做了一個簡單的讀?。?;當然,由于我們想把數(shù)據結果可視化,所以我們也采用了第二種方法,那就是給數(shù)據降維,然后以圖形的形式展示出來,所以這邊也需要對數(shù)據進行進一步的處理2廈門大學軟件學院數(shù)據挖掘實驗報告運行的結果圖大致是這樣的:步驟二:初始化我們的 K-means 算法,這里,我主要是使用了三個參數(shù),其中一個參數(shù)是我們訓練數(shù)據已經給出來了, 所以之后我們會對其中的兩個參數(shù)( 初始簇中心的獲取方法,以及獲取初始簇中
5、心的更迭次數(shù))進行調整對比;步驟三:接下來就是模型的訓練和數(shù)據的測試了, 由于這邊是直接調用接口,所以簡單的帶過(這里有一個問題就是,如果初始方法的那兩個參數(shù)是使用函數(shù)入參來初始化的情況下會很影響數(shù)據結果,很奇怪?)( 3)實驗結果對比(我們這邊主要采用的是對其中一組測試數(shù)據 Leukemia1 進行分析)init :初始簇中心的獲取方法當使用“ k-means+”來獲取初始簇中心3廈門大學軟件學院數(shù)據挖掘實驗報告當使用“ random”方式來獲取初始簇中心時,結果如下:4廈門大學軟件學院數(shù)據挖掘實驗報告實驗結果分析:K-Means 算法需要用初始隨機種子點來搞,這個隨機種子點太重要,不同的隨
6、機種子點會有得到完全不同的結果。( K-Means+算法可以用來解決這個問題,其可以有效地選擇初始點)然而從實驗結果來看,在不降維的情況下,不使用 K-means+選取初始隨機種子,我們的聚類結果是比較好的,而使用了 K-means+反而有點不盡人意。同樣,對于我們降維之后的數(shù)據, 雖然兩種方法所得到的結果差不多,但是沒有使用 K-means+的效果要更好點,包括在性能和時間上。n_init: 獲取初始簇中心的更迭次數(shù) (我們這里主要是采用兩種, 一個是迭代 10 次,一個是迭代 100 次,而 100 次結果在上圖可見,我們這邊 init 盡量采用“ random”的方法)迭代 10 次,即
7、 n_init=105廈門大學軟件學院數(shù)據挖掘實驗報告實驗結果分析:從結果來看,不論是在數(shù)據降維后還是沒有降維,當?shù)螖?shù) n_init 降下來之后,我們的模型訓練的結果都有所變差,但是相對來說,它的運行時間是更小的數(shù)據降維和數(shù)據不降維之間的對比:從上述實驗截圖來看,我們沒有使用數(shù)據降維的它的性能波動性比較大,而且在使用“ random”初始化,并且迭代 100 次的時候效果是最佳的,但是降維之后的數(shù)據就相對比較穩(wěn)定。但時總體上來講,降維之后的數(shù)據訓練時間以及測試時間都是比較好的。2、DBScan 算法( 1) DBScan基本介紹:DBSCAN(Density-Based Spatial C
8、lustering of Applications with Noise) 是一個比較有代表性的基于密度的聚類算法。 與劃分和層次聚類方法不同, 它將簇定義為密度相連的點的最大集合, 能夠把具有足夠高密度的區(qū)域劃分為簇, 并可在噪聲的空間數(shù)據庫中發(fā)現(xiàn)任意形狀的聚類。其核心思想使用一個點的鄰域內的鄰居點數(shù)衡量該店所在空間的密度。 它可以找出形狀不規(guī)則的 cluster,且聚類是不需要事先知道 cluster 的個數(shù)。DBSCAN 算法中最重要的有兩個參數(shù): eps 和 min_samples,前者為定義密度時的鄰域半徑,后者為定義核心點時的閾值。在以下的實驗中,我們也將圍繞這兩個參數(shù)進行調整。(
9、 2)實驗步驟步驟一:數(shù)據讀取以及處理首先是把我們的訓練數(shù)據(由于我們的數(shù)據是處理好的,所以我們沒有進行缺失數(shù)據處理等處理,只是做了一個簡單的讀?。?,但是這邊會存在一個問題就是,如果不對我們的數(shù)據進行一個降維并歸一化處理的話,對于 eps 就不好設定,因為我們的數(shù)據的維度都是近萬的,所以半徑會很長的龐大,如果我們只是使用簡單的 eps=0.5 的話就是什么結果都得不到,因為所有的點都變成了干擾點,結果如下;6廈門大學軟件學院數(shù)據挖掘實驗報告基于上述存在的問題,所以我把數(shù)據進行了降維并歸一化處理,另外就是由于我們的聚類結果是以數(shù)字的形式呈現(xiàn)的,所有我們在處理標簽的時候也有吧標簽轉化為數(shù)字,方便后
10、面的計算。標簽轉換函數(shù):步驟二:由于我們的數(shù)據進行過處理,然后我們主要還就是在eps 和min_samples 兩個參數(shù)的調整上,為了使用的便利,我們eps 采用了 3 個數(shù)值 0.25,0.5 以及 0.75,min_samples 也同樣采用了 3 個數(shù)值 3,5 以及 7,我們使用這兩組數(shù)據進行組合得到我們的實驗結果:( 3)實驗結果對比首先,我們先把實驗的結果圖粘貼出來:7廈門大學軟件學院數(shù)據挖掘實驗報告8廈門大學軟件學院數(shù)據挖掘實驗報告從實驗結果來看,當 eps=0.5,min_samples=3的時候所得到的結果是最好的。其實每組參數(shù)所使用的時間基本上是差不多的。四總結從以上的結果
11、以及查閱資料來分析,我們可以很明顯的得到如下結果:1、 kmeans 聚類的特點是:( 1)人為的輸入要聚的類數(shù) k(實驗中,是直接根據我們的數(shù)據來定的)( 2)一般是計算的歐式距離判斷相似性( 3)每次隨機的選取 k 個聚類中心,聚類結果受隨機選取的類中心影響比較大( 4)簡單( 5)算法過程:輸入訓練數(shù)據集,類別K隨機的選取K 條數(shù)據,作為K 個類的中心計算所有數(shù)據到2 中的 K 個類中心的距離根據 3 的結果,與某個類最近的數(shù)據化為一類根據 4,從新得到K 個類,并計算K 個類的中心更新上面的的過程,直到K 類數(shù)據不再變化或者到達迭代次數(shù)位置2、 dbscan 是一種基于密度的聚類算法,
12、與 kmeans聚類相比:9廈門大學軟件學院數(shù)據挖掘實驗報告( 1) dbscan 可以發(fā)現(xiàn)任意形狀的數(shù)據集( 2)且不用輸入類別數(shù) K(3)核心是: 如果一個點, 在距它 Eps 的范圍內有不少于MinPts 個點,則該點就是核心點。核心和它Eps 范圍內的鄰居形成一個簇。在一個簇內如果出現(xiàn)多個點都是核心點,則以這些核心點為中心的簇要合并。這樣再逐步擴大,形成一個類也就是簇。(4)dbscan 聚類不僅能夠發(fā)現(xiàn)核心點還能夠找到邊界點和噪聲點,邊界點是屬于某個類的邊界點,噪聲點不屬于任何一類。我們實驗中,對于噪聲點的結果就是以-1的形式展現(xiàn)出來的。3、單純的從實驗結果來看,兩種方法,我們的數(shù)據都是使用的Leukemia1 ,這個數(shù)據,首先我們就來對比一下我們的實驗數(shù)據的性能:對于 kmeans 算法來講,最好的實驗效果是:而對于
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 破碎塑料購銷合同范本
- 創(chuàng)意設計買賣協(xié)議
- 2025至2030年中國江蘇豬肉脯香料數(shù)據監(jiān)測研究報告
- 2024年三明泰寧縣專業(yè)教師招聘考試真題
- 2024年齊齊哈爾市事業(yè)單位招聘考試真題
- 外包訂金及付款協(xié)議
- 委托投標交易合同范本
- 2024年廣西桂林電子科技大學教職人員人員招聘考試真題
- 公共交通工具維保合同
- 化纖制毛巾被企業(yè)ESG實踐與創(chuàng)新戰(zhàn)略研究報告
- 北京市豐臺區(qū)2024-2025學年高二上學期期末英語試題
- 電力安全一把手講安全課
- 小學三年級數(shù)學口算天天練-A4紙直接打印
- 2025年億達商學院成立儀式及論壇經驗總結(三篇)
- (2025)駕照C1證考試科目一必考題庫及參考答案(包過版)
- 2025年高三第二學期物理備課組教學工作計劃
- 生產與運作管理-第5版 課件全套 陳志祥 第1-14章 生產系統(tǒng)與生產運作管理概述 -豐田生產方式與精益生產
- 2025年湖南理工職業(yè)技術學院高職單招職業(yè)技能測試近5年??及鎱⒖碱}庫含答案解析
- 罕見病診治與病例管理制度
- 課題申報書:“四新”建設與創(chuàng)新創(chuàng)業(yè)人才培養(yǎng)基本范式研究
- 婦科常見急危重癥護理
評論
0/150
提交評論