版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、基于案例學習數(shù)據(jù)挖掘 第八周DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)精品聯(lián)系基于案例學習數(shù)據(jù)挖掘 第一版講師法律【】和幻燈片為煉數(shù)成金網(wǎng)絡課程的教學資料,所有資料只能在課程內(nèi)使用,不得在課程以外范圍散播,違者將可能被責任。法律和經(jīng)濟課程詳情煉數(shù)成金培訓http:DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)精品聯(lián)系基于案例學習數(shù)據(jù)挖掘 第一版講師煉數(shù)成金逆向式網(wǎng)絡課程Dataguru(煉數(shù)成金)是專業(yè)數(shù)據(jù)分析,提供教育,內(nèi)容,社區(qū),數(shù)據(jù)分析業(yè)務等服務。的課程采用新興的互聯(lián)網(wǎng)教育形式,獨創(chuàng)地發(fā)展了逆向收費式網(wǎng)絡培訓課程模式。既繼承傳統(tǒng)教育重學習氛圍,重競爭壓力的特點,同時又發(fā)揮互聯(lián)網(wǎng)的打破時空限制,把天南地北志同道合
2、的朋友組織在一起交流學習,使到原先孤立的學習組有組織的探索力量。并且把原先動輒成千上萬的學習成本,直線下降至百元范圍,造福大眾。中國第一的網(wǎng)上知識流轉(zhuǎn)陣地。的目標是:低成本高價值知識,構(gòu)架關于逆向式網(wǎng)絡的看的培訓http:DATAGURU專業(yè)數(shù)據(jù)分析社區(qū)精品聯(lián)系基于案例學習數(shù)據(jù)挖掘 第一版講師回顧K-means聚類算法精品聯(lián)系回顧聚類算法:K-means第一步:指定參數(shù)K;第二步:選定K個初始點,代表K個簇,其他點按照“就近原則”分配到已有簇;第三步:更新K個簇的中心點來代表簇第四步:重復分配點和更新中心點的過程直到穩(wěn)定,即點的分配不再改變回顧聚類:聚類算法是要將相似的對象放入同一個聚簇,而將
3、不相似的對象分到不同的聚簇中。算法特點:在進行回歸、分類等有監(jiān)督學習任務中要定義類別 或者目標值,但聚類過程的輸入對象沒有與之關聯(lián)的目標信息(即類別 ),所以聚類通常被會歸于無監(jiān)督學習任務。適用:眾多難以獲得 數(shù)據(jù)的挖掘應用K-means聚類過程聚類回顧K取多少為合適值精品聯(lián)系聚類算法:K值選擇DaviesBoudin值1.000.900.800.700.600.500.400.300.200.280.10-23456789 10 11 12 13 14 15 16雖然從定義上來說,K值為2以上即可,不超過數(shù)據(jù)集N值就可以,但是聚類結(jié)果還是有很大不同的僅以聚類的有效性來看,其實K值的不同也會導
4、致聚類效果差異較大右側(cè)的折線圖顯示的是一個N=100的人工數(shù)據(jù)集,在聚類時,K從216都嘗試了一次,然后給出了有效性指標DaviesBouldin值,可以看出,僅就例子而言K=6、7、8都是不錯的,可能K=7效果最好(此處K為id,7對應的是參數(shù)為8的聚類)DaviesBouldin值越小,代表聚類的效果越佳;而對于數(shù)據(jù)挖掘項目來講,這個最佳仍然是一個相對最佳的參考值,并非事實最佳一個有些意義的曲線K值不同到底影響人工數(shù)據(jù)集和循環(huán)聚類生成人工數(shù)據(jù)集:用生成數(shù)據(jù)操作符生成一個數(shù)據(jù)集,該數(shù)據(jù)集具有1000個樣本,設置變量為3,那么會生成8個聚類(8=聚類過程:er(2,3),就用這個數(shù)據(jù)用于以下的
5、所有關于聚類算法的。用到的聚類算法是K-means聚類,K值從2-16會進行15次聚類算法的運算,每一次不同的結(jié)果都會用來分析,用來表示聚類的結(jié)果,把每次聚類的數(shù)據(jù)集結(jié)果和模型中心點信息,在下一個流程進行,并且根據(jù)的數(shù)據(jù)進行計算循環(huán)操作符:SDABAS-DM中一大類操作符,可以用來進行迭代相關的計算,在優(yōu)化參數(shù)或者評價算法時常常會用到宏(百科):計算機中宏又稱為宏命令,即通過特殊的控制語,將一系列動作簡便化;即:一種批處理的程序此處需要注意的是要在循環(huán)操作符處指定K的最大值,并且要學會一些關于宏的設置基于案例學習數(shù)據(jù)挖掘 第一版講師精品聯(lián)系人工數(shù)據(jù)集和循環(huán)聚類衡量聚類性能的指標衡量指標:內(nèi)部評
6、價目前在DM中有包括內(nèi)部平均距離(為負值)、聚類密度、最大簇占比和基尼指數(shù)等常見評價標準,這些標準一定程度上是越小越好,但是卻也存在問題,即K值越大,這些值都是單調(diào)遞減的,所以無法根據(jù)這些指標做主要評價依據(jù),目前,DaviesBouldin指數(shù)是相對更有參考價值的一個指標外部評價R的計算包可以計算不同K值聚類之間的差異,這些也會有一個相對較好的參考值出現(xiàn),包括Rindex、Adjust R計算方式index、Jaccard Index、Wallace Indi、FM Index等兩個聚類分別為X1和X2,他們是對同一個數(shù)據(jù)集D進行的聚類,對于D中任意兩個樣本d1和d2組成的一個對樣本組合,如果
7、在X1中被聚成一類且在X2中也聚成同一類,那么記為n11,如果在X2中被聚成不同類,則記為n10,以此類推還有n01和n00,那么R=(n11+n00)/(n11+n00+n01+n10); FM=n11/sqrt(n11+n10)*(n11+n01);W10=n11/(n11+n10),W01=n11/(n11+n01),J=n11/(n11+n01+n10).基于案例學習數(shù)據(jù)挖掘 第一版講師精品聯(lián)系衡量聚類性能的指標R和聚類包安裝指導在電腦上安裝R,位數(shù)是和電腦系統(tǒng)匹配的需要安裝R中兩個在分析中用到的包mclust和profdpm 將R和聚類包安裝在SDABAS-DM上 安裝Java64位
8、在R待上安裝“rjava”包,用來連接SDABAS-DM,等完畢,install.packages(“rjava”).libPaths() 并注意列出的目錄,其中一個是的添加R_HOME和JAVA_HOME以及R_PATH和JAVA_HOME,這些在上傳附件中有說明安裝mclust和profdpmrjava包基于案例學習數(shù)據(jù)挖掘 第一版講師精品聯(lián)系R和聚類包安裝指導你需要首先安裝R挖掘流程分步詳解(一)循環(huán)聚類和本地聚類對比對于同一數(shù)據(jù)集的聚類對比,基于K-means算法,只有K是參數(shù),那么對于K1和K2,首先固定K2=8,稱之為本地聚類,因為們依次考慮每次聚類和K2=8的對比人工數(shù)據(jù)集Lab
9、el變量為8類,K1取值為【2,16】我可以輕易取得結(jié)論,當K1=8時,聚類和本地聚類最為一致,即對K-means來講,K固定,結(jié)果固定如果K沒那么精準?ARIFMJRW01W101.000.800.600.400.20-對于K為其他值的聚類,K值越為接近的時候,相似度就越高,曲線也基本上有一定的對稱性2345678910 11 1213 1415 16基于案例學習數(shù)據(jù)挖掘 第一版講師精品聯(lián)系挖掘流程分布詳解(一)挖掘流程分步詳解(二)循環(huán)聚類漸變分析如果不存在本地聚類,即想通過K值的漸變來逐步挖掘聚類情況的變化,每一個特定的K值和相鄰值的聚類都會做對比,例如K=3會和K=2對比,也會和K-=
10、4對比,這有助于發(fā)現(xiàn)一些相對最佳的K的取值K值聚類【1】和K+1值聚類的差異往往是比較小的,但是依然存在“突變”,通過表格來挖掘那些K+1值聚類和K值聚類差異較大1.000.900.80ARIJ0.700.600.500.403456789 10 1112 13 14 15 16基于案例學習數(shù)據(jù)挖掘 第一版講師精品聯(lián)系挖掘流程分布詳解(二)對于左側(cè)的圖形,可以這樣理解,例如K=4,ARI=0.93,即K=4的聚類和K=3的聚類相似度為0.93。即差別不大,但是K=5或者K10,ARI取值較低,即不宜再增加K值做實驗而從這個圖中可以得出結(jié)論是K=5開始和以前不同,直到K=9,相似度都比較高,即
11、K=59,聚類大致類似(差異不大)挖掘流程分步詳解(三) DaviesBouldin和其他指標前面提到,DB值可以作為聚類效果的一個可參考評價,那么除了DB值,還有些指標也可以指導最終確定K值,例如內(nèi)部平均距離和聚類密度,這些值是需要觀察曲線來取定最終選擇的1.000.800.600.400.20-23456789 10 11 12 13 1415 16DaviesBoudin值內(nèi)部平均距離聚類密度基于案例學習數(shù)據(jù)挖掘 第一版講師精品聯(lián)系挖掘流程分布詳解(三)關于DB值,指導原則前面說過;對于內(nèi)部平均距離這種指標, 觀察的是變化趨勢,當變化趨于0的時候就是可考慮的K值選取點,對于聚類密度,同理。對于挖掘流程里面的思路,其中因為數(shù)據(jù)有被標記好的類別,所以可以做較為清晰的分析和驗證,在實際挖掘項目中,如果不存在 “ground truth”,那么可能會更麻煩一點挖掘結(jié)果在這個人工數(shù)據(jù)集中,制造了100個樣本,8個類別,用循環(huán)聚類來驗證參數(shù)K對K-means算法的影響,其中得到的結(jié)論可以應用,幫助參考在將來處理選擇K值問題上提供精品聯(lián)系挖掘結(jié)果基于案例學習數(shù)據(jù)挖掘 第一版講師K-means聚類作為 經(jīng)常使用的聚類方法, 有眾多的參考維度去定義
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 合同糾紛的起訴狀合同起訴狀3篇
- 國有土地租賃合同續(xù)簽終止條件3篇
- 醫(yī)院藥品訂購合同版本3篇
- 二手房屋車庫買賣合同3篇
- 貸款房出售合同范例
- 臨時借用合同范例
- 藥店投資協(xié)議合同范例
- 車間降溫裝置維保合同范例
- 合同型聯(lián)營協(xié)議合同范例
- 租用叉車卸貨合同范例
- 小學勞動教育實施情況調(diào)查問卷(含教師卷和學生卷)及調(diào)查結(jié)論
- 2024年秋季新人教版道德與法治七年級上冊全冊教案
- 傳感技術智慧樹知到期末考試答案章節(jié)答案2024年哈爾濱工業(yè)大學
- MOOC 研究生學術規(guī)范與學術誠信-南京大學 中國大學慕課答案
- JBT 11699-2013 高處作業(yè)吊籃安裝、拆卸、使用技術規(guī)程
- 24春國家開放大學《離散數(shù)學》大作業(yè)參考答案
- 國際發(fā)展援助概論智慧樹知到期末考試答案2024年
- 浙江大學實驗報告(流體力學)
- 國開電大本科《管理英語3》機考真題(第一套)
- 2023年大學生《思想道德與法治》考試題庫附答案(712題)
- 2023年華南理工大學自然辯證法期末考試真題回憶版帶參考答案
評論
0/150
提交評論