版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、The algorithm of Kmeans第1頁,共34頁。主要內(nèi)容:Kmeans實(shí)戰(zhàn)聚類算法簡介Kmeans算法詳解Kmeans算法的缺陷及若干改進(jìn) Kmeans的單機(jī)實(shí)現(xiàn)與分布式實(shí)現(xiàn)策略 第2頁,共34頁。聚類算法簡介123聚類的目標(biāo):將一組向量分成若干組,組內(nèi)數(shù)據(jù)是相似的,而組間數(shù)據(jù)是有較明顯差異。與分類區(qū)別:分類與聚類最大的區(qū)別在于分類的目標(biāo)事先已知,聚類也被稱為無監(jiān)督機(jī)器學(xué)習(xí)聚類手段:傳統(tǒng)聚類算法 劃分法 層次方法 基于密度方法 基于網(wǎng)絡(luò)方法 基于模型方法第3頁,共34頁。什么是Kmeans算法?Q1:K是什么?A1:k是聚類算法當(dāng)中類的個數(shù)。Summary:Kmeans是用均值
2、算法把數(shù)據(jù)分成K個類的算法! Q2:means是什么?A2:means是均值算法。第4頁,共34頁。Kmeans算法詳解(1)步驟一:取得k個初始初始中心點(diǎn)第5頁,共34頁。Kmeans算法詳解(2)Min of threedue to the EuclidDistance步驟二:把每個點(diǎn)劃分進(jìn)相應(yīng)的簇第6頁,共34頁。Kmeans算法詳解(3)Min of threedue to the EuclidDistance步驟三:重新計(jì)算中心點(diǎn)第7頁,共34頁。Kmeans算法詳解(4)步驟四:迭代計(jì)算中心點(diǎn)第8頁,共34頁。Kmeans算法詳解(5)步驟五:收斂第9頁,共34頁。Kmeans算法
3、流程從數(shù)據(jù)中隨機(jī)抽取k個點(diǎn)作為初始聚類的中心,由這個中心代表各個聚類計(jì)算數(shù)據(jù)中所有的點(diǎn)到這k個點(diǎn)的距離,將點(diǎn)歸到離其最近的聚類里調(diào)整聚類中心,即將聚類的中心移動到聚類的幾何中心(即平均值)處,也就是k-means中的mean的含義重復(fù)第2步直到聚類的中心不再移動,此時算法收斂最后kmeans算法時間、空間復(fù)雜度是:時間復(fù)雜度:上限為O(tKmn),下限為(Kmn)其中,t為迭代次數(shù),K為簇的數(shù)目,m為記錄數(shù),n為維數(shù) 空間復(fù)雜度:O(m+K)n),其中,K為簇的數(shù)目,m為記錄數(shù),n為維數(shù)第10頁,共34頁。決定性因素Input & centroidsSelected kMaxIteration
4、s & ConvergenceMeassures數(shù)據(jù)的采集和抽象初始的中心選擇最大迭代次數(shù)收斂值 k值的選定 度量距離的手段factors?第11頁,共34頁。主要討論初始中心點(diǎn)輸入的數(shù)據(jù)及K值的選擇距離度量我們主要研究的三個方面因素。第12頁,共34頁。初始中心點(diǎn)的劃分討論初始中心點(diǎn)意義何在?下面的例子一目了然吧?初始中心點(diǎn)收斂后你懂的 第13頁,共34頁。如何衡量Kmeans算法的精確度?在進(jìn)一步闡述初始中心點(diǎn)選擇之前,我們應(yīng)該先確定度量kmeans的算法精確度的方法。一種度量聚類效果的標(biāo)準(zhǔn)是:SSE(Sum of Square Error,誤差平方和)SSE越小表示數(shù)據(jù)點(diǎn)越接近于它們的質(zhì)
5、心,聚類效果也就越好。因?yàn)閷φ`差取了平方所以更重視那些遠(yuǎn)離中心的點(diǎn)。一種可以肯定降低SSE的方法是增加簇的個數(shù)。但這違背了聚類的目標(biāo)。因?yàn)榫垲愂窃诒3帜繕?biāo)簇不變的情況下提高聚類的質(zhì)量?,F(xiàn)在思路明了了我們首先以縮小SSE為目標(biāo)改進(jìn)算法。第14頁,共34頁。改進(jìn)的算法二分Kmeans算法為了克服k均值算法收斂于局部的問題,提出了二分k均值算法。該算法首先將所有的點(diǎn)作為一個簇,然后將該簇一分為二。之后選擇其中一個簇繼續(xù)劃分,選擇哪個簇進(jìn)行劃分取決于對其劃分是否可以最大程度降低SSE值。偽代碼如下:將所有的點(diǎn)看成一個簇當(dāng)簇數(shù)目小于k時對于每一個簇計(jì)算總誤差在給定的簇上面進(jìn)行K均值聚類(K=2)計(jì)算將該
6、簇一分為二后的總誤差選擇使得誤差最小的那個簇進(jìn)行劃分操作第15頁,共34頁。二分Kmeans算法的效果雙擊此處添加文字內(nèi)容既然是改進(jìn)算法就要體現(xiàn)改進(jìn)算法的優(yōu)越性。為此控制變量,在相同的實(shí)驗(yàn)環(huán)境下,取相同的k值取。選取相同的的距離度量標(biāo)準(zhǔn)(歐氏距離)在相同的數(shù)據(jù)集下進(jìn)行測試。第16頁,共34頁。一組實(shí)驗(yàn)結(jié)果一組不好的初始點(diǎn)產(chǎn)生的Kmeans算法結(jié)果二分kmeans產(chǎn)生的結(jié)果要強(qiáng)調(diào)的是盡管只是這一組實(shí)驗(yàn)不得以得出二分kmeans的優(yōu)越性,但是經(jīng)過大量實(shí)驗(yàn)得出的結(jié)論卻是在大多數(shù)情況下二分kmeans確實(shí)優(yōu)于樸素的kmeans算法。第17頁,共34頁。全局最小值二分kmeans真的能使SSE達(dá)到全局最
7、小值嗎?從前面的講解可以看到二分kmeans算法的思想有點(diǎn)類似于貪心思想。但是我們會發(fā)現(xiàn)貪心的過程中有不確定的因素比如:二分一個聚類時選取的兩個中間點(diǎn)是隨機(jī)的,這會對我們的策略造成影響。那么如此一來二分kmeans算法會不會達(dá)到全局最優(yōu)解呢?答案是:會!盡管你可能驚詫于下面的說法,但全局最小值的定義卻是:可能的最好結(jié)果。第18頁,共34頁。K值的選擇以及壞點(diǎn)的剔除 討論k值、剔除壞點(diǎn)的意義何在?下面以一個例子來說明k值的重要性。第19頁,共34頁。為什么會出錯?上面的例子當(dāng)中出錯的原因很明顯。憑直覺我們很容易知道不可能有這樣的天氣它的氣溫是100,濕度是1100%??梢妷狞c(diǎn)對kmeans的影響
8、之大。另一方面,季節(jié)有春夏秋冬之分,而我們強(qiáng)行的把它們分為夏冬兩個類也是不太合理的。如果分為四個類我們也許可以“中和”掉壞點(diǎn)的影響。究竟哪里錯了!第20頁,共34頁。帶canopy預(yù)處理的kmeans算法(1)將數(shù)據(jù)集向量化得到一個list后放入內(nèi)存,選擇兩個距離閾值:T1和T2。(2)從list中任取一點(diǎn)P,用低計(jì)算成本方法快速計(jì)算點(diǎn)P與所有Canopy之間的距離(如果當(dāng)前不存在Canopy,則把點(diǎn)P作為一個Canopy),如果點(diǎn)P與某個Canopy距離在T1以內(nèi),則將點(diǎn)P加入到這個Canopy;(3)如果點(diǎn)P曾經(jīng)與某個Canopy的距離在T2以內(nèi),則需要把點(diǎn)P從list中刪除,這一步是認(rèn)為
9、點(diǎn)P此時與這個Canopy已經(jīng)夠近了,因此它不可以再做其它Canopy的中心了;(4)重復(fù)步驟2、3,直到list為空結(jié)束第21頁,共34頁。帶canopy預(yù)處理的kmeans算法的優(yōu)點(diǎn)第22頁,共34頁。帶canopy預(yù)處理的kmeans算法的新挑戰(zhàn)Canopy預(yù)處理這么好,我們以后就用它好了!我看不見得,它雖然解決kmeans當(dāng)中的一些問題,但其自身也引進(jìn)了新的問題:t1、t2的選取。第23頁,共34頁。大數(shù)據(jù)下kmeans算法的并行策略 VS單挑OR群毆?!第24頁,共34頁。大數(shù)據(jù)下kmeans算法的并行策略 面對海量數(shù)據(jù)時,傳統(tǒng)的聚類算法存在著單位時間內(nèi)處理量小、面對大量的數(shù)據(jù)時處理
10、時間較長、難以達(dá)到預(yù)期效果的缺陷以上算法都是假設(shè)數(shù)據(jù)都是在內(nèi)存中存儲的,隨著數(shù)據(jù)集的增大,基于內(nèi)存的就難以適應(yīng)是一個為并行處理大量數(shù)據(jù)而設(shè)計(jì)的編程模型。 Kmeans算法都是假設(shè)數(shù)據(jù)都是在內(nèi)存中存儲的,隨著數(shù)據(jù)集的增大,基于內(nèi)存的就難以適應(yīng)是一個為并行處理大量數(shù)據(jù)而設(shè)計(jì)的編程模型,它將工作劃分為獨(dú)立任務(wù)組成的集合。第25頁,共34頁。Map-reduce的過程簡介第26頁,共34頁。Map函數(shù)設(shè)計(jì)函數(shù)的設(shè)計(jì)框架中 函數(shù)的輸入為,對,其中:為輸入數(shù)據(jù)記錄的偏移量;為當(dāng)前樣本的各維坐標(biāo)值組成的向量首先計(jì)算該向量到各個聚簇中心點(diǎn)的距離,然后選擇最小的距離的聚簇作為該樣本所屬的簇,之后輸出,其中是距最
11、近的聚簇的標(biāo)識符,為表示該樣本的向量第27頁,共34頁。Combine函數(shù)設(shè)計(jì)函數(shù)的設(shè)計(jì)函數(shù)的輸入為,對,即函數(shù)的輸出首先,從中解析出各個向量,然后將解析出的向量相加并記錄集合中向量的個數(shù)輸出是,對,其中:是聚簇的標(biāo)識符;是以上集合中所有的向量相加所得的向量及集合中向量的數(shù)目第28頁,共34頁。Reduce函數(shù)設(shè)計(jì)函數(shù)的輸入是,鍵值對,其中:為聚簇的標(biāo)識符;為節(jié)點(diǎn)處理的聚簇中含有的樣本的個數(shù)及用向量表示的聚簇的中心點(diǎn)輸出為,對,其中:為聚簇的標(biāo)識符;為新的聚簇中心函數(shù)首先從函數(shù)的輸入中解析出屬于同一個聚簇的樣本的個數(shù)及各個節(jié)點(diǎn)傳過來的,然后將個數(shù)及各個相加,之后將所得到的向量除以個數(shù)得到新的中
12、心點(diǎn)坐標(biāo)。第29頁,共34頁。一個運(yùn)行結(jié)果第30頁,共34頁。一個實(shí)驗(yàn)所有實(shí)驗(yàn)都是在實(shí)驗(yàn)室搭建的平臺上運(yùn)行的平臺有 臺機(jī)器,都是四核處理器,內(nèi)存版本,版本每臺機(jī)器之間用千兆以太網(wǎng)卡,通過交換機(jī)連接實(shí)驗(yàn)所用的數(shù)據(jù)是人工數(shù)據(jù),維度是維為了測試算法的性能,實(shí)驗(yàn)中構(gòu)造了分別含有104,105,106,2*106 條記錄的數(shù)據(jù)來進(jìn)行測試由于算法中有隨機(jī)初始化中心點(diǎn)的操作,因此對每一組實(shí)驗(yàn)重復(fù)執(zhí)行次,取其平均執(zhí)行時間作為最終實(shí)驗(yàn)結(jié)果第31頁,共34頁。算法改進(jìn)后的實(shí)效可以看出:基于的算法的運(yùn)行效率要遠(yuǎn)遠(yuǎn)高于傳統(tǒng)的算法第32頁,共34頁。Q&A謝謝!/http:/3/m/ / / / / / / 治療癲癇病
13、醫(yī)院/dx/癲癇醫(yī)院/dx/癲癇病的治療方法/dx/治療癲癇病醫(yī)院哪家好/dx/全國癲癇醫(yī)院排名/dx/癲癇病的最新治療方法/dx/北京癲癇醫(yī)院/dx/北京癲癇病專科醫(yī)院/dx/北京癲癇病醫(yī)院/dx/bjdxbyy/北京好的癲癇病醫(yī)院/dx/bjdxbyy/北京治療癲癇病的醫(yī)院/dx/bjdxbyy/癲癇病能治好嗎/dx/dxbnzhm/治療癲癇病好辦法/dx/dxbnzhm/治療癲癇病最好的醫(yī)院/dx/dxzl/治療癲癇病最好的藥/dx/dxzl/北京治療癲癇的醫(yī)院/dx/dxzl/兒童癲癇的最新治療方法/dx/etdx/北京兒童癲癇病科醫(yī)院/dx/etdx/癲癇治療費(fèi)用/dx/dxbzlf
14、y/癲癇治療多少錢/dx/dxbzlfy/癲癇病的手術(shù)費(fèi)用/dx/dxbzlfy/癲癇病會遺傳嗎/dx/dxyc/癲癇遺傳嗎/dx/dxyc/癲癇病的早期癥狀/dx/dxzz/癲癇病的癥狀/dx/dxzz/癲癇癥狀/dx/dxzz/小兒癲癇病的早期癥狀/dx/dxzz/兒童癲癇病的早期癥狀/dx/dxzz/癲癇病是怎么引起的/dx/dxbyy/癲癇病的發(fā)病原因/dx/dxbyy/癲癇病能治愈嗎/dx/dxzy/癲癇病可以治愈嗎/dx/dxzy/北京治愈癲癇病最好的醫(yī)院/dx/dxzy/癲癇病人的壽命/dx/dxsm/癲癇病人的壽命多長/dx/dxsm/治療癲癇病最好的藥/dx/dxbyw/吃什
15、么藥治癲癇最有效/dx/dxbyw/癲癇藥/dx/dxbyw/第33頁,共34頁。46凡事不要說我不會或不可能,因?yàn)槟愀具€沒有去做!47成功不是靠夢想和希望,而是靠努力和實(shí)踐48只有在天空最暗的時候,才可以看到天上的星星49上帝說:你要什么便取什么,但是要付出相當(dāng)?shù)拇鷥r50現(xiàn)在站在什么地方不重要,重要的是你往什么方向移動。51寧可辛苦一陣子,不要苦一輩子52為成功找方法,不為失敗找借口53不斷反思自己的弱點(diǎn),是讓自己獲得更好成功的優(yōu)良習(xí)慣。54垃圾桶哲學(xué):別人不要做的事,我揀來做!55不一定要做最大的,但要做最好的56死的方式由上帝決定,活的方式由自己決定!57成功是動詞,不是名詞!28、年
16、輕是我們拼搏的籌碼,不是供我們揮霍的資本。59、世界上最不能等待的事情就是孝敬父母。60、身體發(fā)膚,受之父母,不敢毀傷,孝之始也; 立身行道,揚(yáng)名於后世,以顯父母,孝之終也。孝經(jīng)61、不積跬步,無以致千里;不積小流,無以成江海。荀子勸學(xué)篇62、孩子:請高看自己一眼,你是最棒的!63、路雖遠(yuǎn)行則將至,事雖難做則必成!64、活魚會逆水而上,死魚才會隨波逐流。65、怕苦的人苦一輩子,不怕苦的人苦一陣子。66、有價值的人不是看你能擺平多少人,而是看你能幫助多少人。67、不可能的事是想出來的,可能的事是做出來的。68、找不到路不是沒有路,路在腳下。69、幸福源自積德,福報來自行善。70、盲目的戀愛以微笑開始,以淚滴告終。71、真正值錢的是分文不用的甜甜的微笑。72、前面是堵墻,用微笑面對,就變成一座橋。73、自尊,偉大的人格力量;自愛,維護(hù)名譽(yù)的金盾。74、今天學(xué)習(xí)不努力,明天努力找工作。75、懂得回報愛,是邁向成熟的第一步。76、讀懂責(zé)任,讀懂使命,讀懂感恩方為懂事。77、不要只會吃奶,要學(xué)會吃干糧,尤其是粗茶淡飯。78、技藝創(chuàng)造價值,本領(lǐng)改變命運(yùn)。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 紙或紙板制告示牌項(xiàng)目運(yùn)營指導(dǎo)方案
- 結(jié)腸鏡項(xiàng)目營銷計(jì)劃書
- 個人貸款行業(yè)營銷策略方案
- 就業(yè)前的背景調(diào)查服務(wù)行業(yè)市場調(diào)研分析報告
- 廢舊輪胎再生利用行業(yè)營銷策略方案
- 園林景觀規(guī)劃行業(yè)營銷策略方案
- 化妝包產(chǎn)品供應(yīng)鏈分析
- 5G智能支付行業(yè)經(jīng)營分析報告
- 互聯(lián)網(wǎng)廣告服務(wù)行業(yè)營銷策略方案
- 家用微波爐出租行業(yè)經(jīng)營分析報告
- 民事起訴狀(食品安全)律師擬定版本
- 管路沿程阻力測定實(shí)驗(yàn)報告
- 城管占道挖掘施工方案
- 施檢表灌砂法測定壓實(shí)度試驗(yàn)記錄表
- 《GMP實(shí)務(wù)教程》 完整全套教學(xué)課件 項(xiàng)目1-14 GMP基礎(chǔ)知識-藥品生產(chǎn)行政檢查
- (完整word)絕緣子試驗(yàn)報告
- 房屋租賃交接家私清單
- 腎內(nèi)科疑難病例討論慢性腎臟病5期
- 認(rèn)識烘焙食品課件
- 中醫(yī)病名對照表
- 創(chuàng)業(yè)基礎(chǔ)-中南財經(jīng)政法大學(xué)中國大學(xué)mooc課后章節(jié)答案期末考試題庫2023年
評論
0/150
提交評論