人工智能經(jīng)典電子書ml-20-20181005-聚類-聚類任務(wù)-性能度量-距離計(jì)算_第1頁
人工智能經(jīng)典電子書ml-20-20181005-聚類-聚類任務(wù)-性能度量-距離計(jì)算_第2頁
人工智能經(jīng)典電子書ml-20-20181005-聚類-聚類任務(wù)-性能度量-距離計(jì)算_第3頁
人工智能經(jīng)典電子書ml-20-20181005-聚類-聚類任務(wù)-性能度量-距離計(jì)算_第4頁
人工智能經(jīng)典電子書ml-20-20181005-聚類-聚類任務(wù)-性能度量-距離計(jì)算_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

聚類算法機(jī)器學(xué)習(xí)(MachineLearning)大綱2018年10月6日聚類任務(wù)、性能度量、距離計(jì)算實(shí)戰(zhàn)2018年10月13日原型聚類實(shí)戰(zhàn)2018年10月20日密度聚類、層次聚類實(shí)戰(zhàn)大綱聚類任務(wù)性能度量距離計(jì)算大綱聚類任務(wù)

性能度量距離計(jì)算聚類任務(wù)在“無監(jiān)督學(xué)習(xí)”任務(wù)中研究最多、應(yīng)用最廣.聚類目標(biāo):將數(shù)據(jù)集中的樣本劃分為若干個通常不相交的子集(“簇”,cluster).聚類既可以作為一個單獨(dú)過程(用于找尋數(shù)據(jù)內(nèi)在的分布結(jié)構(gòu)),

也可作為分類等其他學(xué)習(xí)任務(wù)的前驅(qū)過程.聚類任務(wù)形式化描述

假定樣本集

包含個無標(biāo)記樣本,每個樣本

是一個維的特征向量,聚類算法將樣本集

劃分成個不相交的簇

,其中

,且

。相應(yīng)地,用

表示樣本

的“簇標(biāo)記”(即clusterlabel),即

。于是,聚類的結(jié)果可用包含

個元素的簇標(biāo)記向量

表示。大綱

聚類任務(wù)性能度量距離計(jì)算性能度量聚類性能度量,即聚類“有效性指標(biāo)”(validityindex)直觀來講:

我們希望“物以類聚”,即同一簇的樣本盡可能彼此相似,不同簇的樣本盡可能不同。換言之,聚類結(jié)果的“簇內(nèi)相似度”(intra-clustersimilarity)高,且“簇間相似度”(inter-clustersimilarity)低,這樣的聚類效果較好.聚類性能度量指標(biāo):外部指標(biāo)(externalindex)

將聚類結(jié)果與某個“參考模型”(referencemodel)進(jìn)行比較。內(nèi)部指標(biāo)(internalindex)

直接考察聚類結(jié)果而不用任何參考模型。性能度量

對數(shù)據(jù)集,,假定通過聚類得到的簇劃分為,參考模型給出的簇劃分為 .相應(yīng)地,令與分別表示與和對應(yīng)的簇標(biāo)記向量.

我們將樣本兩兩配對考慮,定義

性能度量-外部指標(biāo)Jaccard系數(shù)(JaccardCoefficient,JC)FM指數(shù)(FowlkesandMallowsIndex,FMI)Rand指數(shù)(RandIndex,RI)[0,1]區(qū)間內(nèi),越大越好.性能度量–內(nèi)部指標(biāo)考慮聚類結(jié)果的簇劃分

,定義簇內(nèi)樣本間的平均距離簇內(nèi)樣本間的最遠(yuǎn)距離簇與簇最近樣本間的距離簇

與簇中心點(diǎn)間的距離性能度量–內(nèi)部指標(biāo)DB指數(shù)(Davies-BouldinIndex,DBI)Dunn指數(shù)(DunnIndex,DI)越小越好.越大越好.大綱

聚類任務(wù)

性能度量

距離計(jì)算距離計(jì)算距離度量的性質(zhì):

非負(fù)性:

同一性:當(dāng)且僅當(dāng)

對稱性:

直遞性:距離計(jì)算常用距離:

閔可夫斯基距離(Minkowskidistance): p=2:歐氏距離(Euclideandistance).

p=1:曼哈頓距離(Manhattandistance).距離計(jì)算屬性介紹連續(xù)屬性(continuousattribute)

在定義域上有無窮多個可能的取值離散屬性(categoricalattribute)

在定義域上是有限個可能的取值有序?qū)傩?ordinalattribute)

例如定義域?yàn)閧1,2,3}的離散屬性,“1”與“2”比較接近、與“3”比較遠(yuǎn),稱為“有序?qū)傩浴薄o序?qū)傩?non-ordinalattribute)

例如定義域?yàn)閧飛機(jī),火車,輪船}這樣的離散屬性,不能直接在屬性值上進(jìn)行計(jì)算,稱為“無序?qū)傩浴薄>嚯x度量ValueDifferenceMetric,VDM(處理無序?qū)傩裕?/p>

令表示屬性上取值為的樣本數(shù),表

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論