模式識(shí)別非監(jiān)督學(xué)習(xí)方法聚類分析_第1頁
模式識(shí)別非監(jiān)督學(xué)習(xí)方法聚類分析_第2頁
模式識(shí)別非監(jiān)督學(xué)習(xí)方法聚類分析_第3頁
模式識(shí)別非監(jiān)督學(xué)習(xí)方法聚類分析_第4頁
模式識(shí)別非監(jiān)督學(xué)習(xí)方法聚類分析_第5頁
已閱讀5頁,還剩50頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、模式識(shí)別非監(jiān)督學(xué)習(xí)方法聚類分析第1頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四1.1 基本概念分類與聚類的區(qū)別分類:用已知類別的樣本訓(xùn)練集來設(shè)計(jì)分類器(監(jiān)督學(xué)習(xí))聚類(集群):用事先不知樣本的類別,而利用樣本的先驗(yàn)知識(shí)來構(gòu)造分類器(無監(jiān)督學(xué)習(xí))舉例:小孩區(qū)分桔子和蘋果第2頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四相似性與距離聚類相似性:模式之間具有一定的相似性,這既表現(xiàn)在實(shí)物的顯著特征上,也表現(xiàn)在經(jīng)過抽象以后特征空間內(nèi)的特征向量的分布狀態(tài)上。聚類分析定義:對(duì)一批沒有標(biāo)出類別的模式樣本集,按照樣本之間的相似程度分類,相似的歸為一類,不相似的歸為另一類,這種分類稱為聚類分

2、析,也稱為無監(jiān)督分類。模式識(shí)別高性價(jià)比安卓智能手機(jī)排行榜_熱門促銷智能手機(jī)推薦第3頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四分類依據(jù):一個(gè)樣本的特征向量相當(dāng)于特征空間中的一點(diǎn),整個(gè)模式樣本集合的特征向量可以看成特征空間的一些點(diǎn),點(diǎn)之間的距離函數(shù)可以作為模式相似性的度量,并以此作為模式的分類依據(jù)。聚類分析是按不同對(duì)象之間的差異,根據(jù)距離函數(shù)的規(guī)律進(jìn)行模式分類的。距離函數(shù)的定義特征向量的特性第4頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四聚類分析的有效性:聚類分析方法是否有效,與模式特征向量的分布形式有很大關(guān)系。若向量點(diǎn)的分布是一群一群的,同一群樣本密集(距離很近),不同

3、群樣本距離很遠(yuǎn),則很容易聚類;若樣本集的向量分布聚成一團(tuán),不同群的樣本混在一起,則很難分類;對(duì)具體對(duì)象做聚類分析的關(guān)鍵是選取合適的特征。特征選取得好,向量分布容易區(qū)分,選取得不好,向量分布很難分開。第5頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四特征空間維數(shù)特征信息的冗余性:在對(duì)象分析和特征提取中,往往會(huì)提取一些多余的特征,以期增加對(duì)象識(shí)別的信息量。高維特征空間分析的復(fù)雜性:特征空間維數(shù)越高,聚類分析的復(fù)雜性就越高高維特征空間降維降維方法:相關(guān)分析:特征向量的相關(guān)矩陣R,分析相關(guān)性主成分分析:以正交變換為理論基礎(chǔ)獨(dú)立成分分析:以獨(dú)立性為基礎(chǔ)第6頁,共55頁,2022年,5月20日,

4、6點(diǎn)32分,星期四特征的表示數(shù)值表示:對(duì)于實(shí)際問題,為了便于計(jì)算機(jī)分析和計(jì)算,特征必須進(jìn)行量化。對(duì)不同的分析對(duì)象,量化方法是不一樣的。連續(xù)量的量化:用連續(xù)量來度量的特征,只需取其量化值,如長(zhǎng)度、重量等。分級(jí)量的量化:度量分析對(duì)象等級(jí)的量,用有序的離散數(shù)字進(jìn)行量化,比如學(xué)生成績(jī)的優(yōu),良,中,差可用1,2,3,4等量化表示。定性量的量化:定性指標(biāo),沒有數(shù)量關(guān)系,也沒有次序要求。比如,性別特征:男和女,可用0和1來進(jìn)行表示。第7頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四兩類模式分類的實(shí)例 區(qū)分一攤黑白圍棋子選顏色作為特征進(jìn)行分類,用“1”代表白,“0”代表黑,則很容易分類;選大小作為特

5、征進(jìn)行分類,則白子和黑子的特征相同,不能分類。第8頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四1.2 相似性測(cè)度和聚類準(zhǔn)則 一、相似性的測(cè)度歐氏距離: 表征兩個(gè)模式樣本在特征空間中的Euclid距離,模式X和Z間的距離愈小,則愈相似注意:X和Z的量綱必須一致 消除量綱不一致對(duì)聚類的影響:特征數(shù)據(jù)的正則化(也稱標(biāo)準(zhǔn)化、歸一化),使特征變量與量綱無關(guān)。第9頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四馬氏距離:表征模式向量X與其均值向量m之間的距離平方,C是模式總體的協(xié)方差矩陣,引入?yún)f(xié)方差矩陣,排除了樣本之間的相關(guān)性。 歐式距離中,如果特征向量中某一分量的值非常大,那么就會(huì)掩

6、蓋值小的項(xiàng)所起到的作用,這是歐式距離的不足;當(dāng)采用馬氏距離,就可以屏蔽這一點(diǎn)。因?yàn)橄嚓P(guān)性強(qiáng)的一個(gè)分量,對(duì)應(yīng)于協(xié)方差矩陣C中對(duì)角線上的那一項(xiàng)的值就會(huì)大一些。再將這一項(xiàng)取倒數(shù),減小該影響。當(dāng)協(xié)方差為對(duì)角矩陣時(shí),各特征分量相互獨(dú)立;當(dāng)協(xié)方差為單位矩陣時(shí),馬氏距離和歐氏距離相同。第10頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四其中 分別是樣本向量的第k個(gè)分量;當(dāng)m2時(shí),明氏距離就是歐氏距離;當(dāng)m1時(shí),就是街坊(city block)距離: 一般化的明氏距離第11頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四角度相似性函數(shù):表征了模式向量x和z之間夾角的余弦,反映了幾何上的相似性

7、,當(dāng)坐標(biāo)系旋轉(zhuǎn)或者尺度變換,夾角余弦測(cè)度均保持不變(對(duì)位移和線性變換不成立)如果x和z的分量用二值來表示,0表示不具有某種特征,1表示具有某種特征,則夾角余弦測(cè)度表示x和z具有共有特征數(shù)目的相似性測(cè)度。第12頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四二、聚類準(zhǔn)則的確定試探法憑直觀和經(jīng)驗(yàn),針對(duì)實(shí)際問題選擇相似性測(cè)度并確定此相似性測(cè)度的閾值,然后選擇一定的訓(xùn)練樣本來檢驗(yàn)測(cè)度和閾值的可靠程度,最后按最近鄰規(guī)則指定某些模式樣本屬于某一個(gè)聚類類別。舉例:對(duì)于歐氏距離,它反映了樣本間的近鄰性,但將一個(gè)樣本分到不同類別時(shí),還必須規(guī)定一距離測(cè)度的閾值準(zhǔn)則作為聚類的判別準(zhǔn)則第13頁,共55頁,20

8、22年,5月20日,6點(diǎn)32分,星期四聚類準(zhǔn)則函數(shù)法 聚類就是將樣本進(jìn)行組合分類以使類別可分性為最大,因此聚類準(zhǔn)則應(yīng)是反映類別間相似性(或可分性)的函數(shù);同時(shí),類別又由一個(gè)個(gè)樣本組成,因此類別的可分性與樣本間的差異性直接相關(guān)?;诖耍垲悳?zhǔn)則函數(shù)J,應(yīng)是模式樣本集x和模式類別Sj, j=1,2,c的函數(shù),即第14頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四J代表了分屬于c個(gè)聚類類別的全部模式樣本與其對(duì)應(yīng)類別模式均值之間的誤差平方和;對(duì)于不同的聚類形式, J值是不同的,聚類的目的是:使J值達(dá)到極??;由此可見:聚類分析轉(zhuǎn)化為尋找準(zhǔn)則函數(shù)極值的最優(yōu)化問題;此種聚類方法通常稱為最小方差劃分

9、,適用于各類樣本密集且數(shù)目相差不多,而不同類間的樣本又明顯分開的情況(圖例解釋)把握類內(nèi)距離與類間距離的問題;聚類準(zhǔn)則函數(shù)有許多其他形式。第15頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四1.3 基于試探的聚類搜索算法一、按最鄰近規(guī)則的簡(jiǎn)單試探法 給N個(gè)待分類的模式樣本 ,要求按距離閾值T分類到聚類中心算法過程:Step 1:取任意的樣本xi作為一聚類中的初始值,如令z1=x1,計(jì)算若D21T,確定一新的聚類中心z2=x2否則x2以z1為中心的聚類;第16頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四Step 2:假如已有聚類中心z1和z2,計(jì)算 若D31T和D32T ,

10、則確定一新的聚類中心z3=x3;Step i: 第17頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四討論這種方法的優(yōu)點(diǎn):計(jì)算簡(jiǎn)單,若模式樣本的集合分布的先驗(yàn)知識(shí)已知,則可獲得較好的聚類結(jié)果。在實(shí)際中,對(duì)于高維模式樣本很難獲得準(zhǔn)確的先驗(yàn)知識(shí),因此只能選用不同的閾值和起始點(diǎn)來試探,并對(duì)結(jié)果進(jìn)行驗(yàn)證。這種方法在很大程度上依賴于以下因素:第一個(gè)聚類中心的位置(初始化問題)待分類模式樣本排列次序(聚類樣本的選擇問題)距離閾值T的大小(判決準(zhǔn)則問題)樣本分布的幾何性質(zhì)(樣本的固有特性問題)第18頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四二、最大最小距離算法基本思想:根據(jù)實(shí)際問題選擇

11、距離函數(shù),以試探類間距離為最大作為預(yù)選出聚類中心的條件。核心就是:最大類間距離,最小類內(nèi)距離。算法過程描述:先按照距離最大最小的方法預(yù)選出聚類中心,在按照按最鄰近規(guī)則將模式分類到聚類中心。對(duì)于N個(gè)待分類的模式樣本 ,要求按最大最小距離法分類到聚類中心 。Step 1:選任意一模式樣本xi作為第一聚類中心z1第19頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四Step 2:選離z1最遠(yuǎn)距離的樣本xj作為第二聚類中心z2Step 3:逐個(gè)計(jì)算各模式樣本 與 之間的距離,并選出其中的最小距離。Step 4:在所有模式樣本的最小值中選出最大距離,若該最大值達(dá)到 的一定分?jǐn)?shù)比值以上,則將相應(yīng)的

12、樣本取為第三聚類中心。Step i: 算法性能分析:算法復(fù)雜度增加,在選聚類中心過程中消耗較大的資源。第20頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四1.4 系統(tǒng)聚類系統(tǒng)聚類:先把每個(gè)樣本作為一類,然后根據(jù)它們間的相似性或相鄰性聚合,類別由多到少,直到獲得合適的分類要求為止;相似性、相鄰性用距離表示。聚合的關(guān)鍵就是每次迭代中形成的聚類之間以及它們和樣本之間距離的計(jì)算,不同的距離函數(shù)會(huì)得到不同結(jié)果。兩類間距離計(jì)算準(zhǔn)則:(注意理解)1. 最短距離:兩類中相距最近的兩樣本間的距離第21頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四 2. 最長(zhǎng)距離 :兩類中相距最遠(yuǎn)的兩個(gè)樣本間

13、的距離。 3. 中間距離:最短距離和最長(zhǎng)距離都有片面性,因此有時(shí)用中間距離。設(shè)1類和23類間的最短距離為d12,最長(zhǎng)距離為d13, 23類的長(zhǎng)度為d23,則中間距離為:上式推廣為一般情況:第22頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四4. 重心距離:均值間的距離5. 類平均距離:兩類中各個(gè)元素兩兩之間的距離平方相加后取平均值 第23頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四6. 離差平方和:設(shè)N個(gè)樣本原分q類,則定義第i類的離差平方和為:離差平方和增量:設(shè)樣本已分成p,q兩類,若把p,q合為r類,則定義離差平方增量:第24頁,共55頁,2022年,5月20日,6點(diǎn)

14、32分,星期四算法過程描述:Step1:初始距離矩陣的計(jì)算D(0)說明:(1)距離矩陣元素的值是類與類之間的距離,距離的定義有多種。(2)距離矩陣,是對(duì)稱矩陣。對(duì)角上線的元值表示同類之間的距離,即為0。Step2:對(duì)于第n次迭代的距離矩陣D(n)進(jìn)行聚合第25頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四 說明:距離矩陣中選擇距離最小的,如果有相同的可以任選其中一個(gè),要忽略對(duì)角線上的元素;也可以把相同的全部聚合。Step3:根據(jù)第n次聚合結(jié)果,計(jì)算合并后的新類別之間的距離矩陣D(n+1) 說明:合并類的距離計(jì)算應(yīng)該符合距離的運(yùn)算規(guī)則。若距離反映的是兩類的重心距離,那么合并后,應(yīng)該仍然

15、反映的重心的距離。Step4:收斂性判決(距離閾值D的設(shè)定) 說明:算法的收斂條件判斷準(zhǔn)則的確定。第26頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四例1:如下圖所示(簡(jiǎn)單的一維情況) 1、設(shè)全部樣本分為6類,2、計(jì)算距離矩陣D(0)第27頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四123456102903116044916640525436406642581190第28頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四3、求最小元素:4、把1, 3合并7=(1,3)4, 6合并8=(4,6)5、作距離矩陣D(1),按最小距離準(zhǔn)則728570290849160525

16、440第29頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四6、若合并的類數(shù)沒有達(dá)到要求,轉(zhuǎn)3。否則停止。3、求最小元素:4、8, 5, 2合并, 9=(2,5,4,6)第30頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四1.5 分解聚類分解聚類:把全部樣本作為一類,然后根據(jù)相似性、相鄰性分解。目標(biāo)函數(shù)為:兩類均值方差 N:總樣本數(shù), :1類樣本數(shù) :2類樣本數(shù),第31頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四分解聚類框圖初始分類調(diào)整分類方案最終結(jié)果目標(biāo)函數(shù)達(dá)到最優(yōu)?第32頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四例2:已知21個(gè)樣本,每個(gè)樣本取二

17、個(gè)特征,原始資料矩陣如下表:樣本號(hào)12345678910 x10022445667x265534312101112131415161718192021-4-2-3-3-5100-1-1-3322021-1-2-1-3-5第33頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四目標(biāo)函數(shù)解:第一次分類時(shí)計(jì)算所有樣本,分別劃到 時(shí)的E值,找出最大E值對(duì)應(yīng)的樣本。 1、開始時(shí),第34頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四 2、分別計(jì)算當(dāng) 劃入 時(shí)的E值把 劃入時(shí)有第35頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四 然后再計(jì)算把 劃入 時(shí)對(duì)應(yīng)的E值,找出一個(gè)最大的E值

18、。 一直計(jì)算下去 把 劃為 的E值最大。 E(1)=56.6再繼續(xù)進(jìn)行第二,第三次迭代計(jì)算出 E(2) , E(3) , 第36頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四 次數(shù) E值 1 56.6 2 79.16 3 90.90 4 102.61 5 120.11 6 137.15 7 154.10 8 176.15 9 195.26 10 213.07 11 212.01第37頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四 第10次迭代 劃入 時(shí),E最大。于是分成以下兩類:每次分類后要重新計(jì)算 的值??捎靡韵逻f推公式:第38頁,共55頁,2022年,5月20日,6點(diǎn)3

19、2分,星期四第39頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四1.6 動(dòng)態(tài)聚類兼顧系統(tǒng)聚類和分解聚類一、動(dòng)態(tài)聚類方法概要 先選定某種距離作為樣本間的相似性度量; 確定評(píng)價(jià)聚類結(jié)果的準(zhǔn)則函數(shù); 給出某種初始分類,用迭代法找出使準(zhǔn)則函數(shù)取極值的最好的聚類結(jié)果。第40頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四選代表點(diǎn)初始分類分類合理否最終分類修改分類YN動(dòng)態(tài)聚類框圖第41頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四 二、代表點(diǎn)(種子點(diǎn))的選取方法:代表點(diǎn)就是初始分類的聚類中心數(shù)K 憑經(jīng)驗(yàn)選代表點(diǎn),根據(jù)問題的性質(zhì)、數(shù)據(jù)分布,從直觀上看來較合理的代表點(diǎn)K; 將全部樣

20、本隨機(jī)分成K類,計(jì)算每類重心,把這些重心作為每類的代表點(diǎn); 用前K個(gè)樣本點(diǎn)作為代表點(diǎn)。第42頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四 按密度大小選代表點(diǎn): 以每個(gè)樣本作為球心,以d為半徑做球形;落在球內(nèi)的樣本數(shù)稱為該點(diǎn)的密度,并按密度大小排序。首先選密度最大的作為第一個(gè)代表點(diǎn),即第一個(gè)聚類中心。再考慮第二大密度點(diǎn),若第二大密度點(diǎn)距第一代表點(diǎn)的距離大于d1(人為規(guī)定的正數(shù))則把第二大密度點(diǎn)作為第二代表點(diǎn),否則不能作為代表點(diǎn),這樣按密度大小考察下去,所選代表點(diǎn)間的距離都大于d1。d1太小,代表點(diǎn)太多,d1太大,代表點(diǎn)太小,一般選d12d。對(duì)代表點(diǎn)內(nèi)的密度一般要求大于T。T0為規(guī)定的

21、一個(gè)正數(shù)。第43頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四三、初始分類和調(diào)整 選一批代表點(diǎn)后,代表點(diǎn)就是聚類中心,計(jì)算其它樣本到聚類中心的距離,把所有樣本歸于最近的聚類中心點(diǎn),形成初始分類,再重新計(jì)算各聚類中心,稱為成批處理法。 選一批代表點(diǎn)后,依次計(jì)算其它樣本的歸類,當(dāng)計(jì)算完第一個(gè)樣本時(shí),把它歸于最近的一類,形成新的分類。再計(jì)算新的聚類中心,再計(jì)算第二個(gè)樣本到新的聚類中心的距離,對(duì)第二個(gè)樣本歸類。即每個(gè)樣本的歸類都改變一次聚類中心。此法稱為逐個(gè)處理法。 直接用樣本進(jìn)行初始分類,先規(guī)定距離d,把第一個(gè)樣品作為第一類的聚類中心,考察第二個(gè)樣本,若第二個(gè)樣本距第一個(gè)聚類中心距離小于d

22、,就把第二個(gè)樣本歸于第一類,否則第二個(gè)樣本就成為第二類的聚類中心,再考慮其它樣本,根據(jù)樣本到聚類中心距離大于還是小于d,決定分裂還是合并。第44頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四最佳初始分類:如圖所示,隨著初始分類K的增大,準(zhǔn)則函數(shù)下降很快,經(jīng)過拐點(diǎn)A后,下降速度減慢。拐點(diǎn)A就是最佳初始分類。第45頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四四、K-均值算法:成批處理法例:已知有20個(gè)樣本,每個(gè)樣本有2個(gè)特征,數(shù)據(jù)分布如下圖第一步:令K=2,選初始聚類中心為樣本序號(hào)x1x2x3x4x5x6x7x8x9x10特征x10101212367特征x20011122266x11x12x13x14x15x16x17x18x19x2086789789896777788899第46頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四第47頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四第48頁,共55頁,2022年,5月20日,6點(diǎn)32分,星期四因?yàn)樗?,同理同樣,把其他所有樣?與兩個(gè)聚類中心的距離計(jì)算出來,可判斷得因此,可分類兩大類第49頁

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論