遙感影像識(shí)別-第三章 聚類分析 Part Ⅰ_第1頁
遙感影像識(shí)別-第三章 聚類分析 Part Ⅰ_第2頁
遙感影像識(shí)別-第三章 聚類分析 Part Ⅰ_第3頁
遙感影像識(shí)別-第三章 聚類分析 Part Ⅰ_第4頁
遙感影像識(shí)別-第三章 聚類分析 Part Ⅰ_第5頁
已閱讀5頁,還剩26頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

遙感影像識(shí)別

第三章:聚類分析PartⅠ§3-1相似性準(zhǔn)則§3-2聚類準(zhǔn)則函數(shù)§3-3兩種簡單的聚類算法§3-4動(dòng)態(tài)聚類算法主要內(nèi)容上一章針對(duì)確定性的模式分類方法進(jìn)行了討論,所謂確定性的模式是指:如果試驗(yàn)對(duì)象和測量條件相同,所有的測量具有重復(fù)性,即在多次的測量中,它們的結(jié)果不變,這樣獲得的模式,簡稱確定性的模式。

與之相對(duì)應(yīng)的,測量結(jié)果是隨機(jī)的,這樣的模式稱為隨機(jī)模式。隨機(jī)模式可以采用基于Bayes理論的分類方法進(jìn)行分類,其前提是各類別總體的概率分布已知,要決策的分類的類別數(shù)一定。

對(duì)于確定性的模式,如果類別已知(訓(xùn)練樣本屬性也已知),則可以通過上一章介紹的方法進(jìn)行分類。

當(dāng)預(yù)先不知道類型數(shù)目,或者用參數(shù)估計(jì)和非參數(shù)估計(jì)難以確定不同類型的類概率密度函數(shù)時(shí),為了確定分類器的性能,可以利用聚類分析的方法。

聚類分析無訓(xùn)練過程,訓(xùn)練與識(shí)別混合在一起。

設(shè)有樣本集,要求按某種相似性把X分類,怎樣實(shí)現(xiàn)?

利用參數(shù)估計(jì)或非參數(shù)估計(jì)的方法,在混合密度的局部極大值區(qū)域?qū)?yīng)著一個(gè)類型,但是這個(gè)方法需要大量的樣本。況且,有時(shí)混合訓(xùn)練樣本集X的數(shù)據(jù)結(jié)構(gòu)具有相同的統(tǒng)計(jì)特征,它們都包含著不同數(shù)目的類型。

如下圖所示,表示具有相同的試驗(yàn)平均值和樣本協(xié)方差矩陣的三個(gè)數(shù)據(jù)集。

§3-1相似性準(zhǔn)則

在上述圖中,(a)具有一個(gè)類型,(b)、(c)各有兩個(gè)類型。此時(shí),無論是參數(shù)估計(jì),還是非參數(shù)估計(jì),都無法取得合理的結(jié)果,必須采用聚類分析的方法進(jìn)行分類。

聚類分析符合“物以類聚,人以群分“的原則,它把相似性大的樣本聚集為一個(gè)類型,在特征空間里占據(jù)著一個(gè)局部區(qū)域。每個(gè)局部區(qū)域都形成一個(gè)聚合中心,聚合中心代表相應(yīng)類型。如上圖中,(a)有一個(gè)聚合中心,(b)、(c)有兩個(gè)。聚類分析避免了估計(jì)類概率密度的困難,對(duì)每個(gè)聚合中心來說都是局部密度極大值位置,其附近密度高,距離越遠(yuǎn)密度越小。因此,聚類分析方法與估計(jì)密度函數(shù)的方法還是一致的,只是采用了不同的技術(shù)途徑。

聚類分析的關(guān)鍵問題:如何在聚類過程中自動(dòng)地確定類型數(shù)目c。實(shí)際工作中,也可以給定c值作為算法終止的條件。聚類分析的結(jié)果與特征的選取有很大的關(guān)系。不同的特征,分類的結(jié)果不同。因此,如何衡量樣本相似性,對(duì)聚類有直接影響。

一個(gè)模式樣本,對(duì)應(yīng)特征空間里的一個(gè)點(diǎn)。如果模式的特征是適當(dāng)選擇的,也就是各維特征對(duì)于分類來說都是有效的,那么同類樣本就會(huì)密集地分布在一個(gè)區(qū)域里,不同類的模式樣本就會(huì)遠(yuǎn)離。因此,點(diǎn)間距離遠(yuǎn)近反映了相應(yīng)模式樣本所屬類型有無差異,可以作為樣本相似性度量。距離越近,相似性越大,屬于一個(gè)類型。聚類分析中,最常用的就是距離相似性。

1.距離相似性度量

(1)歐氏距離歐氏距離簡稱距離,模式樣本向量x與y之間的歐氏距離定義為:這里,d為特征空間的維數(shù)。當(dāng)較小時(shí),表示x和y在一個(gè)類型區(qū)域,反之,則不在一個(gè)類型區(qū)域。

這里有一個(gè)門限的選擇問題。

若選擇過大,則全部樣本被視作一個(gè)唯一類型;若選取過小,則可能造成每個(gè)樣本都單獨(dú)構(gòu)成一個(gè)類型。必須正確選擇門限值以保證正確分類。

另外,模式特征坐標(biāo)單位的選取也會(huì)強(qiáng)烈地影響聚類結(jié)果。

例如:一個(gè)二維模式,一個(gè)特征是長度,另一個(gè)特征是壓力。

當(dāng)長度由厘米變?yōu)槊祝谥虚L度特征的比重會(huì)下降,同樣,若把比重單位由毫米汞柱高度變成厘米汞柱高度,值中壓力特征的影響也會(huì)下降。

可以用圖表示上述情況:

從上圖看出,(b)、(c)特征空間劃分是不同的。(b)中為一類,為另一類,(c)中為一類,為另一類。

歐氏距離具有旋轉(zhuǎn)不變的特性,但對(duì)于一般的線性變換不是不變的,此時(shí)要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化(歐氏距離使用時(shí),注意量綱,量綱不同聚類結(jié)果不同,克服這一缺點(diǎn),要使特征數(shù)據(jù)標(biāo)準(zhǔn)化使之與量綱無關(guān))。另外,使用歐氏距離度量時(shí),還要注意模式樣本測量值的選取,應(yīng)該是有效反映類別屬性特征(各類屬性的代表應(yīng)均衡)。但馬氏距離可解決不均衡(一個(gè)多,一個(gè)少)的問題。例如,取5個(gè)樣本,其中有4個(gè)反映對(duì)分類有意義的特征A,只有1個(gè)對(duì)分類有意義的特征B,歐氏距離的計(jì)算結(jié)果,則主要體現(xiàn)特征A。

(2)馬氏(Mahalanobis)距離

定義:馬氏距離的平方其中,為均值向量,為協(xié)方差矩陣。馬氏距離排除了不同特征之間相關(guān)性的影響,其關(guān)鍵在于協(xié)方差矩陣的計(jì)算。當(dāng)∑為對(duì)角陣時(shí),各特征之間才完全獨(dú)立;當(dāng)∑為單位矩陣時(shí),馬氏距離等于歐氏距離。馬氏距離比較適用于對(duì)樣本已有初步分類的情況,做進(jìn)一步考核、修正。(3)明氏(Minkowsky)距離

定義:明氏距離:

它是若干距離函數(shù)的通式:時(shí),等于歐氏距離;時(shí),稱為“街坊”(cityblock)距離。

樣本x與y之間的角度相似性度量定義為它們之間夾角的余弦,即:

也是單位向量之間的點(diǎn)積(內(nèi)積)。越大,x、y越相似。常用于情報(bào)檢索、植物分類、疾病分類。2.角度相似性度量

滿足:①②當(dāng)時(shí),達(dá)到最大。對(duì)于坐標(biāo)系的旋轉(zhuǎn)及放大、縮小是不變的量,但對(duì)位移和一般性的線性變換不是不變的。

當(dāng)模式的各特征僅為(0,1)二元取值時(shí),的意義如下:

①若模式樣本的第i維特征取值為1,則該樣本占有第i維特征。②若模式樣本的第i維特征取值為0,則該樣本無此維特征。此時(shí),等于x與y兩個(gè)向量中,共有的特征數(shù)目。為x占有的特征數(shù)目與y占有的特征數(shù)目的幾何平均。

因此,二元取值情況下,反映x與y共有的特征數(shù)目的相似性度量。顯然,越大,共有特征數(shù)目越多,相似性越高。

除上述相似性度量外,還有許多相似性度量,如“樣本與核的相似性度量”,“近鄰函數(shù)值相等”相似性度量,這些都是為解決某一特殊問題的相似性度量,都是從上述相似性度量派生出來的。樣本相似性度量是聚類分析的基礎(chǔ),針對(duì)具體問題,選擇適當(dāng)?shù)南嗨菩远攘渴潜WC聚類質(zhì)量的重要問題。但有了相似性度量還不夠,還必須有適當(dāng)?shù)木垲悳?zhǔn)則函數(shù)。聚類準(zhǔn)則函數(shù)對(duì)聚類質(zhì)量也有重大影響。

♂相似性度量→集合與集合的相似性。

♂相似性準(zhǔn)則→分類效果好壞的評(píng)價(jià)準(zhǔn)則。

在樣本相似性度量的基礎(chǔ)上,聚類分析還需要一定的準(zhǔn)則函數(shù),才能把真正屬于同一類的樣本聚合成一個(gè)類型的子集,而把不同類的樣本分離開來。

如果聚類準(zhǔn)則函數(shù)選得好,聚類質(zhì)量就會(huì)高。同時(shí),聚類準(zhǔn)則函數(shù)還可以用來評(píng)價(jià)一種聚類結(jié)果的質(zhì)量,如果聚類質(zhì)量不滿足要求,就要重復(fù)執(zhí)行聚類過程,以優(yōu)化結(jié)果。

在重復(fù)優(yōu)化中,可以改變相似性度量,也可以選用新的聚類準(zhǔn)則。

§3-2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論