條件系統(tǒng)聚類方法的研究_第1頁
條件系統(tǒng)聚類方法的研究_第2頁
條件系統(tǒng)聚類方法的研究_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

條件系統(tǒng)聚類方法的研究

對事物的類別研究比對混合和不斷變化的組合更清晰、更清晰、更詳細(xì)。通常,人們可以根據(jù)經(jīng)驗和專業(yè)知識來實現(xiàn)分類。本世紀(jì)中葉,數(shù)值分類學(xué)的發(fā)展使得數(shù)學(xué)這個有用的工具被引入到分類學(xué)中,并逐步形成了聚類分析方法。隨著科學(xué)技術(shù)的突飛猛進(jìn),人們對分類的要求也越來越高,聚類分析方法的研究也越來越細(xì)致,系統(tǒng)聚類、動態(tài)聚類、模糊聚類等眾多的聚類方法,使得人們可以根據(jù)自己的研究目的、處理要求和數(shù)據(jù)類型進(jìn)行選擇,而且希望聚類結(jié)果更符合實際。比如在小兒的生長發(fā)育過程中,我們希望把整個發(fā)育過程人為地分成幾個階段,其次序不能打亂,這是因為小兒發(fā)育是一個連續(xù)的過程,聚類時不僅要考慮小兒的生長發(fā)育速率,還要考慮時間上的連續(xù)性,這就是一種樣品有序的問題。本文討論一維有序樣品的條件系統(tǒng)聚類法(conditionalhierarchicalclustering)。帶約束的系統(tǒng)聚類一般的樣品聚類,不必考慮它們之間的排列次序。但在有些問題中樣品是有序的,分類時不能打亂原有次序,而只能按序?qū)⑷繕悠方爻蓭捉?同類樣品次序互相銜接,這就是有序樣品的聚類。有序樣品的概念由Fisher在1958年提出,他把這種問題稱為帶約束(restricted)的聚類問題,這種聚類是在聚類過程中加入某種約束條件,而這種約束是來自于已有的知識、理論,或客觀存在,或?qū)嶋H要求,目的是使聚類結(jié)果更貼近實際,解釋更合理。有序樣品的聚類,已有一些方法。在這里,我們借用目前實際工作中用得最多,研究也最為深入的系統(tǒng)聚類法之思想,在聚類時加入樣品有序這個條件,這是一種帶約束的系統(tǒng)聚類,可稱為一維有序樣品的條件系統(tǒng)聚類。其聚類過程與一般的系統(tǒng)聚類法相似,只不過在聚類時加入了樣品有序這個條件,所以聚類步驟稍有不同。(1)樣品參數(shù)的選取一維有序樣品的條件系統(tǒng)聚類的關(guān)鍵是根據(jù)實際要求構(gòu)造條件矩陣。我們舉一個簡單的例子來說明這個問題。設(shè)有5個有序樣品a,b,c,d,e,只有一個指標(biāo)x,取值為{10,12,8,9,5}。因為有序,故聚類條件是前后銜接記為1(條件滿足),否則記為0(條件不滿足),得條件矩陣,如下:可見,一維有序樣品聚類時,其條件矩陣的次對角線上的元素均為1,其余各元素均為0。(2)計算距離矩陣:樣品之間的距離可以采用歐氏距離。距離矩陣如下所示把距離矩陣和條件矩陣合并,把距離矩陣中滿足條件者用方框標(biāo)出,并稱其為條件距離矩陣。(3)次結(jié)論條件距離矩陣的計算對條件距離矩陣進(jìn)行系統(tǒng)聚類。與一般系統(tǒng)聚類不同的是,只考慮滿足條件的樣品間的聚類,其余步驟相同。我們采用系統(tǒng)聚類法中最簡單的最短距離法,考察次對角線上的元素,c和d之間的距離為1,最短,所以,第一步把c和d合并,形成一個新的類,記為c+d。然后,計算新類與其余各類的距離,并重新審核各類間條件,得條件距離矩陣如下:不難看出,此時的條件矩陣仍然是次對角線上的元素為1,其余均為0。繼續(xù)考察次對角線上的元素,發(fā)現(xiàn)a和b的距離為2,最短,將a和b合并,形成新類,記作a+b;同樣,計算新類與各類之間的距離,得條件距離矩陣:如果我們還要繼續(xù)合并,就繼續(xù)比較次對角線上的距離,把距離最小的兩類進(jìn)行合并,如上,我們可以把a+b、c+d兩類合并,形成兩類{a,b,c,d}和{e}。最后,把這兩類合并為一類{a,b,c,d,e}。(4)多個一維有序樣品的條件矩陣和距離矩陣在這個例子中,我們可以一目了然地看到分成四類、三類、兩類時的分類結(jié)果。由上可見,n個一維有序樣品的條件矩陣是一個次對角線上的元素為1,而其余所有元素均為0的n×n矩陣。n個一維有序樣品的距離矩陣也是一個n×n矩陣。聚類時,我們首先合并條件矩陣和距離矩陣為條件距離矩陣,然后對該矩陣采用系統(tǒng)聚類法分析,只需比較滿足條件的樣品間距離即可。機(jī)數(shù)隨機(jī)聚類分析對某地區(qū)1253名男孩身長的逐月平均增長率采用上述條件系統(tǒng)聚類法進(jìn)行分析。樣品間的距離采用歐氏距離,聚類方法采用類平均法。結(jié)果如表1:假設(shè)上述實例為一組正態(tài)總體,每一年齡組對應(yīng)于一個總體。每個總體,根據(jù)其均數(shù)和標(biāo)準(zhǔn)差各產(chǎn)生1個隨機(jī)數(shù),則每個樣本都包括20個年齡組,對每個隨機(jī)樣本采用一維有序樣品條件系統(tǒng)聚類法進(jìn)行聚類,如此重復(fù)100次。比較分成兩類、三類、四類時各種分類結(jié)果所占的比例,如表2:由表2可見,分成兩類時,與總體分類相同的分類結(jié)果占93次。分成三類時,第一、二、三類相同的分別有93次、61次、67次,與總體分類完全相同的有61次。分成四類,第一、二、三類相同的分別有93次、47次、38次、50次,與總體分類完全相同的有38次??紤]±1個樣品的誤差時,分成兩類與總體相同的有100次;分成三類與總體相同的有82次,第一、二、三類相同的分別有100次、82次、82次;分成四類與總體相同的有56次,第一、二、三、四類相同的分別有100次、72次、54次、57次。模擬試驗說明,這種聚類方法具有一定的穩(wěn)定性。系統(tǒng)聚類分析一維有序樣品的條件系統(tǒng)聚類方法,與一般的聚類分析方法之差別在于樣品有序,聚類時不能打亂固有的次序。因此,在聚類中必須加入條件約束。有序樣品的條件矩陣很容易構(gòu)造,它就是一個次對角線為1,其他元素全為0的下三角矩陣。距離計算可采用系統(tǒng)聚類法中的各種距離的計算方法,如絕對值距離、歐氏距離、蘭氏距離和馬氏距離等。系統(tǒng)聚類中類間距離的定義亦可直接運用。模擬試驗結(jié)果表明,這種聚類方法的聚類結(jié)果比較穩(wěn)定。Fisher在1958年曾提出了一種有序樣品的聚類方法。該法可以求得有序數(shù)據(jù)的精確最優(yōu)解,所以被稱之為最優(yōu)分割法或最小目標(biāo)函數(shù)法。目標(biāo)函數(shù)是按某種方案將n個有序樣品分成k類時,各類直徑之和。如果目標(biāo)函數(shù)越小,表示同類間直徑越小,即類內(nèi)方差越小,這種分類方法也就越合理。這就是Fisher的最優(yōu)分割法(theleast-squarespartition)。將上述模擬結(jié)果與最優(yōu)分割聚類結(jié)果進(jìn)行比較,分兩類時分類結(jié)果完全相同的有7次。分成三類時,第一、二、三、四類相同的分別有93次、61次、67次,與最優(yōu)分割法分類完全相同的有61次。分四類時,第一、二、三、四類相同的分別有94次、26次、7次、8次,分類完全相同的有5次??紤]±1個樣品的誤差時,分成兩類與總體相同的有100

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論