數(shù)字圖像聚類(lèi)技術(shù)研究_第1頁(yè)
數(shù)字圖像聚類(lèi)技術(shù)研究_第2頁(yè)
數(shù)字圖像聚類(lèi)技術(shù)研究_第3頁(yè)
數(shù)字圖像聚類(lèi)技術(shù)研究_第4頁(yè)
數(shù)字圖像聚類(lèi)技術(shù)研究_第5頁(yè)
已閱讀5頁(yè),還剩14頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)字圖像聚類(lèi)技術(shù)研究多媒體是一種極其重要的信息資源,現(xiàn)代技術(shù)已能運(yùn)用各種手段大量地采集和產(chǎn)生各種類(lèi)型的多媒體信息數(shù)據(jù),而多媒體信息中占有舉足輕重作用的一種就是圖像信息。近年來(lái)隨著需求的增加、工藝技術(shù)的進(jìn)步,以各種方式獲取的圖像信息的數(shù)量得到了飛速的增長(zhǎng),進(jìn)入新世紀(jì)后,有人估計(jì)世界每年產(chǎn)生的新圖像已達(dá)800億幅,信息膨脹已給人類(lèi)帶來(lái)過(guò)多的信息量以致超出了人的接受能力,有鑒于此,如何快速、準(zhǔn)確、高效的從浩如煙海的圖像信息源(比如網(wǎng)絡(luò))中獲取有用的信息就變得極為重要,近年來(lái)國(guó)際上廣泛開(kāi)展了基于內(nèi)容的圖像檢索研究,而其中圖像聚類(lèi)與檢索技術(shù)已取得相當(dāng)進(jìn)展,在各個(gè)領(lǐng)域已得到了廣泛的應(yīng)用。所謂圖像聚類(lèi)就是在給出的圖像集合中,根據(jù)圖像的內(nèi)容,在無(wú)先驗(yàn)知識(shí)的條件下,將圖像分成有意義的簇。對(duì)于圖像聚類(lèi),最引人注目的特征屬性是顏色、紋理和形狀等。目前有很多有效的聚類(lèi)技術(shù),如層次聚類(lèi)算法、基于分割的算法、劃分算法、層次方法、基于密度的算法、基于模型的方法以及基于網(wǎng)格的方法。1引言在圖像檢索的過(guò)程中我們同樣面臨著分類(lèi)的任務(wù),具體地講就是圖像的聚類(lèi)。所謂圖像聚類(lèi)就是將未知類(lèi)別的一組圖像分成若干類(lèi)的過(guò)程,也稱(chēng)無(wú)監(jiān)督學(xué)習(xí)或無(wú)教師學(xué)習(xí)。聚類(lèi)分析的思路比較直觀,根據(jù)各個(gè)待分類(lèi)圖像特征的相似程度來(lái)進(jìn)行分類(lèi),將在特征空間中聚集在一起的樣本點(diǎn)劃分為一類(lèi)。選擇合適的聚類(lèi)算法對(duì)圖像庫(kù)中的圖像進(jìn)行聚類(lèi),是我們的核心任務(wù)之一。因此根據(jù)實(shí)際科研情況,選擇一個(gè)好的聚類(lèi)算法對(duì)后續(xù)的研究工作是非常關(guān)鍵的。聚類(lèi)的定義:聚類(lèi)是將數(shù)據(jù)劃分成群組的過(guò)程。通過(guò)確定數(shù)據(jù)之間在預(yù)先制定的屬性上的相似性來(lái)完成聚類(lèi)任務(wù),這樣最相似的數(shù)據(jù)就聚集成簇。聚類(lèi)與分類(lèi)的不同點(diǎn):聚類(lèi)的類(lèi)別取決于數(shù)據(jù)本身;而分類(lèi)的類(lèi)別是由數(shù)據(jù)分析人員預(yù)先定義好的。聚類(lèi)算法的分類(lèi):一般可分為基于層次的,基于劃分的,基于密度的,基于網(wǎng)格的和基于模型的五種.2聚類(lèi)的定義

聚類(lèi)分析僅根據(jù)在數(shù)據(jù)中發(fā)現(xiàn)的描述對(duì)象及其關(guān)系的信息,將數(shù)據(jù)對(duì)象分組。其目標(biāo)是,組內(nèi)的對(duì)象相互之間是相關(guān)的,而不同組的對(duì)象是不相關(guān)的,組內(nèi)相似度越大,組間差別度越大,聚內(nèi)效果就越好。聚類(lèi)分析技術(shù)作為強(qiáng)大的輔助工具在科學(xué)研究、社會(huì)服務(wù)、市場(chǎng)營(yíng)銷(xiāo)等多個(gè)領(lǐng)域發(fā)揮了巨大的作用。因此聚類(lèi)分析技術(shù)研究也成為一個(gè)熱點(diǎn)課題。3聚類(lèi)方法

目前,在聚類(lèi)的算法主要可分為以下幾種:劃分算法、層次方法、基于密度的算法、基于模型的方法以及基于網(wǎng)格的方法。下面主要介紹劃分方法和層次方法:圖1CURE中的做法。(b)綜合層次凝聚和迭代的重定位方法。首先用自底向上的層次算法,然后用迭代的重定位來(lái)改進(jìn)結(jié)果。分裂的層次聚類(lèi)是將像這樣的自頂向下的策略與凝聚的層次聚類(lèi)有些不一樣,它首先將所有對(duì)象放在一個(gè)簇中,然后慢慢地細(xì)分為越來(lái)越小的簇,直到每個(gè)對(duì)象自行形成一簇,或者直達(dá)滿(mǎn)足其他的一個(gè)終結(jié)條件,例如滿(mǎn)足了某個(gè)期望的簇?cái)?shù)目,又或者兩個(gè)最近的簇之間的距離達(dá)到了某一個(gè)閾值。3.1.2基于距離度量的方法在凝聚和分裂的層次聚類(lèi)之間,我們又依據(jù)計(jì)算簇間的距離的不同,分為下面的幾類(lèi)方法:?jiǎn)芜B鎖(singlelinkage),又稱(chēng)最近鄰(nearestneighbor)方法。指兩個(gè)不一樣的簇之間任意兩點(diǎn)之間的最近距離。這里的距離是表示兩點(diǎn)之間的相異度,所以距離越近,兩個(gè)簇相似度越大。這種方法最善于處理非橢圓結(jié)構(gòu)。卻對(duì)于噪聲和孤立點(diǎn)特別的敏感,取出距離很遠(yuǎn)的兩個(gè)類(lèi)之中出現(xiàn)一個(gè)孤立點(diǎn)時(shí),這個(gè)點(diǎn)就很有可能把兩類(lèi)合并在一起。距離公式如公式1所示。(1)(1)全連鎖(comlpetelinkage),又稱(chēng)最遠(yuǎn)鄰(furthestneighbor)方法。指兩個(gè)不一樣的簇中任意的兩點(diǎn)之間的最遠(yuǎn)的距離。它面對(duì)噪聲和孤立點(diǎn)很不敏感,趨向于尋求某一些緊湊的分類(lèi),但是,有可能使比較大的簇破裂。距離公式如公式2所示。(2)(2)組平均方法(grouPaveragelinkage),定義距離為數(shù)據(jù)兩兩距離的平均值。這個(gè)方法傾向于合并差異小的兩個(gè)類(lèi),產(chǎn)生的聚類(lèi)具有相對(duì)的魯棒性。距離公式如公式3所示。(3)(3)平均值方法(centroidlinkage),現(xiàn)計(jì)算各個(gè)類(lèi)的平均值,然后定義平均值之差為兩類(lèi)的距離。距離公式如公式3.4所示。(4)(4)其中,是兩個(gè)類(lèi),|為對(duì)象p和之間的距離,,分別為,的對(duì)象個(gè)數(shù),,分別為類(lèi),的平均值。3.2基于劃分的聚類(lèi)方法給定一個(gè)數(shù)據(jù)庫(kù)包含個(gè)數(shù)據(jù)對(duì)象以及數(shù)目K的即將生成的簇,一個(gè)劃分類(lèi)的算法將對(duì)象分為K個(gè)劃分,其中,這里的每個(gè)劃分分別代表一個(gè)簇,并且K<=。其中的K需要人為指定。它一般從一個(gè)初始劃分開(kāi)始,然后通過(guò)重復(fù)的控制策略,使某個(gè)準(zhǔn)則函數(shù)最優(yōu)化。因此,它可以被看作是一個(gè)優(yōu)化問(wèn)題,而優(yōu)化問(wèn)題往往是NP-難問(wèn)題?;趧澐值木垲?lèi)方法的優(yōu)缺點(diǎn)跟層次的聚類(lèi)方法的優(yōu)缺點(diǎn)剛剛好反,層次聚類(lèi)算法的優(yōu)點(diǎn)恰恰是劃分聚類(lèi)方法的缺點(diǎn),反之亦然。根據(jù)它們之間的優(yōu)缺點(diǎn),人們往往會(huì)更趨向于使用劃分的聚類(lèi)方法,所以,本文著重于講解基于劃分的聚類(lèi)方法?;趧澐值木垲?lèi)算法有許多,下面介紹幾中常見(jiàn)的基于劃分的聚類(lèi)算法。3.2.1K-meansk-means算法是最為經(jīng)典的基于劃分的聚類(lèi)方法,是十大經(jīng)典數(shù)據(jù)挖掘算法之一。k-means算法的基本思想是:以空間中k個(gè)點(diǎn)為中心進(jìn)行聚類(lèi),對(duì)最靠近他們的對(duì)象歸類(lèi)。通過(guò)迭代的方法,逐次更新各聚類(lèi)中心的值,直至得到最好的聚類(lèi)結(jié)果。該算法的迭代的終止條件是直至中心點(diǎn)收斂。因此,K-means算法需要優(yōu)化的目標(biāo)函數(shù)是:(5)其中E為數(shù)據(jù)庫(kù)中所有對(duì)象的均方差之和,p為代表對(duì)象的空間中的一個(gè)點(diǎn),mi為聚類(lèi)Ci的均值(p和mi均是多維的)。公式(1)所示的聚類(lèi)標(biāo)準(zhǔn),旨在使所獲得的k個(gè)聚類(lèi)具有以下特點(diǎn):各聚類(lèi)本身盡可能的緊湊,而各聚類(lèi)之間盡可能的分開(kāi)。而K-medoids算法跟k-means算法的不同之處在于K-medoids用接近聚類(lèi)中心的一個(gè)對(duì)象來(lái)表示每個(gè)簇而K-means用簇中對(duì)象的平均值來(lái)表示每個(gè)簇。輸入:簇的數(shù)目k和包含n個(gè)對(duì)象的數(shù)據(jù)集。輸出:k個(gè)簇。方法:(1)對(duì)于數(shù)據(jù)對(duì)象集,任意選取k個(gè)對(duì)象作為初始的簇中心;(2)根據(jù)簇中對(duì)象的平均值,將每個(gè)對(duì)象重新賦給最相似的簇;(3)更新簇的平均值,即計(jì)算每個(gè)簇中對(duì)象的平均值;(4)重復(fù)(2)(3);(5)直到不再發(fā)生變化。(a)(b)(c)3.2.2模糊C均值算法C-均值聚類(lèi)算法:1.條件及約定設(shè)待分類(lèi)的模式特征矢量集為,類(lèi)的數(shù)目是事先確定的。2.基本思路設(shè)方法取定類(lèi)和選取個(gè)初始聚類(lèi)中心,按最小距離原則將各模式分配到類(lèi)中的某一類(lèi),之后不斷地計(jì)算類(lèi)心和調(diào)整個(gè)模式的類(lèi)別,最終使各模式到其判屬類(lèi)別中心的距離平方之和最小。3.算法步驟(1)任選個(gè)模式特征矢量作為初始聚類(lèi)中心:,令。(2)將待分類(lèi)的模式特征矢量集中的模式逐個(gè)按最小距離原則分劃給類(lèi)中的某一類(lèi),即如果,,存在一個(gè)。則判定。式中表示和的中心的距離,上角標(biāo)表示迭代次數(shù)。于是產(chǎn)生新的聚類(lèi)。(3)計(jì)算重新分類(lèi)后的各類(lèi)中心式中為類(lèi)中所含模式的個(gè)數(shù)。因?yàn)檫@一步采取平均的方法計(jì)算調(diào)整后各類(lèi)的中心,且定為類(lèi),故稱(chēng)為-均值法。(4)如果,則結(jié)束;否則,,轉(zhuǎn)至(2)。應(yīng)用C-均值聚類(lèi)算法實(shí)現(xiàn)圖像聚類(lèi):這里假設(shè)圖像分割成個(gè)區(qū)域,其圖像大小為的灰度圖像,任意位置處的灰度值為。因此,灰度圖像可采用集合方式描述為。假設(shè)灰度圖像中最小灰度值為,最大灰度值為,其中任意灰度級(jí)出現(xiàn)的總個(gè)數(shù)記為且滿(mǎn)足,這里表示給定灰度圖像中所有灰度總個(gè)數(shù)。采用C-均值聚類(lèi)圖像的算法過(guò)程如下:步驟1:從0至255中任意選取個(gè)不同大小的值作為圖像聚成類(lèi)的中心值,即采用0至255的整數(shù)初始化的值,令。步驟2:將圖像中所有不同位置像素的灰度值逐個(gè)按最小距離原則分劃給類(lèi)中的某一類(lèi),即如果,,存在一個(gè),則判定。式中表示和的中心的距離,上角標(biāo)表示迭代次數(shù)。于是產(chǎn)生新的聚類(lèi)。步驟3:計(jì)算重新分類(lèi)后的各類(lèi)中心式中為類(lèi)中所含模式的個(gè)數(shù)。因?yàn)檫@一步采取平均的方法計(jì)算調(diào)整后各類(lèi)的中心,且定為類(lèi),故稱(chēng)為-均值法。如果,則結(jié)束;否則,,轉(zhuǎn)至步驟2.(a)(b)(c)3.2.3KHM算法譜聚類(lèi)算法首先根據(jù)給定的樣本數(shù)據(jù)集定義一個(gè)描述成對(duì)數(shù)據(jù)點(diǎn)相似度的親合矩陣,并且計(jì)算矩陣的特征值和特征向量

,然后選擇合適的特征向量聚類(lèi)不同的數(shù)據(jù)點(diǎn)。譜聚類(lèi)算法最初用于計(jì)算機(jī)視覺(jué)

、VLSI設(shè)計(jì)等領(lǐng)域,最近才開(kāi)始用于機(jī)器學(xué)習(xí)中,并迅速成為國(guó)際上機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)。譜聚類(lèi)算法建立在譜圖理論基礎(chǔ)上,其本質(zhì)是將聚類(lèi)問(wèn)題轉(zhuǎn)化為圖的最優(yōu)劃分問(wèn)題,是一種點(diǎn)對(duì)聚類(lèi)算法,與傳統(tǒng)的聚類(lèi)算法相比,它具有能在任意形狀的樣本空間上聚類(lèi)且收斂于全局最優(yōu)解的優(yōu)點(diǎn)。KHM算法的權(quán)重是個(gè)變量,它把距離中心點(diǎn)遠(yuǎn)的數(shù)據(jù)點(diǎn)賦以高的權(quán)重,這樣可以讓質(zhì)心能夠很好的覆蓋整個(gè)數(shù)據(jù)集。KHM算法對(duì)初始值不敏感,適合處理大數(shù)據(jù)集,然而KHM算法容易陷入局部最優(yōu)及簇個(gè)數(shù)需要預(yù)先指定的問(wèn)題。綜合上來(lái)說(shuō)它勝過(guò)K-means、FCM和EM算法。3.3基于密度的算法絕大多數(shù)劃分方法基于對(duì)象之間的距離進(jìn)行聚類(lèi),這樣的方法只能發(fā)現(xiàn)球狀的類(lèi)。因此,出現(xiàn)了基于密度的聚類(lèi)方法,其主要思想是:只要鄰近區(qū)域的密度(對(duì)象或數(shù)據(jù)點(diǎn)的數(shù)目)超過(guò)某個(gè)閾值,就繼續(xù)聚類(lèi),這樣的方法可以過(guò)濾“噪聲”數(shù)據(jù),發(fā)現(xiàn)任意形狀的類(lèi)。從而克服基于距離的方法只能發(fā)現(xiàn)類(lèi)圓形聚類(lèi)的缺點(diǎn)。代表性算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等。DBSCAN(densitybasedspatialclusteringofapplicationswithnoise)算法可以有效地發(fā)現(xiàn)具有任意形狀的類(lèi),并正確地處理噪聲數(shù)據(jù)。除此之外,該算法還具有實(shí)現(xiàn)簡(jiǎn)單、聚類(lèi)效果較好等優(yōu)點(diǎn)。該算法對(duì)于一個(gè)類(lèi)中的每個(gè)對(duì)象,在其給定半徑的領(lǐng)域中包含的對(duì)象不能少于某一給定的最小數(shù)目,即DBSCAN算法將聚類(lèi)定義為基于密度可達(dá)性最大的密度相連對(duì)象的集合。另外不進(jìn)行任何的預(yù)處理而直接對(duì)整個(gè)數(shù)據(jù)集進(jìn)行聚類(lèi)操作。DBSCAN對(duì)用戶(hù)定義的參數(shù)很敏感,細(xì)微的不同都可能導(dǎo)致差別很大的結(jié)果,而參數(shù)的選擇無(wú)規(guī)律可循,只能靠經(jīng)驗(yàn)確定。OPTICS算法是一種基于類(lèi)排序方法。該算法并不明確產(chǎn)生一個(gè)聚類(lèi),而是為自動(dòng)交互的聚類(lèi)分析計(jì)算出一個(gè)增強(qiáng)聚類(lèi)順序。這個(gè)順序代表了數(shù)據(jù)的基于密度的聚類(lèi)結(jié)構(gòu)。核心距離:對(duì)象p的核心距離是指是p成為核心對(duì)象的最小E’。如果p不是核心對(duì)象,那么p的核心距離沒(méi)有任何意義??蛇_(dá)距離:對(duì)象q到對(duì)象p的可達(dá)距離是指p的核心距離和p與q之間歐幾里得距離之間的較大值。如果p不是核心對(duì)象,p和q之間的可達(dá)距離沒(méi)有意義。例如:假設(shè)鄰域半徑E=2,minPts=3,存在點(diǎn):A(2,3),B(2,4),C(1,4),D(1,3),E(2,2),F(3,2)點(diǎn)A為核心對(duì)象,在A的E領(lǐng)域中有點(diǎn){A,B,C,D,E,F},其中A的核心距離為E’=1,因?yàn)樵邳c(diǎn)A的E’鄰域中有點(diǎn){A,B,D,E}>3;DENCLUE算法是一個(gè)基于一組密度分布函數(shù)的聚類(lèi)算法。該算法主要基于下面的想法:(1)每個(gè)數(shù)據(jù)點(diǎn)的影響可以用一個(gè)數(shù)學(xué)函數(shù)來(lái)形式化地模擬,它描述了一個(gè)數(shù)據(jù)點(diǎn)在領(lǐng)域內(nèi)的影響,被稱(chēng)為影響函數(shù);(2)數(shù)據(jù)空間的整體密度可以被模型化為所有數(shù)據(jù)點(diǎn)的影響函數(shù)的總和;(3)聚類(lèi)可以通過(guò)確定密度吸引點(diǎn)來(lái)得到,這里的密度吸引點(diǎn)是全局密度函數(shù)的局部最大。3.4基于網(wǎng)格法主要思想是將空間區(qū)域劃分若干個(gè)具有層次結(jié)構(gòu)的矩形單元,不同層次的單元對(duì)應(yīng)于不同的分辨率網(wǎng)格,把數(shù)據(jù)集中的所有數(shù)據(jù)都映射到不同的單元網(wǎng)格中,算法所有的處理都是以單個(gè)單元網(wǎng)格為對(duì)象,其處理速度要遠(yuǎn)比以元組為處理對(duì)象的效率要高的多。代表性算法有:STING算法、CLIQUE算法、WAVE-CLUSTER算法等。STING(statisticalinformationgrid)算法首先將空間區(qū)域劃分為若干矩形單元,這些單元形成一個(gè)層次結(jié)構(gòu),每個(gè)高層單元被劃分為多個(gè)低一層的單元。單元中預(yù)先計(jì)算并存儲(chǔ)屬性的統(tǒng)計(jì)信息,高層單元的統(tǒng)計(jì)信息可以通過(guò)底層單元計(jì)算獲得。這種算法的優(yōu)點(diǎn)是效率很高,而且層次結(jié)構(gòu)有利于并行處理和增量更新;其缺點(diǎn)是聚類(lèi)的邊界全部是垂直或是水平的,與實(shí)際情況可能有比較大的差別,影響聚類(lèi)的質(zhì)量。CLIQUE(clusteringinquest)算法綜合了基于密度和基于網(wǎng)格的聚類(lèi)方法。其主要思想是將多維數(shù)據(jù)空間劃分為多個(gè)矩形單元,通過(guò)計(jì)算每一個(gè)單元中數(shù)據(jù)點(diǎn)中全部數(shù)據(jù)點(diǎn)的比例的方法確定聚類(lèi)。其優(yōu)點(diǎn)是能夠有效處理高維度的數(shù)據(jù)集,缺點(diǎn)是聚類(lèi)的精度有可能會(huì)降低。WaveCluster(clusteringusingwavelettransformation)算法是一種采用小波變換的聚類(lèi)方法。其首先使用多維數(shù)據(jù)網(wǎng)格結(jié)構(gòu)匯總區(qū)域空間數(shù)據(jù),用多維向量空間表示多維空間中的數(shù)據(jù)對(duì)象,然后使用小波變換方法對(duì)特征空間進(jìn)行處理,發(fā)現(xiàn)特征空間中的稠密區(qū)域。最終通過(guò)多次小波變換,獲得多分辨率的聚類(lèi)。3.5基于模型法給每一個(gè)聚類(lèi)假定一個(gè)模型,然后去尋找能夠很好地滿(mǎn)足這個(gè)模型的數(shù)據(jù)集。常用的模型主要有兩種:一種是統(tǒng)計(jì)學(xué)的方法,代表性算法是COBWEB算法;另一種是神經(jīng)網(wǎng)絡(luò)的方法,代表性的算法是競(jìng)爭(zhēng)學(xué)習(xí)算法。COBWEB算法是一種增量概念聚類(lèi)算法。這種算法不同于傳統(tǒng)的聚類(lèi)方法,它的聚類(lèi)過(guò)程分為兩步:首先進(jìn)行聚類(lèi),然后給出特征描述。因此,分類(lèi)質(zhì)量不再是單個(gè)對(duì)象的函數(shù),而且也加入了對(duì)聚類(lèi)結(jié)果的特征性描述。競(jìng)爭(zhēng)學(xué)習(xí)算法屬于神經(jīng)網(wǎng)絡(luò)聚類(lèi)。它采用若干個(gè)單元的層次結(jié)構(gòu),以一種“勝者全取”的方式對(duì)系統(tǒng)當(dāng)前所處理的對(duì)象進(jìn)行競(jìng)爭(zhēng)。COBWEB是一種流行的簡(jiǎn)單增量概念聚類(lèi)算法。它的輸入對(duì)象用分類(lèi)屬性-值對(duì)來(lái)描述。它以一個(gè)分類(lèi)樹(shù)的形式創(chuàng)建層次聚類(lèi)。分類(lèi)樹(shù)的每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)概念,包含該概念的一個(gè)概率描述,概述被分在該節(jié)點(diǎn)下的對(duì)象。在分類(lèi)樹(shù)某個(gè)層次上的兄弟節(jié)點(diǎn)形成了一個(gè)劃分。為了用分類(lèi)樹(shù)對(duì)一個(gè)對(duì)象進(jìn)行分類(lèi),采用了一個(gè)部分匹配函數(shù)沿著“最佳”匹配節(jié)點(diǎn)的路徑在樹(shù)中向下移動(dòng)。尋找可以分類(lèi)該對(duì)象的最好節(jié)點(diǎn)。這個(gè)判定基于將對(duì)象臨時(shí)置于每個(gè)節(jié)點(diǎn),并計(jì)算結(jié)果劃分的分類(lèi)效用。產(chǎn)生最高分類(lèi)效用的位置應(yīng)當(dāng)是對(duì)象節(jié)點(diǎn)一個(gè)好的選擇。但如果對(duì)象不屬于樹(shù)中現(xiàn)有的任何概念,則為該對(duì)象創(chuàng)建一個(gè)新類(lèi)。CORWEB的優(yōu)點(diǎn)在于:他不需要用戶(hù)輸入?yún)?shù)來(lái)確定分類(lèi)的個(gè)數(shù),它可以自動(dòng)修正劃分中類(lèi)的數(shù)目。缺點(diǎn)是:首先,它基于這樣一個(gè)假設(shè):在每個(gè)屬性上的概率分布是彼此獨(dú)立的。由于屬性間經(jīng)常是相關(guān)的,這個(gè)假設(shè)并不總是成立。此外,聚類(lèi)的概率分布表示使得更新和存儲(chǔ)類(lèi)相當(dāng)昂貴。因?yàn)闀r(shí)間和空間復(fù)雜度不只依賴(lài)于屬性的數(shù)目,而且取決于每個(gè)屬性的值的數(shù)目,所以當(dāng)屬性有大量的取值時(shí)情況尤其嚴(yán)重。而且,分類(lèi)樹(shù)對(duì)于偏斜的輸入數(shù)據(jù)不是高度平衡的,它可能導(dǎo)致時(shí)間和空間復(fù)雜性的劇烈變化。3.6各類(lèi)算法比較基于上述的分析,下面對(duì)常用聚類(lèi)算法的性能從可伸縮性、發(fā)現(xiàn)聚類(lèi)的形狀、對(duì)“噪聲”的敏感性、對(duì)數(shù)據(jù)輸入順序的敏感性、高維性和是否是硬聚類(lèi)六個(gè)方面進(jìn)行比較,如表1所示。算法可伸縮性發(fā)現(xiàn)聚類(lèi)的形狀對(duì)“噪聲”的敏感性對(duì)數(shù)據(jù)輸入順序的敏感性高維性K-means不好凸形敏感敏感不好FCM好任意形狀敏感不敏感好EM不好任意形狀敏感不敏感不好KHM好任意形狀敏感不敏感不好SNN好任意形狀敏感不敏感好CLARANS好球形及凸形不敏感很敏感一般CURE差任意形狀不敏感敏感好BIRCH差球形或凸形一般不太敏感好STING好任意形狀不敏感不敏感好DBSCAN較好任意形狀不敏感敏感一般COBWEB較好任意形狀一般敏感好FCM好任意形狀敏感不敏感好k-means好球形或凸形敏感不敏感好表1:各類(lèi)算法比較4、總結(jié)聚類(lèi)分析是圖像處理中一種非常有用的技術(shù),它可作為特征和分類(lèi)算法的預(yù)處理步驟,這些算法再在生成的簇上進(jìn)行處理,也可將聚類(lèi)結(jié)果用于進(jìn)一步關(guān)聯(lián)分析還可以作為一個(gè)獨(dú)立的工具來(lái)獲得數(shù)據(jù)分布的情況,觀察每個(gè)簇的特點(diǎn),集中對(duì)特定的某些簇做進(jìn)一步分析其應(yīng)用范圍涉及商務(wù),生物,地理,web文檔分類(lèi),仿真等諸多領(lǐng)域。聚類(lèi)能更好地應(yīng)用到現(xiàn)實(shí)生活中是很必要的。這些新算法正努力把靜態(tài)的聚類(lèi)推向動(dòng)態(tài)的、適應(yīng)性強(qiáng)的、帶約束條件的及與生活聯(lián)系緊密的聚類(lèi)。同時(shí),對(duì)目前可有效處理二維和小的數(shù)據(jù)集的聚類(lèi)方法進(jìn)行強(qiáng)化和修改,以使其能處理大的和高維的數(shù)據(jù),這也是努力的一個(gè)方向。參考文獻(xiàn)[1]G.H.Omran,P.Engelbrechtandsalman.IntelligentDataAnalysis:Anoverviewofclusteringmethods.2007,583-605.[2]宋余慶,謝從華,朱玉全等.基于近似密度函數(shù)的醫(yī)學(xué)圖像聚類(lèi)分析研究[J].計(jì)算機(jī)研究與發(fā)展,2006,43(11):1947·1952.[3]宋余慶,王春紅,陳健美等.基于高斯混合密度模型的醫(yī)學(xué)圖像聚類(lèi)方法[J].江蘇大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,30(3):293·296.[4]段明秀.層次聚類(lèi)算法的研究及應(yīng)用[D]:[碩士學(xué)位論文].長(zhǎng)沙:中南大學(xué),2009.[5]G.HamerlyandC.Elkan,CIKM-2002:AlternativestotheK-meansAlgorithmthatFindBetterClusterings.2002,600-607.[6]B.zhang,GeneralizedK-HarmonicMeans-BoostinginUnsupervisedLearning.TechnicalReportHPL-2000-137.Hewlett-PackardLabs,2000.[7]J.MacQueen,SomeMethodsforClassi?cationandAnalysisofMultivariateObservations.InProceedingsFifthBerkeleySymposiumonMathematics,StatisticsandProbability,vol.1,1967,281–297.[8]喬小妮,張明新,史變霞.一種基于密度的K-means算法.電腦開(kāi)發(fā)與應(yīng)用.2008.21(10).9-11[9]傅德勝,周辰.基于密度的改進(jìn)K均值算法及實(shí)現(xiàn).計(jì)算機(jī)應(yīng)用.

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論