下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
一種多粒度增量屬性的聚類(lèi)方法
1基于密度峰值聚類(lèi)的聚類(lèi)算法聚類(lèi)分析是研究對(duì)象分類(lèi)的統(tǒng)計(jì)分析方法,是數(shù)據(jù)結(jié)構(gòu)中最重要的概念。作為一種非監(jiān)督的挖掘算法技術(shù)手段,它被廣泛應(yīng)用于許多實(shí)際應(yīng)用中。它的優(yōu)點(diǎn)是它不需要標(biāo)記數(shù)據(jù)信息,因此計(jì)算量是可以增加的?,F(xiàn)在數(shù)據(jù)的規(guī)模、種類(lèi)、速度和復(fù)雜度都遠(yuǎn)遠(yuǎn)超過(guò)了人腦的認(rèn)知能力,如何有效完成對(duì)大數(shù)據(jù)的認(rèn)知,給傳統(tǒng)聚類(lèi)算法也帶來(lái)了巨大挑戰(zhàn)近年來(lái),對(duì)大數(shù)據(jù)有效信息的獲取需求越來(lái)越高,增量式方法在數(shù)據(jù)挖掘中尤其是在聚類(lèi)分析中變得非常流行,解決動(dòng)態(tài)數(shù)據(jù)集的聚類(lèi)逐漸成為一個(gè)新的研究方向.如今,研究者們已經(jīng)提出了一些增量聚類(lèi)算法,ZhangC不過(guò)上述的增量聚類(lèi)研究都是基于數(shù)據(jù)對(duì)象增加而出現(xiàn)的,目前針對(duì)屬性向量增長(zhǎng)的研究相對(duì)較少.屬性就是概念的內(nèi)涵,是針對(duì)對(duì)象不同角度的認(rèn)識(shí).在實(shí)際生活中第一次觀察某一對(duì)象,并不能得到其全部的信息,隨著研究的深入,對(duì)于該對(duì)象不同方向的認(rèn)識(shí)會(huì)更加的清晰,對(duì)于這種對(duì)象屬性增長(zhǎng)的情況,目前并沒(méi)有很好的方法對(duì)其進(jìn)行處理.基于這樣的一個(gè)問(wèn)題,隨著人工智能的興起,粒計(jì)算在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用越來(lái)越多,專(zhuān)家學(xué)者們也就發(fā)現(xiàn)了粒計(jì)算與聚類(lèi)分析之間的相關(guān)關(guān)系數(shù)據(jù)的井噴導(dǎo)致單純的粒度計(jì)算已經(jīng)不能對(duì)數(shù)據(jù)進(jìn)行有效地挖掘,有些學(xué)者開(kāi)始考慮將多個(gè)粒度的思想與聚類(lèi)算法相結(jié)合來(lái)處理問(wèn)題.ZhangHB隨著大數(shù)據(jù)時(shí)代的來(lái)臨,數(shù)據(jù)和環(huán)境無(wú)時(shí)無(wú)刻不在發(fā)生變化,傳統(tǒng)的粒度聚類(lèi)算法,其往往只能適用于靜態(tài)數(shù)據(jù)集的聚類(lèi),在處理動(dòng)態(tài)的增量數(shù)據(jù)時(shí)將造成前期聚類(lèi)結(jié)果可靠性的喪失,而如果重新進(jìn)行聚類(lèi)必然會(huì)造成效率低下和計(jì)算資源的急速增長(zhǎng)本文以粒計(jì)算等處理不確定性問(wèn)題的方法,提出一種多粒度增量屬性的聚類(lèi)方法對(duì)數(shù)據(jù)屬性增長(zhǎng)的聚類(lèi)問(wèn)題進(jìn)行求解.本方法利用密度峰值算法2相關(guān)定義2.1不確定性集u的歸一化處理設(shè)有n個(gè)待聚類(lèi)數(shù)據(jù)對(duì)象,每個(gè)數(shù)據(jù)對(duì)象由l個(gè)屬性粒來(lái)表示,根據(jù)實(shí)時(shí)數(shù)據(jù)構(gòu)造矩陣:在不確定性的數(shù)據(jù)集U中,屬性粒為m顯而易見(jiàn),不同的粒可能具有不同的量綱,因此需要對(duì)屬性粒進(jìn)行歸一化處理,相應(yīng)的計(jì)算公式,如公式(1)所示:其中i∈[1,n],j∈[1,l].粒度層g如圖1所示,在粒度的增量過(guò)程中,g2.2基于不同粒度增量屬性的聚類(lèi)方法本文提出的多粒度增量屬性聚類(lèi)方法流程如圖2所示.如圖2中所示,本文的多粒度增量屬性聚類(lèi)方法首先利用初始聚類(lèi)算法(初始聚類(lèi)算法(ICM)詳細(xì)描述在2.1節(jié))將初始的粒度g算法1.多粒度增量屬性聚類(lèi)方法(Multi-GranularityIn-crementalAttributeClusteringMethod,MGIAC)3基于密度峰值聚類(lèi)算法的多粒度增量屬性聚類(lèi)算法人們?cè)诜治鰡?wèn)題時(shí)往往從不同的角度、不同的層次觸發(fā),其主要是大腦在多次處理同一問(wèn)題時(shí),隨著時(shí)間環(huán)境等變化,會(huì)自行的分析并利用經(jīng)驗(yàn)和專(zhuān)業(yè)知識(shí)去刻畫(huà)與對(duì)象與之相應(yīng)的認(rèn)識(shí),即每一次看待同一個(gè)問(wèn)題,在上一次認(rèn)識(shí)的基礎(chǔ)上都可能出現(xiàn)新的發(fā)現(xiàn).本文所提出的多粒度增量屬性聚類(lèi)算法分為兩個(gè)部分:第一部分為初始聚類(lèi)(圖2中矩形虛線部分),主要采用密度峰值聚類(lèi)算法3.1初始集合在本文中初始聚類(lèi)文獻(xiàn)算法2.初始聚類(lèi)算法(Initialclusteringmethod,ICM)3.2增量屬性聚類(lèi)在實(shí)際生活中,人們對(duì)于不同事物的認(rèn)識(shí),往往是漸進(jìn)式的,首先是對(duì)于一個(gè)對(duì)象的模糊刻畫(huà),然后隨著時(shí)間和環(huán)境的改變,出現(xiàn)了不同方面的認(rèn)知,使得對(duì)象的認(rèn)識(shí)更加的清晰,即人類(lèi)認(rèn)知不是機(jī)械的掌握一個(gè)粒度上,而是通過(guò)對(duì)每個(gè)粒度的信息的掌握,以多粒度的處理方式將信息進(jìn)行細(xì)化、更新,達(dá)到了對(duì)事物的結(jié)構(gòu)化認(rèn)識(shí).同時(shí)長(zhǎng)期與你生活的人,往往在很多地方有著相似性,例如從事的職業(yè)或者生活習(xí)慣等,那么在對(duì)于外界而言,可以把你們認(rèn)為是同一類(lèi)人,由此我們將這兩種思想,借鑒到我們的增量屬性聚類(lèi)算法中.在這項(xiàng)工作中,隨著時(shí)間或環(huán)境的變化,在某一時(shí)刻出現(xiàn)了新的屬性粒集合g利用公式(2)計(jì)算G然后統(tǒng)計(jì)對(duì)象x算法3.增量屬性聚類(lèi)算法(Incrementalattributecluste-ringmethod,IAC)4密度峰值聚類(lèi)算法的時(shí)間本文的算法采用C++語(yǔ)言并在工具VisualStudio2012上實(shí)現(xiàn),所有實(shí)驗(yàn)都在內(nèi)存為8GRAM、CPU頻率為2.70GHz計(jì)算機(jī)上運(yùn)行.在本節(jié)中,在UCI上的一些真實(shí)數(shù)據(jù)集驗(yàn)證了本文提出的方法.表2給出了關(guān)于數(shù)據(jù)集的信息.Iris如表3所示,以Iris為例,首先利用密度峰值聚類(lèi)算法如表3中所示,Time(MGIAC)表示本文的多粒度增量屬性聚類(lèi)算法從初始聚類(lèi)然后經(jīng)過(guò)一次或數(shù)次增量屬性聚類(lèi)的有運(yùn)行時(shí)間,而Time(DPC)則是利用密度峰值算法對(duì)應(yīng)增加屬性次數(shù)的重復(fù)聚類(lèi)所相加的時(shí)間(如Iris的Time(DPC)為利用密度峰值聚類(lèi)算法重復(fù)聚類(lèi)兩次的時(shí)間).從表3中數(shù)據(jù)得本文提出的多粒度增量屬性聚類(lèi)算法的時(shí)間優(yōu)于密度峰值聚類(lèi)時(shí)間(Time(MGIAC)<Time(DPC));同時(shí)如表3所示,單次的增量聚類(lèi)的時(shí)間也同樣優(yōu)于密度峰值聚類(lèi)算法在相應(yīng)的數(shù)據(jù)集上計(jì)算的時(shí)間(Time對(duì)于Iris、Lvst、Heart、Contraceptive這4個(gè)數(shù)據(jù)集,由表3可得本文的多粒度增量屬性的聚類(lèi)方法其聚類(lèi)精度Acc(MGIAC)略優(yōu)于完整數(shù)據(jù)集在密度峰值聚類(lèi)算法計(jì)算下的聚類(lèi)精度Acc(DPC).其中我們認(rèn)為,MiceProtein數(shù)據(jù)集偏差的原因在于該數(shù)據(jù)集每個(gè)對(duì)象間的距離比較接近,并且類(lèi)簇相對(duì)較多,使得本文方法的聚類(lèi)結(jié)果較差.5基于增量屬性的屬性增長(zhǎng)聚類(lèi)方法,基于ui在生活中,對(duì)于事物的發(fā)現(xiàn)都是漸進(jìn)式的.很多時(shí)候,第一次的觀察往往不能完全的描述出事物的特性,而第二次觀察一般不會(huì)拋棄第一次觀察出現(xiàn)的特性,其都是建立在第一次基礎(chǔ)上來(lái)做出評(píng)價(jià)的.針對(duì)對(duì)象數(shù)目未改變,而描述對(duì)象的粒隨著環(huán)境與時(shí)間的出現(xiàn)遞增的研究,目前涉及的比較少.因此本文針對(duì)這樣屬性增長(zhǎng)的情況,提出了一種多粒度增量屬性的聚類(lèi)方法,與一般增量聚類(lèi)方法不同,該方法針對(duì)屬性粒增長(zhǎng)的情況,通過(guò)對(duì)鄰域?qū)ο箢?lèi)簇歸屬的統(tǒng)計(jì),以此推測(cè)增量后對(duì)象
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度養(yǎng)老機(jī)構(gòu)蟲(chóng)鼠害防治與老人健康保障合同4篇
- 2025年度智能機(jī)器人研發(fā)項(xiàng)目代理采購(gòu)合同4篇
- 2025年度餐飲加盟店選址與評(píng)估咨詢合同3篇
- 二零二五年度通訊工程破樁勞務(wù)分包合同3篇
- 二零二五年度高新技術(shù)成果轉(zhuǎn)化合同模板3篇
- 2025年度智能打包機(jī)研發(fā)與生產(chǎn)合同3篇
- 2025版智慧醫(yī)療項(xiàng)目投資股東協(xié)議3篇
- 科技產(chǎn)品開(kāi)發(fā)中的創(chuàng)新思維應(yīng)用
- 2025年度金融科技公司Oracle金融科技平臺(tái)定制合同3篇
- 2025年度智能停車(chē)解決方案車(chē)位銷(xiāo)售與服務(wù)協(xié)議4篇
- 醫(yī)院三基考核試題(康復(fù)理療科)
- 2024-2030年中國(guó)招標(biāo)代理行業(yè)深度分析及發(fā)展前景與發(fā)展戰(zhàn)略研究報(bào)告
- 醫(yī)師定期考核 (公共衛(wèi)生)試題庫(kù)500題(含答案)
- 基因突變和基因重組(第1課時(shí))高一下學(xué)期生物人教版(2019)必修2
- 內(nèi)科學(xué)(醫(yī)學(xué)高級(jí)):風(fēng)濕性疾病試題及答案(強(qiáng)化練習(xí))
- 音樂(lè)劇好看智慧樹(shù)知到期末考試答案2024年
- 辦公設(shè)備(電腦、一體機(jī)、投影機(jī)等)采購(gòu) 投標(biāo)方案(技術(shù)方案)
- 案卷評(píng)查培訓(xùn)課件模板
- 2024年江蘇省樣卷五年級(jí)數(shù)學(xué)上冊(cè)期末試卷及答案
- 人教版初中英語(yǔ)七八九全部單詞(打印版)
- 波浪理論要點(diǎn)圖解完美版
評(píng)論
0/150
提交評(píng)論