![聚類分析原理及步驟_第1頁(yè)](http://file4.renrendoc.com/view/c7884853a424b787f9d3007d01368270/c7884853a424b787f9d3007d013682701.gif)
![聚類分析原理及步驟_第2頁(yè)](http://file4.renrendoc.com/view/c7884853a424b787f9d3007d01368270/c7884853a424b787f9d3007d013682702.gif)
![聚類分析原理及步驟_第3頁(yè)](http://file4.renrendoc.com/view/c7884853a424b787f9d3007d01368270/c7884853a424b787f9d3007d013682703.gif)
![聚類分析原理及步驟_第4頁(yè)](http://file4.renrendoc.com/view/c7884853a424b787f9d3007d01368270/c7884853a424b787f9d3007d013682704.gif)
![聚類分析原理及步驟_第5頁(yè)](http://file4.renrendoc.com/view/c7884853a424b787f9d3007d01368270/c7884853a424b787f9d3007d013682705.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、什么是聚類分析聚類分析也稱群分析或點(diǎn)群分析,它是研究多要素事物分類問(wèn)題的數(shù)量方法,是一種新興的多元統(tǒng)計(jì)方法,是當(dāng)代分類學(xué)與多元分析的結(jié)合。其基本原理是,根據(jù)樣本自身的屬性,用數(shù)學(xué)方法按照某種相似性或差異性指標(biāo),定量地確定樣本之間的親疏關(guān)系,并按這種親疏關(guān)系程度對(duì)樣本進(jìn)行聚類。聚類分析是將分類對(duì)象置于一個(gè)多維空問(wèn)中,按照它們空問(wèn)關(guān)系的親疏程度進(jìn)行分類。通俗的講,聚類分析就是根據(jù)事物彼此不同的屬性進(jìn)行辨認(rèn),將具有相似屬性的事物聚為一類,使得同一類的事物具有高度的相似性。聚類分析方法,是定量地研究地理事物分類問(wèn)題和地理分區(qū)問(wèn)題的重要方法,常見(jiàn)的聚類分析方法有系統(tǒng)聚類法、動(dòng)態(tài)聚類法和模糊聚類法等。2、聚類分析方法的特征(1)、聚類分析簡(jiǎn)單、直觀。(2)、聚類分析主要應(yīng)用于探索性的研究,其分析的結(jié)果可以提供多個(gè)可能的解,選擇最終的解需要研究者的主觀判斷和后續(xù)的分析。(3)、不管實(shí)際數(shù)據(jù)中是否真正存在不同的類別,利用聚類分析都能得到分成若干類別的解。(4)、聚類分析的解完全依賴于研究者所選擇的聚類變量,增加或刪除一些變量對(duì)最終的解都可能產(chǎn)生實(shí)質(zhì)性的影響。(5)、研究者在使用聚類分析時(shí)應(yīng)特別注意可能影響結(jié)果的各個(gè)因素。(6)、異常值和特殊的變量對(duì)聚類有較大影響,當(dāng)分類變量的測(cè)量尺度不一致時(shí),需要事先做標(biāo)準(zhǔn)化處理。3、聚類分析的發(fā)展歷程在過(guò)去的幾年中聚類分析發(fā)展方向有兩個(gè):加強(qiáng)現(xiàn)有的聚類算法和發(fā)明新的聚類算法?,F(xiàn)在已經(jīng)有一些加強(qiáng)的算法用來(lái)處理大型數(shù)據(jù)庫(kù)和高維度數(shù)據(jù),例如小波變換使用多分辨率算法,網(wǎng)格從粗糙到密集從而提高聚類簇的質(zhì)量。然而,對(duì)于數(shù)據(jù)量大、維度高并且包含許多噪聲的集合,要找到一個(gè)“全能”的聚類算法是非常困難的。某些算法只能解決其中的兩個(gè)問(wèn)題,同時(shí)能很好解決三個(gè)問(wèn)題的算法還沒(méi)有,現(xiàn)在最大的困難是高維度(同時(shí)包含大量噪聲)數(shù)據(jù)的處理。算法的可伸縮性是一個(gè)重要的指標(biāo),通過(guò)采用各種技術(shù),一些算法具有很好的伸縮性。這些技術(shù)包括:數(shù)據(jù)采樣、信息濃縮、網(wǎng)格和索引。CLARANS是最早使用數(shù)據(jù)采樣的算法,CURE使用優(yōu)選的采樣點(diǎn),信息濃縮技術(shù)在BIRCH方法和DECLIJE方法中得到應(yīng)用。許多算法都使用了索引技術(shù),典型的有:BIRCH方法、DBSCAN方法、小波變換方法、DENCLUE方法、DENCLUE方法、小波變換方法、STING方法和CLIQUE方法使用了網(wǎng)格技術(shù)。但是以上方法仍然不能很好地處理高維度并且大數(shù)據(jù)量的集合。最近還發(fā)現(xiàn)了一些新的技術(shù)如:STING+方法引入動(dòng)態(tài)數(shù)據(jù)挖掘觸發(fā)器:mAFIA方法引入間距尺寸自適應(yīng)網(wǎng)格分割算法;OptiGrid算法使用迭代和網(wǎng)格等技術(shù)處理高維度數(shù)據(jù)。新技術(shù)的引進(jìn)大大加強(qiáng)了聚類算法的效能,尤其提升了處理高維度數(shù)據(jù)的能力,但是由于這些算法剛剛形成,所以在某些地方還有待完善,對(duì)于剛接觸數(shù)據(jù)分析的博友,可以先看下博客的《解讀常用的10種可用性研究數(shù)據(jù)類型方法》相關(guān)介紹。4、系統(tǒng)聚類分析法系統(tǒng)聚類法(HierarchicalClusteringMethod)是目前國(guó)內(nèi)外使用晟多的一種方法,有關(guān)它的研究極為豐富。其基本思想是:先將11個(gè)樣本各自看成一類,然后規(guī)定樣本之間的距離和類與類之間的距離;然后選擇距離最小的一對(duì)并成一個(gè)新類,計(jì)算新類和其他類的距離;再將距離最小的兩類合并,這樣每次減少一類,直至所有的樣本都成為一類為止。在看來(lái)系統(tǒng)聚類法的優(yōu)點(diǎn)在于:利用樣本之問(wèn)的距離最近原則進(jìn)行聚類。這種系統(tǒng)歸類過(guò)程與所規(guī)定的歸類指數(shù)有關(guān),同時(shí)也與具體的歸類方法有關(guān)系,整個(gè)聚類過(guò)程可用一張聚類圖(樹)形象表示。在聚類分析中,聚類要素的選擇是十分重要的,它直接影響分類結(jié)果的準(zhǔn)確性和可靠性,在地理分類和研究分區(qū)中,被聚類的對(duì)象常常是多個(gè)要素構(gòu)成的。不同要素的數(shù)據(jù)往往具有不同的單位和量綱,其數(shù)值的變異可能是很大的,這就會(huì)對(duì)分類結(jié)果產(chǎn)生影響,因此當(dāng)分類要素的對(duì)象確定之后,在進(jìn)行聚類分析之前,首先要對(duì)數(shù)據(jù)要素進(jìn)行處理。在聚類分析中,常用的聚類要素的數(shù)據(jù)處理方法有如下幾種:、總和標(biāo)準(zhǔn)化、標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化、極大值標(biāo)準(zhǔn)化、極差的標(biāo)準(zhǔn)化經(jīng)過(guò)這種標(biāo)準(zhǔn)化所得的新數(shù)據(jù),各要素的極大值為1,極小值為0,其余的數(shù)值均在0與1之間。距離是事物之間差異性的測(cè)度,差異性越大,則相似性越小,所以距離是系統(tǒng)聚類分析的依據(jù)和基礎(chǔ)。5、聚類分析的3種方法聚類分析是數(shù)據(jù)挖掘中的一個(gè)很活躍的研究領(lǐng)域,并提出了許多聚類算法。、直接聚類法直接聚類法是根據(jù)距離矩陣的結(jié)構(gòu)一次并類得到結(jié)果,其基本步驟如下:、把各個(gè)分類對(duì)象單獨(dú)視為一類;、根據(jù)距離最小的原則,依次選出一對(duì)分類對(duì)象,并成新類;、如果其中一個(gè)分類對(duì)象已歸于一類,則把另一個(gè)也歸入該類;如果一對(duì)分類對(duì)象正好屬于已歸的兩類,則把這兩類并為一類;每一次歸并,都劃去該對(duì)象所在的列與列序相同的行;、那么,經(jīng)過(guò)m-1次就可以把全部分類對(duì)象歸為一類,這樣就可以根據(jù)歸并的先后順序作出聚類譜系圖,直接聚類法雖然簡(jiǎn)便,但在歸并過(guò)程中是劃去行和列的,因而難免有信息損失,因此,直接聚類法并不是最好的系統(tǒng)聚類方法。、最短距離聚類法最短距離聚類法是在原來(lái)的mxm距離矩陣的非對(duì)角元素中找出,把分類對(duì)象Gp和Gq歸并為一新類Gr,然后按計(jì)算公式計(jì)算原來(lái)各類與新類之間的距離,這樣就得到一個(gè)新的(m-1)階的距離矩陣。再?gòu)男碌木嚯x矩陣中選出最小者,把Gi和Gj歸并成新類;再計(jì)算各類與新類的距離,這樣一直下去,直至各分類對(duì)象被歸為一類為止。、最遠(yuǎn)距離聚類法最遠(yuǎn)距離聚類法與最短距離聚類法的區(qū)別在于計(jì)算原來(lái)的類與新類距離采用的公式不同。6、系統(tǒng)聚類方法的步驟、對(duì)數(shù)據(jù)進(jìn)行變換處理;(不是必須的,當(dāng)數(shù)量級(jí)相差很大或指標(biāo)變量具有不同單位時(shí)是必要的)、構(gòu)造n個(gè)類,每個(gè)類只包含一個(gè)樣本;、計(jì)算n個(gè)樣本兩兩間的距離;(4)、合并距離最近的兩類為一新類;(5)、計(jì)算新類與當(dāng)前各類的距離,若類的個(gè)數(shù)等于1,轉(zhuǎn)到6;否則回4;(6)、畫聚類圖;(7)、決定類的個(gè)數(shù),從而得出分類結(jié)果。7、聚類分析的主要應(yīng)用對(duì)于聚類分析的應(yīng)用,簡(jiǎn)單的從以下6個(gè)領(lǐng)域?yàn)榇蠹铱偨Y(jié)了一下:(1)、商業(yè)聚類分析被用來(lái)發(fā)現(xiàn)不同的客戶群,并且通過(guò)購(gòu)買模式刻畫不同的客戶群的特征。聚類分析是細(xì)分市場(chǎng)的有效工具,同時(shí)也可用于研究消費(fèi)者行為,尋找新的潛在市場(chǎng)、選擇實(shí)驗(yàn)的市場(chǎng),并作為多元分析的預(yù)處理。(2)、生物聚類分析被用來(lái)動(dòng)植物分類和對(duì)基因進(jìn)行分類,獲取對(duì)種群固有結(jié)構(gòu)的認(rèn)識(shí)。(3)、地理聚類能夠幫助在地球中被觀察的數(shù)據(jù)庫(kù)商趨于的相似性。(4)、保險(xiǎn)行業(yè)聚類分析通過(guò)一個(gè)高的平均消費(fèi)來(lái)鑒定汽車保險(xiǎn)單持有者的分組,同時(shí)根據(jù)住宅類型,價(jià)值,地理位置來(lái)鑒定一個(gè)城市的房產(chǎn)分組。(5)、因特網(wǎng)聚類分析被用來(lái)在網(wǎng)上進(jìn)行文檔歸類來(lái)修復(fù)信
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司在職員工培訓(xùn)服務(wù)合同書
- 礦山企業(yè)安全生產(chǎn)許可證頒發(fā)與管理作業(yè)指導(dǎo)書
- 反擔(dān)保合同協(xié)議1
- 游戲美術(shù)設(shè)計(jì)制作實(shí)戰(zhàn)手冊(cè)作業(yè)指導(dǎo)書
- 針紡織品銷售購(gòu)銷合同
- 小學(xué)二年級(jí)數(shù)學(xué)上冊(cè)口算
- 2025年紹興a2貨運(yùn)從業(yè)資格證模擬考試題
- 2024-2025學(xué)年高中語(yǔ)文專題一小說(shuō)家想說(shuō)些什么第1課在酒樓上學(xué)案蘇教版選修短篇小說(shuō)蚜
- 七年級(jí)班級(jí)工作總結(jié)
- 四年級(jí)第一學(xué)期德育工作計(jì)劃
- 反腐倡廉廉潔行醫(yī)
- 健身教練基礎(chǔ)知識(shí)匯編
- 綜合性學(xué)習(xí)“孝親敬老從我做起”歷年中考語(yǔ)文試題匯編
- UI與交互設(shè)計(jì)人機(jī)交互設(shè)計(jì)(第二版)PPT完整全套教學(xué)課件
- 高中體育與健康-足球運(yùn)球教學(xué)課件設(shè)計(jì)
- GMS要素-持續(xù)改進(jìn)(CI)-上汽通用五菱-課件
- 《插畫設(shè)計(jì)》課程標(biāo)準(zhǔn)
- 信訪事項(xiàng)復(fù)查復(fù)核申請(qǐng)書
- 神經(jīng)遞質(zhì)和神經(jīng)調(diào)質(zhì)生
- 枇杷常見(jiàn)病蟲害一覽表專家講座
- 九九乘法口訣表(超清晰打印版)
評(píng)論
0/150
提交評(píng)論