




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第八章R的一般聚類:揭示數(shù)據(jù)內(nèi)在結(jié)構(gòu)學(xué)習(xí)目標(biāo)理論方面,理解聚類分析的目標(biāo)和意義。掌握不同聚類方法的原理,適用性和方法特點(diǎn)。實(shí)踐方面,掌握R的各種聚類方法的實(shí)現(xiàn)、應(yīng)用以及結(jié)果解讀,能夠正確運(yùn)用聚類方法解決實(shí)際應(yīng)用中的數(shù)據(jù)全方位自動(dòng)分組問題聚類分析概述聚類分析的目的是找到這些隱藏于數(shù)據(jù)中的客觀存在的“自然小類”,并通過刻畫“自然小類”體現(xiàn)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)“自然小類”具有類內(nèi)結(jié)構(gòu)相似,類間結(jié)構(gòu)差異顯著的特點(diǎn)。這是評(píng)價(jià)聚類結(jié)果合理性的重要依據(jù)聚類算法概述類是一組數(shù)據(jù)對(duì)象(或稱觀測(cè))的集合:空間中距離較近的各觀測(cè)點(diǎn),可形成一個(gè)類空間中觀測(cè)點(diǎn)分布較為密集的區(qū)域,可視為一個(gè)類來自某特定統(tǒng)計(jì)分布的一組觀測(cè),可視為一個(gè)類聚類算法概述主流的聚類算法從聚類結(jié)果角度:確定聚類和模糊聚類。如果任意兩個(gè)類的交集為空,一個(gè)觀測(cè)點(diǎn)最多只屬于一個(gè)確定的類,稱為確定聚類(或硬聚類)。否則,如果一個(gè)觀測(cè)點(diǎn)以不同概率水平屬于所有的類,稱為模糊聚類(或軟聚類)基于層次的聚類和非層次的聚類。如果類之間存在一個(gè)類是另一個(gè)類的子集的情況,稱為層次聚類。否則為非層次聚類聚類算法概述主流的聚類算法從聚類算法(也稱聚類模型)角度:基于質(zhì)心的聚類模型(CentroidModels)基于聯(lián)通性的聚類模型(ConnectivityModels)基于密度的聚類模型(Densitymodels)其他聚類模型從聚類數(shù)目角度,有些聚類算法要求事先確定聚類數(shù)目K,有些則不需要基于質(zhì)心的聚類:K-Means聚類K-Means聚類:也稱快速聚類從反復(fù)尋找類質(zhì)心角度設(shè)計(jì)算法以質(zhì)心為核心,視空間中距質(zhì)心較近的多個(gè)觀測(cè)點(diǎn)為一個(gè)類,得到的聚類結(jié)果一般為確定性的且不具有層次關(guān)系需事先確定聚類數(shù)目KK-Means聚類中的距離測(cè)度閔可夫斯基距離、歐氏距離、絕對(duì)距離、切比雪夫距離、夾角余弦距離基于質(zhì)心的聚類:K-Means聚類K-Means聚類過程第一步,指定聚類數(shù)目K第二步,確定K個(gè)初始類質(zhì)心常用的初始類質(zhì)心的指定方法有:經(jīng)驗(yàn)選擇法、隨機(jī)選擇法、最小最大法第三步,根據(jù)最近原則進(jìn)行聚類第四步,重新確定K個(gè)類質(zhì)心第五步,判斷是否已經(jīng)滿足終止聚類算法的條件,如果沒有滿足則返回到第三步,不斷反復(fù)上述過程,直到滿足迭代終止條件基于質(zhì)心的聚類:K-Means聚類迭代終止的條件第一,迭代次數(shù)。當(dāng)目前的迭代次數(shù)等于指定的迭代次數(shù)時(shí)終止聚類算法第二,類質(zhì)心點(diǎn)偏移程度。新確定的類質(zhì)心點(diǎn)與上次迭代確定的類質(zhì)心點(diǎn)的最大偏移量,小于指定值時(shí)終止聚類算法上述兩個(gè)條件中任意一個(gè)滿足則結(jié)束算法通過適當(dāng)增加迭代次數(shù)或合理調(diào)整質(zhì)心點(diǎn)偏移量的判定標(biāo)準(zhǔn),能夠有效克服初始類質(zhì)心點(diǎn)可能存在的偏差基于質(zhì)心的聚類:K-Means聚類K-means聚類過程本質(zhì)是一個(gè)優(yōu)化求解過程評(píng)價(jià)測(cè)度基于質(zhì)心的聚類:K-Means聚類R函數(shù)kmeans(x=數(shù)據(jù)矩陣,centers=聚類數(shù)目或初始類質(zhì)心,iter.max=10,nstart=1)用R對(duì)模擬數(shù)據(jù)進(jìn)行K-Means聚類K-Means聚類的R實(shí)現(xiàn)K-Means聚類的應(yīng)用:環(huán)境污染的區(qū)域劃分K-Means聚類的R實(shí)現(xiàn)PAM聚類:一種基于質(zhì)心的劃分型聚類算法,與K-Means聚類的主要不同:第一,距離測(cè)度采用絕對(duì)距離。聚類目標(biāo)是找到類內(nèi)絕對(duì)距離之和最小下的類第二,增加判斷本次迭代類質(zhì)心合理性的步驟PAM聚類:改進(jìn)的K-Means聚類PAM聚類過程第一步,指定聚類數(shù)目K第二步,確定K個(gè)初始類質(zhì)心第三步,根據(jù)最近原則進(jìn)行聚類第四步,重新確定K個(gè)類質(zhì)心找到最小總代價(jià)。第k類的新質(zhì)心調(diào)整為最小總代價(jià)對(duì)應(yīng)的xik。該步稱為swap步第五步,判斷是否已經(jīng)滿足終止聚類算法的條件,如果沒有滿足返回到第三步,不斷反復(fù)上述過程,直到滿足迭代終止條件。迭代終止條件同K-Means聚類PAM聚類:改進(jìn)的K-Means聚類R函數(shù)pam(x=矩陣或數(shù)據(jù)框,k=聚類數(shù)目K,medoids=初始類質(zhì)心向量,do.swap=TRUE/FALSE,stand=TRUE/FALSE)用R對(duì)模擬數(shù)據(jù)進(jìn)行PAM聚類PAM聚類的R實(shí)現(xiàn)層次聚類:也稱系統(tǒng)聚類,從距離和聯(lián)通性角度設(shè)計(jì)算法算法視空間中距離較近的多個(gè)觀測(cè)點(diǎn)為一個(gè)類,并基于聯(lián)通性完成最終的聚類得到的聚類結(jié)果一般為確定性的且具有層次關(guān)系基于聯(lián)通性的聚類:層次聚類層次聚類過程首先,每個(gè)觀測(cè)點(diǎn)自成一類然后,計(jì)算所有觀測(cè)點(diǎn)彼此間的距離,并將其中距離最的觀測(cè)點(diǎn)聚成一個(gè)小類,形成n-1個(gè)類接下來,再次度量剩余觀測(cè)點(diǎn)和小類間的距離,并將當(dāng)前距離最近的觀測(cè)點(diǎn)或小類再聚成一類重復(fù)上述過程,不斷將所有觀測(cè)點(diǎn)和小類聚集成越來越大的類,直到所有觀測(cè)點(diǎn)聚到一起,形成一個(gè)最大的類為止基于聯(lián)通性的聚類:層次聚類層次聚類中距離的聯(lián)通性測(cè)度第一,觀測(cè)點(diǎn)間距離的測(cè)度第二,觀測(cè)點(diǎn)與小類之間、小類和小類間距離的測(cè)度最近鄰(singlelinkage)法組間平均鏈鎖(averagelinkage)法組內(nèi)平均鏈鎖(completelinkage)法質(zhì)心(Centroid)法基于聯(lián)通性的聚類:層次聚類R函數(shù)hclust(d=距離矩陣,method=聚類方法)層次聚類的應(yīng)用:環(huán)境污染的區(qū)域劃分聚類聚類數(shù)目的確定:碎石圖層次聚類的R實(shí)現(xiàn)基于統(tǒng)計(jì)分布的聚類模型,從統(tǒng)計(jì)分布的角度設(shè)計(jì)算法,出發(fā)點(diǎn):如果樣本數(shù)據(jù)存在“自然小類”,那么某小類所包含的觀測(cè)來自于某個(gè)特定的統(tǒng)計(jì)分布一個(gè)“自然小類”是來自某個(gè)特定的統(tǒng)計(jì)分布的隨機(jī)樣本觀測(cè)全體是來自多個(gè)統(tǒng)計(jì)分布的有限混合分布的隨機(jī)樣本基于統(tǒng)計(jì)分布的聚類:EM聚類基于統(tǒng)計(jì)分布的聚類模型基于統(tǒng)計(jì)分布的聚類:EM聚類基于統(tǒng)計(jì)分布的聚類模型的目標(biāo)是:找到各觀測(cè)最可能屬于的“自然小類”若觀測(cè)xi(i=1,2,…n)的所屬類別記為zi(z=1,2,…,K),找到最有可能屬于的類,即是在已知各成分參數(shù)下,各觀測(cè)取類別值z(mì)i(i=1,2,…,n)時(shí)的聯(lián)合概率最大等價(jià)于在已知樣本數(shù)據(jù)X和假設(shè)觀測(cè)所屬類別z下,找到在似然函數(shù)或?qū)?shù)似然函數(shù)到達(dá)最大時(shí)的成分參數(shù)值基于統(tǒng)計(jì)分布的聚類:EM聚類EM聚類的難點(diǎn)不僅各成分參數(shù)i未知需要估計(jì),而且各觀測(cè)的所屬類別zi也未知:樣本信息是不完整,無法直接采用極大似然估計(jì)方法需采用EM算法求解基于統(tǒng)計(jì)分布的聚類:EM聚類第一步,給各觀測(cè)xi隨機(jī)指派一個(gè)類別zi。分別計(jì)算各成分的分布參數(shù)如對(duì)一元正態(tài)分布計(jì)算計(jì)算均值和方差第二步,在當(dāng)前各成分參數(shù)下,計(jì)算觀測(cè)xi屬于第1至K類的概率。將觀測(cè)xi重新指派到概率最大的類別k中如一元正態(tài)分布第三步,在新的類別指派下,重新計(jì)算各成分的分布參數(shù)如一元正態(tài)分布,對(duì)第k類計(jì)算加權(quán)的均值和方差觀測(cè)xi所屬類別是概率最大的k
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 農(nóng)村個(gè)體農(nóng)場(chǎng)經(jīng)營(yíng)合同范本
- 包料裝修合同范本
- 人流手術(shù)合同范本
- 2024年全國特崗教師招聘考試真題
- 2024年欽州市遴選公務(wù)員考試真題
- 2024年臺(tái)州溫嶺市中醫(yī)院招聘員工筆試真題
- 出售隔斷酒柜合同范本
- 個(gè)人房屋擔(dān)保合同范本
- 光伏清洗施工合同范例
- 2024年保山市智源高級(jí)中學(xué)招聘教師考試真題
- 酒廠承包合作模式
- 2024年湖南長(zhǎng)沙自貿(mào)投資發(fā)展集團(tuán)有限公司招聘筆試沖刺題(帶答案解析)
- 2024-2030年中國演出行業(yè)市場(chǎng)研究及發(fā)展前景預(yù)測(cè)報(bào)告
- 上市公司廉潔自律協(xié)議書
- JBT 14714-2024 鋰離子電池X射線檢測(cè)設(shè)備(正式版)
- DL-T1362-2014輸變電工程項(xiàng)目質(zhì)量管理規(guī)程
- 2023年公務(wù)員考試青岡縣《行政職業(yè)能力測(cè)驗(yàn)》全真模擬試卷含解析
- 金融知識(shí)普及
- 患者管道滑脫危險(xiǎn)因素評(píng)估及護(hù)理措施表
- 部編版小學(xué)一年級(jí)語文下冊(cè)《春夏秋冬》課件
- 中國煙草總公司鄭州煙草研究院筆試試題2023
評(píng)論
0/150
提交評(píng)論