




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第12章聚類分析第12章聚類分析
聚類分析13.1.1聚類分析的基本原理13.1.2層次聚類13.1.3K-均值聚類13.1.4聚類分析的Stata命令聚類分析13.1.1聚類分析的基本原理把“對象”分成不同的類別這些類不是事先給定的,而是直接根據(jù)數(shù)據(jù)的特征確定的把相似的東西放在一起,從而使得類別內(nèi)部的“差異”盡可能小,而類別之間的“差異”盡可能大聚類分析就是按照對象之間的“相似”程度把對象進(jìn)行分類什么是聚類分析?
(clusteranalysis)把“對象”分成不同的類別什么是聚類分析?
(cluster聚類分析的“對象”可以是所觀察的多個樣本,也可以是針對每個樣本測得的多個變量按照變量對所觀察的樣本進(jìn)行分類稱為Q型聚類按照多項(xiàng)經(jīng)濟(jì)指標(biāo)(變量)對不同的地區(qū)(樣本)進(jìn)行分類按照樣本對多個變量進(jìn)行分類,則稱為R型聚類按照不同地區(qū)的樣本數(shù)據(jù)對多個經(jīng)濟(jì)變量進(jìn)行分類兩種聚類沒有什么本質(zhì)區(qū)別,實(shí)際中人們更感興趣的通常是根據(jù)變量對樣本進(jìn)行分類(Q型聚類)什么是聚類分析?
(兩種分類方式)聚類分析的“對象”可以是所觀察的多個樣本,也可以是針對每個樣按對象的“相似”程度分類根據(jù)樣本的觀測數(shù)據(jù)測度變量之間的相似性程度可以使用夾角余弦、Pearson相關(guān)系數(shù)等工具,也稱為相似系數(shù)變量間的相似系數(shù)越大,說明它們越相近根據(jù)變量來測度樣本之間的相似程度則使用“距離”把離得比較近的歸為一類,而離得比較遠(yuǎn)的放在不同的類什么是聚類分析?
(按什么分類)按對象的“相似”程度分類什么是聚類分析?
(按什么分類)相似性的度量
(樣本點(diǎn)間距離的計(jì)算方法)
Euclidean距離SquaredEuclidean距離Block距離Chebychev距離Minkovski距離相似性的度量
(樣本點(diǎn)間距離的計(jì)算方法)Euclidean在對變量進(jìn)行分類時,度量變量之間的相似性常用相似系數(shù),測度方法有相似性的度量
(變量相似系數(shù)的計(jì)算方法)
夾角余弦
Pearson相關(guān)系數(shù)
在對變量進(jìn)行分類時,度量變量之間的相似性常用相似系數(shù),測度方層次聚類又稱系統(tǒng)聚類事先不確定要分多少類,而是先把每一個對象作為一類,然后一層一層進(jìn)行分類根據(jù)運(yùn)算的方向不同,層次聚類法又分為合并法和分解法,兩種方法的運(yùn)算原理一樣,只是方向相反層次聚類
(hierarchicalcluster)層次聚類又稱系統(tǒng)聚類層次聚類
(hierarchicalc將每一個樣本作為一類,如果是k個樣本就分k成類按照某種方法度量樣本之間的距離,并將距離最近的兩個樣本合并為一個類別,從而形成了k-1個類別再計(jì)算出新產(chǎn)生的類別與其他各類別之間的距離,并將距離最近的兩個類別合并為一類。這時,如果類別的個數(shù)仍然大于1,則繼續(xù)重復(fù)這一步,直到所有的類別都合并成一類為止總是先把離得最近的兩個類進(jìn)行合并合并越晚的類,距離越遠(yuǎn)事先并不會指定最后要分成多少類,而是把所有可能的分類都列出,再視具體情況選擇一個合適的分類結(jié)果層次聚類
(合并法)將每一個樣本作為一類,如果是k個樣本就分k成類層次聚類
(合分解方法原理與合并法相反先把所有的對象(樣本或變量)作為一大類,然后度量對象之間的距離或相似程度,并將距離或相似程度最遠(yuǎn)的對象分離出去,形成兩大類(其中的一類只有一個對象)再度量類別中剩余對象之間的距離或相似程度,并將最遠(yuǎn)的分離出去,不斷重復(fù)這一過程,直到所有的對象都自成一類為止層次聚類
(分解法)分解方法原理與合并法相反層次聚類
(分解法)Nearestneighbor(最短距離法)—用兩個類別中各個數(shù)據(jù)點(diǎn)之間最短的那個距離來表示兩個類別之間的距離Furthestneighbor(最長距離法)—用兩個類別中各個數(shù)據(jù)點(diǎn)之間最長的那個距離來表示兩個類別之間的距離Centroidclustering(重心法)—用兩個類別的重心之間的距離來表示兩個類別之間的距離between-groupslinkage(組間平均距離法)—SPSS的默認(rèn)方法。是用兩個類別中間各個數(shù)據(jù)點(diǎn)之間的距離的平均來表示兩個類別之間的距離Ward‘smethod(離差平方和法)—使各類別中的離差平方和較小,而不同類別之間的離差平方和較大類間距離的計(jì)算方法Nearestneighbor(最短距離法)—用兩個類別中層次聚類事先不需要確定要分多少類,聚類過程一層層進(jìn)行,最后得出所有可能的類別結(jié)果,研究這根據(jù)具體情況確定最后需要的類別。該方法可以繪制出樹狀聚類圖,方便使用者直觀選擇類別,但其缺點(diǎn)是計(jì)算量較大,對大批量數(shù)據(jù)的聚類效率不高K-均值聚類事先需要確定要分的類別數(shù)據(jù),計(jì)算量要小得多,效率比層次聚類要高,也被稱為快速聚類(quickcluster)K-均值聚類
(K-meanscluster)層次聚類事先不需要確定要分多少類,聚類過程一層層進(jìn)行,最后得第1步:確定要分的類別數(shù)目K需要研究者自己確定在實(shí)際應(yīng)用中,往往需要研究者根據(jù)實(shí)際問題反復(fù)嘗試,得到不同的分類并進(jìn)行比較,得出最后要分的類別數(shù)量第2步:確定K個類別的初始聚類中心要求在用于聚類的全部樣本中,選擇K個樣本作為K個類別的初始聚類中心與確定類別數(shù)目一樣,原始聚類中心的確定也需要研究者根據(jù)實(shí)際問題和經(jīng)驗(yàn)來綜合考慮K-均值聚類
(步驟)第1步:確定要分的類別數(shù)目KK-均值聚類
(步驟)第3步:根據(jù)確定的K個初始聚類中心,依次計(jì)算每個樣本到K個聚類中心的距離歐氏距離,并根據(jù)距離最近的原則將所有的樣本分到事先確定的K個類別中第4步:根據(jù)所分成的K個類別,計(jì)算出各類別中每個變量的均值,并以均值點(diǎn)作為新的K個類別中心。根據(jù)新的中心位置,重新計(jì)算每個樣本到新中心的距離,并重新進(jìn)行分類K-均值聚類
(步驟)第3步:根據(jù)確定的K個初始聚類中心,依次計(jì)算每個樣本到K個聚第5步:重復(fù)第4步,直到滿足終止聚類條件為止迭代次數(shù)達(dá)到研究者事先指定的最大迭代次數(shù)新確定的聚類中心點(diǎn)與上一次迭代形成的中心點(diǎn)的最大偏移量小于指定的量K-均值聚類法是根據(jù)事先確定的K個類別反復(fù)迭代直到把每個樣本分到指定的里類別中。類別數(shù)目的確定具有一定的主主觀性,究竟分多少類合適,需要研究者對研究問題的了解程度、相關(guān)知識和經(jīng)驗(yàn)K-均值聚類
(步驟)第5步:重復(fù)第4步,直到滿足終止聚類條件為止K-均值聚類
(Stata命令matrixdissimilaritycluster、clustermatclusterkmeans、clusterkmediansclusterdendrogramStata命令matrixdissimilarity17本章結(jié)束,謝謝觀看!17本章結(jié)束,謝謝觀看!第12章聚類分析第12章聚類分析
聚類分析13.1.1聚類分析的基本原理13.1.2層次聚類13.1.3K-均值聚類13.1.4聚類分析的Stata命令聚類分析13.1.1聚類分析的基本原理把“對象”分成不同的類別這些類不是事先給定的,而是直接根據(jù)數(shù)據(jù)的特征確定的把相似的東西放在一起,從而使得類別內(nèi)部的“差異”盡可能小,而類別之間的“差異”盡可能大聚類分析就是按照對象之間的“相似”程度把對象進(jìn)行分類什么是聚類分析?
(clusteranalysis)把“對象”分成不同的類別什么是聚類分析?
(cluster聚類分析的“對象”可以是所觀察的多個樣本,也可以是針對每個樣本測得的多個變量按照變量對所觀察的樣本進(jìn)行分類稱為Q型聚類按照多項(xiàng)經(jīng)濟(jì)指標(biāo)(變量)對不同的地區(qū)(樣本)進(jìn)行分類按照樣本對多個變量進(jìn)行分類,則稱為R型聚類按照不同地區(qū)的樣本數(shù)據(jù)對多個經(jīng)濟(jì)變量進(jìn)行分類兩種聚類沒有什么本質(zhì)區(qū)別,實(shí)際中人們更感興趣的通常是根據(jù)變量對樣本進(jìn)行分類(Q型聚類)什么是聚類分析?
(兩種分類方式)聚類分析的“對象”可以是所觀察的多個樣本,也可以是針對每個樣按對象的“相似”程度分類根據(jù)樣本的觀測數(shù)據(jù)測度變量之間的相似性程度可以使用夾角余弦、Pearson相關(guān)系數(shù)等工具,也稱為相似系數(shù)變量間的相似系數(shù)越大,說明它們越相近根據(jù)變量來測度樣本之間的相似程度則使用“距離”把離得比較近的歸為一類,而離得比較遠(yuǎn)的放在不同的類什么是聚類分析?
(按什么分類)按對象的“相似”程度分類什么是聚類分析?
(按什么分類)相似性的度量
(樣本點(diǎn)間距離的計(jì)算方法)
Euclidean距離SquaredEuclidean距離Block距離Chebychev距離Minkovski距離相似性的度量
(樣本點(diǎn)間距離的計(jì)算方法)Euclidean在對變量進(jìn)行分類時,度量變量之間的相似性常用相似系數(shù),測度方法有相似性的度量
(變量相似系數(shù)的計(jì)算方法)
夾角余弦
Pearson相關(guān)系數(shù)
在對變量進(jìn)行分類時,度量變量之間的相似性常用相似系數(shù),測度方層次聚類又稱系統(tǒng)聚類事先不確定要分多少類,而是先把每一個對象作為一類,然后一層一層進(jìn)行分類根據(jù)運(yùn)算的方向不同,層次聚類法又分為合并法和分解法,兩種方法的運(yùn)算原理一樣,只是方向相反層次聚類
(hierarchicalcluster)層次聚類又稱系統(tǒng)聚類層次聚類
(hierarchicalc將每一個樣本作為一類,如果是k個樣本就分k成類按照某種方法度量樣本之間的距離,并將距離最近的兩個樣本合并為一個類別,從而形成了k-1個類別再計(jì)算出新產(chǎn)生的類別與其他各類別之間的距離,并將距離最近的兩個類別合并為一類。這時,如果類別的個數(shù)仍然大于1,則繼續(xù)重復(fù)這一步,直到所有的類別都合并成一類為止總是先把離得最近的兩個類進(jìn)行合并合并越晚的類,距離越遠(yuǎn)事先并不會指定最后要分成多少類,而是把所有可能的分類都列出,再視具體情況選擇一個合適的分類結(jié)果層次聚類
(合并法)將每一個樣本作為一類,如果是k個樣本就分k成類層次聚類
(合分解方法原理與合并法相反先把所有的對象(樣本或變量)作為一大類,然后度量對象之間的距離或相似程度,并將距離或相似程度最遠(yuǎn)的對象分離出去,形成兩大類(其中的一類只有一個對象)再度量類別中剩余對象之間的距離或相似程度,并將最遠(yuǎn)的分離出去,不斷重復(fù)這一過程,直到所有的對象都自成一類為止層次聚類
(分解法)分解方法原理與合并法相反層次聚類
(分解法)Nearestneighbor(最短距離法)—用兩個類別中各個數(shù)據(jù)點(diǎn)之間最短的那個距離來表示兩個類別之間的距離Furthestneighbor(最長距離法)—用兩個類別中各個數(shù)據(jù)點(diǎn)之間最長的那個距離來表示兩個類別之間的距離Centroidclustering(重心法)—用兩個類別的重心之間的距離來表示兩個類別之間的距離between-groupslinkage(組間平均距離法)—SPSS的默認(rèn)方法。是用兩個類別中間各個數(shù)據(jù)點(diǎn)之間的距離的平均來表示兩個類別之間的距離Ward‘smethod(離差平方和法)—使各類別中的離差平方和較小,而不同類別之間的離差平方和較大類間距離的計(jì)算方法Nearestneighbor(最短距離法)—用兩個類別中層次聚類事先不需要確定要分多少類,聚類過程一層層進(jìn)行,最后得出所有可能的類別結(jié)果,研究這根據(jù)具體情況確定最后需要的類別。該方法可以繪制出樹狀聚類圖,方便使用者直觀選擇類別,但其缺點(diǎn)是計(jì)算量較大,對大批量數(shù)據(jù)的聚類效率不高K-均值聚類事先需要確定要分的類別數(shù)據(jù),計(jì)算量要小得多,效率比層次聚類要高,也被稱為快速聚類(quickcluster)K-均值聚類
(K-meanscluster)層次聚類事先不需要確定要分多少類,聚類過程一層層進(jìn)行,最后得第1步:確定要分的類別數(shù)目K需要研究者自己確定在實(shí)際應(yīng)用中,往往需要研究者根據(jù)實(shí)際問題反復(fù)嘗試,得到不同的分類并進(jìn)行比較,得出最后要分的類別數(shù)量第2步:確定K個類別的初始聚類中心要求在用于聚類的全部樣本中,選擇K個樣本作為K個類別的初始聚類中心與確定類別數(shù)目一樣,原始聚類中心的確定也需要研究者根據(jù)實(shí)際問題和經(jīng)驗(yàn)來綜合考慮K-均值聚類
(步驟)第1步:確定要分的類別數(shù)目KK-
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2021-2026年中國廢氣處理行業(yè)市場深度分析及投資戰(zhàn)略研究報(bào)告
- 中國咖啡壺行業(yè)市場深度評估及投資戰(zhàn)略規(guī)劃報(bào)告
- 2024-2025學(xué)年高中英語Module5CloningSectionⅤ知能演練輕松闖關(guān)含解析外研版選修6
- 2021-2026年中國教育機(jī)器人行業(yè)市場供需格局及行業(yè)前景展望報(bào)告
- 2024-2025學(xué)年高中語文第三單元第8課咬文嚼字練習(xí)含解析新人教版必修5
- 2024-2025學(xué)年高中地理課下能力提升九旅游規(guī)劃含解析新人教版選修3
- 2025年淋浴房項(xiàng)目可行性研究報(bào)告
- 年產(chǎn)3600噸橡膠骨架材料技改項(xiàng)目環(huán)境影響報(bào)告表
- 2021-2026年中國補(bǔ)中益氣丸市場全面調(diào)研及行業(yè)投資潛力預(yù)測報(bào)告
- 中國女式上衣大衣項(xiàng)目投資可行性研究報(bào)告
- 申論公務(wù)員考試試題與參考答案(2024年)
- 《幼兒行為觀察與分析案例教程》教學(xué)教案
- 小學(xué)科學(xué)教育課程實(shí)施方案
- DB11T 1035-2013 城市軌道交通能源消耗評價(jià)方法
- 2024新能源光伏電站運(yùn)行規(guī)程和檢修規(guī)程
- 供應(yīng)室課件大全
- 銀行存管三方協(xié)議書
- 2024義務(wù)教育道德與法治課程標(biāo)準(zhǔn)(2022版)
- 2024年新人教版化學(xué)九年級上冊全冊課件(新版教材)
- 部編四下語文《口語交際:轉(zhuǎn)述》公開課教案教學(xué)設(shè)計(jì)【一等獎】
- 智能體脂秤市場洞察報(bào)告
評論
0/150
提交評論