【STATA教程】第12章-聚類分析課件

上傳人：x*** IP屬地：貴州上傳時間：2023-01-09 格式：PPTX 頁數(shù)：34 大?。?MB 積分：25 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩29頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第12章聚類分析第12章聚類分析

聚類分析13.1.1聚類分析的基本原理13.1.2層次聚類13.1.3K-均值聚類13.1.4聚類分析的Stata命令聚類分析13.1.1聚類分析的基本原理把“對象”分成不同的類別這些類不是事先給定的，而是直接根據(jù)數(shù)據(jù)的特征確定的把相似的東西放在一起，從而使得類別內(nèi)部的“差異”盡可能小，而類別之間的“差異”盡可能大聚類分析就是按照對象之間的“相似”程度把對象進(jìn)行分類什么是聚類分析？

(clusteranalysis)把“對象”分成不同的類別什么是聚類分析？

(cluster聚類分析的“對象”可以是所觀察的多個樣本，也可以是針對每個樣本測得的多個變量按照變量對所觀察的樣本進(jìn)行分類稱為Q型聚類按照多項(xiàng)經(jīng)濟(jì)指標(biāo)(變量)對不同的地區(qū)(樣本)進(jìn)行分類按照樣本對多個變量進(jìn)行分類，則稱為R型聚類按照不同地區(qū)的樣本數(shù)據(jù)對多個經(jīng)濟(jì)變量進(jìn)行分類兩種聚類沒有什么本質(zhì)區(qū)別，實(shí)際中人們更感興趣的通常是根據(jù)變量對樣本進(jìn)行分類(Q型聚類)什么是聚類分析？

(兩種分類方式)聚類分析的“對象”可以是所觀察的多個樣本，也可以是針對每個樣按對象的“相似”程度分類根據(jù)樣本的觀測數(shù)據(jù)測度變量之間的相似性程度可以使用夾角余弦、Pearson相關(guān)系數(shù)等工具，也稱為相似系數(shù)變量間的相似系數(shù)越大，說明它們越相近根據(jù)變量來測度樣本之間的相似程度則使用“距離”把離得比較近的歸為一類，而離得比較遠(yuǎn)的放在不同的類什么是聚類分析？

(按什么分類)按對象的“相似”程度分類什么是聚類分析？

(按什么分類)相似性的度量

(樣本點(diǎn)間距離的計(jì)算方法)

Euclidean距離SquaredEuclidean距離Block距離Chebychev距離Minkovski距離相似性的度量

(樣本點(diǎn)間距離的計(jì)算方法)Euclidean在對變量進(jìn)行分類時，度量變量之間的相似性常用相似系數(shù)，測度方法有相似性的度量

(變量相似系數(shù)的計(jì)算方法)

夾角余弦

Pearson相關(guān)系數(shù)

在對變量進(jìn)行分類時，度量變量之間的相似性常用相似系數(shù)，測度方層次聚類又稱系統(tǒng)聚類事先不確定要分多少類，而是先把每一個對象作為一類，然后一層一層進(jìn)行分類根據(jù)運(yùn)算的方向不同，層次聚類法又分為合并法和分解法，兩種方法的運(yùn)算原理一樣，只是方向相反層次聚類

(hierarchicalcluster)層次聚類又稱系統(tǒng)聚類層次聚類

(hierarchicalc將每一個樣本作為一類，如果是k個樣本就分k成類按照某種方法度量樣本之間的距離，并將距離最近的兩個樣本合并為一個類別，從而形成了k-1個類別再計(jì)算出新產(chǎn)生的類別與其他各類別之間的距離，并將距離最近的兩個類別合并為一類。這時，如果類別的個數(shù)仍然大于1，則繼續(xù)重復(fù)這一步，直到所有的類別都合并成一類為止總是先把離得最近的兩個類進(jìn)行合并合并越晚的類，距離越遠(yuǎn)事先并不會指定最后要分成多少類，而是把所有可能的分類都列出，再視具體情況選擇一個合適的分類結(jié)果層次聚類

(合并法)將每一個樣本作為一類，如果是k個樣本就分k成類層次聚類

(合分解方法原理與合并法相反先把所有的對象(樣本或變量)作為一大類，然后度量對象之間的距離或相似程度，并將距離或相似程度最遠(yuǎn)的對象分離出去，形成兩大類(其中的一類只有一個對象)再度量類別中剩余對象之間的距離或相似程度，并將最遠(yuǎn)的分離出去，不斷重復(fù)這一過程，直到所有的對象都自成一類為止層次聚類

(分解法)分解方法原理與合并法相反層次聚類

(分解法)Nearestneighbor(最短距離法)—用兩個類別中各個數(shù)據(jù)點(diǎn)之間最短的那個距離來表示兩個類別之間的距離Furthestneighbor(最長距離法)—用兩個類別中各個數(shù)據(jù)點(diǎn)之間最長的那個距離來表示兩個類別之間的距離Centroidclustering(重心法)—用兩個類別的重心之間的距離來表示兩個類別之間的距離between-groupslinkage(組間平均距離法)—SPSS的默認(rèn)方法。是用兩個類別中間各個數(shù)據(jù)點(diǎn)之間的距離的平均來表示兩個類別之間的距離Ward‘smethod(離差平方和法)—使各類別中的離差平方和較小，而不同類別之間的離差平方和較大類間距離的計(jì)算方法Nearestneighbor(最短距離法)—用兩個類別中層次聚類事先不需要確定要分多少類，聚類過程一層層進(jìn)行，最后得出所有可能的類別結(jié)果，研究這根據(jù)具體情況確定最后需要的類別。該方法可以繪制出樹狀聚類圖，方便使用者直觀選擇類別，但其缺點(diǎn)是計(jì)算量較大，對大批量數(shù)據(jù)的聚類效率不高K-均值聚類事先需要確定要分的類別數(shù)據(jù)，計(jì)算量要小得多，效率比層次聚類要高，也被稱為快速聚類(quickcluster)K-均值聚類

(K-meanscluster)層次聚類事先不需要確定要分多少類，聚類過程一層層進(jìn)行，最后得第1步：確定要分的類別數(shù)目K需要研究者自己確定在實(shí)際應(yīng)用中，往往需要研究者根據(jù)實(shí)際問題反復(fù)嘗試，得到不同的分類并進(jìn)行比較，得出最后要分的類別數(shù)量第2步：確定K個類別的初始聚類中心要求在用于聚類的全部樣本中，選擇K個樣本作為K個類別的初始聚類中心與確定類別數(shù)目一樣，原始聚類中心的確定也需要研究者根據(jù)實(shí)際問題和經(jīng)驗(yàn)來綜合考慮K-均值聚類

(步驟)第1步：確定要分的類別數(shù)目KK-均值聚類

(步驟)第3步：根據(jù)確定的K個初始聚類中心，依次計(jì)算每個樣本到K個聚類中心的距離歐氏距離，并根據(jù)距離最近的原則將所有的樣本分到事先確定的K個類別中第4步：根據(jù)所分成的K個類別，計(jì)算出各類別中每個變量的均值，并以均值點(diǎn)作為新的K個類別中心。根據(jù)新的中心位置，重新計(jì)算每個樣本到新中心的距離，并重新進(jìn)行分類K-均值聚類

(步驟)第3步：根據(jù)確定的K個初始聚類中心，依次計(jì)算每個樣本到K個聚第5步：重復(fù)第4步，直到滿足終止聚類條件為止迭代次數(shù)達(dá)到研究者事先指定的最大迭代次數(shù)新確定的聚類中心點(diǎn)與上一次迭代形成的中心點(diǎn)的最大偏移量小于指定的量K-均值聚類法是根據(jù)事先確定的K個類別反復(fù)迭代直到把每個樣本分到指定的里類別中。類別數(shù)目的確定具有一定的主主觀性，究竟分多少類合適，需要研究者對研究問題的了解程度、相關(guān)知識和經(jīng)驗(yàn)K-均值聚類

(步驟)第5步：重復(fù)第4步，直到滿足終止聚類條件為止K-均值聚類

(Stata命令matrixdissimilaritycluster、clustermatclusterkmeans、clusterkmediansclusterdendrogramStata命令matrixdissimilarity17本章結(jié)束，謝謝觀看！17本章結(jié)束，謝謝觀看！第12章聚類分析第12章聚類分析

(clusteranalysis)把“對象”分成不同的類別什么是聚類分析？

(按什么分類)按對象的“相似”程度分類什么是聚類分析？

(按什么分類)相似性的度量

(樣本點(diǎn)間距離的計(jì)算方法)

Euclidean距離SquaredEuclidean距離Block距離Chebychev距離Minkovski距離相似性的度量

(樣本點(diǎn)間距離的計(jì)算方法)Euclidean在對變量進(jìn)行分類時，度量變量之間的相似性常用相似系數(shù)，測度方法有相似性的度量

(變量相似系數(shù)的計(jì)算方法)

夾角余弦

Pearson相關(guān)系數(shù)

(hierarchicalcluster)層次聚類又稱系統(tǒng)聚類層次聚類

(合并法)將每一個樣本作為一類，如果是k個樣本就分k成類層次聚類

(分解法)分解方法原理與合并法相反層次聚類

(步驟)第1步：確定要分的類別數(shù)目KK-

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

【STATA教程】第12章-聚類分析課件

文檔簡介

溫馨提示

最新文檔

評論

【STATA教程】第12章-聚類分析課件

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔