




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
聚類(lèi)分析陳龍震聚類(lèi)分析陳龍震聚類(lèi)分析聚類(lèi)分析的簡(jiǎn)介Q型聚類(lèi)統(tǒng)計(jì)量——距離R型聚類(lèi)統(tǒng)計(jì)量——相似系數(shù)系統(tǒng)聚類(lèi)動(dòng)態(tài)聚類(lèi)——k均值聚類(lèi)其他聚類(lèi)分析聚類(lèi)分析的簡(jiǎn)介聚類(lèi)分析的定義聚類(lèi)分析是研究如何研究對(duì)象(樣品或變量)按照多個(gè)方面的特征進(jìn)行綜合分類(lèi)的一種多元統(tǒng)計(jì)方法,它是根據(jù)物以類(lèi)聚的原理將相似的樣品(或變量)歸為一類(lèi)。聚類(lèi)和分類(lèi)有什么區(qū)別?無(wú)監(jiān)督學(xué)習(xí)與分類(lèi)判別不同,進(jìn)行聚類(lèi)前并不知道將要?jiǎng)澐殖蓭讉€(gè)組和什么樣的組,也不知道根據(jù)哪些空間區(qū)分規(guī)則來(lái)定義組聚類(lèi)分析的定義聚類(lèi)分析是研究如何研究對(duì)象(樣品或變量)按照商業(yè)聚類(lèi)分析被用來(lái)發(fā)現(xiàn)不同的客戶群,并且通過(guò)購(gòu)買(mǎi)模式刻畫(huà)不同的客戶群的特征。聚類(lèi)分析是細(xì)分市場(chǎng)的有效工具,同時(shí)也可用于研究消費(fèi)者行為,尋找新的潛在市場(chǎng)、選擇實(shí)驗(yàn)的市場(chǎng),并作為多元分析的預(yù)處理。聚類(lèi)分析——主要應(yīng)用商業(yè)聚類(lèi)分析——主要應(yīng)用聚類(lèi)分析——主要應(yīng)用生物聚類(lèi)分析被用來(lái)動(dòng)植物分類(lèi)和對(duì)基因進(jìn)行分類(lèi),獲取對(duì)種群固有結(jié)構(gòu)的認(rèn)識(shí)聚類(lèi)分析——主要應(yīng)用生物Q型聚類(lèi)統(tǒng)計(jì)量與R型聚類(lèi)統(tǒng)計(jì)量設(shè)有容量為n的樣本觀測(cè)數(shù)據(jù),觀測(cè)矩陣為:樣本變量Q型聚類(lèi)R型聚類(lèi)變量之間的聚類(lèi)即R型聚類(lèi)分析,常用相似系數(shù)來(lái)測(cè)度變量之間的親疏程度。樣品之間的聚類(lèi)即Q型聚類(lèi)分析,常用距離來(lái)測(cè)度樣品之間的親疏程度。Q型聚類(lèi)統(tǒng)計(jì)量與R型聚類(lèi)統(tǒng)計(jì)量設(shè)有容量為n的樣本觀測(cè)數(shù)據(jù),觀Q型聚類(lèi)統(tǒng)計(jì)量——距離明氏距離測(cè)度明考夫斯基(Minkowski)距離設(shè)
和是第i和j個(gè)樣品的觀測(cè)值,則二者之間的距離為:當(dāng)
時(shí),絕對(duì)值距離當(dāng)
時(shí),歐氏距離當(dāng)
時(shí),切比雪夫距離Q型聚類(lèi)統(tǒng)計(jì)量——距離明氏距離測(cè)度明考夫斯基(Minkow記切比雪夫距離證明記切比雪夫距離證明Q型聚類(lèi)統(tǒng)計(jì)量——距離國(guó)際象棋棋盤(pán)上二個(gè)位置間的切比雪夫距離是指王要從一個(gè)位子移至另一個(gè)位子需要走的步數(shù)。由于王可以往斜前或斜后方向移動(dòng)一格,因此可以較有效率的到達(dá)目的的格子。上圖是棋盤(pán)上所有位置距f6位置的切比雪夫距離。Q型聚類(lèi)統(tǒng)計(jì)量——距離國(guó)際象棋棋盤(pán)上二個(gè)位置間的切比雪夫距離Q型聚類(lèi)統(tǒng)計(jì)量——距離明氏距離兩個(gè)缺點(diǎn):明氏距離的值與各指標(biāo)的量綱有關(guān)明氏距離的定義沒(méi)有考慮各個(gè)變量之間的相關(guān)性和重要性。
明氏距離是把各個(gè)變量都同等看待,將兩個(gè)樣品在各個(gè)變量上的離差簡(jiǎn)單地進(jìn)行了綜合。蘭氏距離Q型聚類(lèi)統(tǒng)計(jì)量——距離明氏距離兩個(gè)缺點(diǎn):蘭氏距離馬氏距離Q型聚類(lèi)統(tǒng)計(jì)量——距離這是印度著名統(tǒng)計(jì)學(xué)家馬哈拉諾比斯(P.C.Mahalanobis)所定義的一種距離,其計(jì)算公式為:分別表示第i個(gè)樣品和第j樣品的p指標(biāo)觀測(cè)值所組成的列向量,即樣本數(shù)據(jù)矩陣中第i個(gè)和第j個(gè)行向量的轉(zhuǎn)置,
表示觀測(cè)變量之間的協(xié)方差短陣。在實(shí)踐應(yīng)用中,若總體協(xié)方差矩陣
未知,則可用樣本協(xié)方差矩陣作為估計(jì)代替計(jì)算。馬氏距離Q型聚類(lèi)統(tǒng)計(jì)量——距離這是印度著名統(tǒng)計(jì)學(xué)家馬哈拉諾比R型聚類(lèi)統(tǒng)計(jì)量——相似系數(shù)相似系數(shù)設(shè)和是第和個(gè)樣品的觀測(cè)值,則二者之間的相似測(cè)度為:R型聚類(lèi)統(tǒng)計(jì)量——相似系數(shù)相似系數(shù)設(shè)R型聚類(lèi)統(tǒng)計(jì)量——夾角余弦?jiàn)A角余弦?jiàn)A角余弦時(shí)從向量集合的角度所定義的一種測(cè)度變量之間親疏程度的相似系數(shù)。設(shè)在n維空間的向量R型聚類(lèi)統(tǒng)計(jì)量——夾角余弦?jiàn)A角余弦?jiàn)A角余弦時(shí)從向量集合的角度問(wèn)題馬(歐)氏距離和余弦相似度的區(qū)別問(wèn)題馬(歐)氏距離和余弦相似度的區(qū)別問(wèn)題適用于何種不同的數(shù)據(jù)分析模型歐氏距離能夠體現(xiàn)個(gè)體數(shù)值特征的絕對(duì)差異,所以更多的用于需要從維度的數(shù)值大小中體現(xiàn)差異的分析,如使用用戶行為指標(biāo)分析用戶價(jià)值的相似度或差異余弦相似度更多的是從方向上區(qū)分差異,而對(duì)絕對(duì)的數(shù)值不敏感,更多的用于使用用戶對(duì)內(nèi)容評(píng)分來(lái)區(qū)分用戶興趣的相似度和差異,同時(shí)修正了用戶間可能存在的度量標(biāo)準(zhǔn)不統(tǒng)一的問(wèn)題(因?yàn)橛嘞蚁嗨贫葘?duì)絕對(duì)數(shù)值不敏感)問(wèn)題適用于何種不同的數(shù)據(jù)分析模型歐氏距離能夠體現(xiàn)個(gè)體數(shù)值特征問(wèn)題Q型與R型聚類(lèi)區(qū)別?Q型聚類(lèi):當(dāng)聚類(lèi)把所有的觀測(cè)記錄(cases)進(jìn)行分類(lèi)時(shí),它把性質(zhì)相似的觀測(cè)分在同一個(gè)類(lèi),性質(zhì)差異較大的觀測(cè)分在不同的類(lèi)。R型聚類(lèi):當(dāng)聚類(lèi)把變量(variables)作為分類(lèi)對(duì)象時(shí)。這種聚類(lèi)用在變量數(shù)目比較多、且相關(guān)性比較強(qiáng)的情形,目的是將性質(zhì)相近的變量聚類(lèi)為同一個(gè)類(lèi),并從中找出代表變量,從而減少變量個(gè)數(shù)以達(dá)到降維的效果。問(wèn)題Q型與R型聚類(lèi)區(qū)別?Q型聚類(lèi):當(dāng)聚類(lèi)把所有的觀測(cè)記錄(c系統(tǒng)聚類(lèi)凝聚的:從點(diǎn)作為個(gè)體簇開(kāi)始,每一步合并兩個(gè)最接近的簇。這需要定義簇的臨近性(類(lèi)間距離)的概念。分裂的:從包含所有點(diǎn)的某個(gè)簇開(kāi)始,每一步分裂一個(gè)簇,直到剩下單點(diǎn)簇。在這種情況下,我們需要確定我每一步分裂那個(gè)簇,以及如何分裂。系統(tǒng)聚類(lèi)凝聚的:從點(diǎn)作為個(gè)體簇開(kāi)始,每一步合并兩個(gè)最接近的簇系統(tǒng)聚類(lèi)——方法最短距離法設(shè)兩個(gè)類(lèi),分別含有n1和n2個(gè)樣本點(diǎn)系統(tǒng)聚類(lèi)——方法最短距離法設(shè)兩個(gè)類(lèi),分別含有n系統(tǒng)聚類(lèi)——方法若某步聚類(lèi)將
和
合并為新類(lèi),即,新類(lèi)與其他類(lèi)
間的距離遞推公式為
系統(tǒng)聚類(lèi)——方法若某步聚類(lèi)將和合并為新系統(tǒng)聚類(lèi)——方法最長(zhǎng)距離法設(shè)兩個(gè)類(lèi),分別含有n1和n2個(gè)樣本點(diǎn)系統(tǒng)聚類(lèi)——方法最長(zhǎng)距離法設(shè)兩個(gè)類(lèi),分別含有n系統(tǒng)聚類(lèi)——方法若某步聚類(lèi)將
和
合并為新類(lèi),即,新類(lèi)與其他類(lèi)
間的距離遞推公式為
系統(tǒng)聚類(lèi)——方法若某步聚類(lèi)將和合并為新系統(tǒng)聚類(lèi)——方法重心法重心距離:兩類(lèi)中心分別為,則系統(tǒng)聚類(lèi)——方法重心法重心距離:兩類(lèi)中心分別為聚類(lèi)分析簡(jiǎn)介原理與應(yīng)用ppt課件聚類(lèi)分析簡(jiǎn)介原理與應(yīng)用ppt課件系統(tǒng)聚類(lèi)——方法類(lèi)平均法系統(tǒng)聚類(lèi)——方法類(lèi)平均法遞推公式:推導(dǎo):遞推公式:推導(dǎo):系統(tǒng)聚類(lèi)——方法離差平方和設(shè)將n個(gè)樣品分成k類(lèi)G1,G2,…,Gk,用Xit表示Gt中的第I個(gè)樣品,nt表示Gt中樣品的個(gè)數(shù),是Gt的重心,則Gt的樣品離差平方和為系統(tǒng)聚類(lèi)——方法離差平方和設(shè)將n個(gè)樣品分成k類(lèi)G1,G2,…系統(tǒng)聚類(lèi)——方法系統(tǒng)聚類(lèi)——方法遞推公式上述的各種類(lèi)間距離定義的遞推公式可以統(tǒng)一成如下公式遞推公式上述的各種類(lèi)間距離定義的遞推公式可以統(tǒng)一成如下公式系統(tǒng)聚類(lèi)書(shū):175頁(yè)例子系統(tǒng)聚類(lèi)書(shū):175頁(yè)例子系統(tǒng)聚類(lèi)——類(lèi)的個(gè)數(shù)確定給定閾值:通過(guò)觀測(cè)聚類(lèi)圖,給出一個(gè)合適的閾值T。要求類(lèi)與類(lèi)之間的距離不要超過(guò)T值。例如我們給定T=0.3,當(dāng)聚類(lèi)時(shí),類(lèi)間的距離已經(jīng)超過(guò)了0.3,則聚類(lèi)結(jié)束。系統(tǒng)聚類(lèi)——類(lèi)的個(gè)數(shù)確定給定閾值:通過(guò)觀測(cè)聚類(lèi)圖,給出一個(gè)合系統(tǒng)聚類(lèi)——半偏相關(guān)半偏相關(guān)統(tǒng)計(jì)量其中T是數(shù)據(jù)的總離差平方和,是組內(nèi)離差平方和。
比較大,說(shuō)明分G個(gè)類(lèi)時(shí)類(lèi)內(nèi)的離差平方和比較小,也就是說(shuō)分G類(lèi)是合適的。但是,分類(lèi)越多,每個(gè)類(lèi)的類(lèi)內(nèi)的離差平方和就越小,也就越大;所以我們只能取合適的G,使得足夠大,而G本身很小,隨著G的增加,的增幅不大。比如,假定分4類(lèi)時(shí),=0.8;下一次合并分3類(lèi)時(shí),下降了許多,=0.32,則分4類(lèi)是合適的。系統(tǒng)聚類(lèi)——半偏相關(guān)半偏相關(guān)統(tǒng)計(jì)量其中T是數(shù)據(jù)的總離差平方和系統(tǒng)聚類(lèi)——半偏相關(guān)系統(tǒng)聚類(lèi)——半偏相關(guān)系統(tǒng)聚類(lèi)——偽F統(tǒng)計(jì)量偽F統(tǒng)計(jì)量偽F統(tǒng)計(jì)量用于評(píng)價(jià)聚為G類(lèi)的效果。如果聚類(lèi)的效果好,類(lèi)間的離差平方和相對(duì)于類(lèi)內(nèi)的離差平方和大,所以應(yīng)該取偽F統(tǒng)計(jì)量較大而類(lèi)數(shù)較小的聚類(lèi)水平。其中T是數(shù)據(jù)的總離差平方和,
是類(lèi)內(nèi)離差平方和系統(tǒng)聚類(lèi)——偽F統(tǒng)計(jì)量偽F統(tǒng)計(jì)量偽F統(tǒng)計(jì)量用于評(píng)價(jià)聚為G類(lèi)的系統(tǒng)聚類(lèi)——偽F統(tǒng)計(jì)量系統(tǒng)聚類(lèi)——偽F統(tǒng)計(jì)量
偽統(tǒng)計(jì)量的定義為其中和分別是的類(lèi)內(nèi)離差平方和,是將K和L合并為第M類(lèi)的離差平方和
=--為合并導(dǎo)致的類(lèi)內(nèi)離差平方和的增量。用它評(píng)價(jià)合并第K和L類(lèi)的效果,偽統(tǒng)計(jì)量大說(shuō)明不應(yīng)該合并這兩類(lèi),應(yīng)該取合并前的水平。系統(tǒng)聚類(lèi)——偽統(tǒng)計(jì)量偽統(tǒng)計(jì)量的定義為系統(tǒng)聚類(lèi)——偽統(tǒng)計(jì)量系統(tǒng)聚類(lèi)——CCC統(tǒng)計(jì)量立方聚類(lèi)準(zhǔn)則其中
,v是方差穩(wěn)定化變換,一般取值為一般由
維空間的均勻分布得到。一般選擇
后的第一個(gè)局部極大值點(diǎn)對(duì)應(yīng)的分類(lèi)數(shù)。系統(tǒng)聚類(lèi)——CCC統(tǒng)計(jì)量立方聚類(lèi)準(zhǔn)則其中系統(tǒng)聚類(lèi)——CCC統(tǒng)計(jì)量系統(tǒng)聚類(lèi)——CCC統(tǒng)計(jì)量系統(tǒng)聚類(lèi)法的基本性質(zhì)
在聚類(lèi)分析過(guò)程中,并類(lèi)距離分別為lk(k=1,2,3,…
)若滿足,則稱該聚類(lèi)方法具有單調(diào)性。除了重心法和中間距離法之外,其他的系統(tǒng)聚類(lèi)法均滿足單調(diào)性的條件。單調(diào)性系統(tǒng)聚類(lèi)法的基本性質(zhì)在聚類(lèi)分析過(guò)程中,并類(lèi)距離分別系統(tǒng)聚類(lèi)法的基本性質(zhì)空間的濃縮和擴(kuò)張?jiān)O(shè)有兩種系統(tǒng)聚類(lèi)法A和B,他們?cè)诘趇步的距離矩陣分別為Ai和Bi(I=1,2,3…),若Ai>Bi,則稱第一種方法A比第二種方法B使空間擴(kuò)張,或第二種方法比第一種方法濃縮。
D(短)D(平),D(重)D(平);D(長(zhǎng))
D(平);方法的比較類(lèi)平均法適中系統(tǒng)聚類(lèi)法的基本性質(zhì)空間的濃縮和擴(kuò)張?jiān)O(shè)有兩種系統(tǒng)聚類(lèi)法A和B系統(tǒng)聚類(lèi)局限樣品一旦劃到某個(gè)類(lèi)以后就不變了,這要求分類(lèi)方法比較準(zhǔn)確樣品數(shù)n很大時(shí),系統(tǒng)聚類(lèi)法的計(jì)算很龐大,從而使其不方便應(yīng)用動(dòng)態(tài)聚類(lèi)解決的問(wèn)題是:假如有個(gè)樣本點(diǎn),要把它們分為類(lèi),使得每一類(lèi)內(nèi)的元素都是聚合的,并且類(lèi)與類(lèi)之間還能很好地區(qū)別開(kāi)。動(dòng)態(tài)聚類(lèi)使用于大型數(shù)據(jù)。系統(tǒng)聚類(lèi)局限樣品一旦劃到某個(gè)類(lèi)以后就不變了,這要求分類(lèi)方法比動(dòng)態(tài)聚類(lèi)步驟動(dòng)態(tài)聚類(lèi)步驟動(dòng)態(tài)聚類(lèi)——凝聚點(diǎn)選擇憑經(jīng)驗(yàn)選擇,如果對(duì)問(wèn)題已經(jīng)有一定的了解,可將所有的的樣品大致分類(lèi),在每類(lèi)選擇一個(gè)有代表性的樣品作為聚類(lèi)點(diǎn)將所有的樣品隨機(jī)地分成k類(lèi),計(jì)算每一類(lèi)的均值,將這些均值作為凝聚點(diǎn)采用最大最小原則,假設(shè)樣品最終分為k類(lèi),先選擇所有樣品中相距最遠(yuǎn)的兩個(gè)樣品為凝聚點(diǎn),即選擇
,使.選擇第三個(gè)凝聚點(diǎn)
與前面兩個(gè)聚類(lèi)點(diǎn)的距離最小者等于所有其余的樣品與
的最小距離中最大的。動(dòng)態(tài)聚類(lèi)——凝聚點(diǎn)選擇動(dòng)態(tài)聚類(lèi)——k均值聚類(lèi)動(dòng)態(tài)聚類(lèi)——k均值聚類(lèi)動(dòng)態(tài)聚類(lèi)——k均值聚類(lèi)不足凝聚點(diǎn)選擇不當(dāng)動(dòng)態(tài)聚類(lèi)——k均值聚類(lèi)不足凝聚點(diǎn)選擇不當(dāng)動(dòng)態(tài)聚類(lèi)——k均值聚類(lèi)不足不同的簇動(dòng)態(tài)聚類(lèi)——k均值聚類(lèi)不足不同的簇動(dòng)態(tài)聚類(lèi)——k均值聚類(lèi)不足離群點(diǎn)動(dòng)態(tài)聚類(lèi)——k均值聚類(lèi)不足離群點(diǎn)其他基于劃分聚類(lèi)算法(partitionclustering)其他基于劃分聚類(lèi)算法(partitioncluster其他基于密度聚類(lèi)算法:其他基于密度聚類(lèi)算法:其他基于層次聚類(lèi)算法:其他基于層次聚類(lèi)算法:其他基于網(wǎng)格的聚類(lèi)算法:基于統(tǒng)計(jì)學(xué)的聚類(lèi)算法:其他基于網(wǎng)格的聚類(lèi)算法:基于統(tǒng)計(jì)學(xué)的聚類(lèi)算法:R軟件與聚類(lèi)分析在R軟件中,dist()函數(shù)給出了各種距離的計(jì)算結(jié)果,其使用格式是其中x是樣本構(gòu)成的數(shù)據(jù)矩陣(樣本按行輸入)或數(shù)據(jù)框。Method表示計(jì)算距離的方法,缺省值為Euclide距離R軟件與聚類(lèi)分析在R軟件中,dist()函數(shù)給出了各種距離的距離---enclidean--maximum--manhattan--canberra---minkowski距離---enclidean--maximum--manha聚類(lèi)分析簡(jiǎn)介原理與應(yīng)用ppt課件聚類(lèi)分析簡(jiǎn)介原理與應(yīng)用ppt課件例題一例題一聚類(lèi)分析簡(jiǎn)介原理與應(yīng)用ppt課件例題二對(duì)305名女中學(xué)生測(cè)量
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 企業(yè)搬遷拆遷補(bǔ)償安置協(xié)議書(shū)
- 醫(yī)院主體結(jié)構(gòu)拆除方案
- 托管房屋合作方案
- 電力設(shè)施建設(shè)現(xiàn)場(chǎng)規(guī)則與格式條款合同詳解
- 汽車(chē)駕考試題及答案
- 企業(yè)假日停工方案模板
- 民航日?qǐng)?bào)面試題及答案
- 消防中級(jí)考試題及答案
- 景區(qū)小火車(chē)維修方案
- 黨課中國(guó)精神課件
- 蔬菜采購(gòu)技巧培訓(xùn)課件
- 護(hù)理繼續(xù)教育培訓(xùn)課件
- 技術(shù)團(tuán)隊(duì)管理培訓(xùn)課件模板
- 匯能集團(tuán)招聘試題
- 培養(yǎng)小學(xué)生的邏輯思維能力
- 電磁鐵實(shí)驗(yàn):探索電磁鐵的吸附力和工作原理
- 腹膜透析健康宣教說(shuō)課課件
- 2020年四川省綿陽(yáng)市中考語(yǔ)文試卷(附答案詳解)
- 急性淋巴結(jié)炎的護(hù)理查房
- 北京開(kāi)放大學(xué)《現(xiàn)代管理專(zhuān)題》終結(jié)性考試復(fù)習(xí)題庫(kù)(附答案)
- 中廣核中山科研基地建設(shè)項(xiàng)目環(huán)境影響報(bào)告表
評(píng)論
0/150
提交評(píng)論