




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
復(fù)習(xí)-聚類分析聚類分析clusteranalysis概述距離與相似系數(shù)系統(tǒng)聚類法(hierarchicalclustering
)快速聚類法(k-meansclustering)聚類分析是多元分析的主要方法之一,主要用來對大量的樣品或變量進行分類,是初步數(shù)據(jù)分析的重要工具之一。復(fù)習(xí)-聚類分析“物以類聚,人以群分”,科學(xué)研究在揭示對象特點及其相互作用的過程中,不惜花費時間和精力進行對象分類,以揭示其中相同和不相同的特征。在心理學(xué)研究中,經(jīng)常遇到的分類包括兩種情況:一是對研究樣本或個案的分類,即根據(jù)每個個案的一系列觀測指標,將那些在這些觀測量方面表現(xiàn)相近的個案歸為一類,將那些在這些觀測量方面的表現(xiàn)很不相同的個案歸為不同類,類似于判別分析;二是對觀測量的分類,即將一系列的觀測量歸類合并為性質(zhì)明顯不同的少數(shù)幾個方面,類似于因素分析。但是聚類分析不同于因素分析:因素分析是根據(jù)所有變量間的相關(guān)關(guān)系提取公共因子;聚類分析是先將最相似的兩個變量聚為一小類,再去與最相似的變量或小類合并,如此分層依次進行;聚類分析也不同于判別分析:判別分析是要先知道各種類,然后判斷某個案是否屬于某一類。復(fù)習(xí)-聚類分析一、概述聚類的實質(zhì)根據(jù)樣本(變量)間的親疏關(guān)系將樣本(變量)分為類,相近的歸為一類,差別較大的歸為另一類。所獲得的分類應(yīng)有一定的意義。聚類分析的關(guān)鍵親疏關(guān)系的判別:相似性與距離(不相似性)分類數(shù)的確定:分多少類合適復(fù)習(xí)-聚類分析聚類分析的基本原理
聚類分析是一種數(shù)值分類方法(即完全是根據(jù)數(shù)據(jù)關(guān)系)。要進行聚類分析就要首先建立一個由某些事物屬性構(gòu)成的指標體系,或者說是一個變量組合。入選的每個指標必須能刻畫事物屬性的某個側(cè)面,所有指標組合起來形成一個完備的指標體系,它們互相配合可以共同刻畫事物的特征。所謂完備的指標體系,是說入選的指標是充分的,其它任何新增變量對辨別事物差異無顯著性貢獻。如果所選指標不完備,則導(dǎo)致分類偏差。比如要對家庭教養(yǎng)方式進行分類,就要有描述家庭教育方式的一系列變量,這些變量能夠充分地反映不同家庭對子女的教養(yǎng)方式。簡單地說,聚類分析的結(jié)果取決于變量的選擇和變量值獲取的兩個方面。變量選擇越準確、測量越可靠,得到的分類結(jié)果越是能描述事物各類間的本質(zhì)區(qū)別。復(fù)習(xí)-聚類分析
聚類分析完全是根據(jù)數(shù)據(jù)情況來進行的。就一個由n個個案、k個變量組成的數(shù)據(jù)文件來說,當對個案進行聚類分析時,相當于對k維坐標系中的n個點進行分組,所依據(jù)的是它們的距離;當對變量進行聚類分析時,相當于對n維坐標系中的k個點進行分組,所依據(jù)的也是點距。所以距離或相似性程度是聚類分析的基礎(chǔ)。點距如何計算呢?拿連續(xù)測量的變量來說,可以用歐氏距離平方計算:即各變量差值的平方和。復(fù)習(xí)-聚類分析6特征量的類型物理量:直接反映特征的實際物理意義
如:長度、重量、速度等。處理前需要離散化。次序量:按某種規(guī)則確定的只反映特征的次序關(guān)系或等級
如:產(chǎn)品的等級、病癥的級或期。已是離散量。名義量:反映樣本的狀態(tài)特征非數(shù)值的,
如男性與女性、事物的狀態(tài)、種類等。需要數(shù)值化。這些特征的數(shù)值指標既無數(shù)量含義,也無次序關(guān)系,只是用數(shù)字代表各種狀態(tài)。復(fù)習(xí)-聚類分析7方法的有效性(1)特征選取不當或不足使分類無效;(2)特征選取過多可能有害無益,且增加分析負擔。復(fù)習(xí)-聚類分析8(3)特征量綱對聚類結(jié)果的影響財富(萬)510年齡6030財富(十萬)年齡6030510復(fù)習(xí)-聚類分析9聚類準則對聚類結(jié)果的影響羊,狗,貓,鯊魚蜥蜴,蛇,
麻雀,海鷗,
金魚,青蛙(a)繁衍后代的方式金魚,
鯊魚羊,狗,貓,蜥蜴,蛇,麻雀,海鷗,青蛙(b)肺的存在金魚,
鯊魚羊,狗,貓,蜥蜴,蛇,麻雀,海鷗,
青蛙(c)生存環(huán)境金魚蜥蜴,蛇,麻雀,海鷗,青蛙(d)繁衍后代的方式和是否存在肺鯊魚羊,狗,貓,復(fù)習(xí)-聚類分析聚類分析的應(yīng)用不同地區(qū)城鎮(zhèn)居民收入和消費狀況的分類研究。
區(qū)域經(jīng)濟及社會發(fā)展水平的分析及全國區(qū)域經(jīng)濟綜合評價產(chǎn)品市場細分:按照消費者的需求特征分成不同的細分市場在兒童生長發(fā)育研究中,把以形態(tài)學(xué)為主的指標歸于一類,以機能為主的指標歸于另一類復(fù)習(xí)-聚類分析聚類分析的類型根據(jù)分類的對象Q型聚類(即樣品聚類clusteringforindividuals)R型聚類(指標聚類clusteringforvariables)根據(jù)分類的方法:系統(tǒng)聚類(hierarchicalclustering
)快速聚類(k-meansclustering)復(fù)習(xí)-聚類分析聚類分析數(shù)據(jù)格式k復(fù)習(xí)-聚類分析二、距離與相似系數(shù)樣本間的親疏關(guān)系通常用距離描述,變量間的親疏關(guān)系通常用相似系數(shù)或相關(guān)系數(shù)描述不同測量尺度的數(shù)據(jù),其距離的計算方法不同復(fù)習(xí)-聚類分析(一)、距離:樣本間的親疏關(guān)系距離的定義:假使每個樣品由p個變量描述,則每個樣品都可以看成p維空間中的一個點,n個樣品就是p維空間中的n個點,則第i樣品與第j樣品之間的距離記為dijdij滿足下列條件
dij≥0
dii=0
dij=dji
dij≤dik+dkj復(fù)習(xí)-聚類分析1.歐式(Euclidian
)距離x1x2①②x12x22x11x21x21-x11x22-x12復(fù)習(xí)-聚類分析2.明氏(Minkowski
)距離q=1q=2q=∞當q=1,為絕對值距離,SPSS稱為block當q=2,即為歐式距離當q=∞,有,稱為切比雪夫(Chebychev)距離復(fù)習(xí)-聚類分析實例計算品距離矩陣復(fù)習(xí)-聚類分析絕對值距離品復(fù)習(xí)-聚類分析Euclidian距離的平方2復(fù)習(xí)-聚類分析Euclidian距離復(fù)習(xí)-聚類分析明氏距離的缺點各指標同等對待(權(quán)數(shù)相同),不能反映各指標變異程度上的差異距離的大小與各指標的觀測單位有關(guān),有時會出現(xiàn)不合理結(jié)果(p7,圖1-1例)沒有考慮指標之間的相關(guān)性當各指標的測量值相差懸殊時,可以先對數(shù)據(jù)標準化,然后用標準化后的數(shù)據(jù)計算距離復(fù)習(xí)-聚類分析3.馬氏(Mahalanobis)
距離明氏距離沒有考慮數(shù)據(jù)中的協(xié)方差模式,馬氏距離則考慮了協(xié)方差,且不受指標測量單位的影響:已知一二維正態(tài)總體G的分布為:G~N(
,),其中分別求點A=(1,1)’,和點B=(1,-1)到均值的歐式距離和馬氏距離
歐式等距離線馬氏等距離線Mahalanobis
距離例AB復(fù)習(xí)-聚類分析歐氏距離、標準化變量的歐式距離與馬氏距離的比較復(fù)習(xí)-聚類分析4.Lance和Williams
距離對標準化變量:復(fù)習(xí)-聚類分析5.
配合距離前幾類距離多用于定距和定比尺度數(shù)據(jù),對于定類和定序變量:復(fù)習(xí)-聚類分析配合距離例4種品牌的軟飲料在4個方面的特性:是否可樂口味?是否含有咖啡因?是否節(jié)食飲料?是否可口可樂公司產(chǎn)?可樂味咖啡因節(jié)食可口可樂Coke1101Pepsi1100DietCoke1111Caffeine-freeDietCoke1011距離矩陣復(fù)習(xí)-聚類分析1.夾角余弦(Cosine)(二)相似系數(shù):變量間的親疏關(guān)系受相似形的啟發(fā)而來,AB和CD盡管長度不一,但形狀相似ABDC復(fù)習(xí)-聚類分析2.Pearson相關(guān)系數(shù)(二)相似系數(shù)復(fù)習(xí)-聚類分析三、系統(tǒng)聚類法聚合法分解法通常分為兩步:先做出類別距離譜系圖,再根據(jù)譜系圖的特點確定分類數(shù)并分類復(fù)習(xí)-聚類分析復(fù)習(xí)-聚類分析Agglomerative系統(tǒng)聚類法基本步驟步驟1:將n個樣品各作為一類,共n類:C1、C2、…、Cn。計算各類之間的距離,構(gòu)成距離矩陣:dcicj=dij步驟2:找到距離最近的兩類合并為一新類步驟3:計算新類與當前各類的距離。重復(fù)步驟2、3,直至合并成一類為止,形成譜系圖根據(jù)譜系圖確定如何分類單樣本類,類與類之間的距離為樣品距離類間距離復(fù)習(xí)-聚類分析類與類間距離復(fù)習(xí)-聚類分析
類與類之間的距離
1.最短距離法(singlelinkage)2.最長距離法(completelinkage)3.中間距離法(medianmethod)4.類平均法(averagelinkage)5.可變類平均法(flexible-betamethod)6.重心法(centroidmethod)7.Ward離差平方和法(Ward'sminimum-variancemethod)AgglomerativeMethods:各種不同方法的基本步驟相同,只是類與類之間距離的計算方法不同。復(fù)習(xí)-聚類分析(一)最短距離法類與類之間的距離是兩類間兩兩樣品間的最短距離復(fù)習(xí)-聚類分析6個民族的粗死亡率與期望壽命復(fù)習(xí)-聚類分析哈薩克與藏族的距離最短,最先合并形成新類CL7新類CL7和其余四類的距離復(fù)習(xí)-聚類分析第二次合并新類和各類的距離復(fù)習(xí)-聚類分析第三次合并復(fù)習(xí)-聚類分析第四次合并復(fù)習(xí)-聚類分析最后合并成一類復(fù)習(xí)-聚類分析譜系圖不顯示實際距離,顯示0-25的比例距離樹狀圖復(fù)習(xí)-聚類分析冰柱圖12345融合在一起的為一類復(fù)習(xí)-聚類分析(二)最長距離法類與類之間的距離是兩類間兩兩樣品間的最長距離復(fù)習(xí)-聚類分析前例:最長距離法第1次合并仍取最短歐式距離新類和各類的距離:取最大值復(fù)習(xí)-聚類分析第2次合并新類和各類的距離:取最大值復(fù)習(xí)-聚類分析第3次合并復(fù)習(xí)-聚類分析第4次合并復(fù)習(xí)-聚類分析最后合并復(fù)習(xí)-聚類分析復(fù)習(xí)-聚類分析(三)中間距離法
(medianmethod)
最長距離夸大了類間距離,最短距離低估了類間距離。介于兩者間的距離即為中間距離KLJM復(fù)習(xí)-聚類分析(四)類平均法
(averagelinkagebetweengroup)SPSS作為默認方法,稱為between-groupslinkageKLJM復(fù)習(xí)-聚類分析(五)重心法(centroidmethod)
類與類間的距離用各自重心間的歐式距離表示
KLJM復(fù)習(xí)-聚類分析(六)Ward最小方差法
(Ward’minimumvariancemethod)
源于方差分析。類內(nèi)離差平方和:類中各樣品到類重心(均值)的平方歐式距離之和?;舅悸罚簝深惡喜⒑螅x差平方和就會增加。每次選擇使離差平方和增加(SSM-SSK-SSL)最小的兩類進行合并,直至所有的樣品歸為一類。復(fù)習(xí)-聚類分析(七)各種系統(tǒng)聚類方法的統(tǒng)一
以上聚類方法的計算步驟完全相同,僅類與類之間的定義不同。Lance和Williams于1967年將其統(tǒng)一為:復(fù)習(xí)-聚類分析八種系統(tǒng)聚類法公式的參數(shù)
注意:幾種聚類方法獲得的結(jié)果不一定相同復(fù)習(xí)-聚類分析最長距離法最短距離法分類數(shù)的確定及類別的解釋系統(tǒng)聚類法給我們提供了一個類別距離譜系,最終樣本如何分類、分成幾類需要我們自己根據(jù)研究的目的確定。3類2類2類復(fù)習(xí)-聚類分析三、快速聚類法(k-means)
也叫動態(tài)聚類、逐步聚類、迭代聚類與系統(tǒng)聚類的主要區(qū)別非層次性遞推過程從初始分類開始不斷優(yōu)化的過程當樣本量很大時,用系統(tǒng)聚類法的計算工作量極大,作出的樹狀圖也十分復(fù)雜,不便于分析,用快速聚類較好。復(fù)習(xí)-聚類分析K-meansprocessImportant:initialcentroidsorclustercentersandthenumberofclusters注意:快速聚類需事先確定分幾類復(fù)習(xí)-聚類分析復(fù)習(xí)-聚類分析容易產(chǎn)生局部最優(yōu)而非全局最優(yōu),初始分類很重要復(fù)習(xí)-聚類分析初始凝聚點的確定自動選擇
必須給出允許分類的最大個數(shù)k憑經(jīng)驗選擇可以先選取部分樣本作系統(tǒng)聚類(例如用Ward‘s方法,它與K-means的分類原則很相似),以得到初始分類的凝聚點(并確定分類數(shù)),建立一個初始凝聚點數(shù)據(jù)文件,復(fù)習(xí)-聚類分析聚類分析小結(jié)1.聚類分析的概念
2.兩種聚類思想:系統(tǒng)聚類、快速聚類譜系圖確定分類數(shù)
3.Q-型聚類分析
4.R-型聚類分析
5.SPSS的聚類分析過程
6.聚類分析的結(jié)果評述復(fù)習(xí)-聚類分析系統(tǒng)聚類的統(tǒng)計思想
對于位置類別的樣本或變量,依據(jù)相應(yīng)的定義把它們分為若干類,分類過程是一個逐步減少類別的過程,在每一個聚類層次,必須滿足“類內(nèi)差異小,類間差異大”原則,直至歸為一類。評價聚類效果的指標一般是方差,距離小的樣品所組成的類方差較小。復(fù)習(xí)-聚類分析快速聚類的基本思想動態(tài)聚類的方法源于數(shù)學(xué)中的迭代算法,就是當樣品進行聚類時,先給定一個比較粗糙的初始分類,然后設(shè)計某種原則進行類別的修改,不斷調(diào)整和改正這些類別的樣品組成,直到比較合理為止。為了迅速找到一種初始分類,我們一般先選擇一些凝聚點,讓樣品依照某種規(guī)則向凝聚點凝聚。動態(tài)凝聚的一般步驟是:選凝聚點初始分類分類是否合理?最終分類修改分類復(fù)習(xí)-聚類分析聚類分析的特點不同聚類方法所得到的分類結(jié)果可能不同。統(tǒng)計的優(yōu)勢在于每一種聚類過程可以在瞬間完成,因此可以進行大量嘗試性的分析,并對結(jié)果進行比較,以便我們對數(shù)據(jù)做出更加合理的結(jié)論。
復(fù)習(xí)-聚類分析
實例分析:為反映員工心理因素方面的差異性,某研究者調(diào)研了一工廠36名員工的6項心理因素,如下表所示。請根據(jù)這一分數(shù)對員工進行分類,并回答:員工分成幾類比較理想?Z1Z2Z3Z4Z5Z6Z1Z2Z3Z4Z5Z6666462505856536653595545555059595351615558615861504749454646596460525456555950545269556072605567555948564750565268405155625468464651595161565256606056535251605362554763525269585762525157455559565557394446565757525955505068464556685871685361585460595251605361605651535255576564645674505957525653576351675360535351566552516247565667675652506359535548534649435048635760665156535765526759564658504552604071575658475057495048544544494246復(fù)習(xí)-聚類分析練習(xí)題1.為研究不同公司的運營特點,調(diào)查
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 共同股權(quán)投資合同范本
- 關(guān)于續(xù)簽監(jiān)控合同范本
- 涼皮店用工合同范例
- 事業(yè)單位勞務(wù)合同范本3篇
- 公司考核合同范本
- 下班無償保潔合同范本
- 入股銷售合同范本
- 北京貸款合同范本
- 農(nóng)業(yè)設(shè)備運輸合同范例
- 公司簽承攬合同范本
- 《養(yǎng)老保險的理念》課件
- LY/T 3400-2024荒漠與荒漠化防治術(shù)語
- 2024-2025學(xué)年第二學(xué)期英語教研組工作計劃
- 2025年往年教師職稱考試試題
- 山東省海洋知識競賽(初中組)考試題庫500題(含答案)
- 服務(wù)行業(yè)人力資源薪酬體系管理與優(yōu)化
- 《蔚來發(fā)展》課件
- 幼兒園開學(xué)前的廚房人員培訓(xùn)
- 《幼兒教育政策與法規(guī)》教案-單元6 幼兒園的工作人員
- 虛擬制片技術(shù)在VRAR應(yīng)用中的角色建模與渲染-洞察分析
- 2024年山東商務(wù)職業(yè)學(xué)院高職單招語文歷年參考題庫含答案解析
評論
0/150
提交評論