專(zhuān)題3聚類(lèi)分析_第1頁(yè)
專(zhuān)題3聚類(lèi)分析_第2頁(yè)
專(zhuān)題3聚類(lèi)分析_第3頁(yè)
專(zhuān)題3聚類(lèi)分析_第4頁(yè)
專(zhuān)題3聚類(lèi)分析_第5頁(yè)
已閱讀5頁(yè),還剩40頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、聚類(lèi)分析一、什么是聚類(lèi)分析聚類(lèi)分析的概念:聚類(lèi)分析是根據(jù)“物以類(lèi)聚”的道理,對(duì)樣品或指標(biāo)進(jìn)行分類(lèi)的一種多元統(tǒng)計(jì)分析方法。 將個(gè)體或?qū)ο蠓诸?lèi),使得同一類(lèi)中的對(duì)象之間的相似性比與其他類(lèi)的對(duì)象的相似性更強(qiáng)。 聚類(lèi)分析的目的 使類(lèi)內(nèi)對(duì)象的同質(zhì)性最大化和類(lèi)間對(duì)象的異質(zhì)性最大化。一、什么是聚類(lèi)分析聚類(lèi)分析的應(yīng)用:早在孩提時(shí)代,人就通過(guò)不斷改進(jìn)下意識(shí)中的聚類(lèi)模式來(lái)學(xué)會(huì)如何區(qū)分貓和狗,動(dòng)物和植物誰(shuí)經(jīng)常光顧商店,誰(shuí)買(mǎi)什么東西,買(mǎi)多少?按忠誠(chéng)卡記錄的光臨次數(shù)、光臨時(shí)間、性別、年齡、職業(yè)、購(gòu)物種類(lèi)、金額等變量分類(lèi)這樣商店可以.識(shí)別顧客購(gòu)買(mǎi)模式(如喜歡一大早來(lái)買(mǎi)酸奶和鮮肉,習(xí)慣周末時(shí)一次性大采購(gòu))刻畫(huà)不同的客戶群的特

2、征(用變量來(lái)刻畫(huà),就象刻畫(huà)貓和狗的特征一樣)一、什么是聚類(lèi)分析聚類(lèi)分析的應(yīng)用:誰(shuí)是銀行信用卡的黃金客戶?利用儲(chǔ)蓄額、刷卡消費(fèi)金額、誠(chéng)信度等變量對(duì)客戶分類(lèi),找出“黃金客戶”!這樣銀行可以制定更吸引的服務(wù),留住客戶!比如:一定額度和期限的免息透資服務(wù)!百盛的貴賓打折卡!在他或她生日的時(shí)候送上一個(gè)小蛋糕! 例1:對(duì)10位應(yīng)聘者做智能檢驗(yàn)。3項(xiàng)指標(biāo)X,Y和Z分別表示數(shù)學(xué)推理能力,空間想象能力和語(yǔ)言理解能力。其得分如下,選擇合適的統(tǒng)計(jì)方法對(duì)應(yīng)聘者進(jìn)行聚類(lèi)。應(yīng)聘者12345678910X28181121262016142422Y29232223292322232927Z281816222622222424

3、24一、什么是聚類(lèi)分析設(shè)有n個(gè)樣本單位,每個(gè)樣本測(cè)有p個(gè)指標(biāo)(變量),原始資料陣為:二、聚類(lèi)分析的基本思想二、聚類(lèi)分析的基本思想是根據(jù)一批樣品的多個(gè)觀測(cè)指標(biāo),具體地找出一些能夠度量樣品或指標(biāo)之間相似程度的統(tǒng)計(jì)量,然后利用統(tǒng)計(jì)量將樣品或指標(biāo)進(jìn)行歸類(lèi)。把相似的樣品或指標(biāo)歸為一類(lèi),把不相似的歸為其他類(lèi)。直到把所有的樣品(或指標(biāo))聚合完畢. 相似樣本或指標(biāo)的集合稱為類(lèi)。問(wèn)題:如何來(lái)選擇樣品(或指標(biāo))間相似的測(cè)度指標(biāo),如何將有相似性的類(lèi)連接起來(lái)?三、聚類(lèi)分析類(lèi)型及方法1、聚類(lèi)分析的類(lèi)型有: 對(duì)樣本分類(lèi),稱為Q型聚類(lèi)分析 對(duì)變量分類(lèi),稱為R型聚類(lèi)分析 Q型聚類(lèi)是對(duì)樣本進(jìn)行聚類(lèi),它使具有相似性特征的樣本聚集

4、在一起,使差異性大的樣本分離開(kāi)來(lái)。 R型聚類(lèi)是對(duì)變量進(jìn)行聚類(lèi),它使具有相似性的變量聚集在一起,差異性大的變量分離開(kāi)來(lái),可在相似變量中選擇少數(shù)具有代表性的變量參與其他分析,實(shí)現(xiàn)減少變量個(gè)數(shù),達(dá)到變量降維的目的。 三、聚類(lèi)分析類(lèi)型及方法2、聚類(lèi)分析的方法: 系統(tǒng)聚類(lèi)(層次聚類(lèi)) 非系統(tǒng)聚類(lèi)(非層次聚類(lèi))系統(tǒng)聚類(lèi)法包括:凝聚方式聚類(lèi)、分解方式聚類(lèi)非系統(tǒng)聚類(lèi)法包括:模糊聚類(lèi)法、K均值法(快速聚類(lèi)法)等等 凝聚式分解式以系統(tǒng)聚類(lèi)法為例:三、聚類(lèi)分析類(lèi)型及方法四、對(duì)象之間相似性度量1、樣本或變量的相似性程度的數(shù)量指標(biāo): (1)相似系數(shù) 性質(zhì)越接近的變量或樣品,它們的相似系數(shù)越接近于1或一l,而彼此無(wú)關(guān)的變

5、量或樣品它們的相似系數(shù)則越接近于0,相似的為一類(lèi),不相似的為不同類(lèi); (2)距離 它是將每一個(gè)樣品看作p維空間的一個(gè)點(diǎn),并用某種度量方法測(cè)量點(diǎn)與點(diǎn)之間的距離,距離較近的歸為一類(lèi),距離較遠(yuǎn)的點(diǎn)應(yīng)屬于不同的類(lèi)。樣本分類(lèi)(Q型聚類(lèi))常以距離刻畫(huà)相似性指標(biāo)分類(lèi)(R型聚類(lèi))常以相似系數(shù)刻畫(huà)相似性四、對(duì)象之間相似性度量距離和相似系數(shù)有著各種不同的定義,而這些定義與變量類(lèi)型有著非常密切的關(guān)系。變量可分為定性變量和定量變量。若按測(cè)量尺度的不同可以分為: (1)間隔尺度變量:變量用連續(xù)的量來(lái)表示,如長(zhǎng)度、重量、速度、溫度等。 (2)有序尺度變量:變量度量時(shí)不用明確的數(shù)量表示,而是用等級(jí)來(lái)表示,如產(chǎn)品分為一等品、

6、二等品、三等品等有次序關(guān)系。 (3)名義尺度變量:變量用既沒(méi)有數(shù)量關(guān)系也沒(méi)有次序關(guān)系,只有一些特性狀態(tài),如性別、職業(yè)、產(chǎn)品的型號(hào)等。四、對(duì)象之間相似性度量(一)間隔尺度變量的相似性度量1、距離 設(shè)有n個(gè)樣本單位,每個(gè)樣本測(cè)有p個(gè)指標(biāo)(變量),原始資料陣為:四、對(duì)象之間相似性度量每個(gè)樣本都可以看成p維空間中的一點(diǎn),n個(gè)樣本就是p維空間中的n個(gè)點(diǎn)。第i個(gè)樣本與第j個(gè)樣本之間的距離記為 聚類(lèi)過(guò)程中,相距較近的點(diǎn)歸為一類(lèi),相距較遠(yuǎn)的點(diǎn)歸為不同的類(lèi)。 四、對(duì)象之間相似性度量第i個(gè)和第j個(gè)樣品之間的距離 如下四個(gè)條件:四、對(duì)象之間相似性度量常用距離 (1)明考夫斯基距離(Minkowski distanc

7、e) 明氏距離有三種特殊形式: (1a)絕對(duì)距離(Block距離):當(dāng)q=1時(shí)四、對(duì)象之間相似性度量(1b)歐氏距離(Euclidean distance):當(dāng)q=2時(shí)(1c)切比雪夫距離:當(dāng) 時(shí)四、對(duì)象之間相似性度量(一)間隔尺度變量的相似性度量2、相似系數(shù) 相似系數(shù)(或其絕對(duì)值)越大,變量之間的相似性程度越高;反之,越低。聚類(lèi)時(shí),比較相似的變量歸為一類(lèi),不太相似的變量歸為不同的類(lèi)。 變量 與 的相似系數(shù)用 表示,滿足以下三個(gè)條件: 四、對(duì)象之間相似性度量(1)相關(guān)系數(shù)設(shè) 和是第 和 個(gè)樣品的觀測(cè)值,則二者之間的相似測(cè)度為:四、對(duì)象之間相似性度量(2)夾角余弦 從向量集合的角度所定義的一種測(cè)

8、度變量之間親疏程度的相似系數(shù)。設(shè)在n維空間的向量(二)名義變量的相似性度量簡(jiǎn)單匹配系數(shù):簡(jiǎn)單匹配系數(shù)不配合的變量個(gè)數(shù)/(配合與不配合變量個(gè)數(shù)和)例:某高校舉辦一個(gè)培訓(xùn)班,從學(xué)員的資料中得到6個(gè)變量:性別x1,取值男和女;外語(yǔ)語(yǔ)種x2,取值為英、日、俄;專(zhuān)業(yè)x3,取值為統(tǒng)計(jì)、會(huì)計(jì)、金融;職業(yè)x4,取值為教師和非教師;居住處x5,取值為校內(nèi)和校外;學(xué)歷x6,取值本科和本科以下。四、對(duì)象之間相似性度量四、對(duì)象之間相似性度量現(xiàn)有學(xué)員i和學(xué)員j: i=(男,英,統(tǒng)計(jì),非教師,校外,本科) j=(女,英,金融,教師,校外,本科以下)二者的距離: 四、對(duì)象之間相似性度量(三)定序變量的距離計(jì)算(Fisher

9、算法)(略)四、對(duì)象之間相似性度量 可以根據(jù)所選擇的距離構(gòu)成樣本點(diǎn)間的距離表,樣本點(diǎn)之間被連接起來(lái)。問(wèn)題:如何度量 樣本、類(lèi)之間的相似性 類(lèi)與類(lèi)之間相似性五、類(lèi)和類(lèi)的特征1、類(lèi)的定義 相似樣本或指標(biāo)的集合稱為類(lèi)。2、類(lèi)的特征描述 設(shè)類(lèi)G這一集合有 。m為G內(nèi)的樣本數(shù)。其特征: (1)均值(重心)五、類(lèi)和類(lèi)的特征 (2)G的直徑 六、類(lèi)與類(lèi)之間的相似性度量(1)最短距離(Nearest Neighbor)x21x12x22x11類(lèi)Gp與類(lèi)Gq之間的距離Dpq(d(xi,xj)表示點(diǎn)xiGp和xjGq之間的距離) 例:為了研究遼寧省5省區(qū)某年城鎮(zhèn)居民生活消費(fèi)的分布規(guī)律,根據(jù)調(diào)查資料做類(lèi)型劃分省份x

10、1x2x3x4x5x6x7x8遼寧浙江河南甘肅青海7.90 7.68 9.42 9.16 10.0639.7750.3727.9327.9828.648.49 11.358.209.0110.5212.9413.308.149.3210.0519.2719.2516.1715.9916.1811.0514.599.429.10 8.392.042.751.551.821.9613.2914.879.7611.3510.81 G1=遼寧,G2=浙江,G3=河南, G4=甘肅,G5=青海采用歐氏距離有: 1 2 3 4 5D1= 1 0 2 11.67 0 3 13.80 24.63 0 4 13

11、.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0河南與甘肅的距離最近,先將二者(3和4)合為一類(lèi)G6=G3,G4d61=d(3,4)1=mind13,d14=13.12 d62=d(3,4)2=mind23,d24=24.06d65=d(3,4)5=mind35,d45=2.21 6 1 2 5 6 0D2= 1 13.12 0 2 24.06 11.67 0 5 2.21 12.80 23.54 0d71=d(3,4,5)1=mind13,d14,d15=12.80d72=d(3,4,5)2=mind23,d24,d25=23.54 7 1 2D3= 7

12、0 1 12.80 0 2 23.54 11.67 0河南、甘肅與青海并為一新類(lèi)G7=G6,G5=G3,G4,G6G8=G1,G2d78=mind71,d72=12.80 7 8D4= 7 0 8 12.8 0河南3甘肅4青海5遼寧1浙江2六、類(lèi)與類(lèi)之間的相似性度量(2)最長(zhǎng)距離(Furthest Neighbor )x11x21例2:對(duì)例1的數(shù)據(jù)以最長(zhǎng)距離法聚類(lèi)。 d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d35=3.51 d45=2.21 1 2 3 4 5D1= 1 0 2 11.67 0 3

13、13.80 24.63 0 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0d61=d(3,4)1=maxd13,d14=13.80 d62=d(3,4)2=maxd23,d24=24.63 d65=d(3,4)5=maxd35,d45=3.51 6 1 2 5 6 0D2= 1 13.80 0 2 24.63 11.67 0 5 3.51 12.80 23.54 0河南與甘肅的距離最近,先將二者(3和4)合為一類(lèi)G6=G2,G4河南、甘肅與青海并為一新類(lèi)G7=G6,G5=G3,G4,G6d71=d(3,4,5)1=maxd13,d14,d15=13

14、.80d72=d(3,4,5)2=maxd23,d24,d25=24.63 7 1 2D3= 7 0 1 13.80 0 2 24.63 11.67 0d78=maxd71,d72=24.63 7 8D4= 7 0 8 24.63 0G8=G1,G2六、類(lèi)與類(lèi)之間的相似性度量(3)組間平均連接(Between-group Linkage)六、類(lèi)與類(lèi)之間的相似性度量(4)組內(nèi)平均連接( Within-group Linkage) 六、類(lèi)與類(lèi)之間的相似性度量(5)重心法(Centroid clustering):均值點(diǎn)的距離七、系統(tǒng)聚類(lèi)法系統(tǒng)聚類(lèi)法是一種其聚類(lèi)過(guò)程可以用所謂的譜系結(jié)構(gòu)或樹(shù)形結(jié)構(gòu)來(lái)描繪的方法。事先不用確定分多少類(lèi)(一)凝聚式系統(tǒng)聚類(lèi)法 1、所有的研究對(duì)象各自算作一類(lèi),將最“靠近” 的首先聚類(lèi) 2、再將這個(gè)類(lèi)和其它類(lèi)中最“靠近”的結(jié)合,直至所有的對(duì)象都合并為一類(lèi)為止 例:16種飲料的熱量、咖啡因、鈉及價(jià)格四種變量SPSS處理: 1、AnalyzeClassifyHierarchical Cluster 2、把calorie(熱量)、caffeine(咖啡因)、sodium(鈉)、price(價(jià)格)選入V

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論