




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、聚類分析一、什么是聚類分析聚類分析的概念:聚類分析是根據(jù)“物以類聚”的道理,對(duì)樣品或指標(biāo)進(jìn)行分類的一種多元統(tǒng)計(jì)分析方法。 將個(gè)體或?qū)ο蠓诸?,使得同一類中的?duì)象之間的相似性比與其他類的對(duì)象的相似性更強(qiáng)。 聚類分析的目的 使類內(nèi)對(duì)象的同質(zhì)性最大化和類間對(duì)象的異質(zhì)性最大化。一、什么是聚類分析聚類分析的應(yīng)用:早在孩提時(shí)代,人就通過不斷改進(jìn)下意識(shí)中的聚類模式來學(xué)會(huì)如何區(qū)分貓和狗,動(dòng)物和植物誰(shuí)經(jīng)常光顧商店,誰(shuí)買什么東西,買多少?按忠誠(chéng)卡記錄的光臨次數(shù)、光臨時(shí)間、性別、年齡、職業(yè)、購(gòu)物種類、金額等變量分類這樣商店可以.識(shí)別顧客購(gòu)買模式(如喜歡一大早來買酸奶和鮮肉,習(xí)慣周末時(shí)一次性大采購(gòu))刻畫不同的客戶群的特
2、征(用變量來刻畫,就象刻畫貓和狗的特征一樣)一、什么是聚類分析聚類分析的應(yīng)用:誰(shuí)是銀行信用卡的黃金客戶?利用儲(chǔ)蓄額、刷卡消費(fèi)金額、誠(chéng)信度等變量對(duì)客戶分類,找出“黃金客戶”!這樣銀行可以制定更吸引的服務(wù),留住客戶!比如:一定額度和期限的免息透資服務(wù)!百盛的貴賓打折卡!在他或她生日的時(shí)候送上一個(gè)小蛋糕! 例1:對(duì)10位應(yīng)聘者做智能檢驗(yàn)。3項(xiàng)指標(biāo)X,Y和Z分別表示數(shù)學(xué)推理能力,空間想象能力和語(yǔ)言理解能力。其得分如下,選擇合適的統(tǒng)計(jì)方法對(duì)應(yīng)聘者進(jìn)行聚類。應(yīng)聘者12345678910X28181121262016142422Y29232223292322232927Z281816222622222424
3、24一、什么是聚類分析設(shè)有n個(gè)樣本單位,每個(gè)樣本測(cè)有p個(gè)指標(biāo)(變量),原始資料陣為:二、聚類分析的基本思想二、聚類分析的基本思想是根據(jù)一批樣品的多個(gè)觀測(cè)指標(biāo),具體地找出一些能夠度量樣品或指標(biāo)之間相似程度的統(tǒng)計(jì)量,然后利用統(tǒng)計(jì)量將樣品或指標(biāo)進(jìn)行歸類。把相似的樣品或指標(biāo)歸為一類,把不相似的歸為其他類。直到把所有的樣品(或指標(biāo))聚合完畢. 相似樣本或指標(biāo)的集合稱為類。問題:如何來選擇樣品(或指標(biāo))間相似的測(cè)度指標(biāo),如何將有相似性的類連接起來?三、聚類分析類型及方法1、聚類分析的類型有: 對(duì)樣本分類,稱為Q型聚類分析 對(duì)變量分類,稱為R型聚類分析 Q型聚類是對(duì)樣本進(jìn)行聚類,它使具有相似性特征的樣本聚集
4、在一起,使差異性大的樣本分離開來。 R型聚類是對(duì)變量進(jìn)行聚類,它使具有相似性的變量聚集在一起,差異性大的變量分離開來,可在相似變量中選擇少數(shù)具有代表性的變量參與其他分析,實(shí)現(xiàn)減少變量個(gè)數(shù),達(dá)到變量降維的目的。 三、聚類分析類型及方法2、聚類分析的方法: 系統(tǒng)聚類(層次聚類) 非系統(tǒng)聚類(非層次聚類)系統(tǒng)聚類法包括:凝聚方式聚類、分解方式聚類非系統(tǒng)聚類法包括:模糊聚類法、K均值法(快速聚類法)等等 凝聚式分解式以系統(tǒng)聚類法為例:三、聚類分析類型及方法四、對(duì)象之間相似性度量1、樣本或變量的相似性程度的數(shù)量指標(biāo): (1)相似系數(shù) 性質(zhì)越接近的變量或樣品,它們的相似系數(shù)越接近于1或一l,而彼此無關(guān)的變
5、量或樣品它們的相似系數(shù)則越接近于0,相似的為一類,不相似的為不同類; (2)距離 它是將每一個(gè)樣品看作p維空間的一個(gè)點(diǎn),并用某種度量方法測(cè)量點(diǎn)與點(diǎn)之間的距離,距離較近的歸為一類,距離較遠(yuǎn)的點(diǎn)應(yīng)屬于不同的類。樣本分類(Q型聚類)常以距離刻畫相似性指標(biāo)分類(R型聚類)常以相似系數(shù)刻畫相似性四、對(duì)象之間相似性度量距離和相似系數(shù)有著各種不同的定義,而這些定義與變量類型有著非常密切的關(guān)系。變量可分為定性變量和定量變量。若按測(cè)量尺度的不同可以分為: (1)間隔尺度變量:變量用連續(xù)的量來表示,如長(zhǎng)度、重量、速度、溫度等。 (2)有序尺度變量:變量度量時(shí)不用明確的數(shù)量表示,而是用等級(jí)來表示,如產(chǎn)品分為一等品、
6、二等品、三等品等有次序關(guān)系。 (3)名義尺度變量:變量用既沒有數(shù)量關(guān)系也沒有次序關(guān)系,只有一些特性狀態(tài),如性別、職業(yè)、產(chǎn)品的型號(hào)等。四、對(duì)象之間相似性度量(一)間隔尺度變量的相似性度量1、距離 設(shè)有n個(gè)樣本單位,每個(gè)樣本測(cè)有p個(gè)指標(biāo)(變量),原始資料陣為:四、對(duì)象之間相似性度量每個(gè)樣本都可以看成p維空間中的一點(diǎn),n個(gè)樣本就是p維空間中的n個(gè)點(diǎn)。第i個(gè)樣本與第j個(gè)樣本之間的距離記為 聚類過程中,相距較近的點(diǎn)歸為一類,相距較遠(yuǎn)的點(diǎn)歸為不同的類。 四、對(duì)象之間相似性度量第i個(gè)和第j個(gè)樣品之間的距離 如下四個(gè)條件:四、對(duì)象之間相似性度量常用距離 (1)明考夫斯基距離(Minkowski distanc
7、e) 明氏距離有三種特殊形式: (1a)絕對(duì)距離(Block距離):當(dāng)q=1時(shí)四、對(duì)象之間相似性度量(1b)歐氏距離(Euclidean distance):當(dāng)q=2時(shí)(1c)切比雪夫距離:當(dāng) 時(shí)四、對(duì)象之間相似性度量(一)間隔尺度變量的相似性度量2、相似系數(shù) 相似系數(shù)(或其絕對(duì)值)越大,變量之間的相似性程度越高;反之,越低。聚類時(shí),比較相似的變量歸為一類,不太相似的變量歸為不同的類。 變量 與 的相似系數(shù)用 表示,滿足以下三個(gè)條件: 四、對(duì)象之間相似性度量(1)相關(guān)系數(shù)設(shè) 和是第 和 個(gè)樣品的觀測(cè)值,則二者之間的相似測(cè)度為:四、對(duì)象之間相似性度量(2)夾角余弦 從向量集合的角度所定義的一種測(cè)
8、度變量之間親疏程度的相似系數(shù)。設(shè)在n維空間的向量(二)名義變量的相似性度量簡(jiǎn)單匹配系數(shù):簡(jiǎn)單匹配系數(shù)不配合的變量個(gè)數(shù)/(配合與不配合變量個(gè)數(shù)和)例:某高校舉辦一個(gè)培訓(xùn)班,從學(xué)員的資料中得到6個(gè)變量:性別x1,取值男和女;外語(yǔ)語(yǔ)種x2,取值為英、日、俄;專業(yè)x3,取值為統(tǒng)計(jì)、會(huì)計(jì)、金融;職業(yè)x4,取值為教師和非教師;居住處x5,取值為校內(nèi)和校外;學(xué)歷x6,取值本科和本科以下。四、對(duì)象之間相似性度量四、對(duì)象之間相似性度量現(xiàn)有學(xué)員i和學(xué)員j: i=(男,英,統(tǒng)計(jì),非教師,校外,本科) j=(女,英,金融,教師,校外,本科以下)二者的距離: 四、對(duì)象之間相似性度量(三)定序變量的距離計(jì)算(Fisher
9、算法)(略)四、對(duì)象之間相似性度量 可以根據(jù)所選擇的距離構(gòu)成樣本點(diǎn)間的距離表,樣本點(diǎn)之間被連接起來。問題:如何度量 樣本、類之間的相似性 類與類之間相似性五、類和類的特征1、類的定義 相似樣本或指標(biāo)的集合稱為類。2、類的特征描述 設(shè)類G這一集合有 。m為G內(nèi)的樣本數(shù)。其特征: (1)均值(重心)五、類和類的特征 (2)G的直徑 六、類與類之間的相似性度量(1)最短距離(Nearest Neighbor)x21x12x22x11類Gp與類Gq之間的距離Dpq(d(xi,xj)表示點(diǎn)xiGp和xjGq之間的距離) 例:為了研究遼寧省5省區(qū)某年城鎮(zhèn)居民生活消費(fèi)的分布規(guī)律,根據(jù)調(diào)查資料做類型劃分省份x
10、1x2x3x4x5x6x7x8遼寧浙江河南甘肅青海7.90 7.68 9.42 9.16 10.0639.7750.3727.9327.9828.648.49 11.358.209.0110.5212.9413.308.149.3210.0519.2719.2516.1715.9916.1811.0514.599.429.10 8.392.042.751.551.821.9613.2914.879.7611.3510.81 G1=遼寧,G2=浙江,G3=河南, G4=甘肅,G5=青海采用歐氏距離有: 1 2 3 4 5D1= 1 0 2 11.67 0 3 13.80 24.63 0 4 13
11、.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0河南與甘肅的距離最近,先將二者(3和4)合為一類G6=G3,G4d61=d(3,4)1=mind13,d14=13.12 d62=d(3,4)2=mind23,d24=24.06d65=d(3,4)5=mind35,d45=2.21 6 1 2 5 6 0D2= 1 13.12 0 2 24.06 11.67 0 5 2.21 12.80 23.54 0d71=d(3,4,5)1=mind13,d14,d15=12.80d72=d(3,4,5)2=mind23,d24,d25=23.54 7 1 2D3= 7
12、0 1 12.80 0 2 23.54 11.67 0河南、甘肅與青海并為一新類G7=G6,G5=G3,G4,G6G8=G1,G2d78=mind71,d72=12.80 7 8D4= 7 0 8 12.8 0河南3甘肅4青海5遼寧1浙江2六、類與類之間的相似性度量(2)最長(zhǎng)距離(Furthest Neighbor )x11x21例2:對(duì)例1的數(shù)據(jù)以最長(zhǎng)距離法聚類。 d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d35=3.51 d45=2.21 1 2 3 4 5D1= 1 0 2 11.67 0 3
13、13.80 24.63 0 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0d61=d(3,4)1=maxd13,d14=13.80 d62=d(3,4)2=maxd23,d24=24.63 d65=d(3,4)5=maxd35,d45=3.51 6 1 2 5 6 0D2= 1 13.80 0 2 24.63 11.67 0 5 3.51 12.80 23.54 0河南與甘肅的距離最近,先將二者(3和4)合為一類G6=G2,G4河南、甘肅與青海并為一新類G7=G6,G5=G3,G4,G6d71=d(3,4,5)1=maxd13,d14,d15=13
14、.80d72=d(3,4,5)2=maxd23,d24,d25=24.63 7 1 2D3= 7 0 1 13.80 0 2 24.63 11.67 0d78=maxd71,d72=24.63 7 8D4= 7 0 8 24.63 0G8=G1,G2六、類與類之間的相似性度量(3)組間平均連接(Between-group Linkage)六、類與類之間的相似性度量(4)組內(nèi)平均連接( Within-group Linkage) 六、類與類之間的相似性度量(5)重心法(Centroid clustering):均值點(diǎn)的距離七、系統(tǒng)聚類法系統(tǒng)聚類法是一種其聚類過程可以用所謂的譜系結(jié)構(gòu)或樹形結(jié)構(gòu)來描繪的方法。事先不用確定分多少類(一)凝聚式系統(tǒng)聚類法 1、所有的研究對(duì)象各自算作一類,將最“靠近” 的首先聚類 2、再將這個(gè)類和其它類中最“靠近”的結(jié)合,直至所有的對(duì)象都合并為一類為止 例:16種飲料的熱量、咖啡因、鈉及價(jià)格四種變量SPSS處理: 1、AnalyzeClassifyHierarchical Cluster 2、把calorie(熱量)、caffeine(咖啡因)、sodium(鈉)、price(價(jià)格)選入V
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 城市再生水利用模式研究計(jì)劃
- 食品安全與超市工作場(chǎng)所的衛(wèi)生控制
- 針對(duì)不同年齡群體的認(rèn)知障礙預(yù)防措施
- 2025年福建南平綠發(fā)集團(tuán)有限公司招聘28人筆試參考題庫(kù)附帶答案詳解
- 財(cái)技相融財(cái)務(wù)報(bào)表分析與企業(yè)經(jīng)營(yíng)管理的融合策略
- 項(xiàng)目化美術(shù)教育與設(shè)計(jì)思維的融合趨勢(shì)
- 高效太陽(yáng)能技術(shù)研發(fā)進(jìn)展及產(chǎn)業(yè)前景
- 浙江鴨2025版高考?xì)v史大三輪復(fù)習(xí)下篇第一部分主題四中國(guó)傳統(tǒng)文化的傳承及中西方思想的交流與碰撞學(xué)案人民版
- 跨境電商平臺(tái)下的銀行對(duì)公跨境支付服務(wù)模式創(chuàng)新
- 江蘇專版2025屆高考?xì)v史二輪復(fù)習(xí)專題十六中國(guó)特色社會(huì)主義建設(shè)的道路練習(xí)
- 體育足球籃球排球體操教案
- 保管錢財(cái)協(xié)議書的范本
- 《無機(jī)化學(xué)》課件-離子鍵
- 湖北省武漢市二月調(diào)考讀后續(xù)寫解析+課件
- GB/T 9364.8-2023小型熔斷器第8部分:帶有特殊過電流保護(hù)的熔斷電阻器
- 小學(xué)三年級(jí)數(shù)學(xué)脫式計(jì)算200題(2023年整理)
- 安全培訓(xùn)提升安全意識(shí)
- 如何上好一堂主題班會(huì)課課件
- 公安人口管理
- GB/T 3477-2023船用風(fēng)雨密單扇鋼質(zhì)門
- 三位數(shù)除以一位數(shù)(商為三位數(shù))練習(xí)題含答案
評(píng)論
0/150
提交評(píng)論