版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第五章聚類分析【學(xué)習(xí)目標(biāo)】
理解聚類的基本概念掌握距離計(jì)算的不同方式掌握聚類的不同方法5.1聚類的基本概念“物以類聚,人以群分”,在自然科學(xué)和社會(huì)科學(xué)中,存在著大量的分類問題。例如,市場營銷中的市場細(xì)分和客戶細(xì)分問題。大型購物網(wǎng)站收集到客戶人口特征、消費(fèi)行為和喜好方面的數(shù)據(jù),并希望對這些客戶進(jìn)行特征分析。可以從客戶分類入手,根據(jù)客戶的年齡、職業(yè)、收入、消費(fèi)金額、消費(fèi)頻率、喜好等方面進(jìn)行單變量或多變量的客戶分組。這種分組是極為常見的客戶細(xì)分方式,但存在的不足是客戶群劃分帶有明顯得主觀色彩,需要有豐富的行業(yè)經(jīng)驗(yàn)才能得到比較合理或理想的客戶細(xì)分,否則得到的分組可能無法充分反映和展現(xiàn)客戶的特點(diǎn),主要表現(xiàn)在,同一客戶細(xì)分段中的客戶在某些特征方面并不相似,而不同客戶細(xì)分段中的客戶在某些特征方面卻又很相似。因此,這種客戶細(xì)分并沒有真正起到劃分客戶群的作用。為解決該問題,希望從數(shù)據(jù)自身出發(fā),充分利用數(shù)據(jù)進(jìn)行客戶的客觀分組,使諸多特征有相似性的客戶被分在同一組,而不相似的客戶被區(qū)分到另一些組中。聚類分析則是這樣一種方法聚類分析又稱群分析,它是研究(樣品或指標(biāo))分類問題的一種多元統(tǒng)計(jì)分析方法。聚類分析起源于分類學(xué),但是聚類不等于分類。聚類與分類的不同在于,聚類所要求劃分的類是未知的。聚類分析內(nèi)容非常豐富,有系統(tǒng)聚類法、有序樣品聚類法、動(dòng)態(tài)聚類法、模糊聚類法、圖論聚類法、聚類預(yù)報(bào)法等。聚類分析能夠?qū)⒁慌鷺颖净颍ㄗ兞浚?shù)據(jù)依據(jù)其諸多特征,按照性質(zhì)上的親疏程度在沒有先驗(yàn)知識(shí)的情況下進(jìn)行自動(dòng)分類,產(chǎn)生多個(gè)分類結(jié)果。類內(nèi)部的個(gè)體在特征上具有相似性,不同類間個(gè)體特征的差異性較大理解聚類分析的關(guān)鍵是理解兩個(gè)要點(diǎn):“沒有先驗(yàn)知識(shí)”和“親疏程度”。為此,可以先看一個(gè)例子編號購物環(huán)境服務(wù)質(zhì)量A超市7368B超市6664C超市8482D超市9188E超市9490“親疏程度”的衡量與計(jì)算在聚類分析中,衡量個(gè)體之間的“親屬程度”是極為重要的,它將直接影響最終的聚類結(jié)果。衡量“親疏程度”一般有兩個(gè)角度:第一,個(gè)體間的相似程度;第二,個(gè)體間的差異程度。衡量個(gè)體間的相似程度通??梢圆捎煤唵蜗嚓P(guān)系數(shù)或等級相關(guān)系數(shù)等;個(gè)體間的差異程度通常通過某種距離來測度,以下著重討論個(gè)體間的差異程度。為定義個(gè)體間的距離,應(yīng)先將每個(gè)樣本數(shù)據(jù)看成k維空間上的一個(gè)點(diǎn)。例如,可將表5-1中五個(gè)超市樣本看成k等于2的二維空間上的五個(gè)點(diǎn),也就是看成由購物環(huán)境和服務(wù)質(zhì)量兩個(gè)變量構(gòu)成的二維平面上的五個(gè)點(diǎn),并于此定義某種距離,計(jì)算五個(gè)點(diǎn)彼此間的“親疏程度”。通常,點(diǎn)與點(diǎn)之間距離越小,意味著它們越“親密”,越有可能聚成一類。點(diǎn)與點(diǎn)之間距離越大,意味著它們越“疏遠(yuǎn)”,越有可能分別屬于不同的類。編號購物環(huán)境服務(wù)質(zhì)量A超市7368B超市6664C超市8482D超市9188E超市94905.2.1定距型變量個(gè)體間距離計(jì)算
如果涉及到的k個(gè)變量都是定距型變量,那么個(gè)體間距離的定義通常有以下幾種方式:1.歐氏距離(EuclideanDistance)歐氏距離(也稱歐幾里得度量(Euclideanmetric))是一個(gè)通常采用的距離定義,指在m維空間中兩個(gè)點(diǎn)之間的真實(shí)距離,或者向量的自然長度(即該點(diǎn)到原點(diǎn)的距離)。在二維和三維空間中的歐氏距離就是兩點(diǎn)之間的實(shí)際距離。2.曼哈頓距離(ManhattanDistance)
想象你在曼哈頓要從一個(gè)十字路口開車到另外一個(gè)十字路口,駕駛距離是兩點(diǎn)間的直線距離嗎?顯然不是,除非你能穿越大樓。實(shí)際駕駛距離就是這個(gè)“曼哈頓距離”。而這也是曼哈頓距離名稱的來源,曼哈頓距離也稱為城市街區(qū)距離(CityBlockdistance)。曼哈頓距離(ManhattanDistance)
需要注意的地方:非負(fù)性:d(i,j)≥0距離是一個(gè)非負(fù)的數(shù)值;同一性:d(i,i)=0對象到自身的距離為0;對稱性:d(i,j)=d(j,i)距離是一個(gè)對稱函數(shù);3.切比雪夫距離(ChebyshevDistance)
國際象棋玩過么?國王走一步能夠移動(dòng)到相鄰的8個(gè)方格中的任意一個(gè)。那么國王從格子(x1,y1)走到格子(x2,y2)最少需要多少步?自己走走試試。你會(huì)發(fā)現(xiàn)最少步數(shù)總是max(|x2-x1|,|y2-y1|)步。有一種類似的一種距離度量方法叫切比雪夫距離。在數(shù)學(xué)中,切比雪夫距離是向量空間中的一種度量,兩個(gè)點(diǎn)之間的距離定義是其各坐標(biāo)數(shù)值差絕對值的最大值。舉個(gè)例子:二維樣本(身高,體重),其中身高范圍是150~190,體重范圍是50~60,有三個(gè)樣本:a(180,50),b(190,50),c(180,60)。那么計(jì)算a與b之間,a與c之間的曼哈頓距離、歐氏距離或切比雪夫距離標(biāo)準(zhǔn)歐氏距離的定義*
標(biāo)準(zhǔn)化歐氏距離是針對簡單歐氏距離的缺點(diǎn)而作的一種改進(jìn)方案。標(biāo)準(zhǔn)歐氏距離的思路:針對數(shù)據(jù)各維分量的分布不一致情況將各個(gè)分量“標(biāo)準(zhǔn)化”到均值、方差相等。假設(shè)樣本集X的均值(mean)為m,標(biāo)準(zhǔn)差(standarddeviation)為s,那么X的“標(biāo)準(zhǔn)化變量”(標(biāo)準(zhǔn)化變量的數(shù)學(xué)期望為0,方差為1)表示為:標(biāo)準(zhǔn)化后的值=(標(biāo)準(zhǔn)化前的值-分量的均值)/分量的標(biāo)準(zhǔn)差。夾角余弦(Cosine)*夾角余弦取值范圍為[-1,1]。夾角余弦越大表示兩個(gè)向量的夾角越小,夾角余弦越小表示兩向量的夾角越大。當(dāng)兩個(gè)向量的方向重合時(shí)夾角余弦取最大值1,當(dāng)兩個(gè)向量的方向完全相反夾角余弦取最小值-1。5.2.2計(jì)數(shù)變量個(gè)體間距離的計(jì)算方式
卡方(Chi-Square)距離文化程度企業(yè)高中及以上初中小學(xué)及以下合計(jì)甲44(46)36(42)140(132)220乙60(58)60(54)160(168)280合計(jì)104963005005.2.3二值變量個(gè)體間距離計(jì)算該表是根據(jù)原始數(shù)據(jù)轉(zhuǎn)換而來的兩個(gè)體取值的交叉列聯(lián)表。表中,a+b+c+d等于變量的總個(gè)數(shù),a為兩個(gè)體取值都為1的變量個(gè)數(shù),b為個(gè)體x取值為0,而個(gè)體y取值為1的變量個(gè)數(shù),c為個(gè)體x取值為1而個(gè)體y取值為0的變量個(gè)數(shù),d為兩個(gè)體取值都是0的變量個(gè)數(shù)。顯然,a+d的比重描述了兩個(gè)體之間的相似程度,而b+c的比重反映了兩個(gè)體之間的差異程度。1.簡單匹配系數(shù)
個(gè)體x10個(gè)體y1ab0cd姓名性別發(fā)燒咳嗽檢查1檢查2檢查3檢查4JackMYNPNNNMaryFYNPNPNJimMYPNNNN2.雅科比系數(shù)(Jaccardcoefficient)
一個(gè)二元屬性是對稱的,如果它的兩種狀態(tài)具有同等價(jià)值并且攜帶相同的權(quán)重;即關(guān)于哪個(gè)結(jié)果應(yīng)該用0或1編碼并無偏好(例如,屬性gender的兩種狀態(tài)男和女)。一個(gè)二元屬性是非對稱的,如果其狀態(tài)的結(jié)果不是同等重要的。為方便計(jì),我們將用1對最重要的結(jié)果(通常是稀有的)編碼(例如,HIV陽性),而另一個(gè)用0編碼(例如,HIV陰性)。給定兩個(gè)不對稱的二元變量,兩個(gè)都取值1的情況(正匹配)被認(rèn)為比兩個(gè)都取值0的情況(負(fù)匹配)更有意義。基于這樣變量的相似度被稱為非恒定的相似度。對非恒定的相似度,最著名的評價(jià)系數(shù)是Jaccard系數(shù),在它的計(jì)算中,負(fù)匹配的數(shù)目被認(rèn)為是不重要的,因此被忽略。換句話說,就是把d去掉。姓名性別發(fā)燒咳嗽檢查1檢查2檢查3檢查4JackMYNPNNNMaryFYNPNPNJimMYPNNNN首先給Y和P值賦值為1,N賦值為05.2.4其他個(gè)體間距離計(jì)算
1.漢明距離(Hammingdistance),漢明距離表示兩個(gè)(相同長度)字對應(yīng)位不同的數(shù)量。換句話說,它就是將一個(gè)字符串變換成另外一個(gè)字符串所需要替換的字符個(gè)數(shù)。1011101與1001001之間的漢明距離是2。2143896與2233796之間的漢明距離是3。信息熵(InformationEntropy)
信息熵并不屬于一種相似性度量。信息熵是衡量分布的混亂程度或分散程度的一種度量。分布越分散(或者說分布越平均),信息熵就越大。分布越有序(或者說分布越集中),信息熵就越小。n:樣本集X的分類數(shù);pi:X中第i類元素出現(xiàn)的概率;信息熵越大表明樣本集S分類越分散,信息熵越小則表明樣本集X分類越集中。當(dāng)S中n個(gè)分類出現(xiàn)的概率一樣大時(shí)(都是1/n),信息熵取最大值log2(n)。當(dāng)X只有一個(gè)分類時(shí),信息熵取最小值0。5.3聚類的方法
5.3.1K-Means聚類算法K均值聚類算法(K-MeansClusteringAlgorithm)是一種迭代求解的聚類分析算法,其步驟是隨機(jī)選取K個(gè)對象作為初始的聚類中心,然后計(jì)算每個(gè)對象與各個(gè)種子聚類中心之間的距離,把每個(gè)對象分配給距離它最近的聚類中心2.K-Means(K均值)聚類算法及步驟
(1)首先確定一個(gè)k值,即我們希望將數(shù)據(jù)集經(jīng)過聚類得到k個(gè)集合。(2)從數(shù)據(jù)集中隨機(jī)選擇k個(gè)數(shù)據(jù)點(diǎn)作為質(zhì)心。(3)對數(shù)據(jù)集中每一個(gè)點(diǎn),計(jì)算其與每一個(gè)質(zhì)心的距離(如歐式距離),離哪個(gè)質(zhì)心近,就劃分到那個(gè)質(zhì)心所屬的集合。(4)把所有數(shù)據(jù)歸好集合后,一共有k個(gè)集合。然后重新計(jì)算每個(gè)集合的質(zhì)心。(5)如果新計(jì)算出來的質(zhì)心和原來的質(zhì)心之間的距離小于某一個(gè)設(shè)置的閾值(表示重新計(jì)算的質(zhì)心的位置變化不大,趨于穩(wěn)定,或者說收斂),我們可以認(rèn)為聚類已經(jīng)達(dá)到期望的結(jié)果,算法終止。(6)如果新質(zhì)心和原質(zhì)心距離變化很大,需要迭代3~5步驟
XYP100P212P331P488P5910P6107第一次循環(huán)
P1P2P33.162.24P411.39.22P513.511.3P612.210.3(1)首先令K等于2,隨機(jī)選擇兩個(gè)點(diǎn):P1和P2;(2)通過勾股定理計(jì)算剩余點(diǎn)分別到這兩個(gè)點(diǎn)的距離,(3)第一次分組后結(jié)果:表其余點(diǎn)到P1、P2的距離組A:P1組B:P2、P3、P4、P5、P6(4)分別計(jì)算A組和B組的質(zhì)心:A組質(zhì)心還是P1=(0,0)B組新的質(zhì)心坐標(biāo)為:P2’=((1+3+8+9+10)/5,(2+1+8+10+7)/5)=(6.2,5.6)第二次循環(huán)
P1P2’P22.246.3246P33.165.6036P411.33P513.55.2154P612.24.0497(5)再次計(jì)算每個(gè)點(diǎn)到質(zhì)心的距離,如表5-7所示:表5-7其余點(diǎn)到質(zhì)心的距離(6)第二次分組結(jié)果:組A:P1、P2、P3組B:P4、P5、P6(7)再次計(jì)算質(zhì)心:P1’=(1.33,1)P2”=(9,8.33)
P1’P2”P11.412P20.610P31.49.5P4471.1P5701.7P6561.7(8)再次計(jì)算每個(gè)點(diǎn)到質(zhì)心的距離,如表5-8所示:表5-8其余點(diǎn)到新質(zhì)心的距離(9)第三次分組結(jié)果:組A:P1、P2、P3組B:P4、P5、P6可以發(fā)現(xiàn),第三次分組結(jié)果和第二次分組結(jié)果一致,說明已經(jīng)收斂,聚類結(jié)束。k-means有個(gè)缺點(diǎn)?
怎么確定K呢?將K從2~N進(jìn)行遍歷,
然后?
K-means算法最優(yōu)k值的選取方法
K-Medians聚類算法K-Means算法存在一個(gè)問題,就是當(dāng)數(shù)據(jù)中出現(xiàn)了某些數(shù)據(jù)偏離整體數(shù)據(jù)很遠(yuǎn)時(shí),會(huì)給算數(shù)平均值帶來不利影響。比如,某公司有五個(gè)人的年薪是5萬元,但是有另外一個(gè)人的年薪高達(dá)100萬,那么年薪中間值會(huì)是5萬(能代表公司的年薪情況),而平均值達(dá)到了20萬(完全不能代表公司薪資情況)!這種問題當(dāng)然也會(huì)在K-Means算法中發(fā)生。一個(gè)解決辦法就是使用K-Medians算法代替K-Means算法,二者算法相似,只是用中值代替平均值有十個(gè)點(diǎn):1.(3,8);2.(3,6);3.(3,4);4.(4,5);5.(4,7);6.(5,1);7.(5,5);8.(7,3);9.(7,5);10.(8,5)。將這10個(gè)點(diǎn)劃分為兩個(gè)類。首先,選取兩個(gè)初始的中心點(diǎn)為3號,和6號。然后,用曼哈頓距離公式為他們進(jìn)行劃分
C#1(3,4)C#2(5,1)
1.(3,8)4912.(3,6)2714.(4,5)2515.(4,7)4717.(5,5)3418.(7,3)5429.(7,5)56110.(8,5)671圖5-5第一次聚類后結(jié)果對第一類點(diǎn)集重新排列:(3,8);(3,6);(3,4);(4,5);(4,7);(5,5);(7,5);(8,5)。對橫坐標(biāo)排序之后的中位數(shù)是4,對縱坐標(biāo)排序之后的中位數(shù)是5,這個(gè)時(shí)候第一類的中心點(diǎn)就變成了(4,5)第二類的點(diǎn)集是(5,1)和(7,3),中心點(diǎn)就是(6,2)
C#1(4,5)C#2(6,2)
1.(3,8)4912.(3,6)2713.(3,4)2514.(4,5)0515.(4,7)2716.(5,1)5227.(5,5)1418.(7,3)5229.(7,5)34110.(8,5)451
C#1(3,4)C#2(5,1)
1.(3,8)4912.(3,6)2714.(4,5)2515.(4,7)4717.(5,5
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024-2025學(xué)年新教材高中數(shù)學(xué)第2章常用邏輯用語2.1命題定理定義課后素養(yǎng)落實(shí)含解析蘇教版必修第一冊
- 建筑通信安防施工合同
- 城市河道整治工程合同示范樣本
- 住宅小區(qū)條石堡坎施工合同
- 臨時(shí)家庭保姆招聘協(xié)議書
- 水庫加固工程合同管理臺(tái)賬
- 市政道路工程師招聘協(xié)議
- 網(wǎng)絡(luò)安全技術(shù)服務(wù)補(bǔ)充協(xié)議
- 杭州投資型二手房交易合同
- 乳制品冷藏庫建設(shè)合同
- 高中歷史選擇性必修2知識(shí)點(diǎn)總結(jié)歸納
- 黑臭河道整治工程施工組織設(shè)計(jì)
- 《地名、人名的拼寫》教學(xué)設(shè)計(jì)
- 貿(mào)易居間費(fèi)合同范本
- 五年級上冊道德與法治第7課《中華民族一家親》第2課時(shí)說課稿
- 部編版道德與法治七年級上冊每課教學(xué)反思
- 人教版二年級數(shù)學(xué)上冊第六單元《表內(nèi)乘法(二)》說課稿(含14課時(shí))
- CJT 482-2015 城市軌道交通橋梁球型鋼支座
- 我國不銹鋼管行業(yè)現(xiàn)狀分析
- 2024年關(guān)于印發(fā)全國社會(huì)心理服務(wù)體系建設(shè)試點(diǎn)5篇
- 維修水池合同協(xié)議書
評論
0/150
提交評論