系統(tǒng)工程聚類分析_第1頁
系統(tǒng)工程聚類分析_第2頁
系統(tǒng)工程聚類分析_第3頁
系統(tǒng)工程聚類分析_第4頁
系統(tǒng)工程聚類分析_第5頁
已閱讀5頁,還剩24頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

系統(tǒng)工程聚類分析第一頁,共二十九頁,2022年,8月28日什么是聚類分析聚類分析是根據(jù)“物以類聚”的道理,對樣品(觀測量)或指標(biāo)(變量)進(jìn)行分類的一種多元統(tǒng)計(jì)分析方法。將個體或?qū)ο蠓诸?,使得同一類中的對象之間的相似性比與其他類的對象的相似性更強(qiáng)。聚類分析的目的:使類內(nèi)對象的同質(zhì)性最大化和類間對象的異質(zhì)性最大化。原則是同一類中的個體有較大的相似性,不同類中的個體差異很大。第二頁,共二十九頁,2022年,8月28日聚類分析的應(yīng)用:無處不在早在孩提時代,人就通過不斷改進(jìn)下意識中的聚類模式來學(xué)會如何區(qū)分貓和狗,動物和植物誰經(jīng)常光顧商店,誰買什么東西,買多少?按忠誠卡記錄的光臨次數(shù)、光臨時間、性別、年齡、職業(yè)、購物種類、金額等變量分類這樣商店可以….識別顧客購買模式(如喜歡一大早來買酸奶和鮮肉,習(xí)慣周末時一次性大采購)刻畫不同的客戶群的特征(用變量來刻畫,就象刻畫貓和狗的特征一樣)第三頁,共二十九頁,2022年,8月28日為什么這樣分類?(分類的好處)因?yàn)槊恳粋€類別里面的人消費(fèi)方式都不一樣,需要針對不同的人群,制定不同的關(guān)系管理方式,以提高客戶對公司商業(yè)活動的參與率。挖掘有價值的客戶,并制定相應(yīng)的促銷策略:如,對經(jīng)常購買酸奶的客戶對累計(jì)消費(fèi)達(dá)到12個月的老客戶針對潛在客戶派發(fā)廣告,比在大街上亂發(fā)傳單命中率更高,成本更低!第四頁,共二十九頁,2022年,8月28日如:對企業(yè)的經(jīng)濟(jì)效益進(jìn)行評價時,建立了一個由多個指標(biāo)組成的指標(biāo)體系,由于信息的重疊,一些指標(biāo)之間存在很強(qiáng)的相關(guān)性,所以需要將相似的指標(biāo)聚為一類,從而達(dá)到簡化指標(biāo)體系的目的。第五頁,共二十九頁,2022年,8月28日基本思想:是根據(jù)一批樣品的多個觀測指標(biāo),具體地找出一些能夠度量樣品或指標(biāo)之間相似程度的統(tǒng)計(jì)量,然后利用統(tǒng)計(jì)量將樣品或指標(biāo)進(jìn)行歸類。把相似的樣品或指標(biāo)歸為一類,把不相似的歸為其他類。直到把所有的樣品(或指標(biāo))聚合完畢.相似樣本或指標(biāo)的集合稱為類。問題:如何來選擇樣品(或指標(biāo))間相似的測度指標(biāo),如何將有相似性的類連接起來?第六頁,共二十九頁,2022年,8月28日聚類分析的類型有:對樣本分類,稱為Q型聚類分析對變量分類,稱為R型聚類分析Q型聚類是對樣本進(jìn)行聚類,它使具有相似性特征的樣本聚集在一起,使差異性大的樣本分離開來。R型聚類是對變量進(jìn)行聚類,它使具有相似性的變量聚集在一起,差異性大的變量分離開來,可在相似變量中選擇少數(shù)具有代表性的變量參與其他分析,實(shí)現(xiàn)減少變量個數(shù),達(dá)到變量降維的目的。第七頁,共二十九頁,2022年,8月28日樣品聚類:對觀測量(Case)進(jìn)行聚類(不同的目的選用不同的指標(biāo)作為分類的依據(jù),如選拔運(yùn)動員與分課外活動小組)。變量聚類:找出彼此獨(dú)立且有代表性的自變量,而又不丟失大部分信息。在生產(chǎn)活動中不乏有變量聚類的實(shí)例,如:衣服號碼(身長、胸圍、褲長、腰圍)、鞋的號碼。變量聚類使批量生產(chǎn)成為可能。第八頁,共二十九頁,2022年,8月28日聚類分析的方法:系統(tǒng)聚類(層次聚類)非系統(tǒng)聚類(非層次聚類)系統(tǒng)聚類法包括:凝聚方式聚類、分解方式聚類非系統(tǒng)聚類法包括:模糊聚類法、K-均值法(快速聚類法)等等第九頁,共二十九頁,2022年,8月28日以系統(tǒng)聚類法為例第十頁,共二十九頁,2022年,8月28日樣本或變量的相似性程度的數(shù)量指標(biāo):距離它是將每一個樣品看作p維空間的一個點(diǎn),并用某種度量方法測量點(diǎn)與點(diǎn)之間的距離,距離較近的歸為一類,距離較遠(yuǎn)的點(diǎn)應(yīng)屬于不同的類。相似系數(shù)性質(zhì)越接近的變量或樣品,它們的相似系數(shù)越接近于1或一l,而彼此無關(guān)的變量或樣品它們的相似系數(shù)則越接近于0,相似的為一類,不相似的為不同類;樣本分類(Q型聚類)常以距離刻畫相似性指標(biāo)分類(R型聚類)常以相似系數(shù)刻畫相似性第十一頁,共二十九頁,2022年,8月28日第十二頁,共二十九頁,2022年,8月28日常用距離明考夫斯基距離(Minkowskidistance)明氏距離有三種特殊形式:絕對距離(Block距離):當(dāng)q=1時第十三頁,共二十九頁,2022年,8月28日常用距離明氏距離有三種特殊形式:歐氏距離(Euclideandistance):當(dāng)q=2時切比雪夫距離:當(dāng)q=∞時第十四頁,共二十九頁,2022年,8月28日明考夫斯基距離主要有以下兩個缺點(diǎn):明氏距離的值與各指標(biāo)的量綱有關(guān),而各指標(biāo)計(jì)量單位的選擇有一定的人為性和隨意性,各變量計(jì)量單位的不同不僅使此距離的實(shí)際意義難以說清,而且,任何一個變量計(jì)量單位的改變都會使此距離的數(shù)值改變從而使該距離的數(shù)值依賴于各變量計(jì)量單位的選擇。明氏距離的定義沒有考慮各個變量之間的相關(guān)性和重要性。實(shí)際上,明考夫斯基距離是把各個變量都同等看待,將兩個樣品在各個變量上的離差簡單地進(jìn)行了綜合。第十五頁,共二十九頁,2022年,8月28日當(dāng)各變量的單位不同或測量值范圍相差很大時,不應(yīng)直接采用明氏距離,而應(yīng)先對各變量的數(shù)據(jù)作標(biāo)準(zhǔn)化處理,然后用標(biāo)準(zhǔn)化后的數(shù)據(jù)計(jì)算距離。常用的標(biāo)準(zhǔn)化處理:其中為第j個變量的樣本均值;為第j個變量的樣本方差。第十六頁,共二十九頁,2022年,8月28日二、相似系數(shù)相似系數(shù)(或其絕對值)越大,變量之間的相似性程度越高;反之,越低。聚類時,比較相似的變量歸為一類,不太相似的變量歸為不同的類。變量xi與xj的相似系數(shù)用cij表示,滿足以下三個條件第十七頁,共二十九頁,2022年,8月28日相似系數(shù)的表示方法夾角余弦:-1≤cosɑ≤1相關(guān)系數(shù):-1≤rij≤1變量間的距離:利用相似系數(shù)來定義距離利用樣本協(xié)差陣來定義距離把變量Xi的n次觀測值看成n維空間的點(diǎn),在n維空間中定義m個變量間的距離。第十八頁,共二十九頁,2022年,8月28日相關(guān)系數(shù)設(shè)和是第i和j個樣品的觀測值,則二者之間的相似測度為:第十九頁,共二十九頁,2022年,8月28日相似系數(shù)除常用來度量變量之間的相似性外有時也用來度量樣品之間的相似性,同樣,距離有時也用來度量變量之間的相似性。由距離來構(gòu)造相似系數(shù)總是可能的,如令這里dij為第i個樣品與第j個樣品的距離,顯然cij滿足定義相似系數(shù)的三個條件,故可作為相似系數(shù).第二十頁,共二十九頁,2022年,8月28日系統(tǒng)聚類法系統(tǒng)聚類法是聚類分析諸方法中用得最多的一種?;舅枷耄洪_始將個樣品各自作為一類,并規(guī)定樣品之間的距離和類與類之間的距離,然后將距離最近的兩類合并成一個新類,計(jì)算新類與其他類的距離;重復(fù)進(jìn)行兩個最近類的合并,每次減少一類,直至所有的樣品合并為一類。

常用的系統(tǒng)聚類方法:最短距離法最長舉例法中間舉例法重心法第二十一頁,共二十九頁,2022年,8月28日系統(tǒng)聚類法基本步驟1.選擇樣本間距離的定義及類間距離的定義;2.計(jì)算n個樣本兩兩之間的距離,得到距離矩陣3.構(gòu)造個類,每類只含有一個樣本;4.合并符合類間距離定義要求的兩類為一個新類;5.計(jì)算新類與當(dāng)前各類的距離。若類的個數(shù)為1,則轉(zhuǎn)到步驟6,否則回到步驟4;6.畫出聚類圖;7.決定類的個數(shù)和類。第二十二頁,共二十九頁,2022年,8月28日例:為了研究遼寧等5省1991年城鎮(zhèn)居民生活消費(fèi)的分布規(guī)律,根據(jù)調(diào)查資料做類型分類,用最短距離做類間分類。資料如下:省份x1x2x3x4x5x6x7x8遼寧7.9039.778.4912.9419.2711.052.0413.29浙江7.6850.3711.3513.3019.2514.592.7514.87河南9.4227.938.208.1416.179.421.559.76甘肅9.1627.989.019.3215.999.101.8211.35青海10.0628.6410.5210.0516.188.391.9610.81第二十三頁,共二十九頁,2022年,8月28日將每一個省區(qū)視為一個樣本:G1={遼寧},G2={浙江},G3={河南},G4={甘肅},G5={青海}采用歐氏距離:d12=[(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94-13.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)2]0.5=11.67

d13=13.80d14=13.12d15=12.80d23=24.63d24=24.06d25=23.54d34=2.2d35=3.51d45=2.21第二十四頁,共二十九頁,2022年,8月28日根據(jù)5個省區(qū)之間的歐式距離,用D0表示距離矩陣(對稱陣,故給出下三角陣)因此將3.4合并為一類,為類6,替代了3、4兩類類6與剩余的1、2、5之間的距離分別為:

d(3,4)1=min(d31,d41)=min(13.80,13.12)=13.12d(3,4)2=min(d32,d42)=min(24.63,24.06)=24.06d(3,4)5=min(d35,d45)=min(3.51,2.21)=2.21第二十五頁,共二十九頁,2022年,8月28日得到新矩陣合并類6和類5,得到新類7類7與剩余的1、2之間的距離分別為:

d(5,6)1=min(d51,d61)=min(12.80,13.12)=12.80d(5,6)2=min(d52,d62)=min(23.54,24.06)=23.54第二十六頁,共二十九頁,2022年,8月28日

得到新矩陣合并類1和類2,得到新類

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論