決策支持系統(tǒng)與商務(wù)智能:第六章 聚類分析_第1頁
決策支持系統(tǒng)與商務(wù)智能:第六章 聚類分析_第2頁
決策支持系統(tǒng)與商務(wù)智能:第六章 聚類分析_第3頁
決策支持系統(tǒng)與商務(wù)智能:第六章 聚類分析_第4頁
決策支持系統(tǒng)與商務(wù)智能:第六章 聚類分析_第5頁
已閱讀5頁,還剩62頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

聚類分析§6.1引言§6.2距離和相似系數(shù)§6.3系統(tǒng)聚類法§6.4動(dòng)態(tài)聚類法12/4/20231§6.1引言12/4/20232什么是聚類聚類(Clustering)就是將數(shù)據(jù)分組成為多個(gè)類(Cluster)。在同一個(gè)類內(nèi)對(duì)象之間具有較高的相似度,不同類之間的對(duì)象差別較大。12/4/20233什么是聚類早在孩提時(shí)代,人就通過不斷改進(jìn)下意識(shí)中的聚類模式來學(xué)會(huì)如何區(qū)分貓和狗,動(dòng)物和植物12/4/20234聚類分析無處不在誰經(jīng)常光顧商店,誰買什么東西,買多少?按忠誠卡記錄的光臨次數(shù)、光臨時(shí)間、性別、年齡、職業(yè)、購物種類、金額等變量分類這樣商店可以….識(shí)別顧客購買模式(如喜歡一大早來買酸奶和鮮肉,習(xí)慣周末時(shí)一次性大采購)刻畫不同的客戶群的特征(用變量來刻畫,就象刻畫貓和狗的特征一樣)12/4/20235什么情況下需要聚類為什么這樣分類?因?yàn)槊恳粋€(gè)類別里面的人消費(fèi)方式都不一樣,需要針對(duì)不同的人群,制定不同的關(guān)系管理方式,以提高客戶對(duì)公司商業(yè)活動(dòng)的相應(yīng)率。12/4/20236聚類分析無處不在挖掘有價(jià)值的客戶,并制定相應(yīng)的促銷策略:如,對(duì)經(jīng)常購買酸奶的客戶對(duì)累計(jì)消費(fèi)達(dá)到12個(gè)月的老客戶針對(duì)潛在客戶派發(fā)廣告,比在大街上亂發(fā)傳單命中率更高,成本更低!12/4/20237聚類分析無處不在誰是銀行信用卡的黃金客戶?利用儲(chǔ)蓄額、刷卡消費(fèi)金額、誠信度等變量對(duì)客戶分類,找出“黃金客戶”!這樣銀行可以……制定更吸引的服務(wù),留住客戶!比如:一定額度和期限的免息透資服務(wù)!百盛的貴賓打折卡!在他或她生日的時(shí)候送上一個(gè)小蛋糕!12/4/20238聚類的應(yīng)用領(lǐng)域經(jīng)濟(jì)領(lǐng)域:幫助市場(chǎng)分析人員從客戶數(shù)據(jù)庫中發(fā)現(xiàn)不同的客戶群,并且用購買模式來刻畫不同的客戶群的特征。誰喜歡打國際長途,在什么時(shí)間,打到那里?對(duì)住宅區(qū)進(jìn)行聚類,確定自動(dòng)提款機(jī)ATM的安放位置股票市場(chǎng)板塊分析,找出最具活力的板塊龍頭股企業(yè)信用等級(jí)分類……生物學(xué)領(lǐng)域推導(dǎo)植物和動(dòng)物的分類;對(duì)基因分類,獲得對(duì)種群的認(rèn)識(shí)數(shù)據(jù)挖掘領(lǐng)域作為其他數(shù)學(xué)算法的預(yù)處理步驟,獲得數(shù)據(jù)分布狀況,集中對(duì)特定的類做進(jìn)一步的研究12/4/20239有貢獻(xiàn)的研究領(lǐng)域數(shù)據(jù)挖掘聚類可伸縮性、各種各種復(fù)雜形狀類的識(shí)別,高維聚類等統(tǒng)計(jì)學(xué)主要集中在基于距離的聚類分析,發(fā)現(xiàn)球狀類機(jī)器學(xué)習(xí)無指導(dǎo)學(xué)習(xí)(聚類不依賴預(yù)先定義的類,不等同于分類)空間數(shù)據(jù)技術(shù)生物學(xué)市場(chǎng)營銷學(xué)12/4/202310什么情況下需要聚類以上分析,沒有大量的數(shù)據(jù)去支持,DataMining就什么都挖不出來。大量的數(shù)據(jù)不等于大量的垃圾,我們需要針對(duì)客戶市場(chǎng)細(xì)分所需要的資料。如需要知道白金持卡人和金卡持卡人的流動(dòng)率,各自平均消費(fèi)水平有多少,等;聚類分析可以輔助企業(yè)進(jìn)行客戶細(xì)分,但是Datamining的客戶細(xì)分不等同于商業(yè)領(lǐng)域的細(xì)分,看不懂結(jié)果,也可能造成企業(yè)管理層無法對(duì)結(jié)果善加利用。12/4/202311聚類分析原理介紹聚類分析中“類”的特征:聚類所說的類不是事先給定的,而是根據(jù)數(shù)據(jù)的相似性和距離來劃分聚類的數(shù)目和結(jié)構(gòu)都沒有事先假定12/4/202312聚類分析原理介紹聚類方法的目的是尋找數(shù)據(jù)中:潛在的自然分組結(jié)構(gòu)astructureof“natural”grouping感興趣的關(guān)系relationship12/4/202313聚類分析原理介紹什么是自然分組結(jié)構(gòu)Naturalgrouping?我們看看以下的例子:有16張牌如何將他們分為一組一組的牌呢?AKQJ12/4/202314聚類分析原理介紹分成四組每組里花色相同組與組之間花色相異AKQJ花色相同的牌為一副Individualsuits12/4/202315聚類分析原理介紹分成四組符號(hào)相同的牌為一組AKQJ符號(hào)相同的的牌Likefacecards12/4/202316聚類分析原理介紹分成兩組顏色相同的牌為一組AKQJ顏色相同的配對(duì)Blackandredsuits12/4/202317聚類分析原理介紹分成兩組大小程度相近的牌分到一組AKQJ大配對(duì)和小配對(duì)Majorandminorsuits12/4/202318聚類分析原理介紹這個(gè)例子告訴我們,分組的意義在于我們?cè)趺炊x并度量“相似性”Similar因此衍生出一系列度量相似性的算法AKQJ大配對(duì)和小配對(duì)Majorandminorsuits12/4/202319§6.2距離和相似系數(shù)相似性度量:距離和相似系數(shù)。距離常用來度量樣品之間的相似性,相似系數(shù)常用來度量變量之間的相似性。樣品之間的距離和相似系數(shù)有著各種不同的定義,而這些定義與變量的類型有著非常密切的關(guān)系。12/4/202320變量的測(cè)量尺度通常變量按測(cè)量尺度的不同可以分為間隔、有序和名義尺度變量三類。間隔尺度變量:變量用連續(xù)的量來表示,如長度、重量、速度、溫度等。有序尺度變量:變量度量時(shí)不用明確的數(shù)量表示,而是用等級(jí)來表示,如某產(chǎn)品分為一等品、二等品、三等品等有次序關(guān)系。名義尺度變量:變量用一些類表示,這些類之間既無等級(jí)關(guān)系也無數(shù)量關(guān)系,如性別、職業(yè)、產(chǎn)品的型號(hào)等。本章主要討論具有間隔尺度變量的樣品聚類分析方法。12/4/20232112/4/202322距離有多種定義方法,在聚類分析中最常用的是歐氏距離,即有當(dāng)各變量的單位不同或測(cè)量值范圍相差很大時(shí),應(yīng)先對(duì)各變量的數(shù)據(jù)作標(biāo)準(zhǔn)化處理。最常用的標(biāo)準(zhǔn)化處理是,令其中和分別為第個(gè)變量的樣本均值和樣本方差。12/4/202323二、相似系數(shù)聚類分析方法不僅用來對(duì)樣品進(jìn)行分類,而且可用來對(duì)變量進(jìn)行分類,在對(duì)變量進(jìn)行分類時(shí),常常采用相似系數(shù)來度量變量之間的相似性。變量之間的這種相似性度量,在一些應(yīng)用中要看相似系數(shù)的大小,而在另一些應(yīng)用中要看相似系數(shù)絕對(duì)值的大小。相似系數(shù)(或其絕對(duì)值)越大,認(rèn)為變量之間的相似性程度就越高;反之,則越低。聚類時(shí),比較相似的變量?jī)A向于歸為一類,不太相似的變量歸屬不同的類。12/4/202324相似系數(shù)一般需滿足的條件(1),當(dāng)且僅當(dāng)和是常數(shù);(2),對(duì)一切;(3),對(duì)一切。

12/4/202325最常用的兩個(gè)相似系數(shù)12/4/20232612/4/202327相似系數(shù)除常用來度量變量之間的相似性外有時(shí)也用來度量樣品之間的相似性,同樣,距離有時(shí)也用來度量變量之間的相似性。由距離來構(gòu)造相似系數(shù)總是可能的,如令這里

為第個(gè)樣品與第

個(gè)樣品的距離,顯然

滿足定義相似系數(shù)的三個(gè)條件,故可作為相似系數(shù)。距離必須滿足定義距離的四個(gè)條件,所以不是總能由相似系數(shù)構(gòu)造。高爾(Gower)證明,當(dāng)相似系數(shù)矩陣為非負(fù)定時(shí),如令則

滿足距離定義的四個(gè)條件。12/4/202328§6.3系統(tǒng)聚類法系統(tǒng)聚類法是聚類分析諸方法中用得最多的一種?;舅枷胧牵洪_始將個(gè)樣品各自作為一類,并規(guī)定樣品之間的距離和類與類之間的距離,然后將距離最近的兩類合并成一個(gè)新類,計(jì)算新類與其他類的距離;重復(fù)進(jìn)行兩個(gè)最近類的合并,每次減少一類,直至所有的樣品合并為一類。12/4/202329常用的系統(tǒng)聚類方法一、最短距離法二、最長距離法三、中間距離法四、類平均法五、重心法六、離差平方和法(Ward方法)12/4/202330一、最短距離法定義類與類之間的距離為兩類最近樣品間的距離,即12/4/202331最短距離法的聚類步驟(1)規(guī)定樣品之間的距離,計(jì)算

個(gè)樣品的距離矩陣

,它是一個(gè)對(duì)稱矩陣。(2)選擇

中的最小元素,設(shè)為

,則將

合并成一個(gè)新類,記為

,即(3)計(jì)算新類

與任一類

之間距離的遞推公式為12/4/202332最短距離法的聚類步驟在中,

所在的行和列合并成一個(gè)新行新列,對(duì)應(yīng)

,該行列上的新距離值由(6.3.2)式求得,其余行列上的距離值不變,這樣就得到新的距離矩陣,記作

。(4)對(duì)

重復(fù)上述對(duì)

的兩步得

,如此下去直至所有元素合并成一類為止。如果某一步中最小的元素不止一個(gè),則稱此現(xiàn)象為結(jié)(tie),對(duì)應(yīng)這些最小元素的類可以任選一對(duì)合并或同時(shí)合并。12/4/20233312/4/20233412/4/20233512/4/202336二、最長距離法類與類之間的距離定義為兩類最遠(yuǎn)樣品間的距離,即12/4/202337最長距離法與最短距離法的并類步驟完全相同,只是類間距離的遞推公式有所不同。遞推公式:最長距離法容易被異常值嚴(yán)重地扭曲,一個(gè)有效的方法是將這些異常值單獨(dú)拿出來后再進(jìn)行聚類。12/4/20233812/4/202339三、中間距離法類與類之間的距離既不取兩類最近樣品間的距離,也不取兩類最遠(yuǎn)樣品間的距離,而是取介于兩者中間的距離。12/4/20234012/4/20234112/4/20234212/4/20234312/4/20234412/4/20234512/4/20234612/4/20234712/4/20234812/4/20234912/4/202350以上我們對(duì)例6.3.1采用了多種系統(tǒng)聚類法進(jìn)行聚類,其結(jié)果都是相同的,原因是該例只有很少幾個(gè)樣品,此時(shí)聚類的過程不易有什么變化。一般來說,只要聚類的樣品數(shù)目不是太少,各種聚類方法所產(chǎn)生的聚類結(jié)果一般是不同的,甚至?xí)写蟮牟町悺南旅胬又锌梢钥吹竭@一點(diǎn)。12/4/20235112/4/20235212/4/20235312/4/20235412/4/202355從這三個(gè)樹形圖來看,只有Ward方法較好地符合了我們的實(shí)際聚類要求,它將31個(gè)地區(qū)分為以下三類:第Ⅰ類:北京、浙江、上海和廣東。這些都是我國經(jīng)濟(jì)最發(fā)達(dá)、城鎮(zhèn)居民消費(fèi)水平最高的沿海地區(qū)。第Ⅱ類:天津、江蘇、云南、重慶、河北、新疆、山東、湖北、四川、湖南、福建、廣西、海南和西藏。這些地區(qū)在我國基本上屬于經(jīng)濟(jì)發(fā)展水平和城鎮(zhèn)居民消費(fèi)水平中等的地區(qū)。第Ⅲ類:山西、甘肅、內(nèi)蒙古、遼寧、黑龍江、吉林、青海、寧夏、安徽、貴州、河南、陜西和江西。這些地區(qū)在我國基本上屬于經(jīng)濟(jì)較落后地區(qū),城鎮(zhèn)居民的消費(fèi)水平也是較低的。如果分為五類,則廣東和西藏將各自為一類。12/4/202356單調(diào)性令

是系統(tǒng)聚類法中第

次并類時(shí)的距離,如果一種系統(tǒng)聚類法能滿足

,則稱它具有單調(diào)性。這種單調(diào)性符合系統(tǒng)聚類法的思想,先合并較相似的類,后合并較疏遠(yuǎn)的類。最短距離法、最長距離法、可變法、類平均法、可變類平均法和離差平方和法都具有單調(diào)性,但中間距離法和重心法不具有單調(diào)性。12/4/202357類的個(gè)數(shù)如果能夠分成若干個(gè)很分開的類,則類的個(gè)數(shù)就比較容易確定;反之,如果無論怎樣分都很難分成明顯分開的若干類,則類個(gè)數(shù)的確定就比較困難了。確定類個(gè)數(shù)的常用方法有:

1.給定一個(gè)閾值T。

2.觀測(cè)樣品的散點(diǎn)圖。

3.使用統(tǒng)計(jì)量。包括:統(tǒng)計(jì)量,半偏統(tǒng)計(jì)量,偽統(tǒng)計(jì)量和偽統(tǒng)計(jì)量。12/4/202358§6.4動(dòng)態(tài)聚類法動(dòng)態(tài)聚類法的基本思想是,選擇一批凝聚點(diǎn)或給出一個(gè)初始的分類,讓樣品按某種原則向凝聚點(diǎn)凝聚,對(duì)凝聚點(diǎn)進(jìn)行不斷的修改或迭代,直至分類比較合理或迭代穩(wěn)定為止。類的個(gè)數(shù)k可以事先指定,也可以在聚類過程中確定。選擇初始凝聚點(diǎn)(或給出初始分類)的一種簡(jiǎn)單方法是采用隨機(jī)抽選(或隨機(jī)分割)樣品的方法。動(dòng)態(tài)聚類法有許多種方法,本節(jié)中,只討論一種比較流行的動(dòng)態(tài)聚類法——k均值法。k均值法是由麥奎因(MacQueen,1967)提出并命名的一種算法。12/4/202359k均值法的基本步驟(1)選擇k個(gè)樣品作為初始凝聚點(diǎn),或者將所有樣品分成k

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論