統(tǒng)研會學術交流篇之聚類方法講解_第1頁
統(tǒng)研會學術交流篇之聚類方法講解_第2頁
統(tǒng)研會學術交流篇之聚類方法講解_第3頁
統(tǒng)研會學術交流篇之聚類方法講解_第4頁
統(tǒng)研會學術交流篇之聚類方法講解_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、聚類方法講解(Clustering)統(tǒng)研會學術交流篇之主講內容聚類方法原理介紹案例分析(SAS/Enterprise Miner)推薦參考書目什么是聚類聚類(Clustering)就是將數據分組成為多個類(Cluster)。在同一個類內對象之間具有較高的相似度,不同類之間的對象差別較大。什么是聚類早在孩提時代,人就通過不斷改進下意識中的聚類模式來學會如何區(qū)分貓和狗,動物和植物聚類分析無處不在誰經常光顧商店,誰買什么東西,買多少?按忠誠卡記錄的光臨次數、光臨時間、性別、年齡、職業(yè)、購物種類、金額等變量分類這樣商店可以.識別顧客購買模式(如喜歡一大早來買酸奶和鮮肉,習慣周末時一次性大采購)刻畫不同

2、的客戶群的特征(用變量來刻畫,就象刻畫貓和狗的特征一樣)什么情況下需要聚類為什么這樣分類?因為每一個類別里面的人消費方式都不一樣,需要針對不同的人群,制定不同的關系管理方式,以提高客戶對公司商業(yè)活動的相應率。聚類分析無處不在挖掘有價值的客戶,并制定相應的促銷策略:如,對經常購買酸奶的客戶對累計消費達到12個月的老客戶針對潛在客戶派發(fā)廣告,比在大街上亂發(fā)傳單命中率更高,成本更低!聚類分析無處不在誰是銀行信用卡的黃金客戶?利用儲蓄額、刷卡消費金額、誠信度等變量對客戶分類,找出“黃金客戶”!這樣銀行可以制定更吸引的服務,留住客戶!比如:一定額度和期限的免息透資服務!百盛的貴賓打折卡!在他或她生日的時

3、候送上一個小蛋糕!聚類的應用領域經濟領域:幫助市場分析人員從客戶數據庫中發(fā)現不同的客戶群,并且用購買模式來刻畫不同的客戶群的特征。誰喜歡打國際長途,在什么時間,打到那里?對住宅區(qū)進行聚類,確定自動提款機ATM的安放位置股票市場板塊分析,找出最具活力的板塊龍頭股企業(yè)信用等級分類生物學領域推導植物和動物的分類;對基因分類,獲得對種群的認識數據挖掘領域作為其他數學算法的預處理步驟,獲得數據分布狀況,集中對特定的類做進一步的研究有貢獻的研究領域數據挖掘聚類可伸縮性、各種各種復雜形狀類的識別,高維聚類等統(tǒng)計學主要集中在基于距離的聚類分析,發(fā)現球狀類機器學習無指導學習(聚類不依賴預先定義的類,不等同于分類

4、)空間數據技術生物學市場營銷學什么情況下需要聚類以上分析,沒有大量的數據去支持,Data Mining就什么都挖不出來。大量的數據不等于大量的垃圾,我們需要針對客戶市場細分所需要的資料。如需要知道白金持卡人和金卡持卡人的流動率,各自平均消費水平有多少,等;聚類分析可以輔助企業(yè)進行客戶細分,但是Data mining的客戶細分不等同于商業(yè)領域的細分,看不懂結果,也可能造成企業(yè)管理層無法對結果善加利用。聚類分析原理介紹聚類分析中“類”的特征:聚類所說的類不是事先給定的,而是根據數據的相似性和距離來劃分聚類的數目和結構都沒有事先假定聚類分析原理介紹聚類方法的目的是尋找數據中:潛在的自然分組結構a s

5、tructure of “natural” grouping感興趣的關系relationship聚類分析原理介紹什么是自然分組結構Natural grouping ?我們看看以下的例子:有16張牌如何將他們分為 一組一組的牌呢?AKQJ聚類分析原理介紹分成四組每組里花色相同組與組之間花色相異AKQJ花色相同的牌為一副Individual suits聚類分析原理介紹分成四組符號相同的牌為一組AKQJ符號相同的的牌Like face cards聚類分析原理介紹分成兩組顏色相同的牌為一組AKQJ顏色相同的配對Black and red suits聚類分析原理介紹分成兩組大小程度相近的牌分到一組AKQ

6、J大配對和小配對Major and minor suits聚類分析原理介紹這個例子告訴我們,分組的意義在于我們怎么定義并度量“相似性”Similar因此衍生出一系列度量相似性的算法AKQJ大配對和小配對Major and minor suits聚類分析原理介紹相似性Similar的度量(統(tǒng)計學角度)距離Q型聚類(主要討論)主要用于對樣本分類常用的距離有(只適用于具有間隔尺度變量的聚類):明考夫斯基距離(包括:絕對距離、歐式距離、切比雪夫距離)蘭氏距離馬氏距離斜交空間距離此不詳述,有興趣可參考應用多元分析(第二版)王學民相似系數R型聚類用于對變量分類,可以用變量之間的相似系數的變形如1rij定義

7、距離這里不詳細介紹這種聚類度量方法聚類分析原理介紹變量按測量尺度(Measurement Level)分類間隔(Interval)尺度變量連續(xù)變量,如長度、重量、速度、溫度等有序(Ordinal)尺度變量等級變量,不可加,但可比,如一等、二等、三等獎學金名義(Nominal)尺度變量類別變量,不可加也不可比,如性別、職業(yè)等當對象是同時被各種類型的變量描述時,怎樣描述對象之間的相異度呢?一種可取的辦法是把所有變量一起處理,將不同類型的變量組合在單個相異矩陣中,把所有有意義的變量轉換到【0,1】的區(qū)間上,只進行一次聚類分析。詳見參考書主要聚類算法的分類層次的方法(也稱系統(tǒng)聚類法)(hierarch

8、ical method)劃分方法(partitioning method)基于密度的方法(density-based method)基于網格的方法(grid-based method)基于模型的方法(model-based method)其中,前兩種算法是利用統(tǒng)計學定義的距離進行度量層次的方法(也稱系統(tǒng)聚類法)(hierarchical method)定義:對給定的數據進行層次的分解:分類:凝聚的(agglomerative)方法(自底向上)(案例介紹)思想:一開始將每個對象作為單獨的一組,然后根據同類相近,異類相異的原則,合并對象,直到所有的組合并成一個,或達到一個終止條件為止。分裂的方法(

9、divisive)(自頂向下)思想:一開始將所有的對象置于一類,在迭代的每一步中,一個類不斷地分為更小的類,直到每個對象在單獨的一個類中,或達到一個終止條件。 層次的方法(也稱系統(tǒng)聚類法)(hierarchical method)特點:類的個數不需事先定好需確定距離矩陣運算量要大,適用于處理小樣本數據 廣泛采用的類間距離:最小距離法(single linkage method)極小異常值在實際中不多出現,避免極大值的影響 廣泛采用的類間距離:最大距離法(complete linkage method)可能被極大值扭曲,刪除這些值之后再聚類廣泛采用的類間距離:類平均距離法(average lin

10、kage method)類間所有樣本點的平均距離該法利用了所有樣本的信息,被認為是較好的系統(tǒng)聚類法廣泛采用的類間距離:重心法(centroid hierarchical method)類的重心之間的距離對異常值不敏感,結果更穩(wěn)定 廣泛采用的類間距離離差平方和法(ward method)D2=WMWKWL即對異常值很敏感;對較大的類傾向產生較大的距離,從而不易合并,較符合實際需要。 Cluster KCluster LCluster M層次的方法缺陷:一旦一個步驟(合并或分裂)完成,就不能被撤銷或修正,因此產生了改進的層次聚類方法,如BRICH,BURE,ROCK,Chameleon。詳見參考書

11、 劃分方法(Partitioning method)較流行的方法有:動態(tài)聚類法(也稱逐步聚類法),如k均值算法、k中心點算法思想:隨機選擇k個對象,每個對象初始地代表一個類的平均值或中心,對剩余每個對象,根據其到類中心的距離,被劃分到最近的類;然后重新計算每個類的平均值。不斷重復這個過程,直到所有的樣本都不能再分配為止。(圖解) 劃分方法(Partitioning method)特點:k事先定好創(chuàng)建一個初始劃分,再采用迭代的重定位技術不必確定距離矩陣比系統(tǒng)聚類法運算量要小,適用于處理龐大的樣本數據適用于發(fā)現球狀類劃分方法(Partitioning method)缺陷:不同的初始值,結果可能不同

12、有些k均值算法的結果與數據輸入順序有關,如在線k均值算法用爬山式技術(hill-climbing)來尋找最優(yōu)解,容易陷入局部極小值基于距離的方法進行聚類只能發(fā)現球狀類,當類的形狀是任意的時候怎么識別?(黑板圖示)下面介紹其中一種常用的算法:基于密度的方法(density-based method)主要有DBSCAN,OPTICS法思想:只要臨近區(qū)域的密度超過一定的閥值,就繼續(xù)聚類特點:可以過濾噪聲和孤立點outlier,發(fā)現任意形狀的類基于網格的方法(grid-based method)把樣本空間量化為有限數目的單元,形成一個網絡結構,聚類操作都在這個網格結構(即量化空間)上進行 基于模型的方

13、法(model-based method)為每個類假定一個模型,尋找數據對給定模型的最佳擬合。此不詳述,有興趣可以參考DataMing Concepts and Techniques即數據挖掘概念于技術Jiawei Han Micheline Kamber機械工業(yè)出版社不穩(wěn)定的聚類方法受所選擇變量的影響如果去掉或者增加一些變量,結果會很不同.因此,聚類之前一定要明確目標,選擇有意義的變量。變量之間的相關性也會影響聚類結果,因此可以先用主成分或因子分析法把眾多變量壓縮為若干個相互獨立的并包含大部分信息的指標,然后再進行聚類。不穩(wěn)定的聚類方法輸入參數憑主觀導致難以控制聚類的質量很多聚類算法要求輸入一定的參數,如希望產生的類的數目,使得聚類的質量難以控制,尤其是對于高維的,沒有先驗信息的龐大數據。首先要明確聚類的目的,就是要使各個類之間的距離盡可能遠,類中的距離盡可能近,聚類算法可以根據研究目的確定類的數目,但分類的結果要有令人信服的解釋。在實際操作中,更多的是憑經驗來確定類的數目,測試不同類數的聚類效果,直到選擇較理想的分類。不穩(wěn)定的聚類方法算法的選擇沒有絕對當聚類結果被用作描述或探查工具時,可

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論