聚類分析解析課件_第1頁
聚類分析解析課件_第2頁
聚類分析解析課件_第3頁
聚類分析解析課件_第4頁
聚類分析解析課件_第5頁
已閱讀5頁,還剩52頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、多元統(tǒng)計分析第四講 聚類分析對外經(jīng)濟貿(mào)易大學國際商學院統(tǒng)計與技術經(jīng)濟系許曉娟本講內(nèi)容引言距離的測定距離公式類間距離兩個聚類方法系統(tǒng)聚類K均值聚類引言生活中充滿了分類問題市場分析人員想要對消費者進行分類,從而有針對性地投放廣告生物學家想要為昆蟲、哺乳動物和爬行動物等建立生物分類政府管理人員想要對不同的國家或地區(qū)進行分級,從而提供不同模式的援助1.他們事先并不敢確定有哪些類別2.可供分類的指標可能較多聚類分析將個體或對象進行分類,使得同一類中的對象之間的相似性比與其它類的對象的相似性更強以多變量的樣本數(shù)據(jù)為依據(jù),在確保同類對象的同質性最大化,類間對象的異質性最大化的前提下,進行分類通常適用于分析截

2、面數(shù)據(jù),是一門靜態(tài)數(shù)據(jù)分析技術聚類方法系統(tǒng)聚類K-均值聚類(快速聚類)模糊聚類有序樣品的聚類分解法加入法需要大家掌握前兩種方法相似性的測度點間距離類間距離聚類分析的對象對樣品的分類:Q型聚類對變量的分類:R型聚類這兩種聚類在數(shù)學上是對稱的,沒有什么不同。點間距的度量點:一個不嚴格的定義如表9.2所示,每個樣品有p個指標,共有n個樣品每個樣品就構成p維空間中的一個點 :第i個樣品的第k個指標對應的取值i=1n; k=1p :第i個樣品和第j個樣品之間的距離i=1n; j=1n點間距離測量問題樣品間距離與指標間距離間隔尺度、有序尺度與名義尺度數(shù)學距離與統(tǒng)計距離相似性與距離:一個硬幣的兩面一、樣品相

3、似性的度量間隔尺度數(shù)學距離明氏距離絕對值距離歐氏距離切比雪夫距離蘭氏距離統(tǒng)計距離:馬氏距離有序或名義尺度匹配指標數(shù)絕對值距離歐氏距離明氏距離公式明氏距離切比雪夫距離量綱問題例如,橫軸X1代表重量(以kg為單位),縱軸X2代表長度(以cm為單位)。有四個點A、B、C、D見圖1.1,它們的坐標如圖1.1所示2022/7/29中國人民大學六西格瑪質量管理研究中心15 目錄 上頁 下頁 返回 結束 這時顯然AB比CD要長。 現(xiàn)在,如果 用mm作單位, 單位保持不變,此時A坐標為(0,50),C坐標為(0,100),則結果CD反而比AB長!這顯然是不夠合理的。 量綱問題蘭氏距離的提出對數(shù)據(jù)進行標準化處理

4、減均值,除以標準差再計算距離蘭氏距離適用于x大于0的情況只克服了量綱問題2022/7/29中國人民大學六西格瑪質量管理研究中心17相關性問題 目錄 上頁 下頁 返回 結束 下面先用一個一維的例子說明歐氏距離與馬氏距離的差異。設有兩個一維正態(tài)總體 。若有一個樣品,其值在A處,A點距離哪個總體近些呢?由圖1-2圖1-2相關性問題從絕對值來看,A點距離G1更近,這是歐式距離從標準差來看,A點與G1的距離是4個標準差,距離G2則是3個標準差,也就是距離G2更近,這是馬氏距離統(tǒng)計距離馬氏距離馬氏距離從概率上定義距離,因而也被稱為統(tǒng)計距離馬氏距離與歐式距離的比較2022/7/29中國人民大學六西格瑪質量管

5、理研究中心21馬氏距離存在的問題 目錄 上頁 下頁 返回 結束 非間隔尺度的距離計算以上幾種距離均是適用于間隔尺度的變量,如果指標是有序尺度或名義尺度時也有一些定義距離的方法。例3.3:歐洲各國的語言有許多相似之處,有的十分相似。為了研究這些語言的歷史關系,也許通過比較它們數(shù)字的表達比較恰當。表3.3列舉了英語、挪威語、丹麥語、荷蘭語、德語、法語、西班牙語、意大利語、波蘭語、匈牙利語和芬蘭語的1,2,10的拼法,希望計算這11種語言之間的距離。定義距離的較靈活的思想方法匹配指標數(shù)的占比二、變量相似性的度量夾角余弦相關系數(shù)數(shù)據(jù)標準化后的夾角余弦類間距的度量類:一個不嚴格的定義定義9.1:距離小于

6、給定閥值的點的集合類的特征重心:均值樣本散布陣和協(xié)差陣直徑類間距的定義最短距離法最長距離法重心法類平均法離差平方和法等等最小距離法(single linkage method)極小異常值在實際中不多出現(xiàn),避免極大值的影響 最大距離法(complete linkage method)可能被極大值扭曲,刪除這些值之后再聚類類平均距離法(average linkage method)類間所有樣本點的平均距離該法利用了所有樣本的信息,被認為是較好的系統(tǒng)聚類法重心法(centroid hierarchical method)類的重心之間的距離對異常值不敏感,結果更穩(wěn)定 離差平方和法(sum of squ

7、ares method或ward method)W代表直徑,D2=WMWKWL即對異常值很敏感;對較大的類傾向產(chǎn)生較大的距離,從而不易合并,較符合實際需要。 Cluster KCluster LCluster M系統(tǒng)聚類系統(tǒng)聚類的基本思想n個樣品自成一類計算兩兩類間距離距離最近的兩類定義為一個新類類的個數(shù)是否為1生成聚類圖是否分類數(shù)的確定系統(tǒng)聚類不必事先確定分類數(shù)最佳分類數(shù)的確定方法尚未形成根據(jù)研究目的確定根據(jù)聚合系數(shù)確定根據(jù)樹狀圖確定類重心之間距離必須大各類所包含的元素都不要過分多分類數(shù)應該符合使用的目的采用幾種不同的聚類方法處理時,應在各自的聚類圖上發(fā)現(xiàn)相同的類飲料數(shù)據(jù)16種飲料的熱量、咖

8、啡因、鈉及價格四種變量 SPSS實現(xiàn)選擇AnalyzeClassifyHierarchical Cluster, 然后把calorie(熱量)、caffeine(咖啡因)、sodium(鈉)、price(價格)選入Variables, 在Cluster選Cases(這是Q型聚類:對觀測值聚類),如果要對變量聚類(R型聚類)則選Variables, 為了畫出樹狀圖,選Plots,再點Dendrogram等。 可以在Method中定義點間距離和類間距離樹形圖凝聚過程冰柱圖有水平型和垂直型跟樹形圖的功能類似分別分成1到n組,看分組情況適用于數(shù)據(jù)量較小時分成三類的結果如果事先指定分類數(shù)可以在SAVE中

9、實現(xiàn)K均值聚類均值聚類的基本思想把樣品初略分成k個初始類根據(jù)樣品與類的距離進行歸類重新計算新的類重心各類有樣品進出將樣本分為類否是迭代次數(shù)達到最高限制是否均值聚類的特點事先確定分類數(shù)計算過程無須存儲數(shù)據(jù),因此能處理更大的數(shù)據(jù)量,也稱快速聚類樣品的最終聚類在某種程度上依賴于最初的劃分或種子點SPSS實現(xiàn)K-均值聚類選擇AnalyzeClassifyK-Menas Cluster,然后把calorie(熱量)、caffeine(咖啡因)、sodium(鈉)、price(價格)選入Variables, 在Number of Clusters處選擇3(想要分的類數(shù)),如果想要知道哪種飲料分到哪類,則選

10、Save,再選Cluster Membership等。注意k-均值聚類只能做Q型聚類,如要做R型聚類,需要把數(shù)據(jù)陣進行轉置。假定要把這16種飲料分成3類。利用SPSS,只疊代了三次就達到目標了(計算機選的種子還可以)。這樣就可以得到最后的三類的中心以及每類有多少點 根據(jù)需要,可以輸出哪些點分在一起。結果是:第一類為飲料1、10;第二類為飲料2、4、8、11、12、13、14;第三類為剩下的飲料3、5、6、7、9、15、16。聚類要注意的問題 聚類結果主要受所選擇的變量影響。如果去掉一些變量,或者增加一些變量,結果會很不同。相比之下,聚類方法的選擇則不那么重要了。因此,聚類之前一定要目標明確。另

11、外就分成多少類來說,也要有道理。只要你高興,從系統(tǒng)聚類的計算機結果可以得到任何可能數(shù)量的類。但是,聚類的目的是要使各類距離盡可能的遠,而類中點的距離盡可能的近,而且分類結果還要有令人信服的解釋。這一點就不是數(shù)學可以解決的了。應用案例汽車銷售案例SPSS自帶文件car_sales.sav. This data file contains hypothetical sales estimates, list prices, and physical specifications for various makes and models of vehicles. The list prices an

12、d physical specifications were obtained alternately from and manufacturer sites.汽車銷售案例變量Manufacturer生產(chǎn)商Model型號Sales in Thousands銷售數(shù)量(千臺)4-year resale value4年轉售價Vehicle type車型Price in thousands價格(千元)Engine size發(fā)動機尺碼Horsepower馬力Wheelbase軸距Width車寬Length車長Curb weight汽車凈重Fuel capacity能源能力Fuel efficiency能

13、源效率系統(tǒng)聚類應用總結適用于樣本量不大的情況,一般處理小于100個樣本計算結果取決于點間距、類間距、數(shù)據(jù)是否標準化點間距的計算方法要根據(jù)數(shù)據(jù)的測量尺度不同而進行定義,間隔尺度的計算方法包括歐式距離、馬氏距離等,名義尺度和順序尺度的計算方法不同于間隔尺度。點間距的計算方法包括最遠距離法、最近距離法等數(shù)據(jù)標準化是針對間隔尺度的數(shù)據(jù)而言,目的在于消除量綱,使各變量對等地影響計算結果。根據(jù)樹形圖和聚合系數(shù)確定類別數(shù)量樹形圖聚合過程電信服務案例SPSS自帶文件telco_extra.savtelco.sav. This is a hypothetical data file that concerns

14、a telecommunications companys efforts to reduce churn in their customer base. Each case corresponds to a separate customer and records various demographic and service usage information. telco_extra.sav. This data file is similar to the telco.sav data file, but the tenure and log-transformed customer

15、 spending variables have been removed and replaced by standardized log-transformed customer spending variables. 電信服務案例變量Standardized log-long distance長途通話時長Standardized log-toll free免服務費時長Standardized log-equipment設備消費Standardized log-calling card電話卡通話時長Standardized log-wireless無線使用時長Standardized multiple lines是否使用多線程Standardized voice mail是否使用語音信箱Standardized paging是否使用調頁Standardized internet是否使用網(wǎng)絡Standardized caller id是否使用來電顯示Standardized call waiting是否使用呼叫等待Standardized call forwarding是否使用呼叫轉移Standardized 3-way callin

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論