版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、多元統(tǒng)計分析第四講 聚類分析對外經(jīng)濟貿(mào)易大學國際商學院統(tǒng)計與技術經(jīng)濟系許曉娟本講內(nèi)容引言距離的測定距離公式類間距離兩個聚類方法系統(tǒng)聚類K均值聚類引言生活中充滿了分類問題市場分析人員想要對消費者進行分類,從而有針對性地投放廣告生物學家想要為昆蟲、哺乳動物和爬行動物等建立生物分類政府管理人員想要對不同的國家或地區(qū)進行分級,從而提供不同模式的援助1.他們事先并不敢確定有哪些類別2.可供分類的指標可能較多聚類分析將個體或對象進行分類,使得同一類中的對象之間的相似性比與其它類的對象的相似性更強以多變量的樣本數(shù)據(jù)為依據(jù),在確保同類對象的同質性最大化,類間對象的異質性最大化的前提下,進行分類通常適用于分析截
2、面數(shù)據(jù),是一門靜態(tài)數(shù)據(jù)分析技術聚類方法系統(tǒng)聚類K-均值聚類(快速聚類)模糊聚類有序樣品的聚類分解法加入法需要大家掌握前兩種方法相似性的測度點間距離類間距離聚類分析的對象對樣品的分類:Q型聚類對變量的分類:R型聚類這兩種聚類在數(shù)學上是對稱的,沒有什么不同。點間距的度量點:一個不嚴格的定義如表9.2所示,每個樣品有p個指標,共有n個樣品每個樣品就構成p維空間中的一個點 :第i個樣品的第k個指標對應的取值i=1n; k=1p :第i個樣品和第j個樣品之間的距離i=1n; j=1n點間距離測量問題樣品間距離與指標間距離間隔尺度、有序尺度與名義尺度數(shù)學距離與統(tǒng)計距離相似性與距離:一個硬幣的兩面一、樣品相
3、似性的度量間隔尺度數(shù)學距離明氏距離絕對值距離歐氏距離切比雪夫距離蘭氏距離統(tǒng)計距離:馬氏距離有序或名義尺度匹配指標數(shù)絕對值距離歐氏距離明氏距離公式明氏距離切比雪夫距離量綱問題例如,橫軸X1代表重量(以kg為單位),縱軸X2代表長度(以cm為單位)。有四個點A、B、C、D見圖1.1,它們的坐標如圖1.1所示2022/7/29中國人民大學六西格瑪質量管理研究中心15 目錄 上頁 下頁 返回 結束 這時顯然AB比CD要長。 現(xiàn)在,如果 用mm作單位, 單位保持不變,此時A坐標為(0,50),C坐標為(0,100),則結果CD反而比AB長!這顯然是不夠合理的。 量綱問題蘭氏距離的提出對數(shù)據(jù)進行標準化處理
4、減均值,除以標準差再計算距離蘭氏距離適用于x大于0的情況只克服了量綱問題2022/7/29中國人民大學六西格瑪質量管理研究中心17相關性問題 目錄 上頁 下頁 返回 結束 下面先用一個一維的例子說明歐氏距離與馬氏距離的差異。設有兩個一維正態(tài)總體 。若有一個樣品,其值在A處,A點距離哪個總體近些呢?由圖1-2圖1-2相關性問題從絕對值來看,A點距離G1更近,這是歐式距離從標準差來看,A點與G1的距離是4個標準差,距離G2則是3個標準差,也就是距離G2更近,這是馬氏距離統(tǒng)計距離馬氏距離馬氏距離從概率上定義距離,因而也被稱為統(tǒng)計距離馬氏距離與歐式距離的比較2022/7/29中國人民大學六西格瑪質量管
5、理研究中心21馬氏距離存在的問題 目錄 上頁 下頁 返回 結束 非間隔尺度的距離計算以上幾種距離均是適用于間隔尺度的變量,如果指標是有序尺度或名義尺度時也有一些定義距離的方法。例3.3:歐洲各國的語言有許多相似之處,有的十分相似。為了研究這些語言的歷史關系,也許通過比較它們數(shù)字的表達比較恰當。表3.3列舉了英語、挪威語、丹麥語、荷蘭語、德語、法語、西班牙語、意大利語、波蘭語、匈牙利語和芬蘭語的1,2,10的拼法,希望計算這11種語言之間的距離。定義距離的較靈活的思想方法匹配指標數(shù)的占比二、變量相似性的度量夾角余弦相關系數(shù)數(shù)據(jù)標準化后的夾角余弦類間距的度量類:一個不嚴格的定義定義9.1:距離小于
6、給定閥值的點的集合類的特征重心:均值樣本散布陣和協(xié)差陣直徑類間距的定義最短距離法最長距離法重心法類平均法離差平方和法等等最小距離法(single linkage method)極小異常值在實際中不多出現(xiàn),避免極大值的影響 最大距離法(complete linkage method)可能被極大值扭曲,刪除這些值之后再聚類類平均距離法(average linkage method)類間所有樣本點的平均距離該法利用了所有樣本的信息,被認為是較好的系統(tǒng)聚類法重心法(centroid hierarchical method)類的重心之間的距離對異常值不敏感,結果更穩(wěn)定 離差平方和法(sum of squ
7、ares method或ward method)W代表直徑,D2=WMWKWL即對異常值很敏感;對較大的類傾向產(chǎn)生較大的距離,從而不易合并,較符合實際需要。 Cluster KCluster LCluster M系統(tǒng)聚類系統(tǒng)聚類的基本思想n個樣品自成一類計算兩兩類間距離距離最近的兩類定義為一個新類類的個數(shù)是否為1生成聚類圖是否分類數(shù)的確定系統(tǒng)聚類不必事先確定分類數(shù)最佳分類數(shù)的確定方法尚未形成根據(jù)研究目的確定根據(jù)聚合系數(shù)確定根據(jù)樹狀圖確定類重心之間距離必須大各類所包含的元素都不要過分多分類數(shù)應該符合使用的目的采用幾種不同的聚類方法處理時,應在各自的聚類圖上發(fā)現(xiàn)相同的類飲料數(shù)據(jù)16種飲料的熱量、咖
8、啡因、鈉及價格四種變量 SPSS實現(xiàn)選擇AnalyzeClassifyHierarchical Cluster, 然后把calorie(熱量)、caffeine(咖啡因)、sodium(鈉)、price(價格)選入Variables, 在Cluster選Cases(這是Q型聚類:對觀測值聚類),如果要對變量聚類(R型聚類)則選Variables, 為了畫出樹狀圖,選Plots,再點Dendrogram等。 可以在Method中定義點間距離和類間距離樹形圖凝聚過程冰柱圖有水平型和垂直型跟樹形圖的功能類似分別分成1到n組,看分組情況適用于數(shù)據(jù)量較小時分成三類的結果如果事先指定分類數(shù)可以在SAVE中
9、實現(xiàn)K均值聚類均值聚類的基本思想把樣品初略分成k個初始類根據(jù)樣品與類的距離進行歸類重新計算新的類重心各類有樣品進出將樣本分為類否是迭代次數(shù)達到最高限制是否均值聚類的特點事先確定分類數(shù)計算過程無須存儲數(shù)據(jù),因此能處理更大的數(shù)據(jù)量,也稱快速聚類樣品的最終聚類在某種程度上依賴于最初的劃分或種子點SPSS實現(xiàn)K-均值聚類選擇AnalyzeClassifyK-Menas Cluster,然后把calorie(熱量)、caffeine(咖啡因)、sodium(鈉)、price(價格)選入Variables, 在Number of Clusters處選擇3(想要分的類數(shù)),如果想要知道哪種飲料分到哪類,則選
10、Save,再選Cluster Membership等。注意k-均值聚類只能做Q型聚類,如要做R型聚類,需要把數(shù)據(jù)陣進行轉置。假定要把這16種飲料分成3類。利用SPSS,只疊代了三次就達到目標了(計算機選的種子還可以)。這樣就可以得到最后的三類的中心以及每類有多少點 根據(jù)需要,可以輸出哪些點分在一起。結果是:第一類為飲料1、10;第二類為飲料2、4、8、11、12、13、14;第三類為剩下的飲料3、5、6、7、9、15、16。聚類要注意的問題 聚類結果主要受所選擇的變量影響。如果去掉一些變量,或者增加一些變量,結果會很不同。相比之下,聚類方法的選擇則不那么重要了。因此,聚類之前一定要目標明確。另
11、外就分成多少類來說,也要有道理。只要你高興,從系統(tǒng)聚類的計算機結果可以得到任何可能數(shù)量的類。但是,聚類的目的是要使各類距離盡可能的遠,而類中點的距離盡可能的近,而且分類結果還要有令人信服的解釋。這一點就不是數(shù)學可以解決的了。應用案例汽車銷售案例SPSS自帶文件car_sales.sav. This data file contains hypothetical sales estimates, list prices, and physical specifications for various makes and models of vehicles. The list prices an
12、d physical specifications were obtained alternately from and manufacturer sites.汽車銷售案例變量Manufacturer生產(chǎn)商Model型號Sales in Thousands銷售數(shù)量(千臺)4-year resale value4年轉售價Vehicle type車型Price in thousands價格(千元)Engine size發(fā)動機尺碼Horsepower馬力Wheelbase軸距Width車寬Length車長Curb weight汽車凈重Fuel capacity能源能力Fuel efficiency能
13、源效率系統(tǒng)聚類應用總結適用于樣本量不大的情況,一般處理小于100個樣本計算結果取決于點間距、類間距、數(shù)據(jù)是否標準化點間距的計算方法要根據(jù)數(shù)據(jù)的測量尺度不同而進行定義,間隔尺度的計算方法包括歐式距離、馬氏距離等,名義尺度和順序尺度的計算方法不同于間隔尺度。點間距的計算方法包括最遠距離法、最近距離法等數(shù)據(jù)標準化是針對間隔尺度的數(shù)據(jù)而言,目的在于消除量綱,使各變量對等地影響計算結果。根據(jù)樹形圖和聚合系數(shù)確定類別數(shù)量樹形圖聚合過程電信服務案例SPSS自帶文件telco_extra.savtelco.sav. This is a hypothetical data file that concerns
14、a telecommunications companys efforts to reduce churn in their customer base. Each case corresponds to a separate customer and records various demographic and service usage information. telco_extra.sav. This data file is similar to the telco.sav data file, but the tenure and log-transformed customer
15、 spending variables have been removed and replaced by standardized log-transformed customer spending variables. 電信服務案例變量Standardized log-long distance長途通話時長Standardized log-toll free免服務費時長Standardized log-equipment設備消費Standardized log-calling card電話卡通話時長Standardized log-wireless無線使用時長Standardized multiple lines是否使用多線程Standardized voice mail是否使用語音信箱Standardized paging是否使用調頁Standardized internet是否使用網(wǎng)絡Standardized caller id是否使用來電顯示Standardized call waiting是否使用呼叫等待Standardized call forwarding是否使用呼叫轉移Standardized 3-way callin
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 幕墻安全技術交底
- 八年級物理第一次月考卷(考試版A4)【測試范圍:滬科版(五四制 )2024序言-第2章】(上海專用)
- 感恩節(jié)英文教程
- 河北省省級示范高中聯(lián)合體2025屆高三下學期期中考試語文試題(文理)試卷含解析
- 河北景縣梁集中學2025屆高三教學質量檢測試題試卷(一)語文試題含解析
- 貴州省銅仁市石阡民族中學2024-2025學年高三下第二次聯(lián)考語文試題試卷含解析
- 廣東省華附、省實、深中、廣雅四校2024-2025學年高三下學期摸底考試語文試題試卷含解析
- 廣東省佛山市超盈實驗中學2025年高三第二學期第二次三模語文試題含解析
- 甘肅省甘南州卓尼縣柳林中學2025屆高考沖刺模擬語文試題含解析
- 區(qū)塊鏈和分布式記賬技術 治理指南 編制說明
- H13-111 HCIA鯤鵬應用開發(fā)題庫(含答案)
- 《電子實習》教學大綱
- 統(tǒng)編版四年級上冊語文第二單元 習作:我的家人 課件
- TYNAEPI 0001-2024 有機固廢低溫絕氧碳化處理工程技術規(guī)
- 統(tǒng)編版(2024新版)道德與法治七年級上冊6.2《交友的智慧》教案
- 第五課 和諧的師生關系(教學設計)
- 浙江杭州勞務派遣人員招考聘用(派遣至浙江大學信息技術中心)(高頻重點復習提升訓練)共500題附帶答案詳解
- 2024-2030年中國催化劑行業(yè)深度調研及投資前景預測研究報告
- 人教部編版八年級道德與法治上冊:4.3《誠實守信》說課稿2
- 2023年中考英語備考讓步狀語從句練習題(附答案)
- 10D303-2(替代99D303-2)常用風機控制電路圖
評論
0/150
提交評論