聚類分析與判別分析

上傳人：特*** IP屬地：廣東上傳時(shí)間：2022-02-24 格式：PPT 頁數(shù)：21 大小：432KB 積分：16 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩16頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、聚類分析與判別分析聚類分析與判別分析第一頁，共21頁。概述概述n聚類分析：顧名思義是一種分類的多元統(tǒng)計(jì)分析方法。按聚類分析：顧名思義是一種分類的多元統(tǒng)計(jì)分析方法。按照個(gè)體或樣品照個(gè)體或樣品(individuals, objects or subjects)的特征將的特征將它們分類，使同一類別內(nèi)的個(gè)體具有盡可能高的同質(zhì)性它們分類，使同一類別內(nèi)的個(gè)體具有盡可能高的同質(zhì)性(homogeneity)，而類別之間則應(yīng)具有盡可能高的異質(zhì)性，而類別之間則應(yīng)具有盡可能高的異質(zhì)性(heterogeneity)。第二頁，共21頁?；舅枷牖舅枷雗指標(biāo)：描述研究對象（樣本或變量，常用的是樣本）之間指標(biāo)：描述研究對

2、象（樣本或變量，常用的是樣本）之間的聯(lián)系的緊密程度。的聯(lián)系的緊密程度?！熬嚯x距離”和和“相似系數(shù)相似系數(shù)”，假定研究，假定研究對象均用所謂的對象均用所謂的“點(diǎn)點(diǎn)”來表示。來表示。n一般的規(guī)則是將一般的規(guī)則是將“距離距離”較小的點(diǎn)或較小的點(diǎn)或“相似系數(shù)相似系數(shù)”較大的較大的點(diǎn)歸為同一類，將點(diǎn)歸為同一類，將“距離距離”較大的點(diǎn)或較大的點(diǎn)或“相似系數(shù)相似系數(shù)”較小較小的點(diǎn)歸為不同的類！的點(diǎn)歸為不同的類！n嚴(yán)格說來聚類分析并不是純粹的統(tǒng)計(jì)技術(shù)，它不像其它多嚴(yán)格說來聚類分析并不是純粹的統(tǒng)計(jì)技術(shù)，它不像其它多元分析法那樣，需要從樣本去推斷總體。聚類分析一般都元分析法那樣，需要從樣本去推斷總體。聚類分析一般

3、都涉及不到有關(guān)統(tǒng)計(jì)量的分布，也不需要進(jìn)行顯著性檢驗(yàn)。涉及不到有關(guān)統(tǒng)計(jì)量的分布，也不需要進(jìn)行顯著性檢驗(yàn)。聚類分析更像是一種建立假設(shè)的方法，而對假設(shè)的檢驗(yàn)還聚類分析更像是一種建立假設(shè)的方法，而對假設(shè)的檢驗(yàn)還需要借助其它統(tǒng)計(jì)方法。需要借助其它統(tǒng)計(jì)方法。第三頁，共21頁。n分類：分類：nQ型聚類型聚類對樣本進(jìn)行分類處理；對樣本進(jìn)行分類處理；nR型聚類型聚類對變量進(jìn)行分類處理。對變量進(jìn)行分類處理。n方法：方法：n系統(tǒng)聚類法系統(tǒng)聚類法nK-均值聚類法均值聚類法n有序樣品聚類法有序樣品聚類法第四頁，共21頁。個(gè)體之間距離的度量方法個(gè)體之間距離的度量方法n針對連續(xù)變量的距離測量：針對連續(xù)變量的距離測量：n歐式

4、距離；歐式距離；n歐式距離平方；歐式距離平方；n切比雪夫距離；切比雪夫距離；n布洛克距離；布洛克距離；n明可夫斯基距離；明可夫斯基距離；n自定義距離；自定義距離；n夾角余弦；夾角余弦；n皮爾遜相關(guān)系數(shù)皮爾遜相關(guān)系數(shù)第五頁，共21頁。n針對計(jì)數(shù)變量的距離測度：針對計(jì)數(shù)變量的距離測度：n卡方距離；卡方距離；nPhi方距離；方距離；n針對二值變量的距離測度：針對二值變量的距離測度：n二值歐式距離；二值歐式距離；n二值歐式距離平方；二值歐式距離平方；n不對稱指數(shù)；不對稱指數(shù)；n不相似性測度；不相似性測度；n方差方差一般聚類個(gè)數(shù)在46類，不宜太多，或太少；第六頁，共21頁。聚類分析應(yīng)注意的問題聚類分析應(yīng)

5、注意的問題n所選擇的變量應(yīng)符合聚類的要求；所選擇的變量應(yīng)符合聚類的要求；n各變量的變量值不應(yīng)有數(shù)量級上的差異；各變量的變量值不應(yīng)有數(shù)量級上的差異；n各變量間不應(yīng)有較強(qiáng)的線性相關(guān)關(guān)系。各變量間不應(yīng)有較強(qiáng)的線性相關(guān)關(guān)系。第七頁，共21頁。系統(tǒng)聚類系統(tǒng)聚類/層次聚類層次聚類n凝聚式聚類凝聚式聚類和分解式聚類。和分解式聚類。n基本思想：距離相近的樣品（或變量）先聚成類，距離相基本思想：距離相近的樣品（或變量）先聚成類，距離相遠(yuǎn)的后聚成類，過程一直進(jìn)行下去，每個(gè)樣品（或變量）總遠(yuǎn)的后聚成類，過程一直進(jìn)行下去，每個(gè)樣品（或變量）總能聚到合適的類中。能聚到合適的類中。n步驟：步驟：n第一步：每個(gè)樣品獨(dú)自聚成

6、類，共第一步：每個(gè)樣品獨(dú)自聚成類，共n個(gè)類；個(gè)類；n第二步：把距離較近的兩個(gè)樣品聚合為一類，形成第二步：把距離較近的兩個(gè)樣品聚合為一類，形成n-1類；類；n第三步：將第三步：將n-1個(gè)類中個(gè)類中“距離距離”最近的兩個(gè)類進(jìn)一步聚成一類，形成最近的兩個(gè)類進(jìn)一步聚成一類，形成n-2類；類；n直至所有樣品全聚成一類。直至所有樣品全聚成一類。第八頁，共21頁。個(gè)體與小類，小類與小類個(gè)體與小類，小類與小類“親疏程度親疏程度”度量方法度量方法n組間平均連接距離：個(gè)體與小類中每個(gè)個(gè)體距離的平均值；組間平均連接距離：個(gè)體與小類中每個(gè)個(gè)體距離的平均值；n組內(nèi)平均連接距離：組內(nèi)平均連接距離：個(gè)體與小類中每個(gè)個(gè)體距離

7、以及小類內(nèi)個(gè)體與小類中每個(gè)個(gè)體距離以及小類內(nèi)各個(gè)體間距離的平均值各個(gè)體間距離的平均值；n最近鄰距離：個(gè)體與小類中每個(gè)個(gè)體距離的最小值；最近鄰距離：個(gè)體與小類中每個(gè)個(gè)體距離的最小值；n最遠(yuǎn)鄰距離：個(gè)體與小類中每個(gè)個(gè)體距離的最大值；最遠(yuǎn)鄰距離：個(gè)體與小類中每個(gè)個(gè)體距離的最大值；n重心距離：該個(gè)體與小類的重心點(diǎn)的距離；重心距離：該個(gè)體與小類的重心點(diǎn)的距離；n中位數(shù)距離；中位數(shù)距離；n離差平方和法：使小類內(nèi)離差平方和增加最小的兩小類應(yīng)首先離差平方和法：使小類內(nèi)離差平方和增加最小的兩小類應(yīng)首先合并為一類。合并為一類。第九頁，共21頁。案例案例9.3 系統(tǒng)聚類分析系統(tǒng)聚類分析n案例案例9.3.sav的資料

8、是我國的資料是我國2005年各地城鎮(zhèn)居民平均每人全年各地城鎮(zhèn)居民平均每人全年家庭收入來源統(tǒng)計(jì)表。試對全國各地區(qū)的收入來源結(jié)構(gòu)年家庭收入來源統(tǒng)計(jì)表。試對全國各地區(qū)的收入來源結(jié)構(gòu)進(jìn)行分類。進(jìn)行分類。第十頁，共21頁。二階段聚類分析二階段聚類分析n二階段聚類分析是一種新型的分層聚類方法，主要用于一二階段聚類分析是一種新型的分層聚類方法，主要用于一般的數(shù)據(jù)挖掘和多元統(tǒng)計(jì)的交叉領(lǐng)域般的數(shù)據(jù)挖掘和多元統(tǒng)計(jì)的交叉領(lǐng)域模式分類，其算法模式分類，其算法適用于任何尺度的變量。適用于任何尺度的變量。第十一頁，共21頁。案例案例9.2 二階段聚類分析二階段聚類分析n案例案例9.1.sav的資料是美國的資料是美國22個(gè)

9、公共團(tuán)體的數(shù)據(jù)。試以個(gè)公共團(tuán)體的數(shù)據(jù)。試以“是是否使用核能源否使用核能源”為分類變量對這些團(tuán)體進(jìn)行聚類分析，其為分類變量對這些團(tuán)體進(jìn)行聚類分析，其中中“1”表示使用核能源，表示使用核能源，“0”表示沒有使用核能源，觀測表示沒有使用核能源，觀測這兩類企業(yè)所屬類別的情況。這兩類企業(yè)所屬類別的情況。第十二頁，共21頁。K-均值聚類均值聚類n是一種快速聚類法。適合處理大樣本數(shù)據(jù)。是一種快速聚類法。適合處理大樣本數(shù)據(jù)。n基本思想是：將每個(gè)樣品分配給最近中心（均值）的類中，基本思想是：將每個(gè)樣品分配給最近中心（均值）的類中，具體步驟：具體步驟：n指定聚類數(shù)目指定聚類數(shù)目Kn確定確定K個(gè)初始類中心（用戶指定

10、或系統(tǒng)指定）；個(gè)初始類中心（用戶指定或系統(tǒng)指定）；n根據(jù)距離最近原則進(jìn)行分類（歐式距離）；根據(jù)距離最近原則進(jìn)行分類（歐式距離）；n重新確定重新確定K個(gè)類中心；個(gè)類中心；判斷是否已滿足終止聚類分析的條件：迭代次數(shù)或類中心偏移程判斷是否已滿足終止聚類分析的條件：迭代次數(shù)或類中心偏移程度（度（0.02）。第十三頁，共21頁。案例案例9.2 K中心聚類分析中心聚類分析n案例案例9.2.sav的資料是我國的資料是我國2006年各地區(qū)能源消耗的情況。年各地區(qū)能源消耗的情況。根據(jù)不同省市的能源消耗情況，進(jìn)行分類，以了解我國不根據(jù)不同省市的能源消耗情況，進(jìn)行分類，以了解我國不同地區(qū)的能源消耗情況。同地區(qū)的能源

11、消耗情況。第十四頁，共21頁。判別分析概述判別分析概述n根據(jù)已有的劃分類別的有關(guān)歷史資料，確定一種判定方法，根據(jù)已有的劃分類別的有關(guān)歷史資料，確定一種判定方法，判定一個(gè)新的樣本歸屬哪一類。判定一個(gè)新的樣本歸屬哪一類。n設(shè)定有設(shè)定有k個(gè)樣本，對每個(gè)樣本測得個(gè)樣本，對每個(gè)樣本測得p項(xiàng)指標(biāo)的數(shù)據(jù)，已知每項(xiàng)指標(biāo)的數(shù)據(jù)，已知每個(gè)樣本屬于個(gè)樣本屬于k個(gè)類別中的每一類。利用這些數(shù)據(jù)，找出一種個(gè)類別中的每一類。利用這些數(shù)據(jù)，找出一種判別函數(shù)，使得這一函數(shù)具有某種最優(yōu)性質(zhì)，能把屬于不判別函數(shù)，使得這一函數(shù)具有某種最優(yōu)性質(zhì)，能把屬于不同類別的樣本點(diǎn)盡可能地區(qū)別開來，并對測得同樣同類別的樣本點(diǎn)盡可能地區(qū)別開來，并對

12、測得同樣p項(xiàng)指標(biāo)項(xiàng)指標(biāo)數(shù)據(jù)的一個(gè)新樣本，能判定這個(gè)樣本屬于哪一類。數(shù)據(jù)的一個(gè)新樣本，能判定這個(gè)樣本屬于哪一類。第十五頁，共21頁。距離判別法距離判別法n兩個(gè)總體兩個(gè)總體G1和和G2，均值向量：，均值向量：；協(xié)差陣：；協(xié)差陣：n數(shù)據(jù)點(diǎn)數(shù)據(jù)點(diǎn)X到總體到總體Gi的馬氏距離定義為：的馬氏距離定義為：n設(shè)判別函數(shù)：設(shè)判別函數(shù)：n若若W(X)0，則，則；若；若W(X)0，則，則；若若W(X)=0，則待判斷。，則待判斷。n各總體協(xié)方差陣相等，判別函數(shù)為線性判別函數(shù)；各總體協(xié)方差陣相等，判別函數(shù)為線性判別函數(shù)；n各總體協(xié)方差陣不相等，判別函數(shù)為二次判別函數(shù)；各總體協(xié)方差陣不相等，判別函數(shù)為二次判別函數(shù)；

13、21和21和)2 , 1)()()(),()(1)()(2iXXGXDiiii),(),()(1222GXDGXDXW1GX 2GX 第十六頁，共21頁。Fisher判別分析判別分析n借助方差分析思想構(gòu)造一個(gè)線性判別函數(shù)：借助方差分析思想構(gòu)造一個(gè)線性判別函數(shù)：n系數(shù)系數(shù) 確定的原則是使得各總體之間區(qū)別確定的原則是使得各總體之間區(qū)別最大，而使得每個(gè)總體內(nèi)部的離差最小。最大，而使得每個(gè)總體內(nèi)部的離差最小。n判別規(guī)則：待判樣品的典型判別函數(shù)值判別規(guī)則：待判樣品的典型判別函數(shù)值ux與第與第G類中心的類中心的典型判別函數(shù)值典型判別函數(shù)值u(i)的絕對離差的絕對離差最小，則可以最小，則可以將該樣品判入第

14、將該樣品判入第G類。類。XuXuXuXuXUpp2211)(21),(puuuu)(iuxu第十七頁，共21頁。Bayes判別分析判別分析n基本思想：首先計(jì)算待判樣品屬于各個(gè)總體的條件概率基本思想：首先計(jì)算待判樣品屬于各個(gè)總體的條件概率, ,然后比較這然后比較這k個(gè)概率值的大小，將待判個(gè)概率值的大小，將待判樣本歸為條件概率最大的總體。樣本歸為條件概率最大的總體。n在觀測到一個(gè)樣品在觀測到一個(gè)樣品x的情況下，利用的情況下，利用Bayes公式，可以計(jì)算公式，可以計(jì)算它來自第它來自第g個(gè)總體的后驗(yàn)概率：個(gè)總體的后驗(yàn)概率：。n當(dāng)當(dāng) 時(shí)，則可將時(shí)，則可將x判入第判入第h類。類。 n先驗(yàn)概率取法有兩種：

15、一是用樣品頻率代替；二是令各總體先驗(yàn)概率取法有兩種：一是用樣品頻率代替；二是令各總體先驗(yàn)概率相等。先驗(yàn)概率相等。 klxlP, 2 , 1),|(kiiiggxfqxfqxgP1)()()|()|(max)|(1xgPxhPkg第十八頁，共21頁。案例案例9.4 判別分析判別分析n案例案例9.4.sav的資料為三種不同種類豇豆豆莢的質(zhì)量、寬度的資料為三種不同種類豇豆豆莢的質(zhì)量、寬度和長度的統(tǒng)計(jì)表，每種類型都為和長度的統(tǒng)計(jì)表，每種類型都為20個(gè)樣本，共個(gè)樣本，共60個(gè)樣本。個(gè)樣本。試根據(jù)不同種類豇豆豆莢的特征，建立鑒別不同種類豇豆試根據(jù)不同種類豇豆豆莢的特征，建立鑒別不同種類豇豆判別方程。判別方程。第十九頁，共21頁。nFisher判別函數(shù)判別函數(shù)ny1=-11.528+0.21質(zhì)量質(zhì)量-1.95寬度寬度+0.186長度長度ny2=-15.935+0.112質(zhì)量質(zhì)量+2.246寬度寬度+0.092長度長度典型判別式函數(shù)系數(shù)函數(shù)12質(zhì)量.210.112寬度.9502.246長度.186.092(常量)-11.528-15.935非標(biāo)準(zhǔn)化系數(shù)第二十頁，共21頁。n三個(gè)類別的三個(gè)類別的Bayes判別函數(shù)判別函數(shù)n類別類別1=-90

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

聚類分析與判別分析

文檔簡介

溫馨提示

最新文檔

評論

聚類分析與判別分析

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔