聚類分析與判別分析_第1頁
聚類分析與判別分析_第2頁
聚類分析與判別分析_第3頁
聚類分析與判別分析_第4頁
聚類分析與判別分析_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、聚類分析與判別分析聚類分析與判別分析第一頁,共21頁。概述概述n聚類分析:顧名思義是一種分類的多元統(tǒng)計(jì)分析方法。按聚類分析:顧名思義是一種分類的多元統(tǒng)計(jì)分析方法。按照個(gè)體或樣品照個(gè)體或樣品(individuals, objects or subjects)的特征將的特征將它們分類,使同一類別內(nèi)的個(gè)體具有盡可能高的同質(zhì)性它們分類,使同一類別內(nèi)的個(gè)體具有盡可能高的同質(zhì)性(homogeneity),而類別之間則應(yīng)具有盡可能高的異質(zhì)性,而類別之間則應(yīng)具有盡可能高的異質(zhì)性(heterogeneity)。第二頁,共21頁?;舅枷牖舅枷雗指標(biāo):描述研究對象(樣本或變量,常用的是樣本)之間指標(biāo):描述研究對

2、象(樣本或變量,常用的是樣本)之間的聯(lián)系的緊密程度。的聯(lián)系的緊密程度?!熬嚯x距離”和和“相似系數(shù)相似系數(shù)”,假定研究,假定研究對象均用所謂的對象均用所謂的“點(diǎn)點(diǎn)”來表示。來表示。n一般的規(guī)則是將一般的規(guī)則是將“距離距離”較小的點(diǎn)或較小的點(diǎn)或“相似系數(shù)相似系數(shù)”較大的較大的點(diǎn)歸為同一類,將點(diǎn)歸為同一類,將“距離距離”較大的點(diǎn)或較大的點(diǎn)或“相似系數(shù)相似系數(shù)”較小較小的點(diǎn)歸為不同的類!的點(diǎn)歸為不同的類!n嚴(yán)格說來聚類分析并不是純粹的統(tǒng)計(jì)技術(shù),它不像其它多嚴(yán)格說來聚類分析并不是純粹的統(tǒng)計(jì)技術(shù),它不像其它多元分析法那樣,需要從樣本去推斷總體。聚類分析一般都元分析法那樣,需要從樣本去推斷總體。聚類分析一般

3、都涉及不到有關(guān)統(tǒng)計(jì)量的分布,也不需要進(jìn)行顯著性檢驗(yàn)。涉及不到有關(guān)統(tǒng)計(jì)量的分布,也不需要進(jìn)行顯著性檢驗(yàn)。聚類分析更像是一種建立假設(shè)的方法,而對假設(shè)的檢驗(yàn)還聚類分析更像是一種建立假設(shè)的方法,而對假設(shè)的檢驗(yàn)還需要借助其它統(tǒng)計(jì)方法。需要借助其它統(tǒng)計(jì)方法。第三頁,共21頁。n分類:分類:nQ型聚類型聚類對樣本進(jìn)行分類處理;對樣本進(jìn)行分類處理;nR型聚類型聚類對變量進(jìn)行分類處理。對變量進(jìn)行分類處理。n方法:方法:n系統(tǒng)聚類法系統(tǒng)聚類法nK-均值聚類法均值聚類法n有序樣品聚類法有序樣品聚類法第四頁,共21頁。個(gè)體之間距離的度量方法個(gè)體之間距離的度量方法n針對連續(xù)變量的距離測量:針對連續(xù)變量的距離測量:n歐式

4、距離;歐式距離;n歐式距離平方;歐式距離平方;n切比雪夫距離;切比雪夫距離;n布洛克距離;布洛克距離;n明可夫斯基距離;明可夫斯基距離;n自定義距離;自定義距離;n夾角余弦;夾角余弦;n皮爾遜相關(guān)系數(shù)皮爾遜相關(guān)系數(shù)第五頁,共21頁。n針對計(jì)數(shù)變量的距離測度:針對計(jì)數(shù)變量的距離測度:n卡方距離;卡方距離;nPhi方距離;方距離;n針對二值變量的距離測度:針對二值變量的距離測度:n二值歐式距離;二值歐式距離;n二值歐式距離平方;二值歐式距離平方;n不對稱指數(shù);不對稱指數(shù);n不相似性測度;不相似性測度;n方差方差一般聚類個(gè)數(shù)在46類,不宜太多,或太少;第六頁,共21頁。聚類分析應(yīng)注意的問題聚類分析應(yīng)

5、注意的問題n所選擇的變量應(yīng)符合聚類的要求;所選擇的變量應(yīng)符合聚類的要求;n各變量的變量值不應(yīng)有數(shù)量級上的差異;各變量的變量值不應(yīng)有數(shù)量級上的差異;n各變量間不應(yīng)有較強(qiáng)的線性相關(guān)關(guān)系。各變量間不應(yīng)有較強(qiáng)的線性相關(guān)關(guān)系。第七頁,共21頁。系統(tǒng)聚類系統(tǒng)聚類/層次聚類層次聚類n凝聚式聚類凝聚式聚類和分解式聚類。和分解式聚類。n基本思想:距離相近的樣品(或變量)先聚成類,距離相基本思想:距離相近的樣品(或變量)先聚成類,距離相遠(yuǎn)的后聚成類,過程一直進(jìn)行下去,每個(gè)樣品(或變量)總遠(yuǎn)的后聚成類,過程一直進(jìn)行下去,每個(gè)樣品(或變量)總能聚到合適的類中。能聚到合適的類中。n步驟:步驟:n第一步:每個(gè)樣品獨(dú)自聚成

6、類,共第一步:每個(gè)樣品獨(dú)自聚成類,共n個(gè)類;個(gè)類;n第二步:把距離較近的兩個(gè)樣品聚合為一類,形成第二步:把距離較近的兩個(gè)樣品聚合為一類,形成n-1類;類;n第三步:將第三步:將n-1個(gè)類中個(gè)類中“距離距離”最近的兩個(gè)類進(jìn)一步聚成一類,形成最近的兩個(gè)類進(jìn)一步聚成一類,形成n-2類;類;n直至所有樣品全聚成一類。直至所有樣品全聚成一類。第八頁,共21頁。個(gè)體與小類,小類與小類個(gè)體與小類,小類與小類“親疏程度親疏程度”度量方法度量方法n組間平均連接距離:個(gè)體與小類中每個(gè)個(gè)體距離的平均值;組間平均連接距離:個(gè)體與小類中每個(gè)個(gè)體距離的平均值;n組內(nèi)平均連接距離:組內(nèi)平均連接距離:個(gè)體與小類中每個(gè)個(gè)體距離

7、以及小類內(nèi)個(gè)體與小類中每個(gè)個(gè)體距離以及小類內(nèi)各個(gè)體間距離的平均值各個(gè)體間距離的平均值;n最近鄰距離:個(gè)體與小類中每個(gè)個(gè)體距離的最小值;最近鄰距離:個(gè)體與小類中每個(gè)個(gè)體距離的最小值;n最遠(yuǎn)鄰距離:個(gè)體與小類中每個(gè)個(gè)體距離的最大值;最遠(yuǎn)鄰距離:個(gè)體與小類中每個(gè)個(gè)體距離的最大值;n重心距離:該個(gè)體與小類的重心點(diǎn)的距離;重心距離:該個(gè)體與小類的重心點(diǎn)的距離;n中位數(shù)距離;中位數(shù)距離;n離差平方和法:使小類內(nèi)離差平方和增加最小的兩小類應(yīng)首先離差平方和法:使小類內(nèi)離差平方和增加最小的兩小類應(yīng)首先合并為一類。合并為一類。第九頁,共21頁。案例案例9.3 系統(tǒng)聚類分析系統(tǒng)聚類分析n案例案例9.3.sav的資料

8、是我國的資料是我國2005年各地城鎮(zhèn)居民平均每人全年各地城鎮(zhèn)居民平均每人全年家庭收入來源統(tǒng)計(jì)表。試對全國各地區(qū)的收入來源結(jié)構(gòu)年家庭收入來源統(tǒng)計(jì)表。試對全國各地區(qū)的收入來源結(jié)構(gòu)進(jìn)行分類。進(jìn)行分類。第十頁,共21頁。二階段聚類分析二階段聚類分析n二階段聚類分析是一種新型的分層聚類方法,主要用于一二階段聚類分析是一種新型的分層聚類方法,主要用于一般的數(shù)據(jù)挖掘和多元統(tǒng)計(jì)的交叉領(lǐng)域般的數(shù)據(jù)挖掘和多元統(tǒng)計(jì)的交叉領(lǐng)域模式分類,其算法模式分類,其算法適用于任何尺度的變量。適用于任何尺度的變量。第十一頁,共21頁。案例案例9.2 二階段聚類分析二階段聚類分析n案例案例9.1.sav的資料是美國的資料是美國22個(gè)

9、公共團(tuán)體的數(shù)據(jù)。試以個(gè)公共團(tuán)體的數(shù)據(jù)。試以“是是否使用核能源否使用核能源”為分類變量對這些團(tuán)體進(jìn)行聚類分析,其為分類變量對這些團(tuán)體進(jìn)行聚類分析,其中中“1”表示使用核能源,表示使用核能源,“0”表示沒有使用核能源,觀測表示沒有使用核能源,觀測這兩類企業(yè)所屬類別的情況。這兩類企業(yè)所屬類別的情況。第十二頁,共21頁。K-均值聚類均值聚類n是一種快速聚類法。適合處理大樣本數(shù)據(jù)。是一種快速聚類法。適合處理大樣本數(shù)據(jù)。n基本思想是:將每個(gè)樣品分配給最近中心(均值)的類中,基本思想是:將每個(gè)樣品分配給最近中心(均值)的類中,具體步驟:具體步驟:n指定聚類數(shù)目指定聚類數(shù)目Kn確定確定K個(gè)初始類中心(用戶指定

10、或系統(tǒng)指定);個(gè)初始類中心(用戶指定或系統(tǒng)指定);n根據(jù)距離最近原則進(jìn)行分類(歐式距離);根據(jù)距離最近原則進(jìn)行分類(歐式距離);n重新確定重新確定K個(gè)類中心;個(gè)類中心;判斷是否已滿足終止聚類分析的條件:迭代次數(shù)或類中心偏移程判斷是否已滿足終止聚類分析的條件:迭代次數(shù)或類中心偏移程度(度(0.02)。第十三頁,共21頁。案例案例9.2 K中心聚類分析中心聚類分析n案例案例9.2.sav的資料是我國的資料是我國2006年各地區(qū)能源消耗的情況。年各地區(qū)能源消耗的情況。根據(jù)不同省市的能源消耗情況,進(jìn)行分類,以了解我國不根據(jù)不同省市的能源消耗情況,進(jìn)行分類,以了解我國不同地區(qū)的能源消耗情況。同地區(qū)的能源

11、消耗情況。第十四頁,共21頁。判別分析概述判別分析概述n根據(jù)已有的劃分類別的有關(guān)歷史資料,確定一種判定方法,根據(jù)已有的劃分類別的有關(guān)歷史資料,確定一種判定方法,判定一個(gè)新的樣本歸屬哪一類。判定一個(gè)新的樣本歸屬哪一類。n設(shè)定有設(shè)定有k個(gè)樣本,對每個(gè)樣本測得個(gè)樣本,對每個(gè)樣本測得p項(xiàng)指標(biāo)的數(shù)據(jù),已知每項(xiàng)指標(biāo)的數(shù)據(jù),已知每個(gè)樣本屬于個(gè)樣本屬于k個(gè)類別中的每一類。利用這些數(shù)據(jù),找出一種個(gè)類別中的每一類。利用這些數(shù)據(jù),找出一種判別函數(shù),使得這一函數(shù)具有某種最優(yōu)性質(zhì),能把屬于不判別函數(shù),使得這一函數(shù)具有某種最優(yōu)性質(zhì),能把屬于不同類別的樣本點(diǎn)盡可能地區(qū)別開來,并對測得同樣同類別的樣本點(diǎn)盡可能地區(qū)別開來,并對

12、測得同樣p項(xiàng)指標(biāo)項(xiàng)指標(biāo)數(shù)據(jù)的一個(gè)新樣本,能判定這個(gè)樣本屬于哪一類。數(shù)據(jù)的一個(gè)新樣本,能判定這個(gè)樣本屬于哪一類。第十五頁,共21頁。距離判別法距離判別法n兩個(gè)總體兩個(gè)總體G1和和G2,均值向量:,均值向量: ;協(xié)差陣:;協(xié)差陣:n數(shù)據(jù)點(diǎn)數(shù)據(jù)點(diǎn)X到總體到總體Gi的馬氏距離定義為:的馬氏距離定義為:n設(shè)判別函數(shù):設(shè)判別函數(shù):n若若W(X)0,則,則 ;若;若W(X)0,則,則 ;若若W(X)=0,則待判斷。,則待判斷。n各總體協(xié)方差陣相等,判別函數(shù)為線性判別函數(shù);各總體協(xié)方差陣相等,判別函數(shù)為線性判別函數(shù);n各總體協(xié)方差陣不相等,判別函數(shù)為二次判別函數(shù);各總體協(xié)方差陣不相等,判別函數(shù)為二次判別函數(shù);

13、21和21和)2 , 1)()()(),()(1)()(2iXXGXDiiii),(),()(1222GXDGXDXW1GX 2GX 第十六頁,共21頁。Fisher判別分析判別分析n借助方差分析思想構(gòu)造一個(gè)線性判別函數(shù):借助方差分析思想構(gòu)造一個(gè)線性判別函數(shù):n系數(shù)系數(shù) 確定的原則是使得各總體之間區(qū)別確定的原則是使得各總體之間區(qū)別最大,而使得每個(gè)總體內(nèi)部的離差最小。最大,而使得每個(gè)總體內(nèi)部的離差最小。n判別規(guī)則:待判樣品的典型判別函數(shù)值判別規(guī)則:待判樣品的典型判別函數(shù)值ux與第與第G類中心的類中心的典型判別函數(shù)值典型判別函數(shù)值u(i)的絕對離差的絕對離差 最小,則可以最小,則可以將該樣品判入第

14、將該樣品判入第G類。類。XuXuXuXuXUpp2211)(21),(puuuu)(iuxu第十七頁,共21頁。Bayes判別分析判別分析n基本思想:首先計(jì)算待判樣品屬于各個(gè)總體的條件概率基本思想:首先計(jì)算待判樣品屬于各個(gè)總體的條件概率, ,然后比較這然后比較這k個(gè)概率值的大小,將待判個(gè)概率值的大小,將待判樣本歸為條件概率最大的總體。樣本歸為條件概率最大的總體。n在觀測到一個(gè)樣品在觀測到一個(gè)樣品x的情況下,利用的情況下,利用Bayes公式,可以計(jì)算公式,可以計(jì)算它來自第它來自第g個(gè)總體的后驗(yàn)概率:個(gè)總體的后驗(yàn)概率: 。n當(dāng)當(dāng) 時(shí),則可將時(shí),則可將x判入第判入第h類。類。 n先驗(yàn)概率取法有兩種:

15、一是用樣品頻率代替;二是令各總體先驗(yàn)概率取法有兩種:一是用樣品頻率代替;二是令各總體先驗(yàn)概率相等。先驗(yàn)概率相等。 klxlP, 2 , 1),|(kiiiggxfqxfqxgP1)()()|()|(max)|(1xgPxhPkg第十八頁,共21頁。案例案例9.4 判別分析判別分析n案例案例9.4.sav的資料為三種不同種類豇豆豆莢的質(zhì)量、寬度的資料為三種不同種類豇豆豆莢的質(zhì)量、寬度和長度的統(tǒng)計(jì)表,每種類型都為和長度的統(tǒng)計(jì)表,每種類型都為20個(gè)樣本,共個(gè)樣本,共60個(gè)樣本。個(gè)樣本。試根據(jù)不同種類豇豆豆莢的特征,建立鑒別不同種類豇豆試根據(jù)不同種類豇豆豆莢的特征,建立鑒別不同種類豇豆判別方程。判別方程。第十九頁,共21頁。nFisher判別函數(shù)判別函數(shù)ny1=-11.528+0.21質(zhì)量質(zhì)量-1.95寬度寬度+0.186長度長度ny2=-15.935+0.112質(zhì)量質(zhì)量+2.246寬度寬度+0.092長度長度典型判別式函數(shù)系數(shù)函數(shù)12質(zhì)量.210.112寬度.9502.246長度.186.092(常量)-11.528-15.935非標(biāo)準(zhǔn)化系數(shù)第二十頁,共21頁。n三個(gè)類別的三個(gè)類別的Bayes判別函數(shù)判別函數(shù)n類別類別1=-90

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論