SPSS課程 11 聚類分析

上傳人：2*** IP屬地：湖北上傳時間：2023-02-05 格式：PPT 頁數(shù)：64 大?。?30KB 積分：30 舉報 版權(quán)申訴

已閱讀5頁，還剩59頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

2023/2/51聚類分析

ClusterAnalysis2什么是聚類分析？聚類分析是根據(jù)“物以類聚”的道理，對樣本或指標(biāo)進(jìn)行分類的一種多元統(tǒng)計分析方法，它們討論的對象是大量的樣本，要求能合理地按各自的特性進(jìn)行合理的分類，沒有任何模式可供參考或依循，即在沒有先驗(yàn)知識的情況下進(jìn)行的。3聚類分析的基本思想基本思想是認(rèn)為研究的樣本或變量之間存在著程度不同的相似性（親疏關(guān)系）。根據(jù)一批樣本的多個觀測指標(biāo)，找出一些能夠度量樣本或變量之間相似程度的統(tǒng)計量，以這些統(tǒng)計量作為分類的依據(jù)，把一些相似程度較大的樣本（或指標(biāo)）聚合為一類，把另外一些相似程度較大的樣本（或指標(biāo)）聚合為一類，直到把所有的樣本（或指標(biāo)）都聚合完畢，形成一個由小到大的分類系統(tǒng)。4聚類分析無處不在誰經(jīng)常光顧商店，誰買什么東西，買多少？按會員卡記錄的光臨次數(shù)、光臨時間、性別、年齡、職業(yè)、購物種類、金額等變量分類這樣商店可以……識別顧客購買模式（如喜歡一大早來買酸奶和鮮肉，習(xí)慣周末時一次性大采購）刻畫不同的客戶群的特征5聚類分析無處不在挖掘有價值的客戶，并制定相應(yīng)的促銷策略：如，對經(jīng)常購買酸奶的客戶對累計消費(fèi)達(dá)到12個月的老客戶針對潛在客戶派發(fā)廣告，比在大街上亂發(fā)傳單命中率更高，成本更低！6聚類分析無處不在誰是銀行信用卡的黃金客戶？利用儲蓄額、刷卡消費(fèi)金額、誠信度等變量對客戶分類，找出“黃金客戶”！這樣銀行可以……制定更具吸引力的服務(wù)，留住客戶！比如：一定額度和期限的免息透支服務(wù)！贈送百盛的貴賓打折卡！在他或她生日的時候送上一個小蛋糕！7聚類的應(yīng)用領(lǐng)域經(jīng)濟(jì)領(lǐng)域：幫助市場分析人員從客戶數(shù)據(jù)庫中發(fā)現(xiàn)不同的客戶群，并且用購買模式來刻畫不同的客戶群的特征。誰喜歡打國際長途，在什么時間，打到那里？對住宅區(qū)進(jìn)行聚類，確定自動提款機(jī)ATM的安放位置股票市場板塊分析，找出最具活力的板塊龍頭股企業(yè)信用等級分類……生物學(xué)領(lǐng)域推導(dǎo)植物和動物的分類；對基因分類，獲得對種群的認(rèn)識數(shù)據(jù)挖掘領(lǐng)域作為其他數(shù)學(xué)算法的預(yù)處理步驟，獲得數(shù)據(jù)分布狀況，集中對特定的類做進(jìn)一步的研究8

例對10位應(yīng)聘者做智能檢驗(yàn)。3項(xiàng)指標(biāo)X，Y和Z分別表示數(shù)學(xué)推理能力、空間想象能力和語言理解能力。得分如下，選擇合適的統(tǒng)計方法對應(yīng)聘者進(jìn)行分類。應(yīng)聘者12345678910X28181121262016142422Y29232223292322232927Z2818162226222224242491011

聚類分析根據(jù)一批樣本的許多觀測指標(biāo)，按照一定的數(shù)學(xué)公式計算樣本或指標(biāo)的相似程度，把相似的樣本或指標(biāo)歸為一類，把不相似的歸為一類。

12樣本或變量間親疏程度的測度

研究樣本或變量的親疏程度的數(shù)量指標(biāo)有兩種：一種叫相似系數(shù)，性質(zhì)越接近的變量或樣本，它們的相似系數(shù)越接近于1或一l，而彼此無關(guān)的變量或樣本它們的相似系數(shù)則越接近于0，相似的為一類，不相似的為不同類。另一種叫距離，它是將每一個樣本看作p維空間的一個點(diǎn)，并用某種度量測量點(diǎn)與點(diǎn)之間的距離，距離較近的歸為一類，距離較遠(yuǎn)的點(diǎn)應(yīng)屬于不同的類。13設(shè)有n個樣本單位，每個樣本測得p項(xiàng)指標(biāo)（變量），原始資料矩陣為：14定比變量的聚類統(tǒng)計量：距離統(tǒng)計量絕對距離歐式距離明考斯基距離蘭氏距離馬氏距離切氏距離151.絕對距離（Block距離）2.歐氏距離(Euclideandistance)163.明考斯基距離(Minkowski)4.蘭氏距離5.馬氏距離6.切比雪夫距離(Chebychev)17181.相關(guān)系數(shù)2.夾角余弦定比變量的聚類統(tǒng)計量：相似系數(shù)統(tǒng)計量19計數(shù)變量(Count)（離散變量）的聚類統(tǒng)計量對于計數(shù)變量或離散變量，可用于度量樣本（或變量）之間的相似性或不相似性程度的統(tǒng)計量主要有卡方測度（Chi-squaremeasure）和Phi方測度（Phi-squaremeasure）。20二值(Binary)變量的聚類統(tǒng)計量21聚類的類型根據(jù)聚類對象的不同，分為Q型聚類和R型聚類。Q型聚類：樣本之間的聚類即Q型聚類分析，則常用距離來測度樣本之間的親疏程度。R型聚類：變量之間的聚類即R型聚類分析，常用相似系數(shù)來測度變量之間的親疏程度。22聚類的類型根據(jù)聚類方法的不同分為系統(tǒng)聚類和K均值聚類。系統(tǒng)聚類：又稱為層次聚類（hierarchicalcluster），是指聚類過程是按照一定層次進(jìn)行的。K均值聚類（K-meansCluster）23層次聚類基本思想：

在聚類分析的開始，每個樣本（或變量）自成一類；然后，按照某種方法度量所有樣本（或變量）之間的親疏程度，并把最相似的樣本（或變量）首先聚成一小類；接下來，度量剩余的樣本（或變量）和小類間的親疏程度，并將當(dāng)前最接近的樣本（或變量）與小類聚成一類；再接下來，再度量剩余的樣本（或變量）和小類間的親疏程度，并將當(dāng)前最接近的樣本（或變量）與小類聚成一類；如此反復(fù)，直到所有樣本（或變量）聚成一類為止。24系統(tǒng)聚類法不僅需要度量個體與個體之間的距離，還要度量類與類之間的距離。類間距離被度量出來之后，距離最小的兩個小類將首先被合并成為一類。由類間距離定義的不同產(chǎn)生了不同的系統(tǒng)聚類法。25類間距離的度量方法最短距離法(NearestNeighbor)最長距離法(FurtherNeighbor)組間平均連接法(Between-grouplinkage)組內(nèi)平均連接法(Within-grouplinkage)重心法(Centroidclustering)中位數(shù)法(Medianclustering)離差平方和法(Ward’smethod)26最短距離法(NearestNeighbor)以兩類中距離最近的兩個個體之間的距離作為類間距離。27x21?x12?x22?x11?28最長距離法(FurtherNeighbor)以兩類中距離最遠(yuǎn)的兩個個體之間的距離作為類間距離。29???x11?x21????30組間平均連接法

(Between-grouplinkage)以兩類個體兩兩之間距離的平均數(shù)作為類間距離。31??????組間平均連接法（Between-groupLinkage)32組內(nèi)平均連接法

(Within-grouplinkage)將兩類個體合并為一類后，以合并后類中所有個體之間的平均距離作為類間距離。33

組內(nèi)平均連接法（Within-groupLinkage)x21?x12?x22?x11?34重心法(Centroidclustering)以兩類變量均值（重心）之間的距離作為類間距離。35重心距離：均值點(diǎn)的距離??36中位數(shù)法(Medianclustering)以兩類變量中位數(shù)之間的距離作為類間距離。37離差平方和法(Ward’smethod)離差平方和法是由Ward提出的，因此也稱為Ward方法。具體做法是，先將n個個體各自成一類，然后每次減少一類，隨著類與類的不斷聚合，類內(nèi)的離差平方和必然不斷增大，選擇使離差平方和增加最小的兩類合并，直到所有的個體歸為一類為止。38

主要步驟1.選擇變量

（1）和聚類分析的目的密切相關(guān)（2）反映要分類變量的特征（3）在不同研究對象上的值有明顯的差異（4）變量之間不能高度相關(guān)2.數(shù)據(jù)變換處理

為了消除各指標(biāo)量綱的影響，需要對原始數(shù)據(jù)進(jìn)行必要的變換處理。

393.計算聚類統(tǒng)計量

聚類統(tǒng)計量是根據(jù)變換以后的數(shù)據(jù)計算得到的一個新數(shù)據(jù)，它用于表明各樣本或變量間的關(guān)系密切程度。常用的統(tǒng)計量有距離和相似系數(shù)兩大類。40

4.聚類

主要涉及兩個問題：（1）選擇聚類的方法（2）確定形成的類數(shù)415.聚類結(jié)果的解釋和證實(shí)

對聚類結(jié)果進(jìn)行解釋是希望對各個類的特征進(jìn)行準(zhǔn)確的描述，給每類起一個合適的名稱。這一步可以借助各種描述性統(tǒng)計量進(jìn)行分析，通常的做法是計算各類在各聚類變量上的均值，對均值進(jìn)行比較，還可以解釋各類產(chǎn)生的原因。

42k-均值聚類

K-meansClusterK-均值聚類也叫快速聚類要求事先確定分類數(shù)運(yùn)算速度快（特別是對于大樣本）43k-均值聚類

K-meansCluster系統(tǒng)首先選擇k個聚類中心，根據(jù)其他觀測值與聚類中心的距離遠(yuǎn)近，將所有的觀測值分成k類；再將k個類的中心（均值）作為新的聚類中心，重新按照距離進(jìn)行分類；……，這樣一直迭代下去，直到達(dá)到指定的迭代次數(shù)或達(dá)到中止迭代的判據(jù)要求時，聚類過程結(jié)束。44聚類分析終止的條件迭代次數(shù)：當(dāng)目前的迭代次數(shù)等于指定的迭代次數(shù)（SPSS默認(rèn)為10）時終止迭代。類中心點(diǎn)偏移程度：新確定的類中心點(diǎn)距上個類中心點(diǎn)的最大偏移量小于等于指定的量（SPSS默認(rèn)為0）時終止聚類。45例子1：31個省區(qū)小康和現(xiàn)代化指數(shù)的聚類分析利用2001年全國31個省市自治區(qū)各類小康和現(xiàn)代化指數(shù)的數(shù)據(jù)，對地區(qū)進(jìn)行聚類分析。數(shù)據(jù)中包括6類指數(shù)：綜合指數(shù)、社會結(jié)構(gòu)指數(shù)、經(jīng)濟(jì)與技術(shù)發(fā)展指數(shù)、人口素質(zhì)指數(shù)、生活質(zhì)量指數(shù)、法制與治安指數(shù)。46系統(tǒng)聚類47Agglomerationschedule：輸出聚類過程表Proximitymatrix：輸出各個體之間的距離矩陣ClusterMembership：每個個體類別歸屬表48Dendrogram：聚類樹形圖Icicle：冰柱圖495051525354如果分為3

人人文庫> 全部分類> 教育資料 > 備課教案

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

SPSS課程 11 聚類分析

文檔簡介

溫馨提示

最新文檔

評論

SPSS課程 11 聚類分析

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔