




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第十四聚類分析演示文稿第一頁,共二十八頁。(優(yōu)選)第十四聚類分析第二頁,共二十八頁。1.聚類的目的
根據(jù)已知數(shù)據(jù),計算各觀察個體或變量之間親疏關(guān)系的統(tǒng)計量(距離或相關(guān)系數(shù))。根據(jù)某種準(zhǔn)則(最短距離法、最長距離法、中間距離法、重心法等),使同一類內(nèi)的差別較小,而類與類之間的差別較大,最終將觀察個體或變量分為若干類。第三頁,共二十八頁。2.聚類分析的應(yīng)用例子同一種疾病(如肝炎),根據(jù)臨床表現(xiàn)等將病人分成若干類(甲、乙、丙、丁、戊型肝炎)根據(jù)疾病的若干臨床表現(xiàn),將病人分成輕、中、重三型在兒童生長發(fā)育研究中,把以形態(tài)學(xué)為主的指標(biāo)歸于一類,以機(jī)能為主的指標(biāo)歸于另一類第四頁,共二十八頁。3.聚類的種類根據(jù)分類的原理可將聚類分析分為:
K-meansCluster過程(快速聚類法)
HierarchicalCluster過程(系統(tǒng)聚類法)根據(jù)分類的對象可將聚類分析分為:系統(tǒng)Q型(即樣品聚類clusteringforindividuals)系統(tǒng)R型(即指標(biāo)聚類clusteringforvariables)第五頁,共二十八頁。4.聚類分析與判別分析間的聯(lián)系
先采用聚類分析獲得各個個體的類別(classification);然后采用判別分析建立判別函數(shù),對新個體進(jìn)行類型識別(identification)第六頁,共二十八頁。5、距離與相似系數(shù)(P418)(1)距離
假使每個樣品有p個變量,則每個樣品都可以看成p維空間中的一個點(diǎn),n個樣品就是p維空間中的n個點(diǎn),則第i樣品與第j樣品之間的距離記為dij。第七頁,共二十八頁。(2)相似系數(shù)
研究樣品間的關(guān)系常用距離,研究指標(biāo)間的關(guān)系常用相似系數(shù)。相似系數(shù)常用的有:夾角余弦與相關(guān)系數(shù)第八頁,共二十八頁。5、方法原理按距離的遠(yuǎn)近劃分類別6、用途細(xì)分市場消費(fèi)行為劃分設(shè)計抽樣方案等第九頁,共二十八頁。7、操作時距離測量方法建議使用默認(rèn)值即可(Q型分類)8、變量選擇無關(guān)變量有時會引起嚴(yán)重的錯分應(yīng)當(dāng)只引入在不同類間有顯著差別的變量盡量只使用相同類型的變量進(jìn)行分析第十頁,共二十八頁。9、共線性問題對紀(jì)錄聚類結(jié)果有較大的影響最好先進(jìn)行預(yù)處理10、變量的標(biāo)準(zhǔn)化變量變異程度相差非常大時需要進(jìn)行標(biāo)準(zhǔn)化后會削弱有用變量的作用第十一頁,共二十八頁。11、異常值影響較大還沒有比較好的解決辦法應(yīng)盡力避免12、分類數(shù)從實(shí)用角度講,2~8類比較合適13、專業(yè)意義一定要結(jié)合專業(yè)知識進(jìn)行分析第十二頁,共二十八頁。二、K-meansCluster過程屬于非系統(tǒng)聚類法的一種也叫快速聚類\動態(tài)聚類、逐步聚類、迭代聚類)(quickclustermethod、k-meansmodel)適用于樣本量很大的情形,用系統(tǒng)聚類法計算的工作量極大,作出的樹狀圖也十分復(fù)雜,不便于分析
第十三頁,共二十八頁。1、原理選擇初始凝聚點(diǎn)根據(jù)歐氏距離將每個樣品歸類各類的重心代替初始凝聚點(diǎn)根據(jù)歐氏距離將每個樣品歸類,……
直至達(dá)到指定的迭代次數(shù)或達(dá)到終止迭代的判據(jù)要求第十四頁,共二十八頁。2、初始凝聚點(diǎn)
initialclusterseeds;clustercenters自動選擇必須給出允許分類的最大個數(shù)k憑經(jīng)驗(yàn)選擇以初始凝聚點(diǎn)建立一個數(shù)據(jù)文件,在SPSS的CETERS過程的READINITIALFROM選擇項(xiàng)中輸入該數(shù)據(jù)文件第十五頁,共二十八頁。3、方法特點(diǎn)要求已知類別數(shù)可人為指定初始位置節(jié)省運(yùn)算時間樣本量大于100時有必要考慮只能使用連續(xù)性變量第十六頁,共二十八頁。4、菜單:Analyze-classify-KmeansCluster5、分析實(shí)例(P416data13-02)
第十七頁,共二十八頁。三、HierarchicalCluster過程
1、系統(tǒng)聚類的基本思想相近的聚為一類(以距離表示,樣品聚類)相似的聚為一類(以相似系數(shù)表示,變量聚類)第十八頁,共二十八頁。2、方法原理先將所有n個變量/觀測量看成不同的n類;然后將性質(zhì)最接近(距離最近)的兩類合并為一類;再從這n-1類中找到最接近的兩類加以合并;依此類推,直到所有的變量/觀測量被合為一類;使用者最后再根據(jù)具體的問題和聚類結(jié)果來決定應(yīng)當(dāng)分為幾類。第十九頁,共二十八頁。3、類與類之間的距離1.最短距離法(singlelinkage)2.最長距離法(completelinkage)3.中間距離法(medianmethod)4.類平均法(averagelinkage)5.可變類平均法(flexible-betamethod)6.重心法(centroidmethod)7.Ward離差平方和法(Ward'sminimum-variancemethod)第二十頁,共二十八頁。8.Mcquitty的相似分析法(Mcquitty'ssimilarityanalysis)9.最大似然估計法(EML)10.密度估計(densitylinkage)11.兩階段密度估計法(two-stagedensitylinkage)等。第二十一頁,共二十八頁。4、系統(tǒng)聚類法的性質(zhì)
單調(diào)性
中間距離法、重心法不具有單調(diào)性空間的濃縮與擴(kuò)張
不同聚類法作圖,橫坐標(biāo)的范圍可相差很大。最短距離法與重心法比較濃縮;可變類平均比較擴(kuò)張;類平均法比較適中。第二十二頁,共二十八頁。5、有關(guān)問題
幾種聚類方法獲得的結(jié)果不一定相同指標(biāo)聚類采用相似系數(shù),相似系數(shù)大或距離小則表示類間關(guān)系密切,為了統(tǒng)一,可采用以下公式變換。
第二十三頁,共二十八頁。6、特點(diǎn)一旦觀測/變量被劃定類別,其分類結(jié)果就不會再進(jìn)行更改;可以對變量或記錄進(jìn)行聚類;變量可以為連續(xù)或分類變量;提供的距離測量方法非常豐富;運(yùn)算速度較慢。第二十四頁,共二十八頁。
7、變量聚類法
原理與觀測量聚類法類似,只是將標(biāo)準(zhǔn)化后的變量視為“個體”,變量間的相關(guān)系數(shù)描述“個體”間的相似程度。
第二十五頁,共二十八頁。8、路徑:Analyze-Classify-HierarchicalCluster9、分析實(shí)例(P428/P437data13-03/data11-03)
第二十六頁,共二十八頁。SPSS自帶數(shù)據(jù)集judges.sav是中、美、法等七個國家的裁判和未經(jīng)嚴(yán)格
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 商標(biāo)業(yè)務(wù)招攬協(xié)議書
- 員工購買社保協(xié)議書
- 單位招聘人員協(xié)議書
- 商品侵權(quán)和解協(xié)議書
- 醫(yī)療機(jī)構(gòu)解約協(xié)議書
- 原木加工合同協(xié)議書
- 2025年3D打印技術(shù)在醫(yī)療植入物制造業(yè)中的個性化定制挑戰(zhàn)報告
- 合作培訓(xùn)學(xué)校協(xié)議書
- 勞務(wù)合同合作協(xié)議書
- 單位轉(zhuǎn)正延期協(xié)議書
- 國企煤礦面試題庫及答案
- 國開2025年《中華民族共同體概論》形考作業(yè)1-4終考答案
- 《圖像處理技術(shù)》課件
- 關(guān)于電子旅游合同范例
- 2025貴州省專業(yè)技術(shù)人員繼續(xù)教育公需科目考試題庫(2025公需課課程)
- 中國經(jīng)導(dǎo)管左心耳封堵術(shù)臨床路徑專家共識(2025版)解讀
- 煤礦數(shù)字化智慧礦山整體解決方案(技術(shù)方案)
- 物業(yè)工程體系文件規(guī)范
- 道路路面恢復(fù)施工方案
- 二年級下冊三位數(shù)列豎式計算(一千道)
- 業(yè)主大會表決票(示范文本)
評論
0/150
提交評論