教育統(tǒng)計(jì)學(xué) 課件第15次-聚類分析及其應(yīng)用;第16次-判別分析及其應(yīng)用_第1頁
教育統(tǒng)計(jì)學(xué) 課件第15次-聚類分析及其應(yīng)用;第16次-判別分析及其應(yīng)用_第2頁
教育統(tǒng)計(jì)學(xué) 課件第15次-聚類分析及其應(yīng)用;第16次-判別分析及其應(yīng)用_第3頁
教育統(tǒng)計(jì)學(xué) 課件第15次-聚類分析及其應(yīng)用;第16次-判別分析及其應(yīng)用_第4頁
教育統(tǒng)計(jì)學(xué) 課件第15次-聚類分析及其應(yīng)用;第16次-判別分析及其應(yīng)用_第5頁
已閱讀5頁,還剩156頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

教育統(tǒng)計(jì)學(xué)聚類分析及其應(yīng)用學(xué)部本科科生課課程北京師范大學(xué)教育學(xué)部胡詠梅聚類方法:分層聚類(系統(tǒng)聚類)與快速聚類聚類分析概述:概念、準(zhǔn)則及原理聚類分析方法應(yīng)用示例聚類研究的質(zhì)量評(píng)價(jià)課堂操作練習(xí)contentso

概念:口聚類分析是統(tǒng)計(jì)學(xué)中研究“物以類聚”的一種方法,即根據(jù)事物外顯特

征研究個(gè)體分類的多元統(tǒng)計(jì)分析方法。o

聚類分析按分類的對(duì)象不同,可分為樣本聚類(或稱個(gè)案聚類)

和變量

聚類兩種類型。o

樣本聚類是根據(jù)被觀測對(duì)象的各種特征,即反映被觀測對(duì)象特征的各變

量值對(duì)樣本進(jìn)行分類。o

在教育研究中適用于對(duì)于學(xué)生或?qū)W校按照某些指標(biāo)進(jìn)行類別劃分等方面。例如:對(duì)大學(xué)按照辦學(xué)質(zhì)量分類、對(duì)學(xué)生按照興趣愛好分類、對(duì)校長進(jìn)

行領(lǐng)導(dǎo)風(fēng)格分類等等。聚類分析概述o

變量聚類是一種降維的方法,用于在變量眾多時(shí),尋找有代表性的變

量,以便當(dāng)用少數(shù)、有代表性的變量代替原始較多變量時(shí),損失的信

息很少。o

在教育、心理研究中適用于對(duì)高校各系課程變量的類屬劃分以及心理

結(jié)構(gòu)變量的探查等方面。聚類分析概述o

準(zhǔn)則:聚類分析是建立一種分類,是將一批樣本(或變量)按照在性質(zhì)上的“親疏”程度,在沒有先驗(yàn)知識(shí)的情況下自動(dòng)進(jìn)行分類的方法。其中:類

內(nèi)個(gè)體具有較高的相似性,類間的差異性較大。聚類分析概述若對(duì)以上五所高校進(jìn)行分類,依據(jù)平均得分的差距,將差距較小的分為一類,我們可以將A

、B高校分為一類,C高校為一類,D

、E高校為一類。o

例15-1假設(shè)現(xiàn)在對(duì)A

、B

、C

、D

、E五所高校教學(xué)、科研、社會(huì)服務(wù)三大職能進(jìn)行評(píng)價(jià),評(píng)分情況如下:聚類分析研究的關(guān)鍵問題

問題3.

形成

多少類別最

合適?問題1.

怎樣測量相似性?問題2.如何

聚類?o

親疏遠(yuǎn)程度的衡量指標(biāo):衡量親疏程度的指標(biāo)有兩種,即距離和相似系

數(shù)。o

變量之間的親疏程度則通常用相似系數(shù)來度量。相似系數(shù)越接近于1或-

1時(shí),認(rèn)為變量之間的親疏程度越高;相似系數(shù)接近于0時(shí),認(rèn)為變量之

間是無關(guān)的。比如夾角余弦、相關(guān)系數(shù):r

=

聚類分析原理:1.怎樣測量相似性?o

距離是將每個(gè)樣品看成m個(gè)數(shù)據(jù)對(duì)應(yīng)的m維空間中的一個(gè)點(diǎn),然后在該

空間中所定義的距離越近,則親疏程度越高。o

如何定義數(shù)據(jù)間的距離呢?不同測度水平的數(shù)據(jù)間的距離定義是否不同?聚類分析原理:1.怎樣測量相似性?o

定距型個(gè)體間的距離:把每個(gè)個(gè)案數(shù)據(jù)看成是m維空間上的點(diǎn),在點(diǎn)和點(diǎn)之間定義某種距離。一n平方歐氏距離(SEUCLID)n明可夫斯基距離(歐氏距離是其特例)般適用于定距數(shù)據(jù)。n歐氏距離(EUCLID)缺點(diǎn):要求各指標(biāo)計(jì)量單位相同,而且同等看待各指標(biāo)的重要性。

聚類分析原理:怎樣測量相似性?

(

xi

-

yi

)

2n切比雪夫距離dij(∞)

=

mxEUCLID

(

x,y

)

=xik

-

xjkCaseEuclidean

Distance1:A商廈2:B商廈3:C商廈4:D商廈5:E商廈1:A商廈2:B商廈3:C商廈4:D商廈5:E商廈.0008.062

17.804

26.907

30.4148.062.000

25.456

34.655

38.21017.80425.456

.000

9.22012.80626.90734.655

9.220

.00030.41438.210

12.806

3.606

.000l定距型個(gè)體間的距離:連續(xù)型變量個(gè)體距離矩陣ProximityMatrix兩類:(AB)(C

D

E)

三類:(AB)

(C)

(D

E)聚類分析原理:怎樣測量相似性?This

isa

dissimilarity

matrix3.606姓名選修課門數(shù)

(期望頻數(shù))專業(yè)課門數(shù)

(期望頻數(shù))得優(yōu)門數(shù)

(期望頻數(shù))合計(jì)張三9(8.5)6(6)4(4.5)5(4.5)9198(8.5)171938

聚類分析原理:怎樣測量相似性?l

定距型個(gè)體間的距離:計(jì)數(shù)變量6(6)12李四合計(jì)選課特征姓名是否喜歡討論

式教學(xué)是否選擇方法

類課程是否喜歡年

輕教師授課小張111小李110小王001ll聚類分析原理:怎樣測量相似性?

類屬型個(gè)體間的距離

類屬型個(gè)體間的距離(1)簡單匹配(simple

matching)系數(shù):適用二值變量簡單匹配系數(shù)將同時(shí)擁有或同時(shí)不擁有某特征的情況看作匹配。應(yīng)

用簡單匹配系數(shù)時(shí),取0和1的地位等價(jià),編碼方案的變化不會(huì)引起系數(shù)的其中,a為個(gè)體i與個(gè)體j在相同變量上同時(shí)取1的個(gè)數(shù)

;d為同

時(shí)取0的個(gè)數(shù)。個(gè)體i與個(gè)體j之間的距離為:個(gè)體i10

聚類分析原理:怎樣測量相似性?個(gè)體j1

0變化。a

cb

d

類屬型個(gè)體間的距離—簡單匹配(simple

matching)系數(shù):適用二值變量。姓名是否喜歡討論課是否喜歡方法課是否喜歡年輕老師張三

111李四

11

0王五

0

01(張三,李四):a=2b=

1c=0d=0d(x,y)=1/(1+2)=1/3(張三,王五):a=1b=2c=0d=0d(x,y)=2/(1+2)=2/3張三距李四近聚類分析原理:怎樣測量相似性?發(fā)燒咳嗽檢查1

檢查2檢查3檢查41

0

1

0

0010

1

0

1

01

1

0

0

00o

類屬型個(gè)體間的距離口根據(jù)臨床表現(xiàn)研究病人是否有類似的病聚類分析原理:怎樣測量相似性?姓名張三李四王五……男

男性別(2)杰卡德(Jaccard)系數(shù):適用二值變量杰卡德系數(shù)排除同時(shí)不擁有某特征的情況。應(yīng)用杰卡德系數(shù)時(shí),取1的狀

態(tài)比取0更有意義。同時(shí),編碼方案會(huì)引起系數(shù)的變化。個(gè)體j個(gè)體i10其中,a為個(gè)體i與個(gè)體j在相同變量上同時(shí)取1的個(gè)數(shù);d

為同時(shí)取0的個(gè)數(shù)。個(gè)體i與個(gè)體j之間的距離為:J

(i

,

j

)

=

聚類分析原理:怎樣測量相似性?1

0acbdo

類屬型個(gè)體間的距離口

Jaccard系數(shù)舉例:根據(jù)臨床表現(xiàn)研究病人是否有類似的病。姓名性別

發(fā)燒咳嗽檢查1

檢查2

檢查3

檢查4張三

1

01

0

0

0李四女

1

0101

0王五

1

1

0

0

0

0結(jié)論:張三和李四最有可能得類似的病;李

四和王五不太有可能得類似的病。聚類分析原理:怎樣測量相似性?d

(張三

,

李四

)

=

=

0

.33d

(李四

,

王五

)

=

=

0

.75d

(張三

,

王五

)

=

=

0

.67……..

相似系數(shù)測量:

夾角余弦或相似系數(shù)

小結(jié):怎樣測量相似性?

選擇距離測量:

區(qū)分?jǐn)?shù)據(jù)類型

樣本聚類變量聚類o

注意:口聚類過程中如果數(shù)據(jù)在數(shù)量級(jí)上存在差異或單位不同時(shí),應(yīng)進(jìn)行標(biāo)準(zhǔn)

化處理。聚類分析概述

例如:l

說明:l聚類分析中的變量選擇問題:–

變量應(yīng)和聚類分析的目標(biāo)密切相關(guān)(如:學(xué)校科研能力的評(píng)價(jià),可選

變量:科研經(jīng)費(fèi)、項(xiàng)目數(shù)、獲獎(jiǎng)等級(jí)及頻次、重點(diǎn)學(xué)科數(shù)、重點(diǎn)實(shí)驗(yàn)

室或基地?cái)?shù))。–

聚類結(jié)果僅是所選變量數(shù)據(jù)相似性的反映,未必符合事物真實(shí)的類

別屬性。–

變量之間不應(yīng)具有高度相關(guān)性,否則相當(dāng)于給這些變量進(jìn)行了加權(quán)。l聚類分析包括:樣本(或個(gè)案)聚類和變量聚類兩種。l聚類方法包括:分層(或系統(tǒng))聚類和快速聚類兩種。聚類分析概述o

(一)基本原理:首先將所有的個(gè)體(樣品或變量)各自看成一類,然后根據(jù)個(gè)體之間

特征的親疏程度,將親疏程度最高的兩類進(jìn)行合并,再計(jì)算合并后的新

類與其他類之間的親疏程度,并將親疏程度最高的兩類進(jìn)行合并。重復(fù)

這一過程,直至所有個(gè)體都合并為一類。分層聚類(或稱系統(tǒng)聚類,Hierarchical

Cluster)

o

衡量親疏程度的指標(biāo)有兩種,即距離和相似系數(shù)。o

距離是將每個(gè)樣品看成m個(gè)數(shù)據(jù)對(duì)應(yīng)的m維空間中的一個(gè)點(diǎn),然后在該

空間中所定義的距離越近,則親疏程度越高。o

變量之間的親疏程度則通常用相似系數(shù)來度量。相似系數(shù)越接近于1或-

1時(shí),認(rèn)為變量之間的親疏程度越高;相似系數(shù)接近于0時(shí),認(rèn)為變量

之間是無關(guān)的。分層聚類(或稱系統(tǒng)聚類,Hierarchical

Cluster)

以合并(凝聚)的方式聚類(SPSS采用):口

首先,每個(gè)個(gè)體自成一類。口

其次,將最“親密”的個(gè)體聚成一小類???/p>

然后,將最“親密”的小類或個(gè)體再聚成一類。口

重復(fù)上述過程,即:把所有的個(gè)體和小類聚集成越來越大的類,直到所有的個(gè)體都

到一起(一大類)為止。口可見,隨著聚類的進(jìn)行,類內(nèi)的“親密”性在逐漸減低。 分層聚類(或稱系統(tǒng)聚類,Hierarchical

Cluster)

o

(二)程序:o

以分解的方式聚類:口

首先,所有個(gè)體都屬于一類???/p>

其次,將大類中最“疏遠(yuǎn)”的小類或個(gè)體分離出去???/p>

然后,分別將小類中最“疏遠(yuǎn)”的小類或個(gè)體再分離出去???/p>

重復(fù)上述過程,即:把類分解成越來越小的小類,直到所有的個(gè)體自成一類為止??诳梢?隨著聚類的進(jìn)行,類內(nèi)的親密性在逐漸增強(qiáng)。

分層(或系統(tǒng))聚類方法o

(三)類間距離的計(jì)算方法o

“親疏”程度的衡量對(duì)象:口個(gè)體間距離口個(gè)體和小類間、小類和小類間的距離分層(或系統(tǒng))聚類方法o

個(gè)體與類間、類和類間的距離計(jì)算方法口最短距離法(nearest

neighbor):n兩類間的距離定義為兩類中距離最近的兩個(gè)個(gè)案之間的距離??谧铋L距離法(furthest

neighbor):n兩類間的距離定義為兩類中距離最遠(yuǎn)的兩個(gè)個(gè)案之間的距離。口類平均法(Average

linkage)n兩類之間的距離定義為兩類個(gè)案之間距離的平均值。包括:n組間平均法(between-groups

linkage):只考慮兩類間的距離n組內(nèi)平均法(Within-groups

linage):考慮所有個(gè)案間的距離(三)分層聚類中類間距離的計(jì)算方法常用的系統(tǒng)聚類方法有8種。Wishart在1969年給出了8種聚類方法類與類之間距離的統(tǒng)一公式。設(shè)

Gp

Gq

Gr

=

{Gp

,Gq

},則

Gr

G

k

:D

r

=

α

p

D

+

α

q

D

q

+

βD

q

+Y

|

D-

D

q

|式中

α

p

,

α

q

,β,

Y

對(duì)

不同的

不同的

值,

給出了

8

法的

數(shù)

。k2kp2p2k2kp2k2常用的分層(或系統(tǒng))聚類方法Ward’s

Method

Average

Linkage

(SPSS中即betweengroupslinkage)o

(四)基本操作步驟1.基本操作A.菜單選項(xiàng):analyze->classify->Hierarchical

clusterB.選擇參與聚類分析的變量入variables框C.選擇一個(gè)字符型變量作為個(gè)案的標(biāo)記變量(label

cases)D.選擇個(gè)案聚類還是變量聚類分層(或系統(tǒng))聚類方法o

(四)基本操作步驟2.選擇距離計(jì)算方法(method選項(xiàng))o

cluster

method:計(jì)算類間距離的方法o

measure:計(jì)算樣本距離的方法o

transform

values:對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理口

by

variable:以變量為單位標(biāo)準(zhǔn)化,適用于個(gè)案聚類口

by

case:以個(gè)案為單位標(biāo)準(zhǔn)化,適用于變量聚類分層(或系統(tǒng))聚類方法

例15-2假設(shè)有學(xué)者認(rèn)為,可以從受教育權(quán)和入學(xué)機(jī)會(huì)公平、公共教育資源配置公平、教育質(zhì)量公平、群體間教育公平四個(gè)方面設(shè)計(jì)正規(guī)三級(jí)教育的教育公平的具體評(píng)價(jià)指標(biāo)。據(jù)此對(duì)全國31個(gè)省區(qū)、直轄市展開調(diào)查,獲得31個(gè)省區(qū)、直轄市的教育公平指標(biāo)數(shù)據(jù)。試將31個(gè)省區(qū)、直轄市按照教育公平狀況進(jìn)行分類。

數(shù)據(jù)文件15-1.sav

入學(xué)機(jī)會(huì)公平、公共教育資源配置公平、教育質(zhì)量公平、群體間教育公平4個(gè)

指標(biāo)的變量名分別為x1

、x2

、x3

、x4

Analyze-Classify-HierachicalCluster

…分層(或系統(tǒng))聚類示例-樣本聚類o選擇Agglomeration

schedule(凝聚狀態(tài)表)和Proximitiy

matrix(樣本的距離矩陣)選項(xiàng),輸出

結(jié)果將生成樣本的距離矩陣和凝聚狀態(tài)表,顯示

每一步合并的類以及類與類之間的距離等信息。o在Cluster

membership(類成員)欄下方選中Single

solution(聚成固定類數(shù)時(shí)各樣本的歸屬)復(fù)選項(xiàng),

并在其右側(cè)的空白框內(nèi)輸入:3

。輸出結(jié)果中將會(huì)

顯示聚為3類時(shí)各個(gè)樣品所對(duì)應(yīng)的類別。類成員欄

其他選項(xiàng)none表示不輸出類成員,range

ofsolutions表示聚成m-n類時(shí)各樣本的歸屬(m<n<總

樣本數(shù))。o單擊Plots按鈕,展開其對(duì)話框。選擇Dendrogram(樹形圖)復(fù)選項(xiàng)。樹形圖顯示系統(tǒng)聚類步驟,

包括各步的成員合并情況和距離系數(shù)值,圖中用

相連的垂線表示相聯(lián)系的樣品,它將實(shí)際距離縮

放到0-25之間,保留聚類步驟之間距離的比例。o在Icicle(冰柱圖)下單欄中勾選默認(rèn)選項(xiàng)Allclusters選項(xiàng),表示聚類的每一步均在冰柱圖中體

現(xiàn)。specified

range

of

clusters表示冰柱圖中呈現(xiàn)聚

類時(shí)從第m類開始到第n類結(jié)束,間隔p類的過程。

Orientation表示冰柱圖的方向,我們選擇默認(rèn)選項(xiàng)

vertical(縱向),horizontal表示橫向。o

計(jì)算類間距離的方法(ClusterMethod)包括組間平均法(between-groupslinkage)、組內(nèi)平均法(Within-groupslinage)、最短距離法(nearestneighbor)、最長距離法(furthestneighbor)、中間距離法(Medianclustering)、重心法(Centroidclustering)、離差平方和法(Wald’smethod)。我

們選擇默認(rèn)選項(xiàng)組間平均法。o

在計(jì)算樣本距離的方法(Measure)的下拉式列表框

中選擇默認(rèn)項(xiàng)歐氏距離的平方(SquaredEuclideandistance)。TransformValues部分為對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,本例中未勾選。Byvariable為以變量為單位的標(biāo)準(zhǔn)化,適用于樣本聚類;

Bycase為以個(gè)案為單

位標(biāo)準(zhǔn)化,適用于變量聚類。o

勾選Single

solution復(fù)選項(xiàng),并在其

右側(cè)的空白框內(nèi)輸入:3

。在變量

界面會(huì)生成新的聚類變量CLUN_M,

其中N為聚類數(shù),M表示第幾次做

的聚類結(jié)果。o

range

of

solutions表示生成若干個(gè)

變量分別存放聚成n-m類時(shí)各樣本

的歸屬情況。右側(cè)為聚類分析的凝聚過程表。Stage列代表聚類的步驟順序。ClusterCombined(Cluster1

,Cluster2)是該步被合并的兩類中的觀測量號(hào),合并生成的新類序號(hào)以類中最

小序號(hào)代之,如第一步12

、13類被合并成一新類,新類的

序號(hào)為12

。Coefficients列代表合并類之間的距離。隨著類數(shù)減少,類間距離逐漸增大。StageClusterFirst

Appears兩列代表對(duì)應(yīng)的被合并的類上一次是在哪一步形成的。Cluster1和Cluster2值均為0的表示是兩個(gè)觀測量合并;其中有一個(gè)為0的表示是觀測量與類合并;兩個(gè)值均為非0值的表示是兩個(gè)類合并。如第7步為第26個(gè)觀測量與第28個(gè)觀測量合并,而第26個(gè)觀測量已經(jīng)在第2步與第27個(gè)觀測量合并為一類了,因此此項(xiàng)值2表示與第2步形成的類歸并為一類。NextStage列則表示該步被合并的類又被合并成新類時(shí)的步驟序號(hào)。如第7步合并的類將在第12步被合并成新類。聚類結(jié)果

右側(cè)為聚類結(jié)果成員表,它表明各觀測

量分別隸屬哪一類別。北京、上海、天津?yàn)橐活?,浙江、廣東、江蘇、遼寧、福建為一類,

其他省份為一類。聚類結(jié)果

右側(cè)樹形圖顯示系統(tǒng)聚類的具

體步驟,包括各步的成員合并

情況和距離系數(shù)值。生成的新的聚類類別變量

CLU3

1。聚類結(jié)果

聚類結(jié)果

(五)SPSS選項(xiàng)說明:1.數(shù)據(jù)輸出(statistics選項(xiàng))o

agglomeration

schedule:凝聚狀態(tài)表(默認(rèn))o

distance

matrix:樣本的距離矩陣o

cluster

membership:類成員口

none:不輸出類成員(默認(rèn))口single

solution:聚成n類時(shí)各樣本的歸屬口

range

of

solutions:聚成m~n類時(shí)各樣本的歸屬(m<n<總樣本數(shù))分層(或系統(tǒng))聚類方法2.

圖形輸出(plot選項(xiàng))o

dendrogram:樹型圖o

icicle:冰柱圖口all

cluster:聚類的每一步均在冰柱圖中體現(xiàn)??趕pecified

range

of

clusters:將聚類的第n1類開始到第n2類結(jié)束,間隔n3類

的聚類分析過程在冰柱圖中體現(xiàn)。o

orientation:冰柱圖的方向口

vertical:縱向口

horizontal:橫向分層(或系統(tǒng))聚類方法3.結(jié)果保存(save選項(xiàng))o

single

solution:生成一新變量存儲(chǔ)在聚成n類時(shí)各樣本屬于哪一類

(cluN_M:N為聚類數(shù),M為第幾次做的)。o

range

of

solutions:生成若干個(gè)變量分別存放聚成n~m類時(shí)各樣本的歸屬

情況。分層(或系統(tǒng))聚類方法例15-3本科生課程設(shè)置與其能力培養(yǎng)有著密切的聯(lián)系。某高校教育學(xué)部為本科生開設(shè)教育學(xué)原理、教學(xué)論、量化研究、質(zhì)性研究等10門課程,

現(xiàn)在需要對(duì)這10門課程進(jìn)行分類,以便了解其對(duì)學(xué)生培養(yǎng)的能力模式。

數(shù)據(jù)文件15-2.sav為該教育學(xué)部30名本科生在校期間上述10門課程的成績

數(shù)據(jù)。Analyze-Classify-Hierachical

Cluster

…分層(或系統(tǒng))聚類方法示例2-變量聚類右側(cè)為聚類結(jié)果成員表,它表明各

變量分別隸屬哪一類別。教育史為一類,主要側(cè)重學(xué)生學(xué)科

史、學(xué)科發(fā)展脈絡(luò)知識(shí)的培養(yǎng);量化研究和質(zhì)性研究一類,主要側(cè)

重學(xué)生方法論知識(shí)的培養(yǎng);教育學(xué)原理、教育管理學(xué)基礎(chǔ)、學(xué)

期教育學(xué)基礎(chǔ)等課程為一類,主要

側(cè)重學(xué)生各方向基礎(chǔ)知識(shí)能力的培

養(yǎng)。聚類分析:3.形成多少類別最合適?

o

聚類數(shù)目的確定口聚類數(shù)目確定尚無統(tǒng)一標(biāo)準(zhǔn),一般原則:n

各類所包含的元素都不應(yīng)過多。n

分類數(shù)目應(yīng)符合分析的目的??诜謱泳垲愔锌梢詫㈩愰g距離作為確定分類數(shù)目的輔助工具n

SPSS聚類過程中(合并凝聚方式),類間距離隨著類數(shù)減少而呈增加趨勢。n

類間距離小,類的相似性大;距離大,相似性小。n

繪制碎石圖(X軸為類距離,Y軸為類數(shù))。o

確定分類數(shù)的問題是聚類分析迄今尚未解決的問題之一,主要障礙是對(duì)待分類的群體的類的真實(shí)結(jié)構(gòu)不清楚,從理論和實(shí)踐中都無法得到

關(guān)于類結(jié)構(gòu)的假設(shè)。因此,往往根據(jù)研究目的,從實(shí)用的角度出發(fā),

選擇合適的分類數(shù)。聚類分析:3.形成多少類別最合適?戴米爾曼(Demirmen,

1972)曾提出根據(jù)樹狀結(jié)構(gòu)圖來分類的準(zhǔn)則:o

任何類都必須在鄰近各類中是突出的,即各類重心之間的距離必須夠

大。o

各類所包含的元素都不要過分地多。o

分類數(shù)目應(yīng)該符合使用的目的。o

若采用幾種不同的聚類方法處理,則在各自的聚類圖上應(yīng)發(fā)現(xiàn)相同的

類。聚類分析:3.形成多少類別最合適?(一)基本原理:首先確定要聚成的類數(shù),然后按照一定的方法選取一批凝聚點(diǎn),并讓參與聚類的樣品向最近的凝聚點(diǎn)凝聚,這樣由點(diǎn)凝聚成類,

得到初始分類。但是,初始分類不一定合理,需要按距離最小原則進(jìn)行

修改不合理的分類,直到分類比較合理為止,這樣形成一個(gè)最終的分類

結(jié)果。K-means快速聚類快速聚類法使用的是歐氏距離平方作為距離測度,如果需要使用其他的距離測度,則必須使用系統(tǒng)聚類法進(jìn)行。快速聚類的變量必須是連續(xù)型變量,如果各變量的單位不同,應(yīng)該對(duì)聚類

變量使用Descriptives過程進(jìn)行標(biāo)準(zhǔn)化后再進(jìn)行聚類分析,否則會(huì)得出錯(cuò)誤

的結(jié)論。如果參與聚類的變量是計(jì)數(shù)變量或二分變量,則只能考慮使用系

統(tǒng)聚類法進(jìn)行聚類分析。K-means快速聚類(二)程序1.指定最后要聚成K類。2.用戶指定k個(gè)樣本作為初始類中心或系統(tǒng)自動(dòng)確定k個(gè)樣本作為初始類中

心。3.系統(tǒng)按照距k個(gè)中心距離最近的原則把每個(gè)樣本分派到各中心所在的類

中去,形成一個(gè)新的k類,完成一次迭代。4.重新計(jì)算k個(gè)類的類中心(計(jì)算每類各變量的均值,

以均值點(diǎn)作為類中心)。

5.重復(fù)3步和4步,直到達(dá)到指定的迭代次數(shù)或達(dá)到終止迭代的條件。SPSS中兩個(gè)判斷聚類是否結(jié)束的條件,滿足其中一個(gè)即可結(jié)束聚類過程??谶_(dá)到指定迭代次數(shù)(maximum

iteration),默認(rèn)10次。口收斂標(biāo)準(zhǔn)(convergence),默認(rèn)0.02

,即:本次迭代產(chǎn)生的任意新類,各中

心位置變化較小,其中最大的變化率小于2%。(三)SPSS操作步驟A.菜單選項(xiàng):analyze->classify->k

means

clusterB.選定參加快速聚類分析的變量到variables框。C.確定快速聚類的類數(shù)(number

of

clusters)

,類數(shù)應(yīng)小于個(gè)案總數(shù)。D.選擇聚類方法(method):默認(rèn)iterate

and

classify

,即:在聚類的每一步

都重新計(jì)算新的類中心。E.確定聚類終止條件(如iterate次數(shù))。(四)SPSS可選項(xiàng)說明1.保存快速聚類的結(jié)果(save)口

cluster

membership:將各個(gè)案所屬類的類號(hào)保存到qcl_

1變量中???/p>

distance

from

cluster

center:將各樣本距所屬類中心的距離保存到qcl_2變量中。(四)SPSS可選項(xiàng)說明

2.輸出選項(xiàng)(option)口

initial

cluster

centers:輸出初始類中心點(diǎn)???/p>

ANOVA

table:輸出各類的方差分析表。口

cluster

information

for

each

case:輸出每個(gè)樣本的分類結(jié)果和距離。(四)SPSS可選項(xiàng)說明3.use

running

means項(xiàng):口選中:表示每個(gè)樣本被分配到一類后立即計(jì)算新的類中心。聚類結(jié)果

與個(gè)案的先后次序有關(guān)。口不選中:表示完成了所有個(gè)案的依次分配后再計(jì)算類中心,省時(shí)。(四)SPSS可選項(xiàng)說明

4.用戶指定類中心(center)口

read

initial

from:若不指定則系統(tǒng)自動(dòng)確定初始類中心。指定則從某.sav文件中讀入

初始類中心數(shù)據(jù)(應(yīng)設(shè)一個(gè)名為Cluster_的變量名)。口

Write

final

as:在分析的最后將各類中心寫入某.sav文件。o

例15-4某中學(xué)希望對(duì)某實(shí)驗(yàn)班320名學(xué)生按照他們的語文、數(shù)學(xué)、英語、文科綜合和理科綜合成績進(jìn)行分類,將學(xué)生分成優(yōu)秀、良好、中等、及格4類,以便提供針對(duì)性輔導(dǎo),數(shù)據(jù)文件15-3.sav包含這320名學(xué)生的

期末考試成績,試采用快速聚類法進(jìn)行聚類分析。K-means快速聚類示例o在進(jìn)行快速聚類分析之前,首先要生成各成績變量的標(biāo)準(zhǔn)化變量。o

Analyze-Descriptive

Statistics-Descriptives

…K-means快速聚類示例o

Analyze-Classify-K-Means

Cluster

…o在Method(聚類方法)欄下選擇默認(rèn)的Iterate

and

classify

,即選擇初始聚類中心,在迭代過程中使

用K-Means算法不斷更換類中心,在聚類的每一

步都重新計(jì)算新的類中心,把樣品分派到與之最

近的以類中心為標(biāo)志的類中去。另一選項(xiàng)Classify

only

,則只使用初始類中心對(duì)樣品進(jìn)行聚類。o下方(Cluster

Centers)用戶指定類中心中readinitial表示若不指定則系統(tǒng)自動(dòng)確定初始類中心,指定則從某.sav文件中讀入初始類中心數(shù)據(jù)(應(yīng)設(shè)

一個(gè)名為Cluster_的變量名);Write

final

表示在

分析的最后將各類中心寫入某.sav文件。K-means快速聚類示例o

單擊Iterate按鈕,進(jìn)入確定聚類終止條件對(duì)話框,如圖可以設(shè)置iterate次數(shù),此處

保持默認(rèn)狀態(tài)。use

running

means項(xiàng)若選

中,表示每個(gè)樣本被分配到一類后立即計(jì)

算新的類中心。聚類結(jié)果與個(gè)案的先后次

序有關(guān)。若不選中,表示完成了所有個(gè)案

的依次分配后再計(jì)算類中心,這種方式比

較省時(shí)。K-means快速聚類示例o

單擊Save按鈕,展開Save

New

Variables保存新變量對(duì)話框,選中Clustermembership復(fù)選項(xiàng),以建立一個(gè)新變量,

系統(tǒng)默認(rèn)該變量名為qc1

1

,其值表示

聚類結(jié)果,即各樣品被分配到哪一類中,

該變量將在原數(shù)據(jù)文件中出現(xiàn)。另一選

項(xiàng)distance

from

cluster

center表示將各樣

本距所屬類中心的距離保存到qcl

2變量

中。K-means快速聚類示例o

單擊Options(輸出選項(xiàng)),保持默認(rèn)狀態(tài)。選中initial

cluster

centers表示輸出初

始類中心點(diǎn)。ANOVA

table表示輸出各

類的方差分析表。cluster

information

foreach

case表示輸出每個(gè)樣本的分類結(jié)果

和距離。K-means快速聚類示例o

上面是初始類中心表,此表中作為類中心的樣品由系統(tǒng)所確定。輸出結(jié)果

o此表顯示的是各次迭代后類中心的變化距離。由于沒有指定迭代次數(shù)或收斂判據(jù),因此使用系統(tǒng)

默認(rèn)值:最大迭代次數(shù)為10

,收斂參數(shù)為0

。即

當(dāng)?shù)?0次時(shí)則停止迭代;或迭代使類中心變

化的距離近似為0時(shí),則迭代停止。此例快速聚

類過程執(zhí)行4次迭代后,各類中心的變化距離均

為0

,因此,迭代就停止了。第一次迭代1—4類

的類中心與初始類中心之間的距離分別為1.423

、

1.298

、0.964

、1.550

。第二次迭代1—4類的類中

心與初始類中心之間的距離分別為0.443

、0.311

、

0.000

、0.000

。第三次迭代1—4類的類中心與初

始類中心之間的距離分別為0.030

、0.019

、0.000、

0.000。輸出結(jié)果

o

最終的類中心的各變量值。輸出結(jié)果

o

聚類總結(jié)表,顯示的是各類別中樣品的個(gè)數(shù)以及參與聚類分析的有效樣品數(shù)、缺失樣品數(shù)。輸出結(jié)果

輸出結(jié)果

o

系統(tǒng)聚類法(分層聚類法)只能單方向進(jìn)行聚類,聚類結(jié)果受數(shù)據(jù)中

奇異值影響很大。o

快速聚類法(迭代聚類法)對(duì)初始分類非常敏感,通常也只能得到局

部最優(yōu)解。系統(tǒng)聚類法與快速聚類法的缺點(diǎn)

o

如何聚類?--選擇聚類類型:樣本聚類/變量聚類?

--選擇聚類方法:系統(tǒng)聚類/快速聚類?

--選擇類間距離測度、樣本距離測度2.如何聚類?--系統(tǒng)聚類法VS快速聚類法口選擇系統(tǒng)聚類和快速聚類的依據(jù)

系統(tǒng)聚類比較適用:①一個(gè)廣泛的可供選擇的聚類方法有待嘗試;②

樣本規(guī)模適中(一般樣本個(gè)數(shù)在300~400之內(nèi),至多不超過1000)

快速聚類比較適用:①聚類數(shù)目或者初始類中心比較明確;②離群值

(outlier)必須進(jìn)入分析時(shí),因?yàn)榭焖倬垲悓?duì)離群值不太敏感/受離群值的影響不大。-在系統(tǒng)聚類后同時(shí)使用快速聚類(兩種方法結(jié)合使用)的適用情況:n通過系統(tǒng)聚類可以獲得初始聚類數(shù)目,以及各聚類中心;n在系統(tǒng)聚類后,再進(jìn)行快速聚類可以提供更加準(zhǔn)確的聚類關(guān)系。2.如何聚類?--系統(tǒng)聚類法VS快速聚類法o

如何聚類?o

趨勢:兩者結(jié)合使用o

首先使用系統(tǒng)聚類法確定分類數(shù),檢查是否有離群值,去除離群值后,

對(duì)剩下的樣本重新進(jìn)行分類,把用系統(tǒng)聚類法得到的各個(gè)類的重心,作為迭代聚類法的初始分類中心,這樣就克服了系統(tǒng)聚類法單方向聚

類以及迭代聚類法對(duì)初始類中心敏感的缺點(diǎn),對(duì)樣品點(diǎn)進(jìn)行重新調(diào)整、

聚類。2.如何聚類?--系統(tǒng)聚類法VS快速聚類法如何評(píng)價(jià)聚類研究的質(zhì)量?

沒有任何一個(gè)公認(rèn)的客觀標(biāo)準(zhǔn)能夠完全判斷聚類的好壞;研究者可以根據(jù)下述標(biāo)

準(zhǔn)進(jìn)行參考性判斷:

單一樣本(數(shù)量很少的樣本)成為一組往往不能被接受,這一組往往需要考慮刪

除【當(dāng)然,如果確實(shí)存在非常突出/糟糕表現(xiàn)的樣本也需要保留,引起重視/單

獨(dú)分析】。

各個(gè)聚類的樣本規(guī)模:最好每個(gè)聚類應(yīng)包含10%的樣本。以樣本規(guī)模為1000的樣本為

例,每一個(gè)類別最好應(yīng)包含100個(gè)樣本。這意味著我們最后得到的類別不能超過10類。

對(duì)于系統(tǒng)聚類,停止準(zhǔn)則主要依賴于隨著聚類類別數(shù)量的增減,類間距離是否

不再有較大幅度的增加。

聚類結(jié)果不是顯著地依賴于聚類變量的選擇。

對(duì)于聚類結(jié)果可以進(jìn)行有實(shí)際意義的解釋。

交互分類有效性(cross-validation)

?

將樣本隨機(jī)分成2組或者多組:分組分別使用同樣的聚類方法進(jìn)行分析,看看是

否具有穩(wěn)定性(比如同時(shí)使用系統(tǒng)聚類對(duì)兩組樣本--每組100個(gè)樣品--分別進(jìn)行

聚類,看看聚類成2-10類時(shí),兩組樣本中各類的樣本數(shù)是否基本相同,類中心

是否接近)。?

通常的做法是計(jì)算各類在各聚類變量上的均值,對(duì)均值進(jìn)行比較,看看分組的意義是否合適(各類的均值差異是否較大)(可以利用多因變量方差分析考察

各組在聚類變量上的均值是否存在顯著性差異)。建立有效性標(biāo)準(zhǔn)(Establishing

Criterion

Validity)聚類結(jié)果的效度(Validity)

1.試比較系統(tǒng)聚類法和快速聚類法的優(yōu)缺點(diǎn)。2.隨機(jī)從某大學(xué)經(jīng)濟(jì)與工商管理學(xué)院抽取30名學(xué)生,他們的4科成績?nèi)缦?試?yán)脭?shù)據(jù)文件“exe15-1.sav”將這30名學(xué)生按其綜合成績的優(yōu)劣進(jìn)行分類。作業(yè)o

3.試?yán)脭?shù)據(jù)文件“

15-1.sav”,采用快速聚類法對(duì)例15-1進(jìn)行聚類分析,并將之與系統(tǒng)聚類法的聚類結(jié)果進(jìn)行對(duì)比分析。作業(yè)教育統(tǒng)計(jì)學(xué)判別分析及其應(yīng)用北京師范大學(xué)教育學(xué)部胡詠梅學(xué)部本科科生課課程判別分析概述:概念及基本原理判別分析的假設(shè)條件及基本模型

判別分析的研究步驟幾種判別分析方法示例分析練習(xí)與思考contentso判別分析是利用已知類別的樣本模擬模型,為未知樣品判類的一種統(tǒng)計(jì)方

法。即根據(jù)已掌握的每個(gè)類別的若干樣本的數(shù)據(jù)信息,建立判別公式和判別準(zhǔn)

則;然后,當(dāng)遇到新的樣品時(shí),只要根據(jù)判別公式和判別準(zhǔn)則,就能判別該樣

品所屬的類別。o

該方法(

Discriminant

Analysis

,簡稱DA),是由R.A.Fisher于1936

年提出來的。近年來,在醫(yī)學(xué)、管理學(xué)、心理學(xué)、教育學(xué)科中都有廣泛的應(yīng)用。

比如,識(shí)別新患者是否得了某種疾病;預(yù)測一個(gè)公司是否會(huì)違貸;預(yù)測某個(gè)學(xué)

生能否考上“985”高校;識(shí)別某所高校能否成為世界一流大學(xué);識(shí)別某個(gè)學(xué)生

是否有網(wǎng)癮,等等。一、概念及基本原理簡言之,判別分析是研究判別個(gè)體所屬類型的一種統(tǒng)計(jì)分析方法。設(shè)有k個(gè)總體,希望建立一個(gè)準(zhǔn)則,對(duì)給定的任意一個(gè)樣品,依據(jù)這

個(gè)準(zhǔn)則就能判斷它是來自哪個(gè)總體。當(dāng)然,我們應(yīng)當(dāng)要求這種準(zhǔn)則在某

種意義下是最優(yōu)的。例如,錯(cuò)判概率最小,或錯(cuò)判損失最小等等。一、概念及基本原理o判別分析是用于分析因變量為分類變量、自變量為可測變量(定距或定比變量)數(shù)

據(jù)的一種統(tǒng)計(jì)分析模型。o在判別分析中將分組變量稱為因變量;用以分組的其他特征變量稱為判別變量或自

變量。o例如,某高校學(xué)生管理部門希望對(duì)現(xiàn)在就讀的本科生進(jìn)行分類,以便對(duì)肄業(yè)風(fēng)險(xiǎn)高的學(xué)生進(jìn)行提前干預(yù)。o分組變量(因變量):是否肄業(yè)o判別變量(自變量):專業(yè)課GPA、學(xué)位基礎(chǔ)課與學(xué)位專業(yè)課掛科門數(shù)、每周網(wǎng)絡(luò)聊天或游戲時(shí)長、實(shí)習(xí)或兼職

周工作天數(shù)……一、概念及基本原理判別分析的應(yīng)用和解釋非常類似于回歸分析:利用1個(gè)或者多個(gè)自變量的線性(非線性)組合,用于預(yù)測唯一的因變量。但回歸分析的因變

量是數(shù)值型變量,而判別分析要預(yù)判的是分類變量【也正因?yàn)槿绱?,?/p>

估計(jì)判定函數(shù)時(shí)可以采用logistic回歸模型】判別分析VS回歸分析

對(duì)于已有樣本并未給出明確的分組信息時(shí),往往需要先利用聚類分析給出樣本的分組信息(分組數(shù)、分組類別、各組具體特征等)。之后,在此基礎(chǔ)上再進(jìn)行新增樣本分組預(yù)測。聚類分析

樣本進(jìn)行分組判別分析VS回歸分析

對(duì)新增樣本進(jìn)行

分組預(yù)測

1.根據(jù)判別變量建立判別函數(shù);

2.要處理的是未知分組屬性的case

,以第一階段的分析結(jié)果所建立的

判別函數(shù)為依據(jù),將這些未知組別的cases進(jìn)行判別分組。判別分析兩個(gè)階段的工作將中國各個(gè)省份按教育發(fā)展?fàn)顩r劃分為教育發(fā)達(dá)地區(qū)和落后地區(qū)兩種。用來分組的指標(biāo)包括人均受教育年限、生均經(jīng)費(fèi)、各級(jí)教育的入學(xué)

率、財(cái)政性教育經(jīng)費(fèi)占GNI的比重等。假定已經(jīng)有28個(gè)省份被歸類了,但是還有中部地區(qū)的河南省、湖南省以及西部的陜西省還未歸類。請(qǐng)用

判別分析過程進(jìn)行歸類。一個(gè)假想的例子o

體溫、血壓、白血球感冒?肺炎?非典?o

人均GDP

、人均收入、人均壽命、人均住房面積等

小康了嗎?……其他例子

o

前提條件:

分組類型(group

,用g表示)在兩組以上;

在第一階段工作時(shí)候每組case必須至少在一個(gè)以上;

各判別變量的測度等級(jí)為定距變量或定比變量(才能方便計(jì)算均值和

方差);

已知類別Case

的個(gè)數(shù)要比判別變量的個(gè)數(shù)至少多兩個(gè)。二、判別分析的假設(shè)條件和基本模型不同組別的變量具有相同協(xié)方差

以便計(jì)算判別函數(shù)

和進(jìn)行顯著性檢驗(yàn)不存在多重共線

性:每一個(gè)判別

變量不能是其他

判別變量的線性各個(gè)判別變量的

聯(lián)合分布服從多

元以便精確計(jì)算統(tǒng)計(jì)

量的顯著性水平和

樣品分組歸屬的概

率。否則無法估計(jì)

判別函數(shù)判別分析的研究假設(shè)

通過判定得分對(duì)每個(gè)case進(jìn)行分類:對(duì)于每個(gè)特定的群組,分別計(jì)算z分?jǐn)?shù)平均值,這一平

均數(shù)又被稱為各組的重心(centroid);如果有2個(gè)群組,則會(huì)得到2個(gè)重心,如果有3個(gè)組別

則有3個(gè)重心,依次類推。重心意味著該群組內(nèi)絕大多數(shù)的個(gè)案都會(huì)分布在該點(diǎn)周圍。

判別效果依賴于判定函數(shù)對(duì)不同組別重心之間距離的測量;如果分布的重疊很小,那么,

判定函數(shù)能夠?qū)山M樣本較好的區(qū)分開;反之,如果分布的重疊部分很大,那么,判定函

數(shù)則不能將兩組樣本較好的區(qū)分開。口以線性判別函數(shù)為例,闡述判別分析基本思想:zjk

=

a

+

W1x1k+

W2x

2k+…

+

Wnx

nk在上式中:Z分?jǐn)?shù)是第k個(gè)樣本在第j個(gè)判定函數(shù)中的得分;a是常數(shù)項(xiàng);Wi是自變量Xi的判

定權(quán)重;x

ik是第k個(gè)case在自變量Xi的取值。

對(duì)于每個(gè)case的判定函數(shù)得分Z,實(shí)質(zhì)上是每個(gè)自變量通過判定權(quán)重W加權(quán)后的得分之和。判別分析的基本思想判別函數(shù):y=b0

+

b1x1

+

b2

x2

+…+

bk

xk

(1)其中y是判別函數(shù)值,xi

為判別變量,bi

為相應(yīng)的判別系數(shù)。

判別函數(shù)與回歸函數(shù)的

區(qū)別:[1]判別函數(shù)中的y不是代表實(shí)測的因變量

的估計(jì),因?yàn)閷?shí)測的因變量是定類變

量,而由該函數(shù)預(yù)測的

因變量是定距變量。[2]回歸分析中的方程只有

一個(gè);判別分析中的函數(shù)往往不止一個(gè)。判別函數(shù)值y又簡稱為判別值,判別

系數(shù)表示各個(gè)判別變量對(duì)判別值的影響,

b0

是常數(shù)值。判別分析的基本模型

第一步:判別分析的研究設(shè)計(jì)第二步:判別分析的研究假設(shè)第三步:估計(jì)判別函數(shù)以及評(píng)估整體擬合度第四步:判別結(jié)果的解釋第五步:結(jié)果的驗(yàn)證三、判別分析的研究步驟第一步

判別分析的研究設(shè)計(jì)

保留樣本選

擇變量的選擇樣本規(guī)模/容

量A的選擇樣本規(guī)模/容量因變量:分類變量,相互獨(dú)立、排斥(即每個(gè)樣本只能歸為其中的一類);分類結(jié)果可以使從現(xiàn)有信息

中直接獲得,也可以是通過聚類分析等手段生成。+盡可能地控制因變量的類型數(shù)量(因?yàn)殡S著組別類型的增加,不同組別之間在自變量特征的重

合性上增加,會(huì)大大增加判定的難度、降低判定的準(zhǔn)確性)。+因變量最好是分類變量;對(duì)于順序型數(shù)值變量,我們可將其轉(zhuǎn)化成分類變量(例如:按照學(xué)生

成績排名,將樣本分為高、中、低)。自變量:

來自于已有研究/理論模型+

運(yùn)用研究者知識(shí)、直覺第一步

判別分析的研究設(shè)計(jì)

保留樣本選

擇變量A樣本規(guī)

量模/容保留樣本選

擇最佳:+

樣本數(shù)÷自變量數(shù)≥20

+

樣本數(shù)÷組別數(shù)量≥20底線:+

樣本數(shù)÷自變量數(shù)≥5

+

樣本數(shù)÷組別數(shù)量≥5第一步

判別分析的研究設(shè)計(jì)

變量的選擇保留樣本選

擇分析組樣本:+

估計(jì)判定函數(shù)保留組樣本:+檢驗(yàn)判斷函數(shù)樣本外的預(yù)測正確率選擇分析組和保留組的個(gè)體時(shí),通常遵循等比例分

層抽樣,即兩組樣本中,各具體組別大小比例應(yīng)與

整個(gè)樣本基本保持一致。第一步

判別分析的研究設(shè)計(jì)

變量的選擇樣本規(guī)模/容量不存在多重

共線性不同組別的

變量具有相

同協(xié)方差矩陣

檢驗(yàn):相關(guān)系數(shù)檢驗(yàn)

處理1:選擇代表性變量

處理2:使用因子分析方法提取公因子各個(gè)判別變

量的聯(lián)合分

布服從多元正態(tài)分布第二步

判別分析的研究假設(shè)不存在多重

共線性不同組別的

樣本具有相

同協(xié)方差矩陣各個(gè)判別變

量的聯(lián)合分

布服從多元正態(tài)分布Box’sM

test

隨著樣本量的增加,以及組別數(shù)量的增加,協(xié)方差

矩陣的要求可以放寬(比如,p>0.01即可)。

解決辦法:增加樣本量;使用二次判定函數(shù)。第二步

判別分析的研究假設(shè)不存在多重

共線性各個(gè)判別變

量的聯(lián)合分

布服從多元正態(tài)分布不同組別的

變量具有相

同協(xié)方差矩陣

對(duì)于顯著性檢驗(yàn)可以適當(dāng)放寬,即將顯著性水平限制在0.01及以下。+更需要保證單變量服從一元正態(tài)分布,因此,可以通過取對(duì)數(shù)等手段

進(jìn)行數(shù)據(jù)轉(zhuǎn)換。

如果確實(shí)拒絕多元正態(tài)分布的假設(shè),我們則可以采用logistic回歸估計(jì)

判定函數(shù),或者非參數(shù)的判定方法。第二步

判別分析的研究假設(shè)

計(jì)算判別Z得

分;檢驗(yàn)組的差異;評(píng)價(jià)各組預(yù)測

的精度。聯(lián)立模型逐步模型第三步

估計(jì)判別函數(shù)以及評(píng)估整體擬合度

評(píng)估判別函數(shù)

的顯著性估計(jì)判別函數(shù)評(píng)估整體擬合統(tǒng)計(jì)顯著性聯(lián)立模型:

自變量同時(shí)全部進(jìn)入判別函數(shù)模型,判別函數(shù)可能不止

一個(gè),所以是聯(lián)立模型。逐步模型:

自變量逐步進(jìn)入判別函數(shù)模型計(jì)算判別Z得分;檢驗(yàn)組的差

異;評(píng)價(jià)各組預(yù)

測的精度。第三步

估計(jì)判別函數(shù)以及評(píng)估整體擬合度評(píng)估判別函

數(shù)的顯著性聯(lián)立模型

逐步模型估計(jì)判別函數(shù)評(píng)估整體擬合統(tǒng)計(jì)顯著性在我們估計(jì)完判別函數(shù)后,首先需要做的是判斷估計(jì)所得到判別函數(shù)的解釋效力:

整體顯著性判斷:Wilk’s

lamada;Hotelling

跡;Pillai準(zhǔn)則(實(shí)質(zhì)上為多因變量

方差分析整體顯著性的判斷)聯(lián)立模型;

逐步模型;計(jì)算判別Z得分;檢驗(yàn)組的差異;評(píng)價(jià)各組預(yù)測

的精度。第三步

估計(jì)判別函數(shù)以及評(píng)估整體擬合度

評(píng)估判別函數(shù)

的顯著性估計(jì)判別函數(shù)評(píng)估整體擬合統(tǒng)計(jì)顯著性計(jì)算判別Z得分;

檢驗(yàn)組的差異;

評(píng)價(jià)各組預(yù)測

的精度。聯(lián)立模型;

逐步模型;第三步

估計(jì)判別函數(shù)以及評(píng)估整體擬合度評(píng)估判別函數(shù)

的顯著性評(píng)估整體擬合度估計(jì)判別函數(shù)統(tǒng)計(jì)顯著性o評(píng)估整體擬合度(Assessing

overallmodel

fit)口

對(duì)每個(gè)觀測樣本估算Z分?jǐn)?shù)口

基于判別Z分?jǐn)?shù)評(píng)價(jià)組間差異性n計(jì)算組間Z分?jǐn)?shù)重心的差異性口

評(píng)價(jià)各組預(yù)測的精度n設(shè)定分類函數(shù)/分類準(zhǔn)則,估算臨界得分(cutting

score)。n通過每個(gè)樣本Z分?jǐn)?shù)與臨界得分的對(duì)比,將各個(gè)樣本歸入相應(yīng)的組別中。第三步

估計(jì)判別函數(shù)以及評(píng)估整體擬合度

判別載荷標(biāo)準(zhǔn)化判別權(quán)重第四步

判別結(jié)果的解釋觀察并分析判別函數(shù)賦予每個(gè)變量的標(biāo)準(zhǔn)化判別權(quán)重:+符號(hào):正的貢獻(xiàn)or負(fù)的貢獻(xiàn)+大?。狠^大值代表那個(gè)變量對(duì)判別函數(shù)的判斷力貢獻(xiàn)較大;反之,則對(duì)判別函數(shù)的判別力貢

獻(xiàn)較小。

需要注意:較為嚴(yán)重的多重共線性會(huì)對(duì)判別權(quán)重的估算產(chǎn)生非常嚴(yán)重偏差。判別載荷標(biāo)準(zhǔn)化判別權(quán)重第四步

判別結(jié)果的解釋標(biāo)準(zhǔn)化判別權(quán)重

判別載荷判別載荷又被稱為結(jié)構(gòu)相關(guān)系數(shù):

各個(gè)解釋變量與判別函數(shù)得分的簡單相關(guān)系數(shù)+其反映的是每個(gè)解釋變量對(duì)判別函數(shù)的相對(duì)貢獻(xiàn)第四步

判別結(jié)果的解釋

任何判別準(zhǔn)則都可能產(chǎn)生錯(cuò)判現(xiàn)象,總的平均錯(cuò)判概率越小,判別準(zhǔn)則越好。

有些時(shí)候?yàn)榱藱z驗(yàn)判別準(zhǔn)則的優(yōu)劣,需要將各母體中的對(duì)象按判別準(zhǔn)則進(jìn)行

回判,觀察回判中的錯(cuò)判比例。母體中的樣品,有時(shí)被稱為“訓(xùn)練樣本”。第五步

結(jié)果的驗(yàn)證

(1)貌似誤判率方法在建立了判別準(zhǔn)則后,計(jì)算誤判的比例:

n12、n21分別是應(yīng)當(dāng)是第一類錯(cuò)判為第二類的樣品數(shù)、應(yīng)當(dāng)是第二類而錯(cuò)判為

第一類的樣品數(shù)。該比例一般情況下比實(shí)際的誤判概率要小,因?yàn)槭褂玫氖遣糠謽颖?。但在樣?/p>

足夠大的情況下,可以近似地反映整體誤判情況??梢宰C明該結(jié)果是實(shí)際誤判概率的漸近無偏估計(jì)。第五步

結(jié)果的驗(yàn)證(2)刀切法也稱為Lachenbruch刪除法或者交叉確認(rèn)法(Cross-Validation)。其基本思想是每次剔除訓(xùn)練樣本中的一個(gè)樣品,利用其余的樣品建立判別準(zhǔn)則,

然后對(duì)所剔除的樣品進(jìn)行判別,記錄判別的效果。刀切法的計(jì)算量非常大,但stata軟件中提供了專門的處理程序。第五步

結(jié)果的驗(yàn)證-判別法四、幾種判別分析方法te判別法四、幾種判別分析方法1

、總體樣本分布已知的馬氏距離計(jì)算2

、兩個(gè)總體的距離判別3

、多個(gè)總體的距離判別口距離判別最直觀的想法是計(jì)算樣品到第i類總體的平均距離,選擇距離最小的組作為歸類組別??谝虼耍嚯x函數(shù)判別的思想是通過構(gòu)建一個(gè)適當(dāng)?shù)木嚯x函數(shù),通過計(jì)算樣本與某類別之間距離的大小,判別其所屬類別。設(shè)

x

=

(x1,

x2,

…,

xm

)9和y

=

(y1,

y2,

…,

ym

)9

是從期望μ=

(μ1,

μ2,

…,

μm

)9和方差陣Σ=(σij

)m×m

>0

的總體G抽得的兩個(gè)觀測值

,

則稱d

2

(x,

y)=(x

-

y)9Σ-1

(x

-

y)為X與Y之間的Mahal

anobis距離。樣品X和Gi類之間的馬氏距離定義為X與Gi類重心間的距離:d

2

(x,

Gi

)=(x

-

μi

)9Σ-1

(x

-

μi

)

i

=1,2,

,

k1、總體樣本分布已知的馬氏距離計(jì)算馬氏距離有如下的特點(diǎn):1

、馬氏距離不受計(jì)量單位的影響;2

、馬氏距離是標(biāo)準(zhǔn)化后的變量的歐式距離。1

、總體樣本分布已知的馬氏距離計(jì)算先考慮兩個(gè)總體的情況,設(shè)有兩個(gè)協(xié)差陣Σ相同的p維正態(tài)總體,對(duì)給定的樣品Y,判別一個(gè)樣品Y到底是來自哪一個(gè)總體,一個(gè)最直觀的想法是計(jì)算Y到兩個(gè)總體的距離。

故我們用馬氏距離來給定判別準(zhǔn)則,即:[y

G1

如d

2

(y

,

G1

)

<d

2

(y

,

G2

),{y

G2

,如d

2

(y

,

G2

)

<d

2

(y

,

G1

)l待判,如d

2

(y,

G1

)=d

2

(y,

G2

)2、兩個(gè)總體距離判別法1、協(xié)方差陣相同d2

(

y

,G

2

)

d2

(

y

,G

1

)=

(

y

μ2

)

’Σ

一1

(

y

μ2

)

(

y

μ1

)

’Σ

一1

(

y

μ1

)

=

2

y

’Σ

一1

(

μ1

μ2

)一

(

μ1

+

μ2

)

’Σ

一1

(

μ1

μ2

)

α=

Σ

一1

(

μ1

μ2

)

=

(a1,

a2,

,

ap

)’令

當(dāng)

μ1,

μ2

和Σ已知時(shí),α

一1

(μ1

μ2

)

是一個(gè)已知的p維向量,

W(y)是y的線性函數(shù),稱為線性判別函數(shù)。用線性判別函數(shù)進(jìn)行判別分析非常直觀,使用起來最方便,在實(shí)

際中的應(yīng)用也最廣泛。[y

G1

,如W(y)>0,{y

G2

,

如W(y)<

0。l待判,

如W

(Y)=0W(y)=(y一

μ)’α

=

α’(y一

μ)則前面的判別準(zhǔn)則可以轉(zhuǎn)換為μ1

)

+

…+

ap

(yp’

’=

α

y

αμ=a1

(y1一

μp

)一變量均值向量協(xié)方差矩陣優(yōu)秀一般資金利潤率13.55.468.3940.2421.41勞動(dòng)生產(chǎn)率40.729.840.2454.5811.67產(chǎn)品凈值率10.76.221.4111.677.90例如,在企業(yè)績效考核中,可以根據(jù)企業(yè)的生產(chǎn)經(jīng)營情況把企業(yè)分為優(yōu)秀企業(yè)和一般企業(yè)??己似髽I(yè)經(jīng)營狀況的指標(biāo)有:現(xiàn)有二個(gè)企業(yè),觀測值分別為(7.8,39.1,9.6)和(8.1,34.2,6.9),問這兩個(gè)企業(yè)應(yīng)該屬于哪一類?資金利潤率=利潤總額/資金占用總額

勞動(dòng)生產(chǎn)率=總產(chǎn)值/職工平均人數(shù)

產(chǎn)品凈值率=凈產(chǎn)值/總產(chǎn)值根據(jù)前面對(duì)線性判別函數(shù)的推導(dǎo),我們可以根據(jù)本例子中

的協(xié)方差矩陣以及兩組樣本的均值,給出以下判別函數(shù):y

=

0

.6

0

5

81x1

+

0

.2

5

3

6

2x2

+

1

.

8

3

6

7

9x3

18

.7

3

5

9’’

=

α

y

α

μ

對(duì)于觀測值為(7.8,39.1,9.6)的樣本點(diǎn):y1

=

0

.6

0

5

81×7

.

8

+

0

.2

5

3

6

2

×3

9

.

1+

1

.

8

3

6

7

9×9

.6

18

.7

3

5

9

6=

4

.0

8

9

2

>

0

屬于第一組,即是優(yōu)秀類企業(yè)對(duì)于觀測值為(

8.1,34.2,6.9)的樣本點(diǎn):y

2

=

0

.6

0

5

81×8

.

1+

0

.2

5

3

6

2

×3

4

.2

+1

.

8

3

6

7

6

.9

18

.7

3

5

9

6=

2

.2

9

5

6

<

0

屬于第二組,即是一般類企業(yè)[y

G1

,

如d

2

(y

,

G1

)

<d

2

(y

,

G2

),{y

G2

,如d

2

(y

,

G2

)

<d

2

(y

,

G1

)l待判,如d

2

(y,

G1

)=d

2

(y,

G2

)d

2

(y

,

G2

)一

d

2

(y

,

G1

)=(y一

μ2

)’Σ2

一1

(y一

μ2

)

(y一

μ1

)’Σ1一1

(y一

μ1

)2

、兩個(gè)總體距離判別法2

、當(dāng)協(xié)方差陣不同判別準(zhǔn)則為:判別函數(shù):設(shè)有K個(gè)總體,分別有均值向量μi(i=

1,2,

,k)和協(xié)方差陣Σi=Σ

,各總體出現(xiàn)的先驗(yàn)概率相等。又設(shè)Y是一個(gè)待判樣品。則Y與第i個(gè)

總體的距離為(即判別函數(shù))d2

(

y,G

i

)

=

(

y

μi

)

,

Σ

一1

(

y

μi

)

上式中的第一項(xiàng)Y'Σ-1Y與i無關(guān),可忽略,舍去后得一個(gè)等價(jià)函數(shù):

g

i

(Y

)

=

一2

y

一1μi

+μi,Σ

一1μi,3

、多個(gè)總體距離判別法將上式中提-2,得

g

i

(Y

)

=

一2

(

y

一1μi

0

.5

μi,Σ

一1μi,)令

fi

(Y

)

=(

y

一1μi

0

.5

μi,Σ

一1μi,)則距離判別法的判別函數(shù)為:令

fi

(Y

)

=(

y

一1μi

0

.5

μi,Σ

一1μi,)

fl

(

y

)

=

k

f

i

(

x

)

,則

y

G

l

1mfi

(Y

)

=

(

y

一1μi

一0

.5

μi,Σ

一1μi,)最大d2

(y

,

Gi

)

=(y

μi

)

,Σ注:這與前面所提出的距離判別是等價(jià)的。判別準(zhǔn)則為:(y

μi

)最小一12

距離判別費(fèi)雪性判別法四、幾種判別分析方法

費(fèi)雪(Fisher)判別是借助于方差分析的思想,來導(dǎo)出判別函數(shù)和建立判別準(zhǔn)則。在現(xiàn)實(shí)中,通常使用線性判別函數(shù),因此也稱為費(fèi)雪線性判別。費(fèi)雪判別對(duì)于總體的分布不需要提出特定的假設(shè),因此適用性更廣。1

.基本思想構(gòu)造一個(gè)判別函數(shù),假定是線性函數(shù)y

=

C

1

X

1

+

C

2

X

2

+

+

C

n

X

n其中各系數(shù)的選擇,應(yīng)當(dāng)是使兩類間的區(qū)別最大,而使類內(nèi)

部的離差最小。對(duì)于一個(gè)新的樣品,將其代入判別函數(shù),然后與

判別臨界點(diǎn)進(jìn)行比較。該統(tǒng)計(jì)量越大,判別效果越好。最佳的線性判別函數(shù)應(yīng)該是:兩個(gè)重心的距離越大越好,兩個(gè)組內(nèi)

的離差平方和越小越好。最優(yōu)的判別函數(shù)應(yīng)當(dāng)滿足y(1)

-y(2)最大,而組內(nèi)的

離差平方和(yi(1)

-y(1))和

(yi(2)

-y(2))

最小.21212

.求判別函數(shù)觀察兩組的判別函數(shù)的平均值:

y

=

c

1

x

1

+

c

2

x

2

+

+

ck

x

ky

=

c

1

x

1

+

c

2

x

2

+

+

ck

x

k

(

2

)

(

2

)

(

2

)

(

2

)

(1)

(1)

(1)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論