版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
教育統(tǒng)計(jì)學(xué)聚類分析及其應(yīng)用學(xué)部本科科生課課程北京師范大學(xué)教育學(xué)部胡詠梅聚類方法:分層聚類(系統(tǒng)聚類)與快速聚類聚類分析概述:概念、準(zhǔn)則及原理聚類分析方法應(yīng)用示例聚類研究的質(zhì)量評(píng)價(jià)課堂操作練習(xí)contentso
概念:口聚類分析是統(tǒng)計(jì)學(xué)中研究“物以類聚”的一種方法,即根據(jù)事物外顯特
征研究個(gè)體分類的多元統(tǒng)計(jì)分析方法。o
聚類分析按分類的對(duì)象不同,可分為樣本聚類(或稱個(gè)案聚類)
和變量
聚類兩種類型。o
樣本聚類是根據(jù)被觀測對(duì)象的各種特征,即反映被觀測對(duì)象特征的各變
量值對(duì)樣本進(jìn)行分類。o
在教育研究中適用于對(duì)于學(xué)生或?qū)W校按照某些指標(biāo)進(jìn)行類別劃分等方面。例如:對(duì)大學(xué)按照辦學(xué)質(zhì)量分類、對(duì)學(xué)生按照興趣愛好分類、對(duì)校長進(jìn)
行領(lǐng)導(dǎo)風(fēng)格分類等等。聚類分析概述o
變量聚類是一種降維的方法,用于在變量眾多時(shí),尋找有代表性的變
量,以便當(dāng)用少數(shù)、有代表性的變量代替原始較多變量時(shí),損失的信
息很少。o
在教育、心理研究中適用于對(duì)高校各系課程變量的類屬劃分以及心理
結(jié)構(gòu)變量的探查等方面。聚類分析概述o
準(zhǔn)則:聚類分析是建立一種分類,是將一批樣本(或變量)按照在性質(zhì)上的“親疏”程度,在沒有先驗(yàn)知識(shí)的情況下自動(dòng)進(jìn)行分類的方法。其中:類
內(nèi)個(gè)體具有較高的相似性,類間的差異性較大。聚類分析概述若對(duì)以上五所高校進(jìn)行分類,依據(jù)平均得分的差距,將差距較小的分為一類,我們可以將A
、B高校分為一類,C高校為一類,D
、E高校為一類。o
例15-1假設(shè)現(xiàn)在對(duì)A
、B
、C
、D
、E五所高校教學(xué)、科研、社會(huì)服務(wù)三大職能進(jìn)行評(píng)價(jià),評(píng)分情況如下:聚類分析研究的關(guān)鍵問題
問題3.
形成
多少類別最
合適?問題1.
怎樣測量相似性?問題2.如何
聚類?o
親疏遠(yuǎn)程度的衡量指標(biāo):衡量親疏程度的指標(biāo)有兩種,即距離和相似系
數(shù)。o
變量之間的親疏程度則通常用相似系數(shù)來度量。相似系數(shù)越接近于1或-
1時(shí),認(rèn)為變量之間的親疏程度越高;相似系數(shù)接近于0時(shí),認(rèn)為變量之
間是無關(guān)的。比如夾角余弦、相關(guān)系數(shù):r
=
聚類分析原理:1.怎樣測量相似性?o
距離是將每個(gè)樣品看成m個(gè)數(shù)據(jù)對(duì)應(yīng)的m維空間中的一個(gè)點(diǎn),然后在該
空間中所定義的距離越近,則親疏程度越高。o
如何定義數(shù)據(jù)間的距離呢?不同測度水平的數(shù)據(jù)間的距離定義是否不同?聚類分析原理:1.怎樣測量相似性?o
定距型個(gè)體間的距離:把每個(gè)個(gè)案數(shù)據(jù)看成是m維空間上的點(diǎn),在點(diǎn)和點(diǎn)之間定義某種距離。一n平方歐氏距離(SEUCLID)n明可夫斯基距離(歐氏距離是其特例)般適用于定距數(shù)據(jù)。n歐氏距離(EUCLID)缺點(diǎn):要求各指標(biāo)計(jì)量單位相同,而且同等看待各指標(biāo)的重要性。
聚類分析原理:怎樣測量相似性?
(
xi
-
yi
)
2n切比雪夫距離dij(∞)
=
mxEUCLID
(
x,y
)
=xik
-
xjkCaseEuclidean
Distance1:A商廈2:B商廈3:C商廈4:D商廈5:E商廈1:A商廈2:B商廈3:C商廈4:D商廈5:E商廈.0008.062
17.804
26.907
30.4148.062.000
25.456
34.655
38.21017.80425.456
.000
9.22012.80626.90734.655
9.220
.00030.41438.210
12.806
3.606
.000l定距型個(gè)體間的距離:連續(xù)型變量個(gè)體距離矩陣ProximityMatrix兩類:(AB)(C
D
E)
三類:(AB)
(C)
(D
E)聚類分析原理:怎樣測量相似性?This
isa
dissimilarity
matrix3.606姓名選修課門數(shù)
(期望頻數(shù))專業(yè)課門數(shù)
(期望頻數(shù))得優(yōu)門數(shù)
(期望頻數(shù))合計(jì)張三9(8.5)6(6)4(4.5)5(4.5)9198(8.5)171938
聚類分析原理:怎樣測量相似性?l
定距型個(gè)體間的距離:計(jì)數(shù)變量6(6)12李四合計(jì)選課特征姓名是否喜歡討論
式教學(xué)是否選擇方法
類課程是否喜歡年
輕教師授課小張111小李110小王001ll聚類分析原理:怎樣測量相似性?
類屬型個(gè)體間的距離
類屬型個(gè)體間的距離(1)簡單匹配(simple
matching)系數(shù):適用二值變量簡單匹配系數(shù)將同時(shí)擁有或同時(shí)不擁有某特征的情況看作匹配。應(yīng)
用簡單匹配系數(shù)時(shí),取0和1的地位等價(jià),編碼方案的變化不會(huì)引起系數(shù)的其中,a為個(gè)體i與個(gè)體j在相同變量上同時(shí)取1的個(gè)數(shù)
;d為同
時(shí)取0的個(gè)數(shù)。個(gè)體i與個(gè)體j之間的距離為:個(gè)體i10
聚類分析原理:怎樣測量相似性?個(gè)體j1
0變化。a
cb
d
類屬型個(gè)體間的距離—簡單匹配(simple
matching)系數(shù):適用二值變量。姓名是否喜歡討論課是否喜歡方法課是否喜歡年輕老師張三
111李四
11
0王五
0
01(張三,李四):a=2b=
1c=0d=0d(x,y)=1/(1+2)=1/3(張三,王五):a=1b=2c=0d=0d(x,y)=2/(1+2)=2/3張三距李四近聚類分析原理:怎樣測量相似性?發(fā)燒咳嗽檢查1
檢查2檢查3檢查41
0
1
0
0010
1
0
1
01
1
0
0
00o
類屬型個(gè)體間的距離口根據(jù)臨床表現(xiàn)研究病人是否有類似的病聚類分析原理:怎樣測量相似性?姓名張三李四王五……男
女
男性別(2)杰卡德(Jaccard)系數(shù):適用二值變量杰卡德系數(shù)排除同時(shí)不擁有某特征的情況。應(yīng)用杰卡德系數(shù)時(shí),取1的狀
態(tài)比取0更有意義。同時(shí),編碼方案會(huì)引起系數(shù)的變化。個(gè)體j個(gè)體i10其中,a為個(gè)體i與個(gè)體j在相同變量上同時(shí)取1的個(gè)數(shù);d
為同時(shí)取0的個(gè)數(shù)。個(gè)體i與個(gè)體j之間的距離為:J
(i
,
j
)
=
聚類分析原理:怎樣測量相似性?1
0acbdo
類屬型個(gè)體間的距離口
Jaccard系數(shù)舉例:根據(jù)臨床表現(xiàn)研究病人是否有類似的病。姓名性別
發(fā)燒咳嗽檢查1
檢查2
檢查3
檢查4張三
男
1
01
0
0
0李四女
1
0101
0王五
男
1
1
0
0
0
0結(jié)論:張三和李四最有可能得類似的病;李
四和王五不太有可能得類似的病。聚類分析原理:怎樣測量相似性?d
(張三
,
李四
)
=
=
0
.33d
(李四
,
王五
)
=
=
0
.75d
(張三
,
王五
)
=
=
0
.67……..
相似系數(shù)測量:
夾角余弦或相似系數(shù)
小結(jié):怎樣測量相似性?
選擇距離測量:
區(qū)分?jǐn)?shù)據(jù)類型
樣本聚類變量聚類o
注意:口聚類過程中如果數(shù)據(jù)在數(shù)量級(jí)上存在差異或單位不同時(shí),應(yīng)進(jìn)行標(biāo)準(zhǔn)
化處理。聚類分析概述
例如:l
說明:l聚類分析中的變量選擇問題:–
變量應(yīng)和聚類分析的目標(biāo)密切相關(guān)(如:學(xué)校科研能力的評(píng)價(jià),可選
變量:科研經(jīng)費(fèi)、項(xiàng)目數(shù)、獲獎(jiǎng)等級(jí)及頻次、重點(diǎn)學(xué)科數(shù)、重點(diǎn)實(shí)驗(yàn)
室或基地?cái)?shù))。–
聚類結(jié)果僅是所選變量數(shù)據(jù)相似性的反映,未必符合事物真實(shí)的類
別屬性。–
變量之間不應(yīng)具有高度相關(guān)性,否則相當(dāng)于給這些變量進(jìn)行了加權(quán)。l聚類分析包括:樣本(或個(gè)案)聚類和變量聚類兩種。l聚類方法包括:分層(或系統(tǒng))聚類和快速聚類兩種。聚類分析概述o
(一)基本原理:首先將所有的個(gè)體(樣品或變量)各自看成一類,然后根據(jù)個(gè)體之間
特征的親疏程度,將親疏程度最高的兩類進(jìn)行合并,再計(jì)算合并后的新
類與其他類之間的親疏程度,并將親疏程度最高的兩類進(jìn)行合并。重復(fù)
這一過程,直至所有個(gè)體都合并為一類。分層聚類(或稱系統(tǒng)聚類,Hierarchical
Cluster)
o
衡量親疏程度的指標(biāo)有兩種,即距離和相似系數(shù)。o
距離是將每個(gè)樣品看成m個(gè)數(shù)據(jù)對(duì)應(yīng)的m維空間中的一個(gè)點(diǎn),然后在該
空間中所定義的距離越近,則親疏程度越高。o
變量之間的親疏程度則通常用相似系數(shù)來度量。相似系數(shù)越接近于1或-
1時(shí),認(rèn)為變量之間的親疏程度越高;相似系數(shù)接近于0時(shí),認(rèn)為變量
之間是無關(guān)的。分層聚類(或稱系統(tǒng)聚類,Hierarchical
Cluster)
以合并(凝聚)的方式聚類(SPSS采用):口
首先,每個(gè)個(gè)體自成一類。口
其次,將最“親密”的個(gè)體聚成一小類???/p>
然后,將最“親密”的小類或個(gè)體再聚成一類。口
重復(fù)上述過程,即:把所有的個(gè)體和小類聚集成越來越大的類,直到所有的個(gè)體都
到一起(一大類)為止。口可見,隨著聚類的進(jìn)行,類內(nèi)的“親密”性在逐漸減低。 分層聚類(或稱系統(tǒng)聚類,Hierarchical
Cluster)
o
(二)程序:o
以分解的方式聚類:口
首先,所有個(gè)體都屬于一類???/p>
其次,將大類中最“疏遠(yuǎn)”的小類或個(gè)體分離出去???/p>
然后,分別將小類中最“疏遠(yuǎn)”的小類或個(gè)體再分離出去???/p>
重復(fù)上述過程,即:把類分解成越來越小的小類,直到所有的個(gè)體自成一類為止??诳梢?隨著聚類的進(jìn)行,類內(nèi)的親密性在逐漸增強(qiáng)。
分層(或系統(tǒng))聚類方法o
(三)類間距離的計(jì)算方法o
“親疏”程度的衡量對(duì)象:口個(gè)體間距離口個(gè)體和小類間、小類和小類間的距離分層(或系統(tǒng))聚類方法o
個(gè)體與類間、類和類間的距離計(jì)算方法口最短距離法(nearest
neighbor):n兩類間的距離定義為兩類中距離最近的兩個(gè)個(gè)案之間的距離??谧铋L距離法(furthest
neighbor):n兩類間的距離定義為兩類中距離最遠(yuǎn)的兩個(gè)個(gè)案之間的距離。口類平均法(Average
linkage)n兩類之間的距離定義為兩類個(gè)案之間距離的平均值。包括:n組間平均法(between-groups
linkage):只考慮兩類間的距離n組內(nèi)平均法(Within-groups
linage):考慮所有個(gè)案間的距離(三)分層聚類中類間距離的計(jì)算方法常用的系統(tǒng)聚類方法有8種。Wishart在1969年給出了8種聚類方法類與類之間距離的統(tǒng)一公式。設(shè)
類
Gp
與
類
Gq
合
并
為
類
Gr
=
{Gp
,Gq
},則
類
Gr
與
任
一
類
G
k
的
距
離
為
:D
r
=
α
p
D
+
α
q
D
q
+
βD
q
+Y
|
D-
D
q
|式中
α
p
,
α
q
,β,
Y
對(duì)
于
不同的
聚
類
方
法
取
不同的
值,
下
表
給出了
8
種
聚
類
方
法的
參
數(shù)
值
。k2kp2p2k2kp2k2常用的分層(或系統(tǒng))聚類方法Ward’s
Method
Average
Linkage
(SPSS中即betweengroupslinkage)o
(四)基本操作步驟1.基本操作A.菜單選項(xiàng):analyze->classify->Hierarchical
clusterB.選擇參與聚類分析的變量入variables框C.選擇一個(gè)字符型變量作為個(gè)案的標(biāo)記變量(label
cases)D.選擇個(gè)案聚類還是變量聚類分層(或系統(tǒng))聚類方法o
(四)基本操作步驟2.選擇距離計(jì)算方法(method選項(xiàng))o
cluster
method:計(jì)算類間距離的方法o
measure:計(jì)算樣本距離的方法o
transform
values:對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理口
by
variable:以變量為單位標(biāo)準(zhǔn)化,適用于個(gè)案聚類口
by
case:以個(gè)案為單位標(biāo)準(zhǔn)化,適用于變量聚類分層(或系統(tǒng))聚類方法
例15-2假設(shè)有學(xué)者認(rèn)為,可以從受教育權(quán)和入學(xué)機(jī)會(huì)公平、公共教育資源配置公平、教育質(zhì)量公平、群體間教育公平四個(gè)方面設(shè)計(jì)正規(guī)三級(jí)教育的教育公平的具體評(píng)價(jià)指標(biāo)。據(jù)此對(duì)全國31個(gè)省區(qū)、直轄市展開調(diào)查,獲得31個(gè)省區(qū)、直轄市的教育公平指標(biāo)數(shù)據(jù)。試將31個(gè)省區(qū)、直轄市按照教育公平狀況進(jìn)行分類。
數(shù)據(jù)文件15-1.sav
入學(xué)機(jī)會(huì)公平、公共教育資源配置公平、教育質(zhì)量公平、群體間教育公平4個(gè)
指標(biāo)的變量名分別為x1
、x2
、x3
、x4
Analyze-Classify-HierachicalCluster
…分層(或系統(tǒng))聚類示例-樣本聚類o選擇Agglomeration
schedule(凝聚狀態(tài)表)和Proximitiy
matrix(樣本的距離矩陣)選項(xiàng),輸出
結(jié)果將生成樣本的距離矩陣和凝聚狀態(tài)表,顯示
每一步合并的類以及類與類之間的距離等信息。o在Cluster
membership(類成員)欄下方選中Single
solution(聚成固定類數(shù)時(shí)各樣本的歸屬)復(fù)選項(xiàng),
并在其右側(cè)的空白框內(nèi)輸入:3
。輸出結(jié)果中將會(huì)
顯示聚為3類時(shí)各個(gè)樣品所對(duì)應(yīng)的類別。類成員欄
其他選項(xiàng)none表示不輸出類成員,range
ofsolutions表示聚成m-n類時(shí)各樣本的歸屬(m<n<總
樣本數(shù))。o單擊Plots按鈕,展開其對(duì)話框。選擇Dendrogram(樹形圖)復(fù)選項(xiàng)。樹形圖顯示系統(tǒng)聚類步驟,
包括各步的成員合并情況和距離系數(shù)值,圖中用
相連的垂線表示相聯(lián)系的樣品,它將實(shí)際距離縮
放到0-25之間,保留聚類步驟之間距離的比例。o在Icicle(冰柱圖)下單欄中勾選默認(rèn)選項(xiàng)Allclusters選項(xiàng),表示聚類的每一步均在冰柱圖中體
現(xiàn)。specified
range
of
clusters表示冰柱圖中呈現(xiàn)聚
類時(shí)從第m類開始到第n類結(jié)束,間隔p類的過程。
Orientation表示冰柱圖的方向,我們選擇默認(rèn)選項(xiàng)
vertical(縱向),horizontal表示橫向。o
計(jì)算類間距離的方法(ClusterMethod)包括組間平均法(between-groupslinkage)、組內(nèi)平均法(Within-groupslinage)、最短距離法(nearestneighbor)、最長距離法(furthestneighbor)、中間距離法(Medianclustering)、重心法(Centroidclustering)、離差平方和法(Wald’smethod)。我
們選擇默認(rèn)選項(xiàng)組間平均法。o
在計(jì)算樣本距離的方法(Measure)的下拉式列表框
中選擇默認(rèn)項(xiàng)歐氏距離的平方(SquaredEuclideandistance)。TransformValues部分為對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,本例中未勾選。Byvariable為以變量為單位的標(biāo)準(zhǔn)化,適用于樣本聚類;
Bycase為以個(gè)案為單
位標(biāo)準(zhǔn)化,適用于變量聚類。o
勾選Single
solution復(fù)選項(xiàng),并在其
右側(cè)的空白框內(nèi)輸入:3
。在變量
界面會(huì)生成新的聚類變量CLUN_M,
其中N為聚類數(shù),M表示第幾次做
的聚類結(jié)果。o
range
of
solutions表示生成若干個(gè)
變量分別存放聚成n-m類時(shí)各樣本
的歸屬情況。右側(cè)為聚類分析的凝聚過程表。Stage列代表聚類的步驟順序。ClusterCombined(Cluster1
,Cluster2)是該步被合并的兩類中的觀測量號(hào),合并生成的新類序號(hào)以類中最
小序號(hào)代之,如第一步12
、13類被合并成一新類,新類的
序號(hào)為12
。Coefficients列代表合并類之間的距離。隨著類數(shù)減少,類間距離逐漸增大。StageClusterFirst
Appears兩列代表對(duì)應(yīng)的被合并的類上一次是在哪一步形成的。Cluster1和Cluster2值均為0的表示是兩個(gè)觀測量合并;其中有一個(gè)為0的表示是觀測量與類合并;兩個(gè)值均為非0值的表示是兩個(gè)類合并。如第7步為第26個(gè)觀測量與第28個(gè)觀測量合并,而第26個(gè)觀測量已經(jīng)在第2步與第27個(gè)觀測量合并為一類了,因此此項(xiàng)值2表示與第2步形成的類歸并為一類。NextStage列則表示該步被合并的類又被合并成新類時(shí)的步驟序號(hào)。如第7步合并的類將在第12步被合并成新類。聚類結(jié)果
右側(cè)為聚類結(jié)果成員表,它表明各觀測
量分別隸屬哪一類別。北京、上海、天津?yàn)橐活?,浙江、廣東、江蘇、遼寧、福建為一類,
其他省份為一類。聚類結(jié)果
右側(cè)樹形圖顯示系統(tǒng)聚類的具
體步驟,包括各步的成員合并
情況和距離系數(shù)值。生成的新的聚類類別變量
CLU3
1。聚類結(jié)果
聚類結(jié)果
(五)SPSS選項(xiàng)說明:1.數(shù)據(jù)輸出(statistics選項(xiàng))o
agglomeration
schedule:凝聚狀態(tài)表(默認(rèn))o
distance
matrix:樣本的距離矩陣o
cluster
membership:類成員口
none:不輸出類成員(默認(rèn))口single
solution:聚成n類時(shí)各樣本的歸屬口
range
of
solutions:聚成m~n類時(shí)各樣本的歸屬(m<n<總樣本數(shù))分層(或系統(tǒng))聚類方法2.
圖形輸出(plot選項(xiàng))o
dendrogram:樹型圖o
icicle:冰柱圖口all
cluster:聚類的每一步均在冰柱圖中體現(xiàn)??趕pecified
range
of
clusters:將聚類的第n1類開始到第n2類結(jié)束,間隔n3類
的聚類分析過程在冰柱圖中體現(xiàn)。o
orientation:冰柱圖的方向口
vertical:縱向口
horizontal:橫向分層(或系統(tǒng))聚類方法3.結(jié)果保存(save選項(xiàng))o
single
solution:生成一新變量存儲(chǔ)在聚成n類時(shí)各樣本屬于哪一類
(cluN_M:N為聚類數(shù),M為第幾次做的)。o
range
of
solutions:生成若干個(gè)變量分別存放聚成n~m類時(shí)各樣本的歸屬
情況。分層(或系統(tǒng))聚類方法例15-3本科生課程設(shè)置與其能力培養(yǎng)有著密切的聯(lián)系。某高校教育學(xué)部為本科生開設(shè)教育學(xué)原理、教學(xué)論、量化研究、質(zhì)性研究等10門課程,
現(xiàn)在需要對(duì)這10門課程進(jìn)行分類,以便了解其對(duì)學(xué)生培養(yǎng)的能力模式。
數(shù)據(jù)文件15-2.sav為該教育學(xué)部30名本科生在校期間上述10門課程的成績
數(shù)據(jù)。Analyze-Classify-Hierachical
Cluster
…分層(或系統(tǒng))聚類方法示例2-變量聚類右側(cè)為聚類結(jié)果成員表,它表明各
變量分別隸屬哪一類別。教育史為一類,主要側(cè)重學(xué)生學(xué)科
史、學(xué)科發(fā)展脈絡(luò)知識(shí)的培養(yǎng);量化研究和質(zhì)性研究一類,主要側(cè)
重學(xué)生方法論知識(shí)的培養(yǎng);教育學(xué)原理、教育管理學(xué)基礎(chǔ)、學(xué)
期教育學(xué)基礎(chǔ)等課程為一類,主要
側(cè)重學(xué)生各方向基礎(chǔ)知識(shí)能力的培
養(yǎng)。聚類分析:3.形成多少類別最合適?
o
聚類數(shù)目的確定口聚類數(shù)目確定尚無統(tǒng)一標(biāo)準(zhǔn),一般原則:n
各類所包含的元素都不應(yīng)過多。n
分類數(shù)目應(yīng)符合分析的目的??诜謱泳垲愔锌梢詫㈩愰g距離作為確定分類數(shù)目的輔助工具n
SPSS聚類過程中(合并凝聚方式),類間距離隨著類數(shù)減少而呈增加趨勢。n
類間距離小,類的相似性大;距離大,相似性小。n
繪制碎石圖(X軸為類距離,Y軸為類數(shù))。o
確定分類數(shù)的問題是聚類分析迄今尚未解決的問題之一,主要障礙是對(duì)待分類的群體的類的真實(shí)結(jié)構(gòu)不清楚,從理論和實(shí)踐中都無法得到
關(guān)于類結(jié)構(gòu)的假設(shè)。因此,往往根據(jù)研究目的,從實(shí)用的角度出發(fā),
選擇合適的分類數(shù)。聚類分析:3.形成多少類別最合適?戴米爾曼(Demirmen,
1972)曾提出根據(jù)樹狀結(jié)構(gòu)圖來分類的準(zhǔn)則:o
任何類都必須在鄰近各類中是突出的,即各類重心之間的距離必須夠
大。o
各類所包含的元素都不要過分地多。o
分類數(shù)目應(yīng)該符合使用的目的。o
若采用幾種不同的聚類方法處理,則在各自的聚類圖上應(yīng)發(fā)現(xiàn)相同的
類。聚類分析:3.形成多少類別最合適?(一)基本原理:首先確定要聚成的類數(shù),然后按照一定的方法選取一批凝聚點(diǎn),并讓參與聚類的樣品向最近的凝聚點(diǎn)凝聚,這樣由點(diǎn)凝聚成類,
得到初始分類。但是,初始分類不一定合理,需要按距離最小原則進(jìn)行
修改不合理的分類,直到分類比較合理為止,這樣形成一個(gè)最終的分類
結(jié)果。K-means快速聚類快速聚類法使用的是歐氏距離平方作為距離測度,如果需要使用其他的距離測度,則必須使用系統(tǒng)聚類法進(jìn)行。快速聚類的變量必須是連續(xù)型變量,如果各變量的單位不同,應(yīng)該對(duì)聚類
變量使用Descriptives過程進(jìn)行標(biāo)準(zhǔn)化后再進(jìn)行聚類分析,否則會(huì)得出錯(cuò)誤
的結(jié)論。如果參與聚類的變量是計(jì)數(shù)變量或二分變量,則只能考慮使用系
統(tǒng)聚類法進(jìn)行聚類分析。K-means快速聚類(二)程序1.指定最后要聚成K類。2.用戶指定k個(gè)樣本作為初始類中心或系統(tǒng)自動(dòng)確定k個(gè)樣本作為初始類中
心。3.系統(tǒng)按照距k個(gè)中心距離最近的原則把每個(gè)樣本分派到各中心所在的類
中去,形成一個(gè)新的k類,完成一次迭代。4.重新計(jì)算k個(gè)類的類中心(計(jì)算每類各變量的均值,
以均值點(diǎn)作為類中心)。
5.重復(fù)3步和4步,直到達(dá)到指定的迭代次數(shù)或達(dá)到終止迭代的條件。SPSS中兩個(gè)判斷聚類是否結(jié)束的條件,滿足其中一個(gè)即可結(jié)束聚類過程??谶_(dá)到指定迭代次數(shù)(maximum
iteration),默認(rèn)10次。口收斂標(biāo)準(zhǔn)(convergence),默認(rèn)0.02
,即:本次迭代產(chǎn)生的任意新類,各中
心位置變化較小,其中最大的變化率小于2%。(三)SPSS操作步驟A.菜單選項(xiàng):analyze->classify->k
means
clusterB.選定參加快速聚類分析的變量到variables框。C.確定快速聚類的類數(shù)(number
of
clusters)
,類數(shù)應(yīng)小于個(gè)案總數(shù)。D.選擇聚類方法(method):默認(rèn)iterate
and
classify
,即:在聚類的每一步
都重新計(jì)算新的類中心。E.確定聚類終止條件(如iterate次數(shù))。(四)SPSS可選項(xiàng)說明1.保存快速聚類的結(jié)果(save)口
cluster
membership:將各個(gè)案所屬類的類號(hào)保存到qcl_
1變量中???/p>
distance
from
cluster
center:將各樣本距所屬類中心的距離保存到qcl_2變量中。(四)SPSS可選項(xiàng)說明
2.輸出選項(xiàng)(option)口
initial
cluster
centers:輸出初始類中心點(diǎn)???/p>
ANOVA
table:輸出各類的方差分析表。口
cluster
information
for
each
case:輸出每個(gè)樣本的分類結(jié)果和距離。(四)SPSS可選項(xiàng)說明3.use
running
means項(xiàng):口選中:表示每個(gè)樣本被分配到一類后立即計(jì)算新的類中心。聚類結(jié)果
與個(gè)案的先后次序有關(guān)。口不選中:表示完成了所有個(gè)案的依次分配后再計(jì)算類中心,省時(shí)。(四)SPSS可選項(xiàng)說明
4.用戶指定類中心(center)口
read
initial
from:若不指定則系統(tǒng)自動(dòng)確定初始類中心。指定則從某.sav文件中讀入
初始類中心數(shù)據(jù)(應(yīng)設(shè)一個(gè)名為Cluster_的變量名)。口
Write
final
as:在分析的最后將各類中心寫入某.sav文件。o
例15-4某中學(xué)希望對(duì)某實(shí)驗(yàn)班320名學(xué)生按照他們的語文、數(shù)學(xué)、英語、文科綜合和理科綜合成績進(jìn)行分類,將學(xué)生分成優(yōu)秀、良好、中等、及格4類,以便提供針對(duì)性輔導(dǎo),數(shù)據(jù)文件15-3.sav包含這320名學(xué)生的
期末考試成績,試采用快速聚類法進(jìn)行聚類分析。K-means快速聚類示例o在進(jìn)行快速聚類分析之前,首先要生成各成績變量的標(biāo)準(zhǔn)化變量。o
Analyze-Descriptive
Statistics-Descriptives
…K-means快速聚類示例o
Analyze-Classify-K-Means
Cluster
…o在Method(聚類方法)欄下選擇默認(rèn)的Iterate
and
classify
,即選擇初始聚類中心,在迭代過程中使
用K-Means算法不斷更換類中心,在聚類的每一
步都重新計(jì)算新的類中心,把樣品分派到與之最
近的以類中心為標(biāo)志的類中去。另一選項(xiàng)Classify
only
,則只使用初始類中心對(duì)樣品進(jìn)行聚類。o下方(Cluster
Centers)用戶指定類中心中readinitial表示若不指定則系統(tǒng)自動(dòng)確定初始類中心,指定則從某.sav文件中讀入初始類中心數(shù)據(jù)(應(yīng)設(shè)
一個(gè)名為Cluster_的變量名);Write
final
表示在
分析的最后將各類中心寫入某.sav文件。K-means快速聚類示例o
單擊Iterate按鈕,進(jìn)入確定聚類終止條件對(duì)話框,如圖可以設(shè)置iterate次數(shù),此處
保持默認(rèn)狀態(tài)。use
running
means項(xiàng)若選
中,表示每個(gè)樣本被分配到一類后立即計(jì)
算新的類中心。聚類結(jié)果與個(gè)案的先后次
序有關(guān)。若不選中,表示完成了所有個(gè)案
的依次分配后再計(jì)算類中心,這種方式比
較省時(shí)。K-means快速聚類示例o
單擊Save按鈕,展開Save
New
Variables保存新變量對(duì)話框,選中Clustermembership復(fù)選項(xiàng),以建立一個(gè)新變量,
系統(tǒng)默認(rèn)該變量名為qc1
1
,其值表示
聚類結(jié)果,即各樣品被分配到哪一類中,
該變量將在原數(shù)據(jù)文件中出現(xiàn)。另一選
項(xiàng)distance
from
cluster
center表示將各樣
本距所屬類中心的距離保存到qcl
2變量
中。K-means快速聚類示例o
單擊Options(輸出選項(xiàng)),保持默認(rèn)狀態(tài)。選中initial
cluster
centers表示輸出初
始類中心點(diǎn)。ANOVA
table表示輸出各
類的方差分析表。cluster
information
foreach
case表示輸出每個(gè)樣本的分類結(jié)果
和距離。K-means快速聚類示例o
上面是初始類中心表,此表中作為類中心的樣品由系統(tǒng)所確定。輸出結(jié)果
o此表顯示的是各次迭代后類中心的變化距離。由于沒有指定迭代次數(shù)或收斂判據(jù),因此使用系統(tǒng)
默認(rèn)值:最大迭代次數(shù)為10
,收斂參數(shù)為0
。即
當(dāng)?shù)?0次時(shí)則停止迭代;或迭代使類中心變
化的距離近似為0時(shí),則迭代停止。此例快速聚
類過程執(zhí)行4次迭代后,各類中心的變化距離均
為0
,因此,迭代就停止了。第一次迭代1—4類
的類中心與初始類中心之間的距離分別為1.423
、
1.298
、0.964
、1.550
。第二次迭代1—4類的類中
心與初始類中心之間的距離分別為0.443
、0.311
、
0.000
、0.000
。第三次迭代1—4類的類中心與初
始類中心之間的距離分別為0.030
、0.019
、0.000、
0.000。輸出結(jié)果
o
最終的類中心的各變量值。輸出結(jié)果
o
聚類總結(jié)表,顯示的是各類別中樣品的個(gè)數(shù)以及參與聚類分析的有效樣品數(shù)、缺失樣品數(shù)。輸出結(jié)果
輸出結(jié)果
o
系統(tǒng)聚類法(分層聚類法)只能單方向進(jìn)行聚類,聚類結(jié)果受數(shù)據(jù)中
奇異值影響很大。o
快速聚類法(迭代聚類法)對(duì)初始分類非常敏感,通常也只能得到局
部最優(yōu)解。系統(tǒng)聚類法與快速聚類法的缺點(diǎn)
o
如何聚類?--選擇聚類類型:樣本聚類/變量聚類?
--選擇聚類方法:系統(tǒng)聚類/快速聚類?
--選擇類間距離測度、樣本距離測度2.如何聚類?--系統(tǒng)聚類法VS快速聚類法口選擇系統(tǒng)聚類和快速聚類的依據(jù)
系統(tǒng)聚類比較適用:①一個(gè)廣泛的可供選擇的聚類方法有待嘗試;②
樣本規(guī)模適中(一般樣本個(gè)數(shù)在300~400之內(nèi),至多不超過1000)
快速聚類比較適用:①聚類數(shù)目或者初始類中心比較明確;②離群值
(outlier)必須進(jìn)入分析時(shí),因?yàn)榭焖倬垲悓?duì)離群值不太敏感/受離群值的影響不大。-在系統(tǒng)聚類后同時(shí)使用快速聚類(兩種方法結(jié)合使用)的適用情況:n通過系統(tǒng)聚類可以獲得初始聚類數(shù)目,以及各聚類中心;n在系統(tǒng)聚類后,再進(jìn)行快速聚類可以提供更加準(zhǔn)確的聚類關(guān)系。2.如何聚類?--系統(tǒng)聚類法VS快速聚類法o
如何聚類?o
趨勢:兩者結(jié)合使用o
首先使用系統(tǒng)聚類法確定分類數(shù),檢查是否有離群值,去除離群值后,
對(duì)剩下的樣本重新進(jìn)行分類,把用系統(tǒng)聚類法得到的各個(gè)類的重心,作為迭代聚類法的初始分類中心,這樣就克服了系統(tǒng)聚類法單方向聚
類以及迭代聚類法對(duì)初始類中心敏感的缺點(diǎn),對(duì)樣品點(diǎn)進(jìn)行重新調(diào)整、
聚類。2.如何聚類?--系統(tǒng)聚類法VS快速聚類法如何評(píng)價(jià)聚類研究的質(zhì)量?
口
沒有任何一個(gè)公認(rèn)的客觀標(biāo)準(zhǔn)能夠完全判斷聚類的好壞;研究者可以根據(jù)下述標(biāo)
準(zhǔn)進(jìn)行參考性判斷:
單一樣本(數(shù)量很少的樣本)成為一組往往不能被接受,這一組往往需要考慮刪
除【當(dāng)然,如果確實(shí)存在非常突出/糟糕表現(xiàn)的樣本也需要保留,引起重視/單
獨(dú)分析】。
各個(gè)聚類的樣本規(guī)模:最好每個(gè)聚類應(yīng)包含10%的樣本。以樣本規(guī)模為1000的樣本為
例,每一個(gè)類別最好應(yīng)包含100個(gè)樣本。這意味著我們最后得到的類別不能超過10類。
對(duì)于系統(tǒng)聚類,停止準(zhǔn)則主要依賴于隨著聚類類別數(shù)量的增減,類間距離是否
不再有較大幅度的增加。
聚類結(jié)果不是顯著地依賴于聚類變量的選擇。
對(duì)于聚類結(jié)果可以進(jìn)行有實(shí)際意義的解釋。
交互分類有效性(cross-validation)
?
將樣本隨機(jī)分成2組或者多組:分組分別使用同樣的聚類方法進(jìn)行分析,看看是
否具有穩(wěn)定性(比如同時(shí)使用系統(tǒng)聚類對(duì)兩組樣本--每組100個(gè)樣品--分別進(jìn)行
聚類,看看聚類成2-10類時(shí),兩組樣本中各類的樣本數(shù)是否基本相同,類中心
是否接近)。?
通常的做法是計(jì)算各類在各聚類變量上的均值,對(duì)均值進(jìn)行比較,看看分組的意義是否合適(各類的均值差異是否較大)(可以利用多因變量方差分析考察
各組在聚類變量上的均值是否存在顯著性差異)。建立有效性標(biāo)準(zhǔn)(Establishing
Criterion
Validity)聚類結(jié)果的效度(Validity)
1.試比較系統(tǒng)聚類法和快速聚類法的優(yōu)缺點(diǎn)。2.隨機(jī)從某大學(xué)經(jīng)濟(jì)與工商管理學(xué)院抽取30名學(xué)生,他們的4科成績?nèi)缦?試?yán)脭?shù)據(jù)文件“exe15-1.sav”將這30名學(xué)生按其綜合成績的優(yōu)劣進(jìn)行分類。作業(yè)o
3.試?yán)脭?shù)據(jù)文件“
15-1.sav”,采用快速聚類法對(duì)例15-1進(jìn)行聚類分析,并將之與系統(tǒng)聚類法的聚類結(jié)果進(jìn)行對(duì)比分析。作業(yè)教育統(tǒng)計(jì)學(xué)判別分析及其應(yīng)用北京師范大學(xué)教育學(xué)部胡詠梅學(xué)部本科科生課課程判別分析概述:概念及基本原理判別分析的假設(shè)條件及基本模型
判別分析的研究步驟幾種判別分析方法示例分析練習(xí)與思考contentso判別分析是利用已知類別的樣本模擬模型,為未知樣品判類的一種統(tǒng)計(jì)方
法。即根據(jù)已掌握的每個(gè)類別的若干樣本的數(shù)據(jù)信息,建立判別公式和判別準(zhǔn)
則;然后,當(dāng)遇到新的樣品時(shí),只要根據(jù)判別公式和判別準(zhǔn)則,就能判別該樣
品所屬的類別。o
該方法(
Discriminant
Analysis
,簡稱DA),是由R.A.Fisher于1936
年提出來的。近年來,在醫(yī)學(xué)、管理學(xué)、心理學(xué)、教育學(xué)科中都有廣泛的應(yīng)用。
比如,識(shí)別新患者是否得了某種疾病;預(yù)測一個(gè)公司是否會(huì)違貸;預(yù)測某個(gè)學(xué)
生能否考上“985”高校;識(shí)別某所高校能否成為世界一流大學(xué);識(shí)別某個(gè)學(xué)生
是否有網(wǎng)癮,等等。一、概念及基本原理簡言之,判別分析是研究判別個(gè)體所屬類型的一種統(tǒng)計(jì)分析方法。設(shè)有k個(gè)總體,希望建立一個(gè)準(zhǔn)則,對(duì)給定的任意一個(gè)樣品,依據(jù)這
個(gè)準(zhǔn)則就能判斷它是來自哪個(gè)總體。當(dāng)然,我們應(yīng)當(dāng)要求這種準(zhǔn)則在某
種意義下是最優(yōu)的。例如,錯(cuò)判概率最小,或錯(cuò)判損失最小等等。一、概念及基本原理o判別分析是用于分析因變量為分類變量、自變量為可測變量(定距或定比變量)數(shù)
據(jù)的一種統(tǒng)計(jì)分析模型。o在判別分析中將分組變量稱為因變量;用以分組的其他特征變量稱為判別變量或自
變量。o例如,某高校學(xué)生管理部門希望對(duì)現(xiàn)在就讀的本科生進(jìn)行分類,以便對(duì)肄業(yè)風(fēng)險(xiǎn)高的學(xué)生進(jìn)行提前干預(yù)。o分組變量(因變量):是否肄業(yè)o判別變量(自變量):專業(yè)課GPA、學(xué)位基礎(chǔ)課與學(xué)位專業(yè)課掛科門數(shù)、每周網(wǎng)絡(luò)聊天或游戲時(shí)長、實(shí)習(xí)或兼職
周工作天數(shù)……一、概念及基本原理判別分析的應(yīng)用和解釋非常類似于回歸分析:利用1個(gè)或者多個(gè)自變量的線性(非線性)組合,用于預(yù)測唯一的因變量。但回歸分析的因變
量是數(shù)值型變量,而判別分析要預(yù)判的是分類變量【也正因?yàn)槿绱?,?/p>
估計(jì)判定函數(shù)時(shí)可以采用logistic回歸模型】判別分析VS回歸分析
對(duì)于已有樣本并未給出明確的分組信息時(shí),往往需要先利用聚類分析給出樣本的分組信息(分組數(shù)、分組類別、各組具體特征等)。之后,在此基礎(chǔ)上再進(jìn)行新增樣本分組預(yù)測。聚類分析
樣本進(jìn)行分組判別分析VS回歸分析
對(duì)新增樣本進(jìn)行
分組預(yù)測
1.根據(jù)判別變量建立判別函數(shù);
2.要處理的是未知分組屬性的case
,以第一階段的分析結(jié)果所建立的
判別函數(shù)為依據(jù),將這些未知組別的cases進(jìn)行判別分組。判別分析兩個(gè)階段的工作將中國各個(gè)省份按教育發(fā)展?fàn)顩r劃分為教育發(fā)達(dá)地區(qū)和落后地區(qū)兩種。用來分組的指標(biāo)包括人均受教育年限、生均經(jīng)費(fèi)、各級(jí)教育的入學(xué)
率、財(cái)政性教育經(jīng)費(fèi)占GNI的比重等。假定已經(jīng)有28個(gè)省份被歸類了,但是還有中部地區(qū)的河南省、湖南省以及西部的陜西省還未歸類。請(qǐng)用
判別分析過程進(jìn)行歸類。一個(gè)假想的例子o
體溫、血壓、白血球感冒?肺炎?非典?o
人均GDP
、人均收入、人均壽命、人均住房面積等
小康了嗎?……其他例子
o
前提條件:
分組類型(group
,用g表示)在兩組以上;
在第一階段工作時(shí)候每組case必須至少在一個(gè)以上;
各判別變量的測度等級(jí)為定距變量或定比變量(才能方便計(jì)算均值和
方差);
已知類別Case
的個(gè)數(shù)要比判別變量的個(gè)數(shù)至少多兩個(gè)。二、判別分析的假設(shè)條件和基本模型不同組別的變量具有相同協(xié)方差
以便計(jì)算判別函數(shù)
和進(jìn)行顯著性檢驗(yàn)不存在多重共線
性:每一個(gè)判別
變量不能是其他
判別變量的線性各個(gè)判別變量的
聯(lián)合分布服從多
元以便精確計(jì)算統(tǒng)計(jì)
量的顯著性水平和
樣品分組歸屬的概
率。否則無法估計(jì)
判別函數(shù)判別分析的研究假設(shè)
通過判定得分對(duì)每個(gè)case進(jìn)行分類:對(duì)于每個(gè)特定的群組,分別計(jì)算z分?jǐn)?shù)平均值,這一平
均數(shù)又被稱為各組的重心(centroid);如果有2個(gè)群組,則會(huì)得到2個(gè)重心,如果有3個(gè)組別
則有3個(gè)重心,依次類推。重心意味著該群組內(nèi)絕大多數(shù)的個(gè)案都會(huì)分布在該點(diǎn)周圍。
判別效果依賴于判定函數(shù)對(duì)不同組別重心之間距離的測量;如果分布的重疊很小,那么,
判定函數(shù)能夠?qū)山M樣本較好的區(qū)分開;反之,如果分布的重疊部分很大,那么,判定函
數(shù)則不能將兩組樣本較好的區(qū)分開。口以線性判別函數(shù)為例,闡述判別分析基本思想:zjk
=
a
+
W1x1k+
W2x
2k+…
+
Wnx
nk在上式中:Z分?jǐn)?shù)是第k個(gè)樣本在第j個(gè)判定函數(shù)中的得分;a是常數(shù)項(xiàng);Wi是自變量Xi的判
定權(quán)重;x
ik是第k個(gè)case在自變量Xi的取值。
對(duì)于每個(gè)case的判定函數(shù)得分Z,實(shí)質(zhì)上是每個(gè)自變量通過判定權(quán)重W加權(quán)后的得分之和。判別分析的基本思想判別函數(shù):y=b0
+
b1x1
+
b2
x2
+…+
bk
xk
(1)其中y是判別函數(shù)值,xi
為判別變量,bi
為相應(yīng)的判別系數(shù)。
判別函數(shù)與回歸函數(shù)的
區(qū)別:[1]判別函數(shù)中的y不是代表實(shí)測的因變量
的估計(jì),因?yàn)閷?shí)測的因變量是定類變
量,而由該函數(shù)預(yù)測的
因變量是定距變量。[2]回歸分析中的方程只有
一個(gè);判別分析中的函數(shù)往往不止一個(gè)。判別函數(shù)值y又簡稱為判別值,判別
系數(shù)表示各個(gè)判別變量對(duì)判別值的影響,
b0
是常數(shù)值。判別分析的基本模型
第一步:判別分析的研究設(shè)計(jì)第二步:判別分析的研究假設(shè)第三步:估計(jì)判別函數(shù)以及評(píng)估整體擬合度第四步:判別結(jié)果的解釋第五步:結(jié)果的驗(yàn)證三、判別分析的研究步驟第一步
判別分析的研究設(shè)計(jì)
保留樣本選
擇變量的選擇樣本規(guī)模/容
量A的選擇樣本規(guī)模/容量因變量:分類變量,相互獨(dú)立、排斥(即每個(gè)樣本只能歸為其中的一類);分類結(jié)果可以使從現(xiàn)有信息
中直接獲得,也可以是通過聚類分析等手段生成。+盡可能地控制因變量的類型數(shù)量(因?yàn)殡S著組別類型的增加,不同組別之間在自變量特征的重
合性上增加,會(huì)大大增加判定的難度、降低判定的準(zhǔn)確性)。+因變量最好是分類變量;對(duì)于順序型數(shù)值變量,我們可將其轉(zhuǎn)化成分類變量(例如:按照學(xué)生
成績排名,將樣本分為高、中、低)。自變量:
來自于已有研究/理論模型+
運(yùn)用研究者知識(shí)、直覺第一步
判別分析的研究設(shè)計(jì)
保留樣本選
擇變量A樣本規(guī)
量模/容保留樣本選
擇最佳:+
樣本數(shù)÷自變量數(shù)≥20
+
樣本數(shù)÷組別數(shù)量≥20底線:+
樣本數(shù)÷自變量數(shù)≥5
+
樣本數(shù)÷組別數(shù)量≥5第一步
判別分析的研究設(shè)計(jì)
變量的選擇保留樣本選
擇分析組樣本:+
估計(jì)判定函數(shù)保留組樣本:+檢驗(yàn)判斷函數(shù)樣本外的預(yù)測正確率選擇分析組和保留組的個(gè)體時(shí),通常遵循等比例分
層抽樣,即兩組樣本中,各具體組別大小比例應(yīng)與
整個(gè)樣本基本保持一致。第一步
判別分析的研究設(shè)計(jì)
變量的選擇樣本規(guī)模/容量不存在多重
共線性不同組別的
變量具有相
同協(xié)方差矩陣
檢驗(yàn):相關(guān)系數(shù)檢驗(yàn)
處理1:選擇代表性變量
處理2:使用因子分析方法提取公因子各個(gè)判別變
量的聯(lián)合分
布服從多元正態(tài)分布第二步
判別分析的研究假設(shè)不存在多重
共線性不同組別的
樣本具有相
同協(xié)方差矩陣各個(gè)判別變
量的聯(lián)合分
布服從多元正態(tài)分布Box’sM
test
隨著樣本量的增加,以及組別數(shù)量的增加,協(xié)方差
矩陣的要求可以放寬(比如,p>0.01即可)。
解決辦法:增加樣本量;使用二次判定函數(shù)。第二步
判別分析的研究假設(shè)不存在多重
共線性各個(gè)判別變
量的聯(lián)合分
布服從多元正態(tài)分布不同組別的
變量具有相
同協(xié)方差矩陣
對(duì)于顯著性檢驗(yàn)可以適當(dāng)放寬,即將顯著性水平限制在0.01及以下。+更需要保證單變量服從一元正態(tài)分布,因此,可以通過取對(duì)數(shù)等手段
進(jìn)行數(shù)據(jù)轉(zhuǎn)換。
如果確實(shí)拒絕多元正態(tài)分布的假設(shè),我們則可以采用logistic回歸估計(jì)
判定函數(shù),或者非參數(shù)的判定方法。第二步
判別分析的研究假設(shè)
計(jì)算判別Z得
分;檢驗(yàn)組的差異;評(píng)價(jià)各組預(yù)測
的精度。聯(lián)立模型逐步模型第三步
估計(jì)判別函數(shù)以及評(píng)估整體擬合度
評(píng)估判別函數(shù)
的顯著性估計(jì)判別函數(shù)評(píng)估整體擬合統(tǒng)計(jì)顯著性聯(lián)立模型:
自變量同時(shí)全部進(jìn)入判別函數(shù)模型,判別函數(shù)可能不止
一個(gè),所以是聯(lián)立模型。逐步模型:
自變量逐步進(jìn)入判別函數(shù)模型計(jì)算判別Z得分;檢驗(yàn)組的差
異;評(píng)價(jià)各組預(yù)
測的精度。第三步
估計(jì)判別函數(shù)以及評(píng)估整體擬合度評(píng)估判別函
數(shù)的顯著性聯(lián)立模型
逐步模型估計(jì)判別函數(shù)評(píng)估整體擬合統(tǒng)計(jì)顯著性在我們估計(jì)完判別函數(shù)后,首先需要做的是判斷估計(jì)所得到判別函數(shù)的解釋效力:
整體顯著性判斷:Wilk’s
lamada;Hotelling
跡;Pillai準(zhǔn)則(實(shí)質(zhì)上為多因變量
方差分析整體顯著性的判斷)聯(lián)立模型;
逐步模型;計(jì)算判別Z得分;檢驗(yàn)組的差異;評(píng)價(jià)各組預(yù)測
的精度。第三步
估計(jì)判別函數(shù)以及評(píng)估整體擬合度
評(píng)估判別函數(shù)
的顯著性估計(jì)判別函數(shù)評(píng)估整體擬合統(tǒng)計(jì)顯著性計(jì)算判別Z得分;
檢驗(yàn)組的差異;
評(píng)價(jià)各組預(yù)測
的精度。聯(lián)立模型;
逐步模型;第三步
估計(jì)判別函數(shù)以及評(píng)估整體擬合度評(píng)估判別函數(shù)
的顯著性評(píng)估整體擬合度估計(jì)判別函數(shù)統(tǒng)計(jì)顯著性o評(píng)估整體擬合度(Assessing
overallmodel
fit)口
對(duì)每個(gè)觀測樣本估算Z分?jǐn)?shù)口
基于判別Z分?jǐn)?shù)評(píng)價(jià)組間差異性n計(jì)算組間Z分?jǐn)?shù)重心的差異性口
評(píng)價(jià)各組預(yù)測的精度n設(shè)定分類函數(shù)/分類準(zhǔn)則,估算臨界得分(cutting
score)。n通過每個(gè)樣本Z分?jǐn)?shù)與臨界得分的對(duì)比,將各個(gè)樣本歸入相應(yīng)的組別中。第三步
估計(jì)判別函數(shù)以及評(píng)估整體擬合度
判別載荷標(biāo)準(zhǔn)化判別權(quán)重第四步
判別結(jié)果的解釋觀察并分析判別函數(shù)賦予每個(gè)變量的標(biāo)準(zhǔn)化判別權(quán)重:+符號(hào):正的貢獻(xiàn)or負(fù)的貢獻(xiàn)+大?。狠^大值代表那個(gè)變量對(duì)判別函數(shù)的判斷力貢獻(xiàn)較大;反之,則對(duì)判別函數(shù)的判別力貢
獻(xiàn)較小。
需要注意:較為嚴(yán)重的多重共線性會(huì)對(duì)判別權(quán)重的估算產(chǎn)生非常嚴(yán)重偏差。判別載荷標(biāo)準(zhǔn)化判別權(quán)重第四步
判別結(jié)果的解釋標(biāo)準(zhǔn)化判別權(quán)重
判別載荷判別載荷又被稱為結(jié)構(gòu)相關(guān)系數(shù):
各個(gè)解釋變量與判別函數(shù)得分的簡單相關(guān)系數(shù)+其反映的是每個(gè)解釋變量對(duì)判別函數(shù)的相對(duì)貢獻(xiàn)第四步
判別結(jié)果的解釋
任何判別準(zhǔn)則都可能產(chǎn)生錯(cuò)判現(xiàn)象,總的平均錯(cuò)判概率越小,判別準(zhǔn)則越好。
有些時(shí)候?yàn)榱藱z驗(yàn)判別準(zhǔn)則的優(yōu)劣,需要將各母體中的對(duì)象按判別準(zhǔn)則進(jìn)行
回判,觀察回判中的錯(cuò)判比例。母體中的樣品,有時(shí)被稱為“訓(xùn)練樣本”。第五步
結(jié)果的驗(yàn)證
(1)貌似誤判率方法在建立了判別準(zhǔn)則后,計(jì)算誤判的比例:
n12、n21分別是應(yīng)當(dāng)是第一類錯(cuò)判為第二類的樣品數(shù)、應(yīng)當(dāng)是第二類而錯(cuò)判為
第一類的樣品數(shù)。該比例一般情況下比實(shí)際的誤判概率要小,因?yàn)槭褂玫氖遣糠謽颖?。但在樣?/p>
足夠大的情況下,可以近似地反映整體誤判情況??梢宰C明該結(jié)果是實(shí)際誤判概率的漸近無偏估計(jì)。第五步
結(jié)果的驗(yàn)證(2)刀切法也稱為Lachenbruch刪除法或者交叉確認(rèn)法(Cross-Validation)。其基本思想是每次剔除訓(xùn)練樣本中的一個(gè)樣品,利用其余的樣品建立判別準(zhǔn)則,
然后對(duì)所剔除的樣品進(jìn)行判別,記錄判別的效果。刀切法的計(jì)算量非常大,但stata軟件中提供了專門的處理程序。第五步
結(jié)果的驗(yàn)證-判別法四、幾種判別分析方法te判別法四、幾種判別分析方法1
、總體樣本分布已知的馬氏距離計(jì)算2
、兩個(gè)總體的距離判別3
、多個(gè)總體的距離判別口距離判別最直觀的想法是計(jì)算樣品到第i類總體的平均距離,選擇距離最小的組作為歸類組別??谝虼耍嚯x函數(shù)判別的思想是通過構(gòu)建一個(gè)適當(dāng)?shù)木嚯x函數(shù),通過計(jì)算樣本與某類別之間距離的大小,判別其所屬類別。設(shè)
x
=
(x1,
x2,
…,
xm
)9和y
=
(y1,
y2,
…,
ym
)9
是從期望μ=
(μ1,
μ2,
…,
μm
)9和方差陣Σ=(σij
)m×m
>0
的總體G抽得的兩個(gè)觀測值
,
則稱d
2
(x,
y)=(x
-
y)9Σ-1
(x
-
y)為X與Y之間的Mahal
anobis距離。樣品X和Gi類之間的馬氏距離定義為X與Gi類重心間的距離:d
2
(x,
Gi
)=(x
-
μi
)9Σ-1
(x
-
μi
)
i
=1,2,
…
,
k1、總體樣本分布已知的馬氏距離計(jì)算馬氏距離有如下的特點(diǎn):1
、馬氏距離不受計(jì)量單位的影響;2
、馬氏距離是標(biāo)準(zhǔn)化后的變量的歐式距離。1
、總體樣本分布已知的馬氏距離計(jì)算先考慮兩個(gè)總體的情況,設(shè)有兩個(gè)協(xié)差陣Σ相同的p維正態(tài)總體,對(duì)給定的樣品Y,判別一個(gè)樣品Y到底是來自哪一個(gè)總體,一個(gè)最直觀的想法是計(jì)算Y到兩個(gè)總體的距離。
故我們用馬氏距離來給定判別準(zhǔn)則,即:[y
∈
G1
,
如d
2
(y
,
G1
)
<d
2
(y
,
G2
),{y
∈
G2
,如d
2
(y
,
G2
)
<d
2
(y
,
G1
)l待判,如d
2
(y,
G1
)=d
2
(y,
G2
)2、兩個(gè)總體距離判別法1、協(xié)方差陣相同d2
(
y
,G
2
)
一
d2
(
y
,G
1
)=
(
y
一
μ2
)
’Σ
一1
(
y
一
μ2
)
一
(
y
一
μ1
)
’Σ
一1
(
y
一
μ1
)
=
2
y
’Σ
一1
(
μ1
一
μ2
)一
(
μ1
+
μ2
)
’Σ
一1
(
μ1
一
μ2
)
α=
Σ
一1
(
μ1
一
μ2
)
=
(a1,
a2,
…
,
ap
)’令
當(dāng)
μ1,
μ2
和Σ已知時(shí),α
=Σ
一1
(μ1
一
μ2
)
是一個(gè)已知的p維向量,
W(y)是y的線性函數(shù),稱為線性判別函數(shù)。用線性判別函數(shù)進(jìn)行判別分析非常直觀,使用起來最方便,在實(shí)
際中的應(yīng)用也最廣泛。[y
∈
G1
,如W(y)>0,{y
∈
G2
,
如W(y)<
0。l待判,
如W
(Y)=0W(y)=(y一
μ)’α
=
α’(y一
μ)則前面的判別準(zhǔn)則可以轉(zhuǎn)換為μ1
)
+
…+
ap
(yp’
’=
α
y
一
αμ=a1
(y1一
μp
)一變量均值向量協(xié)方差矩陣優(yōu)秀一般資金利潤率13.55.468.3940.2421.41勞動(dòng)生產(chǎn)率40.729.840.2454.5811.67產(chǎn)品凈值率10.76.221.4111.677.90例如,在企業(yè)績效考核中,可以根據(jù)企業(yè)的生產(chǎn)經(jīng)營情況把企業(yè)分為優(yōu)秀企業(yè)和一般企業(yè)??己似髽I(yè)經(jīng)營狀況的指標(biāo)有:現(xiàn)有二個(gè)企業(yè),觀測值分別為(7.8,39.1,9.6)和(8.1,34.2,6.9),問這兩個(gè)企業(yè)應(yīng)該屬于哪一類?資金利潤率=利潤總額/資金占用總額
勞動(dòng)生產(chǎn)率=總產(chǎn)值/職工平均人數(shù)
產(chǎn)品凈值率=凈產(chǎn)值/總產(chǎn)值根據(jù)前面對(duì)線性判別函數(shù)的推導(dǎo),我們可以根據(jù)本例子中
的協(xié)方差矩陣以及兩組樣本的均值,給出以下判別函數(shù):y
=
一
0
.6
0
5
81x1
+
0
.2
5
3
6
2x2
+
1
.
8
3
6
7
9x3
一
18
.7
3
5
9’’
=
α
y
一
α
μ
對(duì)于觀測值為(7.8,39.1,9.6)的樣本點(diǎn):y1
=
一
0
.6
0
5
81×7
.
8
+
0
.2
5
3
6
2
×3
9
.
1+
1
.
8
3
6
7
9×9
.6
一
18
.7
3
5
9
6=
4
.0
8
9
2
>
0
屬于第一組,即是優(yōu)秀類企業(yè)對(duì)于觀測值為(
8.1,34.2,6.9)的樣本點(diǎn):y
2
=
一
0
.6
0
5
81×8
.
1+
0
.2
5
3
6
2
×3
4
.2
+1
.
8
3
6
7
9×
6
.9
一
18
.7
3
5
9
6=
2
.2
9
5
6
<
0
屬于第二組,即是一般類企業(yè)[y
∈
G1
,
如d
2
(y
,
G1
)
<d
2
(y
,
G2
),{y
∈
G2
,如d
2
(y
,
G2
)
<d
2
(y
,
G1
)l待判,如d
2
(y,
G1
)=d
2
(y,
G2
)d
2
(y
,
G2
)一
d
2
(y
,
G1
)=(y一
μ2
)’Σ2
一1
(y一
μ2
)
一
(y一
μ1
)’Σ1一1
(y一
μ1
)2
、兩個(gè)總體距離判別法2
、當(dāng)協(xié)方差陣不同判別準(zhǔn)則為:判別函數(shù):設(shè)有K個(gè)總體,分別有均值向量μi(i=
1,2,
…
,k)和協(xié)方差陣Σi=Σ
,各總體出現(xiàn)的先驗(yàn)概率相等。又設(shè)Y是一個(gè)待判樣品。則Y與第i個(gè)
總體的距離為(即判別函數(shù))d2
(
y,G
i
)
=
(
y
一
μi
)
,
Σ
一1
(
y
一
μi
)
上式中的第一項(xiàng)Y'Σ-1Y與i無關(guān),可忽略,舍去后得一個(gè)等價(jià)函數(shù):
g
i
(Y
)
=
一2
y
,Σ
一1μi
+μi,Σ
一1μi,3
、多個(gè)總體距離判別法將上式中提-2,得
g
i
(Y
)
=
一2
(
y
,Σ
一1μi
一
0
.5
μi,Σ
一1μi,)令
fi
(Y
)
=(
y
,Σ
一1μi
一
0
.5
μi,Σ
一1μi,)則距離判別法的判別函數(shù)為:令
fi
(Y
)
=(
y
,Σ
一1μi
一
0
.5
μi,Σ
一1μi,)
fl
(
y
)
=
k
f
i
(
x
)
,則
y
∈
G
l
1mfi
(Y
)
=
(
y
,Σ
一1μi
一0
.5
μi,Σ
一1μi,)最大d2
(y
,
Gi
)
=(y
一
μi
)
,Σ注:這與前面所提出的距離判別是等價(jià)的。判別準(zhǔn)則為:(y
一
μi
)最小一12
距離判別費(fèi)雪性判別法四、幾種判別分析方法
費(fèi)雪(Fisher)判別是借助于方差分析的思想,來導(dǎo)出判別函數(shù)和建立判別準(zhǔn)則。在現(xiàn)實(shí)中,通常使用線性判別函數(shù),因此也稱為費(fèi)雪線性判別。費(fèi)雪判別對(duì)于總體的分布不需要提出特定的假設(shè),因此適用性更廣。1
.基本思想構(gòu)造一個(gè)判別函數(shù),假定是線性函數(shù)y
=
C
1
X
1
+
C
2
X
2
+
…
+
C
n
X
n其中各系數(shù)的選擇,應(yīng)當(dāng)是使兩類間的區(qū)別最大,而使類內(nèi)
部的離差最小。對(duì)于一個(gè)新的樣品,將其代入判別函數(shù),然后與
判別臨界點(diǎn)進(jìn)行比較。該統(tǒng)計(jì)量越大,判別效果越好。最佳的線性判別函數(shù)應(yīng)該是:兩個(gè)重心的距離越大越好,兩個(gè)組內(nèi)
的離差平方和越小越好。最優(yōu)的判別函數(shù)應(yīng)當(dāng)滿足y(1)
-y(2)最大,而組內(nèi)的
離差平方和(yi(1)
-y(1))和
(yi(2)
-y(2))
最小.21212
.求判別函數(shù)觀察兩組的判別函數(shù)的平均值:
y
=
c
1
x
1
+
c
2
x
2
+
…
+
ck
x
ky
=
c
1
x
1
+
c
2
x
2
+
…
+
ck
x
k
(
2
)
(
2
)
(
2
)
(
2
)
(1)
(1)
(1)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2022-2027年中國貝伐珠單抗行業(yè)市場全景評(píng)估及發(fā)展戰(zhàn)略規(guī)劃報(bào)告
- 箱變基礎(chǔ)預(yù)制施工方案
- 保險(xiǎn)服務(wù)品牌轉(zhuǎn)讓居間服務(wù)
- 4S店裝修貸款協(xié)議
- 杭州市乒乓球館租賃合同
- 湖北醫(yī)藥學(xué)院藥護(hù)學(xué)院《新媒體運(yùn)營與管理》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025年度鐵路軌道施工安全監(jiān)管合同范本2篇
- 2025年度食品加工合同:原材料供應(yīng)商與食品加工廠(2025版)3篇
- 2025年度融資租賃合同的租金支付方式3篇
- 2025年度運(yùn)動(dòng)服飾品牌授權(quán)與銷售合同3篇
- 數(shù)學(xué)八下學(xué)霸電子版蘇教版
- SQL Server 2000在醫(yī)院收費(fèi)審計(jì)的運(yùn)用
- 《FANUC-Oi數(shù)控銑床加工中心編程技巧與實(shí)例》教學(xué)課件(全)
- 微信小程序運(yùn)營方案課件
- 陳皮水溶性總生物堿的升血壓作用量-效關(guān)系及藥動(dòng)學(xué)研究
- 安全施工專項(xiàng)方案報(bào)審表
- 學(xué)習(xí)解讀2022年新制定的《市場主體登記管理?xiàng)l例實(shí)施細(xì)則》PPT匯報(bào)演示
- 好氧廢水系統(tǒng)調(diào)試、驗(yàn)收、運(yùn)行、維護(hù)手冊(cè)
- 中石化ERP系統(tǒng)操作手冊(cè)
- 五年級(jí)上冊(cè)口算+脫式計(jì)算+豎式計(jì)算+方程
- 氣體管道安全管理規(guī)程
評(píng)論
0/150
提交評(píng)論