版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第三章隨機(jī)向量
RandomVector
§1一元分布
一、 一元隨機(jī)變量與概率分布函數(shù)二、概率分布函數(shù)的類型三、隨機(jī)變量的數(shù)字特征四、一些重要的一元分布§2多元分布
一、多元概率分布1、多元概率分布函數(shù)隨機(jī)向量的概率分布函數(shù)定義為2、分布函數(shù)的性質(zhì)①非降的右連續(xù)函數(shù);②分布函數(shù)的取值范圍為[0,1],即③分布函數(shù)當(dāng)變量取值為無窮大時,函數(shù)值收斂到1,即
二、兩個常用的離散多元分布
1、多項(xiàng)分布
則稱服從多項(xiàng)分布。2、多元超幾何分布
則服從多元超幾何。
三、多元概率密度
1、定義隨機(jī)向量的分布函數(shù)可以表示為
則稱為連續(xù)型隨機(jī)向量。稱為的多元概率密度函數(shù)。
若在點(diǎn)連續(xù),則
四、邊際分布
設(shè)有連續(xù)隨機(jī)向量
不妨設(shè)是的q個分量組成。則的分布為
所以的邊際密度為例有概率密度函數(shù)
試分別求的邊際密度。五、條件分布
1、問題的引入
若A和B是任意兩個事件,且,則稱為在B事件發(fā)生的條件下,事件A發(fā)生的條件概率??紤]隨機(jī)向量,其中表示人的身高(單位:米),表示人的體重(單位:公斤),在身高為1.9米的人群中,體重的分布就再也不是原來的分布了。而是在的條件分布。2、條件分布連續(xù)隨機(jī)向量
不妨設(shè)是的q個分量組成。是余下的p-q個分量組成。是條件下,的分條件密度函數(shù)。
例設(shè)X=(x1,x2)’有概率密度函數(shù)試求條件密度函數(shù)f(x1/x2)和f(x2/x1)。所以先求
六、 獨(dú)立性
1、定義設(shè)和是兩個隨機(jī)向量,若
對一切、成立,則稱和相互獨(dú)立。2、設(shè)和是兩個連續(xù)隨機(jī)向量,和相互獨(dú)立,當(dāng)且僅當(dāng)或?qū)σ磺?、成立?、設(shè)是個隨機(jī)向量,若
對一切成立,則相互獨(dú)立。
例設(shè)X=(x1,x2,x3)’有概率密度函數(shù)試證x1,x2,x3相互獨(dú)立?!?矩
一、數(shù)學(xué)期望1、定義
是有隨機(jī)變量構(gòu)成的隨機(jī)矩陣,定義X的數(shù)學(xué)期望為特別當(dāng)時,便可得到隨機(jī)向量的數(shù)學(xué)期望為2、性質(zhì)
1)
設(shè)
為常數(shù),則;2)設(shè)分別為常數(shù)矩陣,則3)設(shè)為個同階矩陣,則
二、協(xié)方差矩陣
1、定義:設(shè)和分別為維和維隨機(jī)向量,則其協(xié)方差矩陣為2、性質(zhì)1)若(x1,x2,…,xp)’
和(y1,y2,…,yp)相互獨(dú)立。則
若(x1,x2,…,xp)’的分量相互獨(dú)立,則協(xié)方差矩陣, 除主對角線上的元素外均為零,即
2)隨機(jī)向量X的協(xié)方差矩陣
是非負(fù)定矩陣。證:設(shè)a為任意與X有相同維數(shù)的常數(shù)向量,則3)設(shè)A是常數(shù)矩陣,b為常數(shù)向量,則V(AX+b)=AV(X)A’
;
4、若(x1,x2,…,xp)’
和(y1,y2,…,yp)分別是p和q維隨機(jī)向量,A和B為常數(shù)矩陣,則
5、若(k1,k2,…,kp)是n個不全為零的常數(shù),(x1,x2,…,xp)是相互獨(dú)立的p維隨機(jī)向量,則
三、相關(guān)系數(shù)矩陣若(x1,x2,…,xp)’
和(y1,y2,…,yp)分別是p和q維隨機(jī)向量,則其相關(guān)系數(shù)矩陣為§4隨機(jī)向量的變換
一、一元隨機(jī)變量的變換
設(shè)x具有概率密度函數(shù)fx(x),函數(shù)y=
(x)嚴(yán)格單調(diào),其反函數(shù)x=
(x)有連續(xù)導(dǎo)數(shù),則y的概率密度函數(shù)為
其中y的取值范圍與x的取值范圍相對應(yīng)。例設(shè)隨機(jī)變量x服從均勻分布U(0,1),即密度函數(shù)
y的取值范圍為(0,
),則
二、多元隨機(jī)向量的變換
若(x1,x2,…,xp)’
有密度函數(shù)f(x1,x2,…,xp),有函數(shù)組其逆變換存在
則的概率密度函數(shù)為特別:若,其中為階可逆常數(shù)矩陣,為維常數(shù)向量,則第五章抽樣分布
SamplingDistributions
§1樣本的聯(lián)合概率密度函數(shù)
則總體的密度函數(shù)為X1,X2,……,Xn是從總體中抽取的一個簡單隨機(jī)樣本,滿足X1,X2,……,Xn相互獨(dú)立,且同正態(tài)分布稱為樣本數(shù)據(jù)矩陣。為樣本聯(lián)合密度函數(shù)。§2樣本分布
一、維希特(Wishart)1、定義隨機(jī)矩陣的分布
矩陣中的每一個元素均為隨機(jī)變量,則矩陣X的分布是其列向量拉長,組成一個長向量
定義維希特(Wishart)分布的統(tǒng)計量
設(shè)個隨機(jī)向量
獨(dú)立同分布于,則隨機(jī)矩陣
服從自由度為的非中心維斯特分布,記為。
特別當(dāng)是階對稱陣,則的分布為的下三角部分組成的長向量
在一元正態(tài)隨機(jī)變量中,我們曾經(jīng)討論了分布,在多元正態(tài)隨機(jī)變量也有類似的樣本分布。維希特分布(Wishart)相當(dāng)于一元統(tǒng)計中的分布。
定理1:若,且,,則的分布密度為特別,當(dāng)和時,服從分布。維希特(Wishart)分布的密度函數(shù)二、維斯特(Wishart)分布有如下的性質(zhì):
(1)若A1和A2獨(dú)立,其分布分別和,則的分布為,即維斯特(Wishart)分布有可加性。(2),C為m×p階的矩陣,則的分布為分布。
三、抽樣分布
定理1:設(shè)X1,X2,……Xn是來自多元正態(tài)總體Np(,)的簡單隨機(jī)樣本,有
則有證明:
當(dāng),時,由卡方分布的定義可知可見維希特分布是由卡方分布在多元下的推廣。服從自由度為的卡方分布。定理2
設(shè)獨(dú)立同正態(tài)分布,則統(tǒng)計量
證:
由于樣本均值
相互獨(dú)立的標(biāo)準(zhǔn)正態(tài)分布的平方和為自由度為的卡方分布。
在一元正態(tài)的情形下,我們有樣本的統(tǒng)計量當(dāng)總體的方差未知時,我們必須用樣本的方差來代替總體的方差,則那么在多元正態(tài)的情形下,是否有相同的問題呢?回答時肯定的。定義:
稱T2服從參數(shù)為P和n的非中心霍特林(Hotelling)分布,當(dāng)。定理:
當(dāng)時,服從自由度為n的中心霍特林分布,記為。
…
定理:設(shè)是來自多元正態(tài)總體的簡單隨機(jī)樣本,有
定理:設(shè)是來自多元正態(tài)總體的簡單隨機(jī)樣本,
…
設(shè)是來自多元正態(tài)總體的簡單隨機(jī)樣本,(1)Wilks分布
定義:設(shè)和,且相互獨(dú)立,和,,則稱服從Wilks分布,記。可以證明,當(dāng)和時,Wilks分布可以用分布近似。
四、基于維斯特(Wishart)分布的統(tǒng)計量
在一元方差分析中,常常遇到基于獨(dú)立的分布隨機(jī)變量比值的統(tǒng)計量。在多元統(tǒng)計分析中,起到相同作用的是統(tǒng)計量和分布。2、Λ統(tǒng)計量和Λ分布
設(shè)k個總體,它們服從。分別抽出如下的樣本:W=E+B
當(dāng)K個總體的均值相等時
,
服從WilksΛ分布。
第六章多元正態(tài)分布的統(tǒng)計推斷
§2單個總體均值向量的推斷
設(shè)是取自多元正態(tài)總體的一個樣本,這里,現(xiàn)欲檢驗(yàn)§3單個總體均值分量間結(jié)構(gòu)關(guān)系的檢驗(yàn)
是取自該總體的樣本。檢驗(yàn):
一、問題引入例設(shè)與上面的假設(shè)等價的是,尋找常數(shù)矩陣注:矩陣C不是唯一的,
在例4.2.1中,假定人類的體形有這樣一個一般規(guī)律的身高、胸圍和上臂圍平均尺寸比例為6:4:1。檢驗(yàn)比例是否符合這一規(guī)律。檢驗(yàn):
則上面的假設(shè)可以表達(dá)為
二、統(tǒng)計量及方法其中C為一已知的k×p階矩陣,k<p,rank(C)=K,φ為已知的K維向量。根據(jù)多元正態(tài)分布的性質(zhì)可知,
檢驗(yàn):當(dāng)為真時,故可以將霍特林分布的統(tǒng)計量換算成F統(tǒng)計量。對給定的顯著性水平α,檢驗(yàn)的規(guī)則
某地區(qū)農(nóng)村男嬰的體格測量數(shù)據(jù)如下編號身高(cm)胸圍(cm)上半臂長(cm)17860.616.527658.112.539263.214.548159.014.058160.815.568459.514.0檢驗(yàn)三個指標(biāo)的均值是否有關(guān)系proc
iml;s={31.600
8.040
0.500,
8.040
3.172
1.310,
0.500
1.310
1.900};mu={82.00
60.20
14.50};c={2-3
0,
1
0-6};a=c*t(mu);d=c*S*t(c);g=inv(d);T=6#(t(a)*g*a);print;T=47.143§4兩個總體均值的檢驗(yàn)
一、兩個獨(dú)立樣本的情形
與一元隨機(jī)變量的情形相同,常常我們需要檢驗(yàn)兩個總體的均值是否相等。
設(shè)從總體,中各自獨(dú)立地抽取樣本和,。考慮假設(shè)根據(jù)兩個樣本可得μ1和μ2的無偏估計量為其中當(dāng)原假設(shè)為真的條件下,檢驗(yàn)的規(guī)則為:
例:中小企業(yè)的破產(chǎn)模型
為了研究中小企業(yè)的破產(chǎn)模型,首先選定了X1總負(fù)債率(現(xiàn)金收益/總負(fù)債),X2收益性指標(biāo)(純收入/總財產(chǎn)),X3短期支付能力(流動資產(chǎn)/流動負(fù)債)和X4生產(chǎn)效率性指標(biāo)(流動資產(chǎn)/純銷售額)4個經(jīng)濟(jì)指標(biāo),對17個破產(chǎn)企業(yè)為(1)和21正常運(yùn)行企業(yè)(2)進(jìn)行了調(diào)查,得資料,檢驗(yàn)所選擇的指標(biāo)在不同類型企業(yè)之間是否有顯著的差異。多元假設(shè)檢驗(yàn)StatisticValueFValueNumDFDenDFPr>FWilks'Lambda0.545616206.874330.0004Pillai'sTrace0.454383806.874330.0004Hotelling-LawleyTrace0.832790156.874330.0004Roy'sGreatestRoot0.832790156.874330.0004思考:拒絕原假設(shè)是否說明兩個總體的所有的變量之間都是不相等的DependentVariable:x1SumofSourceDFSquaresMeanSquareFValuePr>FModel10.874667910.8746679116.900.0002Error361.863008400.05175023CorrectedTotal372.73767632兩類企業(yè)間有顯著性差異。DependentVariable:x2SumofSourceDFSquaresMeanSquareFValuePr>FModel10.083120770.083120771.950.1710Error361.533700280.04260279
CorrectedTotal371.61682105兩類企業(yè)間有無顯著性差異。DependentVariable:x3
SumofSourceDFSquaresMeanSquareFValuePr>FModel116.4695844316.4695844321.45<.0001Error3627.640805040.76780014CorrectedTotal3744.11038947DependentVariable:x4SumofSourceDFSquaresMeanSquareFValuePr>FModel10.001126940.001126940.030.8643Error361.369780950.03804947CorrectedTotal371.37090789二、成對試驗(yàn)的T2統(tǒng)計量
前面我們討論的是兩個獨(dú)立樣本的檢驗(yàn)問題,但是不少的實(shí)際問題中,兩個樣本的數(shù)據(jù)是成對出現(xiàn)的。例如當(dāng)討論男女職工的工資收入是否存在差異;一種新藥的療效等。
思考:兩獨(dú)立樣本和成對樣本的觀測值有何不同。設(shè)(xi,yi),i=1,2,3,…,n,時成對的試驗(yàn)數(shù)據(jù),由于總體X和Y均服從p維正態(tài)分布,且協(xié)方差相等。假設(shè)檢驗(yàn)
檢驗(yàn)的統(tǒng)計量為
其中
當(dāng)原假設(shè)為真時例1一組學(xué)生共5人,采用兩種不同的方式進(jìn)行教學(xué),然后對5個學(xué)生進(jìn)行測驗(yàn),得如下得分?jǐn)?shù):學(xué)生序號
教學(xué)方式AB數(shù)學(xué)物理數(shù)學(xué)物理189908285298888083375696170476706766590766365分析不同的教學(xué)方式是否有差異。dataa;inputx1x2y1y2@@;cards;8990828598888083756961707670676690766365;datad;seta;x12=x1-y1;y12=x2-y2;proc
corr
cov;varx12y12;run;proc
iml;s={63.50
21.000,21.00
18.200};mu={15.00,4.800};g=inv(s);r=t(mu)*g*mu;printr;run;§5兩個總體均值分量間結(jié)構(gòu)關(guān)系的檢驗(yàn)
一、問題提出設(shè)從總體,中各自獨(dú)立地抽取樣本和,。他們的均值向量差為:例在愛情和婚姻的調(diào)查中,對一個由若干名丈夫和妻子組成的樣本進(jìn)行了問卷調(diào)查,請他們回答以下幾個問題:(1)你對伴侶的愛情的“熱度”感覺如何?(2)伴侶對你的愛情的“熱度”感覺如何?(3)你對伴侶的愛情的“可結(jié)伴”水平感覺如何?(4)伴侶對你的愛情的“可結(jié)伴”水平感覺如何?回答采用沒有、很小、有些、很大和非常大5個等級,得到結(jié)果如表。
丈夫?qū)ζ拮悠拮訉φ煞?/p>
X1
X2
X3
X4
X1
X2
X3
X4235544555544455545554455434445553355445533453344344443544455345545554454443334444455455555445555現(xiàn)在我們關(guān)心均值分量間的差異是否滿足某種結(jié)構(gòu)關(guān)系。比如每個指標(biāo)均值間的差異是否相等。
1、丈夫?qū)ζ拮右约捌拮訉φ煞虻幕卮鹪讦粒?.05顯著水平上沒有差異。
2、在四個指標(biāo)上他們是否會有相同的分?jǐn)?shù)。即檢驗(yàn)四個分?jǐn)?shù)的平均值是否相等。
二、統(tǒng)計量與檢驗(yàn)檢驗(yàn)
在原假設(shè)為真的條件下,檢驗(yàn)的統(tǒng)計量為:dataa;inputx1x2x3x4class;cards;數(shù)據(jù)行省略;run;proc
anova;classclass;modelx1-x4=class;manovah=classm=(1-1
0
0,
1
0-1
0,
1
0
0-1);run;
H=AnovaSSCPMatrixforclassE=ErrorSSCPMatrixS=1M=0.5N=27StatisticValueFValueNumDFDenDFPr>FWilks'Lambda0.878572612.583560.0626Pillai'sTrace0.121427392.583560.0626Hotelling-LawleyTrace0.138209852.583560.0626Roy'sGreatestRoot0.138209852.583560.0626prociml;sigma1={0.57586206900.3758620690-.1034482759-.1655172414,0.37586206900.5850574713-.0919540230-.1586206897,-.1034482759-.09195402300.43678160920.4137931034,-.1655172414-41379310340.4551724138};mu1={3.90000,3.96667,4.33333,4.40000};sigma2={0.4885057471-.01724137930.04022988510.0229885057,-.01724137930.43793103450.07241379310.1172413793,0.04022988510.07241379310.24022988510.2022988506,0.02298850570.11724137930.20229885060.2574712644};mu2={3.83333,4.10000,4.63333,4.53333};c={1-100,10-10,100-1};mu=(mu1+mu2)/2;a=c*mu;sigma=29#(sigma1+sigma2)/58;t2=60#t(a)*inv(c*sigma*t(c))*a;printt2;第一節(jié)單因素方差分析問題的提出統(tǒng)計的模型及檢驗(yàn)方法多重比較檢驗(yàn)問題的提出
某工廠實(shí)行早、中、晚三班工作制。工廠管理部門想了解不同班次工人勞動效率是否存在明顯的差異。每個班次隨機(jī)抽出了7個工人,得工人的勞動效率(件/班)資料如表。分析不同班次工人的勞動效率是否有顯著性差異。a=0.05,0.01。早班中班晚班344939374740355142334839335041355142365140為什么各值
會有差異?可能的原因有兩個。一是,各個班次工人的勞動效率可能有差異,從而導(dǎo)致了不同水平下的觀察值之間差異,即存在條件誤差。二是,隨機(jī)誤差的存在。如何衡量兩種原因所引起的觀察值的差異?總平均勞動效率為:三個班次工人的平均勞動效率分別為:總離差平方和ss組間離差平方和(條件誤差)ssA組內(nèi)離差平方和(隨機(jī)誤差)sse統(tǒng)計量F把計算的F值與臨界值比較,當(dāng)F
F
時,拒絕原假設(shè),不同水平下的效應(yīng)有顯著性差異;當(dāng)F<F
時,接受原假設(shè)。方差來源離差平方和自由度方差F值
組間A
組內(nèi)E
—
總和
——NEXT查F分布表得臨界值因?yàn)楣蕬?yīng)拒絕原假設(shè),即不同班次工人的勞動效率有顯著的差異。方差分析:比較3個或3個以上的總體均值是否有顯著性差異。用組間的方差與組內(nèi)方差相比,據(jù)以判別誤差主要源于組間的方差(不同組工人的產(chǎn)量,條件誤差),還是源于組內(nèi)方差(隨機(jī)誤差)。NEXT50家上市公司,按行業(yè)計算其1999年底的資產(chǎn)負(fù)債情況,如下:序號制造業(yè)商業(yè)運(yùn)輸業(yè)公用事業(yè)房地產(chǎn)業(yè)165905025702559565307535090584560445936350805409264406565890602570760855830728758856307698090603568106092552566平均58.890.558.933.570.2
多重比較檢驗(yàn)1、多重比較檢驗(yàn)前面的F檢驗(yàn)只能說明在單一因素的影響下,不同水平是否存在顯著性的差異,但不能斷言哪些總體之間存在差異,在方差分析中否定了原假設(shè),并不意味著接受了假設(shè):
因而還應(yīng)該進(jìn)一步討論到底是哪些總體之間存在差異。
Scheffe檢驗(yàn)檢驗(yàn)的結(jié)論:第二節(jié)多元方差分析一、假設(shè)二、多元方差分析的離差平方和的分解總離差平方和由于交叉乘積項(xiàng)為零,故組間叉積矩陣+組內(nèi)叉積矩陣=總叉積矩陣組內(nèi)叉積矩陣:主要由隨機(jī)因素構(gòu)成組間叉積矩陣:主要由系統(tǒng)因素構(gòu)成SSE和SS(TR)之和等于總離差平方和SST。當(dāng)SSE在SST中占有較大的份額時,可以認(rèn)為隨機(jī)因素影響過大,反之SSE所占份額小,SS(RT)所占份額就大,不同試驗(yàn)間的觀測值會有顯著性差異。
三、統(tǒng)計量對給定的顯著性水平
,檢驗(yàn)規(guī)則為:
拒絕原假設(shè);接受原假設(shè);注:關(guān)于
統(tǒng)計量與F統(tǒng)計量的換算,參看附錄。例4.6.1有四種不同的商品x1,x2,x3和x4,按三種不同的方式銷售,有數(shù)據(jù)如程序數(shù)據(jù)行,檢驗(yàn)三種消費(fèi)方式是否有顯著性差異。proc
iml;csscp={49290.8500
8992.2500-36444.0000
28906.8000,
8992.2500
9666.5833-4658.3333
4859.0000,36444.0000-4658.3333
429509.3333-58114.0000,28906.8000
4859.0000-58114.0000
175644.4000};mu1={90.80000
58.65000
404.50000
230.65000};mu2={72.90000
51.45000
417.75000
253.15000};mu3={94.15000
55.15000
403.75000
292.00000};mu={85.95000
55.08333
408.66667
258.60000};bcsscp=20#(t(mu1-mu)*(mu1-mu)+t(mu2-mu)*(mu2-mu)+t(mu3-mu)*(mu3-mu));icsscp=csscp-bcsscp;ht=det(csscp);hi=det(icsscp);lamda=hi/ht;printlamda;116第七章
聚類分析
ClusteringAnalysis117系統(tǒng)聚類分析直觀,易懂。快速聚類快速,動態(tài)。有序聚類保序(時間順序或大小順序)。118
例對10位應(yīng)聘者做智能檢驗(yàn)。3項(xiàng)指標(biāo)X,Y和Z分別表示數(shù)學(xué)推理能力,空間想象能力和語言理解能力。其得分如下,選擇合適的統(tǒng)計方法對應(yīng)聘者進(jìn)行分類。應(yīng)聘者12345678910X28181121262016142422Y29232223292322232927Z28181622262222242424§1什么是聚類分析119120121
我們直觀地來看,這個分類是否合理?計算4號和6號得分的離差平方和:
(21-20)2+(23-23)2+(22-22)2=1
計算1號和2號得分的離差平方和:
(28-18)2+(29-23)2+(28-18)2=236
計算1號和3號得分的離差平方和為482,由此可見一般,分類可能是合理的,歐氏距離很大的應(yīng)聘者沒有被聚在一起。由此,我們的問題是如何來選擇樣品間相似的測度指標(biāo),如何將有相似性的類連接起來?122
聚類分析根據(jù)一批樣品的許多觀測指標(biāo),按照一定的數(shù)學(xué)公式具體地計算一些樣品或一些參數(shù)(指標(biāo))的相似程度,把相似的樣品或指標(biāo)歸為一類,把不相似的歸為一類。例如對上市公司的經(jīng)營業(yè)績進(jìn)行分類;據(jù)經(jīng)濟(jì)信息和市場行情,客觀地對不同商品、不同用戶及時地進(jìn)行分類。又例如當(dāng)我們對企業(yè)的經(jīng)濟(jì)效益進(jìn)行評價時,建立了一個由多個指標(biāo)組成的指標(biāo)體系,由于信息的重疊,一些指標(biāo)之間存在很強(qiáng)的相關(guān)性,所以需要將相似的指標(biāo)聚為一類,從而達(dá)到簡化指標(biāo)體系的目的。123
思考:樣本點(diǎn)之間按什么刻畫相似程度思考:樣本點(diǎn)和小類之間按什么刻畫相似程度思考:小類與小類之間按什么來刻畫相似程度124
一、變量測量尺度的類型為了將樣本進(jìn)行分類,就需要研究樣品之間的關(guān)系;而為了將變量進(jìn)行分類,就需要研究變量之間的關(guān)系。但無論是樣品之間的關(guān)系,還是變量之間的關(guān)系,都是用變量來描述的,變量的類型不同,描述方法也就不同。通常,變量按照測量它們的尺度不同,可以分為三類。
(1)間隔尺度。指標(biāo)度量時用數(shù)量來表示,其數(shù)值由測量或計數(shù)、統(tǒng)計得到,如長度、重量、收入、支出等。一般來說,計數(shù)得到的數(shù)量是離散數(shù)量,測量得到的數(shù)量是連續(xù)數(shù)量。在間隔尺度中如果存在絕對零點(diǎn),又稱比例尺度?!?相似系數(shù)和距離125
(2)順序尺度。指標(biāo)度量時沒有明確的數(shù)量表示,只有次序關(guān)系,或雖用數(shù)量表示,但相鄰兩數(shù)值之間的差距并不相等,它只表示一個有序狀態(tài)序列。如評價酒的味道,分成好、中、次三等,三等有次序關(guān)系,但沒有數(shù)量表示。
(3)名義尺度。指標(biāo)度量時既沒有數(shù)量表示也沒有次序關(guān)系,只有一些特性狀態(tài),如眼睛的顏色,化學(xué)中催化劑的種類等。在名義尺度中只取兩種特性狀態(tài)的變量是很重要的,如電路的開和關(guān),天氣的有雨和無雨,人口性別的男和女,醫(yī)療診斷中的“十”和“一”,市場交易中的買和賣等都是此類變量。126
二、數(shù)據(jù)的變換處理
所謂數(shù)據(jù)變換,就是將原始數(shù)據(jù)矩陣中的每個元素,按照某種特定的運(yùn)算把它變成為一個新值,而且數(shù)值的變化不依賴于原始數(shù)據(jù)集合中其它數(shù)據(jù)的新值。
1、中心化變換中心化變換是一種坐標(biāo)軸平移處理方法,它是先求出每個變量的樣本平均值,再從原始數(shù)據(jù)中減去該變量的均值,就得到中心化變換后的數(shù)據(jù)。設(shè)原始觀測數(shù)據(jù)矩陣為:127中心化變換的結(jié)果是使每列數(shù)據(jù)之和均為0,即每個變量的均值為0,而且每列數(shù)據(jù)的平方和是該列變量樣本方差的(n—1)倍,任何不同兩列數(shù)據(jù)之交叉乘積是這兩列變量樣本協(xié)方差的(n—1)倍,所以這是一種很方便地計算方差與協(xié)方差的變換。128
2、極差規(guī)格化變換規(guī)格化變換是從數(shù)據(jù)矩陣的每一個變量中找出其最大值和最小值,這兩者之差稱為極差,然后從每個變量的每個原始數(shù)據(jù)中減去該變量中的最小值,再除以極差,就得到規(guī)格化數(shù)據(jù)。即有:129
經(jīng)過規(guī)格化變換后,數(shù)據(jù)矩陣中每列即每個變量的最大數(shù)值為1,最小數(shù)值為0,其余數(shù)據(jù)取值均在0-1之間;并且變換后的數(shù)據(jù)都不再具有量綱,便于不同的變量之間的比較。3、標(biāo)準(zhǔn)化變換標(biāo)準(zhǔn)化變換也是對變量的數(shù)值和量綱進(jìn)行類似于規(guī)格化變換的一種數(shù)據(jù)處理方法。首先對每個變量進(jìn)行中心化變換,然后用該變量的標(biāo)準(zhǔn)差進(jìn)行標(biāo)準(zhǔn)化。即有:130
經(jīng)過標(biāo)準(zhǔn)化變換處理后,每個變量即數(shù)據(jù)矩陣中每列數(shù)據(jù)的平均值為0,方差為1,且也不再具有量綱,同樣也便于不同變量之間的比較。變換后,數(shù)據(jù)短陣中任何兩列數(shù)據(jù)乘積之和是兩個變量相關(guān)系數(shù)的(n-1)倍,所以這是一種很方便地計算相關(guān)矩陣的變換。4.對數(shù)變換對數(shù)變換是將各個原始數(shù)據(jù)取對數(shù),將原始數(shù)據(jù)的對數(shù)值作為變換后的新值。即:
131
三、樣品間親疏程度的測度
研究樣品或變量的親疏程度的數(shù)量指標(biāo)有兩種,一種叫相似系數(shù),性質(zhì)越接近的變量或樣品,它們的相似系數(shù)越接近于1或一l,而彼此無關(guān)的變量或樣品它們的相似系數(shù)則越接近于0,相似的為一類,不相似的為不同類;另一種叫距離,它是將每一個樣品看作p維空間的一個點(diǎn),并用某種度量測量點(diǎn)與點(diǎn)之間的距離,距離較近的歸為一類,距離較遠(yuǎn)的點(diǎn)應(yīng)屬于不同的類。132
變量之間的聚類即R型聚類分析,常用相似系數(shù)來測度變量之間的親疏程度。而樣品之間的聚類即Q型聚類分析,則常用距離來測度樣品之間的親疏程度。
注:變量聚類放到因子分析后面133
1、定義距離的準(zhǔn)則
定義距離要求滿足第i個和第j個樣品之間的距離如下四個條件(距離可以自己定義,只要滿足距離的條件)1342、常用距離的算法設(shè)和是第i和j個樣品的觀測值,則二者之間的距離為:明氏距離特別,歐氏距離(1)明氏距離測度135
明考夫斯基距離主要有以下兩個缺點(diǎn):①明氏距離的值與各指標(biāo)的量綱有關(guān),而各指標(biāo)計量單位的選擇有一定的人為性和隨意性,各變量計量單位的不同不僅使此距離的實(shí)際意義難以說清,而且,任何一個變量計量單位的改變都會使此距離的數(shù)值改變從而使該距離的數(shù)值依賴于各變量計量單位的選擇。②明氏距離的定義沒有考慮各個變量之間的相關(guān)性和重要性。實(shí)際上,明考夫斯基距離是把各個變量都同等看待,將兩個樣品在各個變量上的離差簡單地進(jìn)行了綜合。136(2)杰氏距離這是杰斐瑞和馬突斯塔(Jffreys&Matusita)所定義的一種距離,其計算公式為:137(3)蘭氏距離這是蘭思和維廉姆斯(Lance&Williams)所給定的一種距離,其計算公式為:
這是一個自身標(biāo)準(zhǔn)化的量,由于它對大的奇異值不敏感,這樣使得它特別適合于高度偏倚的數(shù)據(jù)。雖然這個距離有助于克服明氏距離的第一個缺點(diǎn),但它也沒有考慮指標(biāo)之間的相關(guān)性。138(4)馬氏距離這是印度著名統(tǒng)計學(xué)家馬哈拉諾比斯(P.C.Mahalanobis)所定義的一種距離,其計算公式為:
分別表示第i個樣品和第j樣品的p指標(biāo)觀測值所組成的列向量,即樣本數(shù)據(jù)矩陣中第i個和第j個行向量的轉(zhuǎn)置,
表示觀測變量之間的協(xié)方差短陣。在實(shí)踐應(yīng)用中,若總體協(xié)方差矩陣
未知,則可用樣本協(xié)方差矩陣作為估計代替計算。139
馬氏距離又稱為廣義歐氏距離。顯然,馬氏距離與上述各種距離的主要不同就是馬氏距離考慮了觀測變量之間的相關(guān)性。如果假定各變量之間相互獨(dú)立,即觀測變量的協(xié)方差矩陣是對角矩陣,則馬氏距離就退化為用各個觀測指標(biāo)的標(biāo)準(zhǔn)差的倒數(shù)作為權(quán)數(shù)進(jìn)行加權(quán)的歐氏距離。因此,馬氏距離不僅考慮了觀測變量之間的相關(guān)性,而且也考慮到了各個觀測指標(biāo)取值的差異程度,為了對馬氏距離和歐氏距離進(jìn)行一下比較,以便更清楚地看清二者的區(qū)別和聯(lián)系,現(xiàn)考慮一個例子。140例如,假設(shè)有一個二維正態(tài)總體,它的分布為:
141(5)斜交空間距離
由于各變量之間往往存在著不同的相關(guān)關(guān)系,用正交空間的距離來計算樣本間的距離易變形,所以可以采用斜交空間距離。
當(dāng)各變量之間不相關(guān)時,斜交空間退化為歐氏距離。1422、相似系數(shù)的算法(1)相似系數(shù)設(shè)和是第和個樣品的觀測值,則二者之間的相似測度為:其中143
(2)夾角余弦
夾角余弦時從向量集合的角度所定義的一種測度變量之間親疏程度的相似系數(shù)。設(shè)在n維空間的向量
144
五、距離和相似系數(shù)選擇的原則一般說來,同一批數(shù)據(jù)采用不同的親疏測度指標(biāo),會得到不同的分類結(jié)果。產(chǎn)生不同結(jié)果的原因,主要是由于不同的親疏測度指標(biāo)所衡量的親疏程度的實(shí)際意義不同,也就是說,不同的親疏測度指標(biāo)代表了不同意義上的親疏程度。因此我們在進(jìn)行聚類分析時,應(yīng)注意親疏測度指標(biāo)的選擇。通常,選擇親疏測度指標(biāo)時,應(yīng)注意遵循的基本原則主要有:
145(1)所選擇的親疏測度指標(biāo)在實(shí)際應(yīng)用中應(yīng)有明確的意義。如在經(jīng)濟(jì)變量分析中,常用相關(guān)系數(shù)表示經(jīng)濟(jì)變量之間的親疏程度。146(2)親疏測度指標(biāo)的選擇要綜合考慮已對樣本觀測數(shù)據(jù)實(shí)施了的變換方法和將要采用的聚類分析方法。如在標(biāo)準(zhǔn)化變換之下,夾角余弦實(shí)際上就是相關(guān)系數(shù);又如若在進(jìn)行聚類分析之前已經(jīng)對變量的相關(guān)性作了處理,則通常就可采用歐氏距離,而不必選用斜交空間距離。此外,所選擇的親疏測度指標(biāo),還須和所選用的聚類分析方法一致。如聚類方法若選用離差平方和法,則距離只能選用歐氏距離。147(3)適當(dāng)?shù)乜紤]計算工作量的大小。如對大樣本的聚類問題,不適宜選擇斜交空間距離,因采用該距離處理時,計算工作量太大。樣品間或變量間親疏測度指標(biāo)的選擇是一個比較復(fù)雜且?guī)е饕?guī)性的問題,我們應(yīng)根據(jù)研究對象的特點(diǎn)作具體分折,以選擇出合適的親疏測度指標(biāo)。實(shí)踐中,在開始進(jìn)行聚類分析時,不妨試探性地多選擇幾個親疏測度指標(biāo),分別進(jìn)行聚類,然后對聚類分析的結(jié)果進(jìn)行對比分析,以確定出合適的親疏測度指標(biāo)。
148…0…0┇┇┇┇…0
至此,我們已經(jīng)可以根據(jù)所選擇的距離構(gòu)成樣本點(diǎn)間的距離表,樣本點(diǎn)之間被連接起來。149
四、樣本數(shù)據(jù)與小類、小類與小類之間的度量1、最短距離(NearestNeighbor)x21?x12?x22?x11?150最長距離(FurthestNeighbor
)???x11?x21????151??????組間平均連接(Between-groupLinkage)1521、組內(nèi)平均連接法(Within-groupLinkage)x21?x12?x22?x11?153重心法(Centroidclustering):均值點(diǎn)的距離??154離差平方和法連接2,41,56,5155紅綠(2,4,6,5)8.75
離差平方和增加8.75-2.5=6.25
黃綠(6,5,1,5)14.75離差平方和增加14.75-8.5=6.25黃紅(2,4,1,5)10-10=0故按該方法的連接和黃紅首先連接。156§3系統(tǒng)聚類方法1、根據(jù)樣品的特征,規(guī)定樣品之間的距離,共有個。將所有列表,記為D(0)表,該表是一張對稱表。所有的樣本點(diǎn)各自為一類。2、選擇D(0)表中最小的非零數(shù),不妨假設(shè),于是將和合并為一類,記為。(一)方法開始各樣本自成一類。1573、利用遞推公式計算新類與其它類之間的距離。分別刪除D(0)表的第p,q行和第p,q列,并新增一行和一列添上的結(jié)果,產(chǎn)生D(1)表。1584、在D(1)表再選擇最小的非零數(shù),其對應(yīng)的兩類有構(gòu)成新類,再利用遞推公式計算新類與其它類之間的距離。分別刪除D(1)表的相應(yīng)的行和列,并新增一行和一列添上的新類和舊類之間的距離。結(jié)果,產(chǎn)生D(2)表。類推直至所有的樣本點(diǎn)歸為一類為止。159(二)常用的種類
1、最短距離法設(shè)抽取五個樣品,每個樣品只有一個變量,它們是1,2,3.5,7,9。用最短距離法對5個樣品進(jìn)行分類。首先采用絕對距離計算距離矩陣:
0
10
2.51.50
653.50
875.520160
然后和被聚為新類,得:
0
1.50
53.50
75.520161162
最短距離法的遞推公式
假設(shè)第p類和第q類合并成第類,第r類與其它各舊類的距離按最短距離法為:16303.505.52016403.50165各步聚類的結(jié)果:(1,2)(3)(4)(5)(1,2,3)(4)(5)(1,2,3)(4,5)(1,2,3,4,5)1662、最長距離法用最長距離法對5個樣品進(jìn)行分類。首先采用絕對距離計算距離矩陣:
0
10
2.51.50
653.50
875.520167
然后和被聚為新類,得:
0
2.50
63.50
85.520168
最長距離法的遞推公式
假設(shè)第p類和第q類合并成第類,第r類與其它各舊類的距離按最長距離法為:1693、中間距離法最長距離最短距離中間距離170
0
10
6.252.250
362512.250
644930.2540
用中間距離法對5個樣品進(jìn)行分類。首先采用絕對距離計算距離平方矩陣:
171中間距離法的遞推公式172
0
40
30.2512.250
56.2530.2540173
類平均法定義類間的距離是兩類間樣品的距離的平均數(shù)。對應(yīng)我們前面討論的組間
0
10
6.252.250
362512.250
644930.2540
4、類平均法174
然后和被聚為新類,得:
0
4.250
30.2512.250
56.2530.2540175類平均法的遞推公式
假設(shè)第p類和第q類合并成第類,第r類與其它各舊類的距離按最短距離法為:176p類和q類與L類的距離的加權(quán)平均數(shù)1775、可變類平均法
類平均法的遞推公式中,沒有反映Gp類和Gq類的距離有多大,進(jìn)一步將其改進(jìn),加入D2Pq,并給定系數(shù)
<1,則類平均法的遞推公式改為:
用此遞推公式進(jìn)行聚類就是可變類平均法。遞推公式由:
p類和q類與L類的距離的加權(quán)平均數(shù)
p類和q類的距離兩項(xiàng)的加權(quán)和構(gòu)成,β的大小根據(jù)哪項(xiàng)更重要而定。1786、離差平方和法
如和為一類,則離差平方和
如和為一類,則離差平方和
和被聚為新類,重心為
179
類似于方差分析的想法,如果類分得恰當(dāng),同類內(nèi)的樣品之間的離差平方和應(yīng)較小,而類間的離差平方和應(yīng)當(dāng)較大。
離差平方和法的思路是,當(dāng)k固定時,選擇使S達(dá)到最小的分類。先讓n個樣品各自成一類,然后縮小一類,每縮小一類離差平方和就要增大,選擇使S2增加最小的兩類合并,直到所有的樣品歸為一類為止。離差平方和法定義類間的平方距離為180
0
0.50
3.1251.1250
1812.506.1250
3224.5015.12520181其中是由Gp和Gq合并成的Gr類的類內(nèi)離差平方和。可以證明離差平方和的聚類公式為1827、可變方法
如果讓中間距離法的遞推公式前兩項(xiàng)的系數(shù)也依賴于
,則遞推公式為:
用上式作為遞推公式的系統(tǒng)聚類法稱為可變法。1838、重心法
用重心法對5個樣品進(jìn)行分類。首先采用絕對距離計算距離平方矩陣:
0
10
6.252.250
362512.250
644930.2540184
分別為Gp和Gq的重心,類與類之間的距離定義為兩個類重心(類內(nèi)樣品平均值)間的平方距離。重心法,也稱為樣品的均值法。設(shè)Gp和Gq為兩個類185
設(shè)某一步Gp和Gq的重心分別為為和,類內(nèi)的樣品數(shù)分別為和,如果要把Gp和Gq合并為Gr類,則Gr類的樣品數(shù)nr=np+nq,Gr類的重心為和的加權(quán)算術(shù)平均數(shù):186重心法遞推公式
假設(shè)第p類和第q類合并成第類,第r類與其它各舊類的距離按重心法為:187188G4和G6的距離為189(三)確定類的個數(shù)
在聚類分析過程中類的個數(shù)如何來確定才合適呢?這是一個十分困難的問題,人們至今仍未找到令人滿意的方法。但是這個問題又是不可回避的。下面我們介紹幾種方法。1、給定閾值——通過觀測聚類圖,給出一個合適的閾值T。要求類與類之間的距離不要超過T值。例如我們給定T=0.35,當(dāng)聚類時,類間的距離已經(jīng)超過了0.35,則聚類結(jié)束。190總離差平方和的分解(準(zhǔn)備知識)191如果著些樣品被分成兩類192可以證明:總離差平方和=組內(nèi)離差平方和+組間離差平方和令T為總離差平方和令PG為分為G類的組內(nèi)離差平方和。1932、統(tǒng)計量其中T是數(shù)據(jù)的總離差平方和,是組內(nèi)離差平方和。比較大,說明分G個類時類內(nèi)的離差平方和比較小,也就是說分G類是合適的。但是,分類越多,每個類的類內(nèi)的離差平方和就越小,也就越大;所以我們只能取合適的G,使得足夠大,而G本生很小,隨著G的增加,的增幅不大。比如,假定分4類時,=0.8;下一次合并分三類時,下降了許多,=0.32,則分4類是合適的。1943、偽F統(tǒng)計量的定義為
偽F統(tǒng)計量用于評價聚為G類的效果。如果聚類的效果好,類間的離差平方和相對于類內(nèi)的離差平方和大,所以應(yīng)該取偽F統(tǒng)計量較大而類數(shù)較小的聚類水平。
195PseudoFStatistic0102030405060708090100110120NumberofClusters123456789101112131415161718191964、偽統(tǒng)計量的定義為其中和分別是的類內(nèi)離差平方和,是將K和L合并為第M類的離差平方和
=--為合并導(dǎo)致的類內(nèi)離差平方和的增量。用它評價合并第K和L類的效果,偽統(tǒng)計量大說明不應(yīng)該合并這兩類,應(yīng)該取合并前的水平。197
五、系統(tǒng)聚類法的基本性質(zhì)
(一)單調(diào)性
在聚類分析過程中,并類距離分別為l
k(k=1,2,3,…
)若滿足,則稱該聚類方法具有單調(diào)性??梢宰C明除了重心法和中間距離法之外,其他的系統(tǒng)聚類法均滿足單調(diào)性的條件。(二)空間的濃縮和擴(kuò)張1、定義矩陣的大小
設(shè)同階矩陣D(A)和D(B),如果D(A)的每一個元素不小于D(B)的每一個元素,則記為。1982、空間的濃縮和擴(kuò)張設(shè)有兩種系統(tǒng)聚類法A和B,他們在第i步的距離矩陣分別為Ai和Bi(I=1,2,3…),若Ai>Bi
,則稱第一種方法A比第二種方法B使空間擴(kuò)張,或第二種方法比第一種方法濃縮。3、方法的比較D(短)D(平),D(重)D(平);
D(長)D(平);當(dāng),D(變平)D(平);當(dāng),D(變平)D(平)。199
六、主要的步驟1、選擇變量(1)和聚類分析的目的密切相關(guān)(2)反映要分類變量的特征(3)在不同研究對象上的值有明顯的差異(4)變量之間不能高度相關(guān)2、計算相似性相似性是聚類分析中的基本概念,他反映了研究對象之間的親疏程度,聚類分析就是根據(jù)對象之間的相似性來分類的。有很多刻畫相似性的測度2003、聚類選定了聚類的變量,計算出樣品或指標(biāo)之間的相似程度后,構(gòu)成了一個相似程度的矩陣。這時主要涉及兩個問題:(1)選擇聚類的方法(2)確定形成的類數(shù)2014、聚類結(jié)果的解釋和證實(shí)
對聚類結(jié)果進(jìn)行解釋是希望對各個類的特征進(jìn)行準(zhǔn)確的描述,給每類起一個合適的名稱。這一步可以借助各種描述性統(tǒng)計量進(jìn)行分析,通常的做法是計算各類在各聚類變量上的均值,對均值進(jìn)行比較,還可以解釋各類產(chǎn)別的原因。
202
如果是變量聚類分析,聚類分析做完之后,各類中仍有較多的指標(biāo)。也就是說聚類分析并沒有達(dá)到降維的目的。這就需要在每類中選出一個代表指標(biāo),具體做法是:假設(shè)某類中有個指標(biāo),首先分別計算類內(nèi)指標(biāo)之間的相關(guān)指數(shù),然后計算某個指標(biāo)與類內(nèi)其他指標(biāo)之間相關(guān)指數(shù)的平均數(shù),即
取最大的,做為該類的代表。203
例某公司下屬30個企業(yè),公司為了考核下屬企業(yè)的經(jīng)濟(jì)效益,設(shè)計了8個指標(biāo)。為了避免重復(fù),需要對這8個指標(biāo)進(jìn)行篩選,建立一個恰當(dāng)?shù)慕?jīng)濟(jì)效益指標(biāo)體系。通過計算30個企業(yè)8個指標(biāo)的相關(guān)系數(shù)距離,數(shù)據(jù)是1-r2。得如下表:
x1x2
x3
x4x5
x6
x7
x8
x10
0.600
0.430.460
0.470.450.120
0.570.450.230.220
0.380.400.210.290.220
0.310.790.650.700.800.660
0.450.450.270.230.140.190.770
試用將它們聚類。x2
x3x4x5
x6
x7
x8204205
根據(jù)美國等20個國家和地區(qū)的信息基礎(chǔ)設(shè)施的發(fā)展?fàn)顩r進(jìn)行分類。Call—每千人擁有的電話線數(shù);movel—每千人戶居民擁有的蜂窩移動電話數(shù);fee—高峰時期每三分鐘國際電話的成本;comp—每千人擁有的計算機(jī)數(shù);mips—每千人計算機(jī)功率(每秒百萬指令);
net—每千人互聯(lián)網(wǎng)絡(luò)戶主數(shù)。
206
國家callmovel
fee
comp
mips
netmeiguo631.6161.90.364032607335.34riben498.4143.23.57176102236.26deguo557.670.60284ruidian684.1281.81.42461666029.39ruishi64493.51.982341362122.68xinjiapo498.4147.52.52841357813.49taiwan469.456.13.6811969111.72hanguo434.5733.369957951.66baxi81.916.33.02198760.52zhili138.68.201.43114111.28moxige92.29.82.613117510.35eluosi174.955.122411010.48bolan1696.53.684017961.45xiongyali262.249.42.666830673.09malaixiya195.588.44.195327341.25taiguo78.627.84.952216620.11yindu13.60.306.2821010.01faguo559.142.91.27201117024.76yingguo521.10122.50.982481446111.91207208PseudoFStatistic0102030405060708090100110120NumberofClusters12345678910111213141516171819209§2動態(tài)聚類
一、思想 系統(tǒng)聚類法是一種比較成功的聚類方法。然而當(dāng)樣本點(diǎn)數(shù)量十分龐大時,則是一件非常繁重的工作,且聚類的計算速度也比較慢。比如在市場抽樣調(diào)查中,有4萬人就其對衣著的偏好作了回答,希望能迅速將他們分為幾類。這時,采用系統(tǒng)聚類法就很困難,而動態(tài)聚類法就會顯得方便,適用。動態(tài)聚類解決的問題是:假如有個樣本點(diǎn),要把它們分為類,使得每一類內(nèi)的元素都是聚合的,并且類與類之間還能很好地區(qū)別開。動態(tài)聚類使用于大型數(shù)據(jù)。210選擇凝聚點(diǎn)分類修改分類分類是否合理分類結(jié)束YesNo211
用一個簡單的例子來說明動態(tài)聚類法的工作過程。例如我們要把圖中的點(diǎn)分成兩類。快速聚類的步驟:
1、隨機(jī)選取兩個點(diǎn)和作為聚核。
2、對于任何點(diǎn),分別計算
3、若,則將劃為第一類,否則劃給第二類。于是得圖(b)的兩個類。4、分別計算兩個類的重心,則得和,以其為新的聚核,對空間中的點(diǎn)進(jìn)行重新分類,得到新分類。212
(a)空間的群點(diǎn)(b)任取兩個聚核
(c)第一次分類(d)求各類中心213(e)第二次分類214二、選擇凝聚點(diǎn)和確定初始分類
凝聚點(diǎn)就是一批有代表性的點(diǎn),是欲形成類的中心。凝聚點(diǎn)的選擇直接決定初始分類,對分類結(jié)果也有很大的影響,由于凝聚點(diǎn)的不同選擇,其最終分類結(jié)果也將出現(xiàn)不同。故選擇時要慎重.通常選擇凝聚點(diǎn)的方法有:
(1)人為選擇,當(dāng)人們對所欲分類的問題有一定了解時,根據(jù)經(jīng)驗(yàn),預(yù)先確定分類個數(shù)和初始分類,并從每一類中選擇一個有代表性的樣品作為凝聚點(diǎn)。
(2)將數(shù)據(jù)人為地分為A類,計算每一類的重心,就將這些重心作為凝聚點(diǎn)。215(3)用密度法選擇凝聚點(diǎn)。以某個正數(shù)d為半徑,以每個樣品為球心,落在這個球內(nèi)的樣品數(shù)(不包括作為球心的樣品)就叫做這個樣品的密度。計算所有樣品點(diǎn)的密度后,首先選擇密度最大的樣品作為第一凝聚點(diǎn),并且人為地確定一個正數(shù)D(一般D>d,常取D=2d)。然后選出次大密度的樣品點(diǎn),若它與第一個凝聚點(diǎn)的距離大于D,則將其作為第二個凝聚點(diǎn);否則舍去這點(diǎn),再選密度次于它的樣品。這樣,按密度大小依次考查,直至全部樣品考查完畢為止.此方法中,d要給的合適,太大了使凝聚點(diǎn)個數(shù)太少,太小了使凝聚點(diǎn)個數(shù)太多。
216(5)隨機(jī)地選擇,如果對樣品的性質(zhì)毫無所知,可采用隨機(jī)數(shù)表來選擇,打算分幾類就選幾個凝聚點(diǎn)?;蛘呔陀们癆個樣品作為凝聚點(diǎn)(假設(shè)分A類)。這方法一般不提倡使用。(4)人為地選擇一正數(shù)d,首先以所有樣品的均值作為第一凝聚點(diǎn)。然后依次考察每個樣品,若某樣品與已選定的凝聚點(diǎn)的距離均大于d,該樣品作為新的凝聚點(diǎn),否則考察下一個樣品。217
三、衡量聚類結(jié)果的合理性指標(biāo)和算法終止的標(biāo)準(zhǔn)
定義設(shè)表示在第n次聚類后得到的第i類集合,,為第n次聚類所得到的聚核。定義
若分類不合理時,會很大,隨著分類的過程,逐漸下降,并趨于穩(wěn)定。218定義第i類中所有元素與其重心的距離的平方和:
是事前給定的一個充分小量。為所有K個類中所有元素與其重心的距離的平方和。定義算法終止的標(biāo)準(zhǔn)是219五、動態(tài)聚類步驟為:第一,選擇若干個觀測值點(diǎn)為“凝聚點(diǎn)”;第二,可選擇地,通過分配每個“凝聚點(diǎn)”最近的類里來形成臨時分類。每一次對一個觀測值點(diǎn)進(jìn)行歸類,“凝聚點(diǎn)”更新為這一類目前的均值;220第三,可選擇地,通過分配每個“凝聚點(diǎn)”最近的類里來形成臨時分類。所有的觀測值點(diǎn)分配完后,這些類的“凝聚點(diǎn)”用臨時類的均值代替。該步驟可以一直進(jìn)行直到“凝聚點(diǎn)”的改變很小或?yàn)榱銜r止
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 全款抵押車買賣合同模板
- 基礎(chǔ)會計課件教學(xué)
- 公司人力資源診斷報告專題知識講座
- 獨(dú)家供貨購銷合同模板
- 貨運(yùn)船舶租賃合同模板
- 通信光纜購貨合同模板
- 蔬菜購銷簡易合同模板
- 門窗安裝用工合同模板
- 農(nóng)村林地買賣合同模板
- 生鐵廢鋼采購合同模板
- 年綜合利用氟化鈣污泥30萬噸項(xiàng)目環(huán)境影響報告表
- 《建筑裝飾工程質(zhì)量檢驗(yàn)與檢測》課程標(biāo)準(zhǔn)
- 三年級語文 倍的認(rèn)識(全國一等獎)
- 2023年12月2024屆廣州市高三年級調(diào)研測試英語試卷
- 阿爾茲海默癥又病
- 中國(教育部)留學(xué)服務(wù)中心招聘筆試真題2023
- 稻田養(yǎng)蟹項(xiàng)目總結(jié)匯報
- 畫法幾何工程制圖課件計算機(jī)繪圖講義
- 醫(yī)療安全不良事件分析報告
- 西師大版小學(xué)6年級(上)第一單元測試卷數(shù)學(xué)試題(一)含答案與解析
- 華為大學(xué)人才培養(yǎng)與發(fā)展實(shí)踐
評論
0/150
提交評論