應(yīng)用多元統(tǒng)計分析課后答案-_第1頁
應(yīng)用多元統(tǒng)計分析課后答案-_第2頁
應(yīng)用多元統(tǒng)計分析課后答案-_第3頁
已閱讀5頁,還剩45頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第二章2.1.試表達多元聯(lián)合分布和邊際分布之間的關(guān)系。X(XX(Xi,X2,LXp)的聯(lián)合分布密度函數(shù)是一個 p維的函數(shù),而邊際分布討論是X(Xi,X2,LXp)的子向量的概率分布,其概率密度函數(shù)的維數(shù)小于 p。22設(shè)二維隨機向量(XiX2)服從二元正態(tài)分布,寫出其聯(lián)合分布。解:設(shè)(X1X2)的均值向量為合分布密度函數(shù)為21f(x)荷211222121/2exp21 2,協(xié)方差矩陣為 1 ;,那么其聯(lián)2122心1211(xm。22.3隨機向量(X1X2)的聯(lián)合密度函數(shù)為f(Xi,X2)a)(x2 c)]2[(dc)(x~ia)(ba)(x2c)f(Xi,X2)a)(x2 c)](ba)2(dc)2其中ax1b,c x2 d。求(1)隨機變量Xi和X2的邊緣密度函數(shù)、均值和方差;(2)隨機變量X1和X2的協(xié)方差和相關(guān)系數(shù);(3)判斷X1和X2是否相互獨立。(1)解:隨機變量X1和X2的邊緣密度函數(shù)、均值和方差;

fx(Xi)d2[(dC)(X!a)(ba)(x2c)2(論a)(x2c)]22(ba)(dc)dx2(dc)(Xia)x2(ba)2(dc)2fx(Xi)d2[(dC)(X!a)(ba)(x2c)2(論a)(x2c)]22(ba)(dc)dx2(dc)(Xia)x2(ba)2(dc)22(dc)(Xia)x2(ba)2(dc)22(dc)(Xia)x2(ba)2(dc)2ccdcdcd2[(ba)(X2c)2(Xia)(X2c)]c(ba)2(dc)2c2[(ba)t2(Xi a)t]22(ba)(dc)dt所以[(b22a)t 2(x1a)t]22(ba)(dc)ba由于Xi服從均勻分布,那么均值為 ,方差為22a。i2同理,由于1X2服從均勻分布fX2(x2) ~d~0Xidx2c,d,那么均值為—,其它 2方差為。(2)解:隨機變量X(2)解:隨機變量X1和X的協(xié)方差和相關(guān)系數(shù);cov(Xi,X2)ba XiX2ba XiX2dc2[(dc)(x-ia)(ba)(X2c)2(Xia)(X2 c)]dXidx2(ba)2(dc)2(cd)(ba)36cov(Xi,X2) i3XiX2 J(3)解:判斷Xi和X2是否相互獨立。Xi和X2由于f(Xi,X2)fxi(Xi)fx2(X2),所以不獨立。2.4設(shè)X(Xi,X2,LXp)服從正態(tài)分布,其協(xié)方差矩陣 為對角陣,證明其分量是相互獨立的隨機變量。解:因為X〔Xi,X2丄Xp〕的密度函數(shù)為f(Xi,...,Xp)1/2exp又由于12Il1~21那么f(xi,...,Xp)i1i2exp1~~2p1~21那么其分量是相互獨立。1/2exp1~2p1exp(X2:(x, 1)2123)222(Xp p)22f(Xi)...f(Xp)2.5由于多元正態(tài)分布的數(shù)學(xué)期望向量和均方差矩陣的極大似然分別為XinX)?(XiX)(XiX)i135650.00c- 12.330X17325.00152.50圖2.1Descriptives圖2.1Descriptives對話框202188000.0038900.0083722500.00-736800.0038900.0013.06716710.00-35.80乙83722500.0016710.0036573750.00-199875.00-736800.00-35.800-199875.0016695.1010注:利用1Xp1 X1- SX1(In 1n1n)X其中InOnn01在SPSS中求樣本均值向量的操作步驟如下:1.選擇菜單項Analyze宀Descriptive Statistics宀Descriptives,翻開Descriptives 對話框。將待估計的四個變量移入右邊的 Variables列表框中,如圖2.1。單擊Options按鈕,翻開Options子對話框。在對話框中選擇Mean復(fù)選框,即計算樣本均值向量, 如圖2.2所示。單擊Continue按鈕返回主對話框。圖2.2Options子對話框單擊OK按鈕,執(zhí)行操作。那么在結(jié)果輸出窗口中給出樣本均值向量,如表 2.1,即樣本均值向量為〔35.3333,12.3333,17.1667,1.5250E2 〕。NX1035650.0000x2612.3333X35173251000x4B15Z5000有埶的N〔列鍬S〕6表2.1樣本均值向量在SPSS中計算樣本協(xié)差陣的步驟如下:選擇菜單項Analyze宀Correlate宀Bivariate,翻開BivariateCorrelations 對話框。將三個變量移入右邊的 Variables 列表框中,女口圖2.3。0ii^rldteCorrelitiO即WaiunCiMtfmnli |y|^'wwXL匚’Erh#已i+H匚*?■■處中TW?fSIuMgw#(-■:fK4^4ed叵]E呻nuiHsft說hcEiihdiOKHap圖2.3BivariateCorrelations 對話框單擊Options按鈕,翻開Options子對話框。選擇Cross-productdeviationsandcovariances 復(fù)選框,即計算樣本離差陣和樣本協(xié)差陣,如圖2.4。單擊Continue按鈕,返回主對話框。

圖2.4Options子對話框單擊OK按鈕,執(zhí)行操作。那么在結(jié)果輸出窗口中給出相關(guān)分析表,見表 2.2。表中Covarianee 給出樣本協(xié)差陣。(另外,PearsonCorrelation 為皮爾遜相關(guān)系數(shù)矩陣, SumofSquaresandCross-products為樣本離差陣。)2.6漸近無偏性、有效性和一致性;2.7設(shè)總體服從正態(tài)分布, X~Np2.6漸近無偏性、有效性和一致性;2.7設(shè)總體服從正態(tài)分布, X~Np(4習(xí),有樣本X11X21...,Xn。由于X是相互獨立的正態(tài)分布隨機向量之和,所以X也服從正態(tài)分布。又E(X)D(X)Xini1EXi[i[iXii1DXii1■■■■?rlJFears口時汝758An-皿QB1OOT43Q平肓與艮稲的和1QDB|=9ig<500DU11日的-ISMDQDinQ2.010=83翎HDDOHB373E7jl;H H||h66sk2F軸嶺on扌茯性758-沏-.077是苓吐?即077平方乓足眾H和1946000006533383550DOO-17IBJBC1th方亞38AOnooo1309710HOLDDO巧IS80口&EhFmfw口「討吠準(zhǔn)375?1-256II〞D?7625平方與異和的和4.1BGEBS3SS0DOOianEB?99937BnrinunE?1B710.D003.S&TE7?IBBOTElOOOHF;eG8ppne^ar402?D77-.2661Htt130潮価平方◎究見曰和3&34COO:<00?1T0DOO?MQBT6.DOOB347550Q-736BOOUDO-38BOO-1S9BT6DOUI6B95100NI'iGB8所以X~Np(m習(xí)。2.8方法匕n(XiX)(Xin1i1X)方法2:E(三)nXiXinXXi1—E(XiXin1i1nXX)XiXi(Xi-X)(Xi-X)Xi-p(Xp(Xi-山(Xi-p1n(Xi-p(Xi-pi1n(Xi-p(Xi-口)i1(1nEXX—(n1)2工。1(X口)n2(Xi-P(X-pi1n(X口)(X2n(X口)(X口)n(XP(X口)n(X口)(XM)-^-E (Xi-P(Xi-pn1i1nE(Xi-P(Xi-pnE(Xi1工的無偏估計。n(XQ(X2.9.設(shè)X(d,X(2),-..,X(n)是從多元正態(tài)分布 X~Np(p習(xí)抽出的一個簡單隨機樣本,試求S的分布。證明:設(shè)**L***L*r**L* (j)為一正交矩陣,即rrI。11L1一n、n■,n令z=(zZLZn)=X1X2LXnr,由于Xi(i1,2,3,4丄n)獨立同正態(tài)分布,且r為正交矩陣所以 (12Ln)獨立同正態(tài)分布。且有Zn Xi,E(Zn)+ E(Xi)石口,Var(Zn)藝Uni1 Vni1E(Za)nE(rajX)ji(a1,2,3,L,n1)Var(Za)rajrnj1Var(j(1rajXj)1r^r^VarjiXjn2藝raj藝j1Z2LZn,獨立同N(0,習(xí)分布。又因為(XjX)(Xj1X)nXXnXXnXjXjj1因為nXXnJnXi?ni1ZnZnn又因為XjXjj1X1X2X1XnX2XnX1X2XnX1X2rrMXnZ2Zn所以原式XjXjZnZnj1ZjZjj1ZnZn乙乙Z2Z2ZnZn-ZnZnj,由于乙,Z2,L,Zn1獨立同正態(tài)分布Np(O,習(xí),所以j~Wp(n1,)2.10.設(shè)Xigp)是來自Np(Mi,厶)的簡單隨機樣本,i1,2,3,L,k,(1)藝,求卩和藝的估計。(2)藝求M1,M2,…,,耳和工的估計。解:(1)?(2)lnInk naXiIlka1i1k naa aXi XXiXa1i1ri| n2 ... rikL(山,L,M-k,藝)(2 )p藝n2 1exp[(X:-Ma)£(X:-Ma)]InLInL(仏習(xí)1 門 1kna2pnln(2) 2In2 2a1i!(x'-弘)y1(x'-旳)InL(習(xí)2na(xai1Ma)(XiaM-a)InL(%,2)nj21(Xii1Mj解之,得1njMj XjXij,①i1Mj) 0(j 1,2,...,k)XijXj Xijxj2j1i1knjn n2 ... nk當(dāng)2未知(S2(X0),nsn(X當(dāng)2未知(S2(X0),nsn(XiX)2作為2的估計量)|t|t山1)一個正態(tài)總體H0:[1Mo協(xié)差陣2To2協(xié)差陣2未知n(X1)P(n(n1)p1—2M)2(Xm)~ (P)】T2~F(p,np)T02 2第三章3.1試述多元統(tǒng)計分析中的各種均值向量和協(xié)差陣檢驗的根本思想和步驟。其根本思想和步驟均可歸納為:答:第一,提出待檢驗的假設(shè)和H1;第二,給出檢驗的統(tǒng)計量及其服從的分布;第三,給定檢驗水平,查統(tǒng)計量的分布表,確定相應(yīng)的臨值,從而得到否認(rèn)域;第四,根據(jù)樣本觀測值計算出統(tǒng)計量的值, 看是否落入否認(rèn)域中,以便對待判假設(shè)做出決策〔拒絕或接受〕。均值向量的檢驗:拒絕域統(tǒng)計量拒絕域在單一變量中2(X 0)-2(T2(n1)[、‘n(X mOS1、、n(X心])兩個正態(tài)總體H兩個正態(tài)總體Ho:山M22nm^ 1 2 2 2有共同協(xié)差陣 T0 (XY)藝(XY)~ (p) Tonm(nm2)p1有共同未知協(xié)差陣F T~F(p,nmpl) FF(nm2)p(其中T2(nm2)(其中T2(nm2)「nmYnm(XY)s1n^m(xY))nm協(xié)差陣不等nm(np)n—-i協(xié)差陣不等nmF ZSZ~F(p,np)p協(xié)差陣不等nmF °— ZS-1Z~F(p,np) FFp多個正態(tài)總體Ho:單因素方差FSS單因素方差FSS誥k)~F(k1nk)多因素方差(p,nk,k1)多因素方差協(xié)差陣的檢驗檢驗藝藝oHo:Ipexp1 n/2enp/2H。:expHo:Ipexp1 n/2enp/2H。:exp*n/2Snp/2藝kk統(tǒng)計量knnp/2i1Sini/2Sn/2kpni/2i13.2試述多兀統(tǒng)計中霍特林--分布和威爾克斯右分布分別與一兀統(tǒng)計中t分布和F分布的關(guān)系。n(X)2S2n(X答:〔1〕霍特林n(X)2S2n(X21—)(S)(X)而假設(shè)設(shè)X?Np(卩,習(xí),S~Wp(n,習(xí)且X與S相互獨立,np,那么稱統(tǒng)計量一;- 'v-||的分布為非中心霍特林T2分布。

假設(shè)X?Np(O,藝),S~Wp(n,習(xí)且X與S相互獨立,令T2nXS1X,那么nP1丁2T~F(p,np1)onp(2)威爾克斯分布在實際應(yīng)用中經(jīng)常把 統(tǒng)計量化為T2統(tǒng)計量進而化為F統(tǒng)計量,利用F統(tǒng)計量來解決多元統(tǒng)計分析中有關(guān)檢驗問題。與F統(tǒng)計量的關(guān)系pF統(tǒng)計量及分別任意任意1n1p11Jp,n;;1)~F(p,n1p1)p (p,n1,1)任意任意2E p1 J(p,門仆2)—二2?F(2p,2(n p))p J(p,n1,2)1任意任意n1 1 (1小1,壓)_ 、,,、?F(n2,n1)n2 (1,n1,n?)2任意任意n111J(2,mn2)f(2n2(n1))■ ~F(2“2,2(51))n2 V(2,n』)3.3試述威爾克斯統(tǒng)計量在多兀方差分析中的重要意義。答:威爾克斯統(tǒng)計量在多元方差分析中是用于檢驗均值的統(tǒng)計量。H0: 血L%Hi:至少存在ij使口 山用似然比原那么用似然比原那么構(gòu)成的檢驗統(tǒng)計量為(p,nk,k1)給定檢驗水平,查Wilks分布表,確定臨界值,然后作出統(tǒng)計判斷。第四章4.1簡述歐幾里得距離與馬氏距離的區(qū)別和聯(lián)系。答:設(shè)p維歐幾里得空間少1中的兩點和?:片,嚴(yán)遅爲(wèi)。那么歐幾里得其度量不合理。②會受距離為 歐幾里得距離的局限有①在多元數(shù)據(jù)分析中,其度量不合理。②會受到實際問題中量綱的影響。設(shè)X,Y是來自均值向量為設(shè)X,Y是來自均值向量為1,協(xié)方差為三的總體G中的p維樣本。那么馬氏距離為D(X,Y)= 「1—「‘三二工—丫:。當(dāng)丄一_.即單位陣時d(x,y)=「?---噸傀莎即歐幾里得距離。因此,在一定程度上,歐幾里得距離是馬氏距離的特殊情況, 馬氏距離是歐幾里得距離的推廣。4.2試述判別分析的實質(zhì)。答:判別分析就是希望利用已經(jīng)測得的變量數(shù)據(jù), 找出一種判別函數(shù),使得這一函數(shù)具有某種最優(yōu)性質(zhì),能把屬于不同類別的樣本點盡可能地區(qū)別開來。設(shè) R1,R2,…,Rk是p維空間Rp的k個子集,如果它們互不相交,且它們的和集為 …,那么稱為丄〞的一個劃分。判別分析問題實質(zhì)上就是在某種意義上,以最優(yōu)的性質(zhì)對 p維空間?,構(gòu)造一個“劃分〞,這個“劃分〞就構(gòu)成了一個判別規(guī)那么。4.3簡述距離判別法的根本思想和方法。答:距離判別問題分為①兩個總體的距離判別問題和②多個總體的判別問題。 其根本思想都是分別計算樣本與各個總體的距離(馬氏距離) ,將距離近的判別為一類。兩個總體的距離判別問題設(shè)有協(xié)方差矩陣刀相等的兩個總體G1和G2,其均值分別是1和2,對于一個新的樣品X,要判斷它來自哪個總體。計算新樣品X到兩個總體的馬氏距離D2(X,Gi)和D2(X,G2),那么rX"1,D2(X,Gi)£D2(X,G2)X::g,D2(X,Gi)>D2(X,G2,具體分析,22D(X,Gi)D(X,G2)(Xp)1(Xp)(X1□2)藝(X□2)X藝1X2X藝1p(X藝1X2X2X藝1(pp)p藝1pp2藝p22X工1(pp)(pp)工1(p1卩2)2Xpp工1(p血)藝1p p2藝1p2)2(X記W(X)p)a2a(Xp)a(Xp那么判別規(guī)那么為X心住詔,W(X)<0②多個總體的判別問題。設(shè)有k個總體Gi,G2,,Gk,其均值和協(xié)方差矩陣分別是口1,P2, ,Pk禾口厶,藝2,,?k,且21 藝2藝。計算樣本到每個總體的馬氏距離,到哪個總體的距離最小就屬于哪個總體。具體分析,2D(X,G)1藝1(X2p藝1X[1[12(I12p藝1p,1,2,,k??梢匀【€性判別函數(shù)為W(X)IXC相應(yīng)的判別規(guī)那么為XGi1,2,假設(shè)W(X),kmax(lXC)1k4.4簡述貝葉斯判別法的根本思想和方法。根本思想:設(shè)k個總體G1,G2,,G個總體各自出現(xiàn)的概率分別為qi,q2,其各自的分布密度函數(shù)kqii1,k。,qk,qi0,錯判到總體Gj時造成的損失為C(j|i),i,j1,2,設(shè)k個總體G1,G2,,Gk相應(yīng)的p維樣本空間為R在規(guī)那么R下,將屬于Gi的樣品錯判為Gj的概率為Rfi(x)dxRj那么這種判別規(guī)那么下樣品錯判后所造成的平均損失為kr(i|R)[C(j|i)P(j|i,R)]j1P(j|i,R)i,jf,x),f2(x), ,fk(x),假設(shè)k(R1,R2,1,2,,ki1,2設(shè)將本來屬于Gi總體的樣品,Rk)。,k那么用規(guī)那么R來進行判別所造成的總平均損失為g(R)qir(i,R)i1k kqiC(j|i)P(j|i,R)i1j1,Rk,使總平均損失g(R)到達極小。根本方法:貝葉斯判別法那么,Rk,使總平均損失g(R)到達極小。根本方法:g(R) qiC(j|i)P(j|i,R)j1qij1C(j|i)Rjfi(x)dxkR( qiC(j|i)fqij1C(j|i)Rjfi(x)dxkR( qiC(j|i)fi(x))dxj1ji1k令 qC(j|i)fi(x)hj(x),那么g(R)i1Rhj(x)dxk假設(shè)有另一劃分R*(R*,R;,,Rk),g(R*)R*hj(x)dxj1j那么在兩種劃分下的總平均損失之差為g(R)g(R)RR*[hi(x)hj(x)]dxRiRj因為在Ri上hi(x)hj(x)對一切j成立,故上式小于或等于零,是貝葉斯判別的解。從而得到的劃分R(R1,R2,,Rk)為R{x|hi(x)mFEx)}i1,2,,k4.5簡述費希爾判別法的根本思想和方法。答:根本思想:從k個總體中抽取具有P個指標(biāo)的樣品觀測數(shù)據(jù),借助方差分析的思想構(gòu)造一個線性判別函數(shù)U(X)U1X1U2X2LUpXpuX系數(shù)U(U1,U2,,Up)可使得總體之間區(qū)別最大,而使每個總體內(nèi)部的離差最小。將新樣品的p個指標(biāo)值代入線性判別函數(shù)式中求出u(X)值,然后根據(jù)判別一定的規(guī)那么,就可以判別新的樣品屬于哪個總體。4.6試析距離判別法、貝葉斯判別法和費希爾判別法的異同。答:①費希爾判別與距離判別對判別變量的分布類型無要求。二者只是要求有各類母體的兩階矩存在。而貝葉斯判別必須知道判別變量的分布類型。因此前兩者相對來說較為簡單。當(dāng)k=2時,假設(shè)-->:■-?那么費希爾判別與距離判別等價。當(dāng)判別變量服從正態(tài)分布時,二者與貝葉斯判別也等價。當(dāng)二二時,費希爾判別用「-二作為共同協(xié)差陣,實際看成等協(xié)差陣,此與距離判別、貝葉斯判別不同。距離判別可以看為貝葉斯判別的特殊情形。貝葉斯判別的判別規(guī)那么是 X-,W(X)?h?;X(=?,W(X)<Ind距離判別的判別規(guī)那么是2X巨G1,W(X)>0X-G_,W(X)<0二者的區(qū)別在于閾值點。當(dāng) qq2,C(1|2)C(2|1)時,d1,lnd0。二者完全相同。4.7設(shè)有兩個二元總體[和I,從中分別抽取樣本計算得到涓:朗山 :,〔一……假設(shè)二二,試用距離判別法建立判別函數(shù)和判別規(guī)那么。樣品X=(6,0)'應(yīng)屬于哪個總體?解:—一亠邸m "一=…佻=&(x-p)=(x-ji)(,J(x-p)=(6,0)-(4.0.5)=(2.0.5)"=丄(冷-21)—3967^-21 5.Sf%=如磊CS益)?=錨"衛(wèi)珞即樣品X屬于總體4.8某超市經(jīng)銷十種品牌的飲料,其中有四種暢銷,三種滯銷,三種平銷。下表是這十種品牌飲料的銷售價格(元)和顧客對各種飲料的口味評分、信任度評分的平均數(shù)。銷售情況產(chǎn)品序號銷售價格口味評分信任度評分12.258暢銷22.56733.03943.28652.876平銷63.58774.89881.734滯銷92.242102.743⑴根據(jù)數(shù)據(jù)建立貝葉斯判別函數(shù),并根據(jù)此判別函數(shù)對原樣本進行回判。⑵現(xiàn)有一新品牌的飲料在該超市試銷,其銷售價格為 3.0,顧客對其口味的評分平均為8,信任評分平均為5,試預(yù)測該飲料的銷售情況。解:增加group變量,令暢銷、平銷、滯銷分別為 groupl、2、3;銷售價格為Xi,口味評分為X2,信任度評分為X3,用spss解題的步驟如下:在SPSS窗口中選擇Analyze宀Classify宀Discriminate ,調(diào)出判別分析主界面,將左邊的變量列表中的“ group〞變量選入分組變量中,將 X1、X2、X3變量選入自變量中,并選擇Enterindependentstogether 單項選擇按鈕,即使用所有自變量進行判別分析。點擊DefineRange按鈕,定義分組變量的取值范圍。本例中分類變量的范圍為1到3,所以在最小值和最大值中分別輸入 1和3。單擊Continue按鈕,返回主界面。如圖4.1圖4.1 判別分析主界面單擊Statistics…按鈕,指定輸出的描述統(tǒng)計量和判別函數(shù)系數(shù)。選中FunctionCoefficients 欄中的Fisher's:給出Bayes判別函數(shù)的系數(shù)。〔注意:這個選項不是要給出 Fisher判別函數(shù)的系數(shù)。這個復(fù)選框的名字之所以為Fisher's,是因為按判別函數(shù)值最大的一組進行歸類這種思想是由 Fisher提出來的。這里極易混淆,請讀者注意區(qū)分。 〕如圖4.2。單擊Continue按鈕,返回主界面。

圖4.2statistics 子對話框單擊Classify…按鈕,彈出classification 子對話框,選中 Display選項欄中的Summarytable 復(fù)選框,即要求輸出錯判矩陣,以便實現(xiàn)題中對原樣本進行回判的要求。如圖 4.3。圖4.3classification對話框返回判別分析主界面,單擊 OK按鈕,運行判別分析過程。1) 根據(jù)判別分析的結(jié)果建立 Bayes判別函數(shù):Bayes判別函數(shù)的系數(shù)見表4.1。表中每一列表示樣本判入相應(yīng)類的 Bayes判別函數(shù)系數(shù)。由此可建立判別函數(shù)如下:Group1Y181.84311.689X112.297X216.761X3Group2:Y294.53610.707X113.361X217.086X3Group3:Y317.4492.194X14.960X26.447X3將各樣品的自變量值代入上述三個 Bayes判別函數(shù),得到三個函數(shù)值。比擬這三個函數(shù)值,哪個函數(shù)值比擬大就可以判斷該樣品判入哪一類。ClassificationFunctionCoefficientsgroup123x1-11.689-10.707-2.194x212.29713.3614.960x316.76117.0866.447(Constant)-81.843-94.536-17.449Fisher'slineardiscriminantfunctions表4.1 Bayes判別函數(shù)系數(shù)根據(jù)此判別函數(shù)對樣本進行回判,結(jié)果如表 4.2。從中可以看出在4種暢銷飲料中,有3種被

正確地判定,有1種被錯誤地判定為平銷飲料, 正確率為75%。在3種平銷飲料中,有2種被正確判定,有1種被錯誤地判定為暢銷飲料,正確率為 66.7%。3種滯銷飲料均正確判定。整體的正確率為80.0%。ClassificationResultsPredictedGroupMembershipgroup123TotalOriginal Count131042120330033%175.025.0.0100.0233.366.7.0100.03.0.0100.0100.0a.80.0%oforiginalgroupedcasescorrectlyclassified.表4.2 錯判矩陣2〕該新飲料的X13.0,X28,X35,將這3個自變量代入上一小題得到的 Bayes判別函數(shù),Y2的值最大,該飲料預(yù)計平銷。也可通過在原樣本中增加這一新樣本,重復(fù)上述的判別過程,并在classification 子對話框中同時要求輸出casewiseresults,運行判別過程,得到相同的結(jié)果。4.9銀行的貸款部門需要判別每個客戶的信用好壞〔是否未履行還貸責(zé)任〕 ,以決定是否給予貸款??梢愿鶕?jù)貸款申請人的年齡〔 XJ、受教育程度〔X2〕、現(xiàn)在所從事工作的年數(shù)〔X3、、未變更住址的年數(shù) 〔X4〕、收入〔X5、、負(fù)債收入比例〔X6、、信用卡債務(wù)〔X7〕、其它債務(wù)〔X8、等來判斷其信用情況。下表是從某銀行的客戶資料中抽取的局部數(shù)據(jù),⑴根據(jù)樣本資料分別用距離判別法、 Bayes判別法和Fisher判別法建立判別函數(shù)和判別規(guī)那么。⑵某客戶的如上情況資料為〔53,1,9,18,50,11.20,2.02,3.58〕,對其進行信用好壞的判別。目前信用客戶X!X2X3X4X5X6X7X8好壞序號123172316.600.341.71已履行還2341173598.001.812.91貸責(zé)任3422723414.600.94.9443911954813.101.934.36535191345.000.401.306371132415.101.801.82未履行還7291131427.401.461.65貸責(zé)任83221167523.307.769.72928223236.400.191.2910261432710.502.47.36解:令已履行還貸責(zé)任為 groupO,未履行還貸責(zé)任為 groupl。令(53,1,9,18,50,11.20,2.02,3.58)客戶序號為11,group未知。用spss解題步驟如下:在SPSS窗口中選擇Analyze宀Classify宀Discriminate ,調(diào)出判別分析主界面,將左邊的變量列表中的“group〞變量選入分組變量中,將 X1X6變量選入自變量中,并選擇Enterindependents together單項選擇按鈕,即使用所有自變量進行判別分析。點擊DefineRange 按鈕,定義分組變量的取值范圍。本例中分類變量的范圍為 0到1,所以在最小值和最大值中分別輸入 0和1。單擊Continue按鈕,返回主界面。單擊Statistics…按鈕,指定輸出的描述統(tǒng)計量和判別函數(shù)系數(shù)。選中 FunctionCoefficients 欄中的Fisher's和Unstandardized 。單擊Continue按鈕,返回主界面。單擊Classify…按鈕,定義判別分組參數(shù)和選擇輸出結(jié)果。選擇 Display欄中的Casewiseresults,以輸出一個判別結(jié)果表。其余的均保存系統(tǒng)默認(rèn)選項。單擊Continue 按鈕。返回判別分析主界面,單擊 OK按鈕,運行判別分析過程。1)用費希爾判別法建立判別函數(shù)和判別規(guī)那么:未標(biāo)準(zhǔn)化的典型判別函數(shù)系數(shù)由于可以將實測的樣品觀測值直接代入求出判別得分, 所以該系數(shù)使用起來比標(biāo)準(zhǔn)化的系數(shù)要方便一些。具體見表 4.3。CanonicalUBsanmirHinlMncODnLaelDdent^Fuhrlim1XI血*雨X9[CondtairwS.6B7.173-J57JQ24710.7B3-2J03UnfitsndirdladicovRIdante表4.3 未標(biāo)準(zhǔn)化的典型判別函數(shù)系數(shù)由此表可知, Fisher判別函數(shù)為:Y10.7940.32X1 6.687X20.173X30.357X40.024X50.710X60.792X72.383X8用Y計算出各觀測值的具體坐標(biāo)位置后,再比擬它們與各類重心的距離,就可以得知分類,如假設(shè)與group0的重心距離較近那么屬于 group0,反之亦然。各類重心在空間中

的坐標(biāo)位置如表4.4所示。FuncbnngrouFuncbnngrou10-243712畑UnstarKlardizedcanonicadiscriminantfunctonsevaluatedatgroupmeans表4.4各類重心處的費希爾判別函數(shù)值用bayes判別法建立判別函數(shù)與判別規(guī)那么,由于此題中假設(shè)各類出現(xiàn)的先驗概率相等且誤判造成的損失也相等,所以距離判別法與 bayes判別完全一致。如表4.5所示,group欄中的每一列表示樣品判入相應(yīng)列的 Bayes判別函數(shù)系數(shù)。由此可得,各類的Bayes判別函數(shù)如下:GO 118.6930.340X194.070X21.033X34.943X42.969X513.723X610.994X737.504X8G1 171.2960.184X1126.660X21.874X36.681X43.086X517.182X67.133X749.116X8cttsTiincHihmFundinn門呻mdun特JTIJUlfJ01.340.1849t070126.660疸1.0931.871-IJU3-e.eeik5s.yby3UbbxSrT72317re?-10.994-7.T33'37.904-49/15(CQnet^nVp0,603■171.296Fithar'ilir'iQdidi?(rnnaitfunctar?表4.5Bayes判別函數(shù)系數(shù)將各樣品的自變量值代入上述兩個 Bayes判別函數(shù),得到兩個函數(shù)值。比擬這兩個函數(shù)值,哪個函數(shù)值比擬大就可以判斷該樣品該判入哪一類。2)在判別結(jié)果的CasewiseStastics表中容易查到該客戶屬于 2)在判別結(jié)果的CasewiseStastics表中容易查到該客戶屬于 groupO,信用好。4.10從胃癌患者、萎縮性胃炎患者和非胃炎患者中分別抽取五個病人進行四項生化指標(biāo)的化驗:血清銅蛋白 X1、藍(lán)色反響X2、尿吲哚乙酸X3和中性硫化物X4,數(shù)據(jù)見下表。試用距離判別法建立判別函數(shù),并根據(jù)此判別函數(shù)對原樣本進行回判。類別病人序號X!X2X3X4胃癌1228134201122451341040患32001671227者41701507851001672014臺 者 患622512571471301006128150117769120133102610160100510非11185115519胃1217012564炎13165142531510011772解:令胃癌患者、萎縮性胃炎患者和非胃炎患者分別為 groupl、group2、group3,由于此題中假設(shè)各類出現(xiàn)的先驗概率相等且誤判造成的損失也相等,所以距離判別法與 bayes判別完全一致。用spss的解題步驟如下:在SPSS窗口中選擇Analyze宀Classify宀Discriminate,調(diào)出判別分析主界面,將左邊的變量列表中的“group〞變量選入分組變量中,將X1、X2、X3、X4變量選入自變量中,并選擇Enterindependentstogether單項選擇按鈕,即使用所有自變量進行判別分析。點擊DefineRange 按鈕,定義分組變量的取值范圍。本例中分類變量的范圍為 1到3,所以在最小值和最大值中分別輸入 1和3。單擊Continue按鈕,返回主界面。單擊Statistics…按鈕,指定輸出的描述統(tǒng)計量和判別函數(shù)系數(shù)。選中 FunctionCoefficients 欄中的Fisher's:給出Bayes判別函數(shù)的系數(shù)。單擊Classify…按鈕,彈出classification 子對話框,選中Display選項欄中的Summarytable復(fù)選框,即要求輸出錯判矩陣,以便實現(xiàn)題中對原樣本進行回判的要求。返回判別分析主界面,單擊 0K按鈕,運行判別分析過程。根據(jù)判別分析的結(jié)果建立 Bayes判別函數(shù):Bayes判別函數(shù)的系數(shù)見表4.6。表中每一列表示樣本判入相應(yīng)類的 Bayes判別函數(shù)系數(shù)。由此可建立判別函數(shù)如下:Group1:Y179.2120.164X10.753X20.778X30.073X4Group2:Y246.7210.130X10.595X20.317X30.012X4Group3:Y349.5980.130X10.637X20.100X30.059X4將各樣品的自變量值代入上述三個 Bayes判別函數(shù),得到三個函數(shù)值。比擬這三個函數(shù)值,哪個函數(shù)值比擬大就可以判斷該樣品判入哪一類。ciassmcatiaiHinctionLoenicienrsgroup123>11E4.130130.753595.閃f>3.77B.317.100x4■0Z3.012-.059(CanstanO-79212-4S.59SFishedinsarliscnnniiantfLnction^表4.6Bayes判別函數(shù)系數(shù)根據(jù)此判別函數(shù)對樣本進行回判,結(jié)果如表 4.7。從中可以看出在5個胃癌患者中,有4個被正確地判定,有1個被錯誤地判定為非胃炎患者,正確率為80%。在5個萎縮性胃炎患者中,有4個被正確判定,有1個被錯誤地判定為非胃炎患者,正確率為80%。在5個非胃炎患者中,有4個被正確判定,有1個被錯誤地判為萎縮性胃炎患者。整體的正確率為80.0%。ciassric^tiorihkuh護PfQdictadGrauorflornustchiparoj13TotelOrigin^Couni4C152041530145%1.0tODD2C60C2DC1QD.G302DCODCODC3.Efl.O%cforiginalgioupgd?鮎舲tciretilvclashed.表4.7錯判矩陣第五章判別分析和聚類分析有何區(qū)別?答:即根據(jù)一定的判別準(zhǔn)那么,判定一個樣本歸屬于哪一類。具體而言,設(shè)有 n個樣本,對每個樣本測得p項指標(biāo)〔變量〕的數(shù)據(jù),每個樣本屬于 k個類別〔或總體〕中的某一類,通過找出一個最優(yōu)的劃分, 使得不同類別的樣本盡可能地區(qū)別開, 并判別該樣本屬于哪個總體。聚類分析是分析如何對樣品〔或變量〕進行量化分類的問題。在聚類之前,我們并不知道總體,而是通過一次次的聚類,使相近的樣品〔或變量〕聚合形成總體。通俗來講,判別分析是在有多少類及是什么類的情況下進行分類, 而聚類分析是在不知道類的情況下進行分類。試述系統(tǒng)聚類的根本思想。答:系統(tǒng)聚類的根本思想是:距離相近的樣品〔或變量〕先聚成類,距離相遠(yuǎn)的后聚成類,過程一直進行下去,每個樣品〔或變量〕總能聚到適宜的類中。對樣品和變量進行聚類分析時, 所構(gòu)造的統(tǒng)計量分別是什么?簡要說明為什么這樣構(gòu)造?答:對樣品進行聚類分析時,用距離來測定樣品之間的相似程度。因為我們把 n個樣本看作p維空間的n個點。點之間的距離即可代表樣品間的相似度。常用的距離為p q1/q〔一〕閔可夫斯基距離: dj〔q〕〔X,Xjk廠k1q取不同值,分為〔1〕絕對距離〔q1〕pdj〔1〕 XikXjkk1〔2〕歐氏距離〔q2〕Pdj(2)(k1XikXjk2)1/2〔3〕切比雪夫距離〔dj()mmaxXikXjk〔二〕馬氏距離1dj(L)-XikXjkpk1XikXjk〔三〕蘭氏距離21dij(M)(XiXj)E(XiXj)對變量的相似性,將變量看作p維空間的向量,〕夾角余弦cosij我們更多地要了解變量的變化趨勢或變化方向,因此用相關(guān)性進行衡量。般用pXikXjkk1— p〔Xi:〕〔 Xj;〕k1 k1相關(guān)系數(shù)rijp _ _(XikXi)(XjkXj)k1p(Xikk1p一2—2Xi)(XjkXj)k15.4那么?答:〔1〕在進行系統(tǒng)聚類時,設(shè)dij表示樣品.最短距離法DijDkr最長距離法DpqDkr不同類間距離計算方法有何區(qū)別?選擇距離公式應(yīng)遵循哪些原Xi與Xj之間距離,用Dij表示類Gi與Gj之間的距離。XiXiXiminGk,XjGjdjGrdj min{Dkp,Dkq}maxGp,XjGdjGqmaxXiGk,XjGrdjmax{Dkp,Dkq}(3)中間距離法2Dpq21212

Dkr D2Dpq22重心法2Dpq(XpXq)(XpXq)Xr (npXpnqXq)nr2Dkrnp2pD2Dkpnrn±D2Dkqnrnpnqnr2Dpq類平均法2DpqnpnqXi2DpqnpnqXiGpXjGjd"DinknrXiGkXjdjGr^D2p凸Dkqnrnr可變類平均法其中(1 吟其中(1 吟dp是可變的且<1Djq可變法DkrD:qDkrD:q)2Dpq其中是可變的且<1離差平方和法Stnt(Xitt1Xt)(XitXt)Stnt(Xitt1Xt)(XitXt)Dpq=arDkrnknpnrnkDkpnk nqDkqnr nk2

pq通常選擇距離公式應(yīng)注意遵循以下的根本原那么:(1)要考慮所選擇的距離公式在實際應(yīng)用中有明確的意義。如歐氏距離就有非常明確的空間距離概念。馬氏距離有消除量綱影響的作用。(2)要綜合考慮對樣本觀測數(shù)據(jù)的預(yù)處理和將要采用的聚類分析方法。如在進行聚類分析之前已經(jīng)對變量作了標(biāo)準(zhǔn)化處理,那么通常就可采用歐氏距離?!?〕要考慮研究對象的特點和計算量的大小。樣品間距離公式的選擇是一個比擬復(fù)雜且?guī)в幸欢ㄖ饔^性的問題,我們應(yīng)根據(jù)研究對象的特點不同做出具體分折。 實際中,聚類分析前不妨試探性地多項選擇擇幾個距離公式分別進行聚類, 然后對聚類分析的結(jié)果進行比照分析, 以確定最適宜的距離測度方法。5.5試述K均值法與系統(tǒng)聚類法的異同。答:相同:K—均值法和系統(tǒng)聚類法一樣,都是以距離的遠(yuǎn)近親疏為標(biāo)準(zhǔn)進行聚類的。不同:系統(tǒng)聚類對不同的類數(shù)產(chǎn)生一系列的聚類結(jié)果, 而K—均值法只能產(chǎn)生指定類數(shù)的聚類結(jié)果。具體類數(shù)確實定,離不開實踐經(jīng)驗的積累; 有時也可以借助系統(tǒng)聚類法以一局部樣品為對象進行聚類,其結(jié)果作為 K—均值法確定類數(shù)的參考。5.6試述K均值法與系統(tǒng)聚類有何區(qū)別?試述有序聚類法的根本思想。答:K均值法的根本思想是將每一個樣品分配給最近中心〔均值〕的類中。系統(tǒng)聚類對不同的類數(shù)產(chǎn)生一系列的聚類結(jié)果,而K—均值法只能產(chǎn)生指定類數(shù)的聚類結(jié)果。 具體類數(shù)確實定,有時也可以借助系統(tǒng)聚類法以一局部樣品為對象進行聚類,其結(jié)果作為 K均值法確定類數(shù)的參考。有序聚類就是解決樣品的次序不能變動時的聚類分析問題。如果用 X⑴,X⑵,,X〔n〕表示n個有序的樣品,那么每一類必須是這樣的形式,即 X〔i〕,X〔ii〕,,X〔j〕,其中1in,且jn,簡記為Gi{i,i1,,j}。在同一類中的樣品是次序相鄰的。一般的步驟是〔 1〕計算直徑{D〔i,j〕}?!?〕計算最小分類損失函數(shù){L[p〔l,k〕]}。⑶確定分類個數(shù)k?!?〕最優(yōu)分類。5.7檢測某類產(chǎn)品的重量, 抽了六個樣品, 每個樣品只測了一個指標(biāo), 分別為1,2,3,6,9,11.試用最短距離法,重心法進行聚類分析?!?〕用最短距離法進行聚類分析。TOC\o"1-5"\h\z采用絕對值距離,計算樣品間距離陣 _GiGjGgGaGs輪.0毎 1 02 1 0甌 5 4 3 0

樂10 9 8 5 2 0由上表易知岷沁中最小元素是- -_z于是將1,[,:聚為一類,記為%?計算距離陣一G?G」LGsg6Gy0G山30GS630Gfi8520:中最小兀素是一,..=2于是將“,血:聚為一類,記為“!計算樣本距離陣L:'GtGaG-0每30Ga630心申越中最小元素是.■::于是將%,—;聚為一類,記為r因此,

計算樣品間平方距離陣■G】G3CGfi.%0$10Ga410瓦251690Gs64493690Gfi1008164254 0易知A.:?中最小元素是…?一. 于是將';'血,:飛,民聚為一類,記為%TOC\o"1-5"\h\z計算距離陣_ -G7 G止 G5 G6嶋 0他 16 0;G 49 9 0% 81 25 4 0

注:計算方法 ..----.,其他以此類推。呂■..中最小元素是ii弊環(huán)=4于是將[聚為一類,記為\計算樣本距離陣-Gy0G止16064160丄廠:.中最小兀素是J- ; -h.于是將%」,L-;7‘聚為一類,記為.1因此,5.8下表是15個上市公司2001年的一些主要財務(wù)指標(biāo), 使用系統(tǒng)聚類法和K—均值法分別對這些公司進行聚類,并對結(jié)果進行比擬分析。公司編號凈資產(chǎn)收益率每股凈利潤總資產(chǎn)周轉(zhuǎn)率資產(chǎn)負(fù)債率流動負(fù)債比率每股凈資產(chǎn)凈利潤增長率總資產(chǎn)增長率111.090.210.0596.9870.531.86-44.0481.99211.960.590.7451.7890.734.957.0216.11300.030.03181.99100-2.98103.3321.18411.580.130.1746.0792.181.146.55-56.325-6.19-0.090.0343.382.241.52-1713.5-3.366100.470.4868.4864.7-11.560.85710.490.110.3582.9899.871.02100.2330.32811.12-1.690.12132.14100-0.66-4454.39-62.7593.410.040.267.8698.511.25-11.25-11.4311.160.010.5443.71001.03-87.18-7.41130.220.160.487.3694.880.53729.41-9.9718.190.220.3830.311002.73-12.31-2.77195.79-5.20.5252.3499.34-5.42-9816.52-46.82116.550.350.9372.3184.052.14115.95123.411-24.18-1.160.7956.2697.84.81-533.89-27.74012345解:令凈資產(chǎn)收益率為X1,每股凈利潤X2,總資產(chǎn)周轉(zhuǎn)率為X3,資產(chǎn)負(fù)債率為X4,流動負(fù)債比率為X5,每股凈資產(chǎn)為X6,凈利潤增長率為X7,總資產(chǎn)增長率為X8,用spss對公司聚類分析的步驟如下:a〕系統(tǒng)聚類法:在SPSS窗口中選擇Analyze宀Classify宀HierachicalCluster,調(diào)出系統(tǒng)聚類分析主界面,并將變量X1-X8移入Variables框中。在Cluster欄中選擇Cases單項選擇按鈕,即對樣品進行聚類〔假設(shè)選擇Variables,那么對變量進行聚類〕。在Display欄中選擇Statistics和Plots復(fù)選框,這樣在結(jié)果輸出窗口中可以同時得到聚類結(jié)果統(tǒng)計量和統(tǒng)計圖。圖5.1 系統(tǒng)分析法主界面點擊Statistics 按鈕,設(shè)置在結(jié)果輸出窗口中給出的聚類分析統(tǒng)計量。我們選擇Agglomeration schedule與ClusterMembership中的Rangeofsolution2-4,如圖5.2所示,點擊Continue按鈕,返回主界面。〔其中,Agglomerationschedule 表示在結(jié)果中給出聚類過程表,顯示系統(tǒng)聚類的詳細(xì)步驟;Proximitymatrix表示輸出各個體之間的距離矩陣; ClusterMembership表示在結(jié)果中輸出一個表,表中顯示每個個體被分配到的類別,Rangeofsolution2-4 即將所有個體分為2至4類?!滁c擊Plots按鈕,設(shè)置結(jié)果輸出窗口中給出的聚類分析統(tǒng)計圖。 選中Dendrogram復(fù)選框和Icicle欄中的None單項選擇按鈕,如圖5.3,即只給出聚類樹形圖,而不給

出冰柱圖。單擊Continue按鈕,*3Hi&rarcNta已価導(dǎo)gl網(wǎng)鯊sta__出冰柱圖。單擊Continue按鈕,*3Hi&rarcNta已価導(dǎo)gl網(wǎng)鯊sta__mQR<£■也口用日■址Hrs■匸Feduls口中W,Hi^lrkrClutt?idtoi啦w世 |._:tyona勺n辜旳JJimhti~te"aftftjG曰3:**i曠MrriFnrrMhtnuflinuBito0"匸詢列霽||~Mftdmuni「I/ID*01Ciutwri 4~Cortruetaica)Hep圖5.2Statistics 子對話框返回主界面。韻HMfiHtNuiiCluffifiirArdyeeCIo.JBQbIIkXlBi:^aM*irgr護of口uaam<u?tira£-jCaned H4.圖5.3Plots子對話框定聚類的方法,這里選擇 Between-group inkage〔組間平均數(shù)連接距離〕 ;Measure欄用于選擇對距離和相似性的測度方法,選擇 SquaredEuclideandistanee〔歐氏距離〕;單擊Continue按鈕,返回主界面。圖5.4Method子對話框圖5.5Save子對話框圖5.4Method子對話框點擊Save按鈕,指定保存在數(shù)據(jù)文件中的用于說明聚類結(jié)果的新變量。 None表示不保存任何新變量; Singlesolution 表示生成一個分類變量,在其后的矩形框中輸入要分成的類數(shù);Rangeofsolutions表示生成多個分類變量。這里我們選擇Rangeofsolutions,并在后面的兩個矩形框中分別輸入 2和4,即生成三個新的分類變量,分別說明將樣品分為 2類、3類和4類時的聚類結(jié)果,如圖5.5。點擊Continue,返回主界面。點擊OK按鈕,運行系統(tǒng)聚類過程。聚類結(jié)果分析:下面的群集成員表給出了把公司分為2類,3類,4類時各個樣本所屬類別的情況,另外,從右邊的樹形圖也可以直觀地看到,假設(shè)將15個公司分為2類,那么13單獨為一類,其余的為一類;假設(shè)分為3類,那么公司8別離出來,自成一類。以此類推。表5.1各樣品所屬類別表

>:15ILehtlNm>:15ILehtlNm10ID圖5.6聚類樹形圖b〕K均值法的步驟如下:在SPSS窗口中選擇Analyze宀Classify宀K-MeansCluster,調(diào)出K均值聚類分析主界面,并將變量X1-X8移入Variables框中。在Method框中選擇Iterateclassify,即使用K-means算法不斷計算新的類中心,并替換舊的類中心〔假設(shè)選擇Classifyonly,那么根據(jù)初始類中心進行聚類,在聚類過程中不改變類中心〕 。在NumberofCluster后面的矩形框中輸入想要把樣品聚成的類數(shù),這里我們輸入3,即將15個公司分為3類?!睠enters按鈕,那么用于設(shè)置迭代的初始類中心。 如果不手工設(shè)置,那么系統(tǒng)會自動設(shè)置初始類中心,這里我們不作設(shè)置。 〕圖5.7K均值聚類分析主界面點擊Iterate按鈕,對迭代參數(shù)進行設(shè)置。 MaximumIterations 參數(shù)框用于設(shè)定K-means算法迭代的最大次數(shù),輸入 10,ConvergeneeCriterion參數(shù)框用于設(shè)定算法的收斂判據(jù),輸入 0,只要在迭代的過程中先滿足了其中的參數(shù),那么迭代過程就停止。單擊Continue,返回主界面。K-MeanicusterAnalis:IterateMaxmjmthstionsc-gCcri^ergtnc#C*itffort.o|IUserumincmeansCartiimGancslJtMp圖5.8Iterate子對話框點擊Save按鈕,設(shè)置保存在數(shù)據(jù)文件中的說明聚類結(jié)果的新變量。我們將兩個復(fù)選框都選中,其中Clustermembership 選項用于建立一個代表聚類結(jié)果的變量,默認(rèn)變量名為qcl_1;Distaneefromclustercenter 選項建立一個新變量,代表各觀測量與其所屬類中心的歐氏距離。單擊 Continue 按鈕返回。迴K-MeansClusterSaveNewVari......3flustermmrtibermhiplVDlstanctfromclustercenterCortinue Cancel Help圖5.9Save子對話框點擊Options 按鈕,指定要計算的統(tǒng)計量。 選中Initialclustercenters 和Clusterinformationforeachcase 復(fù)選框。這樣,在輸出窗口中將給出聚類的初始類中心和每個公司的分類信息,包括分配到哪一類和該公司距所屬類中心的距離。 單擊Continue 返回。囹|IC-Me^nClusterArh.OptiaEnlduikerClijalerInslkiiL?r泗曲4_4e14扇mqvaiuoe >f.15>:CHJD*acaseelEtWSECtfrtlrui11 I佻圖5.10Options子對話框點擊OK按鈕,運行K均值聚類分析程序。聚類結(jié)果分析:以下三表給出了各公司所屬的類及其與所屬類中心的距離, 聚類形成的類的中心的各變量值以及各類的公司數(shù)。 由以上表格可得公司13與公司8各自成一類,其余的公司為一類。通過比擬可知,兩種聚類方法得到的聚類結(jié)果完全一致。

5.9下表是某年我國16個地區(qū)農(nóng)民支出情況的抽樣調(diào)查數(shù)據(jù),每個地區(qū)調(diào)查了反映每人平均生活消費支出情況的六個經(jīng)濟指標(biāo)。試通過統(tǒng)計分析軟件用不同的方法進行系統(tǒng)聚類分析,并比擬何種方法與人們觀察到的實際情況較接近。地區(qū)食品衣著燃料住房交通和通訊娛樂教育文化北京190.3343.779.7360.5449.019.04天津135.236.410.4744.1636.493.94河北95.2122.839.322.4422.812.8山西104.7825.116.49.8918.173.25內(nèi)蒙128.4127.638.9412.5823.992.27遼寧145.6832.8317.7927.2939.093.47吉林159.3733.3818.3711.8125.295.22黑龍江116.2229.5713.2413.7621.756.04上海221.1138.6412.53115.6550.825.89江蘇144.9829.1211.6742.627.35.74浙江169.9232.7512.7247.1234.355安徽135.1123.0915.6223.5418.186.39福建144.9221.2616.9619.5221.756.73江西140.5421.517.6419.1915.974.94山東115.8430.2612.233.633.773.85河南101.1823.268.4620.220.54.3磺pl398.1532磺pl398.15323112.95933235.34643132.4265318O8.95S6393.39913205.51182J0C9395.9231)338.967113034.134123101.352131.000143246.08215433.1T8銀類應(yīng)員毎個聚奏中的案例議11.00021.100313.000有敦15.000缺失.3001.23>1S57911.126.48-5.20〞1辭.035012.39252.34132.1471.49>5Q924100.00S2.0S-542-601.90y?-991652-4454.39-103.04*46.82-627511.91解:令食品支出為X1,衣著支出為X2,燃料支出為X3,住房支出為X4,交通和通訊支出為X5,娛樂教育文化支出為X6,用spss對16各地區(qū)聚類分析的步驟如5.8題,不同的方法在第4個步驟的Method子對話框中選擇不同的Clustermethod。〔組間平均數(shù)連接距離〔組間平均數(shù)連接距離〕上表給出了把全國16個地區(qū)分為2類、3類和4類時,各地區(qū)所屬的類別,另外從右邊的樹形圖也可以直觀地觀察到,假設(shè)用組間平均數(shù)連接距離將這些地區(qū)分為 3類,那么9〔上海〕單獨為一類,1〔北京〕和11〔浙江〕為一類,剩余地區(qū)為一類?!步M內(nèi)平均連接距離〕2. Within-grouplinkage0:!310203類,那么3類,那么9〔上海〕單獨為一類,1〔北京〕單獨3.Nearestneighbor 〔最短距離法〕蚩畋?13^1-11222*52-142315221G2211211822193-2no2211142112221旳2114221152:1J62L「1s亡L假設(shè)用最短距離法將這些地區(qū)分為剩余地區(qū)為一類。3類,t/lt/lj*擰矣z帖I11j222332143£1532261227222s32294311022?11111222j1222?142?2153221E3:'?假設(shè)用最遠(yuǎn)距離法將這些地區(qū)分為江〕為一類,剩余地區(qū)為一類。Furthestneighbor 〔最遠(yuǎn)距離法〕RescaledUlBianceClusceiContalLteCASE □ 5 10 15 2D IS十-' 十iN—卄j152131Z7i:n L 3類,貝U9〔上?!硢为殲橐活?,1〔北京〕和11〔浙Centroidcluster〔重心法〕CiSE 0 S 1C 15 20 25LahtiHutu + 1 + i + b假設(shè)用重心法將這些地區(qū)分為為一類,剩余地區(qū)為一類。3類,貝U9〔上?!硢为殲橐活悾?〔北京〕和11〔浙江〕6.Mediancluster 〔中位數(shù)距離〕CAS假設(shè)用中位數(shù)距離法將這些地區(qū)分為江〕為一類,剩余地區(qū)為一類。C10〔浙7.Wardmethod 〔離差平方和〕43薩第2Jf?111122丁?■233□2占3?5333@2*■2722?33a2g411ID2?1111112222132■7An21422?1537IB332L証I總J. hlHill 4-假設(shè)用離差平方和法將這些地區(qū)分為 3類,那么9〔上?!常?〔北京〕和11〔浙江〕為一類,2〔天津〕、6〔遼寧〕、7〔吉林〕、10〔江蘇〕、12〔安徽〕、13〔福建〕和14〔江西〕為一類,剩余地區(qū)為一類。5.10根據(jù)上題數(shù)據(jù)通過SPSS統(tǒng)計分析軟件進行快速聚類運算, 并與系統(tǒng)聚類分析結(jié)果進行比擬。解:快速聚類運算即K均值法聚類,具體步驟同5.8,聚類結(jié)果如下:磁1145.7512磁1145.7512122.9203322.4304315.S6453136806115.2557125.265337.513g2.0001011459S11117.98612319.50113125.91214325.20815319.2011b316.483123X11(6.7722111117.16927939.6425+113J96125311.463A15丨巧帖19.403333508221895595fiq473最倍惑中心7?00021JDO36.00016ODO掾卒舷中的累罰觀聚類的結(jié)果為9〔上海〕單獨為一類,1〔北京〕、2〔天津〕、6〔遼寧〕、7〔吉林〕、10〔江蘇〕、11〔浙江〕、13〔福建〕和14〔江西〕為一類,剩余地區(qū)為一類。5.11下表是2003年我國省會城市和方案單列市的主要經(jīng)濟指標(biāo): 人均GDP人〔元〕、人均工業(yè)產(chǎn)值X2〔元〕、客運總量X3〔萬人〕、貨運總量X4〔萬噸〕、地方財政預(yù)算內(nèi)收入X5〔億元〕、固定資產(chǎn)投資總額X6〔億元〕、在崗職工占總?cè)丝诘谋壤齒〔%〕、在崗職工人均工資額X8〔元〕、城鄉(xiāng)居民年底儲蓄余額Xg〔億元〕。試通過統(tǒng)計分析軟件進行系統(tǒng)聚類分析,并比擬何種方法與人們觀察到的實際情況較接近。X2 X3 X4 X5 X6 X7 X X3052306731886331680134672643343732 350791184100015134131593815241575215831 297581899111257 350841552326815446 66121463北京天津石家莊太原呼和浩特沈陽5920037.82531302201864593418.881230494169.5612673319722.8914112118213.5614968155714.86441182510446602551423大連2914527615110012108111175601310140714.7長春108913871863021045699924629412.501245831115哈爾148257561645895187642317.7濱14上海63868922727306054658677083721219421.055南京167914801322191132754743853021345168161579415.4024664146杭州326674982371711.895076寧波24931379132369106325434790487955510.910合肥1390106211171460344641362458.31359福州2228121310968082506737611.815053876廈門19025359093126444130557023838.64397南昌142219205572844543121011.013913483濟南143516022343722634581047642913.57758青島146630551215332470535506610703054814.551353908104鄭州166741402378476637312.7988武漢1188166113731282127817083208062317.406長沙106010631698154468873916043410.07705廣州4822055404297528852710825.12880372195957深圳191833475110982931052198996793187569.639南寧8176339070165893361708.313171451???3281481164421455343304129916.59284重慶58293245161181244189719050760727902879276.5015277149成都1791492899078811.93844貴陽185112181104610350153184023115.81345昆明123314251621511601512686034214.65709西安11411350121131408913393926544615.951蘭州13481445917136220955812120318.09468西寧706656052788203787610.114629175銀川13491178711013214621271213421.97193烏魯2250817137218812754118026.11650420木齊南寧???18862643333168437323067木齊南寧海口31886264333316843732306759200130346720934953052035074253164437.82118.81864182859資料來源:?中國統(tǒng)計年鑒2004?解:用spss對37個地區(qū)聚類分析的步驟如 5.8題,不同的方法在第 4個步驟的Method子對話框中選擇不同的 Clustermethod。Between-groupinkage 〔組間平均數(shù)連接距離〕從上面的樹形圖可以直觀地觀察到,假設(shè)用組間平均數(shù)連接距離將這些地區(qū)分為 3類,那么24〔深圳〕單獨為一類,10〔上?!澈?6〔廈門〕為一類,剩余地區(qū)為一類。Within-grouplinkage 〔組內(nèi)平均連接距離〕31J3K.&z231J3K.&z2231z333i1231i1211I7*2rhm丁rh假設(shè)用組內(nèi)平均數(shù)連接距離將這些地區(qū)分為 3類,那么24〔上?!硢为殲橐活?,27〔重慶〕和28〔成都〕為一類,剩余地區(qū)為一類。Nearestneighbor 〔最短距離法〕假設(shè)用最短距離法將這些地區(qū)分為 2類,那么24〔深圳〕單獨為一類,剩余地區(qū)為一類。假設(shè)用最遠(yuǎn)距離法將這些地區(qū)分為3類,那么24〔深圳〕單獨為一類,1〔北京〕、2〔天津〕、7〔大連〕、10〔上?!?、11〔南京〕、12〔杭州〕、13〔寧波〕、16〔廈門〕、19〔青島〕、23〔廣州〕、36〔海寧〕和37〔??凇碁橐活悾S嗟貐^(qū)為一類。5.Centroidcluster 〔重心法〕假設(shè)用重心法將這些地區(qū)分為 3類,那么24〔深圳〕單獨為一類,10〔上?!澈?6〔廈門〕為一類,剩余地區(qū)為一類。6.Mediancluster 〔中位數(shù)距離〕假設(shè)6.Mediancluster 〔中位數(shù)距離〕假設(shè)用中位數(shù)距離法將這些地區(qū)分為3類,那么24〔深圳〕單獨為一類,1〔北京〕、2〔天津〕、7〔大連〕、10〔上?!?、11〔南京〕、12〔杭州〕、13〔寧波〕、16〔廈門〕、19〔青島〕、23〔廣州〕、36〔海寧〕和37〔??凇碁橐活?,剩余地區(qū)為一類。Wardmethod 〔離差平方和〕

-577H--577H-I££31S口E{nr-sJlqrsm1?=!fcID1sj1121It?3J13.29-假設(shè)用離差平方和法將這些地區(qū)分為3類,那么24〔深圳〕單獨為一類,1〔北京〕、2〔天津〕假設(shè)用離差平方和法將這些地區(qū)分為7〔大連〕、10〔上?!?、11〔南京〕、12〔杭州〕、13〔寧波〕、16〔廈門〕、19〔青島〕、23〔廣州〕、36〔海寧〕和37〔??凇碁橐活?,剩余地區(qū)為一類。經(jīng)過比擬,各種方法得到的結(jié)果又相似點也有不同點。筆者認(rèn)為, 其中最遠(yuǎn)距離法、中位數(shù)距離、離差平方和這三種方法所得到的結(jié)果與現(xiàn)實生活中人們的感覺比擬相近。5.12下表是我國1991-2003 年的固定資產(chǎn)投資價格指數(shù),試對這段時期進行分段,并據(jù)此對我國固定資產(chǎn)投資的價格變化情況進行分析。年份1991199219931994199519961997指數(shù)109.5115.3126.6110.4105.9104.0101.7年份199819992000200120022003指數(shù)99.899.6101.1100.4100.2100.2第六章試述主成分分析的根本思想。答:我們處理的問題多是多指標(biāo)變量問題, 由于多個變量之間往往存在著一定程度的相關(guān)性,人們希望能通過線性組合的方式從這些指標(biāo)中盡可能快的提取信息。 當(dāng)?shù)谝粋€組合不能提取更多信息時,再考慮第二個線性組合。繼續(xù)這個過程,直到提取的信息與原指標(biāo)差不多時為止。這就是主成分分析的根本思想。主成分分析的作用表達在何處?以各答:一般說來,在主成分分析適用的場合,用較少的主成分就可以得到較多的信息量。以各個主成分為分量,就得到一個更低維的隨機向量;主成分分析的作用就是在降低數(shù)據(jù) “維數(shù)〞的同時又保存了原數(shù)據(jù)的大局部信息。簡述主成分分析中累積奉獻率的具體含義。答:主成分分析把p個原始變量Xi,X2,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論