版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、第四章判別分析4.1 簡述歐幾里得距離與馬氏距離的區(qū)別和聯(lián)系。答:設p維歐幾里得空間Rp中的兩點x=和Y=則歐幾里得距離為。歐幾里得距離的局限有在多元數(shù)據(jù)分析中,其度量不合理。會受到實際問題中量綱的影響。設X,Y是來自均值向量為出,協(xié)方差為IEMBEDEquation.3if,的總體G中的p維樣本。則馬氏距離為D(X,Y)=即單位陣時,D(X,丫尸即歐幾里得距離。因此,在一定程度上,歐幾里得距離是馬氏距離的特殊情況,馬氏距離是歐幾里得距離的推廣。4.2 試述判別分析的實質(zhì)。答:判別分析就是希望利用已經(jīng)測得的變量數(shù)據(jù),找出一種判別函數(shù),使得這一函數(shù)具有某種最優(yōu)性質(zhì),能把屬于不同類別的樣本點盡可能
2、地區(qū)別開來。設R1,R2,Rk是p維空間Rp的k個子集,如果它們互不相交,且它們的和集為R9,則稱為Rp的一個劃分。判別分析問題實質(zhì)上就是在某種意義上,以最優(yōu)的性質(zhì)對p維空間Rp構(gòu)造一個“劃分”,這個“劃分”就構(gòu)成了一個判別規(guī)則。4.3 簡述距離判別法的基本思想和方法。答:距離判別問題分為兩個總體的距離判別問題和多個總體的判別問題。其基本思想都是分別計算樣本與各個總體的距離(馬氏距離),將距離近的判別為一類。兩個總體的距離判別問題設有協(xié)方差矩陣相等的兩個總體G和G,其均值分別是內(nèi)和N2,對于一個新的樣品X,要判斷它來自哪個總體。計算新樣品X到兩個總體的馬氏距離D2(X,G)和D2(X,G),則
3、X,D2(X,G)ID)(X,G)2,一、2,一X,D(X,G)>D(X,G,具體分析,D2(X,Gi)-D2(X,G)=(X四)。X-Mi)-(X函之。X由)=X1,X-2X七四十/、4'四(XT'X-2X2'包+/二-1思)2X(由一出)+(11A內(nèi)M2A的-2X2(國一四).(內(nèi)國)2(曲一國)(“+”=2X-I電)I2=2(X。a=2a(X。則判別規(guī)則為,W(X),W(X)<0多個總體的判別問題。設有k個總體G1,G2,,Gk,其均值和協(xié)方差矩陣分別是g,國,,姝和w,以,且斗=2=2k=2。計算樣本到每個總體的馬氏距離,于哪個總體。具體分析,D2(
4、X,GJ=(X一加5(X一心)到哪個總體的距離最小就屬=X,2X-242X+電2"*也=X2,X-2(I;X+%)C:a=1,2,,k??梢匀【€性判別函數(shù)為Wa(X)=I聯(lián)+Ca,V=1,2,k相應的判別規(guī)則為XwGj若W/X)=max(I鼠+CJ4.4簡述貝葉斯判別法的基本思想和方法?;舅枷耄涸Ok個總體G1,G2,Gk,其各自的分布密度函數(shù)fi(x),fz(x),,fk(x),假設kk個總體各自出現(xiàn)的概率分別為q1,q2,qk,q,>0,£qi=1。設將本來屬于Gj總體的樣品1錯判到總體Gj時造成的損失為C(j|i),i,j=1,2,,k。設k個總體G1,G2,,
5、Gk相應的p維樣本空間為R=(R,R2,,Rk)。在規(guī)則R下,將屬于Gj的樣品錯判為Gj的概率為P(j|i,R)=rfi(x)dxi,j=12,ki二jRj則這種判別規(guī)則下樣品錯判后所造成的平均損失為kr(i|R)-C(j|i)P(j|i,R)i=1,2,kj1則用規(guī)則R來進行判別所造成的總平均損失為kg(R)八qj(i,R)i1kk='、q-C(j|i)P(j|i,R)i1j4貝葉斯判別法則,就是要選擇一種劃分Ri,R2,,Rk,使總平均損失g(R)達到極小。kk基本方法:g(R)='、qC(j|i)P(j|i,R)i4j4kk='、qC(j|i)Rfi(x)dxi4
6、j3jkk八qiC(j|i)fi(x)dxRjj1ji1kk令£qQ(j|”(x)=hj(x),則g(R)=£Rhj(x)dxi1j1jk若有另一劃分R=(R展,,Rk),g(R)=H;*hj(x)dxjmj則在兩種劃分下的總平均損失之差為kk*一一g(R)-g(R)八”,/山(x)-%(x)dx口j苴RGj因為在R上hi(x)M%(x)對一切j成立,故上式小于或等于零,是貝葉斯判別的解。R-/RrRR=xm(x)minhj(x)從而得到的劃分R(Ri,R2,,«)為何包112,k簡述費希爾判別法的基本思想和方法。答:基本思'想:從k個總體中抽取具有pj指
7、標的樣品觀測數(shù)據(jù),借助方差分析的思想構(gòu)造一個線性判別函數(shù)U(X)=u1X1u2X2upXp=uX系數(shù)u=(Ui,U2,,Up)'可使得總體之間區(qū)別最大,而使每個總體內(nèi)部的離差最小。將新樣品的p個指標值代入線性判別函數(shù)式中求出U(X)值,然后根據(jù)判別一定的規(guī)則,就可以判別新的樣品屬于哪個總體。試析距離判別法、貝葉斯判別法和費希爾判別法的異同。答:費希爾判別與距離判別對判別變量的分布類型無要求。二者只是要求有各類母體的兩階矩存在。而貝葉斯判別必須知道判別變量的分布類型。因此前兩者相對來說較為簡單。當k=2時,若=Ea=2則費希爾判別與距離判別等價。當判別變量服從正態(tài)分布時,二者與貝葉斯判別
8、也等價。當時,費希爾判別用+£2作為共同協(xié)差陣,實際看成等協(xié)差陣,此與距離判別、貝葉斯判別不同。距離判別可以看為貝葉斯判別的特殊情形。貝葉斯判別的判別規(guī)則是XIGIInd,W(X)IG?X,W(X)<lnd距離判別的判別規(guī)則是電-X,W(X)|IGnX,W(X)<0二者的區(qū)別在于閾值點。當q1=q2,C(1|2)=C(2|1)時,d=1,1nd=0。二者完全J。,相同。設有兩個二元總體G二和G?,從中分別抽取樣本計算得到=/582IX:2.116)假設工1=£工,試用距離判別法建立判別函數(shù)和判別規(guī)則。樣品X=(6,0)'應屬于哪個總體?xcl)(乂I口)
9、=(6,01(4,0.5)=(2.0.5)即樣品X屬于總體G1某超市經(jīng)銷十種品牌的飲料,其中有四種暢銷,三種滯銷,三種平銷。下表是這十種品牌飲料的銷售價格(元)和顧客對各種飲料的口味評分、信任度評分的平均數(shù)。銷售情況產(chǎn)品序號銷售價格口味評分信任度評分12.258暢銷22.56733.03943.28652.876平銷63.58774.89881.734滯銷92.242102.743根據(jù)數(shù)據(jù)建立貝葉斯判別函數(shù),并根據(jù)此判別函數(shù)對原樣本進行回判?,F(xiàn)有一新品牌的飲料在該超市試銷,其銷售價格為3.0,顧客對其口味的評分平均為8,信任評分平均為5,試預測該飲料的銷售情況。解:增加group變量,令暢銷、
10、平銷、滯銷分別為groupl、2、3;銷售價格為X1,口味評分為X2,信任度評分為X3,用spss解題的步驟如下:.在SPSS®中選擇AnalyzeClassify-Discriminate,調(diào)出判別分析主界面,將左邊的變量列表中的“group”變量選入分組變量中,將X、X2、X3變量選入自變量中,并選擇Enterindependentstogether單選按鈕,即使用所有自變量進行判別分析。.點擊DefineRange按鈕,定義分組變量的取值范圍。本例中分類變量的范圍為1到3,所以在最小值和最大值中分別輸入1和3。單擊Continue按鈕,返回主界面。如圖4.1圖4.1判別分析主界
11、面.單擊Statistics按鈕,指定輸出的描述統(tǒng)計量和判別函數(shù)系數(shù)。選中FunctionCoefficients欄中的Fisher:'給出Bayes判別函數(shù)的系數(shù)。(注意:這個選項不是要給出Fisher判別函數(shù)的系數(shù)。這個復選框的名字之所以為Fishers是因為按判別函數(shù)值最大的一組進行歸類這種思想是由Fisher提出來的。這里極易混淆,請讀者注意辨別。)如圖4.2。單擊Continue按鈕,返回主界面。圖4.2statistics子對話框.單擊Classify按鈕,弓t出classification子對話框,選中Display選項欄中的Summarytable復選框,即要求輸出錯判
12、矩陣,以便實現(xiàn)題中對原樣本進行回判的要求。如圖4.3。圖4.3classification對話框.返回判別分析主界面,單擊OK按鈕,運行判別分析過程。1)根據(jù)判別分析的結(jié)果建立Bayes判別函數(shù):Bayes判別函數(shù)的系數(shù)見表4.1。表中每一列表示樣本判入相應類的Bayes判別函數(shù)系數(shù)。由此可建立判別函數(shù)如下:Groupl:Y1=-81.843-11.689X112.297X216.761X3Group2:Y2-94.536-10.707X113.361X217.086X3Group3:Y3-17.449-2.194(14.96X26.447X3將各樣品的自變量值代入上述三個Bayes判別函數(shù),
13、得到三個函數(shù)值。比較這三個函數(shù)值,哪個函數(shù)值比較大就可以判斷該樣品判入哪一類。ClassificationFunctionCoefficientsgroup123x1-11.689-10.707-2.194x212.29713.3614.960x316.76117.0866.447(Constant)-81.843-94.536-17.449Fisher'slineardiscriminantfunctions表4.1BayesRJ別函數(shù)系數(shù)根據(jù)此判別函數(shù)對樣本進行回判,結(jié)果如表4.2。從中可以看出在4種暢銷飲料中,有3種被正確地判定,有1種被錯誤地判定為平銷飲料,正確率為75%。在3
14、種平銷飲料中,有2種被正確判定,有1種被錯誤地判定為暢銷飲料,正確率為66.7%。3種滯銷飲料均正確判定。整體的正確率為80.0%o.一,aClassificationResultsPredictedGroupMembershipgroup123TotalOriginalCount131042120375.033.3.025.066.7.0.0.0100.0100.0100.0100.0a.80.0%oforiginalgroupedcasescorrectlyclassified.表4.2錯判矩陣2)該新飲料的X1=3.0,X2=8,X3=5,將這3個自變量代入上一小題得到的Bayes判別函
15、數(shù),Y2的值最大,該飲料預計平銷。也可通過在原樣本中增加這一新樣本,重復上述的判別過程,并在classificatio時對話框中同時要求輸出casewiseresults運行判別過程,得到相同的結(jié)果。4.9銀行的貸款部門需要判別每個客戶的信用好壞(是否未履行還貸責任),以決定是否給予貸款。可以根據(jù)貸款申請人的年齡(X1)、受教育程度(X2)、現(xiàn)在所從事工作的年數(shù)(X3)、未變更住址的年數(shù)(X4)、收入(X5)、負債收入比例(X6)、信用卡債務(X7)、其它債務(X8)等來判斷其信用情況。下表是從某銀行的客戶資料中抽取的部分數(shù)據(jù),根據(jù)樣本資料分別用距離判別法、Bayes判別法和Fisher判別法
16、建立判別函數(shù)和判別規(guī)則。某客戶的如上情況資料為(53,1,9,18,50,11.20,2.02,3.58),對其進行信用好壞的判別。目前信用好壞客戶序號X1X2X3X4X5X6X7X8123172316.600.341.71已履行還貸責任2341173598.001.812.913422723414.600.94.941-L*43911954813.101.934.36535191345.000.401.306371132415.101.801.82未履行還貸責任7291131427.401.461.6583221167523.307.769.721-L*928223236.400.191.2
17、910261432710.502.47.36解:令已履行還貸責任為group。,未履行還貸責任為group1。令(53,1,9,18,50,11.20,2.02,3.58)客戶序號為11,group未知。用spss解題步驟如下:.在SPSS®口中選擇AnalyzeClassifyfDiscriminate,調(diào)出判別分析主界面,將左邊的變量列表中的“group”變量選入分組變量中,將X1-X6變量選入自變量中,并選擇Enterindependentstogether單選按鈕,即使用所有自變量進行判別分析。.點擊DefineRange按鈕,定義分組變量的取值范圍。本例中分類變量的范圍為0
18、到1,所以在最小值和最大值中分別輸入0和1。單擊Continue按鈕,返回主界面。單擊Statistics按鈕,指定輸出的描述統(tǒng)計量和判別函數(shù)系數(shù)。選中FunctionCoefficients欄中的Fisher'禾1Unstandardized。單擊Continue按鈕,返回主界面。單擊Classify按鈕,定義判別分組參數(shù)和選擇輸出結(jié)果。選擇Display欄中的Casewiseresults,以輸出一個判別結(jié)果表。其余的均保留系統(tǒng)默認選項。單擊Continue按鈕。返回判別分析主界面,單擊OK按鈕,運行判別分析過程。1)用費希爾判別法建立判別函數(shù)和判別規(guī)則:未標準化的典型判別函數(shù)系數(shù)
19、由于可以將實測的樣品觀測值直接代入求出判別得分,所以該系數(shù)使用起來比標準化的系數(shù)要方便一些。具體見表4.3。LanmicaiLUscrkTimaiitIuncflianCdeiTictciiitsFunction1<1煙2噌0BB7色17:!而IS必國,HDN2啰2.3S3(CDnctsnti10794Unfiitandan1i2«dc;o«ricivntt表4.3未標準化的典型判別函數(shù)系數(shù)由此表可知,F(xiàn)isher判別函數(shù)為:丫-10.794-0.32X16.687X20.173X30.357X40.024X50.710X60.792X7-2.383X8用Y計算出各觀
20、測值的具體坐標位置后,再比較它們與各類重心的距離,就可以得知分類,如若與group0的重心距離較近則屬于group。,反之亦然。各類重心在空間中的坐標位置如表4.4所示。FunctionsatGroupCentroidsFunctiongQuQ10-243712437Unstandardizedcanonicaldiscriminanrtfunctionse'lualec)atgroupmeans表4.4各類重心處的費希爾判別函數(shù)值用bayes判別法建立判別函數(shù)與判別規(guī)則,由于此題中假設各類出現(xiàn)的先驗概率相等且誤判造成的損失也相等,所以距離判別法與bayes判別完全一致。如表4.5所示
21、,group欄中的每一列表示樣品判入相應列的Bayes判別函數(shù)系數(shù)。由此可得,各類的Bayes判別函數(shù)如下:G0-118.6930.340X194.070X21.033X3-4.943X42.969X513.723X6-10.994X7-37.504X8G1-171.2960.184X1126.660X21874X36.681X43.086X517.182X6-7.133X7-49.116X8mWUMEnFLIril?til>lriiMTTiiiHrllEgnupj1X.340.1函x294,070125,660.口33>46681成960J.086疝13.72217.1心1090
22、47133由-37,50449116«口口如約118,633“".山匕Fifihar1:in»aricnnninanlttinctoriE表4.5Bayes判別函數(shù)系數(shù)將各樣品的自變量值代入上述兩個Bayes判別函數(shù),得到兩個函數(shù)值。比較這兩個函數(shù)值,哪個函數(shù)值比較大就可以判斷該樣品該判入哪一類。2)在判別Z果的CasewiseStastics表中容易查到t客戶屬于group0,信用好。4.10從胃癌患者、萎縮性胃炎患者和非胃炎患者中分別抽取五個病人進行四項生化指標的化驗:血清銅蛋白(X1卜藍色反應(X2卜尿口引喋乙酸(X3)和中性硫化物(X4),數(shù)據(jù)見下表。試用
23、距離判別法建立判別函數(shù),并根據(jù)此判別函數(shù)對原樣本進行回判。號e7J人病胃癌患者胃炎患者萎縮性123456789412050,4D22701001151012201412非胃炎患者19701312001解:令胃癌患者、萎縮性胃炎患者和非胃炎患者分別為groupl、group2、group3,由于此題中假設各類出現(xiàn)的先驗概率相等且誤判造成的損失也相等,所以距離判別法與bayes判別完全一致。用spss的解題步驟如下:.在SPSS®中選擇AnalyzerClassifyDiscriminate,調(diào)出判別分析主界面,將左邊的變量列表中的“group”變量選入分組變量中,將Xi、X2、X3、X
24、4變量選入自變量中,并選擇Enterindependentstogether單選按鈕,即使用所有自變量進行判別分析。.點擊DefineRange按鈕,定義分組變量的取值范圍。本例中分類變量的范圍為1到3,所以在最小值和最大值中分別輸入1和3。單擊Continue按鈕,返回主界面。.單擊Statistics按鈕,指定輸出的描述統(tǒng)計量和判別函數(shù)系數(shù)。選中FunctionCoefficients欄中的Fisher':給出Bayes判別函數(shù)的系數(shù)。.單擊Classify按鈕,弓t出classification子對話框,選中Display選項欄中的Summarytable復選框,即要求輸出錯判矩陣,以便實現(xiàn)題中對原樣
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 教育工作者的先進事跡(13篇)
- 會計類實習報告5篇
- 七夕節(jié)超市促銷方案(5篇)
- DB12T 490.1-2013 社區(qū)管理和服務信息化規(guī)范 第1部分:總則
- 校園演講稿合集十篇
- 學習委員競選演講稿集合5篇
- 主題教學課件教學課件
- 美術課件寫生教學課件
- 春雨課件教學課件
- 葫蘆育種合同(2篇)
- 1kw太陽能獨立供電系統(tǒng)解決方案
- 七年級期中考試考后分析主題班會課件
- 環(huán)境教育與公眾參與-第1篇
- 北師大版六年級數(shù)學上冊第五單元數(shù)據(jù)處理單元測試卷及答案
- (2024年)Photoshop基礎入門到精通教程全套
- 《東北的振興》課件
- 2024年中職《餐飲服務與管理》職教高考必備考試題庫(含答案)
- 2024年中核武漢核電運行技術股份有限公司招聘筆試參考題庫含答案解析
- 背景調(diào)查管理規(guī)定模版
- 房地產(chǎn)公司設計類技術筆試(2018-2023年)真題摘選含答案
- 誤吸急救處理護理課件
評論
0/150
提交評論