


版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、精品文檔第四章 判別分析4.1 簡述歐幾里得距離與馬氏距離的區(qū)別和聯(lián)系。答 : 設(shè) p維 歐 幾 里 得 空 間中 的 兩 點 x=y=。則歐幾里得距離。歐幾里得距離的局限有在多元數(shù)據(jù)分析中,其度量不合理。會受到實際問題中量綱的影響。設(shè)x,y是來自均值向量為,協(xié)方差的總體 g 中的 p 維樣本。則馬氏距離為d(x,y)=。即單位陣時d(x,y)=即歐幾里得距離。和為為當(dāng),因此, 在一定程度上, 歐幾里得距離是馬氏距離的特殊情況,馬氏距離是歐幾里得距離的推廣。4.2 試述判別分析的實質(zhì)。精品文檔答:判別分析就是希望利用已經(jīng)測得的變量數(shù)據(jù),找出一種判別函數(shù), 使得這一函數(shù)具有某種最優(yōu)性質(zhì),能把屬于
2、不同類別的樣本點盡可能地區(qū)別開來。設(shè)r1, r2, rk 是 p 維空間 r p 的 k 個子集,如果它們互不相交,且它們的和集為,則稱為的一個劃分。 判別分析問題實質(zhì)上就是在某種意義上,以最優(yōu)的性質(zhì)對 p 維空間構(gòu)造一個“劃分”,這個“劃分”就構(gòu)成了一個判別規(guī)則。4.3 簡述距離判別法的基本思想和方法。答:距離判別問題分為兩個總體的距離判別問題和多個總體的判別問題。其基本思想都是分別計算樣本與各個總體的距離(馬氏距離),將距離近的判別為一類。兩個總體的距離判別問題設(shè)有協(xié)方差矩陣 相等的兩個總體g1 和 g2, 其均值分別是1 和2,對于一個新的樣品x,22要判斷它來自哪個總體。計算新樣品x
3、到兩個總體的馬氏距離d( x,g1) 和 d( x,g2),則22x, d( x,g1)d(x, g2)22x, d( x,g1)> d( x, g2,具體分析,d 2( x ,g )d 2( x ,g )1211( x) (x)( x) ( x)1122x 1x2x 1 1(x 1x2 x 1 1)1112222 x 1( )1 12111222x 1()( ) 1( )2112122x1221( )122(x) 2( x)記w (x )(x)則判別規(guī)則為x, w(x)x, w(x)<0多個總體的判別問題。設(shè)有 k 個總體g1 ,g2 ,g k ,其均值和協(xié)方差矩陣分別是1,2,
4、 k 和 1 , 2 , k ,且 12k。計算樣本到每個總體的馬氏距離,到哪個總體的距離最小就屬1于哪個總體。具體分析,d 2 (x , g)( x ) (x )x 1x2 1x 1x 1x2(ixc )1取 i , c1 1 ,21,2, k ??梢匀【€性判別函數(shù)為w ( x )ixc ,1,2, k相應(yīng)的判別規(guī)則為xgi若 wi (x )max( ixc )1k4.4 簡述貝葉斯判別法的基本思想和方法?;舅枷耄涸O(shè)k 個總體g1, g2 ,g k ,其各自的分布密度函數(shù)f1 (x),f 2 (x), f k ( x) ,假設(shè) k個總體各自出現(xiàn)的概率分別為q1 ,q 2 ,q k , qi
5、k0 ,qi i 11 。設(shè)將本來屬于gi 總體的樣品錯判到總體g j 時造成的損失為c( j| i) , i, j1,2, k 。設(shè) k 個總體g1, g 2,g k 相應(yīng)的 p 維樣本空間為r(r1, r2 , rk ) 。在規(guī)則 r 下,將屬于gi 的樣品錯判為g j 的概率為p( j| i , r)fi (x)dxrji , j1,2, kij則這種判別規(guī)則下樣品錯判后所造成的平均損失為r (i| r)kc( jj 1| i )p(j | i , r)i1,2, k則用規(guī)則 r 來進行判別所造成的總平均損失為g(r)kqi r (i , r)i 1kkqic(i 1j 1j | i )
6、 p( j| i , r)貝葉斯判別法則,就是要選擇一種劃分r1, r2 , rk , 使總平均損失g ( r) 達到極小?;痉椒ǎ篻( r)kkqic( ji 1j 1| i )p(j | i , r)kqii 1jkc( j1| i )rjf i (x )dxkk(rjj 1i 1qi c(j | i )fi (x ) dxk令qi c(i 1j | i)fi (x)hj (x) , 則g ( r)kh j ( x)dxj 1 r j若有另一劃分 r*( r* , r* , r* ) ,krg( r* )h (x)dx12k*jj 1j則在兩種劃分下的總平均損失之差為g( r)g( r*
7、 )kkrii 1 j 1* hirj(x )h j (x) dx因為在ri 上hi (x)hj (x) 對一切 j 成立,故上式小于或等于零,是貝葉斯判別的解。r(r , r , r )ri x | hi (x)min hj (x)從而得到的劃分12k為1 j ki1,2, k4.5 簡述費希爾判別法的基本思想和方法。答:基本思想:從k 個總體中抽取具有p 個指標(biāo)的樣品觀測數(shù)據(jù),借助方差分析的思想構(gòu)造一個線性判別函數(shù)u (x )u1 x1u2 x2lup x pu x系數(shù) u(u1, u 2 , u p )可使得總體之間區(qū)別最大,而使每個總體內(nèi)部的離差最小。將新樣品的 p 個指標(biāo)值代入線性判
8、別函數(shù)式中求出u ( x) 值,然后根據(jù)判別一定的規(guī)則,就可以判別新的樣品屬于哪個總體。4.6 試析距離判別法、貝葉斯判別法和費希爾判別法的異同。答: 費希爾判別與距離判別對判別變量的分布類型無要求。二者只是要求有各類母體的兩階矩存在。而貝葉斯判別必須知道判別變量的分布類型。因此前兩者相對來說較為簡單。 當(dāng) k=2 時,若則費希爾判別與距離判別等價。 當(dāng)判別變量服從正態(tài)分布時, 二者與貝葉斯判別也等價。 當(dāng)時,費希爾判別用作為共同協(xié)差陣,實際看成等協(xié)差陣,此與距離判別、貝葉斯判別不同。距 離 判 別 可 以 看 為 貝 葉 斯 判 別 的 特 殊 情 形 。 貝 葉 斯 判 別 的 判 別 規(guī)
9、 則 是 x, w(x)x, w(x)<lnd距離判別的判別規(guī)則是x, w(x)x, w(x)<0二者的區(qū)別在于閾值點。當(dāng)q1q2 , c(1 | 2)c(2 | 1) 時, d1, ln d0 。二者完全相同。4.7 設(shè) 有 兩 個 二 元 總 體和, 從 中 分 別 抽 取 樣 本 計 算 得 到,假設(shè),試用距離判別法建立判別函數(shù)和判別規(guī)則。 樣品 x=( 6, 0)應(yīng)屬于哪個總體?解:=,= ,=即樣品 x 屬于總體4.8 某超市經(jīng)銷十種品牌的飲料,其中有四種暢銷,三種滯銷,三種平銷。下表是這十種品牌飲料的銷售價格(元)和顧客對各種飲料的口味評分、信任度評分的平均數(shù)。12.2
10、5822.56733.03943.28652.87663.58774.89881.73492.242102.743銷售情況產(chǎn)品序號銷售價格口味評分信任度評分暢銷平銷滯銷 根據(jù)數(shù)據(jù)建立貝葉斯判別函數(shù),并根據(jù)此判別函數(shù)對原樣本進行回判。 現(xiàn)有一新品牌的飲料在該超市試銷,其銷售價格為 3.0,顧客對其口味的評分平均為8,信任評分平均為5,試預(yù)測該飲料的銷售情況。解:增加 group 變量,令暢銷、平銷、滯銷分別為group1、2、3;銷售價格為 x1,口味評分為 x2,信任度評分為 x3,用 spss 解題的步驟如下:1. 在 spss窗口中選擇 analyze classify discrimin
11、ate ,調(diào)出判別分析主界面, 將左邊的變量列表中的“group ”變量選入分組變量中,將x1、x2、x3 變量選入自變量中, 并選擇 enter independents together單選按鈕, 即使用所有自變量進行判別分析。2. 點擊 define range 按鈕, 定義分組變量的取值范圍。本例中分類變量的范圍為 1 到 3,所以在最小值和最大值中分別輸入1 和 3。單擊 continue 按鈕, 返回主界面。如圖 4.13. 單擊 statistics圖 4.1判別分析主界面按鈕,指定輸出的描述統(tǒng)計量和判別函數(shù)系數(shù)。選中functioncoefficients 欄中的 fisher
12、:給s出 bayes 判別函數(shù)的系數(shù)。 (注意:這個選項不是要給出 fisher 判別函數(shù)的系數(shù)。 這個復(fù)選框的名字之所以為fisher ,s是因為按判別函數(shù)值最大的一組進行歸類這種思想是由fisher 提出來的。這里極易混淆,請讀者注意辨別。 )如圖 4.2。單擊 continue 按鈕,返回主界面。圖 4.2statistics 子對話框4. 單擊 classify按鈕,彈出 classification子對話框,選中display 選項欄中的summary table 復(fù)選框, 即要求輸出錯判矩陣, 以便實現(xiàn)題中對原樣本進行回判的要求。如圖 4.3。圖 4.3 classificatio
13、n 對話框5. 返回判別分析主界面,單擊ok 按鈕,運行判別分析過程。1) 根據(jù)判別分析的結(jié)果建立bayes判別函數(shù):bayes判別函數(shù)的系數(shù)見表4.1。表中每一列表示樣本判入相應(yīng)類的bayes判別函數(shù)系數(shù)。 由此可建立判別函數(shù)如下:group1 :y181.84311.689 x 112.297 x 216.761 x 3group2 :y 294.53610.707 x 113.361 x 217.086 x 3group3 :y317.4492.194 x 14.960 x 26.447 x 3將各樣品的自變量值代入上述三個bayes判別函數(shù),得到三個函數(shù)值。比較這三個函數(shù)值, 哪個函數(shù)
14、值比較大就可以判斷該樣品判入哪一類。classification function coefficientsgroup123x1-11.689-10.707-2.194x212.29713.3614.960x316.76117.0866.447(constant)-81.843-94.536-17.449fisher's linear discriminant functions表4.1bayes判別函數(shù)系數(shù)根據(jù)此判別函數(shù)對樣本進行回判,結(jié)果如表4.2。從中可以看出在4種暢銷飲料中,有 3種被正確地判定,有 1種被錯誤地判定為平銷飲料,正確率為75% 。在 3種平銷飲料中,有 2種被正
15、確判定,有 1種被錯誤地判定為暢銷飲料,正確率為66.7%。3種滯銷飲料均正確判定。整 體的正確率為 80.0% 。classification resultsapredicted group membershipgroup123totaloriginalcount131042120330033%175.025.0.0100.0233.366.7.0100.03.0.0100.0100.0a. 80.0% of original grouped cases correctly classified.表4.2錯判矩陣2) 該新飲料的 x 13.0 , x 28, x 35 ,將這 3個自變量代入
16、上一小題得到的bayes判別函數(shù),y2的值最大,該飲料預(yù)計平銷。也可通過在原樣本中增加這一新樣本,重復(fù)上述的判別過程, 并在 classification 子對話框中同時要求輸出casewise results ,運行判別過程,得到相同的結(jié)果。4.9 銀行的貸款部門需要判別每個客戶的信用好壞(是否未履行還貸責(zé)任),以決定是否給予貸款。可以根據(jù)貸款申請人的年齡(x 1 )、受教育程度(x 2 )、現(xiàn)在所從事工作的年數(shù)( x 3 )、未變更住址的年數(shù) (x 4 )、收入(x 5 )、負(fù)債收入比例 (x 6 )、信用卡債務(wù) (x 7 ) 、其它債務(wù)(x 8 )等來判斷其信用情況。下表是從某銀行的客戶
17、資料中抽取的部分?jǐn)?shù)據(jù),根據(jù)樣本資料分別用距離判別法、bayes判別法和 fisher 判別法建立判別函數(shù)和判別規(guī)則。某客戶的如上情況資料為(53, 1, 9, 18, 50, 11.20, 2.02,3.58),對其進行信用好壞的判別。目前信用客戶好壞序號x 1x 2x3x 4x 5x 6x 7x8123172316.600.341.712341173598.001.812.913422723414.600.94.9443911954813.101.934.36535191345.000.401.306371132415.101.801.827291131427.401.461.6583221
18、167523.307.769.72928223236.400.191.2910261432710.502.47.36已履行還貸責(zé)任未履行還貸責(zé)任解:令已履行還貸責(zé)任為group0 ,未履行還貸責(zé)任為group1。令( 53,1,9,18,50,11.20 , 2.02, 3.58)客戶序號為 11,group 未知。用 spss解題步驟如下:1. 在 spss窗口中選擇analyzeclassify discriminate ,調(diào)出判別分析主界面,將左邊的變量列表中的“group ”變量選入分組變量中,將x 1x 6 變量選入自變量中,并選擇 enter independents togeth
19、er單選按鈕,即使用所有自變量進行判別分析。2. 點擊 define range 按鈕, 定義分組變量的取值范圍。本例中分類變量的范圍為0 到1,所以在最小值和最大值中分別輸入0 和 1。單擊 continue 按鈕,返回主界面。3. 單擊 statistics按鈕,指定輸出的描述統(tǒng)計量和判別函數(shù)系數(shù)。選中functioncoefficients 欄中的 fisher和sunstandardized 。單擊 continue 按鈕,返回主界面。4. 單擊 classify按鈕,定義判別分組參數(shù)和選擇輸出結(jié)果。選擇display欄中的casewise results ,以輸出一個判別結(jié)果表。其余
20、的均保留系統(tǒng)默認(rèn)選項。單擊continue 按鈕。5. 返回判別分析主界面,單擊ok 按鈕,運行判別分析過程。1) 用費希爾判別法建立判別函數(shù)和判別規(guī)則:未標(biāo)準(zhǔn)化的典型判別函數(shù)系數(shù)由于可以將實測的樣品觀測值直接代入求出判別得分,所以該系數(shù)使用起來比標(biāo)準(zhǔn)化的系數(shù)要方便一些。具體見表4.3 。表 4.3未標(biāo)準(zhǔn)化的典型判別函數(shù)系數(shù)由此表可知,fisher 判別函數(shù)為:y10.7940.32x 16.687x 20.173x 30.357x 40.024x 50.710x 60.792x 72.383x 8用 y 計算出各觀測值的具體坐標(biāo)位置后,再比較它們與各類重心的距離,就可以得知分類,如若與 gr
21、oup0 的重心距離較近則屬于group0,反之亦然。各類重心在空間中的坐標(biāo)位置如表4.4 所示。表 4.4 各類重心處的費希爾判別函數(shù)值用 bayes 判別法建立判別函數(shù)與判別規(guī)則,由于此題中假設(shè)各類出現(xiàn)的先驗概率相等且誤判造成的損失也相等,所以距離判別法與bayes 判別完全一致。如表 4.5 所示, group 欄中的每一列表示樣品判入相應(yīng)列的bayes 判別函數(shù)系數(shù)。 由此可得,各類的 bayes 判別函數(shù)如下:g0118.693g1171.2960.340 x 1 0.184 x 194.070x 2126.660x 21.033x 31.874 x 34.943x 46.681x
22、42.969x 53.086 x 513.723x 617.182x 610.994 x 77.133x 737.504 x 849.116 x 8表 4.5bayes 判別函數(shù)系數(shù)將各樣品的自變量值代入上述兩個bayes判別函數(shù),得到兩個函數(shù)值。比較這兩個函數(shù)值, 哪個函數(shù)值比較大就可以判斷該樣品該判入哪一類。2) 在判別結(jié)果的 casewise stastics表中容易查到該客戶屬于group0 ,信用好。4.10 從胃癌患者、萎縮性胃炎患者和非胃炎患者中分別抽取五個病人進行四項生化指標(biāo)的化驗:血清銅蛋白x1、藍色反應(yīng)x 2、尿吲哚乙酸x 3和中性硫化物x 4,數(shù)據(jù)見下表。試用距離判別法建
23、立判別函數(shù),并根據(jù)此判別函數(shù)對原樣本進行回判。類別病人序號x 1x 2x 3x 4122813420112245134104032001671227417015078510016720146225125714713010061281501177691201331026101601005101118511551912170125641316514253141351082121510011772胃癌患者萎胃縮 炎性 患者非胃炎患者解:令胃癌患者、萎縮性胃炎患者和非胃炎患者分別為 group1、group2 、group3,由于此題中假設(shè)各類出現(xiàn)的先驗概率相等且誤判造成的損失也相等, 所以距離判別法與 bayes 判別完全一致。用 spss 的解題步驟如下:1. 在 spss窗口中選擇 analyzeclassify discriminate ,調(diào)出判別分析主界面, 將左邊的變量列表中的 “group ”變量選入分組變量中, 將 x1、x2、x3、x4 變量選入自變量中,并選擇 enter independents together單選按鈕,即使用所有自變量進行判別分析。2. 點擊 define range
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 個人租房押付三合同
- 廣告設(shè)計制作合同協(xié)議書
- 客車駕駛員聘用協(xié)議書
- 分期付款設(shè)備買賣合同
- 物資倉庫裝修施工方案
- 下部結(jié)構(gòu)施工方案
- 宿遷住宅防水施工方案
- 安徽省部分學(xué)校2024-2025學(xué)年高三下學(xué)期3月調(diào)研考試歷史試題(原卷版+解析版)
- 暖氣片施工方案
- 泡沫箱和紙箱加工生產(chǎn)線環(huán)評報告表
- 《飯店服務(wù)與管理》認(rèn)識飯店的“神經(jīng)中樞”
- GB/T 15856.5-2023六角凸緣自鉆自攻螺釘
- 電子產(chǎn)品質(zhì)量工程技術(shù)與管理高職PPT全套完整教學(xué)課件
- 【橡膠工藝】-橡膠履帶規(guī)格
- 小學(xué)勞動技術(shù)云教三年級下冊植物栽培種植小蔥(省一等獎)
- 2020年環(huán)境法律法規(guī)及其它要求清單
- 綜采工作面主要設(shè)備選型設(shè)計方案
- 籍貫對照表完整版
- GB/T 7251.3-2017低壓成套開關(guān)設(shè)備和控制設(shè)備第3部分:由一般人員操作的配電板(DBO)
- GB/T 22576.7-2021醫(yī)學(xué)實驗室質(zhì)量和能力的要求第7部分:輸血醫(yī)學(xué)領(lǐng)域的要求
- 2023年江蘇省中學(xué)生生物奧林匹克競賽試題及答案
評論
0/150
提交評論