數(shù)學(xué)地質(zhì)系列______10判別分析_第1頁(yè)
數(shù)學(xué)地質(zhì)系列______10判別分析_第2頁(yè)
數(shù)學(xué)地質(zhì)系列______10判別分析_第3頁(yè)
數(shù)學(xué)地質(zhì)系列______10判別分析_第4頁(yè)
數(shù)學(xué)地質(zhì)系列______10判別分析_第5頁(yè)
已閱讀5頁(yè),還剩23頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、2012=7-29第五章第五章 判別分析判別分析Discriminate Analysis地質(zhì)與環(huán)境學(xué)院 方世躍Contents 判別準(zhǔn)則判別準(zhǔn)則5.1 Fisher準(zhǔn)則下兩類線性判別準(zhǔn)則下兩類線性判別5.2Bayes準(zhǔn)則下的多類線性判別準(zhǔn)則下的多類線性判別5.3 逐步判別分析方法逐步判別分析方法5.4 應(yīng)用實(shí)例應(yīng)用實(shí)例5.55.1 判別準(zhǔn)則判別準(zhǔn)則v 聚類分析:聚類分析:在不知道類型的個(gè)數(shù)或者對(duì)于各種類型的結(jié)構(gòu)未作任何假設(shè)的情況下,將樣品根據(jù)相似程度劃分聚類的數(shù)字分類方法。v 判別分析:判別分析:判別某些“樣品”應(yīng)歸屬哪個(gè)已知類別的問題。是在已知要判別的類型和數(shù)目并已取得各種類型的一批典型樣

2、品的情況下,根據(jù)一個(gè)類型未知樣品的多種性質(zhì)而判定它究竟屬于哪一類的一種數(shù)學(xué)歸類方法。1 1、聚類分析與判別分析、聚類分析與判別分析2 2 、發(fā)展簡(jiǎn)史、發(fā)展簡(jiǎn)史 數(shù)學(xué)家R.A. Fisher(1936)首先提出了線性判別函數(shù)的原理;1950后,地學(xué)家開始用于解決地質(zhì)問題。最初,只考慮將一個(gè)個(gè)體劃歸協(xié)方差矩陣相同的多元正態(tài)母體;60年代以前判別分析的研究局限于協(xié)方差矩陣相同的多個(gè)正態(tài)母體;60年代初,有人研究協(xié)方差矩陣不同的多個(gè)多元正態(tài)母體的判別問題;70年代初,多個(gè)多元正態(tài)母體的逐步判別分析方法。5.1 判別準(zhǔn)則判別準(zhǔn)則 在已知類型(如A、B、C三類)中抽取樣本,然后根據(jù)每個(gè)樣品的多個(gè)指標(biāo)經(jīng)過數(shù)

3、學(xué)運(yùn)算處理,建立每一類的區(qū)分標(biāo)準(zhǔn)(即判別函數(shù)),再根據(jù)研究對(duì)象同樣的指標(biāo)與已知類型比較,即將其代入判別函數(shù)中,觀察其與哪一類最接近,就將其歸屬于哪一類。其實(shí)質(zhì)是:根據(jù)已知類型的樣本變量建立一個(gè)或多個(gè)判別函數(shù),從而決定未知對(duì)象歸屬問題的一種多元統(tǒng)計(jì)方法。其關(guān)鍵在于:判別函數(shù)的建立,該判別函數(shù)應(yīng)能有效區(qū)分兩類(多類)事物,盡可能使各類重疊區(qū)減小。3 3 、基本做法、基本做法5.1判別準(zhǔn)則判別準(zhǔn)則4 4 、判別函數(shù)、判別函數(shù)判別函數(shù)是一個(gè)或幾個(gè)變量的線性組合(稱為線性判別函數(shù))。jpjjppxcxcxcxcxcy13322115 5 、判別準(zhǔn)則、判別準(zhǔn)則判別函數(shù)的建立有不同的準(zhǔn)則:Fisher準(zhǔn)則、

4、Bayes準(zhǔn)則、最小二乘準(zhǔn)則、庫(kù)巴克準(zhǔn)則、不確定性準(zhǔn)則,最常用的是前兩者。Bayes準(zhǔn)則的基本思路:將m維歐氏空間R劃分為G個(gè)互不相交的子空間,這樣任一個(gè)體就知道它的歸屬,任何一種劃分方法都可能存在錯(cuò)分,使錯(cuò)分率最小的劃分方法就叫做Bayes解。Fisher準(zhǔn)則的基本思路:把高維空間的點(diǎn)向低維空間投影,通過投影方向的選擇,使得在被投影的空間上,不同母體的點(diǎn)“盡可能分離開來”錯(cuò)分概率示意圖Contents 判別準(zhǔn)則判別準(zhǔn)則5.1 Fisher準(zhǔn)則下兩類線性判別準(zhǔn)則下兩類線性判別5.2Bayes準(zhǔn)則下的多類線性判別準(zhǔn)則下的多類線性判別5.3 逐步判別分析方法逐步判別分析方法5.4 應(yīng)用實(shí)例應(yīng)用實(shí)例

5、5.55.2 Fisher準(zhǔn)則下兩類線性判別準(zhǔn)則下兩類線性判別AnBnAijx1 1 、FisherFisher準(zhǔn)則的基本涵義準(zhǔn)則的基本涵義設(shè)有A、B兩個(gè)(樣品)母體,從A中抽取 個(gè)樣品,從B中抽取 個(gè)樣品,每個(gè)樣品測(cè)得p個(gè)變量的數(shù)值, ( )代表A(B)類中,第i個(gè)樣品的第j個(gè)變量:BijxpBnBnBnpBBBpBBBpAnAnAnpAAApAAAAAAAAAxxxxxxxxxxxxxxxxxxX212222111211212222111211jpjjxcy1假設(shè)判別函數(shù)已經(jīng)建立,將每個(gè)變量代入判別函數(shù)中,就可以得到一個(gè)y值,n個(gè)樣品有n個(gè)判別值。AijpjjAixcy1BijpjjBix

6、cy1AniAiAAyny11BniBiBByny115.2 Fisher準(zhǔn)則下兩類線性判別準(zhǔn)則下兩類線性判別max)(2BAyyGmax)(2BAyyGmin)()(H1212BAniBBiniAAiyyyy1 1 、FisherFisher準(zhǔn)則的基本涵義準(zhǔn)則的基本涵義判別分析就是要找到判別函數(shù),使兩類間差別愈大愈好,且使組內(nèi)離差平方和愈小愈好定義:max)()()(HGI12122BAniBBiniAAiBAyyyyyyvFisher準(zhǔn)則:類(或組)間差別遠(yuǎn)大于組內(nèi)差別,又稱準(zhǔn)則:類(或組)間差別遠(yuǎn)大于組內(nèi)差別,又稱為為“最大分離最大分離”準(zhǔn)則。準(zhǔn)則。5.2 Fisher準(zhǔn)則下兩類線性判別

7、準(zhǔn)則下兩類線性判別2)()(1122BAniniBjBijAjAijjjnnxxxxsAB2)()(11BAniniBkBikBjBijAkAikAjAijjknnxxxxxxxxsAB2 2 、兩類線性判別函數(shù)的建立、兩類線性判別函數(shù)的建立求解求解C1,C2,Cp,即可建立判別函數(shù),即可建立判別函數(shù)(1)組內(nèi)方差)組內(nèi)方差第第j個(gè)變量的組內(nèi)方差個(gè)變量的組內(nèi)方差第第j、k個(gè)變量的組內(nèi)協(xié)方差個(gè)變量的組內(nèi)協(xié)方差1111112212221122221122.ABppABppApBppppppS CS CS CxxS CS CSCxxS CSCS Cxx解此正規(guī)方程組,可獲得系數(shù),建立判別函數(shù)解此正規(guī)

8、方程組,可獲得系數(shù),建立判別函數(shù)5.2 Fisher準(zhǔn)則下兩類線性判別準(zhǔn)則下兩類線性判別BijpjjBixcy1AijpjjAixcy1BniBiBByny113 3 、分界值計(jì)算和判別法則、分界值計(jì)算和判別法則v計(jì)算判別值、類平均值和總平均值計(jì)算判別值、類平均值和總平均值A(chǔ)niAiAAyny11ABBBAAnnynyny0()AABAAByyyy1)當(dāng)母體為正態(tài)母體。且標(biāo)準(zhǔn)差已知)當(dāng)母體為正態(tài)母體。且標(biāo)準(zhǔn)差已知2)當(dāng))當(dāng)nAnB,且標(biāo)準(zhǔn)差相等,且標(biāo)準(zhǔn)差相等,)(210BAyyy3)當(dāng))當(dāng)nA、nB相差較大但標(biāo)準(zhǔn)差相等相差較大但標(biāo)準(zhǔn)差相等ABBBAAnnynyny0若有若有 ,則判別規(guī)則如下:

9、,則判別規(guī)則如下:BAyyy0若待判樣品待判樣品的判別值 ,則將其歸入A類;若待判樣品待判樣品的判別值 ,則將其歸入B類;0yy 0yy 5.2 Fisher準(zhǔn)則下兩類線性判別準(zhǔn)則下兩類線性判別v設(shè): v(1)計(jì)算F值v在給定 下,查F分布表得 ,如果 ,則判別函數(shù)有效,否則,判別函數(shù)無(wú)效。 v(2)馬氏距離檢驗(yàn):檢驗(yàn)諸變量的類平均之差是否夠大2)2)()1(DpnnnnpnnnnFBABABABA0:ABHyyABnknkBBkAAkBABBAAyyyynnyynyynF112222)()()2()()()2, 1 (BAnnF)2, 1 (BAnnFF4 4 、顯著性檢驗(yàn)及判別率、顯著性檢

10、驗(yàn)及判別率pjjjppdcdcdcdcD122112BjAjjxxd5.2 Fisher準(zhǔn)則下兩類線性判別準(zhǔn)則下兩類線性判別0yyAk0yyBk%1001AAnmr(3)計(jì)算回代正確判別率(r) 者為正確,共有m1個(gè) 者為正確,共有m2個(gè)正確判別率: %1002BBnmr%10021BAnnmmr5 5 、變量的選擇、變量的選擇1)根據(jù)對(duì)馬氏距離的貢獻(xiàn)挑選變量%100/)(%100/)(%100/)(22222221111DxxcDDxxcDDxxcDBpAppxpBAxBAx2)I值最大法挑選變量BAniBjBijniAjAijBjAjxxxxxx12122j)()()(IContents

11、判別準(zhǔn)則判別準(zhǔn)則5.1 Fisher準(zhǔn)則下兩類線性判別準(zhǔn)則下兩類線性判別5.2Bayes準(zhǔn)則下的多類線性判別準(zhǔn)則下的多類線性判別5.3 逐步判別分析方法逐步判別分析方法5.4 應(yīng)用實(shí)例應(yīng)用實(shí)例5.55.3 Bayes準(zhǔn)則下的多類線性判別準(zhǔn)則下的多類線性判別)(xqg)()(qmax1*gxfqxfggGgg*g設(shè)有G類母體 ,其概率密度 已知,先驗(yàn)概率 已知,并且錯(cuò)分損失相等,可建立判別函數(shù): 如果: 則把個(gè)體x劃歸為 )( xfg G),1,2, (gAg), 2 , 1)(Ggxfqgg1 1 、BayesBayes準(zhǔn)則準(zhǔn)則2 2 、BayesBayes準(zhǔn)則下判別方法準(zhǔn)則下判別方法1)原始

12、數(shù)據(jù)獲?。┰紨?shù)據(jù)獲取pGnGnGnpGGGpGGGpnnnpppnnnppGGGxxxxxxxxxxxxxxxxxxxxxxxxxxxX2122221112112221222222221212122111211121122121111121112221112)求平均值)求平均值11gng jg k jkgxxnTgpgggxxxX,215.3 Bayes準(zhǔn)則下的多類線性判別準(zhǔn)則下的多類線性判別)/()(11GnxxxxsgikgikgjGgnigijkjgppkjppkjsSsS1,211gpggTggcccSXC3)求協(xié)方差矩陣估計(jì))求協(xié)方差矩陣估計(jì)S和和S-14)求判別函數(shù))求判別函數(shù)g

13、kpkkjgjxsc1gjpjgjgxcc1021pjjgjgggxccqxy10ln)(5)對(duì)樣品進(jìn)行判別)對(duì)樣品進(jìn)行判別GhxyxyghgeexAp1)()()(對(duì)每一個(gè)樣品,先計(jì)算對(duì)每一個(gè)樣品,先計(jì)算 ,挑出最大,挑出最大*g)(xyg,則判別樣品屬于,則判別樣品屬于 。后驗(yàn)。后驗(yàn)概率為:概率為:*gGhxyGhxyxyghhgeeexAp1)(1)()(*1)(Contents 判別準(zhǔn)則判別準(zhǔn)則5.1 Fisher準(zhǔn)則下兩類線性判別準(zhǔn)則下兩類線性判別5.2Bayes準(zhǔn)則下的多類線性判別準(zhǔn)則下的多類線性判別5.3 逐步判別分析方法逐步判別分析方法5.4 應(yīng)用實(shí)例應(yīng)用實(shí)例5.55.4 逐步

14、判別分析方法逐步判別分析方法1、基本思想比較變量的判別能力,挑選變量,檢驗(yàn)顯著性,若顯著則引比較變量的判別能力,挑選變量,檢驗(yàn)顯著性,若顯著則引入入再把未選入的變量同已選入的變量結(jié)合比較判斷能力,從中再把未選入的變量同已選入的變量結(jié)合比較判斷能力,從中選出分辨能力最大的變量,檢驗(yàn)顯著性,若顯著則引入。選出分辨能力最大的變量,檢驗(yàn)顯著性,若顯著則引入。當(dāng)?shù)诙€(gè)變量入選后,考察第一次引入的那一個(gè)變量是否由當(dāng)?shù)诙€(gè)變量入選后,考察第一次引入的那一個(gè)變量是否由于新變量的引入而判別能力下降(檢驗(yàn)第一個(gè)變量在第二個(gè)變于新變量的引入而判別能力下降(檢驗(yàn)第一個(gè)變量在第二個(gè)變量存在時(shí)的判斷能力是否顯著);如果下

15、降(不顯著),則剔量存在時(shí)的判斷能力是否顯著);如果下降(不顯著),則剔除;否則考慮引進(jìn)另一個(gè)變量。再把未選中的每一個(gè)變量與已除;否則考慮引進(jìn)另一個(gè)變量。再把未選中的每一個(gè)變量與已選中的兩個(gè)變量組合。選中的兩個(gè)變量組合。重復(fù)上述步驟,直至既無(wú)變量引入,又無(wú)變量剔除為止。重復(fù)上述步驟,直至既無(wú)變量引入,又無(wú)變量剔除為止。最后,利用選入變量建立判別函數(shù)最后,利用選入變量建立判別函數(shù)5.4 逐步判別分析方法逐步判別分析方法LLLLLLLLwwwwwwwwwwW3212222111211LLLLLLLLttttttttttT32122221112112、判別能力及變量取舍標(biāo)準(zhǔn)|,2, 1LLLTWU1

16、)變量的綜合判別能力 威爾克斯統(tǒng)計(jì)量,其值越小,判別能力越強(qiáng)威爾克斯統(tǒng)計(jì)量,其值越小,判別能力越強(qiáng)組內(nèi)變組內(nèi)變差矩陣差矩陣總變總變差矩陣差矩陣 GgnijgijkgikkjGgnigjgijgkgikkjggxxxxtxxxxw1 11 1)()(2、判別能力及變量取舍標(biāo)準(zhǔn)5.4 逐步判別分析方法逐步判別分析方法)1)(1()1(2)2(1)1()1(21)1(222221)1(1112111LLLLLLLLLLLLLLLLLwwwwwwwwwwwwwwwwWLrLLLrLUUTWU, 2 , 1, 2 , 111, 2 , 1|), 2, 1()()()(,mLLLrtwUlrrlrrLr2

17、)未選變量的判別能力及引進(jìn)變量的標(biāo)準(zhǔn) 未選變量的判斷能力未選變量的判斷能力引進(jìn)變量的標(biāo)準(zhǔn)引進(jìn)變量的標(biāo)準(zhǔn)在給定在給定 的條件下,每一個(gè)未選變量的條件下,每一個(gè)未選變量 的判別能力可以由下式表示:的判別能力可以由下式表示:其中必有一最小者:其中必有一最小者:)()(,*minLrLrUULxxx,21rx5.4 逐步判別分析方法逐步判別分析方法*rx*rxrx)1(11*)(*)(GGnUUFLrLr在給定a下,若FFa,則認(rèn)為 判別能力顯著,應(yīng)該引入判別函數(shù),否則不需要引入新的變量,只需考慮已經(jīng)引入的L個(gè)變量是否需要剔除。此判別能力最強(qiáng),顯著性檢驗(yàn):3)已選變量的判別能力及剔除變量的標(biāo)準(zhǔn) 在逐步

18、引入變量時(shí),應(yīng)重新估計(jì)已選入的變量,假設(shè)已進(jìn)行了l步,并引入了包括 在內(nèi)的L個(gè)變量,要確定第l+1步剔除變量 的標(biāo)準(zhǔn),記:已選變量的判斷能力rx), 2 , 1() 1() 1() 1(LrtwUlrrlrrLr此值愈大, 判別能力遇弱,且必有一個(gè)最大值rx5.4 逐步判別分析方法逐步判別分析方法)1 (max)1()1(*LrUULrLr*rx) 1() 1(1*)1(*)1(GLGnUUFLrLr此判別能力最弱,對(duì)其進(jìn)行顯著性檢驗(yàn):在給定a下,若FFa,則認(rèn)為 判別能力不顯著,應(yīng)該剔除*rx3、逐步判別分析的步驟1、原始數(shù)據(jù)獲取、原始數(shù)據(jù)獲取設(shè)有G類母體,從每個(gè)母體中取得 個(gè)樣品,每個(gè)樣品

19、測(cè)得個(gè) 變量,則原始數(shù)據(jù)為: ( ; ; )(總樣品個(gè)數(shù))gnpgkjxG ,1,2, ggn,1,2, k p,1,2, j1GggNn2、準(zhǔn)備工作、準(zhǔn)備工作(1)計(jì)算諸變量的類平均值和總平均值(2)計(jì)算組內(nèi)離差矩陣(W)和總離差矩陣(T)(3)求 W,T矩陣的逆矩陣(W-1,T-1) 及行列式值5.4 逐步判別分析方法逐步判別分析方法), 2 , 1;, 2 , 1(11Ggpjxnxgnijgigjg), 2 , 1(111pjxnxGgnijgijgppkjWW)(ppkjTT)( GgnijgijkgikkjGgnigjgijgkgikkjggxxxxtxxxxw1 11 1)()(3、逐步篩選(階段)變量、逐步篩選(階段)變量(1)計(jì)算全部變量的判斷能力(2)挑選變量及其顯著性檢驗(yàn) 從已選變量中尋找最大的 進(jìn)行F檢驗(yàn),若F2Fa,剔除該變量若F2Fa,即沒有變量剔除,則考慮從未選變量中挑選判別能力最強(qiáng)的變量引入,即選擇未選變量中判別能力最強(qiáng)的( )。并進(jìn)行顯

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論