第11講判別分析法預(yù)測(cè)v_第1頁(yè)
第11講判別分析法預(yù)測(cè)v_第2頁(yè)
第11講判別分析法預(yù)測(cè)v_第3頁(yè)
第11講判別分析法預(yù)測(cè)v_第4頁(yè)
第11講判別分析法預(yù)測(cè)v_第5頁(yè)
已閱讀5頁(yè),還剩47頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、11 判別分析法(Discriminant Analysis)陳 志 軍中國(guó)地質(zhì)大學(xué)()學(xué)院1 引言2 費(fèi)歇兩組判別3 貝葉斯多組判別和逐步判別的基本概念本章內(nèi)容 1 引言這是一個(gè)學(xué)習(xí)和的過(guò)程。橙子桔子訓(xùn)練(學(xué)習(xí))特征提取預(yù)處理回歸分析定量預(yù)報(bào)判別分析定性預(yù)報(bào)模式識(shí)別在許多自然科學(xué)和科學(xué)問(wèn)題的研究中,我們所關(guān)心的不是樣品的某一指標(biāo)數(shù)值的多少,而是其類(lèi)別、歸屬。生物學(xué):各類(lèi)性狀物種類(lèi)別醫(yī)學(xué):各類(lèi)癥狀SAS、豬流感地質(zhì)學(xué):巖石分類(lèi)、地層、斷層性質(zhì)、有礦無(wú)礦氣象學(xué):天氣預(yù)報(bào)是晴、陰、雨?在地學(xué)領(lǐng)域中,經(jīng)常著大量的分類(lèi)問(wèn)題,即對(duì)一定量的事物(如地、樣品或變量)按其屬性進(jìn)行歸類(lèi)。由于地質(zhì)對(duì)象的復(fù)雜性,單

2、靠定性標(biāo)志或少數(shù)定量標(biāo)志進(jìn)行分類(lèi),常常不能揭示客觀(guān)事物內(nèi)在本質(zhì)的差別和,難以確定地本質(zhì)屬性的歸屬。同時(shí)也造成很多分類(lèi)計(jì)算具有很大的性和任意性,而且所得的結(jié)果因人而異,常不能反映客觀(guān)實(shí)際情況。在對(duì)地質(zhì)對(duì)象的類(lèi)型研究中,有兩大類(lèi)方法。一類(lèi)是聚類(lèi)分析(或稱(chēng)點(diǎn)群分析,群分析)另一類(lèi)就是判別分析。判別分析的主要思想是用統(tǒng)計(jì)方法將待判的未知樣品與已知類(lèi)型的樣品進(jìn)行(定量)類(lèi)比,以確定待判樣品應(yīng)歸屬于其中哪一類(lèi)。全堿硅圖解(TAS)最簡(jiǎn)單的情形下,單就一個(gè)變量的值就可區(qū)分不同的類(lèi)別。但是,通常情況下,一個(gè)變 量往往難于區(qū)分不同的分類(lèi), 只有利用多個(gè)變量,才能比 較全面從各個(gè)不同的角度刻 畫(huà)個(gè)母體間的差異。在

3、傳統(tǒng)的地質(zhì)學(xué)研究中,四元以上的系統(tǒng)用幾何圖形表示變得十分 。用適當(dāng)?shù)臄?shù)學(xué)方法從多個(gè)變量中提出有關(guān)判別分類(lèi)的有效信息,綜 一個(gè)像單變量那樣好用的判別標(biāo)準(zhǔn)。判別分析法所要解決的問(wèn)題是對(duì)樣品的分類(lèi),其特點(diǎn)為:在已知研究對(duì)象的條件下,確定未知對(duì)象屬于已知分類(lèi)中的哪一類(lèi)。在包括礦床在內(nèi)的各類(lèi)地質(zhì)研究中,經(jīng)常遇到這類(lèi)問(wèn)題。判別分析中的“類(lèi)比法”思想與傳統(tǒng)地質(zhì)學(xué)中所用類(lèi)別法的不同:定量;綜合考慮多種因素或標(biāo)志;以某種最優(yōu)化準(zhǔn)則作分類(lèi)基礎(chǔ)-4-3-2-10123-4-20246x2閃長(zhǎng)玢巖出露面積比訓(xùn)練樣本有礦否?A總體,有礦B總體,無(wú)礦x1磁異常指數(shù)對(duì)數(shù)值閃長(zhǎng)玢巖出露面積比x2磁異常指數(shù)對(duì)數(shù)值x1判別分析特

4、點(diǎn):定量類(lèi)比、定性預(yù)報(bào)判別分析也是一種類(lèi)比法,它是從定量角度,綜合考慮多種地質(zhì)變量或標(biāo)志,按照某種最優(yōu)化判別準(zhǔn)則作為分類(lèi)基礎(chǔ), 來(lái)進(jìn)行分析的。其判別準(zhǔn)則分為兩類(lèi):費(fèi)歇準(zhǔn)則(R.A.Fish,1936)和貝葉斯準(zhǔn)則。 2 費(fèi)歇兩組判別費(fèi)歇判別的基本思想費(fèi)歇判別思想是投影,使理。問(wèn)題簡(jiǎn)化為一維問(wèn)題來(lái)處選擇一個(gè)適當(dāng)?shù)耐队拜S,使所有的樣品點(diǎn)都投影到這個(gè)軸上得到一個(gè)投影值。對(duì)這個(gè)投影軸的方向的要求是:使每一類(lèi)內(nèi)的投影值所形成的類(lèi)內(nèi)離差盡可能小,而不同類(lèi)間的投影值所形成的類(lèi)間離差盡可能大。R = c1x1 + c2x2R0所謂Fisher判別法, 是一種先投影,后用距離判別的方法。尋找一個(gè)方向,也就是圖上

5、的虛線(xiàn)方向,沿著這個(gè)方向朝和這個(gè)虛線(xiàn)垂直的一條直線(xiàn)進(jìn)行投影會(huì)使得這兩類(lèi)分得最清楚。可以看出,如果向其他方向投影,判別效果好。比這個(gè)一、費(fèi)歇準(zhǔn)則準(zhǔn)則與準(zhǔn)則下的兩類(lèi)判別線(xiàn)性模型考慮指標(biāo)與p個(gè)自變量有關(guān)的兩類(lèi)判別:設(shè)指標(biāo)y按其取值范圍只分為A、B兩類(lèi),對(duì)A、B兩類(lèi)分別有nA,nB個(gè)樣品數(shù)據(jù)。Fisher提出,建立p個(gè)因子的一個(gè)線(xiàn)性判別函數(shù)p= åcj x jy = c1x1 + c2 x2 +L+ cp xpj =1其中判別系數(shù)cj( j=1,2,.,p)的選擇應(yīng)使得y值滿(mǎn)足:(1) A類(lèi)與B類(lèi)這兩類(lèi)點(diǎn)群盡可能地遠(yuǎn)離, 即兩類(lèi)點(diǎn)群重心間距離盡可能達(dá)到最大;(2) 同一類(lèi)的樣品點(diǎn)盡可能集中。

6、(1)(2)兩點(diǎn)統(tǒng)稱(chēng)為Fisher準(zhǔn)則組間離差平方和(已解釋離差平方和,盡可能大)G = y( A) - y(B)2組內(nèi)離差平方和(未解釋離差平方和,盡可能小)nAnBH = å y( A) - y( A)2 + å y(B) - y(B)2kkk =1k =1nA1nB1x j ( A) = n å xkj ( A)x j (B) = n å xkj (B)其中k =1k =121ppyk (B) = åcj xkj (B)j =1y(B) = åc j x j (B)j =1yk ( A) = åcj xkj ( A)j

7、 =1y( A) = åc j x j ( A)j =1ppSSW: Sum of Squares WithinSSB: Sum of Squares Between要同時(shí)滿(mǎn)足費(fèi)歇判別準(zhǔn)則的兩個(gè)條件,要求 SSB/SSW y ( A) - y (B)2GI =H=nAnBå yk =1( A) - y ( A)2 + å yk =1(B) - y (B)2kk達(dá)到最大。二、兩類(lèi)判別函數(shù)的參數(shù)估計(jì)I 是y的函數(shù),也是cj 的函數(shù)。根據(jù)極值原理,I 取極大值的條件是I 對(duì)系數(shù)cj 的偏導(dǎo)數(shù)為0,即: ¶I¶c j= 0(j=1,2,3,p)等價(jià)于:

8、¶H¶cj= 1 ¶G(因?yàn)?lnI= lnG lnH)I ¶cj其中,é d1 ùé Lùé cùL.L1ú11121pêúêêúD = êd 2 úC = êc2 úL = ê l21L22.L2 p ú. ú=L-1Dê M úê M úê .êc úêdúêL&

9、#250;LLêëpp úûëp ûëp ûp1p 2nAnB= åxki ( A) - xi ( A)xkj ( A) - x j ( A) + åxki (B) - xi (B)xkj (B) - x j (B)Lijk =1k =1(i,j=1,2,p)d j= x j ( A) - x j (B)( j=1,2,3,p)于是,可得線(xiàn)性判別函數(shù)為:y = c1 x1 + c2 x2p= åcj x j j =1+L+c p xp三、確定臨界值及對(duì)新樣品作出判別當(dāng)判別函數(shù)求出后,可

10、進(jìn)一步求得:類(lèi)平均值ppy( A) = åc j x j ( A)j =1于是,判別臨界值y(B) = åc j x j (B)j =1= nA y ( A) + nB y (B) =nAn+ nnBn+ ny ( A) +yy (B)0n+ nA可進(jìn)一步可導(dǎo)出BABABpy0 = å c j x jj =1將新樣品的各變量觀(guān)測(cè)值代入判別函數(shù),求得相應(yīng)的函數(shù)值y(判別得分)四、判別效果的分析和檢驗(yàn)所建立的判別函數(shù)是否有實(shí)際意義,判別效果有無(wú)實(shí)用價(jià)值,準(zhǔn)確度如何,同樣需用作檢驗(yàn)分析。(1)總體差異的顯著性檢驗(yàn)判別分析中,首先要求假定兩類(lèi)樣品來(lái)自有顯著差異、 可區(qū)別的

11、總體,兩總體的均值應(yīng)有顯著差異。(2)各因子(判別變量)的重要性檢驗(yàn)可以通過(guò)其兩類(lèi)樣本均值之差來(lái)衡量d j= x j ( A) - x j (B)為消除因子量綱的影響,通常在求得判別系數(shù)后,可將其標(biāo)準(zhǔn) 化后再檢驗(yàn)cj*= cj/sj馬氏距離(Mahalanobis馬哈拉諾比斯距離)設(shè)xi,xj是服從均值為,協(xié)方差為 > 0的總體Xpx1抽取的樣品,則稱(chēng)1/ 2)ù-MD(ûij為p馬氏距離上點(diǎn)xi,xj之間的廣義(統(tǒng)計(jì))距離,亦稱(chēng)å = diag(s2 ,s2 ,.,s2 )特別地,當(dāng)12pù1/ 2ép- x)2 úMD(方差

12、)ijë k =1ûk當(dāng)=Ip,有ù1/ 2ép- x )2MD(ú(歐式距離)ijë k =1û總體差異的顯著性檢驗(yàn)實(shí)際中常用回判法來(lái)評(píng)價(jià)判別函數(shù)的有效性。用所建立的差別函數(shù)對(duì)兩總體的已知樣本進(jìn)行回判,并將判別結(jié)果,與已知結(jié)果對(duì)比,計(jì)算判錯(cuò)率,當(dāng)判錯(cuò)率<20%,認(rèn)為判別函數(shù)有效。nerr ( A) ´100%誤判率(A) =nAnerr (B) ´100%誤判率(B) =nB實(shí)例應(yīng)用實(shí)例研究區(qū):寧蕪盆地北段對(duì)象:玢巖型鐵礦。比例尺:1:50,000單元?jiǎng)澐郑喝珔^(qū)劃分為3×Km2單元100

13、個(gè)。(1)根據(jù)研究區(qū)的地質(zhì)勘探情況,該區(qū)有8個(gè)單元為已知有礦單元,14個(gè)單元為已知無(wú)礦單元,另外78個(gè)單元為未知待判單元。因此,令已知有礦單元為A總體,NA=8令已知無(wú)礦單元為B總體,NB=8,剩余6個(gè)作為回判檢驗(yàn).(2)建立數(shù)學(xué)模型,即判別分析函數(shù)。經(jīng)過(guò)控礦地質(zhì)因素分析,選出p=7個(gè)與成礦關(guān)系密切的變量參加建模,x1接觸帶長(zhǎng)度,x2單元中心與斷裂噴發(fā)帶的距離。x4閃長(zhǎng)玢巖出露面積,x5圍巖蝕變組合的相對(duì)熵值,x9磁異常特征值,x10重力異常特征值,x12巖層組合的相對(duì)熵。最終建立判別函數(shù):R=0.0247X1-1.2246X2-0.036X4+0.041X5+0.1540X9- 0.008X

14、10-0.0267X12(3) 確定判別臨界值。= -1.0622= -2.0489A總體的判別得分RA B總體的判別得分RBR0=-1.5885(4) 顯著性檢驗(yàn)。i) 對(duì)已知單元進(jìn)行回判,判對(duì)率93.3%,說(shuō)明R0是顯著的, 所建立的判別函數(shù)有效。ii)馬氏檢驗(yàn)。= RA - RB= 0.9867D2F=2.833,而Fa= F 0.05= 3.29= 2.62F 0.1v1,v 27,87,8F 0.1 < F < F 0.057,87,8判別函數(shù)在=0.1的顯著性水平上有效。(5)對(duì)未知單元進(jìn)行判別,。結(jié)果,有22個(gè)單元的R>R0,判為A類(lèi),為有礦遠(yuǎn)景單元。(6)對(duì)2

15、2個(gè)有利遠(yuǎn)景單元的控礦條件和找礦潛力進(jìn)行評(píng)價(jià), 分析。通過(guò)分析發(fā)現(xiàn),這些單元多數(shù)位于NE向斷裂和NW向斷裂火山噴發(fā)帶內(nèi)。而這兩個(gè)帶已被證明是本區(qū)重要的成礦條件, 另外,這22個(gè)單元之中,有的已經(jīng)發(fā)現(xiàn)了礦點(diǎn),有些在空間上與已知礦床相鄰,因而,認(rèn)為這些單元具有良好的成礦條件和較大的成礦潛力。 3 貝葉斯多組判別和逐步判別的基本概念貝葉斯統(tǒng)計(jì)的基本思想假定為所研究的對(duì)象(總體)在抽樣前已有一定的認(rèn)識(shí),常用先驗(yàn)概率分布來(lái)描述這種認(rèn)識(shí),然后基于抽取的樣本再對(duì)先驗(yàn)認(rèn)識(shí)作修正,得到后驗(yàn)概率分布,再基于后驗(yàn)概率分布作各種統(tǒng)計(jì)推斷。將貝葉斯統(tǒng)計(jì)的思想應(yīng)用于判別分析,就得到貝 葉斯判別方法。費(fèi)歇準(zhǔn)則是對(duì)p維空間兩

16、點(diǎn)群尋找最優(yōu)分割面(選擇一個(gè)適當(dāng)?shù)耐队拜S ,使問(wèn)Pattern Classification題簡(jiǎn)化為一維問(wèn)題來(lái)By R. O. Duda,.處理 );而貝葉斯準(zhǔn)則是為p兩(多個(gè))點(diǎn)群尋找最優(yōu)的空間劃分方法。尋找最優(yōu)的空間劃分方法,實(shí)際上也是要建立一個(gè)判別函數(shù), 但這函數(shù)應(yīng)能滿(mǎn)足誤判平均損失最小的原則。YOUR SITE HEREk個(gè)p維總體:G1,G2,Gk分別具有不同的p維概率密度函數(shù):f1(x),f2(x),.,fk(x)。在進(jìn)行判別之前,確定一個(gè)合理的判別準(zhǔn)則應(yīng)該考慮到每個(gè)總體出現(xiàn)的可能性大?。聪闰?yàn)概率分布),還應(yīng)考慮誤判造成的損失問(wèn)題。先驗(yàn)概率分布:q1,q2,qk, 有k= 0ii

17、=1誤判損失:c(j|i)表示將實(shí)際屬于Gi的樣品判歸為Gj所造成的損失度量。誤判的損失通常在判別分析前就可以估計(jì)。一個(gè)判別準(zhǔn)則(對(duì)Rp空間的一個(gè)劃分):D=(D1,D2,Dk)。誤判概率:P(j|i,D)表示在判別準(zhǔn)則D下將事實(shí)來(lái)自Gi的樣品誤判為來(lái)自Gj的概率。由此誤判而造成的損失為c(j|i) ( j=1,2,k, ji)(誤判損失),因此,在一個(gè)給定的判別準(zhǔn)則D之下,對(duì)Gi而言所造成的損失,應(yīng)該誤判為G1, ,Gi-1,Gi+1,.,Gk的所有損失。平均誤判損失函數(shù)ECM(Expected Cost of Misclassification)按照各誤判概率求和,即在此判別準(zhǔn)則D下,將來(lái)

18、自Gi的樣品錯(cuò)判為其他總體的期望損失為(注意c(i|i)=0)Li = å p( j | i, D) × c( j | i)j =1 j ¹i又由于各總體Gi出現(xiàn)的先驗(yàn)概率為qi(i=1,2,k),故在判別準(zhǔn)則kD之下總的期望損失為kkkL = å qi Lii=1=åå qi × p( j | i, D) × c( j | i)i=1j =1 j ¹i平均誤判損失函數(shù)L與判別準(zhǔn)則D有關(guān), 貝葉斯判別即選擇D=(D1,D2,Dk),使L達(dá)到最小。將樣品空間Rp劃分為k個(gè)兩兩互斥的子空間,存在各種劃分方法,

19、任何一種劃分都可能存在著錯(cuò)分現(xiàn)象,錯(cuò)分就會(huì)造成損失。顯然,人們希望在某種空間劃分下,使總的錯(cuò)分損失最小。貝葉斯準(zhǔn)則在給定母體先驗(yàn)概率時(shí),劃分空間使錯(cuò)分平均損失最小的原則。貝葉斯準(zhǔn)則又稱(chēng)為以指定具有較高后驗(yàn)概率的母體作為判別X歸屬的準(zhǔn)則。兩種準(zhǔn)則下的判別分析的選擇貝葉斯準(zhǔn)則費(fèi)歇準(zhǔn)則判別類(lèi)型多用于多組判別多用于兩組判別數(shù)學(xué)模型所要求條件較嚴(yán)格各組變量必須服從正態(tài)分布;各組方差協(xié)方差矩陣相等;各組變量的均值有顯著的差異;較寬松對(duì)判別變量的分布類(lèi)型并無(wú)特定要求,只要求各類(lèi)總體的二階矩存在,各組變量的均值有顯著的差異逐步判別法(僅僅是在前面的方法中加入變量選擇的功能) 有時(shí),一些變量對(duì)于判別并沒(méi)有什么作

20、用,為了得到對(duì)判別最合 適的變量,可以使用逐步判別。也就是,一邊判別,一邊引進(jìn)判 別能力最強(qiáng)的變量。 這個(gè)過(guò)程可以有進(jìn)有出。一個(gè)變量的判別能力的如:方法有很多種,主要利用各種檢驗(yàn),例Wilks Lambda、Raos V、The Squared Mahalanobis Distance、Smallest F ratio或The Sum of Unexplained Variations等檢驗(yàn)。 這些不同方法可由統(tǒng)計(jì)軟件的各種選項(xiàng)來(lái)實(shí)現(xiàn)。逐步判別的其他方面和前面的無(wú)異。一些有關(guān)問(wèn)題(1)建立判別函數(shù)時(shí)應(yīng)有足夠多的已知樣品,有一定的代表性。其樣品數(shù)越多代表性越強(qiáng)時(shí),所得的判別函數(shù)也就越可靠。每組的樣品數(shù)應(yīng)大大多于變量數(shù),最好是變量數(shù)的兩倍以上。(2)選擇變量時(shí)既要求變量自身能

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論