礦床統(tǒng)計(jì)預(yù)測2017-9-判別(含k-最近鄰)_第1頁
礦床統(tǒng)計(jì)預(yù)測2017-9-判別(含k-最近鄰)_第2頁
礦床統(tǒng)計(jì)預(yù)測2017-9-判別(含k-最近鄰)_第3頁
礦床統(tǒng)計(jì)預(yù)測2017-9-判別(含k-最近鄰)_第4頁
礦床統(tǒng)計(jì)預(yù)測2017-9-判別(含k-最近鄰)_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

9.1概述9判別分析法判別分析也是一種傳統(tǒng)的多元統(tǒng)計(jì)分析方法。判別分析屬于“模式識別”方法,在人工智能和機(jī)器學(xué)習(xí)領(lǐng)域,判別分析方法屬于“監(jiān)督分類”或“有導(dǎo)師學(xué)習(xí)”方法。判別分析的任務(wù)是在假設(shè)研究對象分類情況已知的前提下,判斷未知樣品屬于其中哪一類。判別分析法的一般思路是,利用已知對象(如單元)的觀測數(shù)據(jù),建立一個(gè)判別函數(shù)(也稱判別模型),經(jīng)檢驗(yàn)認(rèn)為模型有效后,將未知對象的數(shù)據(jù)代入該模型,算出未知對象應(yīng)歸屬的類別。判別分析法用于礦產(chǎn)預(yù)測的基本思路是,假設(shè)所有單元可分為不同的類別,如“無礦單元”、“含礦單元”;選擇一批控制單元,它們也可分為這兩類;根據(jù)控制單元中的多變量數(shù)據(jù),建立一個(gè)判別模型,然后應(yīng)用該模型,判斷任一未知單元屬于這些類別中的哪一類。一旦識別了一個(gè)未知單元的類別,也就實(shí)現(xiàn)了對它是否含礦的預(yù)測。以下主要介紹狹義的判別分析,即基于費(fèi)歇(Fisher)準(zhǔn)則的兩類判別分析方法。這是一種傳統(tǒng)的多元統(tǒng)計(jì)分析方法。9.1概述9判別分析法基于費(fèi)歇準(zhǔn)則的兩類判別,簡稱為費(fèi)歇(Fisher)判別,是假設(shè)已知對象分為2類的情況下,判斷任一未知對象的類別。(對象=樣品)9.2基于費(fèi)歇準(zhǔn)則的兩類判別分析9.2.1判別函數(shù)與費(fèi)歇準(zhǔn)則設(shè)p維變量空間內(nèi),已知有A、B兩類樣品點(diǎn)。為分開這兩個(gè)類別的樣品,需要找到一個(gè)投影面R,使兩點(diǎn)群投影到R之后達(dá)到最大程度的分離,而各群內(nèi)部離散程度盡量小。R稱為判別函數(shù),它是多個(gè)變量的線性組合。例如,x1x2R假設(shè)只有兩個(gè)變量(右圖),R是一條直線。兩點(diǎn)群投影到任一變量軸上不能很好地分離,但投影到R后可以最大限度地分離。A類B類9判別分析法9.2基于費(fèi)歇準(zhǔn)則的兩類判別分析判別函數(shù)R的表達(dá)式可寫為其中,是待定的各變量系數(shù)。將任一樣品的各變量數(shù)據(jù)代入判別函數(shù)R,得到的函數(shù)值稱為該樣品的判別得分。如何確定諸從而得到R?假設(shè)R已經(jīng)得到,并令和分別表示A、B兩類判別得分的平均值:這里,和分別為A、B

Eq9-1Eq9-2Eq9-3兩類樣品各變量的平均值。9判別分析法投影后,兩點(diǎn)群中心的”距離”可表示為9.2基于費(fèi)歇準(zhǔn)則的兩類判別分析為兩類樣品數(shù);兩點(diǎn)群內(nèi)部的離散程度可用離差平方和來表征:、,、分別為A、B兩類第i樣品第

j變量的值。Eq9-4Eq9-5Eq9-6分別為兩類樣品中第i個(gè)樣品的判別得分。9判別分析法費(fèi)歇準(zhǔn)則是使投影后的類間距離盡量大、類內(nèi)離差盡量小的最優(yōu)化準(zhǔn)則,即令9.2基于費(fèi)歇準(zhǔn)則的兩類判別分析達(dá)到極大值,求出從而獲得判別函數(shù)。為此需要解方程組該方程組經(jīng)求導(dǎo)、化簡、整理后變?yōu)槿缦路匠探M:Eq9-79判別分析法其中,9.2基于費(fèi)歇準(zhǔn)則的兩類判別分析Eq9-8Eq9-9Eq9-10Eq9-119判別分析法兩類離差平方和的和兩類離差叉積和的和9.2基于費(fèi)歇準(zhǔn)則的兩類判別分析9判別分析法令上頁的方程組可寫成矩陣形式:解方程組可求出各從而得到判別函數(shù):Eq9-12Eq9-13或Eq9-14(=Eq9-1)9.2.2判別函數(shù)的使用9.2基于費(fèi)歇準(zhǔn)則的兩類判別分析將任一樣品的多變量數(shù)據(jù)代入判別函數(shù),可求出該樣品的判別得分。如果判別函數(shù)有效,兩類樣品的判別得分值大小將會有顯著差別,一類較大,另一類較小。所以算出判別得分后就可判斷一個(gè)樣品屬于已知分類的哪一類。但需要一個(gè)判別臨界值,以便歸類。判別臨界值R0為:即判別臨界值是兩類樣品平均判別得分按樣品數(shù)加權(quán)的平均值。Eq9-159判別分析法判別函數(shù)是否有效,可用兩種方法進(jìn)行檢驗(yàn):(1)回判。計(jì)算已知樣品的判別得分,并據(jù)此歸類(稱回判)。一般來說判對率越高說明判別函數(shù)越好。實(shí)際中若判對率達(dá)到如80%以上,可認(rèn)為判別函數(shù)有效。(2)F-檢驗(yàn)。求第一自由度為p,第二自由度為NA+NB-p

-1的F-統(tǒng)計(jì)量:9.2.3判別函數(shù)的檢驗(yàn)9.2基于費(fèi)歇準(zhǔn)則的兩類判別分析給定置信度,查F-分布表,若計(jì)算值超過表列值,認(rèn)為判別函數(shù)有效。Eq9-169判別分析法一個(gè)簡單例子,用于說明費(fèi)歇判別分析應(yīng)用過程。9.2.4判別分析舉例9.2基于費(fèi)歇準(zhǔn)則的兩類判別分析控制單元數(shù)據(jù)如右表類別單元號x1x2x3x4A(有礦)113.854.797.8049.60222.314.6712.3147.80328.824.6316.1862.15415.293.547.5843.20528.294.9016.1258.70B(無礦)62.181.061.2320.5073.850.84.0647.10811.400.003.500.0093.662.422.1415.101012.100.005.680.00下面建立判別函數(shù)。9判別分析法9.2.4判別分析舉例9.2基于費(fèi)歇準(zhǔn)則的兩類判別分析,所以先算出S和D。由Eq9-9計(jì)算兩類中各變量平均值的差:9判別分析法為獲得判別函數(shù),需解方程組9.2.4判別分析舉例9.2基于費(fèi)歇準(zhǔn)則的兩類判別分析對稱矩陣,下三角未列出。由Eq9-10和Eq9-11計(jì)算。判別函數(shù)為判別臨界值為因?yàn)樗裕袆e得分大于臨界值的樣品都將判為A類。9判別分析法各類判別得分平均值為9.2.4費(fèi)歇判別分析舉例9.2費(fèi)歇兩類判別檢驗(yàn)(1)回判正確率100%:(2)計(jì)算得F-統(tǒng)計(jì)量14.822,查表可知,在0.01置信水平上顯著。對未知單元進(jìn)行判別(例如下表):類別單元號x1x2x3x4得分判別歸類未知318.853.285.1726.103.984B(無礦)3228.62.41.2127.029.355A(有礦)類別單元號R回判歸類A(有礦)16.008A27.016A38.094A46.946A57.968AB(無礦)62.484B72.692B83.123B92.603B101.141B9判別分析法9.3.1概述9.3基于實(shí)例的學(xué)習(xí)方法9判別分析法基于實(shí)例的學(xué)習(xí)(k-instancebasedlearning)也稱k-最近鄰法,是一類模式識別方法,能夠進(jìn)行多類判別。該方法的特點(diǎn)是不管已知分類情況如何復(fù)雜,都能進(jìn)行識別;計(jì)算過程很簡單,且?guī)缀醪皇軘?shù)據(jù)噪聲影響,被稱為最穩(wěn)健的智能化模式識別方法,應(yīng)用廣泛。9.3.1概述9.3基于實(shí)例的學(xué)習(xí)方法9判別分析法在該類方法中,用于建立判別模型的已知樣本稱為訓(xùn)練樣本或訓(xùn)練集(在礦床統(tǒng)計(jì)預(yù)測中即控制單元)。訓(xùn)練集中可以包含任意多個(gè)類別的樣品,這些類別的名稱可以用文字符號或數(shù)字表示,稱為類標(biāo)號(類標(biāo)簽)。根據(jù)計(jì)算結(jié)果不同,該方法有若干種變種,有的只識別類標(biāo)號,有的可輸出定量結(jié)果。分別介紹如下。9.3.2輸出類標(biāo)號的k-最近鄰法9.3基于實(shí)例的學(xué)習(xí)方法9判別分析法輸出類標(biāo)號的k-最近鄰法是k-最近鄰法中最簡單的一種。計(jì)算過程共2步,如下:第1步:列出訓(xùn)練樣品數(shù)據(jù)表。設(shè)有n個(gè)訓(xùn)練樣品。數(shù)據(jù)表格式為:為類標(biāo)號(文本變量),共m類。其中為d維實(shí)向量(表示有d個(gè)變量);所以數(shù)據(jù)表有n行d+1列。在礦床統(tǒng)計(jì)預(yù)測中,訓(xùn)練樣品就是控制單元。訓(xùn)練樣品數(shù)據(jù)表也稱為訓(xùn)練樣本表,也就是控制單元數(shù)據(jù)表。所以數(shù)據(jù)表有d+1列。式中f(x)稱為x的目標(biāo)函數(shù)值,其值是類標(biāo)號;v是已知類別號,argmax

表示在k個(gè)樣品類標(biāo)號中,出現(xiàn)最多的那一個(gè),即v。第2步:識別。給定未知對象,從“訓(xùn)練樣本表”中取出k個(gè)與距離最近的對象,設(shè)為。9.3.2輸出類標(biāo)號的k-最近鄰法9.3基于實(shí)例的學(xué)習(xí)方法9判別分析法計(jì)算距離的公式:Eq9-17考查所取出的k個(gè)對象中都是什么類別,將其中出現(xiàn)最多的類標(biāo)號,作為的類標(biāo)號判斷結(jié)果。用公式表示為:Eq9-189.3.2輸出類標(biāo)號的k-最近鄰法9.3基于實(shí)例的學(xué)習(xí)方法9判別分析法示例:設(shè)訓(xùn)練樣本分2類,分別用+和-表示;共2個(gè)變量。若k=5,判別結(jié)果為:Xq屬于“-”類若k=1,判別結(jié)果為:Xq屬于“+”類可見,若已知分類情況與變量之間不是線性關(guān)系、很復(fù)雜,該方法仍能識別未知樣品類別。另外,k取多大,無現(xiàn)成規(guī)則,需要試驗(yàn)。9.3.2輸出類標(biāo)號的k-最近鄰法9.3基于實(shí)例的學(xué)習(xí)方法9判別分析法在礦床統(tǒng)計(jì)預(yù)測中,地質(zhì)變量數(shù)據(jù)應(yīng)為定量數(shù)據(jù),這樣才能計(jì)算距離(Eq9-17)。預(yù)測結(jié)果是未知單元的可能歸屬的類別,如“含礦”、“不含礦”或“含大礦”等。9.3.3輸出連續(xù)值的k-最近鄰法9.3基于實(shí)例的學(xué)習(xí)方法9判別分析法輸出連續(xù)值是指預(yù)測結(jié)果不是類標(biāo)號,而是定量數(shù)值,如“找礦有利度”、“資源量”等。為了獲得連續(xù)值預(yù)測結(jié)果,訓(xùn)練集中樣品的y值也應(yīng)當(dāng)是連續(xù)值。這時(shí),將前述的識別公式Eq9-18改為即計(jì)算所取出k個(gè)樣品的因變量的平均值作為判別結(jié)果。也只需兩步就可達(dá)到目的。Eq9-199.3.3輸出連續(xù)值的k-最近鄰法——簡單例子9.3基于實(shí)例的學(xué)習(xí)方法9判別分析法x1x2顏色表示礦床規(guī)模值(數(shù)字未寫出),k=6。算出圈內(nèi)6個(gè)點(diǎn)的礦床規(guī)模平均值作為預(yù)測結(jié)果。k=12。算出圈內(nèi)12個(gè)點(diǎn)的礦床規(guī)模平均值作為預(yù)測結(jié)果。9.3.4距離加權(quán)k-最近鄰法9.3基于實(shí)例的學(xué)習(xí)方法9判別分析法在預(yù)測未知樣品時(shí),上述k-最近鄰法將取出的k個(gè)訓(xùn)練樣本同等對待。距離加權(quán)k-最近鄰法能夠使距較遠(yuǎn)的訓(xùn)練樣本起較小的作用,讓較近的起較大作用,通常這樣更合理。9.3.4距離加權(quán)k-最近鄰法9.3基于實(shí)例的學(xué)習(xí)方法9判別分析法其中表示以距離平方的倒數(shù)為權(quán)系數(shù)。這時(shí),表達(dá)式(1)輸出類標(biāo)號:只需將Eq9-18作如下改動:Eq9-20Eq9-21會算出一個(gè)連續(xù)值;Eq9-20表示判別結(jié)果取該連續(xù)值最大的那個(gè)類標(biāo)號。9.3.4距離加權(quán)k-最近鄰法9.3基于實(shí)例的學(xué)習(xí)方法9判別分析法(1)輸出類標(biāo)號——簡單例子x1x2例如顏色表示不同的類標(biāo)號。k=4。若不進(jìn)行距離加權(quán),預(yù)測結(jié)果為xq屬于洋紅色類;若距離加權(quán),預(yù)測結(jié)果可能為:xq屬于綠色類。9.3.4距離加權(quán)k-最近鄰法9.3基于實(shí)例的學(xué)習(xí)方法9判別分析法(2)輸出連續(xù)值:只需將Eq9-19作如下改動:Eq9-22f(xi)為實(shí)連續(xù)函數(shù)。使用該公式的k最近鄰法稱為Shepard方法。在實(shí)施距離加權(quán)k-最近鄰法時(shí),可以不先選出k個(gè)最近鄰樣本,而是用所有訓(xùn)練樣本都算,這樣可省去選擇較近樣品的步驟,較方便,但如樣品數(shù)多則會較慢。這時(shí)稱為全局方法。否則稱局部方法。9.3.5應(yīng)用注意事項(xiàng)9.3基于實(shí)例的學(xué)習(xí)方法9判別分析法因?yàn)橐枚嘧兞繑?shù)據(jù)計(jì)算樣品之間的距離,所以,所有的自變量都應(yīng)當(dāng)規(guī)格化,或做其它類似的變換,以使不同變量統(tǒng)一量綱。控制單元(訓(xùn)練集)和未知單元的數(shù)據(jù)要統(tǒng)一進(jìn)行規(guī)格化。如果數(shù)據(jù)沒有規(guī)格化,則所計(jì)算出的距離受那些值域大的變量影響大,而值域小的變量無意間被忽視。9.3.5例9.3基于實(shí)例的學(xué)習(xí)方法9判別分析法訓(xùn)練樣本數(shù)據(jù):110個(gè)樣品2個(gè)變量3類樣品號x1x2類標(biāo)號9.3基于實(shí)例的學(xué)習(xí)方法9判別分析法1類別23訓(xùn)練樣本數(shù)據(jù)散點(diǎn)圖9.3.5例9.3

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論