判別分析法數(shù)_第1頁
判別分析法數(shù)_第2頁
判別分析法數(shù)_第3頁
判別分析法數(shù)_第4頁
判別分析法數(shù)_第5頁
已閱讀5頁,還剩37頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

判別分析法數(shù)第一頁,共四十二頁,2022年,8月28日蠓蟲的分類

MCM89問題兩種蠓Af和Apf已由生物學(xué)家等于1981年根據(jù)它們的觸角長和翼長加以區(qū)分.9只Af蠓用“°”表示和6只Apf蠓用“?”表示.根據(jù)給出的觸角長和翼長識別出一只標本是Af蠓還是Apf蠓是重要的.(1)給定一只Af蠓或Apf蠓,你如何正確地區(qū)分它屬于哪一族?(2)將你的方法用于觸角長和翼長分別為(1.24,1.80),(1.28,1.84),(1.40,2.04)的三個標本.(3)設(shè)Af為寶貴的益蟲,Apf是某種疾病的載體,是否應(yīng)該修改你的分類方法,若需修改,怎么改?第二頁,共四十二頁,2022年,8月28日簡單分類思想引一條直線將點分成兩類.如圖所示.確定直線的方法1、回歸線方法分別就Af和Apf數(shù)據(jù)引兩條回歸線Afy=0.85x+0.637Apfy=I.10x+0.576平均y=0.9625x+0.6065簡單分類思想用它來判定發(fā)現(xiàn)不好2、心型平分線取Af和Apf的中心(1.41,1.80),(1.22,1.93),垂直平分線方程是第三頁,共四十二頁,2022年,8月28日蠓蟲的分類

MCM89問題.變量編號

ApfX1X21234561.141.781.181.961.201.861.262.001.282.001.301.96判別分析方法建模1997(3)數(shù)理統(tǒng)計與管理

變量編號

AfX1X21234567891.241.721.361.741.381.641.381.821.381.901.401.701.481.821.541.821.562.08

變量編號

AfX1X21234567891.241.721.361.741.381.641.381.821.381.901.401.701.481.821.541.821.562.08均值向量均值矩陣第四頁,共四十二頁,2022年,8月28日矩陣轉(zhuǎn)置均值的無偏估計向量總體樣本離差矩陣其中m是總體個數(shù),將數(shù)據(jù)代入第五頁,共四十二頁,2022年,8月28日計算A的特征根及最大特征根對應(yīng)的特征向量u=(a1,a2)T兩個總體的均值向量,代入Y1=3.5717Y2=-0.3511其他樣本點代入計算判別函數(shù)值并計算他們的絕對值d1和d2.樣本點距離123456789Afd1Apfd73.751.085.000.643.281.402.510.804.730.844.761.725.800.473.45可見均是Af蠓第六頁,共四十二頁,2022年,8月28日樣本點距離123456Afd1Apfd23.7980.1244.9321.0093.6790.7274.1350.2123.840.0833.160.76可見均是Apf蠓樣本點距離123

d1

d22.511.412.311.622.451.47三個樣品的判別函數(shù)值代入并求出距離可見均是Apf蠓判別分析是一種應(yīng)用十分廣泛的數(shù)學(xué)方法,2000年的DNA序列也可以運用此法第七頁,共四十二頁,2022年,8月28日判別分析引言距離判別SAS程序計算第八頁,共四十二頁,2022年,8月28日引言判別分析是用于判別個體所屬群體的一種多元統(tǒng)計分析方法.產(chǎn)生于30年代,近年來在自然科學(xué)\社會學(xué)及經(jīng)濟管理學(xué)科中都有廣泛的運用.例特點根據(jù)已掌握的歷史信息,總結(jié)出客觀事物分類的規(guī)律性,建立判別公式和判別準則,然后對新的樣本點,只要根據(jù)準則就可以判別它屬于哪一類別.從概率統(tǒng)計的角度來看,判別分析問題可歸結(jié)為:設(shè)有k個組,所有組的樣品都測量了相同的p個指標指標可表示成p維向量這k個組的分布函數(shù)是F1(x),F2(x),…,Fk(x)對于給定的新樣品x,要求判別它屬于哪一類.第九頁,共四十二頁,2022年,8月28日距離判別馬氏距離(馬哈拉諾比斯Mahalanobis,印度)通常我們理解的距離指歐氏距離,即p維空間中的兩個點x=(x1,x2,…xp)和y=(y1,y2,…yp)它們之間的距離是不合適!設(shè)有兩個總體,X~N(μ1,σ2),Y~N(μ2,4σ2),第十頁,共四十二頁,2022年,8月28日設(shè)x和y是從均值為μ協(xié)方差為

Σ(>0)的總體л中抽取的兩個樣品(p維),則總體л內(nèi)兩點x和y之間的平方馬氏距離定義為點x和總體л之間的平方馬氏距離定義為第十一頁,共四十二頁,2022年,8月28日二組距離判別設(shè)л1,л2組的均值分別為μ1,μ2.協(xié)方差矩陣分別為Σ1,Σ2.(Σi>0,i=1,2)1、μ1≠μ2,∑1=∑2=∑是新樣品,如何判別它來自哪一組計算x到兩個組л1,л2的距離可按如下規(guī)則判別第十二頁,共四十二頁,2022年,8月28日化簡其中令錯判概率第十三頁,共四十二頁,2022年,8月28日實際運用設(shè)來自л1,設(shè)來自л2,μ1,μ2的無偏估計是其中和協(xié)方差矩陣的聯(lián)合無偏估計舉例第十四頁,共四十二頁,2022年,8月28日2、μ1

μ2,∑1≠

∑2判別函數(shù)判別準則第十五頁,共四十二頁,2022年,8月28日例題:對28名一級和25名健將級標槍運動員測試了6個影響標槍成績的訓(xùn)練指標;30米跑(x1)、投小鉛球(x2)、挺舉重量(x3)、拋實心球(x4

)、前拋鉛球(x5

)、五級跳(x6

)。編號組別x1x2x3x4x5x612:2829:5311:12:23.604.3082.370.090.0018.523.304.1087.4880.001000.0018.48:::3.204.2089.2085.00115.0019.883.404.00103.0095.00110.0024.80:3.504.3097.8075.00100,0024.10對14個未定級的運動員定級第十六頁,共四十二頁,2022年,8月28日∑1=∑2=∑假設(shè)計算逆矩陣代入公式判別函數(shù)第十七頁,共四十二頁,2022年,8月28日SAS程序計算Datadiscat1;inputnox1x2x3x4x5x6type;Labelx1=`30m`x2=`throwsmallball`x3=`weightlifting`x4=`throwmedicinemedicineball`x5=`shotput`x6=`5stepandjump`;Cards;3.604.3082.3070.0090.0018.5213.304.1087.4880.00100.0018.481……………………3.204.2089.2085.00115.0019.813.404.00103.0095.00110.0024.802……………………..第十八頁,共四十二頁,2022年,8月28日………………………..3.504.3097.8075.00100.0024.102;Run;Datadiscdat2;inputnox1x2x3x4x5x6;Labelx1=`30m`x2=`throwsmallball`x3=`weightlifting`x4=`throwmedicinemedicineball`x5=`shotput`x6=`5stepandjump`;Cards;3.504.1085.3075.00105.0018.65…………3.404.3097.3975.00110.0022.12;Run;Procdiscrinmdata=discdat1testdata=discdat2crosslisterrtestlist;Classtype;Varx1-x6Run;第十九頁,共四十二頁,2022年,8月28日2000網(wǎng)易杯全國大學(xué)生數(shù)學(xué)建模競賽題目A題DNA序列分類2000年6月,人類基因組計劃中DNA全序列草圖完成,預(yù)計2001年可以完成精確的全序列圖,此后人類將擁有一本記錄著自身生老病死及遺傳進化的全部信息的“天書”。這本大自然寫成的“天書”是由4個字符A,T,C,G按一定順序排成的長約30億的序列,其中沒有“斷句”也沒有標點符號,除了這4個字符表示4種堿基以外,人們對它包含的“內(nèi)容”知之甚少,難以讀懂。破譯這部世界上最巨量信息的“天書”是二十一世紀最重要的任務(wù)之一。在這個目標中,研究DNA全序列具有什么結(jié)構(gòu),由這4個字符排成的看似隨機的序列中隱藏著什么規(guī)律,又是解讀這部天書的基礎(chǔ),是生物信息學(xué)(Bioinformatics)最重要的課題之一。雖然人類對這部“天書”知之甚少,但也發(fā)現(xiàn)了DNA序列中的一些規(guī)律性和結(jié)構(gòu)。第二十頁,共四十二頁,2022年,8月28日例如,在全序列中有一些是用于編碼蛋白質(zhì)的序列片段,即由這4個字符組成的64種不同的3字符串,其中大多數(shù)用于編碼構(gòu)成蛋白質(zhì)的20種氨基酸。又例如,在不用于編碼蛋白質(zhì)的序列片段中,A和T的含量特別多些,于是以某些堿基特別豐富作為特征去研究DNA序列的結(jié)構(gòu)也取得了一些結(jié)果。此外,利用統(tǒng)計的方法還發(fā)現(xiàn)序列的某些片段之間具有相關(guān)性,等等。這些發(fā)現(xiàn)讓人們相信,DNA序列中存在著局部的和全局性的結(jié)構(gòu),充分發(fā)掘序列的結(jié)構(gòu)對理解DNA全序列是十分有意義的。目前在這項研究中最普通的思想是省略序列的某些細節(jié),突出特征,然后將其表示成適當(dāng)?shù)臄?shù)學(xué)對象。這種被稱為粗?;湍P突姆椒ㄍ兄谘芯恳?guī)律性和結(jié)構(gòu)。作為研究DNA序列的結(jié)構(gòu)的嘗試,提出以下對序列集合進行分類的問題:1)下面有20個已知類別的人工制造的序列(見下頁),其中序列標號1—10為A類,11-20為B類。請從中提取特征,構(gòu)造分類方法,并用這些已知類別的序列,衡量你的方法是否足夠好。然后用你認為滿意的方法,對另外20個未標明類別的人工序列(標號21—40)進行分類,把結(jié)果用序號(按從小到大的順序)標明它們的類別(無法分類的不寫入):A類

B類

。第二十一頁,共四十二頁,2022年,8月28日請詳細描述你的方法,給出計算程序。如果你部分地使用了現(xiàn)成的分類方法,也要將方法名稱準確注明。這40個序列也放在如下地址的網(wǎng)頁上,用數(shù)據(jù)文件Art-model-data標識,供下載:網(wǎng)易網(wǎng)址:

教育頻道在線試題;教育網(wǎng):Newsmcm2000教育網(wǎng):2)在同樣網(wǎng)址的數(shù)據(jù)文件Nat-model-data中給出了182個自然DNA序列,它們都較長。用你的分類方法對它們進行分類,像1)一樣地給出分類結(jié)果。提示:衡量分類方法優(yōu)劣的標準是分類的正確率,構(gòu)造分類方法有許多途徑,例如提取序列的某些特征,給出它們的數(shù)學(xué)表示:幾何空間或向量空間的元素等,然后再選擇或構(gòu)造適合這種數(shù)學(xué)表示的分類方法;又例如構(gòu)造概率統(tǒng)計模型,然后用統(tǒng)計方法分類等。第二十二頁,共四十二頁,2022年,8月28日Art-model-data1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatgaccgcttgg2.cggaggacaaacgggatggcggtattggaggtggcggactgttcggggaattattcggtttaaacgggacaaggaaggcggctggaacaaccggacggtggcagcaaagga3.gggacggatacggattctggccacggacggaaaggaggacacggcggacatacacggcggcaacggacggaacggaggaaggagggcggcaatcggtacggaggcggcgga4.atggataacggaaacaaaccagacaaacttcggtagaaatacagaagcttagatgcatatgttttttaaataaaatttgtattattatggtatcataaaaaaaggttgcga5.cggctggcggacaacggactggcggattccaaaaacggaggaggcggacggaggctacaccaccgtttcggcggaaaggcggagggctggcaggaggctcattacggggag6.atggaaaattttcggaaaggcggcaggcaggaggcaaaggcggaaaggaaggaaacggcggatatttcggaagtggatattaggagggcggaataaaggaacggcggcaca7.atgggattattgaatggcggaggaagatccggaataaaatatggcggaaagaacttgttttcggaaatggaaaaaggactaggaatcggcggcaggaaggatatggaggcg8.atggccgatcggcttaggctggaaggaacaaataggcggaattaaggaaggcgttctcgcttttcgacaaggaggcggaccataggaggcggattaggaacggttatgagg第二十三頁,共四十二頁,2022年,8月28日9.atggcggaaaaaggaaatgtttggcatcggcgggctccggcaactggaggttcggccatggaggcgaaaatcgtgggcggcggcagcgctggccggagtttgaggagcgcg10.tggccgcggaggggcccgtcgggcgcggatttctacaagggcttcctgttaaggaggtggcatccaggcgtcgcacgctcggcgcggcaggaggcacgcgggaaaaaacg11.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaattaaatatttatt12.gtttaattactttatcatttaatttaggttttaattttaaatttaatttaggtaagatgaatttggttttttttaaggtagttatttaattatcgttaaggaaagttaaa13.gtattacaggcagaccttatttaggttattattattatttggattttttttttttttttttttaagttaaccgaattattttctttaaagacgttacttaatgtcaatgc14.gttagtcttttttagattaaattattagattatgcagtttttttacataagaaaatttttttttcggagttcatattctaatctgtctttattaaatcttagagatatta15.gtattatatttttttatttttattattttagaatataatttgaggtatgtgtttaaaaaaaatttttttttttttttttttttttttttttttaaaatttataaatttaa16.gttatttttaaatttaattttaattttaaaatacaaaatttttactttctaaaattggtctctggatcgataatgtaaacttattgaatctatagaattacattattgat17.gtatgtctatttcacggaagaatgcaccactatatgatttgaaattatctatggctaaaaaccctcagtaaaatcaatccctaaacccttaaaaaacggcggcctatccc第二十四頁,共四十二頁,2022年,8月28日18.gttaattatttattccttacgggcaattaattatttattacggttttatttacaattttttttttttgtcctatagagaaattacttacaaaacgttattttacatactt19.gttacattatttattattatccgttatcgataattttttacctcttttttcgctgagtttttattcttactttttttcttctttatataggatctcatttaatatcttaa20.gtatttaactctctttactttttttttcactctctacattttcatcttctaaaactgtttgatttaaacttttgtttctttaaggattttttttacttatcctctgttat21.tttagctcagtccagctagctagtttacaatttcgacaccagtttcgcaccatcttaaatttcgatccgtaccgtaatttagcttagatttggatttaaaggatttagattga22.tttagtacagtagctcagtccaagaacgatgtttaccgtaacgtqacgtaccgtacgctaccgttaccggattccggaaagccgattaaggaccgatcgaaaggg25.gaccaaaggtgggctttagggacccgatgctttagtcgcagctggaccagttccccagggtattaggcaaaagctgacgggcaattgcaatttaggcttaggcca26.gatttactttagcatttttagctgacgttagcaagcattagctttagccaatttcgcatttgccagtttcgcagctcagttttaacgcgggatctttagcttcaagctttttac第二十五頁,共四十二頁,2022年,8月28日27.ggattcggatttacccggggattggcggaacgggacctttaggtcgggacccattaggagtaaatgccaaaggacgctggtttagccagtccgttaaggcttag28.tccttagatttcagttactatatttgacttacagtctttgagatttcccttacgattttgacttaaaatttagacgttagggcttatcagttatggattaatttagcttattttcga33.cagttagctgaatcgtttagccatttgacgtaaacatgattttacgtacgtaaattttagccctgacgtttagctaggaatttatgctgacgtagcgatcgactttagcac第二十六頁,共四十二頁,2022年,8月28日34.cggttagggcaaaggttggatttcgacccagggggaaagcccgggacccgaacccagggctttagcgtaggctgacgctaggcttaggttggaacccggaaa35.gcggaagggcgtaggtttgggatgcttagccgtaggctagctttcgacacgatcgattcgcaccacaggataaaagttaagggaccggtaagtcgcggtagcc36.ctagctacgaacgctttaggcgcccccgggagtagtcgttaccgttagtatagcagtcgcagtcgcaattcgcaaaagtccccagctttagccccagagtcgacg37.gggatgctgacgctggttagctttaggcttagcgtagctttagggccccagtctgcaggaaatgcccaaaggaggcccaccgggtagatgccasagtgcaccgt38.aacttttagggcatttccagttttacgggttattttcccagttaaactttgcaccattttacgtgttacgatttacgtataatttgaccttattttggacactttagtttgggttac39.ttagggccaagtcccgaggcaaggaattctgatccaagtccaatcacgtacagtccaagtcaccgtttgcagctaccgtttaccgtacgttgcaagtcaaatccat40.ccattagggtttatttacctgtttattttttcccgagaccttaggtttaccgtactttttaacggtttacctttgaaatttttggactagcttaccctggatttaacggccagttt第二十七頁,共四十二頁,2022年,8月28日第二十八頁,共四十二頁,2022年,8月28日二.模型的合理假設(shè)各序列中DNA堿基三聯(lián)組(即3字符串)的起始位置和基因表達不影響分類的結(jié)果。64種3字符串壓縮為20組后不影響分類的結(jié)果。較長的182個自然序列與已知類別的20個樣本序列具有共同的特征。三.模型建立與求解研究DNA序列具有什么結(jié)構(gòu),其A,T,C,G4個堿基排成的看似隨機的序列中隱藏著什么規(guī)律,是解讀人類基因組計劃中DNA全序列草圖的基礎(chǔ),也是生物信息學(xué)(Bioinformaties)最重要的課題之一。題目給出了20個已知為兩個類別的人工制造的DNA序列,要求我們從中提取特征,構(gòu)造分類方法,從而對20個未標明類別的人工DNA序列和182個自然DNA序列進行分類。這是模式識別中的“有人管理分類”問題,即事先規(guī)定了分類的標準和種類的數(shù)目,通過大批已知樣本的信息處理找出規(guī)律,再用計算機預(yù)報未知。給出的已知類別的樣本稱為學(xué)習(xí)樣本。對于此類問題,我們通過建立分類數(shù)學(xué)模型(這包括形成和提取特征以及制定分類決策)、考查分類模型的效率、預(yù)報未知這幾個步驟來進行。第二十九頁,共四十二頁,2022年,8月28日特征的形成和提取為了有效地實現(xiàn)分類識別,首先要根據(jù)被識別的對象產(chǎn)生一組基本特征,并對基本特征進行變換,得到最能反映分類本質(zhì)的特征。這就是特征形成和提取的過程。在列舉了盡可能完備的特征參數(shù)集之后,就要借助于數(shù)學(xué)的方法,使特征參數(shù)的數(shù)目(在保證分類良好的前提下)減到最小。這是因為:1.多余的特征參數(shù)不但沒有多少好處,而且會帶來噪音,干擾分類和數(shù)學(xué)模型的建立。2.為了保證樣本數(shù)和特征參數(shù)個數(shù)的比值足夠大,而又不必要用太多的樣本,最好使特征參數(shù)的個數(shù)降至最少。模式識別計算一般要求樣本數(shù)至少為變量數(shù)的3倍,否則結(jié)果不夠可靠。本問題的學(xué)習(xí)樣本數(shù)為20個,故特征參數(shù)的個數(shù)以6—8個為宜。我們通過研究4個字符A,T,C,G在DNA序列中的排列、組合特性,主要是研究字符和字符串的排列在序列中出現(xiàn)的頻率,從中提取DNA序列的結(jié)構(gòu)特征參數(shù)。(一)特征的形成分別列舉一個字符,2個字符,3個字符的排列在序列中出現(xiàn)的頻率,構(gòu)成基本特征集。1個字符的出現(xiàn)頻率表1列出了20個樣本中A,T,C,G這4個字符出現(xiàn)的頻率。由于在不用于編碼蛋白質(zhì)的序列片段中,A和T的含量特別多些,因此我們將A和T是否特別豐富作為一個特征。在表一中,列出了A和T出現(xiàn)的頻率之和。(程序見附錄一)

第三十頁,共四十二頁,2022年,8月28日

ACTGA+T1.29.7317.1213.5139.64316.2215.3241.4442.343.27.0321.626.3145.0533.334.42.3410.8128.8318.02223.4210.8142.34412.6112.6139.6447.7118.9236.0454.058.27.9316.2218.9236.9446.859.20.7220.7215.3243.2436.0410.18.1827.2713.6440.9131.8211.35.454.5550.0010.0085.4512.32.732.7350.0014.5582.7313.25.4510.0051.8212.7377.2714.30.008.1850.0011.8280.00

15.29.09.0064.556.3693.6416.36.368.1846.369.0982.7317.35.4524.5526.3613.6461.8218.29.0911.8250.009.0979.0919.21.8214.5556.367.2778.1820.20.0017.2756.366.3676.36

表 1第三十一頁,共四十二頁,2022年,8月28日2.2字符串的排列出現(xiàn)的頻率A,T,C,G這4個字符組成了16種不同的2字符串。表2列出了20個樣本中各2字符串出現(xiàn)的頻率。(用“滾動”算法,如attcg有at,tt,tc,cg共4個2字符串)(程序與附錄一類似)表2

AAACATAGTATCTGTTCACTCCCGGAGTGCGG1.9.019.013.6004.503.603.603.601.808.1111.712.705.4118.922.9.917.213.605.412.701.805.415.414.501.80.909.019.914.505.4121.623.5.4111.713.605.412.700014.4113.51.907.2123.424.18.925.4111.715.4110.811.805.4110.815.411.80.902.706.314.502.704.505.6.318.111.807.211.802.702.703.605.414.502.7010.819.91.909.0121.626.15.322.706.319.913.601.801.805.414.50.00.008.1110.81.908.1119.827.15.321.8010.817.214.502.706.315.41.901.80.906.3113.51.904.5013.606.319.915.413.602.707.212.703.601.808.1110.811.807.21.904.506.31.003.607.214.503.602.702.7011.717.213.6013.5118.0210.6.363.641.826.361.825.452.733.645.453.644.5513.644.553.6413.6418.1811.15.452.7314.552.7316.36.911.8230.011.822.734.55.002.73110.916.3615.451.821.81.00.912.737.27.004.5513.6.364.5510.004.5512.731.822.7334.552.732.731.821.823.644.551.822.73112.737.2713.646.361.8228.182.734.55.00.915.4012.731.8213.64.002.7348.18.00.00.00.001.823.64.00.9116.16.363.6415.45.9113.644.554.5522.731.825.45.00.914.552.73.001.8217.17.275.4510.911.8210.006.364.555.454.557.279.092.733.642.733.643.64711.821.8215.451.82.9130.913.643.641.822.731.823.64.912.7319.2.732.7313.641.8214.559.09.9131.821.828.181.822.732.7120.6.366.366.36.919.0910.003.6432.732.7301.823.64.00.91第三十二頁,共四十二頁,2022年,8月28日3.3字符串的排列出現(xiàn)的頻率A,T,C,G這4個字符組成了64種不同的3字符串。這64種3字符串構(gòu)成生物蛋白質(zhì)的20種氨基酸。在參考文獻[1]的Figur2中,給出了這20種氨基酸的編碼(見圖1)。因此,在計算3字符串的出現(xiàn)頻率時,我們根據(jù)圖1將代表同一種氨基酸的3字符串合成一類,只統(tǒng)計20類3字符串的出現(xiàn)頻率。(不考慮字符串在序列片段中的起始位置,也采用“滾動”算法。如acgtcc中就有acg,cgt,gtc,tcc共4個3字符串)見表3。(程序與附錄一類似)Figure2.Symmetriesofthediamondcodesortthe64codonsinto20classes,indicatedhereby20colors.Allthecodonsineachclassspecifiedthesameaminoacid.

圖1BrianHayes在論文“TheInventionoftheGeneticCode”中給出的圖形(注:圖中DNA被轉(zhuǎn)錄為RNA,“U”代表“T”

第三十三頁,共四十二頁,2022年,8月28日表3

b1b2b3b4b5b6b7b8b9b10b11b12b13b14b15b16b17b18b19b2011.773.542.650.880.000.007.960.884.422.6517.7010.623.544.424.427.081.773.5413.277.0821.891.890.940.940.000.941.890.944.7212.267.5511.328.493.773.776.609.436.607.552.8330.980.000.005.880.988.822.940.000.002.9410.785.8813.730.004.903.9219.611.968.825.8840.000.000.000.870.000.8713.041.746.092.6111.3013.043.485.223.488.703.481.7414.787.8352.860.000.003.810.953.813.810.003.813.819.529.5212.382.869.524.767.622.867.629.5260.000.000.882.630.001.7513.160.884.391.7514.049.657.025.264.3911.402.631.7510.536.1471.920.000.002.880.964.812.880.001.924.8112.506.7313.461.926.734.8110.583.859.627.6982.563.420.000.850.850.8512.820.851.710.8520.512.563.429.405.9811.110.854.2711.973.4290.000.000.002.972.979.902.970.000.993.966.931.9813.861.982.973.9623.762.978.916.93101.870.933.742.800.000.002.800.007.488.419.357.483.7414.9512.150.002.804.677.487.48110.000.890.000.000.001.798.040.005.364.4615.188.048.934.463.578.044.466.2513.395.36122.730.000.912.730.913.644.553.643.641.829.095.453.645.456.367.278.185.4510.919.09131.800.900.900.900.000.909.010.003.607.2114.417.214.501.807.2111.714.50142.940.000.005.880.006.861.960.003.926.863.929.8013.730.985.882.9410.780.9810.789.80152.911.942.911.940.005.831.940.001.949.715.838.7410.681.943.883.888.742.9111.6510.68162.860.950.0011.431.901.902.860.004.763.815.718.578.576.679.524.765.712.867.627.62171.920.961.924.811.923.851.920.960.966.734.818.6510.582.886.732.889.626.738.657.69181.710.851.710.850.852.5616.240.851.710.8545.983.4211.111.715.1311.113.42190.940.941.890.940.940.941.890.9410.387.555.669.438.498.497.555.666.6011.326.600.94200.860.860.001.720.860.8617.240.862.591.7215.527.765.173.454.319.485.17其中b1=aaa+atab2=aca+agab3=cac+ctcb4=ccc+cgcb5=gag+gtgb6=gcg+gggb7=tat+tttb8=tct+tgtb9=aac+caa+atc+ctab10=aag+gaa+atg+gtab11=aat+taa+att+ttab12=acc+cca+agc+cgab13=acg+gac+ctg+gtcb14=act+tca+agt+tgab15=cag+gac+ctt+ttcb16=cat+tac+ctt+ttcb17=ccg+gcc+cgg+ggcb18=cct+tcc+cgt+tgcb19=gat+tag+gtt+ttgb20=gct+tcg+ggt+tgg

第三十四頁,共四十二頁,2022年,8月28日綜合起來,形成了有41個變量的基本特征集。(二)特征的提取上述基本特征集中有41個變量,即樣本處于一個高維空間中。特征的提取就是通過變換的方法用低維空間來表示樣本,使得X的大部分特性能由Y來表達,即將p維隨機向量X變換成q維隨機向量Y(q<p)。我們用主成分分析法進行特征的提取,其步驟是:求X的均方差矩陣V的特征根,記為:λ1≥λ2≥……≥λk>0λk+1=……=λP=0求λ1,λ2……λK對應(yīng)的標準正交的特征向量r1,r2……rK得到第i個主成分為yi=riX,i=1,2……K求第i個主成分的貢獻率ui=λi/λj,i=1,2……K及前m個主成分的累計貢獻率vm=ui.求得q,使得Vq≥V0(V0一般在0.85到1之間),則取W=(r1,r2,……,rq)Y=XW第3步所求的貢獻率,代表主成分表達X的能力,貢獻率越大,對應(yīng)的主成分表達X的能力越強。只要前q個主成分的累計貢獻率超過給定的百分比V。就可以用低維特征Y=(y1,y2,……yq)來反映高維特征(x1,x2……xp)的變化特性?,F(xiàn)將反映20個已知類別樣本的41個特征的隨機向量X進行特征提取。計算得前4個主成分的累計貢獻率為96%,故提取特征為4個變量,取W=(r1,r2,r3,r4),則Y=XW,Y的4個分量就是從基本特征集提取所得的特征參數(shù)向量。(程序及結(jié)果見附錄二)第三十五頁,共四十二頁,2022年,8月28日分類決策的制定前面已選取了特征參數(shù),把特征參數(shù)張成的多維空間稱為特征空間。分類決策就是在特征空間中用統(tǒng)計的方法把被識別對象歸為某一類別。基本作法是在學(xué)習(xí)樣本集的基礎(chǔ)上確定某個判決規(guī)則,使按這種判決規(guī)則對被甄別對象進行分類所造成的錯誤識別率最小或引起的損失最少。這里,我們的分類決策選取Fisher線性判別法。即選取線性判別函數(shù)U(x),使得:

U(x)={E1[U(x)]-E2[U(x)]}2/{D1[U(x)]+D2[U(x)]}=max(1)

其中Ei與Di分別表示母體i的期望和方差運算,i=1,2。

(1)式的含義是:構(gòu)造一個線性判別函數(shù)U(x)對樣本進行分類,使得平均出錯概率最小。即應(yīng)在不同母體下,使U(x)的取值盡量分開。具體地說,要使母體間的差異(E1(U(x))-E2(U(x)))2相對于母體內(nèi)的差異D1[U(x)]+D2[U(x)]為最大。取

U(x)=(1-2)'(∑1+∑2)-1X

就可滿足(1)。其中i為第i類母體的均值矩陣的估計,∑i為第i類母體的方差矩陣的估計。取分類門檻值為:U0=U(α*1+(1-α)*2)其中0<α<1,本問題中兩類樣本的個數(shù)相等,可取α=1/2。若U(1)>U0,U(2)<U0,則當(dāng)U(X)>U0.,就認為X取自母體1;當(dāng)U(X)<U0,就認為X取自母體2。

第三十六頁,共四十二頁,2022年,8月28日用上面得出的4個主成分構(gòu)成的特征組和此分類決策,對20個學(xué)習(xí)樣本進行分類,能得出正確的結(jié)果。但是,若取W=(r1,r2,r3),求Y=XW,以Y的3個分量作為特征參數(shù)向量,再用Fisher線性判別法對20個學(xué)習(xí)樣本進行分類,則第四個樣本不能正確分類。因此,得出分類的數(shù)學(xué)模型為:特征選取:取W=(r1,r2,r3,r4),求Y=XW,得出特征參數(shù)向量就是Y的4個列向量。其中X是反映20個學(xué)習(xí)樣本的41個特征的隨機向量。分類決策:Fisher線性判別法。三.分類模型的有效性考查前面建立的分類數(shù)學(xué)模型對20個學(xué)習(xí)樣本進行了正確分類。為了進一步考查分類模型的有效性和可靠性,我們采用的方法是:預(yù)先留一部分學(xué)習(xí)樣本不參加訓(xùn)練,然后用分類決策模型對其作預(yù)報,將預(yù)報成功率作為預(yù)報能力的指標。每次取出一個學(xué)習(xí)樣本,以其余學(xué)習(xí)樣本作訓(xùn)練集,用分類決策模型對取出的一個樣本作預(yù)報,同時對給出的后20種樣本作預(yù)報。結(jié)果見表4。第三十七頁,共四十二頁,2022年,8月28日取出樣品序號取出樣本類別預(yù)報后20組樣本中A類序號預(yù)報

1

A22,23,25,27,29,34,35,36,37

2

A22,23,25,27,29,34,35,36,37

3

A22,23,25,27,29,34,35,36,37

4

A23,25,27,29,34,35,36,37

5

A22,23,25,27,29,34,35,36,37

6

A22,23,25,27,29,34,35,36,37

7

A22,23,25,27,29,34,35,36,37

8

A22,23,25,27,29,34,35,36,37

9

A22,23,25,27,29,34,35,36,37

10

A22,23,25,27,29,34,35,36,37

11

B22,23,25,27,29,34,35,36,37

12

B22,23,25,27,29,34,35,36,37

13

B22,23,25,27,29,34,35,36,37

14

B22,23,25,27,29,34,35,36,37

15

B22,23,25,27,29,34,35,36,37,39

16

B22,23,25,27,29,34,35,36,37

17

B22,23,25,27,29,34,35,36,37,30,39

18

B22,23,25,27,29,34,35,36,37

19

B22,23,25,27,29,34,35,36,37

20

B22,23,25,27,29,34,35,37第三十八頁,共四十二頁,2022年,8月28日從表4可以看出:每次取出一個學(xué)習(xí)樣本,以其余學(xué)習(xí)樣本作訓(xùn)練集,用分類模型對該學(xué)習(xí)樣本的預(yù)報的成功率是100%。每次取出一個學(xué)習(xí)樣本,以其余學(xué)習(xí)樣本作訓(xùn)練集,用分類模型對未知類別的第21~40個樣本進行預(yù)報,其結(jié)果有以下特點:除分別取出4、15、17,20的預(yù)報結(jié)果不同外,分別取出其余16中一個,預(yù)報結(jié)果均為:22,23,25,27,29,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論