版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、判別分析法數(shù)第1頁,共42頁,2022年,5月20日,13點44分,星期一蠓蟲的分類 MCM89問題 兩種蠓Af和Apf已由生物學(xué)家等于1981年根據(jù)它們的觸角長和翼長加以區(qū)分.9只Af蠓用“”表示和6只Apf蠓用“”表示.根據(jù)給出的觸角長和翼長識別出一只標本是Af蠓還是Apf蠓是重要的.(1) 給定一只Af蠓或Apf蠓,你如何正確地區(qū)分它屬于哪一族?(2) 將你的方法用于觸角長和翼長分別為(1.24,1.80),(1.28,1.84),(1.40,2.04)的三個標本.(3) 設(shè)Af為寶貴的益蟲,Apf是某種疾病的載體,是否應(yīng)該修改你的分類方法,若需修改,怎么改?第2頁,共42頁,2022年
2、,5月20日,13點44分,星期一簡單分類思想引一條直線將點分成兩類.如圖所示.確定直線的方法1、回歸線方法分別就Af和Apf數(shù)據(jù)引兩條回歸線Af y=0.85x+0.637Apf y=I.10 x+0.576平均 y=0.9625x+0.6065簡單分類思想用它來判定發(fā)現(xiàn)不好2、心型平分線取Af和Apf的中心(1.41,1.80),(1.22,1.93),垂直平分線方程是第3頁,共42頁,2022年,5月20日,13點44分,星期一蠓蟲的分類 MCM89問題. 變量編號 ApfX1 X21234561.14 1.781.18 1.961.20 1.861.26 2.001.28 2.001.
3、30 1.96判別分析方法建模 1997(3)數(shù)理統(tǒng)計與管理 變量編號 AfX1 X21234567891.24 1.721.36 1.741.38 1.641.38 1.821.38 1.901.40 1.701.48 1.821.54 1.821.56 2.08 變量編號 AfX1 X21234567891.24 1.721.36 1.741.38 1.641.38 1.821.38 1.901.40 1.701.48 1.821.54 1.821.56 2.08均值向量均值矩陣第4頁,共42頁,2022年,5月20日,13點44分,星期一矩陣轉(zhuǎn)置均值的無偏估計向量總體樣本離差矩陣其中m是
4、總體個數(shù),將數(shù)據(jù)代入第5頁,共42頁,2022年,5月20日,13點44分,星期一計算A的特征根及最大特征根對應(yīng)的特征向量u=(a1,a2)T兩個總體的均值向量,代入Y1=3.5717 Y2=-0.3511 其他樣本點代入計算判別函數(shù)值并計算他們的絕對值d1和d2. 樣本點距離123456789Af d1Apf d73.751.085.000.643.281.402.510.804.730.844.761.725.800.473.45可見均是Af蠓第6頁,共42頁,2022年,5月20日,13點44分,星期一 樣本點距離123456Af d1Apf d23.7980.124
5、4.9321.0093.6790.7274.1350.2123.840.0833.160.76可見均是Apf蠓 樣本點距離123 d1 d22.511.412.311.622.451.47三個樣品的判別函數(shù)值代入并求出距離可見均是Apf蠓判別分析是一種應(yīng)用十分廣泛的數(shù)學(xué)方法,2000年的DNA序列也可以運用此法第7頁,共42頁,2022年,5月20日,13點44分,星期一判別分析引言距離判別程序計算第8頁,共42頁,2022年,5月20日,13點44分,星期一引言 判別分析是用于判別個體所屬群體的一種多元統(tǒng)計分析方法.產(chǎn)生于30年代,近年來在自然科學(xué)社會學(xué)及經(jīng)濟管理學(xué)科中都有廣泛的 運用.例特
6、點根據(jù)已掌握的歷史信息,總結(jié)出客觀事物分類的規(guī)律性,建立判別公式和判別準則,然后對新的樣本點,只要根據(jù)準則就可以判別它屬于哪一類別.從概率統(tǒng)計的角度來看,判別分析問題可歸結(jié)為:設(shè)有k個組,所有組的樣品都測量了相同的p個指標指標可表示成p維向量這k個組的分布函數(shù)是F1(x),F2(x),Fk(x)對于給定的新樣品 x,要求判別它屬于哪一類.第9頁,共42頁,2022年,5月20日,13點44分,星期一距離判別馬氏距離(馬哈拉諾比斯Mahalanobis, 印度)通常我們理解的距離指歐氏距離, 即p維空間中的兩個點x=(x1,x2, xp)和y=(y1,y2, yp)它們之間的距離是不合適!設(shè)有兩
7、個總體,XN(1,), Y N(2,4), 第10頁,共42頁,2022年,5月20日,13點44分,星期一設(shè)x和y是從均值為協(xié)方差為 (0)的總體中抽取的兩個樣品(p維),則總體內(nèi)兩點x和y之間的平方馬氏距離定義為點x和總體之間的平方馬氏距離定義為第11頁,共42頁,2022年,5月20日,13點44分,星期一二組距離判別設(shè)1,2組的均值分別為1,2.協(xié)方差矩陣分別為1,2.(i0,i=1,2)1、12,1=2=是新樣品,如何判別它來自哪一組計算x到兩個組1,2的距離可按如下規(guī)則判別第12頁,共42頁,2022年,5月20日,13點44分,星期一化簡其中令錯判概率第13頁,共42頁,2022
8、年,5月20日,13點44分,星期一實際運用設(shè)來自1,設(shè)來自2,1,2的無偏估計是其中和協(xié)方差矩陣的聯(lián)合無偏估計舉例第14頁,共42頁,2022年,5月20日,13點44分,星期一2、1 2,1 2判別函數(shù)判別準則第15頁,共42頁,2022年,5月20日,13點44分,星期一例題:對28名一級和25名健將級標槍運動員測試了6個影響標槍成績的訓(xùn)練指標;30米跑(x1)、 投小鉛球( x2 )、 挺舉重量( x3 )、拋實心球( x4 )、前拋鉛球( x5 )、 五級跳( x6 )。編號組別x1 x2 x3 x4 x5 x6 12:2829:5311:12:23.60 4.30 82.3 70.
9、0 90.00 18.523.30 4.10 87.48 80.00 1000.00 18.48: : : 3.20 4.20 89.20 85.00 115.00 19.883.40 4.00 103.00 95.00 110.00 24.80:3.50 4.30 97.80 75.00 100,00 24.10對個未定級的運動員定級第16頁,共42頁,2022年,5月20日,13點44分,星期一1=2=假設(shè)計算逆矩陣代入公式判別函數(shù)第17頁,共42頁,2022年,5月20日,13點44分,星期一程序計算Data discat1; input no x1 x2 x3 x4 x5 x6 typ
10、e;Label x1=30m x2=throw small ball x3=weight liftingx4=throw medicine medicine ball x5=shot put x6=5step and jump;Cards;3.60 4.30 82.30 70.00 90.00 18.52 13.30 4.10 87.48 80.00 100.00 18.48 13.20 4.20 89.20 85.00 115.00 19.8 13.40 4.00 103.00 95.00 110.00 24.80 2.第18頁,共42頁,2022年,5月20日,13點44分,星期一.3.5
11、0 4.30 97.80 75.00 100.00 24.10 2;Run;Data discdat2; input no x1 x2 x3 x4 x5 x6 ; Label x1=30m x2=throw small ball x3=weight lifting x4=throw medicine medicine ball x5=shot put x6=5step and jump;Cards; 3.50 4.10 85.30 75.00 105.00 18.653.40 4.30 97.39 75.00 110.00 22.12;Run;Proc discrinm data=discda
12、t1 testdata=discdat2 crosslisterr testlist;Class type;Var x1-x6Run;第19頁,共42頁,2022年,5月20日,13點44分,星期一2000網(wǎng)易杯全國大學(xué)生數(shù)學(xué)建模競賽題目A題 DNA序列分類 2000年6月,人類基因組計劃中DNA全序列草圖完成,預(yù)計2001年可以完成精確的全序列圖,此后人類將擁有一本記錄著自身生老病死及遺傳進化的全部信息的“天書”。這本大自然寫成的“天書”是由4個字符A,T,C,G按一定順序排成的長約30億的序列,其中沒有“斷句”也沒有標點符號,除了這4個字符表示4種堿基以外,人們對它包含的“內(nèi)容”知之甚少,
13、難以讀懂。破譯這部世界上最巨量信息的“天書”是二十一世紀最重要的任務(wù)之一。在這個目標中,研究DNA全序列具有什么結(jié)構(gòu),由這4個字符排成的看似隨機的序列中隱藏著什么規(guī)律,又是解讀這部天書的基礎(chǔ),是生物信息學(xué)(Bioinformatics)最重要的課題之一。雖然人類對這部“天書”知之甚少,但也發(fā)現(xiàn)了DNA序列中的一些規(guī)律性和結(jié)構(gòu)。第20頁,共42頁,2022年,5月20日,13點44分,星期一例如,在全序列中有一些是用于編碼蛋白質(zhì)的序列片段,即由這4個字符組成的64種不同的3字符串,其中大多數(shù)用于編碼構(gòu)成蛋白質(zhì)的20種氨基酸。又例如,在不用于編碼蛋白質(zhì)的序列片段中,A和T的含量特別多些,于是以某些
14、堿基特別豐富作為特征去研究DNA序列的結(jié)構(gòu)也取得了一些結(jié)果。此外,利用統(tǒng)計的方法還發(fā)現(xiàn)序列的某些片段之間具有相關(guān)性,等等。這些發(fā)現(xiàn)讓人們相信,DNA序列中存在著局部的和全局性的結(jié)構(gòu),充分發(fā)掘序列的結(jié)構(gòu)對理解DNA全序列是十分有意義的。目前在這項研究中最普通的思想是省略序列的某些細節(jié),突出特征,然后將其表示成適當(dāng)?shù)臄?shù)學(xué)對象。這種被稱為粗?;湍P突姆椒ㄍ兄谘芯恳?guī)律性和結(jié)構(gòu)。作為研究DNA序列的結(jié)構(gòu)的嘗試,提出以下對序列集合進行分類的問題: 1)下面有20個已知類別的人工制造的序列(見下頁),其中序列標號110 為A類,11-20為B類。請從中提取特征,構(gòu)造分類方法,并用這些已知類別的序列
15、,衡量你的方法是否足夠好。然后用你認為滿意的方法,對另外20個未標明類別的人工序列(標號2140)進行分類,把結(jié)果用序號(按從小到大的順序)標明它們的類別(無法分類的不寫入):A類 B類 。第21頁,共42頁,2022年,5月20日,13點44分,星期一 請詳細描述你的方法,給出計算程序。如果你部分地使用了現(xiàn)成的分類方法,也要將方法名稱準確注明。這40個序列也放在如下地址的網(wǎng)頁上,用數(shù)據(jù)文件Art-model-data 標識,供下載:網(wǎng)易網(wǎng)址: 教育頻道 在線試題;教育網(wǎng): News mcm2000教育網(wǎng): 2)在同樣網(wǎng)址的數(shù)據(jù)文件Nat-model-data 中給出了182個自然DNA序列,
16、它們都較長。用你的分類方法對它們進行分類,像1)一樣地給出分類結(jié)果。提示:衡量分類方法優(yōu)劣的標準是分類的正確率,構(gòu)造分類方法有許多途徑,例如提取序列的某些特征,給出它們的數(shù)學(xué)表示:幾何空間或向量空間的元素等,然后再選擇或構(gòu)造適合這種數(shù)學(xué)表示的分類方法;又例如構(gòu)造概率統(tǒng)計模型,然后用統(tǒng)計方法分類等。第22頁,共42頁,2022年,5月20日,13點44分,星期一Art-model-data1.aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggaggacgaggtaaaggaggcttgtctacggccggaagtgaagggggatatga
17、ccgcttgg2.cggaggacaaacgggatggcggtattggaggtggcggactgttcggggaattattcggtttaaacgggacaaggaaggcggctggaacaaccggacggtggcagcaaagga3.gggacggatacggattctggccacggacggaaaggaggacacggcggacatacacggcggcaacggacggaacggaggaaggagggcggcaatcggtacggaggcggcgga4.atggataacggaaacaaaccagacaaacttcggtagaaatacagaagcttagatgcatatgttt
18、tttaaataaaatttgtattattatggtatcataaaaaaaggttgcga5.cggctggcggacaacggactggcggattccaaaaacggaggaggcggacggaggctacaccaccgtttcggcggaaaggcggagggctggcaggaggctcattacggggag6.atggaaaattttcggaaaggcggcaggcaggaggcaaaggcggaaaggaaggaaacggcggatatttcggaagtggatattaggagggcggaataaaggaacggcggcaca7.atgggattattgaatggcggaggaa
19、gatccggaataaaatatggcggaaagaacttgttttcggaaatggaaaaaggactaggaatcggcggcaggaaggatatggaggcg8.atggccgatcggcttaggctggaaggaacaaataggcggaattaaggaaggcgttctcgcttttcgacaaggaggcggaccataggaggcggattaggaacggttatgagg第23頁,共42頁,2022年,5月20日,13點44分,星期一9.atggcggaaaaaggaaatgtttggcatcggcgggctccggcaactggaggttcggccatggaggcga
20、aaatcgtgggcggcggcagcgctggccggagtttgaggagcgcg10.tggccgcggaggggcccgtcgggcgcggatttctacaagggcttcctgttaaggaggtggcatccaggcgtcgcacgctcggcgcggcaggaggcacgcgggaaaaaacg11.gttagatttaacgttttttatggaatttatggaattataaatttaaaaatttatattttttaggtaagtaatccaacgtttttattactttttaaaattaaatatttatt12.gtttaattactttatcatttaatttag
21、gttttaattttaaatttaatttaggtaagatgaatttggttttttttaaggtagttatttaattatcgttaaggaaagttaaa13.gtattacaggcagaccttatttaggttattattattatttggattttttttttttttttttttaagttaaccgaattattttctttaaagacgttacttaatgtcaatgc14.gttagtcttttttagattaaattattagattatgcagtttttttacataagaaaatttttttttcggagttcatattctaatctgtctttattaaatctta
22、gagatatta15.gtattatatttttttatttttattattttagaatataatttgaggtatgtgtttaaaaaaaatttttttttttttttttttttttttttttttaaaatttataaatttaa16.gttatttttaaatttaattttaattttaaaatacaaaatttttactttctaaaattggtctctggatcgataatgtaaacttattgaatctatagaattacattattgat17.gtatgtctatttcacggaagaatgcaccactatatgatttgaaattatctatggctaaaaac
23、cctcagtaaaatcaatccctaaacccttaaaaaacggcggcctatccc第24頁,共42頁,2022年,5月20日,13點44分,星期一18.gttaattatttattccttacgggcaattaattatttattacggttttatttacaattttttttttttgtcctatagagaaattacttacaaaacgttattttacatactt19.gttacattatttattattatccgttatcgataattttttacctcttttttcgctgagtttttattcttactttttttcttctttatataggatctcatttaata
24、tcttaa20.gtatttaactctctttactttttttttcactctctacattttcatcttctaaaactgtttgatttaaacttttgtttctttaaggattttttttacttatcctctgttat21.tttagctcagtccagctagctagtttacaatttcgacaccagtttcgcaccatcttaaatttcgatccgtaccgtaatttagcttagatttggatttaaaggatttagattga22.tttagtacagtagctcagtccaagaacgatgtttaccgtaacgtqacgtaccgtacgctacc
25、gttaccggattccggaaagccgattaaggaccgatcgaaaggg 25.gaccaaaggtgggctttagggacccgatgctttagtcgcagctggaccagttccccagggtattaggcaaaagctgacgggcaattgcaatttaggcttaggcca26.gatttactttagcatttttagctgacgttagcaagcattagctttagccaatttcgcatttgccagtttcgcagctcagttttaacgcgggatctttagcttcaagctttttac第25頁,共42頁,2022年,5月20日,13點44分,星期
26、一27.ggattcggatttacccggggattggcggaacgggacctttaggtcgggacccattaggagtaaatgccaaaggacgctggtttagccagtccgttaaggcttag28.tccttagatttcagttactatatttgacttacagtctttgagatttcccttacgattttgacttaaaatttagacgttagggcttatcagttatggattaatttagcttattttcga33.cagttagctgaatcgtttagccatttgacgtaaacatgattttacgtacgtaaattttagccctgacgt
27、ttagctaggaatttatgctgacgtagcgatcgactttagcac第26頁,共42頁,2022年,5月20日,13點44分,星期一34.cggttagggcaaaggttggatttcgacccagggggaaagcccgggacccgaacccagggctttagcgtaggctgacgctaggcttaggttggaacccggaaa35.gcggaagggcgtaggtttgggatgcttagccgtaggctagctttcgacacgatcgattcgcaccacaggataaaagttaagggaccggtaagtcgcggtagcc36.ctagctacgaac
28、gctttaggcgcccccgggagtagtcgttaccgttagtatagcagtcgcagtcgcaattcgcaaaagtccccagctttagccccagagtcgacg37.gggatgctgacgctggttagctttaggcttagcgtagctttagggccccagtctgcaggaaatgcccaaaggaggcccaccgggtagatgccasagtgcaccgt38.aacttttagggcatttccagttttacgggttattttcccagttaaactttgcaccattttacgtgttacgatttacgtataatttgaccttattttg
29、gacactttagtttgggttac39.ttagggccaagtcccgaggcaaggaattctgatccaagtccaatcacgtacagtccaagtcaccgtttgcagctaccgtttaccgtacgttgcaagtcaaatccat40.ccattagggtttatttacctgtttattttttcccgagaccttaggtttaccgtactttttaacggtttacctttgaaatttttggactagcttaccctggatttaacggccagttt第27頁,共42頁,2022年,5月20日,13點44分,星期一第28頁,共42頁,2022年,5月20
30、日,13點44分,星期一二.模型的合理假設(shè)各序列中DNA堿基三聯(lián)組(即3字符串)的起始位置和基因表達不影響分類的結(jié)果。64種3字符串壓縮為20組后不影響分類的結(jié)果。較長的182個自然序列與已知類別的20個樣本序列具有共同的特征。三.模型建立與求解研究DNA序列具有什么結(jié)構(gòu),其A,T,C,G4個堿基排成的看似隨機的序列中隱藏著什么規(guī)律,是解讀人類基因組計劃中DNA全序列草圖的基礎(chǔ),也是生物信息學(xué)(Bio informaties)最重要的課題之一。題目給出了20個已知為兩個類別的人工制造的DNA序列,要求我們從中提取特征,構(gòu)造分類方法,從而對20個未標明類別的人工DNA序列和182個自然DNA序列
31、進行分類。這是模式識別中的“有人管理分類”問題,即事先規(guī)定了分類的標準和種類的數(shù)目,通過大批已知樣本的信息處理找出規(guī)律,再用計算機預(yù)報未知。給出的已知類別的樣本稱為學(xué)習(xí)樣本。對于此類問題,我們通過建立分類數(shù)學(xué)模型(這包括形成和提取特征以及制定分類決策)、考查分類模型的效率、預(yù)報未知這幾個步驟來進行。第29頁,共42頁,2022年,5月20日,13點44分,星期一特征的形成和提取為了有效地實現(xiàn)分類識別,首先要根據(jù)被識別的對象產(chǎn)生一組基本特征,并對基本特征進行變換,得到最能反映分類本質(zhì)的特征。這就是特征形成和提取的過程。在列舉了盡可能完備的特征參數(shù)集之后,就要借助于數(shù)學(xué)的方法,使特征參數(shù)的數(shù)目(在
32、保證分類良好的前提下)減到最小。這是因為:1.多余的特征參數(shù)不但沒有多少好處,而且會帶來噪音,干擾分類和數(shù)學(xué)模型的建立。2.為了保證樣本數(shù)和特征參數(shù)個數(shù)的比值足夠大,而又不必要用太多的樣本,最好使特征參數(shù)的個數(shù)降至最少。模式識別計算一般要求樣本數(shù)至少為變量數(shù)的3倍,否則結(jié)果不夠可靠。本問題的學(xué)習(xí)樣本數(shù)為20個,故特征參數(shù)的個數(shù)以68個為宜。我們通過研究4個字符A,T,C,G在DNA序列中的排列、組合特性,主要是研究字符和字符串的排列在序列中出現(xiàn)的頻率,從中提取DNA序列的結(jié)構(gòu)特征參數(shù)。(一)特征的形成分別列舉一個字符,2個字符,3個字符的排列在序列中出現(xiàn)的頻率,構(gòu)成基本特征集。1個字符的出現(xiàn)頻
33、率表1列出了20個樣本中A,T,C,G這4個字符出現(xiàn)的頻率。由于在不用于編碼蛋白質(zhì)的序列片段中,A和T的含量特別多些,因此我們將A和T是否特別豐富作為一個特征。在表一中,列出了A和T出現(xiàn)的頻率之和。(程序見附錄一) 第30頁,共42頁,2022年,5月20日,13點44分,星期一 A C T G A+T 1. 29.73 17.12 13.51 39.64 43.24 2. 27.03 16.22 15.32 41.44 42.34 3. 27.03 21.62 6.31 45.05 33.33 4. 42.34 10.81 28.83 18.02 71.17 5. 23.42 23.42 1
34、0.81 42.34 34.23 6. 35.14 12.61 12.61 39.64 47.75 7. 35.14 9.91 18.92 36.04 54.05 8. 27.93 16.22 18.92 36.94 46.85 9. 20.72 20.72 15.32 43.24 36.04 10. 18.18 27.27 13.64 40.91 31.82 11. 35.45 4.55 50.00 10.00 85.45 12. 32.73 2.73 50.00 14.55 82.73 13. 25.45 10.00 51.82 12.73 77.27 14. 30.00 8.18 50.
35、00 11.82 80.00 15. 29.09 .00 64.55 6.36 93.64 16. 36.36 8.18 46.36 9.09 82.73 17. 35.45 24.55 26.36 13.64 61.82 18. 29.09 11.82 50.00 9.09 79.09 19. 21.82 14.55 56.36 7.27 78.18 20. 20.00 17.27 56.36 6.36 76.36 表1第31頁,共42頁,2022年,5月20日,13點44分,星期一22字符串的排列出現(xiàn)的頻率A,T,C,G這4個字符組成了16種不同的2字符串。表2列出了20個樣本中各2字符串
36、出現(xiàn)的頻率。(用“滾動”算法,如attcg有at,tt,tc,cg共4個2字符串)(程序與附錄一類似) 表 2 AA AC AT AG TA TC TG TT CA CT CC CG GA GT GC GG 1. 9.01 9.01 3.60 8.11 4.50 .90 4.50 3.60 3.60 3.60 1.80 8.11 11.71 2.70 5.41 18.92 2. 9.91 7.21 3.60 5.41 2.70 1.80 5.41 5.41 4.50 1.80 .90 9.01 9.91 4.50 5.41 21.62 3. 5.41 11.71 3.60 5.41 2.70
37、1.80 .90 .90 5.41 .90 .90 14.41 13.51 .90 7.21 23.42 4. 18.92 5.41 11.71 5.41 10.81 1.80 5.41 10.81 5.41 1.80 .90 2.70 6.31 4.50 2.70 4.50 5. 6.31 8.11 1.80 7.21 1.80 2.70 2.70 3.60 5.41 4.50 2.70 10.81 9.91 .90 9.01 21.62 6. 15.32 2.70 6.31 9.91 3.60 1.80 1.80 5.41 4.50 .00 .00 8.11 10.81 .90 8.11
38、19.82 7. 15.32 1.80 10.81 7.21 4.50 2.70 6.31 5.41 .90 1.80 .90 6.31 13.51 .90 4.50 16.22 8. 8.11 3.60 6.31 9.91 5.41 3.60 2.70 7.21 2.70 3.60 1.80 8.11 10.81 1.80 7.21 16.22 9. 9.01 .90 4.50 6.31 .00 3.60 7.21 4.50 3.60 2.70 2.70 11.71 7.21 3.60 13.51 18.02 10. 6.36 3.64 1.82 6.36 1.82 5.45 2.73 3.
39、64 5.45 3.64 4.55 13.64 4.55 3.64 13.64 18.18 11.15.45 2.73 14.55 2.73 16.36 .91 1.82 30.00 .91 .91 .91 1.82 2.73 4.55 .00 2.73 12. 13.64 .91 10.91 6.36 15.45 1.82 1.82 30.91 .91 .91 .00 .91 2.73 7.27 .00 4.55 13. 6.36 4.55 10.00 4.55 12.73 1.82 2.73 34.55 2.73 2.73 1.82 1.82 3.64 4.55 1.82 2.73 14.
40、 8.18 .91 12.73 7.27 13.64 6.36 1.82 28.18 2.73 4.55 .00 .91 5.45 4.55 .91 .91 15. 13.64 .00 12.73 1.82 13.64 .00 2.73 48.18 .00 .00 .00 .00 1.82 3.64 .00 .91 16.16.36 3.64 15.45 .91 13.64 4.55 4.55 22.73 1.82 5.45 .00 .91 4.55 2.73 .00 1.82 17.17.27 5.45 10.91 1.82 10.00 6.36 4.55 5.45 4.55 7.27 9.
41、09 2.73 3.64 2.73 3.64 3.64 18. 8.18 7.27 11.82 1.82 15.45 1.82 .91 30.91 3.64 3.64 1.82 2.73 1.82 3.64 .91 2.73 19. 2.73 2.73 13.64 1.82 14.55 9.09 .913 1.82 1.82 8.18 1.82 2.73 2.73 2.73 .91 .91 20. 6.36 6.36 6.36 .91 9.09 10.00 3.64 32.73 2.73 13.64 .91 .00 1.82 3.64 .00 .91第32頁,共42頁,2022年,5月20日,
42、13點44分,星期一33字符串的排列出現(xiàn)的頻率A,T,C,G這4個字符組成了64種不同的3字符串。這64種3字符串構(gòu)成生物蛋白質(zhì)的20種氨基酸。在參考文獻1的Figur2中,給出了這20種氨基酸的編碼(見圖1)。因此,在計算3字符串的出現(xiàn)頻率時,我們根據(jù)圖1將代表同一種氨基酸的3字符串合成一類,只統(tǒng)計20類3字符串的出現(xiàn)頻率。(不考慮字符串在序列片段中的起始位置,也采用“滾動”算法。如acgtcc中就有acg,cgt,gtc,tcc共4個3字符串)見表3。(程序與附錄一類似)Figure 2. Symmetries of the diamond code sort the 64 codons
43、into 20 classes, indicated here by 20 colors. All the codons in each class specified the same amino acid. 圖1 Brian Hayes 在論文“The Invention of the Genetic Code”中給出的圖形 (注:圖中DNA被轉(zhuǎn)錄為RNA,“U”代表“T” 第33頁,共42頁,2022年,5月20日,13點44分,星期一表 3 b1 b2 b3 b4 b5 b6 b7 b8 b9 b10 b11 b12 b13 b14 b15 b16 b17 b18 b19 b20 1
44、1.77 3.54 2.65 0.88 0.00 0.00 7.96 0.88 4.42 2.65 17.70 10.62 3.54 4.42 4.42 7.08 1.77 3.54 13.27 7.08 2 1.89 1.89 0.94 0.94 0.00 0.94 1.89 0.94 4.72 12.26 7.55 11.32 8.49 3.77 3.77 6.60 9.43 6.60 7.55 2.83 3 0.98 0.00 0.00 5.88 0.98 8.82 2.94 0.00 0.00 2.94 10.78 5.88 13.73 0.00 4.90 3.92 19.61 1.9
45、6 8.82 5.88 4 0.00 0.00 0.00 0.87 0.00 0.87 13.04 1.74 6.09 2.61 11.30 13.04 3.48 5.22 3.48 8.70 3.48 1.74 14.78 7.83 5 2.86 0.00 0.00 3.81 0.95 3.81 3.81 0.00 3.81 3.81 9.52 9.52 12.38 2.86 9.52 4.76 7.62 2.86 7.62 9.52 6 0.00 0.00 0.88 2.63 0.00 1.75 13.16 0.88 4.39 1.75 14.04 9.65 7.02 5.26 4.39
46、11.40 2.63 1.75 10.53 6.14 7 1.92 0.00 0.00 2.88 0.96 4.81 2.88 0.00 1.92 4.81 12.50 6.73 13.46 1.92 6.73 4.81 10.58 3.85 9.62 7.69 8 2.56 3.42 0.00 0.85 0.85 0.85 12.82 0.85 1.71 0.85 20.51 2.56 3.42 9.40 5.98 11.11 0.85 4.27 11.97 3.42 9 0.00 0.00 0.00 2.97 2.97 9.90 2.97 0.00 0.99 3.96 6.93 1.98
47、13.86 1.98 2.97 3.96 23.76 2.97 8.91 6.9310 1.87 0.93 3.74 2.80 0.00 0.00 2.80 0.00 7.48 8.41 9.35 7.48 3.74 14.95 12.15 0.00 2.80 4.67 7.48 7.48 11 0.00 0.89 0.00 0.00 0.00 1.79 8.04 0.00 5.36 4.46 15.18 8.04 8.93 4.46 3.57 8.04 4.46 6.25 13.39 5.36 12 2.73 0.00 0.91 2.73 0.91 3.64 4.55 3.64 3.64 1
48、.82 9.09 5.45 3.64 5.45 6.36 7.27 8.18 5.45 10.91 9.09 13 1.80 0.90 0.90 0.90 0.00 0.90 9.01 0.00 3.60 7.21 14.41 8.11 7.21 6.31 7.21 4.50 1.80 7.21 11.71 4.50 14 2.94 0.00 0.00 5.88 0.00 6.86 1.96 0.00 3.92 6.86 3.92 9.80 13.73 0.98 5.88 2.94 10.78 0.98 1 0.78 9.80 15 2.91 1.94 2.91 1.94 0.00 5.83
49、1.94 0.00 1.94 9.71 5.83 8.74 10.68 1.94 3.88 3.88 8.74 2.91 11.65 10.6816 2.86 0.95 0.00 11.43 1.90 1.90 2.86 0.00 4.76 3.81 5.71 8.57 8.57 6.67 9.52 4.76 5.71 2.86 7.62 7.62 17 1.92 0.96 1.92 4.81 1.92 3.85 1.92 0.96 0.96 6.73 4.81 8.65 10.58 2.88 6.73 2.88 9.62 6.73 8.65 7.69 18 1.71 0.85 1.71 0.
50、85 0.85 2.56 16.24 0.85 1.71 0.85 16.24 5.13 6.84 5.98 3.42 11.11 1.71 5.13 11.11 3.42 19 0.94 0.94 1.89 0.94 0.94 0.94 1.89 0.94 10.38 7.55 5.66 9.43 8.49 8.49 7.55 5.66 6.60 11.32 6.60 0.94 20 0.86 0.86 0.00 1.72 0.86 0.86 17.24 0.86 2.59 1.72 15.52 7.76 5.17 3.45 4.31 9.48 5.17 5.17 9.48 5.17其中 b
51、1 =aaa+ata b2=aca+aga b3=cac+ctc b4=ccc+cgc b5 =gag+gtg b6=gcg+ggg b7=tat+ttt b8=tct+tgt b9 =aac+caa+atc+cta b10=aag+gaa+atg+gta b11=aat+taa+att+tta b12=acc+cca+agc+cga b13=acg+gac+ctg+gtc b14=act+tca+agt+tga b15=cag+gac+ctt+ttc b16=cat+tac+ctt+ttc b17=ccg+gcc+cgg+ggc b18=cct+tcc+cgt+tgc b19=gat+tag
52、+gtt+ttg b20=gct+tcg+ggt+tgg 第34頁,共42頁,2022年,5月20日,13點44分,星期一綜合起來,形成了有41個變量的基本特征集。(二)特征的提取上述基本特征集中有41個變量,即樣本處于一個高維空間中。特征的提取就是通過變換的方法用低維空間來表示樣本,使得X的大部分特性能由Y來表達,即將p維隨機向量X變換成q維隨機向量 Y(qp)。我們用主成分分析法進行特征的提取,其步驟是:求X的均方差矩陣V的特征根,記為:12k0 k+1=P=0求1,2K對應(yīng)的標準正交的特征向量r1,r2rK得到第i個主成分為yi=riX, i=1,2K求第i個主成分的貢獻率ui=i/ j
53、, i=1,2K及前m個主成分的累計貢獻率vm=ui.求得q,使得VqV0(V0一般在0.85到1之間),則取 W=(r1,r2,rq)Y=XW第3步所求的貢獻率,代表主成分表達X的能力,貢獻率越大,對應(yīng)的主成分表達X的能力越強。只要前q個主成分的累計貢獻率超過給定的百分比V。就可以用低維特征Y=(y1,y2, yq)來反映高維特征(x1,x2xp)的變化特性。現(xiàn)將反映20個已知類別樣本的41個特征的隨機向量X進行特征提取。計算得前4個主成分的累計貢獻率為96%,故提取特征為4個變量,取W=(r1,r2,r3,r4),則Y=XW,Y的4個分量就是從基本特征集提取所得的特征參數(shù)向量。(程序及結(jié)果
54、見附錄二)第35頁,共42頁,2022年,5月20日,13點44分,星期一分類決策的制定 前面已選取了特征參數(shù),把特征參數(shù)張成的多維空間稱為特征空間。分類決策就是在特征空間中用統(tǒng)計的方法把被識別對象歸為某一類別?;咀鞣ㄊ窃趯W(xué)習(xí)樣本集的基礎(chǔ)上確定某個判決規(guī)則,使按這種判決規(guī)則對被甄別對象進行分類所造成的錯誤識別率最小或引起的損失最少。這里,我們的分類決策選取Fisher線性判別法。即選取線性判別函數(shù)U(x),使得: U(x)=E1U(x)-E2U(x)2/D1 U(x)+D2U(x)=max (1) 其中Ei與Di分別表示母體i的期望和方差運算,i=1,2。 (1)式的含義是:構(gòu)造一個線性判別
55、函數(shù)U(x)對樣本進行分類,使得平均出錯概率最小。即應(yīng)在不同母體下,使U(x)的取值盡量分開。具體地說,要使母體間的差異 (E1(U(x)-E2(U(x)2相對于母體內(nèi)的差異D1U(x)+D2U(x) 為最大。取 U(x)=(1-2)(1+2)-1X 就可滿足(1)。其中i為第i類母體的均值矩陣的估計,i為第i類母體的方差矩陣的估計。取分類門檻值為:U0=U(*1+(1-)*2)其中0U0,U(2)U0., 就認為X取自母體1;當(dāng)U(X)U0, 就認為X取自母體2。 第36頁,共42頁,2022年,5月20日,13點44分,星期一 用上面得出的4個主成分構(gòu)成的特征組和此分類決策,對20個學(xué)習(xí)樣
56、本進行分類,能得出正確的結(jié)果。但是, 若取W=(r1,r2,r3),求Y=XW,以Y的3個分量作為特征參數(shù)向量,再用Fisher線性判別法對20個學(xué)習(xí)樣本進行分類,則第四個樣本不能正確分類。因此,得出分類的數(shù)學(xué)模型為:特征選取:取W=(r1,r2,r3,r4),求Y=XW,得出特征參數(shù)向量就是Y的4個列向量。其中X是反映20個學(xué)習(xí)樣本的41個特征的隨機向量。分類決策:Fisher線性判別法。三. 分類模型的有效性考查前面建立的分類數(shù)學(xué)模型對20個學(xué)習(xí)樣本進行了正確分類。為了進一步考查分類模型的有效性和可靠性,我們采用的方法是:預(yù)先留一部分學(xué)習(xí)樣本不參加訓(xùn)練,然后用分類決策模型對其作預(yù)報,將預(yù)報
57、成功率作為預(yù)報能力的指標。每次取出一個學(xué)習(xí)樣本,以其余學(xué)習(xí)樣本作訓(xùn)練集,用分類決策模型對取出的一個樣本作預(yù)報,同時對給出的后20種樣本作預(yù)報。結(jié)果見表4。第37頁,共42頁,2022年,5月20日,13點44分,星期一取出樣品序號 取出樣本類別預(yù)報后20組樣本中A類序號預(yù)報 1 A22,23,25,27,29,34,35,36,37 2 A22,23,25,27,29,34,35,36,37 3 A22,23,25,27,29,34,35,36,37 4 A23,25,27,29,34,35,36,37 5 A22,23,25,27,29,34,35,36,37 6 A22,23,25,27,
58、29,34,35,36,37 7 A22,23,25,27,29,34,35,36,37 8 A22,23,25,27,29,34,35,36,37 9 A22,23,25,27,29,34,35,36,37 10 A22,23,25,27,29,34,35,36,37 11 B22,23,25,27,29,34,35,36,37 12 B22,23,25,27,29,34,35,36,37 13 B22,23,25,27,29,34,35,36,37 14 B22,23,25,27,29,34,35,36,37 15 B22,23,25,27,29,34,35,36,37,39 16 B22,23,25,27,29,34,35,36,37 17 B22,23,25,27,29,34,35,36,37,30,39 18 B22,23,25,27,29,34,35,36,37 19 B22,23,25,27,29,34,35,36,37 20 B22,23,25,27,29,34,35, 37第38頁,共42頁,2022年,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 訂婚宴精彩致辭范文怎么寫(模板15篇)
- 日照合同能源
- 護理專業(yè)應(yīng)屆生精簡求職信5篇
- 企業(yè)合規(guī)經(jīng)營建議管理規(guī)定
- 戶外運動臨時設(shè)施施工合同
- 建筑工程委托施工合同
- 教育機構(gòu)電力供應(yīng)管理
- 鞘內(nèi)藥物輸注鎮(zhèn)痛治療和管理-多學(xué)科專家共識
- 圖書館建設(shè)中石化施工合同
- 橄欖球場租賃協(xié)議
- 《剖腹產(chǎn)》PPT課件
- 頭頸部體格檢查評分標準(共3頁)
- 淺談高中英語教學(xué)中學(xué)生創(chuàng)造性思維的培養(yǎng)
- 配電設(shè)備的日常管理及維護保養(yǎng)(PPT41頁)
- 電子琴伴奏及音色中英文對照表
- 蘇教版初中化學(xué)常見氣體的檢驗與除雜教案
- 火災(zāi)報警系統(tǒng)技術(shù)規(guī)范書
- 魚塘租賃合同
- 教材自編傳統(tǒng)節(jié)日校本課程
- hydac壓力繼電器說明書
- 中成藥上市公司組織架構(gòu)及部門職責(zé)
評論
0/150
提交評論