DNA序列中的結(jié)構(gòu)與簡化模型_第1頁
DNA序列中的結(jié)構(gòu)與簡化模型_第2頁
DNA序列中的結(jié)構(gòu)與簡化模型_第3頁
DNA序列中的結(jié)構(gòu)與簡化模型_第4頁
DNA序列中的結(jié)構(gòu)與簡化模型_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、dna序列中的結(jié)構(gòu)與簡化模型摘要:本文簡述2000年全國大學(xué)生數(shù)學(xué)建模競賽a題的科學(xué)研究背景,以及題目的立意和設(shè)計進而對解答a題的大學(xué)生們的出色方法進行介紹與評述1 引 子 這是我第一次參與全國大學(xué)生數(shù)學(xué)建模競賽,深深地被這一十分有意義的賽事蒸蒸日上的發(fā)展所鼓舞,為在賽事中涌現(xiàn)出來的青年學(xué)生們聰明才智和對科學(xué)強烈的熱愛而驚喜,為自己在這次參與中學(xué)到的和感受到的十分有益的影響而興奮2000年7月清華的唐云教授電話約我為競賽出一道題,出于個人興趣,也出于希望青年學(xué)生更關(guān)注在重大科學(xué)問題中運用數(shù)學(xué)和發(fā)展數(shù)學(xué),于是就在全世界被人類基因組計劃的成果掀起的巨大熱潮中,找一個題目,以期誘導(dǎo)有志青年投入這一二

2、十一世紀(jì)的科學(xué)熱點中我和領(lǐng)導(dǎo)建模比賽的全國組委會的一些教授們(葉其孝、姜啟源、王強、唐云等)共同討論了這個題目,反復(fù)修改和潤色,希望更適合中國大學(xué)生的實際但一直擔(dān)心這樣一個熱點科學(xué)中引出的問題,一個開放式問題的太大的自由度是否會為難青年學(xué)生結(jié)果出人意料,特別是重點大學(xué)的參賽隊,十分熱烈地選擇a題作為他們一顯身手的考卷,而且答出了同樣出乎意料的水平然而在a題的理解、解法及評判的一系列問題中,仍有許多問題需要明確,于是我應(yīng)組委會之邀,特寫此文力窺全豹,也對參與競賽的師生們作一個交待2 a題的背景 2000年6月26日,“人類基因組計劃”規(guī)定的禁發(fā)時間(embargo)北京時間18:00剛過,新華社

3、、法新社、美聯(lián)社、路透社各國新聞發(fā)布機構(gòu)以第一條消息發(fā)布了人類基因組草圖繪就的重要消息美國總統(tǒng)克林頓在白宮舉行的慶祝儀式上表示,人類基因組草圖是迄今“人類所繪制的最為奇妙的圖譜”;英國首相布萊爾說:“這是21世紀(jì)第一項偉大的科技成就醫(yī)學(xué)科學(xué)領(lǐng)域一場革命,其意義遠遠超過抗生素的發(fā)現(xiàn)”;日本首相森喜郎在聲明中指出,人類基因組草圖繪制成功,代表人類在破解自身構(gòu)成方面向前邁出巨大的一步;許多國家的元首,科技官員和著名科學(xué)家紛紛發(fā)表談話,贊揚人類基因組草圖的完成,評估這一偉大成果的意義直到6月28日,中國主席江澤民在中央思想政治工作會議上也對人類基因組的意義作出評價并贊揚了中國科學(xué)家在其中的出色工作1

4、顯然,當(dāng)7月份組委會提出建模賽題一事時,順應(yīng)這一世紀(jì)科學(xué)大事,在其中構(gòu)造賽題,將引導(dǎo)青年學(xué)子關(guān)注世界科技熱點,鼓勵學(xué)生敢于投身到科學(xué)重大問題中去,培養(yǎng)學(xué)生用數(shù)學(xué)為工具去解決科學(xué)技術(shù)問題的能力方面都具有了特殊的意義 2003年將完成人類基因組dna全序列的測序,它將帶給人類一本“自身的說明書”,這對人類認(rèn)識自己,保護自身,發(fā)展新的生物產(chǎn)業(yè)都將是意義重大的在許多科普讀物中,將人類基因組全序列這部“書”描繪成一座巨大金礦,解讀這部書就是從中發(fā)掘出無量的財富,這種比喻一點兒也不過分生命科學(xué)稱這一研究階段為“后基因組時期”或“后基因組計劃”(postgenome project),而將數(shù)學(xué)與計算機科學(xué)融

5、人這一計劃之中,又常被人稱為生物信息學(xué)(bioinformation)人類基因組研究中已經(jīng)浮現(xiàn)出大量的數(shù)學(xué)問題,已為世界上眾多數(shù)學(xué)家關(guān)注2作為解讀基因組這一龐大計劃的一個十分重要而又基礎(chǔ)的部分,就研究基因組的結(jié)構(gòu),而其中更基礎(chǔ)的是dna序列的結(jié)構(gòu)“結(jié)構(gòu)”這個詞在這里的含義是十分廣泛的,也就是說,作為由a、t、c、g四個字符組成的一個有序字符串,任何呈現(xiàn)規(guī)律性的特征都可以稱為結(jié)構(gòu)由于規(guī)律呈現(xiàn)范圍不同,我們又可以分為局部結(jié)構(gòu)與整體結(jié)構(gòu),或稱小尺度結(jié)構(gòu)與大尺度結(jié)構(gòu),這些結(jié)構(gòu)的揭示將大大有助于人們對于基因與基因組的解讀這一點可以形象地比喻為一部100萬頁的書,如果我們能夠知道這部“天書”的篇、章、節(jié)的

6、結(jié)構(gòu),甚至段落、語句或詞的結(jié)構(gòu)都清楚了,要讀懂這部書的內(nèi)容就變得容易了從這種意義上說,dna序列的結(jié)構(gòu)的研究顯然是生物信息學(xué)中重要的內(nèi)容之一 本屆數(shù)學(xué)建模比賽的a題是在這一世界科學(xué)發(fā)展的大背景下,作為二十世紀(jì)最后一屆比賽,以翹首二十一世紀(jì)的姿態(tài),選擇基因組研究為命題的學(xué)科領(lǐng)域以后基因組計劃中生物信息的dna序列結(jié)構(gòu)作為課題,是頃應(yīng)時代潮流的具有前瞻性的選題,3 a題的立意 在a題設(shè)計之前,立意就很明確:源于科學(xué)實際,解法充分開放 本題取材于dna的結(jié)構(gòu)的研究,這里的結(jié)構(gòu)指的是在dan序列中重復(fù)出現(xiàn)的有特征的片斷,這種重復(fù)出現(xiàn)形成丁規(guī)律由于結(jié)構(gòu)的含義是廣泛的,擔(dān)心學(xué)生因此而無從下手,我們特別舉出

7、三種結(jié)構(gòu)為例,其目的僅僅是為了說明,dna序列貌似隨機地由a、t、c、g四個字符組成,但它之所以有“萬能”的功能,正是由于在隨機的外衣下隱藏著大量的結(jié)構(gòu),正是這種結(jié)構(gòu)決定了功能因此,在生物信息學(xué)中,人們普遍相信這樣一個信條:序列結(jié)構(gòu)一一功能這一信條引導(dǎo)人們成功地在dna序列中挖掘出許多與生物功能相關(guān)的自然規(guī)律。在a題中舉出的三種結(jié)構(gòu)是十分基礎(chǔ)而且在科學(xué)界廣泛為人們所接受的一種是四種堿基的豐度,對于dna序列的不同的片段常常表現(xiàn)出堿基豐度的差別,因此堿基的豐度往往成為區(qū)別不同序列片段的特征;第二種是三聯(lián)子對蛋白質(zhì)的編碼,它首先由發(fā)現(xiàn)dna雙螺旋結(jié)構(gòu)的克里克和南非的分子生物學(xué)家西德尼布倫納確定的,

8、這種不重疊的三聯(lián)子組成的編碼區(qū)(exon)與非編碼區(qū)的交替出現(xiàn)形成了dna序列中一個重要的結(jié)構(gòu)如果讀者想了解這一方面的知識只要在互聯(lián)網(wǎng)上搜索exonintron structure”,你會得到供選讀的大量文獻;a題舉的第三個例子是所謂dna序列的長程相關(guān)性,這一規(guī)律最早由ckpeng等人在1992年nature上報導(dǎo)3,此后人們研究了各種dna長序列,分別發(fā)現(xiàn)了dna序列在大尺度的范圍內(nèi)具有統(tǒng)計相關(guān)性,然而這種相關(guān)性的細節(jié)及意義至今還是一個迷a題中舉出這三種結(jié)構(gòu),也為了說明在dna序列的結(jié)構(gòu)中既有大尺度全局性的,也有局部性的,研究和發(fā)現(xiàn)dna序列中的這些規(guī)律均有重要意義 正由于這種結(jié)構(gòu)的多樣性

9、和一般性,為求解a題確定了解法的開放性雖然事實上許多試卷都把這一結(jié)構(gòu)理解成為編碼區(qū)與非編碼區(qū),但這種局限性的理解并沒有比一般性理解結(jié)構(gòu)的試卷更好些a題定義結(jié)構(gòu)的一般性,有兩方面的理由一方面希望在求解a題時對生物知識的依賴不要太多,除了最基本的dna序列的背景外,解題中并不需要有更多的基因組結(jié)構(gòu)的知識(例如,是否知道exon與intron并無大關(guān)系)這樣做是為了在“數(shù)學(xué)建?!边@一基本的專業(yè)性質(zhì)下平等第二個方面就是希望這種開放性,可以使從初等到高等的許多數(shù)學(xué)模型化方法均能對a題做出一定水平的解答而且也希望發(fā)現(xiàn)一些富有創(chuàng)造性的、十分有效的方法事實上,本屆比賽中也的確涌現(xiàn)出大量富有創(chuàng)意的方法,實在令命

10、題者興奮不已 解答方法的開放性,是a題的命題領(lǐng)域本身就決定了的事實上,僅在編碼區(qū)預(yù)測的文獻中就有了許多不同的方法有通過核苷酸片段差異的區(qū)分方法4,同源比較算法5,隱馬爾可夫模型(hiddenmarkovmodel,hmm)這種方法將dna序列的形成看作隨機過程,而hmm可自動找出其隱藏的統(tǒng)計規(guī)律性6大家熟知的動態(tài)規(guī)劃方法7,以及傅立葉分析8,線性判別分析(linear discriminant analysis,lda)9此外許多專門的方法用于dna的結(jié)構(gòu)分析與尋找:法則系統(tǒng)(rulebased system)10,語言系統(tǒng)(1inguistic)11,決策樹(decisiontree)12這

11、些方法對于從dna序列中找出編碼序列均有很好效果,有些準(zhǔn)確率高達90有興趣的讀者可以在最近出版的解碼生命13一書中查到有關(guān)評論 a題將dna結(jié)構(gòu)的研究具體化為不同序列的分類,這種分類對于尋找出序列的結(jié)構(gòu)具有基礎(chǔ)的價值它是尋找結(jié)構(gòu)的一種簡化而有效的變形,這種具體化在幫助學(xué)生模型化是有益的然而這種具體化也給出題帶來一定困難,為了方便廣大參賽隊對這種分類方法的理解與數(shù)值實驗,我們設(shè)計了兩套數(shù)據(jù)。一套是人工構(gòu)造的數(shù)據(jù),而另套是來源于自然的dna數(shù)據(jù)庫顯然這兩套數(shù)據(jù)既有聯(lián)系又有明顯的差別,這種差別使得企圖用比較簡單的方法而不加區(qū)別地處理這兩類數(shù)據(jù)將不會得到好的效果正如自然界給人類提出的問題不太可能恰好滿

12、足我們希望的數(shù)學(xué)條件一樣,a題也要求解題者具有立足于實際,從有限而不完全的已知數(shù)據(jù)去探索更復(fù)雜的數(shù)據(jù)中的未知規(guī)律這樣一種研究素質(zhì)4 閱卷隨想 在評閱試卷時,老師們對年輕學(xué)子在a題解法中表現(xiàn)出的熱情、智慧、嚴(yán)謹(jǐn)和富予創(chuàng)造性都留下極深刻的印象作為命題人,更對本科學(xué)生能在短短的三天中所做出的成果驚喜,并在許多十分聰明的解法中學(xué)習(xí)到了新的東西a題的試卷幾乎令所有閱卷老師嘆服:中國大學(xué)生年輕有為! 學(xué)生論文的立意大多在“特征提取一分類方法”這一模式,這顯然是最容易想到的,大多數(shù)試卷也在這一立意之下,選擇好的方法而得到較好的結(jié)果特征的選擇,首先易于讓人想到的是a、t、c、g四個字符在字符串中出現(xiàn)的頻率,這

13、在文獻中常稱為“單個堿基豐度”,單純使用這一特征,許多學(xué)生的文章對人工數(shù)據(jù)得到好的結(jié)果,但對后面182個序列的分類卻常常不太理想在優(yōu)秀論文中浙江大學(xué)的一個隊將這種特征提取后形成四維特征向量,然后分別用歐氏距離、馬氏距離分類法和fisher判別模型,對人工數(shù)據(jù)得到理想的分類,對自然數(shù)據(jù)(182個)也得到很高的分類正確率,是這一類算法中較突出的卷例另有一些試卷在這一特征基礎(chǔ)上考慮到字符的順序,將模型做得更復(fù)雜些更多的論文是用4個字符的字符串作為特征,由于這時特征一下子增加了許多,于是需要從其中評判挑選并排出特征的重要性順序,這種特征的提取往往可以得到較好的效果特別是對于自然序列,大連理工大學(xué)的一個

14、隊通過概率統(tǒng)計方法首先對已知的人工序列集進行特征提取,從而形成特征向量較為全面地表達分類特征,當(dāng)然也出現(xiàn)了高維問題的計算復(fù)雜性,他們得到了很好的分類效果值得指出的是,由于競賽題一方面源于生物學(xué)實際問題,同時又相對地獨立于生物而形成適當(dāng)抽象的“試題”,因此試題并不是基因組中某種結(jié)構(gòu)的翻版有些試卷過多地研究了生物學(xué)的來源,而且將a題僅局限于他們所想象的結(jié)構(gòu)(例如exon結(jié)構(gòu)),于是三聯(lián)子編碼成為分類的唯一特征,而三聯(lián)碼的不重疊性又使他們在閱讀框的起始位置前不知所措,以至所產(chǎn)生的結(jié)果不理想 在分類方法上,統(tǒng)計的方法(特別是聚類方法)是最易于想到的,許多試卷從而構(gòu)造了好的方法但是簡單而不加修正地使用統(tǒng)

15、計方法并不能得到好的結(jié)果這是因為人工已知序列的樣本數(shù)只有20個,而且都很短,待分類的自然數(shù)據(jù)樣本數(shù)182且都長得多,因此從小樣本中得到的統(tǒng)計規(guī)律在處理大樣本時效果顯然不佳這是眾多用統(tǒng)計方法所得到結(jié)果不理想的一個直接原因有些學(xué)生看到并指出了這一點,而且有的試卷注意到人工數(shù)據(jù)與自然數(shù)據(jù)的生物學(xué)的差別而在分類自然序列時修改了分類方法而得到較好的結(jié)果,顯然概念的清楚與思維的靈活得到很好的統(tǒng)一用各種方式構(gòu)造判別函數(shù)的方法以及神經(jīng)網(wǎng)絡(luò)的方法,特別對于非線性系統(tǒng)的識別很有效因此通過構(gòu)造各種神經(jīng)網(wǎng)絡(luò)來進行分類,更多的隊得到很好的效果例如大連理工大學(xué)的一個隊,用統(tǒng)計方法提取較好的特征又用bp網(wǎng)絡(luò)進行分類,方法嚴(yán)

16、謹(jǐn),考慮細致,對自然序列的分類正確率高達88而科技大學(xué)的一個隊通過對神經(jīng)網(wǎng)絡(luò)方法的逐層的改進,又輔以統(tǒng)計方法,產(chǎn)生了比較精細的網(wǎng)絡(luò)算法,也得到分類自然數(shù)據(jù)的正確率達65的好效果除了上述大量“正規(guī)方法”以外,一些試卷有創(chuàng)意地提出了一些十分新穎的思想,有些還取得了很好的效果例如中國科技大學(xué)的一個隊將序列看作信息流,注意到字母出現(xiàn)的特征是熵的改變,是十分新意的,他們最終又將設(shè)計好的幾個模型形成綜合判別的目標(biāo)函數(shù),也得到好的分類效果,對自然數(shù)據(jù)分類正確性達58而北京大學(xué)的一個隊將dna字符串看作一篇文章,而利用了類似文本分類中的特征判別方法定義關(guān)鍵詞標(biāo)準(zhǔn),進而使用優(yōu)選法,找出關(guān)鍵詞的特征,然后使用層次

17、分類他們的方法精細,盡管分類最終效果并不十分理想,仍不失為值得一讀的好文章由于篇幅有限,有些文章雖然沒有作為優(yōu)秀論文刊出,但是在其中仍然表現(xiàn)出學(xué)生豐富的想象力和創(chuàng)造精神篇十分有趣的文章是大連理工大學(xué)的另一個隊,這些學(xué)生既沒有拘泥于“特征提取+分類”的模式,也沒有局限自己的思維于“概率統(tǒng)計”“神經(jīng)網(wǎng)絡(luò)”“判別函數(shù)”等“大路”方法他們深入地分析了序列問題的生物來源,又觀察人工序列的數(shù)學(xué)結(jié)構(gòu)和數(shù)值試驗結(jié)果,在一些dna序列幾何表達文獻的啟發(fā)下,提出了簡捷的幾何分類法,得到了出色的分類結(jié)果對自然數(shù)據(jù)分類的正確率高達94而且這種不依賴訓(xùn)練集的方法,屬于目前研究基因組結(jié)構(gòu)的令人關(guān)注的方向應(yīng)當(dāng)指出,科研能力

18、的表現(xiàn)是多方面的在試卷中,我們注意到許多學(xué)生十分用心于科學(xué)文獻的檢索、閱讀與借鑒例如一些試卷研究了我國著名學(xué)者,中科院院士張春霆教授的z曲線方法14,并簡化用于a題分類(例如中國科技大學(xué)的另一個隊),也取得好的結(jié)果此外,特別值得指出的是香港城市大學(xué)的論文,該文的思路清晰,表述嚴(yán)謹(jǐn),圖表數(shù)據(jù)完整,行文流暢,作為本科學(xué)生三天完成的科研論文值得贊賞!綜上所述,作為a題的命題人,原先的擔(dān)心與顧慮被事實掃得干干凈凈學(xué)生的聰明才智、扎實的數(shù)學(xué)功底和運用于實際問題的靈活性、創(chuàng)造性證明,中國大學(xué)生完全可以適應(yīng)更貼近科學(xué)研究實際,更貼近工程技術(shù)實際,更貼近社會經(jīng)濟生活實際的數(shù)學(xué)建模比賽問題中國大學(xué)生在數(shù)學(xué)建模比

19、賽的鍛煉中必將大大提高應(yīng)用數(shù)學(xué)的能力,在二十新科技的發(fā)展中做出出色的成績參考文獻1子言,基因:講述生命的故事經(jīng)濟日報出版社2000年7月2mathematics:frontiers and perspectlvesamsprovldence2000m auyah前言.3peng ck buldyrevsv g01dberger, a 1 hav“ns sxiortlno, f simonso, m. and stanley, h. e. longrange correlatlon in nucleotldc sequences。nature 356:168一1704c1averle j mco

20、mputanonal methods for the identlflcatlon ofgenes in vertebrategenomlc sequence hum mol ge-net,19976(10):173517445green p. llpman d,hillier l,waterstonr,stares d,c1avieriejmancientconserved regions in new gene se-quences and the protein databases. science1993,259:17111716.6kroyh a,mlan i s,hanssler

21、da hidden markov model that finds genes in e. co1i dnanucleic acids res,199422(22):476847787gelfand m s,roytberg m a predlction of the exonintron structure by a dynamic programming approach bmsystems,1993,30(13):1731828tiwavi s. ramachandran s. bhattacharga a,bhattacgarga s,ramaswamy r. predictlon o(pr

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論