(計(jì)算數(shù)學(xué)專業(yè)論文)生物大分子的數(shù)學(xué)描述及其應(yīng)用.pdf_第1頁
(計(jì)算數(shù)學(xué)專業(yè)論文)生物大分子的數(shù)學(xué)描述及其應(yīng)用.pdf_第2頁
(計(jì)算數(shù)學(xué)專業(yè)論文)生物大分子的數(shù)學(xué)描述及其應(yīng)用.pdf_第3頁
(計(jì)算數(shù)學(xué)專業(yè)論文)生物大分子的數(shù)學(xué)描述及其應(yīng)用.pdf_第4頁
(計(jì)算數(shù)學(xué)專業(yè)論文)生物大分子的數(shù)學(xué)描述及其應(yīng)用.pdf_第5頁
已閱讀5頁,還剩87頁未讀, 繼續(xù)免費(fèi)閱讀

(計(jì)算數(shù)學(xué)專業(yè)論文)生物大分子的數(shù)學(xué)描述及其應(yīng)用.pdf.pdf 免費(fèi)下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

摘要 隨著人類和些模式生物基因組計(jì)劃的相繼完成或全面實(shí)施,生物學(xué)研究的重點(diǎn)正 從積累數(shù)據(jù)向分析解釋這些數(shù)據(jù)過渡,生物信息學(xué)( 也稱計(jì)算分子生物學(xué)) 便應(yīng)運(yùn)而生。 它的研究內(nèi)容十分豐富,例如,序列比較、計(jì)算機(jī)輔助基因識(shí)別、分子進(jìn)化和比較基因 組學(xué)、r n a 和蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、遺傳密碼及其起源、序列重疊群裝配、基于結(jié)構(gòu)的藥物 設(shè)計(jì)等等,都是生物信息學(xué)中重要的研究領(lǐng)域。其中大多數(shù)領(lǐng)域的研究工作都有一個(gè)共 同的需求,就是常常需要給出生物學(xué)數(shù)據(jù)的數(shù)學(xué)上的描述,因此,生物大分子的數(shù)學(xué)描 述便成為生物信息學(xué)中一個(gè)非?;A(chǔ)又十分重要的課題。 本文的主要工作包括以下幾個(gè)方面: 在第一章,針對(duì)原有圖形表示的缺陷,我們從不同的角度在不同的層次上給出了生 物序列的三種圖表示。首先,直接從d n a 原始序列出發(fā),通過賦予四種堿基四個(gè)3 維空 間中的向量給出了d n a 序列一種3 維圖形表示,同時(shí)在d n a 序列的特征序列的基礎(chǔ)上 提出了兩種2 維圖形表示:“雙水平線”圖和“梯狀”圖,這兩種2 維表示都既考慮了序 列本身的線性結(jié)構(gòu),又考慮了四種堿基的化學(xué)結(jié)構(gòu)。最后,面向所有生物序列的圖形表 示,從整體上提出了有向圖的概念有向圖表示不僅彌補(bǔ)了現(xiàn)有圖形表示的許多不足, 還為生物序列的數(shù)值刻畫提供了新的途徑。 在第二章,提出了一個(gè)基于短陣范數(shù)的新的序列不變量一a l e 指標(biāo),它與目前應(yīng) 用最為廣泛的序列不變量一最大特征值等效但它的計(jì)算非常容易,這使得基于不變量 的比較方法在完全基因組比較及其相關(guān)研究領(lǐng)域中的應(yīng)用具有了可行性。同時(shí),我們還就 某種特殊情況下最大特征值所反映的信息是否全面進(jìn)行了探討,并提出了偽跡的概念。 此外,在有向圖的基礎(chǔ)上提出了生物序列的上三角矩陣表示,并對(duì)現(xiàn)有序列不變量在上 三角矩陣情況下的兼容性作了討論。為了更好地反映序列中元素,尤其是它們之間的序 關(guān)系所包含的信息,本章最后一節(jié)從一般數(shù)字序列出發(fā)構(gòu)造出一種特殊的鏈( 全序集) , 在此基礎(chǔ)上提出了d n a 序列的正規(guī)化相對(duì)熵,并簡要討論了d n a 序列基于正規(guī)化相對(duì) 熵的1 2 維向量表示在釀酒酵母基因組的蛋白質(zhì)編碼基因識(shí)別中潛在的應(yīng)用。 在第三章,利用代數(shù)學(xué)中的同態(tài)思想對(duì)d n a 序列進(jìn)行粗粒化描述,提出了d n a 序 列的邏輯表示,并將這一概念推廣到蛋白質(zhì)序列。同時(shí),給出了( o ,1 ) 序列的廣義l z 復(fù) 雜度,并將其和正規(guī)化相對(duì)熵分別應(yīng)用到d n a 及蛋白質(zhì)序列的相似性分析。此外,根據(jù) r n a 二級(jí)結(jié)構(gòu)的特點(diǎn)給出了r n a 二級(jí)結(jié)構(gòu)的影子序列,并結(jié)合序列復(fù)雜性,對(duì)9 種病 毒的r n a 二級(jí)結(jié)構(gòu)進(jìn)行了比較。 在最后一章,利用d n a 序列的正規(guī)化相對(duì)熵和f i s h e r 線性判別法對(duì)釀酒酵母基因 組序列進(jìn)行基因識(shí)別。我們將識(shí)別的準(zhǔn)確度提高到了9 6 ,得到了一個(gè)釀酒酵母基因組 中基因總數(shù)為5 8 7 3 的估計(jì),與普遍接受的5 8 0 0 6 0 0 0 相符。 關(guān)鍵詞:生物信息學(xué);生物大分子;d n a ;r n a ;蛋白質(zhì);圖表示;數(shù)值刻畫;邏輯 序列;影子序列;序列復(fù)雜度;序列比較;基因識(shí)別 a b s t r a c t w i t ht h ec o m p l e t i o n d e v e l o p m e n to ft h eg e n o m ep r o j e c t so fh u m a na n ds o m em o d e lo r g a n i s m ,t h ef o c u so fb i o l o g ys h i f t sf r o ma c c u m u l a t i o no fb i o l o g i c a ld a t at o t h ea n a l y s i sa n d i n t e r p r e t a t i o no ft h e m ,a n dt h u sb i o i n f o r m a t i c s ,a l s on a m e dc o m p u t a t i o n a lm o l e c u l a rb i o l o g y , e m e r g e sa san e wa n dd e v e l o p i n gi n t e r d i s c i p l i n e t h er e s e a r c ha r e ao fb i o i n f o r m a t i c si sv e r y w i d e ,w h i c hi n c l u d e ss e q u e n c ec o m p a r i s o n ,g e n er e c o g n i t i o nb yc o m p u t e r s ,m o l e c u l a r e v o l u t i o n a n dc o m p a r a t i v eg e n o m i c s ,r n aa n dp r o t e i ns t r u c t u r ep r e d i c t i o n ,c o d o no r i g i na n de v o l u t i o no f t h eg e n e t i cc o d e ,a s s e m b l yo fc o n t i g s ,s t r u c t u r e - b a s e dd r u gd e s i g n ,a n ds oo n m o s to ft h e mh a v e ac o m m o nr e q u i r e m e n t t h eb i o l o g i c a ld a t am u s tb et r a n s f e f r e di n t oac e r t a i nm a t h e m a t i c a l d e s c r i p t i o n ,t h i sl e a d st ot h a tt h em a t h e m a t i c a ld e s c r i p t i o no ft h eb i o l o g i c a lm a c r o m o l e c u l e s b e c o m e sab a s i cb u tv e r yi m p o r t a n tt o p i ci nb i o i n f o r m a t i c s t h em a i nc o n t e n t so ft h i st h e s i sa r e1 i s t e da sf o l l o w s : i nc h a p t e r1 ,w ep r o p o s et h r e ek i n d so fg r a p h i c a lr e p r e s e n t a t i o n sf o rb i o l o g i c a ls e q u e n c e s f i o md i f f e r e n tp o i n t so fv i e w f i r s t l y , w ei n t r o d u c ea3 - dg r a p h i c a lr e p r e s e n t a t i o no fd n a p r i m a r ys e q u e n c e sb yt a k i n gf o u rs p e c i a lv e c t o r si na3 - ds p a c et or e p r e s e n tt h ef o u rn u c l e i c a c i db a s e sa ,g ,c ,a n dt ,r e s p e c t i v e l y s e c o n d l y ,b a s e do nt h ec h a r a c t e r i s t i cs e q u e n c e so fad n a p r i m a r ys e q u e n c e ) w ei n t r o d u c et w o2 - dg r a p h i c a lr e p r e s e n t a t i o n so fd n as e q u e n c e s :o n ei st h e “t w oh o r i z o n t a ll i n e s ”g r a p h ,a n dt h eo t h e ri st h e “l(fā) a d d e r l i k e ”g r a p h ,e a c ho fw h i c hc o n s i d e r st h e s e q u e n c e s s t r u c t u r ea sw e l la st h ec h e m i c a ls t r u c t u r eo fd n as e q u e n c e sf i n a l l y , w ei n t r o d u c e ad i r e c t e dg r a p h i c a lr e p r e s e n t a t i o no fb i o l o g i c a ls e q u e n c e s ,w h i c hn o to n l yo v e r c o m e st h es e r i o u s d r a w b a c ko ft h ee x i s t i n gg r a p h i c a lr e p r e s e n t a t i o n s ,b u ta l s op r o v i d e sn sw i t han e ww a yo f c h a r a c t e r i z i n gb i o - s e q u e n c e sn u m e r i c a l l y i nc h a p t e r2 ,w ep r o p o s ean e ws e q u e n c ei n v a r i a n tn a m e d “a l e i n d e x ”,w h i c hi sb a s e d o nn o r m so fam a t r i x t h ea l e i n d e xc a nb er e g a r d e da sa na p p r o x i m a t i o no ft h el e a d i n g e i g e n v a h m ,t h ec u r r e n t l ym o s tw i d e l yu s e di n v a r i a a t ,d i f f c r a n tf l o mt h el e m l i n gt 矗冀t n v a h “j t h e a l e i n d e xi sv e r ys i m p l ef o rc a l c u l a t i o ns ot h a ti tc a nb ed i r e c t l yu s e dt oh a n d l el o n gb i o l o g i c a l s e q u e n c e st h e r e f r o mi tb e c o m e sp r a c t i c a b l et oc o m p a r et h ew h o l eg e n o m e sb yt h ei n v a r i a n t b a s e ds e q u e n c ec o m p a r i s o nm e t h o dm e a n w h i l e ,w ef i n dt h a tt h ei n f o r m a t i o nr e f l e c t e do n l yb y t h el e a d i n ge i g e n v a l u em i g h tn o tb ec o m p r e h e n s i v ei nas p e c i a lc a s es ow es u g g e s t ,i nt h i s c a s e ,u s et h es o - c a l l e d “p s e u d o - t r a c e i n s t e a do ft h el e a d i n ge i g e n v a l n et oc h a r a c t e r i z ed n a s e q u e n c e s m o r e o v e r w ed e s c r i b eas c h e m et h a tt r a n s f o r m st h ed i r e c t e dg r a p ho fab i o l o g i c a l s e q u e n c ei n t oa nu p p e rt r i a n g u l a rm a t r i x la n di n v e s t i g a t ew h e t h e ro rn o tt h ee x i s t i n gs e q u e n c e i n v a r i a n t sa r ec o m p a t i b l ef o rt h eu p p e rt r i a n g u l a rm a t r i xr e p r e s e n t a t i o nf i n a l l y , t or e f l e c t t h ei n f o r m a t i o no ne l e m e n t so fas e q u e n c ea n d ,e s p e c i a l l y , t h eo r d e rr e l a t i o na m o n gt h e m ,w e c o n s t r u c tac h a i n ( t o t a l l yo r d e r e ds e t ) f r o mas e q u e n c eo fn u m b e r s ,a n dt h e ni n t r o d u c et h e n o r m a l i z e dr e l a t i v e e n t r o p yap o t e n t i a la p p l i c a t i o no fa1 2 一c o m p o n e n tv e c t o rb a s e do nt h e n o r m a l i z e dr e l a t i v e - e n t r o p ya s s o c i a t e dw i t had n as e q u e n c et od i s c r i m i n a t i n gp r o t e i nc o d i n g a n dn o n c o d i n gs e q u e n c e si nt h ey e a s tg e n o m ei sb r i e f l yd i s c u s s e d i nc h a p t e r3 ,b a s e do nt h ei d e a so fh o m o m o r p h i s mi na l g e b r a ,w ed e s c r i b ead n as e q u e n c ei nt h ew a yo fc o a r s eg r a i n i n g ,a n dp r o p o s et h el o g i c a lr e p r e s e n t a t i o n ( l r ) f o rd n a p r i m a r ys e q u e n c e s f u r t h e r m o r e ,w ep r e s e n tag e n e r a l i z e dl zc o m p l e x i t yf o r ( 0 ,1 ) 一s e q u e n c e s t h ee x a m i n a t i o no ft h es i m i l a r i t ya m o n gd n as e q u e n c e so ft h ef u l lb e t a g l o b i ng e n e so f11 s p e c i e ss h o w st h eu t i l i t yo fo u ra p p r o a c hw ea l s og e n e r a l i z et h ec o n c e p to ft h el o g i c a lr e p r e s e n t a t i o no fd n ap r i m a r ys e q u e n c e st ot h ep r o t e i np r i m a r ys e q u e n c e s s i m i l a r i t ya n dd i s s i m i l a r i t y a n a l y s i sb a s e do nt h en o r m a l i z e dr e l a t i v e - e n t r o p yo fl o g i c a ls e q u e n c e so fp r o t e i na r eg i v e nf o r e i g h tp r o t e i ns e q u e n c e s b e s i d e st h e s e ,w ei n t r o d u c et h es h a d o ws e q u e n c ef o rr n as e c o n d a r y s t r u c t u r e b yc o m b i n i n gi tw i t ht h es y m b o l i cs e q u e n c ec o m p l e x i t y , w ec o m p a r er n as e c o n d a r y s t r u c t u r e so fn i n ev i r u s e s i nt h el a s tc h a p t e r ,b a s e do nt h en o r m a l i z e dr e l a t i v e - e n t r o p yo fd n as e q u e n c e s ,w eu s et h e f i s h e rd i s c r i m i n a n tm e t h o dt of i n dp r o t e i nc o d i n gg e n e si nt h ey e a s tg e n o m e c r o s s - v a l i d a t i o n t e s t sd e m o n s t r a t et h a tt h ea c c u r a c yo ft h ea l g o r i t h mi s9 6 t h et o t a ln u m b e ro fp r o t e i nc o d i n g g e n e si nt h ey e a s ts c e r e v i s i a eg e n o m ei se s t i m a t e dt ob el e s st h a no re q u a lt o5 8 7 3 ,s i g n i f i c a n t l y c o i n c i d e n tw i t ht h ew i d e l ya c c e p t e dr a n g e5 8 0 0 6 0 0 0 k e y w o r d s :b i o i n f o r m a t i c s ;b i o l o g i c a lm a c r o m o l e e u l e ;d n a ;r n a ;p r o t e i n ;g r a p h i c a lr e p r e - s e n t a t i o n ;n u m e r i c a lc h a r a c t e r i z a t i o n ;l o g i c a ls e q u e n c e ;s h a d o ws e q u e n c e ;s e q u e n c ec o m p l e x i t y ;s e q u e n c ec o m p a r i s o n ;g e n er e c o g n i t i o n 一1 v 獨(dú)創(chuàng)性說明 作者鄭重聲明:本博士學(xué)位論文是我個(gè)人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得研究 成果。盡我所知,除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人已經(jīng)發(fā) 表或撰寫的研究成果,也不包含為獲得大連理工大學(xué)或者其他單位的學(xué)位或證書所使用 過的材料。與我一同工作的同志對(duì)本研究所做的貢獻(xiàn)均已在論文中做了明確的說明并表 示了謝意。 作者簽名 班日期 q 一。6 。f 6 大連理工大學(xué)博士研究生學(xué)位論文 大連理工大學(xué)學(xué)位論文版權(quán)使用授權(quán)書 本學(xué)位論文作者及指導(dǎo)教師完全了解“大連理工大學(xué)碩士、博士學(xué)位論文版權(quán)使用 規(guī)定”,同意大連理工大學(xué)保留并向國家有關(guān)部門或機(jī)構(gòu)送交學(xué)位論文的復(fù)印件和電子 版,允許論文被查閱和借閱。本人授權(quán)大i g 理y _ 大學(xué)可以將本學(xué)位論文的全部或部分內(nèi) 容編入有關(guān)數(shù)據(jù)庫進(jìn)行檢索,也可采用影印、縮印或掃描等復(fù)制手段保存和匯編學(xué)位論 文 作者簽名 導(dǎo)師簽名 絲 a 寫 = 。_ d = 一 迎i 年j 月叢日 0 緒論 2 0 世紀(jì)是科學(xué)技術(shù)迅速發(fā)展的世紀(jì),物理和化學(xué)的發(fā)展使我們可以清楚地認(rèn)識(shí)物質(zhì) 的組成,從分子、原子、電子等各個(gè)層次上深入地了解微觀世界,天文技術(shù)、空間技術(shù)的 發(fā)展使得我們可以了解地球以外的客觀世界,以電子信息技術(shù)為龍頭的工業(yè)技術(shù)的飛速 發(fā)展,使得我們可以不斷地改造世界,甚至為人類更加舒適地生活創(chuàng)造新的世界,而生 命科學(xué)的發(fā)展,則使我們能從器官、組織、細(xì)胞、生物大分子等各個(gè)層次認(rèn)識(shí)生命的物 質(zhì)基礎(chǔ)。 0 1 生物信息學(xué)產(chǎn)生的背景 1 9 5 3 年4 月2 5 日,詹姆斯沃森與同在劍橋大學(xué)的合作伙伴弗朗西斯克里克一 起,在自然雜志上發(fā)表了一篇僅兩頁的論文,提出了d n a 的結(jié)構(gòu)和自我復(fù)制機(jī)制, 揭開了分子生物學(xué)的新篇章。5 0 年后,人們迎來了又一個(gè)激動(dòng)人心的時(shí)刻,那就是在 2 0 0 3 年4 月1 4 日,美,英,e t ,法,德和中國科學(xué)家經(jīng)過1 3 年努力共同完成了人類基 因組計(jì)劃( h u m a ng e n o m ep r o j e c t ,h g p ) ,比原計(jì)劃提前兩年,在人類揭示生命奧秘、認(rèn) 識(shí)自我的漫漫長路上又邁出重要一步。人類基因組計(jì)劃是美國在1 9 9 0 年提出實(shí)拖的一項(xiàng) 偉大的科學(xué)計(jì)劃,與阿波羅登月計(jì)劃、曼哈頓原子彈計(jì)劃同稱為人類自然科學(xué)史上的三 大計(jì)劃,其目標(biāo)是用大約1 5 年時(shí)間,完成人類所有染色體中3 1 0 9 個(gè)堿基對(duì)( h p ,b a s e p a i r ) 的序列測(cè)定。人類基因組計(jì)劃的成果是一個(gè)人類遺傳信息數(shù)據(jù)庫,是一本指導(dǎo)人類 進(jìn)化的說明書”。它不僅可以揭示人類生命活動(dòng)的奧秘,而且人類幾千種單基因遺傳 性疾病和嚴(yán)重危害人類健康的多基因易感性疾病的致病機(jī)理有望得到徹底闡明,為這些 疾病的診斷、治療和預(yù)防奠定基礎(chǔ)。同時(shí),人類基因組計(jì)劃的實(shí)施還將帶動(dòng)醫(yī)藥業(yè)、農(nóng) 業(yè)、工業(yè)等相關(guān)行業(yè)的發(fā)展,產(chǎn)生極其巨大的經(jīng)濟(jì)效益和無法估量的社會(huì)效益, 隨著h g p 的順利完成,和諸如大腸桿菌、啤酒酵母、線蟲、果蠅、小鼠、雞、擬南 芥、水稻、玉米等等模式生物的基因組計(jì)劃的相繼完成或全面實(shí)施,d n a 蛋白質(zhì)序列 數(shù)據(jù)正以驚人的速度增長,在此基礎(chǔ)上派生和整理出來的數(shù)據(jù)庫已達(dá)5 0 0 余個(gè)。這一切 構(gòu)成了一個(gè)生物學(xué)數(shù)據(jù)的海洋。我們知道,生物學(xué)是一門實(shí)驗(yàn)科學(xué),也是- - i 3 發(fā)現(xiàn)科學(xué)。 通過實(shí)驗(yàn)發(fā)現(xiàn)新的現(xiàn)象、新的生物學(xué)規(guī)律,經(jīng)過分析和歸納總結(jié),提煉出新的生物學(xué)知 識(shí)。在這個(gè)過程中,需要對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行處理和理論分析,在此基礎(chǔ)上解釋實(shí)驗(yàn)現(xiàn)象, 認(rèn)識(shí)實(shí)驗(yàn)現(xiàn)象發(fā)生的本質(zhì),探索固有的生物學(xué)規(guī)律,進(jìn)麗了解和掌握生命的物質(zhì)基礎(chǔ)和 生物大分子的數(shù)學(xué)描述及其應(yīng)用 生命的本質(zhì)。生物數(shù)據(jù)積累速度不斷加快,對(duì)生物數(shù)據(jù)的科學(xué)分析方法和實(shí)用分析工具 提出了更新、更高的要求。 傳統(tǒng)分子生物學(xué)實(shí)驗(yàn)往往是集中精力研究一個(gè)基因、一條代謝路徑,手工分析完全 能夠勝任。然而,一方面,現(xiàn)在我們面對(duì)的是海量并且仍在不斷迅速增加的生物學(xué)數(shù)據(jù)。 一次只分析一個(gè)生物分子的傳統(tǒng)的生物學(xué)已經(jīng)無法滿足要求。換句話說,現(xiàn)在需要的是 同時(shí)分析成千上萬個(gè)生物分子,是自動(dòng)分析。同時(shí),面對(duì)這么多生物分子數(shù)據(jù),不可能 用實(shí)驗(yàn)的方法去詳細(xì)研究每一條序列,必須先進(jìn)行信息處理和分析,去粗取精,去偽存 真。通過預(yù)處理,發(fā)現(xiàn)有用的線索,在此基礎(chǔ)上進(jìn)行有針對(duì)性、有明確目的的分子生物學(xué) 實(shí)驗(yàn)另一方面,從生物分子數(shù)據(jù)本身來看,各種數(shù)據(jù)之間存在著密切的關(guān)系,如d n a 序列與蛋白質(zhì)序列、基因突變與疾病等,這些聯(lián)系反映了生物學(xué)的規(guī)律。但是,這些關(guān) 系可能是非常復(fù)雜的,是我們未知的,是簡單的統(tǒng)計(jì)方法難以分析的,對(duì)于這些復(fù)雜的 關(guān)系,必須運(yùn)用現(xiàn)代信息學(xué)的方法去分析,去研究。 綜上所述,生物學(xué)已經(jīng)不再單單是原來的觀察和實(shí)驗(yàn)的科學(xué),理論和計(jì)算對(duì)生物學(xué) 的進(jìn)步正在發(fā)揮越來越重要的作用,這就催生了生物信息學(xué)( 又稱計(jì)算分子生物學(xué),現(xiàn) 在人們常常不加區(qū)分地使用這兩個(gè)名稱) 這門嶄新的交叉科學(xué)。這是- - 1 7 運(yùn)用數(shù)學(xué)、信 息科學(xué)、計(jì)算機(jī)科學(xué)和系統(tǒng)科學(xué)的理論與方法研究生命現(xiàn)象、分析和處理呈指數(shù)增長的 生物學(xué)原始數(shù)據(jù)并進(jìn)行加工、分析和建立計(jì)算模型的- - i 7 學(xué)科。普遍認(rèn)為,生物信息學(xué) 是當(dāng)今生命科學(xué)和自然科學(xué)中最關(guān)鍵、最重要的部分,是2 1 世紀(jì)自然科學(xué)的核心領(lǐng)域之 一【l 卜【8 。 0 2 生物信息學(xué)的研究對(duì)象 生物體是一個(gè)復(fù)雜的系統(tǒng),生命過程是一個(gè)極端復(fù)雜的過程,需要物質(zhì)和能量的支 持生物體也是一個(gè)信息系統(tǒng),該系統(tǒng)控制著生物的遺傳、生長和發(fā)育。所有的信息存 貯在生物體內(nèi),存貯在遺傳物質(zhì)中。在生命科學(xué)研究方面,人們已經(jīng)逐漸認(rèn)識(shí)到,不僅 需要用物理、化學(xué)和生物學(xué)方法研究生命的物質(zhì)基礎(chǔ)、能量轉(zhuǎn)換、代謝過程等,還需要 用信息科學(xué)方法研究生命信息特別是遺傳信息的組織、復(fù)制、傳遞、表達(dá)及其作用,否 則難以理解生命的工作機(jī)制,難以揭示生命的奧秘。從生物學(xué)的觀點(diǎn)來看,細(xì)胞是生命 的基本單位,而從信息科學(xué)的觀點(diǎn)來看,細(xì)胞則是存貯、復(fù)制和傳遞遺傳信息的系統(tǒng)。 生物系統(tǒng)通過存貯、修改、解讀遺傳信息和執(zhí)行遺傳指令形成特定的生命活動(dòng),生 長發(fā)育,產(chǎn)生生物進(jìn)化。從信息學(xué)的角度來看,生物分子是生物信息的載體。生物分子 至少攜帶著三種信息,即遺傳信息、與功能相關(guān)的結(jié)構(gòu)信息、進(jìn)化信息。俗話說“種瓜 得瓜,種豆得豆”,這是對(duì)生物遺傳現(xiàn)象的生動(dòng)描述地球上的所有生物,上至“萬物之 靈”的人類,下至細(xì)菌的“寄生蟲”一噬菌體,都表現(xiàn)著遺傳現(xiàn)象,能夠復(fù)制出新的 一代,這是生命延續(xù)和種族繁衍的保證生物的復(fù)制由基因所決定,復(fù)制是生命的基本 2 一 大連理工大學(xué)博士學(xué)位論文 特征,但不是生命的全部特征。計(jì)算機(jī)程序可以自動(dòng)復(fù)制大量的拷貝,但是這些程序不 是活動(dòng)的生命,活動(dòng)的生命是不斷變化的。絕大多數(shù)生命體可以從周圍的環(huán)境中攝取物 質(zhì),獲取能量,并將所攝取的物質(zhì)轉(zhuǎn)換為其自身的一部分。計(jì)算機(jī)程序雖然可以拷貝, 但是這種拷貝往往是絕對(duì)真實(shí)的拷貝,毫厘不差。而生物體在繁殖和遺傳的過程中并非 一成不變,后代與親代存在著差異。正因?yàn)橛羞z傳差異的存在,才有生物的進(jìn)化。 生物信息學(xué)主要研究兩種信息載體,即核酸( d n a 、r n a 分子) 和蛋白質(zhì)分子。 0 2 1 核酸 核酸是遺傳物質(zhì)。核酸分為脫氧核糖核酸( d n a ) 和核糖核酸( r n a ) 。d n a 主 要存在于細(xì)胞核中,但細(xì)胞質(zhì)里的線立體、葉綠體中也含有少量d n a ,r n a 則主要分 布在細(xì)胞質(zhì)中。遺傳的主要物質(zhì)基礎(chǔ)是d n a ,但有時(shí)也是r n a ( 如病毒的遺傳物質(zhì)) 。 核酸是由稱為核苷酸( n u c l e o t i d e ) 的小分子生成的聚合物。核苷酸還可以進(jìn)一步分 解成核苷( n u c l e o s i d e ) 和磷酸,核苷進(jìn)一步水解生成堿基( b a s e ) 和戊糖。所以,核酸 的基本結(jié)構(gòu)單位是核苷酸,其組成方式為堿基一戊糖一磷酸( 見圖1 ) , 一l :b 8 s e : l l h 圖1 :核苷酸分子結(jié)構(gòu)示意圖 d n a 和r n a 所含的戊糖不同:前者中的戊糖是脫氧核糖,而后者的則是核糖。d n a 和r n a 在組成上的另一個(gè)區(qū)別體現(xiàn)在它們所含的堿基組成上。d n a 中的堿基有4 種, 分別是腺嘌呤( a d e n i n e ,簡寫作a ) 、鳥嘌呤( g u a n i n e ,簡寫作g ) 、胞嘧啶( c y t o s i n e , 簡寫作c ) 和胸腺嘧啶( t h y m i n e ,簡寫作t ) 。r n a 中沒有胸腺嘧啶t ,取而代之的 是尿嘧啶u ( u r a c i l ) 。五種堿基的分子結(jié)構(gòu)示意圖如圖2 所示。 可見,僅就d n a 或者r n a 分子而言,不同核苷酸之間的區(qū)別僅在于它們所含的堿 基不同。因此,a 、g 、c 、t ( u ) 也常被用來直接表示相應(yīng)的核苷酸。核苷酸相互連 接形成長的多核苷酸鏈。由四種脫氧核苷酸連接而成的長鏈高分子多聚體為d n a 分子 的一級(jí)結(jié)構(gòu)。d n a 分子中第一個(gè)核苷酸的3 7 ,羥基與第二個(gè)核苷酸的5 7 磷酸基脫水形 3 一 o i p i o = o 生物大分子的數(shù)學(xué)描述及其應(yīng)用 恍曹 擴(kuò)童,“。 一翡,、州。 “磚釅z 咿氛! 風(fēng)曠 p u r i f :e s g u h n i n e h h , o 0 1 礦市、刪?!癴 承涔弧。尉 種h玨 c y t o s i n e t r 叫m 岫 u r a c i l p ,i _ _ i m | dn e s 圖2 :五種堿基a ,g ,c ,t ,u 的分子結(jié)構(gòu)示意圖 成3 ,5 一磷酸二酯鍵,第二個(gè)核苷酸的3 7 羥基又與第三個(gè)核苷酸的磷酸基脫水形成3 1 5 1 一 磷酸二酯鍵,依此類推,形成線性多聚體。d n a 分子中第一個(gè)核苷酸的5 ,。磷酸與最末 一個(gè)核苷酸的3 7 一羥基都未參與形成3 ,5 7 一磷酸二酯鍵,故分別稱為5 7 磷酸端( 或5 ,一端) 和3 7 羥基端( 或3 7 端) 。 d n a 蘊(yùn)涵的復(fù)制機(jī)制的關(guān)鍵特征是互補(bǔ)基對(duì)。這就是著名的w a t s o n c r i c k 配對(duì), 即a 與t 配對(duì),g 與c 配對(duì)。這種配對(duì)是由于氫鍵作用,原理是d n a 單鏈( 按從5 , 到3 7 的次序) 與相反方向?qū)懙幕パa(bǔ)鏈配對(duì)。例如,單鏈堿基序列5 - a t g g t g c a c c 一3 ,和 3 - t a c c a c g t g g 一5 ,配對(duì): 5 7 一atggtgcacc 一 3 3 一taccac gtg g一5 7 0 2 2 蛋白質(zhì) 蛋白質(zhì)是生物體內(nèi)占有特殊地位的生物大分子,它是生物體的基本構(gòu)件,也是生命 活動(dòng)的重要物質(zhì)基礎(chǔ),幾乎一切生命現(xiàn)象都要通過蛋白質(zhì)的結(jié)構(gòu)與功能而體現(xiàn)出來。因 此,在分子生物學(xué)中,深刻闡明蛋白質(zhì)的結(jié)構(gòu)與功能,是探索生命奧秘最基本的任務(wù)。 蛋白質(zhì)是由氨基酸( a m i n oa c i d ) 聚合而成的生物大分子。氨基酸是蛋白質(zhì)的基本組 成單位。自然界中的氨基酸種類很多,但參與蛋白質(zhì)組成的常見氨基酸只有2 0 種。這2 0 種標(biāo)準(zhǔn)氨基酸的英文三字母和單字母表示見表1 。 氨基酸是帶有氨基的有機(jī)酸,它的中心碳原子特稱為c e 碳( 甌) 。甌有四個(gè)鍵。分 4 大連理工大學(xué)博士學(xué)位論文 表l :2 0 種標(biāo)準(zhǔn)氨基酸的三字母和單字母表示 氰基酸名稱英文縮寫簡寫氮基酸名稱英文縮寫 甘氨酸 丙氨酸 纈氨酸 異亮氨酸 亮氪酸 苯丙氨酸 脯氨酸 甲硫氮酸 色氨酸 半胱氨酸 絲氨酸 蘇氨酸 天冬酰胺 谷酰胺 酪氨酸 組氰酸 天冬氨酸 谷氨酸 賴氨酸 精氨酸 別連著一個(gè)氨基( n h 2 ) ,一個(gè)羧基( c o o h ) ,一個(gè)氫原子和一個(gè)r 基團(tuán)( 如圖3 ) n h 2 h 甌 一c o o h r 圖3 :氨基酸分子結(jié)構(gòu)示意囝 各種。氨基酸的區(qū)別在于側(cè)鏈r 基團(tuán)不同,r 基團(tuán)的特異性使不同氨基酸顯示出不同 的理化性質(zhì),進(jìn)而決定了氨基酸在蛋白質(zhì)分子的空間結(jié)構(gòu)中可能的位置。 在蛋白質(zhì)合成時(shí),一個(gè)氨基酸的羧基和另一個(gè)氨基酸的氨基縮水形成肽鍵( p e p t i d e b o n d ) 。所以,蛋白質(zhì)也是有方向的一維鏈,帶氨基的一頭稱為端或記為7 ,另一頭 帶羧基稱為a 端,常用e 7 表示。 o 2 3 中心法則和遺傳密碼 d n a 攜帶遺傳材料,即生物功能所要求的信息( 某些病毒除外,它們的遺傳材料是 r n a ) 。信息從基因的核苷酸序列中被提取出來。用來指導(dǎo)蛋白質(zhì)合成的過程對(duì)地球上的 所有生物是相同的,分子生物學(xué)家稱之為中心法則( c e n t r a ld o g m a ) 。 生物體的遺傳信息以密碼形式編碼在d n a 分子上,表現(xiàn)為特定的核苷酸排列順序, 并通過d n a 的復(fù)制( r e p l i c a t i o n ) 使遺傳信息從親代傳向子代。在后代的生長發(fā)育過程 中,d n a 分子中的遺傳信息轉(zhuǎn)錄( t r a n s c r i p t i o n ) 到r n a 分子中( 即r n a 聚合酶以 d n a 為模板合成r n a ) ,再由r n a 翻譯( t r a n s l a t i o n ) 生成體內(nèi)各種蛋白質(zhì),行使特 一5 墮s t n q y h;: c蒡m脅研娜叭伽埡 g a v l f p m w c 吣=霎_量i瑩跏娜伽 生物太分子的數(shù)學(xué)描述及其應(yīng)用 定的生物功能。翻譯過程是在核糖體上進(jìn)行的。這樣,通過遺傳信息從親代傳向子代, 并在子代表達(dá),使得子代獲得了親代的遺傳性狀。r n a 也能通過復(fù)制過程合成出與其 自身相同的分子;此外,生物界還存在由r n a 指導(dǎo)下的d n a 合成過程,即逆轉(zhuǎn)錄,這 一過程發(fā)現(xiàn)于逆轉(zhuǎn)錄病毒中。通過基因轉(zhuǎn)錄和翻譯得到的蛋白質(zhì)分子可以反過來作用于 d n a ,調(diào)控其它基因的表達(dá)。分子生物學(xué)的中心法則見圖4 ,它說明遺傳信息由d n a 分 子到r n a ,再到蛋白質(zhì)的傳遞過程。 作用 圖4 :分子生物學(xué)中心法則 在翻譯過程中,每三個(gè)堿基構(gòu)成一個(gè)三聯(lián)體,對(duì)應(yīng)一個(gè)氨基酸或者一個(gè)終止密碼子。 我們稱這種對(duì)應(yīng)為遺傳編碼,可數(shù)學(xué)地表示為: 設(shè)n = a ,c ,g ,礦( ? ) ) 是核苷酸集合,麗= i + 1 ) 是允許的( 正是這導(dǎo)致了圖中圈 的出現(xiàn)) 。對(duì)任一邊e 。= ,+ 1 ) ,定義其方向?yàn)椋阂弧眒 ,即v 。定義為邊( 確切的 說應(yīng)該是弧) e t 的起點(diǎn),而”m 則被定義為終點(diǎn)。這樣,我們便由圖g ( ke ) 得到一個(gè) 有向圖d ( k e ) 。 以d n a 序列片段a t g g t g c a c c 為例,我們以其n a n d y 的2 - d 圖為“基圖”,對(duì)應(yīng) 的有向圖如圖11 1 所示。 圖11 1 :t h ed i r e c t e dg r a p hb a s e do nt h e2 - dn a n d y sg r a p h i c a lr e p r e s e n t a t i o no ft h e s e q u e n c ea t g g t g c a c c 顯然,有向圖表示的簡并度比相應(yīng)無向圖的低得多,甚至在某些情況下將不再出現(xiàn) 簡并現(xiàn)象。而且,在有向圖中,我們所看到的實(shí)際上正是沿著生物序列“t r a v e l ”時(shí)的“歷 史”,從這個(gè)意義上講,有向圖表示更容易激發(fā)人們的形象思維,從而有利于人們迅速地 抓住生物序列的特征。此外,在下一章將會(huì)看到,有向圖表示還為生物序列的數(shù)值刻畫 提供了新的途徑。 一2 7 2 生物序列的數(shù)值刻畫 作為一種可視化技術(shù),圖形表示為我們研究生物大分子提供了一種定性的手段。與 此相對(duì)應(yīng),數(shù)值刻畫則提供了一種定量地研究生物學(xué)數(shù)據(jù)的方法。文獻(xiàn)中數(shù)值刻畫方法 可以歸結(jié)為如下幾種形式:矩陣表示、序列不變量、子串計(jì)數(shù)等。 ( 1 ) 矩陣表示 矩陣在數(shù)學(xué)中已經(jīng)是一個(gè)非常成熟的領(lǐng)域,如何利用矩陣分析生物序列是一個(gè)非常 有潛力的課題。 r a n d i c 3 9 針對(duì)d n a 序列提出了一種稱為剮s 的對(duì)稱矩陣。假設(shè)s = s 1 島& 是 一條d n a 序列,則它的s s 矩陣的( z ,j ) 元素定義為: 8 s 卜 孑j - i 麓f i ; 這里n 。表示子串s + s ,中國所對(duì)應(yīng)的堿基的個(gè)數(shù)。 顯然,酬s 矩陣是從序列本身直接得到的。與此不同,還有一種矩陣是來自圖形表 示的,這可以說是圖形表示在分析生物學(xué)數(shù)據(jù)方面的另一個(gè)貢獻(xiàn)。這種基于圖形的矩陣 包括;e d 、g d 、p d 、d d 和l l 矩陣等 2 8 卜 3 4 j ,( 3 7 ,3 8 j ,這些矩陣也都是對(duì)稱 的,具體構(gòu)造方法如下: 假設(shè)某生物大分子數(shù)據(jù)的圖形是由k - d 空間中n 個(gè)點(diǎn)連接而成的曲線。則 e d 矩陣的( i ,j ) 一元素定義為曲線上兩頂點(diǎn)地和”,之間的e u c l i d e a n 距離: e d i j = 、( l z ,1 ) 2 + ( x i 2 一x j 2 ) 2 + + ( x i k x j k ) 2 g d 矩陣的( t ,) 一元素定義為曲線上兩頂點(diǎn)和之間的圖論距離 g 馴。j = | j i l 一2 9 生物大分子的數(shù)學(xué)描述及其應(yīng)用 p d 矩陣的( i ,j ) 一元素定義為曲線上頂點(diǎn)隴,v i + ,v y 之間相鄰兩點(diǎn)的e u c l i d e a n 距 離之和: f p 。 巧= 壚。“p + 1 + f 。“+ l _ 計(jì)2 + + e 。 j 一1 1 :f 。i : ; d d 矩陣的( i ,j ) 一元素定義為e d 和g d 矩陣相應(yīng)元素的商 d = p p 叫d 犍; l l 矩陣的( i ,j ) 一元素定義為e d 和p d 矩陣相應(yīng)元素的商 l l 馴玎= 乒口1 玎“尸。1 玎;f ,。i :# ; ( 2 ) 序列不變量 由上述矩陣的構(gòu)造過程我們可以看到,這些矩陣的階數(shù)是和生物序列的長度一致的。 因而,當(dāng)相比較的兩個(gè)序列較長時(shí),矩陣的直接利用并不方便。由矩陣論的知識(shí)我們知 道,某些基于矩陣的不變量能很好地反映矩陣所包含的信息。 常用的不變量有w i e n e r 數(shù)、平均矩陣元素、平均行( 列) 和、最大特征值等 2 8 】_ f 3 4 1 ,【3 7 】 4 2 】,【1 1 0 】。w i e n e r 數(shù)、平均矩陣元素,平均行( 列) 和三者的差別僅在于它們的 正規(guī)化子的不同,它們的計(jì)算相對(duì)簡單,但它們并不能精確地反映矩陣所包含的信息。 最大特征值是一個(gè)應(yīng)用最為廣泛而且已經(jīng)被證明是很有效的不變量。但我們必須面對(duì)的 問題是,特征值的計(jì)算會(huì)隨著序列長度的增加而變得越來越難因此,尋找一個(gè)既有效 又易于計(jì)算的不變量將是一個(gè)很有意義的工作,這在人與一些模式生物基因組計(jì)劃相繼 完成進(jìn)而基于基因組比較的分子進(jìn)化研究成為生物信息學(xué)中一個(gè)新的熱點(diǎn)的今天,顯得 更為重要。 f 3 ) 子串計(jì)數(shù) 根據(jù)堿基分布的不均一性,有人對(duì)d n a 序列中的4 種堿基出現(xiàn)的頻率進(jìn)行統(tǒng)計(jì),并 由此構(gòu)造出4 維向量來表示d n a 序列。如果記n = a ,c ,g ,t ) ,并用兒( l s z ) 表示 l 在序列中出現(xiàn)的頻率,即i l = l 。加,其中n 為序列長度,k 為序列中工出現(xiàn)的個(gè) 數(shù),則4 維向量為( ,a ,c ,g ,廳) 。類似地,可以得到基于2 0 種氨基酸出現(xiàn)頻率的蛋白 質(zhì)序列的向量表示。 如果考察的不是單個(gè)堿基而是雙堿基,顯然可以得到d n a 序列的一個(gè)4 2 維向量。 更一般地,如果我們考察k 子串出現(xiàn)的頻率,則得到d n a 序列的一個(gè)4 0 一維向量。l 等【4 8 1 ,h ea n dw a n g 【1 1 1 1 在統(tǒng)計(jì)單堿基出現(xiàn)頻率的基礎(chǔ)上給出了d n a 序列的s h a n n o n 一3 0 大連理工大學(xué)博士學(xué)位論文 熵,r a n d i c 等人f 4 2 1 給出了基于3 一子串( 三聯(lián)體) 的一種d n a 序列的相似性分析方法, 而k m l i na n db u r g e 1 1 2 】則提出用2 一予串的讓步比( o d d sr a t i o ) 對(duì)原核生物和真核生物的 完全基因組進(jìn)行分類比較。沿著這個(gè)思路,h e 1 1 3 提出了d n a 序列的篩比( s i e v er a t i o ) 的概念,h a o 等f 1 1 4 ,1 1 5 1 則提出了用剔除k 一串的隨機(jī)背景構(gòu)建細(xì)菌、古細(xì)菌的進(jìn)化樹。 但仔細(xì)分析,我們發(fā)現(xiàn)用如上方法表示生物大分子序列是不充分的,因?yàn)樗鼈兌贾皇强?慮序列中元素的組成,而序列之所以稱為序列的另一個(gè)方面,即元素的先后順序,卻在 很大程度上被忽略了,這必將導(dǎo)致生物大分子序列中某些重要信息的丟失。 在這一章,針對(duì)生物大分子數(shù)據(jù)現(xiàn)有數(shù)值刻畫方法的這些不足,我們將提出矩陣的 “偽跡”、“a l e ”。指標(biāo)、以及序列的正規(guī)化相對(duì)熵等概念,并在有向圖的基礎(chǔ)上引出 生物序列的上三角矩陣表示。 2 2 偽跡 分析上述矩陣的構(gòu)造過程,不難發(fā)現(xiàn)l l 矩陣的元素總是屬于閉區(qū)間0 1 1 的。因此 由l l 矩陣可以得到一個(gè)按元素收斂的矩陣序列o l o l ( k = 1 ,2 ,) ,其中“l(fā) “l(fā)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論