(分析化學(xué)專業(yè)論文)人類rna聚合酶Ⅱ啟動(dòng)子識(shí)別研究.pdf_第1頁(yè)
(分析化學(xué)專業(yè)論文)人類rna聚合酶Ⅱ啟動(dòng)子識(shí)別研究.pdf_第2頁(yè)
(分析化學(xué)專業(yè)論文)人類rna聚合酶Ⅱ啟動(dòng)子識(shí)別研究.pdf_第3頁(yè)
(分析化學(xué)專業(yè)論文)人類rna聚合酶Ⅱ啟動(dòng)子識(shí)別研究.pdf_第4頁(yè)
(分析化學(xué)專業(yè)論文)人類rna聚合酶Ⅱ啟動(dòng)子識(shí)別研究.pdf_第5頁(yè)
已閱讀5頁(yè),還剩61頁(yè)未讀 繼續(xù)免費(fèi)閱讀

(分析化學(xué)專業(yè)論文)人類rna聚合酶Ⅱ啟動(dòng)子識(shí)別研究.pdf.pdf 免費(fèi)下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

摘要摘要啟動(dòng)子的識(shí)別是基因識(shí)別的重要組成部分。對(duì)啟動(dòng)子區(qū)的認(rèn)識(shí),不僅有助于實(shí)驗(yàn)室分析研究,而且還可以為人類認(rèn)識(shí)全基因組功能、基因表達(dá)調(diào)控機(jī)制以及人類疾病與啟動(dòng)子多態(tài)性或突變的關(guān)系提供很大的幫助。本文旨在對(duì)人類r n a 聚合酶( p o l ) i i 啟動(dòng)子數(shù)據(jù)進(jìn)行識(shí)別分類并提高識(shí)別的準(zhǔn)確率。我們將創(chuàng)新的編碼方法應(yīng)用在人類啟動(dòng)子序列編碼中,建立并使用合適的共識(shí)模型,使用支持向量機(jī)( s v m ) 的方法對(duì)啟動(dòng)子數(shù)據(jù)進(jìn)行分類并提高了啟動(dòng)子識(shí)別的準(zhǔn)確率。首先,我們從真核生物啟動(dòng)子數(shù)據(jù)庫(kù)( e p d ) 以及非啟動(dòng)子數(shù)據(jù)庫(kù)中得到用于分類研究的d n a 啟動(dòng)子序列數(shù)據(jù)及非啟動(dòng)子序列數(shù)據(jù)。正、負(fù)數(shù)據(jù)集均分別被分成5 份和l o 份,用于5 重( 5 f o l d ) 及1 0 重( 1 0 f o l d ) 交叉驗(yàn)證。另外,我們還從轉(zhuǎn)錄起始位點(diǎn)數(shù)據(jù)庫(kù)( d b t s s ) 中得到了由實(shí)驗(yàn)得出的人類染色體啟動(dòng)子數(shù)據(jù),準(zhǔn)備用于后續(xù)的研究。然后,在對(duì)數(shù)據(jù)進(jìn)行處理后( 包括保證數(shù)據(jù)的非冗余性等) ,對(duì)堿基數(shù)據(jù)進(jìn)行編碼、選擇合適的參數(shù)及編碼方法。這是本研究的重點(diǎn)和難點(diǎn)。根據(jù)采用編碼方式的不同,將之分為三步。第一步,本文采用了基于知識(shí)的統(tǒng)計(jì)編碼方法,并將此方法進(jìn)一步擴(kuò)展成六種子編碼方式,分別是:?jiǎn)螇A基統(tǒng)計(jì)特征編碼、相鄰雙堿基統(tǒng)計(jì)特征編碼、隔一位的雙堿基統(tǒng)計(jì)特征編碼、隔兩位的雙堿基統(tǒng)計(jì)特征編碼、隔三位的雙堿基統(tǒng)計(jì)特征編碼以及相鄰三堿基統(tǒng)計(jì)特征編碼。編碼后在s v m 中進(jìn)行啟動(dòng)子識(shí)別,使用1 0 f o l d 交叉驗(yàn)證的準(zhǔn)確率達(dá)到了8 9 6 8 ,靈敏性在8 6 2 4 - - 9 0 1 1 ,特異性在8 5 9 1 - 。9 8 3 5 ,與其他利用s v m 進(jìn)行啟動(dòng)子識(shí)別的工具相比,均有5 左右的提高。第二步,本文采用了c p g 編碼和五聯(lián)體( p e n t a m e r s ) 編碼,從不同的角度對(duì)人類r n a p o l i i 啟動(dòng)子序列進(jìn)行編碼,提取變量信息,找出預(yù)報(bào)結(jié)果最佳及搭配最合理的編碼方式用于后面的研究。第三步,本文還嘗試了一種新的編碼方法一模式字典( p a t t e r nd i c t i o n a r y )的編碼方法( 由本實(shí)驗(yàn)室開發(fā)) ,并且針對(duì)啟動(dòng)子數(shù)據(jù)的特點(diǎn),將a t c g 四堿基兩兩結(jié)合,擴(kuò)展成十六種字符進(jìn)行編碼,以增加數(shù)據(jù)的特征變量。摘要再次,基于上述編碼方法的識(shí)別結(jié)果,根據(jù)編碼方式的不同、樣本選擇的不同、核函數(shù)選擇的不同等等,我們建立出不同類型成員子模型的共識(shí)模型,并用雙層s v m 進(jìn)行識(shí)別分析。由于共識(shí)模型考慮了各子模型的獨(dú)立性和模型之間的差異性,發(fā)揮了各模型之間的互補(bǔ)優(yōu)勢(shì),從而提高了最終的識(shí)別準(zhǔn)確率。最后,我們將優(yōu)秀的識(shí)別模型及共識(shí)模型的思想應(yīng)用到人類2 2 號(hào)染色體啟動(dòng)子數(shù)據(jù)的識(shí)別中,識(shí)別準(zhǔn)確率達(dá)到了9 0 9 8 。關(guān)鍵詞:人類r n a 聚合酶i i 啟動(dòng)子識(shí)別,支持向量機(jī),共識(shí)模型,雙層s v m ,生物統(tǒng)計(jì)學(xué)a b s t r a c ta b s t r a c tp r o m o t e r sr e c o g n i t i o ni sa l li m p o r t a n tp a r to ft h er e s e a r c ho ft h eg e n er e c o g n i t i o n f i n d i n gt h ek n o w l e d g eo f t h ep r o m o t e rr e g i o n sn o to n l yr e d o u n d st ot h ea n a l y s i sa n dr e s e a r c hi nt h el a b o r a t o r y , b u ti sh e l p f u lt ot h eh u m a nk n o w i n gt h ef u n c t i o no ft h ew h o l eg e n o m e ,t h em e c h a n i s mo ft h eg e n ee x p r e s s i o na n dc o n t r o l l i n g ,a n dt h er e l a t i o n s h i po ft h eh u m a nd i s e a s e sa n dt h ep o l y m o r p h i s mo rm u t a t i o no ft h ep r o m o t e r s t h i sp a p e ra i m e dt od ot h er e c o g n i t i o no ft h eh u m a nr n ap o l p r o m o t e r s c l a s s i f yt h ep r o m o t e rs e q u e n c e s ,a n dp r o m o t et h ev e r a c i t yo ft h er e c o g n i z i n gr e s u l t s w ea p p l i e dn o v e le n c o d i n gm e t h o d st 0t h ee n c o d i n go ft h eh u m a np r o m o t e rs e q u e n c e s ,b u i l tu pr i 曲tc o n s e l l s u sm o d e l s ,a n dr e c o g n i z e dt h ep r o m o t e rs e q u e n c e sw i t ht h es u p p o r tv e c t o rm a c h i n e ( s v m ) ,a n df i n a l l yi m p r o v e dt h ev e r a c i t yo ft h er e c o 姚r e s u l t s f i r s t l y , w eg o tt h ep r o m o t e ra n dn o n p r o m o t e rs e q u e n c e sd a t af r o me u k a r y o t i cp r o m o t e rd a t a b a s e ( e p d ) a n dn o n - p r o m o t e rd a t a b a s e s ,w h i c hw e r eu s e df o rt h er e c o g n i t i o nr e s e a r c h b o t ho ft h ep o s i t i v ea n dn e g a t i v ed a t aw e r ed i v i d e di n t o5a n d1 0p a r t s ,f o rt h e5 - f o l da n d1 0 - f o l dc r o s s v a l i d a t i o n o t h e r w i s e ,w ea l s og o tt h eh u m a nc h r o m o s o m ep r o m o t e rd a t af r o mt h ed a t a b a s eo ft r a n s e r i p t i o n a ls t a r ts i t e s( d b t s s ) ,w h i c hw e r eg o tf r o me x p e r i m e n t s t h ed a t aw e r eu s e df o rt h ef o l l o w i n gr e s e a r c h s e c o n d l y , w ed i dt h ep r e p r o c e s s i n go ft h es e q u e n c e sd a t a , i n c l u d i n gg u a r a n t e et h en o n - r e d u n d a n to ft h ed a t a , e n c o d e dt h es e q u e n c e sd a t a , a n ds e l e c t e dt h es u i t a b l ep a r a m e t e r sa n de n c o d i n gm e t h o d s t h i sp a r to fo u rw o r ki st h ee m p h a s i sa n dd i f f i c u l t yo f t h er e s e a r c h , a n dw ed i v i d e di ti n t ot h r e es t e p s :a b s t r a c ts t e po n e ,w ea p p l i e dt h ek n o w l e d g e b a s e ds t a t i s t i c a le n c o d i n gm e t h o d ,w h i c hw e r ee x p a n d e di n t o6s u b e n c o d i n gm e t h o d s ,s u c ha s ,s i n g l e b a s es t a t i s t i c a le n c o d i n gm e t h o d ,a d j a c e n td u a l b a s es t a t i s t i c a le n c o d i n gm e t h o d ,o n e - b a s ea p a r td u a l b a s es t a t i s t i c a le n c o d i n gm e t h o d , t w o - b a s ea p a nd u a l b a s es t a t i s t i c a le n c o d i n gm e t h o d ,t h r e e b a s ea p a r td u a l b a s es t a t i s t i c a le n c o d i n gm e t h o da n da d j a c e n tt e r n a t e b a s es t a t i s t i c a le n c o d i n gm e t h o d t h e nw er e c o g n i z e dt h ed a t a 、i t l ls v m t h ea c c u r a c yo ft h e1 0 f o l dc r o s s - v a l i d a t i o nr e a c h e d8 9 6 8 ,t h es e n s i t i v i t i e sw e r ef r o m8 6 2 4 t o9 0 11 ,a n dt h es p e c i f i c i t i e sw m 療啪8 5 9 1 t o9 8 3 5 c o m p a r e dt oo t h e rs v mu s e dp r o m o t e rr e c o g n i z i n gt o o l s o u tr e s u l t sh a dn e a r l y5 p r e c e d e n c e s t e pt w o ,w ea p p l i e dt h ec p gi s l a n d sa n dp e n t a m e r se n c o d i n gm e t h o d s ,e n c o d e dt h ep r o m o t e rs e q u e n c e sd a mi nad i f f e r e n tp e r s p e c t i v e ,e x t r a c t e dt h ei n f o r m a t i o no ft h ev a r i a b l e s ,a n ds e l e c t e dt h ee n c o d i n gm e t h o dw h i c hg o tt h eb e s tr e c o g n i z i n gr e s u l t ,u s e df o rt h ef o l l o w i n gr e s e a r c h s t e pt h r e e w et r i c dt h ep a t t e r nd i c t i o n a r ye n c o d i n gm e t h o d a n de x p a n d e dt h e4b a s e si n t o1 6b a s e s ,c o m b i n i n gt h ea r b i t r a r yt w oo ft h e 凡t ca n dgf o u rb a s e s ,t oi n c r e a s et h ea m o u n t so ft h ev a r i a b l e s ,a c c o r d i n gt ot h ec h a r a c t e r i s t i co ft h ep r o m o t e rs e q u e n c e sd a t a t h i r d l y , w eb u i l tu pt h er i g h tc e 啪u sm o d e l s , a c c o r d i n gt ot h er e s u l t so ft h ed i f f e r e n te n c o d i n gm e t h o d s b a s e dt h ed i f f e r e n c e so ft h ee n c o d i n gm e t h o d s ,t h ed i f f e r e n c e so ft h es a m p l es e l e c t i n gm e t h o d s t h ed i f f e r e n c e so ft h ek e m e lf a n c t i o i l s ,e r e ,w eb u i l tu pc o n s e n s a sm o d e l sw i t hd i f f e r e n ts u b m o d e l s ,a n dd i dt h er e c o g n i t i o nw i t hd u a l s v m w ef i n a l l yp r o m o t e dt h ea c c u r a c yo f t h er e c o g n i t i o n , f o rt h ec o n s e n s u sm o d e l si n c l u d e dt h ei n d e p e n d e n c ea n dd i f f e r e n c eo fe a c hs u b m o d e l s a n de x c e e dt h es u p e r i o r i t i e sa n dt h ec o m p l e m e n t a r i t i e so f t h es u b - m o d e l s a tl a s t , w ea p p l i e dt h ee x c e l l e n tr e c o g n i t i o nm o d e li n t ot h eh u m a nc h r o m o s o m e2 2p r o m o t e rr e c o g n i z i n g ,a n dt h ea c c u r a c yo f t h er e c o g n i z i n gr e a c h e d9 0 9 8 a b s 盱a c tk e yw o r d s :h u m a nr n ap o li ip r o m o t e rr e c o g n i t i o n ,s u p p o r tv e c t o rm a c h i n e ,c o n s e n s u sm o d e l ,d u a l s v m ,b i o s t a t i s t i c sv學(xué)位論文版權(quán)使用授權(quán)書本人完全了解同濟(jì)大學(xué)關(guān)于收集、保存、使用學(xué)位論文的規(guī)定,同意如下各項(xiàng)內(nèi)容:按照學(xué)校要求提交學(xué)位論文的印刷本和電子版本;學(xué)校有權(quán)保存學(xué)位論文的印刷本和電子版,并采用影印、縮印、掃描、數(shù)字化或其它手段保存論文;學(xué)校有權(quán)提供目錄檢索以及提供本學(xué)位論文全文或者部分的閱覽服務(wù);學(xué)校有權(quán)按有關(guān)規(guī)定向國(guó)家有關(guān)部門或者機(jī)構(gòu)送交論文的復(fù)印件和電子版;在不以贏利為目的的前提下,學(xué)??梢赃m當(dāng)復(fù)制論文的部分或全部?jī)?nèi)容用于學(xué)術(shù)活動(dòng)。學(xué)位論文作者簽名:誰(shuí)絮、w 擴(kuò)年習(xí)月他日經(jīng)指導(dǎo)教師同意,本學(xué)位論文屬于保密,在年艉密后適用本授權(quán)書。指導(dǎo)教師簽名:學(xué)位論文作者簽名:年月日年月日同濟(jì)大學(xué)學(xué)位論文原創(chuàng)性聲明本人鄭重聲明:所呈交的學(xué)位論文,是本人在導(dǎo)師指導(dǎo)下,進(jìn)行研究工作所取得的成果。除文中已經(jīng)注明引用的內(nèi)容外,本學(xué)位論文的研究成果不包含任何他人創(chuàng)作的、已公開發(fā)表或者沒有公開發(fā)表的作品的內(nèi)容。對(duì)本論文所涉及的研究工作做出貢獻(xiàn)的其他個(gè)人和集體,均已在文中以明確方式標(biāo)明。本學(xué)位論文原創(chuàng)性聲明的法律責(zé)任由本人承擔(dān)。學(xué)位論文作者簽名:知翟、一8 ,年弓月日第1 章引言1 1 生物信息學(xué)概況1 1 1 生物信息學(xué)第1 章引言生物信息學(xué)是一門交叉科學(xué),它包含了對(duì)生物信息的獲取、處理、存儲(chǔ)、分發(fā)、分析和解釋等在內(nèi)的所有方面,它綜合運(yùn)用數(shù)學(xué)、計(jì)算機(jī)科學(xué)和生物學(xué)的各種工具,來闡明和理解大量數(shù)據(jù)所包含的生物學(xué)意義。其研究重點(diǎn)主要體現(xiàn)在基因組學(xué)( g e n o m i c s ) 和蛋白質(zhì)組學(xué)( p r o t e o m i e s ) 兩方面。具體說就是從核酸和蛋白質(zhì)的序列出發(fā),分析序列中所表達(dá)的結(jié)構(gòu)功能的生物信息。生物信息學(xué)的研究領(lǐng)域很廣,很難對(duì)其做出完整全面的界定。下面的例子均屬于生物信息學(xué)的研究?jī)?nèi)容:l 、序列比對(duì)( a l i g n m e n t ) ,比較兩個(gè)或兩個(gè)以上符號(hào)序列的相似性或差異性;2 、結(jié)構(gòu)比對(duì),比較兩個(gè)或兩個(gè)以上蛋白質(zhì)分子空間結(jié)構(gòu)的相似性或差異性;3 、蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),包括2 級(jí)和3 級(jí)結(jié)構(gòu)預(yù)測(cè);4 、計(jì)算機(jī)輔助基因識(shí)別,給定基因組序列后,正確識(shí)別基因的范圍和其在基因組序列中的精確位置;5 、非編碼區(qū)分析和d n a 語(yǔ)言研究。在人類基因組中,編碼部分僅占總序列的3 一5 ,其它稱為“非編碼”d n a 。d n a 序列作為一種遺傳語(yǔ)言,它的作用不僅體現(xiàn)在編碼序列之中,而且隱含在非編碼序列之中,分析非編碼區(qū)d n a 序列往往具有更重要的生物學(xué)意義;6 、分子進(jìn)化和比較基因組學(xué),主要是利用不同物種中同一種基因序列的異同來研究生物的進(jìn)化,構(gòu)建進(jìn)化樹。目前既可以用d n a 序列也可以用其編碼的氨基酸序列來進(jìn)行此項(xiàng)研究,甚至于可通過相關(guān)蛋白質(zhì)的結(jié)構(gòu)比對(duì)來研究分子進(jìn)化。另外,基因表達(dá)譜分析,代謝網(wǎng)絡(luò)分析,基因芯片設(shè)計(jì)和蛋白質(zhì)組學(xué)數(shù)據(jù)分析等,也逐漸成為生物信息學(xué)中新興的重要研究領(lǐng)域。本文對(duì)“d n a 啟動(dòng)子的識(shí)別”研究即屬于對(duì)d n a 非編碼區(qū)的研究范疇。第1 章引言1 1 2 生物信息學(xué)與生物統(tǒng)計(jì)學(xué)統(tǒng)計(jì)學(xué),包括多元統(tǒng)計(jì)學(xué),是生物信息學(xué)的數(shù)學(xué)基礎(chǔ)之一。隨著生物學(xué)研究的不斷發(fā)展,統(tǒng)計(jì)學(xué)方法已經(jīng)越來越廣泛的運(yùn)用于認(rèn)識(shí)、推斷和解釋生命過程中的各種現(xiàn)象。生物統(tǒng)計(jì)學(xué)( b i o s t a t i s t i e s ) ,有時(shí)也稱生物計(jì)量學(xué)( b i o m e t r i c s ) ,從最廣泛的意義上講,就是統(tǒng)計(jì)學(xué)在生物學(xué)中的應(yīng)用。它用數(shù)理統(tǒng)計(jì)的原理和方法來分析和解釋生命體的各種現(xiàn)象。生物統(tǒng)計(jì)能發(fā)現(xiàn)生物序列里面潛在的規(guī)律。與生物體功能和進(jìn)化相關(guān)的鏈狀分子具有一種基本特性,即它們能夠以數(shù)字化符號(hào)序列的形式表示。d n a 、r n a 以及蛋白質(zhì)分子中的核苷酸和氨基酸單體是確定的。雖然它們?cè)谏憝h(huán)境中常常會(huì)經(jīng)歷復(fù)雜的化學(xué)修飾,卻仍然可以用很少的字符表示其分子鏈的組成?;谏镄蛄袛?shù)據(jù)的此種數(shù)字化特征,我們可以將計(jì)算分析算法應(yīng)用在對(duì)特定序列及其分子的結(jié)構(gòu)和功能的研究中。1 1 3 生物信息學(xué)與機(jī)器學(xué)習(xí)大規(guī)模的生物信息給數(shù)據(jù)挖掘提出了新課題和挑戰(zhàn)。雖然常規(guī)的計(jì)算機(jī)算法仍可以應(yīng)用于生物數(shù)據(jù)分析中,但越來越不適用于更加復(fù)雜的生物信息的分析,如序列分析等問題。“學(xué)習(xí)”是系統(tǒng)的變化,這種變化可使系統(tǒng)做同類工作時(shí)更有效。機(jī)器學(xué)習(xí)的目的是期望能從數(shù)據(jù)中自動(dòng)獲得相應(yīng)的理論,通過采用如推理、模型擬合等方法從樣本中學(xué)習(xí),尤其適用于缺乏一般性的理論,“噪聲”模式,及大規(guī)模數(shù)據(jù)集。因此,機(jī)器學(xué)習(xí)形成了與常規(guī)方法互補(bǔ)的可行方法。機(jī)器學(xué)習(xí)使得利用計(jì)算機(jī)從海量的生物信息中提取有用知識(shí)、發(fā)現(xiàn)知識(shí)成為可能。機(jī)器學(xué)習(xí)方法在大樣本、多向量的數(shù)據(jù)分析工作中發(fā)揮著重要的作用。面對(duì)大量的數(shù)據(jù)、快速的數(shù)據(jù)獲取率和客觀分析的要求,早期的科學(xué)方法觀測(cè)和假設(shè),已經(jīng)不能僅依賴于人的感知來處理了。因而,生物信息學(xué)與機(jī)器學(xué)習(xí)相結(jié)合也就成了必然。機(jī)器學(xué)習(xí)中最基本的理論框架是建立在概率基礎(chǔ)上的,從某種意義來說,是統(tǒng)計(jì)模型擬合的延續(xù),其目的均為提取有用信息。機(jī)器學(xué)習(xí)與模式識(shí)別和統(tǒng)計(jì)推理密切相關(guān)。學(xué)習(xí)方法包括數(shù)據(jù)聚類、神經(jīng)網(wǎng)絡(luò)分類器和非線性回歸等等。隱馬爾可夫模型也廣泛用于預(yù)測(cè)d n a 的基因結(jié)構(gòu)。2第l 章引言機(jī)器學(xué)習(xí)加速了生物信息學(xué)的進(jìn)展,也帶了相應(yīng)的問題。機(jī)器學(xué)習(xí)方法大多假定數(shù)據(jù)符合某種相對(duì)固定的模型,而一般數(shù)據(jù)結(jié)構(gòu)通常是可變的,在生物信息學(xué)中尤其如此。因此,有必要建立一套不依賴于假定數(shù)據(jù)結(jié)構(gòu)的一般性方法來尋找數(shù)據(jù)集的內(nèi)在結(jié)構(gòu)。其次,機(jī)器學(xué)習(xí)方法中常采用“黑箱”操作,如神經(jīng)網(wǎng)絡(luò)和隱馬爾可夫模型,對(duì)于獲得特定解的內(nèi)在機(jī)理仍不清楚??梢哉f,生物學(xué)是生物信息學(xué)的核心和靈魂,數(shù)學(xué)與計(jì)算機(jī)技術(shù)則是它的基本工具。生物信息學(xué)不只是一門為了建立、更新生物數(shù)據(jù)庫(kù)及獲取生物數(shù)據(jù)而聯(lián)合使用多項(xiàng)計(jì)算機(jī)科學(xué)技術(shù)的應(yīng)用性學(xué)科,也不僅僅是只限于生物信息學(xué)這一概念的理論性學(xué)科。事實(shí)上,它是- - f q 理論概念與實(shí)踐應(yīng)用并重的學(xué)科。它的研究目標(biāo)是揭示“基因組信息結(jié)構(gòu)的復(fù)雜性及遺傳語(yǔ)言的根本規(guī)律”,解釋生命的遺傳語(yǔ)言。生物信息學(xué)已成為整個(gè)生命科學(xué)發(fā)展的重要組成部分,成為生命科學(xué)研究的前沿。1 2 人類r n ap o l 啟動(dòng)子識(shí)別問題真核基因的識(shí)別問題一直是生物信息學(xué)的一個(gè)重要內(nèi)容,基因啟動(dòng)子區(qū)的識(shí)別是完整基因結(jié)構(gòu)識(shí)別中的重要一環(huán)。啟動(dòng)子是一段位于結(jié)構(gòu)基因5 端上游的d n a 序列,能活化r n a 聚合酶,使之與模板d n a 準(zhǔn)確的結(jié)合并具有轉(zhuǎn)錄起始的特異性。轉(zhuǎn)錄的起始是基因表達(dá)的關(guān)鍵階段,而這一階段的重要問題是r n a聚合酶與啟動(dòng)子的相互作用。啟動(dòng)子的結(jié)構(gòu)影響了它與r n a 聚合酶的親和力,從而影響了基因表達(dá)的水平。人類啟動(dòng)子區(qū)的識(shí)別是生物醫(yī)學(xué)研究的基本需要,是構(gòu)建基因調(diào)節(jié)網(wǎng)絡(luò)的一個(gè)核心問題。負(fù)責(zé)m r n a 轉(zhuǎn)錄的r n a p o li i 啟動(dòng)子是啟動(dòng)子中數(shù)量最多,也是最重要的一類。在早期的啟動(dòng)子預(yù)測(cè)研究中,隱馬爾科夫模型【”、類神經(jīng)網(wǎng)絡(luò)【2 ) 、數(shù)據(jù)挖掘與權(quán)重矩陣 3 1 1 4 1 等方法被廣泛應(yīng)用。目前預(yù)測(cè)啟動(dòng)子主要從鑒定啟動(dòng)子的轉(zhuǎn)錄起始位點(diǎn)、核心啟動(dòng)子區(qū)域、轉(zhuǎn)錄因子結(jié)合域和啟動(dòng)子的c p g 島四個(gè)方面出發(fā)【5 1 。但是,當(dāng)用這些啟動(dòng)子預(yù)測(cè)工具來處理未知的、復(fù)雜的d n a 序列時(shí),識(shí)別的結(jié)果往往是比較嚴(yán)重的遺漏和偏高的假陽(yáng)性率。3第1 章引言1 3 課題的來源及意義1 3 1 課題的來源在人類基因組全圖正式發(fā)表后,科學(xué)家十分關(guān)切一個(gè)更為復(fù)雜、更富有挑戰(zhàn)意義、更有價(jià)值的任務(wù)由a 、t 、c 、g 這四個(gè)堿基構(gòu)成的人類的d n a 到底有哪些有意義的信息? 如何才能將這些復(fù)雜的信息全部注釋出來? 人們展開了對(duì)基因的識(shí)別研究?;蜃R(shí)別,即使用生物學(xué)實(shí)驗(yàn)或計(jì)算機(jī)等手段識(shí)別d n a 序列上的具有生物學(xué)特征的片段,是生物信息學(xué)的一個(gè)重要分支,也是基因組研究的基礎(chǔ)?;蜃R(shí)別的對(duì)象主要是蛋白質(zhì)編碼基因,也包括其它具有一定生物學(xué)功能的因子,如r n a 基因和調(diào)控因子。在早期,基因識(shí)別的主要手段是基于活的細(xì)胞或生物的實(shí)驗(yàn)。通過對(duì)若干種不同基因的同源重組的速率的統(tǒng)計(jì)分析,我們能夠獲知它們?cè)谌旧w上的順序。若進(jìn)行大量類似的分析,我們可以確定各個(gè)基因的大致位置。然而現(xiàn)在,由于人類已經(jīng)獲得了數(shù)量巨大的基因組信息,依靠較慢的實(shí)驗(yàn)分析己不能滿足基因識(shí)別的需要,基于計(jì)算機(jī)算法的基因識(shí)別得到了長(zhǎng)足的發(fā)展,成為了基因識(shí)別的主要手段。啟動(dòng)子的識(shí)別是基因識(shí)別的重要組成部分。雖然生物學(xué)家己實(shí)驗(yàn)驗(yàn)證發(fā)現(xiàn)了很多啟動(dòng)子序列,但是實(shí)驗(yàn)過程相當(dāng)費(fèi)時(shí)費(fèi)力,而且對(duì)于大量且長(zhǎng)達(dá)數(shù)萬(wàn)個(gè)堿基對(duì)的序列,無法完整通過實(shí)驗(yàn)發(fā)現(xiàn)。因此人們便發(fā)展了一系列用生物信息學(xué)的手段來預(yù)測(cè)啟動(dòng)子序列的方法。但是目前的啟動(dòng)子預(yù)測(cè)工具在面對(duì)極為復(fù)雜的基因體序列時(shí),仍無法做出準(zhǔn)確的預(yù)測(cè),再加上誤判率偏高,因而使得啟動(dòng)子的預(yù)測(cè)仍無法有效成為研究人員在尋找基因時(shí)的參考依據(jù)。支持向量機(jī)( s u p p o r tv e c t o rm a c h i n e ,s v m ) 是一種有監(jiān)督的構(gòu)造分類器方法。它有以下特點(diǎn):1 專門針對(duì)有限樣本情況;2 算法將實(shí)際問題通過非線性變換轉(zhuǎn)換到高維的特征空間( f e a t u r es p a c e ) ,在高維空間中構(gòu)造線性判別函數(shù)來實(shí)現(xiàn)原空間中的非線性判別函數(shù)。與隱馬爾科夫模型、神經(jīng)網(wǎng)絡(luò)一樣,支持向量機(jī)作為機(jī)器學(xué)習(xí)方法的一種,在生物信息學(xué)的研究中也被廣泛的應(yīng)用。在啟動(dòng)子的識(shí)別應(yīng)用中 6 1 【7 l ,s v m 基于處理高維、復(fù)雜的數(shù)據(jù)時(shí)比其它統(tǒng)計(jì)學(xué)或機(jī)器學(xué)習(xí)的方法效果更好等原因,在識(shí)別結(jié)果上相對(duì)于其他方法有了較大的提高。4第1 章引言但是,這類應(yīng)用中絕大部分的測(cè)試只是針對(duì)規(guī)模相對(duì)較小的數(shù)據(jù)集。而如何使用s v m 方法在擴(kuò)大了的啟動(dòng)子數(shù)據(jù)集的應(yīng)用中提高啟動(dòng)子識(shí)別的準(zhǔn)確率還有待進(jìn)一步的研究。s v m 8 】【9 j 作為一種求解模式識(shí)別和參數(shù)估計(jì)的有效工具,不僅結(jié)構(gòu)簡(jiǎn)單,而且具有全局最優(yōu)性和較好的泛化能力?;谝陨显?,并以在d n a 剪切位點(diǎn)預(yù)報(bào)研究中得以成功應(yīng)用的基于知識(shí)的統(tǒng)計(jì)編碼方法作為基礎(chǔ),我們確定了利用s v m 對(duì)人類d n a 啟動(dòng)子進(jìn)行識(shí)別研究這一研究方向。主要解決了以下問題:1 如何找到合適的編碼方法,提高啟動(dòng)子識(shí)別的準(zhǔn)確率;2 如何對(duì)現(xiàn)有的s v m 進(jìn)行進(jìn)一步的發(fā)展,找到并建立合理的共識(shí)模型,將雙層s v m 方法應(yīng)用于啟動(dòng)子識(shí)別研究中;3 如何將改善后的方法應(yīng)用在于人類染色體啟動(dòng)子的識(shí)別研究中。1 3 2 課題的理論意義和實(shí)際研究?jī)r(jià)值人類基因組測(cè)序工作的完成,標(biāo)志著功能基因組研究將在生命科學(xué)領(lǐng)域中占據(jù)越來越重要的地位【l “?;虮磉_(dá)水平的分析對(duì)于研究及了解生物體的特性和基因功能起著至關(guān)重要的作用。對(duì)基因表達(dá)數(shù)據(jù),在大規(guī)模數(shù)據(jù)集上進(jìn)行分析和歸納可以了解基因表達(dá)的時(shí)空規(guī)律,探索基因表達(dá)的代謝控制,了解基因的功能,理解遺傳網(wǎng)絡(luò),提供疾病發(fā)病機(jī)理的信息。研究基因表達(dá)數(shù)據(jù)的處理和分析方法已成為生物信息學(xué)發(fā)展的一個(gè)重要方向。除尋找基因編碼區(qū)外,對(duì)基因表達(dá)中調(diào)控序列的認(rèn)識(shí)將是一個(gè)更為艱巨的任務(wù)。調(diào)控序列包括位于基因編碼序列上游的啟動(dòng)子( p r o m o t e r ) 、正調(diào)控元件增強(qiáng)子( e n h a n c e r ) 以及負(fù)調(diào)控元件沉默子( s i l e n c e r ) 等,其中啟動(dòng)子是d n a 序列中r n a 聚合酶i i 的結(jié)合部位,也是啟動(dòng)轉(zhuǎn)錄的關(guān)鍵性調(diào)控序列i j ”。直到最近,人們才能確定真核基因組序列大到足以包含許多基因。數(shù)據(jù)成為基因搜尋程序的新問題:如何從多基因中準(zhǔn)確分割一組外顯子。啟動(dòng)子是提供這一生物學(xué)功能的富含信息的信號(hào)序列。因此對(duì)啟動(dòng)子區(qū)的認(rèn)識(shí),不僅有助于實(shí)驗(yàn)室分析研究,而且還可以為人類認(rèn)識(shí)全基因組功能、基因表達(dá)調(diào)控機(jī)制以及人類疾病與啟動(dòng)子多態(tài)性或突變的關(guān)系提供很大的幫助。計(jì)算機(jī)識(shí)別啟動(dòng)子1 1 2 j 部分能在推進(jìn)基因識(shí)別中起到十分重要的作用。與傳統(tǒng)的實(shí)驗(yàn)研究方法相比,計(jì)算機(jī)識(shí)別啟動(dòng)子的方法具有節(jié)省人力和物力資源、5第1 章引言且用較短時(shí)間可以預(yù)測(cè)和研究大量的啟動(dòng)子序列等優(yōu)點(diǎn),是目前啟動(dòng)子預(yù)測(cè)和研究的一個(gè)重要手段。本課題研究的內(nèi)容,包括將本實(shí)驗(yàn)室開發(fā)的基于統(tǒng)計(jì)知識(shí)的編碼方法應(yīng)用在人類啟動(dòng)子序列的識(shí)別研究中,建立并使用合適的共識(shí)模型,使用s v m 的方法對(duì)啟動(dòng)子數(shù)據(jù)進(jìn)行分類,區(qū)分啟動(dòng)子數(shù)據(jù)與非啟動(dòng)子數(shù)據(jù),尋找其中的規(guī)律,并利用這些規(guī)律對(duì)未知的d n a 序列數(shù)據(jù)進(jìn)行分類,識(shí)別出其中的啟動(dòng)子序列數(shù)據(jù)。如果在識(shí)別精度或分類方法上能夠有所提高,則會(huì)為此類生物分類問題提供更有效的編碼理論,并且對(duì)于基因識(shí)別研究有重大意義,同時(shí)也為生物學(xué)家更有效的設(shè)計(jì)實(shí)驗(yàn)方法驗(yàn)證人類啟動(dòng)子、進(jìn)一步研究啟動(dòng)子的結(jié)構(gòu)和功能提供幫助。1 4 論文的主要內(nèi)容本文旨在對(duì)人類r n ap o li i 啟動(dòng)子數(shù)據(jù)進(jìn)行識(shí)別分類并提高識(shí)別的準(zhǔn)確率。我們將創(chuàng)新的編碼方法應(yīng)用在人類啟動(dòng)子序列編碼中,建立并使用合適的共識(shí)模型,使用s v m 的方法對(duì)啟動(dòng)子數(shù)據(jù)進(jìn)行分類并提高了啟動(dòng)子識(shí)別的準(zhǔn)確率。首先,我們從真核生物啟動(dòng)子數(shù)據(jù)庫(kù)( e p d ) 以及非啟動(dòng)子數(shù)據(jù)庫(kù)中得到用于分類研究的d n a 啟動(dòng)子序列數(shù)據(jù)及非啟動(dòng)子序列數(shù)據(jù)。正、負(fù)數(shù)據(jù)集均分別被分成5 份和l o 份,用于5 重( 5 f o l d ) 及1 0 重( 1 0 一f o l d ) 交叉驗(yàn)證。另外,我們還從轉(zhuǎn)錄起始位點(diǎn)數(shù)據(jù)庫(kù)( d b t s s ) 中得到了由實(shí)驗(yàn)得出的人類染色體啟動(dòng)子數(shù)據(jù),準(zhǔn)備用于后續(xù)的研究。然后,在對(duì)數(shù)據(jù)進(jìn)行處理后( 包括保證數(shù)據(jù)的非冗余性等) ,對(duì)堿基數(shù)據(jù)進(jìn)行編碼、選擇合適的參數(shù)及編碼方法。這是本研究的重點(diǎn)和難點(diǎn)。根據(jù)采用編碼方式的不同,將之分為三步。第一步,本文采用了基于知識(shí)的統(tǒng)計(jì)編碼方法,并將此方法進(jìn)一步擴(kuò)展成六種子編碼方式,分別是:?jiǎn)螇A基統(tǒng)計(jì)特征編碼、相鄰雙堿基統(tǒng)計(jì)特征編碼、隔一位的雙堿基統(tǒng)計(jì)特征編碼、隔兩位的雙堿基統(tǒng)計(jì)特征編碼、隔三位的雙堿基統(tǒng)計(jì)特征編碼以及相鄰三堿基統(tǒng)計(jì)特征編碼。編碼后在s v m 中進(jìn)行啟動(dòng)子識(shí)別,使用1 0 一f o l d 交叉驗(yàn)證的準(zhǔn)確率達(dá)到了8 9 6 8 ,靈敏性在8 6 2 4 - , 9 0 1 1 ,特異性在8 5 9 1 9 8 3 5 ,與其他利用s v m 進(jìn)行啟動(dòng)子識(shí)別的工具相比,均有6第1 章引言5 左右的提高。第二步,本文采用了c p g 編碼和五聯(lián)體( p e n t a m e r s ) 編碼,從不同的角度對(duì)人類r n a p o li i 啟動(dòng)子序列進(jìn)行編碼,提取變量信息,找出預(yù)報(bào)結(jié)果最佳及搭配最合理的編碼方式用于后面的研究。第三步,本文還嘗試了一種新的編碼方法一模式字典( p a t t e r nd i c t i o n a r y )的編碼方法( 由本實(shí)驗(yàn)室開發(fā)) ,并且針對(duì)啟動(dòng)子數(shù)據(jù)的特點(diǎn),將a t c g 四堿基兩兩結(jié)合,擴(kuò)展成十六種字符進(jìn)行編碼,以增加數(shù)據(jù)的特征變量。再次,基于上述編碼方法的識(shí)別結(jié)果,根據(jù)編碼方式的不同、樣本選擇的不同、核函數(shù)選擇的不同等等,我們建立出不同類型成員子模型的共識(shí)模型,并用雙層s v m 進(jìn)行識(shí)別分析。由于共識(shí)模型考慮了各子模型的獨(dú)立性和模型之間的差異性,發(fā)揮了各模型之間的互補(bǔ)優(yōu)勢(shì),從而提高了最終的識(shí)別準(zhǔn)確率( 圖1 1 ) 。圖l l 本文進(jìn)行啟動(dòng)子識(shí)別研究的主要步驟最后,我們將優(yōu)秀的識(shí)別模型及共識(shí)模型的思想應(yīng)用到人類2 2 號(hào)染色體啟動(dòng)子數(shù)據(jù)的識(shí)別中,識(shí)別準(zhǔn)確率達(dá)到了9 0 9 8 。本文主要分為七個(gè)部分:第一、二部分系統(tǒng)的介紹了生物基因以及d n a 、啟動(dòng)子的組成、結(jié)構(gòu)特征,相關(guān)的數(shù)據(jù)庫(kù)以及目前啟動(dòng)子識(shí)別研究的主要研究領(lǐng)域及方法。7第1 章引言第三部分介紹了本文的數(shù)據(jù)來源,數(shù)據(jù)的特點(diǎn),數(shù)據(jù)分析和預(yù)處理方法以及結(jié)果的評(píng)價(jià)方法。第四部分提出了基于堿基序列的四種編碼方法,分別是基于知識(shí)的統(tǒng)計(jì)編碼方法、c p g 編碼方法、p e n t a m e r s 編碼方法以及p a t t e r nd i c t i o n a r y 編碼方法。這一部分中給出了結(jié)合s v m 進(jìn)行建模和預(yù)報(bào)的計(jì)算結(jié)果,對(duì)這些編碼方法的識(shí)別結(jié)果以及各編碼思想的特點(diǎn)進(jìn)行了分析,并且在分析的基礎(chǔ)上對(duì)這些編碼方法進(jìn)行了進(jìn)一步的優(yōu)化改進(jìn)。第五部分介紹了共識(shí)模型在人類r n ap o li i 啟動(dòng)子識(shí)別中的應(yīng)用。我們將不同的編碼方法相組合,建立適當(dāng)?shù)墓沧R(shí)模型,在雙層s v m 中對(duì)啟動(dòng)子數(shù)據(jù)進(jìn)行識(shí)別,得到了更高的識(shí)別準(zhǔn)確率。第六部分介紹了編碼方法在人類2 2 號(hào)染色體啟動(dòng)子數(shù)據(jù)識(shí)別中的應(yīng)用。在本文的末尾,也就是本文的第七部分,我們對(duì)識(shí)別研究工作進(jìn)行了總結(jié),對(duì)工作中的不足之處進(jìn)行了探討,并提出了一些改進(jìn)的設(shè)想。8第2 章啟動(dòng)子及啟動(dòng)子識(shí)別第2 章啟動(dòng)子及啟動(dòng)子識(shí)別2 1 生物學(xué)知識(shí)基礎(chǔ)2 1 1 核酸的化學(xué)組成核酸是生物體內(nèi)的高分子化合物,包括脫氧核糖核酸( d n a ) 和核糖核酸( r n a ) 兩大類。d n a 存在于細(xì)胞核和線粒體內(nèi),攜帶遺傳信息;r n a 存在于細(xì)胞質(zhì)和細(xì)胞核中,參與細(xì)胞內(nèi)遺傳信息的表達(dá)。核酸經(jīng)水解可得到核苷酸,因此核苷酸是核酸的基本單位。核酸就是由很多單核苷酸聚合形成的多聚核苷酸。核苷酸可被水解產(chǎn)生核苷和磷酸,核苷還可再進(jìn)一步水解,產(chǎn)生戊糖和含氮堿基( 如圖2 1 ) 。核酸- 核苷酸呻 二:斗_ 二二核苷酸中的堿基均為含氮雜環(huán)化合物,它們分別屬于嘌呤衍生物和嘧啶衍生物。核苷酸中的主要是鳥嘌呤( g u a n i n e ,g ) 和腺嘌呤( a d e n i n e a ) ,嘧啶堿( p y r i m i d i n e ) 主要是胞嘧啶( c y t o s i n e ,c ) 、尿嘧啶( u r a c i l 。u ) 和胸腺嘧啶( t h y m i n e ,t ) 。d n a 和r n a 都含有鳥嘌呤( g ) 、腺嘌呤( a ) 和胞嘧啶( c ) :胸腺嘧啶( t ) 一般而言只存在于d n a 中,不存在于r n a 中;而尿嘧啶( u )只存在于r n a 中,不存在于d n a 中【1 3 1 。它們的化學(xué)結(jié)構(gòu)見圖2 2 。9第2 章啟動(dòng)子及啟動(dòng)子識(shí)別ot鼎 c ,、也,k 一、礦“0 0 目m 。一“警:鍘嘌口爭(zhēng)堿( p u r i n c )嘧啶堿( p y r i m i d i n c )圖2 - 2 堿基的化學(xué)結(jié)構(gòu)2 1 2d 的分子結(jié)構(gòu)d n a 分子是4 種脫氧核苷酸經(jīng)3 一5 磷酸二酯鍵聚合而成,所以也稱為多核苷酸( p o l y n u c l e o t i d e ) 。d n a 的一級(jí)結(jié)構(gòu)是指4 種核苷酸的連接及其排列順序。1 9 5 3 年w a t s o n 和c r i c k 提出了d n a 分子雙螺旋結(jié)構(gòu)模型,指出d n a 分子是由兩條平行的多核苷酸鏈圍繞同一中心軸構(gòu)成的右手雙螺旋結(jié)構(gòu)。多核苷酸的方向由核苷酸間的磷酸二酯鍵的走向決定,一條從5 一3 ,另一條從3 一5 ,兩條鏈反向平行排列( a n t i p a r a l l e l ) ,彼此由氫鍵相連,g 與c 配對(duì)( g c ) ,a 與t 配對(duì)( a = t ) 。根據(jù)以上原則,只要確定了一條鏈中的堿基順序,就可以相應(yīng)的確定與它互補(bǔ)的另一條鏈上堿基的順序。1 個(gè)d n a 分子大約有4 千至4 0 億個(gè)核苷酸對(duì),而各種堿基對(duì)排列順序沒有限制,即假定某一段d n a 分子鏈有1 0 0 個(gè)堿基對(duì),則該段就有4 1 0 0 種不同的排列組合形式?;蚓褪莇 n a 分子鏈上的一個(gè)特定的區(qū)段,其平均大小約為1 0 0 0 個(gè)堿基對(duì)。這說明d n a 分子貯存了大量正?;蜃儺惖倪z傳信息,滿足了生物遺傳多樣性的要求,通過d n a 分子的準(zhǔn)確復(fù)制,又可使遺傳信息得到穩(wěn)定和連續(xù)的傳遞【1 4 1 。2 1 3 基因從遺傳學(xué)的角度看,基因是生物的遺傳物質(zhì),是遺傳的基本功能單位、突變單位、重組單位;從分子生物學(xué)的角度看,基因是載著特定遺傳信息的d n a分子片段,在一定條件下能夠表達(dá)遺傳信息,產(chǎn)生特定的生理功能。基因有三個(gè)基本特性:1 、基因可自體復(fù)制:2 、基因決定性狀,最終表達(dá)為某一性狀,即基因通過轉(zhuǎn)錄和翻譯決定多肽鏈的氨基酸順序,從而決定某種酶或蛋白質(zhì)的性質(zhì);3 、基因雖很穩(wěn)定,但也會(huì)發(fā)生突變。一般來說,由新的突1 0刪o 。氣oohho、奠o i cn hr kh、ehh、jm 、。ox。鼉,nh足萇第2 章啟動(dòng)子及啟動(dòng)子識(shí)別變而來的等位基因一旦形成,可通過自體復(fù)制,在隨后的細(xì)胞分裂中保留下來,提供進(jìn)化的材料,產(chǎn)生多態(tài)性【1 5 】?;虻膹?fù)制以d n a 復(fù)制為基礎(chǔ)。生物體的遺傳信息表現(xiàn)為特定的核苷酸順序,并以密碼子的形式編碼在d n a 分子上。在細(xì)胞分裂過程中,通過d n a 準(zhǔn)確的自我復(fù)制( s e l f - r e p l i c a t i o n ) ,把遺傳信息從親代傳給子代,保證遺傳物質(zhì)的連續(xù)性和相對(duì)的穩(wěn)定性。由于d n a 分子兩條鏈的堿基是互補(bǔ)的,一條鏈上的核苷酸排列順序可以由另一條鏈上的核苷酸排列順序決定。d n a 復(fù)制過程中,首先堿基間氫鍵斷裂,雙螺旋解旋并松開,然后每條多核苷酸鏈各自以自己為模板( t e m p l a t e ) ,游離核苷酸按堿基互補(bǔ)原則,進(jìn)行氫鍵結(jié)合;在聚合酶作用下,合成新的互補(bǔ)鏈,與原來模板單鏈并列盤旋在一起,形成了穩(wěn)定的雙螺旋結(jié)構(gòu)。新形成的2 個(gè)d n a分子與原來d n a 分子的堿基順序完全一樣。每個(gè)子代d n a 分子的一條鏈來自親代d n a ,另一條鏈則是新合成的,所以這種復(fù)制方式稱為半保留復(fù)制( s e m i c o n s e v v a f i v er e p l i c a t i o n ) 。所謂基因表達(dá)( g e n ee x p r e s s i o n ) 是指細(xì)胞在生命過程中,把儲(chǔ)存在d n a順序中的遺傳信息經(jīng)過轉(zhuǎn)錄和翻譯,轉(zhuǎn)變成具有生物活性的蛋白質(zhì)分子。2 1 4 真核生物的基因結(jié)構(gòu)特征真核生物( 包括人類在內(nèi)) ,其基因主要存在于細(xì)胞核內(nèi)線狀的染色體上。存在于細(xì)胞質(zhì)的基因位于環(huán)狀的線粒體d n a 上。核內(nèi)基因的d n a 順序由編碼順序和非編碼順序兩部分構(gòu)成。編碼順序是不連續(xù)的,被非編碼順序隔開【“1 。人類結(jié)構(gòu)基因包括二大區(qū)域:1 、編碼區(qū),包括外顯子與內(nèi)含子;2 、側(cè)翼順序,位于編碼區(qū)上游、編碼區(qū)下游;基因編碼區(qū)的兩側(cè),含調(diào)控區(qū),包括啟動(dòng)子和增強(qiáng)子等( 如圖2 3 ) 。第2 章啟動(dòng)子及啟動(dòng)子識(shí)別, 省鞘到童墨翹蒸尊d ,圖2 3 真核細(xì)胞基因結(jié)構(gòu)示意圖2 1 5 基因結(jié)構(gòu)復(fù)雜性的認(rèn)識(shí)過程人類基因組序列的研究提出了對(duì)基因復(fù)雜本質(zhì)探討的課題。在此之前,科學(xué)家估計(jì)人類的基因組包含了數(shù)目極多的基因( 用已表達(dá)序列聚類進(jìn)行估計(jì),人類大約有1 5 0 ,0 0 0 個(gè)基因) ,而果蠅則約有1 4 ,0 0 0 個(gè)基因,簡(jiǎn)單的模式生物線蟲約有1 9 ,0 0 0 個(gè)基因。從生物的復(fù)雜性來說,這很合理。但是對(duì)人類基因數(shù)目研究的最終結(jié)果顯示人類只有約3 2 ,0 0 0 個(gè)基因。生物的復(fù)雜性與相應(yīng)基因個(gè)數(shù)較少,這兩者之間似乎產(chǎn)生了極大的矛盾。同時(shí),這個(gè)現(xiàn)象也向人們暗示:人類表達(dá)序列( m r n a ) 的數(shù)目遠(yuǎn)遠(yuǎn)大于人類基因的數(shù)目。從而把矛頭指向了真核生物基因復(fù)雜的本性【j 刀。直至2 0 世紀(jì)7 0 年代中期,分子生物學(xué)家才開始認(rèn)識(shí)到真核生物的d n a 序列由編碼序列和非編碼序列交錯(cuò)組合起來。誕生了外顯子( e x p r e s s e dr e g i o n ) 和內(nèi)含子( i n t e r v e n i n gs e q u e n c e sr e g i o n ) 的概念。真核生物與原核生物在基因結(jié)構(gòu)的復(fù)雜性方面有著本質(zhì)的差異。對(duì)于原核生物來說,基因的結(jié)構(gòu)相對(duì)比較簡(jiǎn)單。原核生物染色體通常只含有一個(gè)d n a 分子,而且每個(gè)基因在d n a 分子中只出現(xiàn)一個(gè),除了為蛋白質(zhì)編碼的連接結(jié)構(gòu)基因外,只有一小部分是調(diào)節(jié)序列和信號(hào)序列。具體來說,原核生物的基因結(jié)構(gòu)僅包括啟動(dòng)子、起始密碼子、編碼區(qū)、終止密碼子。對(duì)于真核生物來講,其基因結(jié)構(gòu)要復(fù)雜的多,一些基因在d n a 中可以重復(fù)很多次。而且更為重要的是,與原核生物基因是編碼d n a 的一個(gè)完整片斷不同,大多數(shù)為蛋白質(zhì)編碼的真核生物基因都含有“居間序列”,這些居問序列不編碼蛋白質(zhì),被稱作垃圾序列,但是這些不編碼蛋白質(zhì)的序列有很重要的功能,特別是在m r n a 前體的加工過程中,發(fā)揮著無可替代的重要作用。這些不編碼的“非編碼序列”的含量和分布在不同的生物中有所不同。1 2第2 章啟動(dòng)子及啟動(dòng)子識(shí)別2 1 6 基因識(shí)別基因識(shí)別,即使用生物學(xué)實(shí)驗(yàn)或計(jì)算機(jī)等手段識(shí)別d n a 序列上的具有生物學(xué)特征的片段,是生物信息學(xué)的一個(gè)重要分支?;蜃R(shí)別的對(duì)象主要是蛋白質(zhì)編碼基因,也包括其他具有一定生物學(xué)功能的因子,如r n a 基因和調(diào)控因子?;蜃R(shí)別是基因組研究的基礎(chǔ)。我們?cè)讷@得一個(gè)基因序列后,通常需要基因識(shí)別對(duì)其進(jìn)行生物信息學(xué)分析,從中盡量發(fā)掘信息,從而指導(dǎo)進(jìn)一步的實(shí)驗(yàn)研究。通過染色體定位分析、內(nèi)含子夕h 顯子分析、開放讀碼框( o r f ) 分析、表達(dá)譜分析等,能夠闡明基因的基本信息。通過啟動(dòng)子預(yù)測(cè)、c p g 島分析和轉(zhuǎn)錄因子分析等,識(shí)別調(diào)控區(qū)的順式作用元件,可以為基因的調(diào)控研究提供基礎(chǔ)。此外,通過相似性搜索、功能位點(diǎn)分析、結(jié)構(gòu)分析、查詢基因表達(dá)譜聚簇?cái)?shù)據(jù)庫(kù)、基因敲除數(shù)據(jù)庫(kù)、基因組上下游鄰居等,盡量挖掘網(wǎng)絡(luò)數(shù)據(jù)庫(kù)中的信息,可以對(duì)基因功能做出推論。在早期,基因識(shí)別的主要手段是基于活的細(xì)胞或生物的實(shí)驗(yàn)。通過對(duì)若干種不同基因的同源重組速率的統(tǒng)計(jì)分析,我們能夠獲知它們?cè)谌旧w上的順序。若進(jìn)行大量類似的分析,我們可以確定各個(gè)基因的大致位置?,F(xiàn)在,由于人類已經(jīng)獲得了數(shù)量巨大的基因組信息,依靠較慢的實(shí)驗(yàn)分析己不能滿足基因識(shí)別的需要,而基于計(jì)算機(jī)算法的基因識(shí)別得到了長(zhǎng)足的發(fā)展,成為了基因識(shí)別的主要手段。2 2 啟動(dòng)子啟動(dòng)子是一個(gè)基因轉(zhuǎn)錄開始的信息提供者,通常位于轉(zhuǎn)錄起始位點(diǎn)的上游。r n a 聚合酶能夠識(shí)別并與之結(jié)合,從而起始基因轉(zhuǎn)錄。轉(zhuǎn)錄的起始是基因表達(dá)的關(guān)鍵階段,而這一階段的重要問題是r n a 聚合酶與啟動(dòng)子的相互作用。啟動(dòng)子的結(jié)構(gòu)影響了它與r n a 聚合酶的親和力,從而影響了基因表達(dá)的水平。轉(zhuǎn)錄起始位點(diǎn)是指與新生r n a 鏈第一個(gè)核苷酸相對(duì)應(yīng)d n a 鏈上的堿基,研究證實(shí)通常為

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論