




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第四章第四章 DNA序列分析序列分析2主要內(nèi)容主要內(nèi)容4.1 引言引言4.2 序列的一般分析序列的一般分析4.3 基因預(yù)測(cè)與鑒定基因預(yù)測(cè)與鑒定4.4 非編碼區(qū)分析與調(diào)控元件識(shí)別非編碼區(qū)分析與調(diào)控元件識(shí)別4.3 基因預(yù)測(cè)與鑒定基因預(yù)測(cè)與鑒定4功能基因組學(xué)(功能基因組學(xué)(Functional genomicsFunctional genomics):利利用用結(jié)構(gòu)基因組學(xué)結(jié)構(gòu)基因組學(xué)研究所得的各種信息在基因組研究所得的各種信息在基因組水平上研究水平上研究編碼序列編碼序列及及非編碼序列非編碼序列生物學(xué)功能生物學(xué)功能的學(xué)科。的學(xué)科。 基因組學(xué)(基因組學(xué)(genomics)genomics):研究生物體全
2、基因組研究生物體全基因組DNADNA的序列和屬性的學(xué)科。包括的序列和屬性的學(xué)科。包括結(jié)構(gòu)基因組學(xué)結(jié)構(gòu)基因組學(xué)和和功能基因組學(xué)功能基因組學(xué)兩個(gè)方面。兩個(gè)方面。5一、基因預(yù)測(cè)方法一、基因預(yù)測(cè)方法 基因預(yù)測(cè)方法包括兩類:基因預(yù)測(cè)方法包括兩類:1 1 從基因組序列入手,識(shí)別基因從基因組序列入手,識(shí)別基因2 2 基于表達(dá)序列標(biāo)簽(基于表達(dá)序列標(biāo)簽(ESTEST)的基因鑒定的基因鑒定從整體到局部從整體到局部從局部到整體從局部到整體目前還沒(méi)有一個(gè)基因預(yù)測(cè)工具可以完全正確地預(yù)測(cè)一目前還沒(méi)有一個(gè)基因預(yù)測(cè)工具可以完全正確地預(yù)測(cè)一個(gè)基因組中的所有基因個(gè)基因組中的所有基因(Mathe et al. 2002)6二、從
3、基因組序列預(yù)測(cè)新基因二、從基因組序列預(yù)測(cè)新基因從基因組預(yù)測(cè)新基因的方法大體上又可分為兩類:從基因組預(yù)測(cè)新基因的方法大體上又可分為兩類: 1)從頭預(yù)測(cè)法)從頭預(yù)測(cè)法 2)相似性比較預(yù)測(cè)法)相似性比較預(yù)測(cè)法隨著隨著HGPHGP和其他模式生物基因組測(cè)序計(jì)劃的進(jìn)行,大和其他模式生物基因組測(cè)序計(jì)劃的進(jìn)行,大量的基因組序列數(shù)據(jù)隨之產(chǎn)生,接下來(lái)一個(gè)重要的量的基因組序列數(shù)據(jù)隨之產(chǎn)生,接下來(lái)一個(gè)重要的課題就是如何從這些序列中找到可能具有編碼產(chǎn)物課題就是如何從這些序列中找到可能具有編碼產(chǎn)物的功能基因。的功能基因。7概念:概念:是指直接利用基因以及外顯子是指直接利用基因以及外顯子/ /內(nèi)含子結(jié)構(gòu)內(nèi)含子結(jié)構(gòu)在基因序列
4、上已知的一些統(tǒng)計(jì)特征或信號(hào),在基在基因序列上已知的一些統(tǒng)計(jì)特征或信號(hào),在基因組序列中直接預(yù)測(cè)基因的位置與組成。因組序列中直接預(yù)測(cè)基因的位置與組成。方法及常用軟件:1 以隱馬爾可夫模式為基礎(chǔ)的算法:以隱馬爾可夫模式為基礎(chǔ)的算法:GENSCAN、Genie、HMMgene、Veil2 以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的算法:以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的算法:Grail 、GrailEXP_Perceval3 以決策樹為基礎(chǔ)的算法:以決策樹為基礎(chǔ)的算法:MZEF、MZEF-SPC4 整合預(yù)測(cè)方法:整合預(yù)測(cè)方法: Fgene H5 其它算法:其它算法:GeneID、GeneVeiw1 1 從頭預(yù)測(cè)(從頭預(yù)測(cè)(ab initio
5、 prediction ):8GENSCAN基因預(yù)測(cè)程序基因預(yù)測(cè)程序GENSCANGENSCAN是美國(guó)麻省理工大學(xué)是美國(guó)麻省理工大學(xué)( (Massachusetts Institute of Technology,縮寫縮寫:MIT ) )的的Christopher Christopher BurgeBurge于于19971997年開(kāi)發(fā)成功的人類(包括脊椎動(dòng)物)基年開(kāi)發(fā)成功的人類(包括脊椎動(dòng)物)基因預(yù)測(cè)軟件。因預(yù)測(cè)軟件。20012001年又推出了升級(jí)版預(yù)測(cè)軟件年又推出了升級(jí)版預(yù)測(cè)軟件GenomescanGenomescan。后者整合了后者整合了從頭預(yù)測(cè)從頭預(yù)測(cè)和和相似性搜索相似性搜索兩種兩種觀測(cè)
6、方法。觀測(cè)方法。( /GENSCAN.html )GENSCANGENSCAN是目前是目前“從頭從頭”預(yù)測(cè)算法中應(yīng)用最廣泛,預(yù)測(cè)算法中應(yīng)用最廣泛,尤其是對(duì)基因編碼區(qū)預(yù)測(cè)最為成功的軟件之一。尤其是對(duì)基因編碼區(qū)預(yù)測(cè)最為成功的軟件之一。NCBINCBI開(kāi)發(fā)的參考序列(開(kāi)發(fā)的參考序列(RefSeqRefSeq)數(shù)據(jù)庫(kù)采用數(shù)據(jù)庫(kù)采用GenomescanGenomescan,而而EMBLEMBL開(kāi)發(fā)的開(kāi)發(fā)的ENSEMBLENSEMBL采用采用GENSCANGENSCAN9目前目前Christopher Christopher BurgeBurge還開(kāi)發(fā)了適用于果蠅、擬
7、南芥、還開(kāi)發(fā)了適用于果蠅、擬南芥、玉米的專用版本。對(duì)于非版本專用的物種,其預(yù)測(cè)準(zhǔn)確率玉米的專用版本。對(duì)于非版本專用的物種,其預(yù)測(cè)準(zhǔn)確率會(huì)下降。會(huì)下降。用脊椎動(dòng)物版本進(jìn)行基因預(yù)測(cè)的準(zhǔn)確率用脊椎動(dòng)物版本進(jìn)行基因預(yù)測(cè)的準(zhǔn)確率 101 1 基因數(shù)目基因數(shù)目可能將兩個(gè)基因的外顯子歸并到一個(gè)基因,或者相反。可能將兩個(gè)基因的外顯子歸并到一個(gè)基因,或者相反。2 2 物種物種GENSCAN主要是針對(duì)人類(或脊椎動(dòng)物)基因組序列設(shè)計(jì),主要是針對(duì)人類(或脊椎動(dòng)物)基因組序列設(shè)計(jì),用于其他物種準(zhǔn)確性可能降低。目前有適用于果蠅、玉米、擬用于其他物種準(zhǔn)確性可能降低。目前有適用于果蠅、玉米、擬南芥菜、秀麗線蟲的版本。南芥菜
8、、秀麗線蟲的版本。原核生物和酵母的基因預(yù)測(cè),建議原核生物和酵母的基因預(yù)測(cè),建議用用Glimmer或或GeneMark軟件。軟件。3 根據(jù)測(cè)試集得到的準(zhǔn)確性指標(biāo)可能與實(shí)際的情況不同根據(jù)測(cè)試集得到的準(zhǔn)確性指標(biāo)可能與實(shí)際的情況不同4 對(duì)各個(gè)結(jié)構(gòu)元件的預(yù)測(cè)準(zhǔn)確性不同對(duì)各個(gè)結(jié)構(gòu)元件的預(yù)測(cè)準(zhǔn)確性不同總體來(lái)說(shuō),對(duì)中間外顯子預(yù)測(cè)的準(zhǔn)確性高于起始外顯子和末端總體來(lái)說(shuō),對(duì)中間外顯子預(yù)測(cè)的準(zhǔn)確性高于起始外顯子和末端外顯子,外顯子的準(zhǔn)確性高于外顯子,外顯子的準(zhǔn)確性高于polyA或啟動(dòng)子。對(duì)或啟動(dòng)子。對(duì)啟動(dòng)子啟動(dòng)子的預(yù)的預(yù)測(cè)較不可靠,建議用測(cè)較不可靠,建議用NNPPprogram 預(yù)測(cè)啟動(dòng)子。預(yù)測(cè)啟動(dòng)子。5 植物基因植
9、物基因剪接位點(diǎn)剪接位點(diǎn)的預(yù)測(cè)建議用的預(yù)測(cè)建議用Splice Predictor程序程序GENSCAN可能出現(xiàn)的誤差:可能出現(xiàn)的誤差:11以以人類基因組序列人類基因組序列Z83819 為例進(jìn)行為例進(jìn)行基因預(yù)測(cè)?;蝾A(yù)測(cè)。中國(guó)生物信息中心(中國(guó)生物信息中心(BiosinoBiosino )也提供了也提供了GENSCANGENSCAN的的WebWeb基因預(yù)測(cè)界面基因預(yù)測(cè)界面/pages/lab.htm應(yīng)用實(shí)例應(yīng)用實(shí)例12步驟步驟1 進(jìn)入頁(yè)面,設(shè)置參數(shù)進(jìn)入頁(yè)面,設(shè)置參數(shù)1 1)序列來(lái)源物種;)序列來(lái)源物種;2 2)顯示次優(yōu)外顯子(推薦)顯示次優(yōu)外顯子(推薦0.
10、10.1););3 3)輸出結(jié)果)輸出結(jié)果13步驟步驟2 上傳序列文件或粘貼序列上傳序列文件或粘貼序列可以可以TXT文本格式或文本格式或Fasta格式(格式(*.fasta) 14步驟步驟3 點(diǎn)擊按鈕點(diǎn)擊按鈕Run GENSCAN,開(kāi)始開(kāi)始GENSCAN的預(yù)測(cè)程序,的預(yù)測(cè)程序,獲得預(yù)測(cè)結(jié)果獲得預(yù)測(cè)結(jié)果預(yù)測(cè)的基因和預(yù)測(cè)的基因和外顯子統(tǒng)計(jì)結(jié)外顯子統(tǒng)計(jì)結(jié)果果兩種結(jié)果表示兩種結(jié)果表示形式:形式:1)文字結(jié)果)文字結(jié)果2)圖形化結(jié)果)圖形化結(jié)果15將預(yù)測(cè)出的基將預(yù)測(cè)出的基因翻譯成蛋白因翻譯成蛋白序列序列16文字部分:文字部分:1 1)預(yù)測(cè)出的所有外顯子詳細(xì))預(yù)測(cè)出的所有外顯子詳細(xì)統(tǒng)計(jì)信息統(tǒng)計(jì)信息2 2)
11、開(kāi)放閱讀框序列及其所編碼的氨基酸序列)開(kāi)放閱讀框序列及其所編碼的氨基酸序列3 3)第三部分是對(duì)第一部分結(jié)果中出現(xiàn)的統(tǒng)計(jì))第三部分是對(duì)第一部分結(jié)果中出現(xiàn)的統(tǒng)計(jì)參數(shù)進(jìn)行解釋參數(shù)進(jìn)行解釋圖形結(jié)果:圖形結(jié)果:PDFPDF格式和格式和PS PS 格式格式17Z83819Z83819預(yù)測(cè)結(jié)果預(yù)測(cè)結(jié)果PDFPDF18表頭說(shuō)明表頭說(shuō)明19Z83819-Reversed Z83819-Reversed 預(yù)測(cè)結(jié)果預(yù)測(cè)結(jié)果20如果對(duì)原核生物及酵母的基因組進(jìn)行預(yù)測(cè),建議采用如果對(duì)原核生物及酵母的基因組進(jìn)行預(yù)測(cè),建議采用Glimmer或或GeneMark程序程序http:/genemark.biology.gatech
12、.edu/GeneMark/或或NCBI站點(diǎn)提供的站點(diǎn)提供的Glimmer和和GeneMark/genomes/MICROBES/glimmer_3.cgi/genomes/MICROBES/genemark.cgi21利用相似性搜索的方法來(lái)發(fā)現(xiàn)新基因是目前國(guó)際上另利用相似性搜索的方法來(lái)發(fā)現(xiàn)新基因是目前國(guó)際上另一個(gè)非常通用且成熟的方法。一個(gè)非常通用且成熟的方法。2 相似性比較預(yù)測(cè)比較基因組學(xué):比較基因組學(xué):就是直接通過(guò)比較各個(gè)不同物種就是直接通過(guò)比較各個(gè)不同物種之間的基因組序列來(lái)對(duì)那些進(jìn)化上
13、保守的基因進(jìn)之間的基因組序列來(lái)對(duì)那些進(jìn)化上保守的基因進(jìn)行研究。行研究。通過(guò)對(duì)不同物種來(lái)源的基因組序列進(jìn)行相似性比通過(guò)對(duì)不同物種來(lái)源的基因組序列進(jìn)行相似性比較,以實(shí)現(xiàn)較,以實(shí)現(xiàn)同源新基因同源新基因的快速識(shí)別是的快速識(shí)別是比較基因組比較基因組學(xué)學(xué)的一個(gè)重要研究方向。的一個(gè)重要研究方向。22有有2 2個(gè)重要的軟件可實(shí)現(xiàn)全基因組比較預(yù)測(cè)個(gè)重要的軟件可實(shí)現(xiàn)全基因組比較預(yù)測(cè)1 1) SGP-1SGP-1SGP-1SGP-1是德國(guó)是德國(guó)Max PlanckMax Planck研究所生物信息學(xué)小組開(kāi)發(fā)的同研究所生物信息學(xué)小組開(kāi)發(fā)的同源基因預(yù)測(cè)程序。源基因預(yù)測(cè)程序。http:/jakob.genetik.uni
14、-koeln.de/bioinformatik/software/sgp-1/2)VISTA2)VISTAVISTAVISTA是美國(guó)伯克利國(guó)家實(shí)驗(yàn)室開(kāi)發(fā)的一個(gè)基因比對(duì)工具。是美國(guó)伯克利國(guó)家實(shí)驗(yàn)室開(kāi)發(fā)的一個(gè)基因比對(duì)工具。/vista/index.shtml23主要區(qū)別:主要區(qū)別:SPG-1SPG-1能同時(shí)對(duì)基因組序列進(jìn)行外顯子預(yù)測(cè)后再進(jìn)行同源性能同時(shí)對(duì)基因組序列進(jìn)行外顯子預(yù)測(cè)后再進(jìn)行同源性比較。比較。尤其適用于比較兩個(gè)完全未知的基因組序列尤其適用于比較兩個(gè)完全未知的基因組序列。VISTAVISTA則要求提供一個(gè)所謂的基礎(chǔ)物種的基因組序列結(jié)構(gòu)信則要求提供一個(gè)
15、所謂的基礎(chǔ)物種的基因組序列結(jié)構(gòu)信息,然后在此基礎(chǔ)上來(lái)預(yù)測(cè)其他物種的基因組序列中高度息,然后在此基礎(chǔ)上來(lái)預(yù)測(cè)其他物種的基因組序列中高度同源的基因結(jié)構(gòu)。同源的基因結(jié)構(gòu)。尤其適用于預(yù)測(cè)已知某個(gè)物種的基因在尤其適用于預(yù)測(cè)已知某個(gè)物種的基因在其它物種基因組中的同源基因其它物種基因組中的同源基因。24SGP-1SGP-1主頁(yè)主頁(yè)25VISTAVISTA主頁(yè)主頁(yè)26VISTAVISTA比較預(yù)測(cè)頁(yè)面比較預(yù)測(cè)頁(yè)面27除了基因組序列,目前最容易得到的也是信息量最除了基因組序列,目前最容易得到的也是信息量最大的基因鑒定數(shù)據(jù)來(lái)源就是各個(gè)物種的表達(dá)序列標(biāo)大的基因鑒定數(shù)據(jù)來(lái)源就是各個(gè)物種的表達(dá)序列標(biāo)簽(簽(ESTEST)
16、數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)。這一方法又稱為基因的這一方法又稱為基因的電子克隆電子克隆或電子延伸?;螂娮友由?。三、從三、從EST鑒定新基因鑒定新基因概念:概念: EST(EspressedEST(Espressed Sequence Tag Sequence Tag,表達(dá)序列標(biāo)簽表達(dá)序列標(biāo)簽) )指在進(jìn)行指在進(jìn)行cDNAcDNA序列測(cè)定過(guò)程中所獲得的序列片段(序列測(cè)定過(guò)程中所獲得的序列片段(200-600200-600bpbp) )。它們它們代表了代表了mRNAmRNA序列的一部分,也代表了相應(yīng)基因的表達(dá)情況。序列的一部分,也代表了相應(yīng)基因的表達(dá)情況。 28其基本過(guò)程是:其基本過(guò)程是:將待分析的序列(稱為種
17、子序列)用將待分析的序列(稱為種子序列)用BlastBlast搜索搜索ESTEST數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù),選擇與種子序列具有較高同源性的選擇與種子序列具有較高同源性的ESTEST序列(序列(一般要求在重一般要求在重疊疊4040個(gè)堿基范圍內(nèi)有個(gè)堿基范圍內(nèi)有9595以上同源性,稱為匹配序列以上同源性,稱為匹配序列)將匹配序列與種子序列裝配成新生序列,此過(guò)程稱為將匹配序列與種子序列裝配成新生序列,此過(guò)程稱為片片段重疊群分析段重疊群分析(contigcontig analysis) analysis)再以此新生序列作為種子序列重復(fù)上述過(guò)程,直至沒(méi)再以此新生序列作為種子序列重復(fù)上述過(guò)程,直至沒(méi)有新的匹配序列入選,
18、從而有新的匹配序列入選,從而生成最后的新生序列生成最后的新生序列。29重疊群(重疊群(contigcontig):):是兩個(gè)或兩個(gè)以上的是兩個(gè)或兩個(gè)以上的ESTEST序列或序列或轉(zhuǎn)錄序列組成的一致序列(轉(zhuǎn)錄序列組成的一致序列(consensus sequence)consensus sequence)對(duì)于一個(gè)新的序列,如何進(jìn)行新基因的鑒定,我們必須對(duì)于一個(gè)新的序列,如何進(jìn)行新基因的鑒定,我們必須首先考慮的幾個(gè)問(wèn)題:首先考慮的幾個(gè)問(wèn)題:1 1)該序列是否可能為新基因?)該序列是否可能為新基因?2 2)該序列是否被包含在某個(gè))該序列是否被包含在某個(gè)ESTEST重疊群?重疊群?3 3)如何進(jìn)行)如何
19、進(jìn)行ESTEST重疊群的拼接和組裝?重疊群的拼接和組裝?4 4)拼接后的一致序列是否為全長(zhǎng))拼接后的一致序列是否為全長(zhǎng)cDNAcDNA? ?301 1)該序列是否可能為新基因?)該序列是否可能為新基因?采用相似性搜索的方法來(lái)考察新序列代表的基因是否已采用相似性搜索的方法來(lái)考察新序列代表的基因是否已被他人測(cè)序并存儲(chǔ)至被他人測(cè)序并存儲(chǔ)至GenBankGenBank數(shù)據(jù)庫(kù)中。一般地,應(yīng)同時(shí)數(shù)據(jù)庫(kù)中。一般地,應(yīng)同時(shí)在核酸和氨基酸水平上進(jìn)行相似性搜索。在核酸和氨基酸水平上進(jìn)行相似性搜索。如果至少有一個(gè)匹配結(jié)果滿足匹配長(zhǎng)度大于如果至少有一個(gè)匹配結(jié)果滿足匹配長(zhǎng)度大于100100bpbp,序列序列一致性大于一
20、致性大于9595,匹配長(zhǎng)度占新序列總長(zhǎng)度的,匹配長(zhǎng)度占新序列總長(zhǎng)度的8080以上,以上,說(shuō)明該序列代表的基因序列已被收錄入說(shuō)明該序列代表的基因序列已被收錄入GenBankGenBank中。中。312 2)該序列是否被包含在某個(gè))該序列是否被包含在某個(gè)ESTEST重疊群?重疊群?由于目前基于由于目前基于ESTEST的計(jì)算機(jī)克隆是在的計(jì)算機(jī)克隆是在ESTEST重疊群基礎(chǔ)上進(jìn)重疊群基礎(chǔ)上進(jìn)行的,因此如果一個(gè)實(shí)驗(yàn)中所獲得序列在行的,因此如果一個(gè)實(shí)驗(yàn)中所獲得序列在ESTEST數(shù)據(jù)庫(kù)中找數(shù)據(jù)庫(kù)中找不到任何部分相似的不到任何部分相似的ESTEST,那么就意味著無(wú)法構(gòu)建相應(yīng)的那么就意味著無(wú)法構(gòu)建相應(yīng)的ESTE
21、ST重疊群,從而也不能進(jìn)一步進(jìn)行計(jì)算機(jī)克隆。重疊群,從而也不能進(jìn)一步進(jìn)行計(jì)算機(jī)克隆。由于由于ESTEST數(shù)據(jù)庫(kù)海量增長(zhǎng),這種可能性很小。數(shù)據(jù)庫(kù)海量增長(zhǎng),這種可能性很小。兩種方法建立重疊群兩種方法建立重疊群(1 1)利用)利用BlastnBlastn直接搜索直接搜索ESTEST,對(duì)于獲得的對(duì)于獲得的ESTEST重疊群可重疊群可利用拼接程序進(jìn)行人工拼接,得到一致序列。利用拼接程序進(jìn)行人工拼接,得到一致序列。(2 2)直接利用)直接利用UniGeneUniGene數(shù)據(jù)庫(kù)的衍生數(shù)據(jù)庫(kù)如數(shù)據(jù)庫(kù)的衍生數(shù)據(jù)庫(kù)如GenexpressGenexpress IndexIndex、GeneNestGeneNest系
22、統(tǒng)、系統(tǒng)、TIGRTIGR的的THCTHC等,將獲等,將獲得的得的ESTEST重疊群自動(dòng)拼接得到一致序列。重疊群自動(dòng)拼接得到一致序列。323 3)如何進(jìn)行)如何進(jìn)行ESTEST重疊群的拼接和組裝?重疊群的拼接和組裝?(1)(1)人工拼接程序:人工拼接程序:CAP(contigCAP(contig assembly program) assembly program)該程序是中國(guó)人所編制的序列拼接工具,最早出于該程序是中國(guó)人所編制的序列拼接工具,最早出于19921992年。目前的版本是年。目前的版本是CAP4CAP4,已成為世界上許多測(cè)序已成為世界上許多測(cè)序中心首選的序列拼接工具。中心首選的序列
23、拼接工具。 http:/pbil.univ-lyon1.fr/cap3.php(2)(2)自動(dòng)拼接程序:自動(dòng)拼接程序:GeneNestGeneNest系統(tǒng),系統(tǒng),http:/genenest.molgen.mpg.de/33CAP3CAP3拼接程序拼接程序序列格式要求:序列格式要求:1 1)必須為)必須為FastaFasta格式格式2 2)序列中不能有數(shù)字和)序列中不能有數(shù)字和空格??崭?。34拼接結(jié)果拼接結(jié)果35雙序列比對(duì)結(jié)果,兩條序列雙序列比對(duì)結(jié)果,兩條序列100100匹配匹配364 4)拼接后的一致序列是否為全長(zhǎng))拼接后的一致序列是否為全長(zhǎng)cDNAcDNA? ?確定全長(zhǎng)確定全長(zhǎng)cDNAcD
24、NA的策略大致包括對(duì)一致序列進(jìn)行的策略大致包括對(duì)一致序列進(jìn)行轉(zhuǎn)錄起始轉(zhuǎn)錄起始位點(diǎn)區(qū)、第一個(gè)起始密碼子、位點(diǎn)區(qū)、第一個(gè)起始密碼子、KozakKozak規(guī)則、開(kāi)放閱讀框、規(guī)則、開(kāi)放閱讀框、終止密碼子和終止密碼子和33端端UTRUTR中的中的polyApolyA加尾信號(hào)加尾信號(hào)等的基因特征等的基因特征序列的確認(rèn)。序列的確認(rèn)。KozakKozak規(guī)則規(guī)則:該規(guī)則是基于真核基因結(jié)構(gòu)的分析統(tǒng)計(jì)結(jié)果。:該規(guī)則是基于真核基因結(jié)構(gòu)的分析統(tǒng)計(jì)結(jié)果。第一個(gè)起始密碼子第一個(gè)起始密碼子ATGATG側(cè)翼序列的堿基分布所滿足的統(tǒng)計(jì)規(guī)律,側(cè)翼序列的堿基分布所滿足的統(tǒng)計(jì)規(guī)律,若第一個(gè)若第一個(gè)ATGATG中的堿基中的堿基A A、
25、T T、G G分別標(biāo)為分別標(biāo)為1 1、2 2、3 3位,則位,則KozakKozak規(guī)規(guī)則可描述如下:第則可描述如下:第4 4位的偏好堿基為位的偏好堿基為G G;ATGATG的的55端約端約1515bpbp范圍的側(cè)翼序列內(nèi)不含堿基范圍的側(cè)翼序列內(nèi)不含堿基T T;在在-3-3,-6-6,和,和-9-9位置,位置,G G為偏為偏好堿基;除好堿基;除-3-3,-6-6,和,和-9-9位,在整個(gè)側(cè)翼序列區(qū),位,在整個(gè)側(cè)翼序列區(qū),C C是偏好堿是偏好堿基。基。4.4 非編碼區(qū)分析與調(diào)非編碼區(qū)分析與調(diào)控元件識(shí)別控元件識(shí)別38真核生物基因序列中,絕大部分序列是非編碼序真核生物基因序列中,絕大部分序列是非編碼
26、序列。人類基因組中,僅有列。人類基因組中,僅有3 3的序列為編碼序列。的序列為編碼序列。非編碼序列并非沒(méi)有生物意義,相反這部分序列非編碼序列并非沒(méi)有生物意義,相反這部分序列中蘊(yùn)藏著大量的信息,這些信息主要是與中蘊(yùn)藏著大量的信息,這些信息主要是與基因的基因的表達(dá)調(diào)控表達(dá)調(diào)控密切相關(guān),因而對(duì)這部分序列的研究吸密切相關(guān),因而對(duì)這部分序列的研究吸引著越來(lái)越多的生物學(xué)家參與其中。引著越來(lái)越多的生物學(xué)家參與其中。39真核生物基因表達(dá)在時(shí)間和空間上的有序性已吸引越來(lái)真核生物基因表達(dá)在時(shí)間和空間上的有序性已吸引越來(lái)越多的科學(xué)家,并成為越多的科學(xué)家,并成為2020世紀(jì)世紀(jì)9090年代以來(lái)分子生物學(xué)研年代以來(lái)分子
27、生物學(xué)研究最為活躍的領(lǐng)域之一。究最為活躍的領(lǐng)域之一。真核生物真核生物基因調(diào)控基因調(diào)控瞬時(shí)調(diào)控瞬時(shí)調(diào)控(可逆調(diào)控),相當(dāng)于原核(可逆調(diào)控),相當(dāng)于原核細(xì)胞對(duì)環(huán)境條件變化作出的反應(yīng)。細(xì)胞對(duì)環(huán)境條件變化作出的反應(yīng)。發(fā)育調(diào)控發(fā)育調(diào)控(不可逆調(diào)控),是真核基(不可逆調(diào)控),是真核基因調(diào)控的精髓部分,它決定了核細(xì)胞因調(diào)控的精髓部分,它決定了核細(xì)胞生長(zhǎng)、分化、發(fā)育的全部過(guò)程。生長(zhǎng)、分化、發(fā)育的全部過(guò)程。40啟動(dòng)子啟動(dòng)子是指確保轉(zhuǎn)錄精確而有效地起始的是指確保轉(zhuǎn)錄精確而有效地起始的DNADNA序列。序列?;蛘{(diào)控按其發(fā)生時(shí)間的先后順序以可分為:轉(zhuǎn)錄水基因調(diào)控按其發(fā)生時(shí)間的先后順序以可分為:轉(zhuǎn)錄水平調(diào)控、轉(zhuǎn)錄后水
28、平調(diào)控、翻譯水平調(diào)控和蛋白質(zhì)加平調(diào)控、轉(zhuǎn)錄后水平調(diào)控、翻譯水平調(diào)控和蛋白質(zhì)加工水平調(diào)控。工水平調(diào)控?;蚪M序列中啟動(dòng)子的存在與否以及含有何種啟動(dòng)基因組序列中啟動(dòng)子的存在與否以及含有何種啟動(dòng)子對(duì)于了解相應(yīng)基因的轉(zhuǎn)錄調(diào)控具有重要意義。子對(duì)于了解相應(yīng)基因的轉(zhuǎn)錄調(diào)控具有重要意義。某些某些保守的功能區(qū)保守的功能區(qū)如如啟動(dòng)子啟動(dòng)子、增強(qiáng)子增強(qiáng)子、轉(zhuǎn)錄因子結(jié)轉(zhuǎn)錄因子結(jié)合位點(diǎn)合位點(diǎn)、內(nèi)含子與外顯子、內(nèi)含子與外顯子剪接位點(diǎn)剪接位點(diǎn)等都可通過(guò)生物等都可通過(guò)生物信息學(xué)技術(shù)分析。信息學(xué)技術(shù)分析。41重復(fù)序列重復(fù)序列是指在基因組中不同位置出現(xiàn)的相同或?qū)κ侵冈诨蚪M中不同位置出現(xiàn)的相同或?qū)ΨQ性片段,相同包括同一個(gè)基因組中
29、相似的片段,稱性片段,相同包括同一個(gè)基因組中相似的片段,也可以是不同物種間基因組中的相似片段。也可以是不同物種間基因組中的相似片段?,F(xiàn)象:從原核生物到真核生物,其基因組中現(xiàn)象:從原核生物到真核生物,其基因組中的重復(fù)序列呈遞增趨勢(shì)。的重復(fù)序列呈遞增趨勢(shì)。功能:重復(fù)序列主要參與到功能:重復(fù)序列主要參與到順式調(diào)控元件順式調(diào)控元件、表表觀遺傳修飾觀遺傳修飾、染色質(zhì)的重建染色質(zhì)的重建等重要程序中。等重要程序中。一、基因組重復(fù)序列分析一、基因組重復(fù)序列分析42真核生物中各種重復(fù)序列所占比例很高。真核生物中各種重復(fù)序列所占比例很高。RepBase,是真核生物是真核生物DNADNA中重復(fù)序列數(shù)據(jù)庫(kù),由中重復(fù)序
30、列數(shù)據(jù)庫(kù),由遺傳信息研究所(遺傳信息研究所(Genetic Information Research Genetic Information Research InstituteInstitute,GIRI)GIRI)維護(hù)。維護(hù)。/repbase/index.htmlCensor,是是RepBaseRepBase提供的重復(fù)序列檢查工具。提供的重復(fù)序列檢查工具。著名的著名的RepeatMasker程序就是基于該數(shù)據(jù)庫(kù)工作程序就是基于該數(shù)據(jù)庫(kù)工作的重復(fù)序列分析工具。的重復(fù)序列分析工具。http:/ftp,/cgi-
31、bin/repeatmasker43RepbaseRepbase數(shù)據(jù)庫(kù)主頁(yè)數(shù)據(jù)庫(kù)主頁(yè)44CensorCensor主頁(yè)主頁(yè) /censor/45啟動(dòng)子(啟動(dòng)子(promoterpromoter):DNADNA分子上能與分子上能與RNARNA聚合酶結(jié)合聚合酶結(jié)合并形成轉(zhuǎn)錄起始復(fù)合體的區(qū)域,在許多情況下,還包并形成轉(zhuǎn)錄起始復(fù)合體的區(qū)域,在許多情況下,還包括促進(jìn)這一過(guò)程的調(diào)節(jié)蛋白的結(jié)合位點(diǎn)。括促進(jìn)這一過(guò)程的調(diào)節(jié)蛋白的結(jié)合位點(diǎn)。二、基因啟動(dòng)子分析二、基因啟動(dòng)子分析啟動(dòng)子是基因(啟動(dòng)子是基因(genegene)的一個(gè)組成部分,控制基因表達(dá)的一個(gè)組成部分,控制基因表
32、達(dá)(轉(zhuǎn)錄)的起始時(shí)間和表達(dá)的程度。啟動(dòng)子就像(轉(zhuǎn)錄)的起始時(shí)間和表達(dá)的程度。啟動(dòng)子就像“開(kāi)開(kāi)關(guān)關(guān)”,決定基因的活動(dòng)。啟動(dòng)子本身并不控制基因活動(dòng),決定基因的活動(dòng)。啟動(dòng)子本身并不控制基因活動(dòng),而是通過(guò)而是通過(guò)轉(zhuǎn)錄因子轉(zhuǎn)錄因子(一種蛋白質(zhì))結(jié)合而控制基因活動(dòng)(一種蛋白質(zhì))結(jié)合而控制基因活動(dòng)的。轉(zhuǎn)錄因子就像一面的。轉(zhuǎn)錄因子就像一面“旗子旗子”,指揮著酶,指揮著酶 (RNA(RNA聚合聚合酶酶polymerases) polymerases) 的活動(dòng)。的活動(dòng)。 46EPD(EukaryoticEPD(Eukaryotic Promoter Database Promoter Database),),真核生物啟動(dòng)子數(shù)據(jù)庫(kù)真核生物啟動(dòng)子數(shù)據(jù)庫(kù)http:/www.epd.isb-sib.ch/已注釋的非冗余真核生物已注釋的非冗余真核生物RNAR
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 隴南固化地面施工方案
- 混凝土底板無(wú)縫施工方案
- 細(xì)部平整施工方案
- 2025年神奇腦動(dòng)力測(cè)試題及答案
- cma檢測(cè)證書申請(qǐng)條件
- 4年級(jí)上冊(cè)數(shù)學(xué)第五單元重要知識(shí)點(diǎn)
- 屋面貼磚施工方案
- 習(xí)作:一個(gè)好地方 課件-【知識(shí)精研】統(tǒng)編版四年級(jí)語(yǔ)文上冊(cè)
- 2025年韶關(guān)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)一套
- 某公司風(fēng)電項(xiàng)目開(kāi)發(fā)前期工作流程圖
- GB 18265-2019危險(xiǎn)化學(xué)品經(jīng)營(yíng)企業(yè)安全技術(shù)基本要求
- 作業(yè)層隊(duì)伍建設(shè)重點(diǎn)業(yè)務(wù)課件
- DB31T 685-2019 養(yǎng)老機(jī)構(gòu)設(shè)施與服務(wù)要求
- 二年級(jí)下冊(cè)美術(shù)教案-第5課 美麗的花園|嶺南版
- 人類進(jìn)化史精品課件
- 魯濱遜漂流記讀后感PPT
- 總包單位向門窗單位移交門窗安裝工程工作面交接單
- 設(shè)備供貨安裝方案(通用版)
- 公開(kāi)招聘社區(qū)居委專職工作人員考試筆試、面試題集及相關(guān)知識(shí)(11套試題含答案)
- 中國(guó)藥膳理論與實(shí)踐-藥膳基本理論和技能
評(píng)論
0/150
提交評(píng)論