第四章 核酸序列分析-2_第1頁(yè)
第四章 核酸序列分析-2_第2頁(yè)
第四章 核酸序列分析-2_第3頁(yè)
第四章 核酸序列分析-2_第4頁(yè)
第四章 核酸序列分析-2_第5頁(yè)
已閱讀5頁(yè),還剩51頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第四章DNA序列分析1主要內(nèi)容§4.1引言§4.2序列的一般分析§4.3基因預(yù)測(cè)與鑒定§4.4非編碼區(qū)分析與調(diào)控元件識(shí)別2§4.3基因預(yù)測(cè)與鑒定3功能基因組學(xué)(Functionalgenomics):利用結(jié)構(gòu)基因組學(xué)研究所得的各種信息在基因組水平上研究編碼序列及非編碼序列生物學(xué)功能的學(xué)科?;蚪M學(xué)(genomics):研究生物體全基因組DNA的序列和屬性的學(xué)科。包括結(jié)構(gòu)基因組學(xué)和功能基因組學(xué)兩個(gè)方面。4一、基因預(yù)測(cè)方法基因預(yù)測(cè)方法包括兩類:1從基因組序列入手,識(shí)別基因2基于表達(dá)序列標(biāo)簽(EST)的基因鑒定從整體到局部從局部到整體目前還沒(méi)有一個(gè)基因預(yù)測(cè)工具可以完全正確地預(yù)測(cè)一個(gè)基因組中的所有基因(Matheetal.2002)5二、從基因組序列預(yù)測(cè)新基因從基因組預(yù)測(cè)新基因的方法大體上又可分為兩類:1)從頭預(yù)測(cè)法2)相似性比較預(yù)測(cè)法隨著HGP和其他模式生物基因組測(cè)序計(jì)劃的進(jìn)行,大量的基因組序列數(shù)據(jù)隨之產(chǎn)生,接下來(lái)一個(gè)重要的課題就是如何從這些序列中找到可能具有編碼產(chǎn)物的功能基因。6概念:是指直接利用基因以及外顯子/內(nèi)含子結(jié)構(gòu)在基因序列上已知的一些統(tǒng)計(jì)特征或信號(hào),在基因組序列中直接預(yù)測(cè)基因的位置與組成。方法及常用軟件:1以隱馬爾可夫模式為基礎(chǔ)的算法:GENSCAN、Genie、HMMgene、Veil2以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的算法:GrailⅡ、GrailEXP_Perceval3以決策樹(shù)為基礎(chǔ)的算法:MZEF、MZEF-SPC4整合預(yù)測(cè)方法:FgeneH5其它算法:GeneID、GeneVeiw1從頭預(yù)測(cè)(ab

initioprediction

):7GENSCAN基因預(yù)測(cè)程序GENSCAN是美國(guó)麻省理工大學(xué)(MassachusettsInstituteofTechnology,縮寫:MIT)的ChristopherBurge于1997年開(kāi)發(fā)成功的人類(包括脊椎動(dòng)物)基因預(yù)測(cè)軟件。2001年又推出了升級(jí)版預(yù)測(cè)軟件Genomescan。后者整合了從頭預(yù)測(cè)和相似性搜索兩種觀測(cè)方法。(http:///GENSCAN.html)GENSCAN是目前“從頭”預(yù)測(cè)算法中應(yīng)用最廣泛,尤其是對(duì)基因編碼區(qū)預(yù)測(cè)最為成功的軟件之一。NCBI開(kāi)發(fā)的參考序列(RefSeq)數(shù)據(jù)庫(kù)采用Genomescan,而EMBL開(kāi)發(fā)的ENSEMBL采用GENSCAN8目前Christopher

Burge還開(kāi)發(fā)了適用于果蠅、擬南芥、玉米的專用版本。對(duì)于非版本專用的物種,其預(yù)測(cè)準(zhǔn)確率會(huì)下降。

用脊椎動(dòng)物版本進(jìn)行基因預(yù)測(cè)的準(zhǔn)確率

91基因數(shù)目

可能將兩個(gè)基因的外顯子歸并到一個(gè)基因,或者相反。2物種

GENSCAN主要是針對(duì)人類(或脊椎動(dòng)物)基因組序列設(shè)計(jì),用于其他物種準(zhǔn)確性可能降低。目前有適用于果蠅、玉米、擬南芥菜、秀麗線蟲(chóng)的版本。原核生物和酵母的基因預(yù)測(cè),建議用Glimmer或GeneMark軟件。3根據(jù)測(cè)試集得到的準(zhǔn)確性指標(biāo)可能與實(shí)際的情況不同4對(duì)各個(gè)結(jié)構(gòu)元件的預(yù)測(cè)準(zhǔn)確性不同

總體來(lái)說(shuō),對(duì)中間外顯子預(yù)測(cè)的準(zhǔn)確性高于起始外顯子和末端外顯子,外顯子的準(zhǔn)確性高于polyA或啟動(dòng)子。對(duì)啟動(dòng)子的預(yù)測(cè)較不可靠,建議用NNPPprogram

預(yù)測(cè)啟動(dòng)子。5植物基因剪接位點(diǎn)的預(yù)測(cè)建議用SplicePredictor程序GENSCAN可能出現(xiàn)的誤差:10以人類基因組序列Z83819

為例進(jìn)行基因預(yù)測(cè)。中國(guó)生物信息中心(Biosino)也提供了GENSCAN的Web基因預(yù)測(cè)界面http:///pages/lab.htm應(yīng)用實(shí)例11步驟1進(jìn)入頁(yè)面,設(shè)置參數(shù)1)序列來(lái)源物種;2)顯示次優(yōu)外顯子(推薦0.1);3)輸出結(jié)果12步驟2上傳序列文件或粘貼序列可以TXT文本格式或Fasta格式(*.fasta)13步驟3點(diǎn)擊按鈕RunGENSCAN,開(kāi)始GENSCAN的預(yù)測(cè)程序,獲得預(yù)測(cè)結(jié)果預(yù)測(cè)的基因和外顯子統(tǒng)計(jì)結(jié)果兩種結(jié)果表示形式:1)文字結(jié)果2)圖形化結(jié)果14將預(yù)測(cè)出的基因翻譯成蛋白序列15文字部分:1)預(yù)測(cè)出的所有外顯子詳細(xì)統(tǒng)計(jì)信息2)開(kāi)放閱讀框序列及其所編碼的氨基酸序列3)第三部分是對(duì)第一部分結(jié)果中出現(xiàn)的統(tǒng)計(jì)參數(shù)進(jìn)行解釋圖形結(jié)果:PDF格式和PS格式16Z83819預(yù)測(cè)結(jié)果PDF17表頭說(shuō)明18Z83819-Reversed預(yù)測(cè)結(jié)果19如果對(duì)原核生物及酵母的基因組進(jìn)行預(yù)測(cè),建議采用Glimmer或GeneMark程序http:///GeneMark/或NCBI站點(diǎn)提供的Glimmer和GeneMark/genomes/MICROBES/glimmer_3.cgihttp:///genomes/MICROBES/genemark.cgi20利用相似性搜索的方法來(lái)發(fā)現(xiàn)新基因是目前國(guó)際上另一個(gè)非常通用且成熟的方法。2相似性比較預(yù)測(cè)比較基因組學(xué):就是直接通過(guò)比較各個(gè)不同物種之間的基因組序列來(lái)對(duì)那些進(jìn)化上保守的基因進(jìn)行研究。通過(guò)對(duì)不同物種來(lái)源的基因組序列進(jìn)行相似性比較,以實(shí)現(xiàn)同源新基因的快速識(shí)別是比較基因組學(xué)的一個(gè)重要研究方向。21有2個(gè)重要的軟件可實(shí)現(xiàn)全基因組比較預(yù)測(cè)1)SGP-1SGP-1是德國(guó)MaxPlanck研究所生物信息學(xué)小組開(kāi)發(fā)的同源基因預(yù)測(cè)程序。http://jakob.genetik.uni-koeln.de/bioinformatik/software/sgp-1/2)VISTAVISTA是美國(guó)伯克利國(guó)家實(shí)驗(yàn)室開(kāi)發(fā)的一個(gè)基因比對(duì)工具。http:///vista/index.shtml22主要區(qū)別:SPG-1能同時(shí)對(duì)基因組序列進(jìn)行外顯子預(yù)測(cè)后再進(jìn)行同源性比較。尤其適用于比較兩個(gè)完全未知的基因組序列。VISTA則要求提供一個(gè)所謂的基礎(chǔ)物種的基因組序列結(jié)構(gòu)信息,然后在此基礎(chǔ)上來(lái)預(yù)測(cè)其他物種的基因組序列中高度同源的基因結(jié)構(gòu)。尤其適用于預(yù)測(cè)已知某個(gè)物種的基因在其它物種基因組中的同源基因。23SGP-1主頁(yè)24VISTA主頁(yè)25VISTA比較預(yù)測(cè)頁(yè)面26除了基因組序列,目前最容易得到的也是信息量最大的基因鑒定數(shù)據(jù)來(lái)源就是各個(gè)物種的表達(dá)序列標(biāo)簽(EST)數(shù)據(jù)庫(kù)。這一方法又稱為基因的電子克隆或電子延伸。三、從EST鑒定新基因概念:

EST(EspressedSequenceTag,表達(dá)序列標(biāo)簽)指在進(jìn)行cDNA序列測(cè)定過(guò)程中所獲得的序列片段(200-600bp)。它們代表了mRNA序列的一部分,也代表了相應(yīng)基因的表達(dá)情況。

27其基本過(guò)程是:將待分析的序列(稱為種子序列)用Blast搜索EST數(shù)據(jù)庫(kù),選擇與種子序列具有較高同源性的EST序列(一般要求在重疊40個(gè)堿基范圍內(nèi)有95%以上同源性,稱為匹配序列)將匹配序列與種子序列裝配成新生序列,此過(guò)程稱為片段重疊群分析(contiganalysis)再以此新生序列作為種子序列重復(fù)上述過(guò)程,直至沒(méi)有新的匹配序列入選,從而生成最后的新生序列。28重疊群(contig):是兩個(gè)或兩個(gè)以上的EST序列或轉(zhuǎn)錄序列組成的一致序列(consensussequence)對(duì)于一個(gè)新的序列,如何進(jìn)行新基因的鑒定,我們必須首先考慮的幾個(gè)問(wèn)題:1)該序列是否可能為新基因?2)該序列是否被包含在某個(gè)EST重疊群?3)如何進(jìn)行EST重疊群的拼接和組裝?4)拼接后的一致序列是否為全長(zhǎng)cDNA?291)該序列是否可能為新基因?采用相似性搜索的方法來(lái)考察新序列代表的基因是否已被他人測(cè)序并存儲(chǔ)至GenBank數(shù)據(jù)庫(kù)中。一般地,應(yīng)同時(shí)在核酸和氨基酸水平上進(jìn)行相似性搜索。如果至少有一個(gè)匹配結(jié)果滿足匹配長(zhǎng)度大于100bp,序列一致性大于95%,匹配長(zhǎng)度占新序列總長(zhǎng)度的80%以上,說(shuō)明該序列代表的基因序列已被收錄入GenBank中。302)該序列是否被包含在某個(gè)EST重疊群?由于目前基于EST的計(jì)算機(jī)克隆是在EST重疊群基礎(chǔ)上進(jìn)行的,因此如果一個(gè)實(shí)驗(yàn)中所獲得序列在EST數(shù)據(jù)庫(kù)中找不到任何部分相似的EST,那么就意味著無(wú)法構(gòu)建相應(yīng)的EST重疊群,從而也不能進(jìn)一步進(jìn)行計(jì)算機(jī)克隆。由于EST數(shù)據(jù)庫(kù)海量增長(zhǎng),這種可能性很小。兩種方法建立重疊群(1)利用Blastn直接搜索EST,對(duì)于獲得的EST重疊群可利用拼接程序進(jìn)行人工拼接,得到一致序列。(2)直接利用UniGene數(shù)據(jù)庫(kù)的衍生數(shù)據(jù)庫(kù)如Genexpress

Index、GeneNest系統(tǒng)、TIGR的THC等,將獲得的EST重疊群自動(dòng)拼接得到一致序列。313)如何進(jìn)行EST重疊群的拼接和組裝?(1)人工拼接程序:CAP(contigassemblyprogram)該程序是中國(guó)人所編制的序列拼接工具,最早出于1992年。目前的版本是CAP4,已成為世界上許多測(cè)序中心首選的序列拼接工具。http://pbil.univ-lyon1.fr/cap3.php(2)自動(dòng)拼接程序:GeneNest系統(tǒng),http://genenest.molgen.mpg.de/32CAP3拼接程序序列格式要求:1)必須為Fasta格式2)序列中不能有數(shù)字和空格。33拼接結(jié)果34雙序列比對(duì)結(jié)果,兩條序列100%匹配354)拼接后的一致序列是否為全長(zhǎng)cDNA?確定全長(zhǎng)cDNA的策略大致包括對(duì)一致序列進(jìn)行轉(zhuǎn)錄起始位點(diǎn)區(qū)、第一個(gè)起始密碼子、Kozak規(guī)則、開(kāi)放閱讀框、終止密碼子和3′端UTR中的polyA加尾信號(hào)等的基因特征序列的確認(rèn)。Kozak規(guī)則:該規(guī)則是基于真核基因結(jié)構(gòu)的分析統(tǒng)計(jì)結(jié)果。第一個(gè)起始密碼子ATG側(cè)翼序列的堿基分布所滿足的統(tǒng)計(jì)規(guī)律,若第一個(gè)ATG中的堿基A、T、G分別標(biāo)為1、2、3位,則Kozak規(guī)則可描述如下:①第4位的偏好堿基為G;②ATG的5′端約15bp范圍的側(cè)翼序列內(nèi)不含堿基T;③在-3,-6,和-9位置,G為偏好堿基;④除-3,-6,和-9位,在整個(gè)側(cè)翼序列區(qū),C是偏好堿基。36§4.4非編碼區(qū)分析與調(diào)控元件識(shí)別37真核生物基因序列中,絕大部分序列是非編碼序列。人類基因組中,僅有3%的序列為編碼序列。非編碼序列并非沒(méi)有生物意義,相反這部分序列中蘊(yùn)藏著大量的信息,這些信息主要是與基因的表達(dá)調(diào)控密切相關(guān),因而對(duì)這部分序列的研究吸引著越來(lái)越多的生物學(xué)家參與其中。38真核生物基因表達(dá)在時(shí)間和空間上的有序性已吸引越來(lái)越多的科學(xué)家,并成為20世紀(jì)90年代以來(lái)分子生物學(xué)研究最為活躍的領(lǐng)域之一。真核生物基因調(diào)控瞬時(shí)調(diào)控(可逆調(diào)控),相當(dāng)于原核細(xì)胞對(duì)環(huán)境條件變化作出的反應(yīng)。發(fā)育調(diào)控(不可逆調(diào)控),是真核基因調(diào)控的精髓部分,它決定了核細(xì)胞生長(zhǎng)、分化、發(fā)育的全部過(guò)程。39啟動(dòng)子是指確保轉(zhuǎn)錄精確而有效地起始的DNA序列?;蛘{(diào)控按其發(fā)生時(shí)間的先后順序以可分為:轉(zhuǎn)錄水平調(diào)控、轉(zhuǎn)錄后水平調(diào)控、翻譯水平調(diào)控和蛋白質(zhì)加工水平調(diào)控。基因組序列中啟動(dòng)子的存在與否以及含有何種啟動(dòng)子對(duì)于了解相應(yīng)基因的轉(zhuǎn)錄調(diào)控具有重要意義。某些保守的功能區(qū)如啟動(dòng)子、增強(qiáng)子、轉(zhuǎn)錄因子結(jié)合位點(diǎn)、內(nèi)含子與外顯子剪接位點(diǎn)等都可通過(guò)生物信息學(xué)技術(shù)分析。40重復(fù)序列是指在基因組中不同位置出現(xiàn)的相同或?qū)ΨQ性片段,相同包括同一個(gè)基因組中相似的片段,也可以是不同物種間基因組中的相似片段?,F(xiàn)象:從原核生物到真核生物,其基因組中的重復(fù)序列呈遞增趨勢(shì)。功能:重復(fù)序列主要參與到順式調(diào)控元件、表觀遺傳修飾、染色質(zhì)的重建等重要程序中。一、基因組重復(fù)序列分析41真核生物中各種重復(fù)序列所占比例很高。RepBase,是真核生物DNA中重復(fù)序列數(shù)據(jù)庫(kù),由遺傳信息研究所(GeneticInformationResearchInstitute,GIRI)維護(hù)。http:///repbase/index.htmlCensor,是RepBase提供的重復(fù)序列檢查工具。著名的RepeatMasker程序就是基于該數(shù)據(jù)庫(kù)工作的重復(fù)序列分析工具。http://ftp,/cgi-bin/repeatmasker42Repbase數(shù)據(jù)庫(kù)主頁(yè)43Censor主頁(yè)http:///censor/44啟動(dòng)子(promoter):DNA分子上能與RNA聚合酶結(jié)合并形成轉(zhuǎn)錄起始復(fù)合體的區(qū)域,在許多情況下,還包括促進(jìn)這一過(guò)程的調(diào)節(jié)蛋白的結(jié)合位點(diǎn)。二、基因啟動(dòng)子分析啟動(dòng)子是基因(gene)的一個(gè)組成部分,控制基因表達(dá)(轉(zhuǎn)錄)的起始時(shí)間和表達(dá)的程度。啟動(dòng)子就像“開(kāi)關(guān)”,決定基因的活動(dòng)。啟動(dòng)子本身并不控制基因活動(dòng),而是通過(guò)轉(zhuǎn)錄因子(一種蛋白質(zhì))結(jié)合而控制基因活動(dòng)的。轉(zhuǎn)錄因子就像一面“旗子”,指揮著酶(RNA聚合酶polymerases)的活動(dòng)。

45EPD(EukaryoticPromoterDatabase),真核生物啟動(dòng)子數(shù)據(jù)庫(kù)http://www.epd.isb-sib.ch/已注釋的非冗余真核生物RNA聚合酶II的啟動(dòng)子數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)中的條目與EMB

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論