演示文稿操作過(guò)程多序列比對(duì)進(jìn)化樹(shù)_第1頁(yè)
演示文稿操作過(guò)程多序列比對(duì)進(jìn)化樹(shù)_第2頁(yè)
演示文稿操作過(guò)程多序列比對(duì)進(jìn)化樹(shù)_第3頁(yè)
演示文稿操作過(guò)程多序列比對(duì)進(jìn)化樹(shù)_第4頁(yè)
演示文稿操作過(guò)程多序列比對(duì)進(jìn)化樹(shù)_第5頁(yè)
已閱讀5頁(yè),還剩167頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

(優(yōu)選)操作過(guò)程多序列比對(duì)進(jìn)化樹(shù)當(dāng)前第1頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)多序列比對(duì)

分子進(jìn)化分析——系統(tǒng)發(fā)生樹(shù)構(gòu)建

核酸序列的預(yù)測(cè)與鑒定

酶切圖譜制作

引物設(shè)計(jì)內(nèi)容當(dāng)前第2頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)多序列比對(duì)當(dāng)前第3頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)內(nèi)容:多序列比對(duì)多序列比對(duì)程序及應(yīng)用當(dāng)前第4頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)第一節(jié)、多序列比對(duì)

(Multiplesequencealignment)概念多序列比對(duì)的意義多序列比對(duì)的打分函數(shù)多序列比對(duì)的方法當(dāng)前第5頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)1、概念多序列比對(duì)(Multiplesequencealignment)alignmultiplerelatedsequencestoachieveoptimalmatchingofthesequences.為了便于描述,對(duì)多序列比對(duì)過(guò)程可以給出下面的定義:把多序列比對(duì)看作一張二維表,表中每一行代表一個(gè)序列,每一列代表一個(gè)殘基的位置。將序列依照下列規(guī)則填入表中:(a)一個(gè)序列所有殘基的相對(duì)位置保持不變;(b)將不同序列間相同或相似的殘基放入同一列,即盡可能將序列間相同或相似殘基上下對(duì)齊(下表)。當(dāng)前第6頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)1234567891ⅠYDGGAV-EALⅡYDGG---EALⅢFEGGILVEALⅣFD-GILVQAVⅤYEGGAVVQAL表1多序列比對(duì)的定義表示五個(gè)短序列(I-V)的比對(duì)結(jié)果。通過(guò)插入空位,使5個(gè)序列中大多數(shù)相同或相似殘基放入同一列,并保持每個(gè)序列殘基順序不變當(dāng)前第7頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)2、多序列比對(duì)的意義用于描述一組序列之間的相似性關(guān)系,以便了解一個(gè)分子家族的基本特征,尋找motif,保守區(qū)域等。用于描述一組同源序列之間的親緣關(guān)系的遠(yuǎn)近,應(yīng)用到分子進(jìn)化分析中。序列同源性分析:是將待研究序列加入到一組與之同源,但來(lái)自不同物種的序列中進(jìn)行多序列同時(shí)比較,以確定該序列與其它序列間的同源性大小。其他應(yīng)用,如構(gòu)建profile,打分矩陣等當(dāng)前第8頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)手工比對(duì)在運(yùn)行經(jīng)過(guò)測(cè)試并具有比較高的可信度的計(jì)算機(jī)程序(輔助編輯軟件如bioedit,seaview,Genedoc等)基礎(chǔ)上,結(jié)合實(shí)驗(yàn)結(jié)果或文獻(xiàn)資料,對(duì)多序列比對(duì)結(jié)果進(jìn)行手工修飾,應(yīng)該說(shuō)是非常必要的。為了便于進(jìn)行交互式手工比對(duì),通常使用不同顏色表示具有不同特性的殘基,以幫助判別序列之間的相似性。計(jì)算機(jī)程序自動(dòng)比對(duì)通過(guò)特定的算法(如窮舉法,啟發(fā)式算法等),由計(jì)算機(jī)程序自動(dòng)搜索最佳的多序列比對(duì)狀態(tài)。3、多序列比對(duì)的方法當(dāng)前第9頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)窮舉法窮舉法(exhaustivealignmentmethod)將序列兩兩比對(duì)時(shí)的二維動(dòng)態(tài)規(guī)劃矩陣擴(kuò)展到多維矩陣。即用矩陣的維數(shù)來(lái)反映比對(duì)的序列數(shù)目。這種方法的計(jì)算量很大,對(duì)于計(jì)算機(jī)系統(tǒng)的資源要求比較高,一般只有在進(jìn)行少數(shù)的較短的序列的比對(duì)的時(shí)候才會(huì)用到這個(gè)方法DCA(Divide-and-ConquerAlignment):aweb-basedprogramthatissemiexhaustive當(dāng)前第10頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)啟發(fā)式算法啟發(fā)式算法(heuristicalgorithms):大多數(shù)實(shí)用的多序列比對(duì)程序采用啟發(fā)式算法(heuristicalgorithms),以降低運(yùn)算復(fù)雜度。隨著序列數(shù)量的增加,算法復(fù)雜性也不斷增加。用O(m1m2m3…mn)表示對(duì)n個(gè)序列進(jìn)行比對(duì)時(shí)的算法復(fù)雜性,其中mn是最后一條序列的長(zhǎng)度。若序列長(zhǎng)度相差不大,則可簡(jiǎn)化成O(mn),其中n表示序列的數(shù)目,m表示序列的長(zhǎng)度。顯然,隨著序列數(shù)量的增加,序列比對(duì)的算法復(fù)雜性按指數(shù)規(guī)律增長(zhǎng)。當(dāng)前第11頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)第二節(jié)多序列比對(duì)程序及應(yīng)用ProgressiveAlignmentMethodIterativeAlignmentBlock-BasedAlignmentDNASTARDNAMAN當(dāng)前第12頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)1、ProgressiveAlignmentMethodClustal:Clustal,是由Feng和Doolittle于1987年提出的。Clustal程序有許多版本ClustalW(Thompson等,1994)是目前使用最廣泛的多序列比對(duì)程序它的PC版本是ClustalX作為程序的一部分,Clustal可以輸出用于構(gòu)建進(jìn)化樹(shù)的數(shù)據(jù)。當(dāng)前第13頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)ClustalW程序:ClustalW程序可以自由使用在NCBI/EBI的FTP服務(wù)器上可以找到下載的軟件包。ClustalW程序用選項(xiàng)單逐步指導(dǎo)用戶(hù)進(jìn)行操作,用戶(hù)可根據(jù)需要選擇打分矩陣、設(shè)置空位罰分等。

EBI的主頁(yè)還提供了基于Web的ClustalW服務(wù),用戶(hù)可以把序列和各種要求通過(guò)表單提交到服務(wù)器上,服務(wù)器把計(jì)算的結(jié)果用Email返回用戶(hù)(或在線(xiàn)交互使用)。ProgressiveAlignmentMethod當(dāng)前第14頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)ClustalW程序ClustalW對(duì)輸入序列的格式比較靈活,可以是FASTA格式,還可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。輸出格式也可以選擇,有ALN、GCG、PHYLIP和GDE等,用戶(hù)可以根據(jù)自己的需要選擇合適的輸出格式。用ClustalW得到的多序列比對(duì)結(jié)果中,所有序列排列在一起,并以特定的符號(hào)代表各個(gè)位點(diǎn)上殘基的保守性,“*”號(hào)表示保守性極高的殘基位點(diǎn);“.”號(hào)代表保守性略低的殘基位點(diǎn)。ProgressiveAlignmentMethod當(dāng)前第15頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)ClustalW

使用輸入地址:設(shè)置選項(xiàng)(next)ProgressiveAlignmentMethod當(dāng)前第16頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)ClustalW

使用一些選項(xiàng)說(shuō)明PHYLOGENETICTREE有三個(gè)選項(xiàng)

TREETYPE:構(gòu)建系統(tǒng)發(fā)育樹(shù)的算法,有四個(gè)個(gè)選擇none、nj(neighbourjoining)、phylip、distCORRECTDIST:決定是否做距離修正。對(duì)于小的序列歧異(<10%),選擇與否不會(huì)產(chǎn)生差異;對(duì)于大的序列歧異,需做出修正。因?yàn)橛^(guān)察到的距離要比真實(shí)的進(jìn)化距離低。IGNOREGAPS:選擇on,序列中的任何空位將被忽視。詳細(xì)說(shuō)明參見(jiàn)ProgressiveAlignmentMethod當(dāng)前第17頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)ClustalW

使用輸入5個(gè)16SRNA基因序列AF310602AF308147AF283499AF012090AF447394點(diǎn)擊“RUN”P(pán)rogressiveAlignmentMethod當(dāng)前第18頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)ProgressiveAlignmentMethodT-Coffee(Tree-basedConsistencyObjectiveFunctionforalignmentEvaluation):ProgressivealignmentmethodInprocessingaquery,T-Coffeeperformsbothglobalandlocalpairwisealignmentforallpossiblepairsinvolved.Adistancematrixisbuilttoderiveaguidetree,whichisthenusedtodirectafullmultiplealignmentusingtheprogressiveapproach.OutperformsClustalwhenaligningmoderatelydivergentsequencesSlowerthanClustal當(dāng)前第19頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)ProgressiveAlignmentMethodPRALINE:web-based:

FirstbuildprofilesforeachsequenceusingPSI-BLASTdatabasesearching.Eachprofileisthenusedformultiplealignmentusingtheprogressiveapproach.theclosestneighbortobejoinedtoalargeralignmentbycomparingtheprofilescoresdoesnotuseaguidetreeIncorporateproteinsecondarystructureinformationtomodifytheprofilescores.Perhapsthemostsophisticatedandaccuratealignmentprogramavailable.Extremelyslowcomputation.當(dāng)前第20頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)ProgressiveAlignmentMethodDbClustal:http://igbmc.u-strasbg.fr:8080/DbClustal/dbclustal.htmlPoa(Partialorderalignments):當(dāng)前第21頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)2、IterativeAlignmentPRRN:web-basedprogramUsesadoublenestediterativestrategyformultiplealignment.Basedontheideathatanoptimalsolutioncanbefoundbyrepeatedlymodifyingexistingsuboptimalsolutions當(dāng)前第22頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)Block-BasedAlignmentDIALIGN2:awebbasedprogramItplacesemphasisonblock-to-blockcomparisonratherthanresidue-to-residuecomparison.Thesequenceregionsbetweentheblocksareleftunaligned.Theprogramhasbeenshowntobeespeciallysuitableforaligningdivergentsequenceswithonlylocalsimilarity.當(dāng)前第23頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)Block-BasedAlignmentMatch-Box:web-basedserverAimstoidentifyconservedblocks(orboxes)amongsequences.TheserverrequirestheusertosubmitasetofsequencesintheFASTAformatandtheresultsarereturnedbye-mail.當(dāng)前第24頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)DNASTARDNAMAN軟件:當(dāng)前第25頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)分子進(jìn)化分析——系統(tǒng)發(fā)生樹(shù)構(gòu)建當(dāng)前第26頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)本章內(nèi)容:分子進(jìn)化分析介紹系統(tǒng)發(fā)生樹(shù)構(gòu)建方法系統(tǒng)發(fā)生樹(shù)構(gòu)建實(shí)例當(dāng)前第27頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)第一節(jié)分子進(jìn)化分析介紹基本概念:系統(tǒng)發(fā)生(phylogeny)——是指生物形成或進(jìn)化的歷史系統(tǒng)發(fā)生學(xué)(phylogenetics)——研究物種之間的進(jìn)化關(guān)系系統(tǒng)發(fā)生樹(shù)(phylogenetictree)——表示形式,描述物種之間進(jìn)化關(guān)系當(dāng)前第28頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)分子進(jìn)化研究的目的從物種的一些分子特性出發(fā),從而了解物種之間的生物系統(tǒng)發(fā)生的關(guān)系。蛋白和核酸序列通過(guò)序列同源性的比較進(jìn)而了解基因的進(jìn)化以及生物系統(tǒng)發(fā)生的內(nèi)在規(guī)律分子進(jìn)化分析介紹當(dāng)前第29頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)分子進(jìn)化分析介紹分子進(jìn)化研究的基礎(chǔ)基本理論:在各種不同的發(fā)育譜系及足夠大的進(jìn)化時(shí)間尺度中,許多序列的進(jìn)化速率幾乎是恒定不變的。(分子鐘理論,Molecularclock

1965)實(shí)際情況:雖然很多時(shí)候仍然存在爭(zhēng)議,但是分子進(jìn)化確實(shí)能闡述一些生物系統(tǒng)發(fā)生的內(nèi)在規(guī)律當(dāng)前第30頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)分子進(jìn)化分析介紹直系同源與旁系同源Orthologs(直系同源):Homologoussequencesindifferentspeciesthatarosefromacommonancestralgeneduringspeciation;mayormaynotberesponsibleforasimilarfunction.Paralogs(旁系同源):Homologoussequenceswithinasinglespeciesthatarosebygeneduplication.。以上兩個(gè)概念代表了兩個(gè)不同的進(jìn)化事件。用于分子進(jìn)化分析中的序列必須是直系同源的,才能真實(shí)反映進(jìn)化過(guò)程。當(dāng)前第31頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)分子進(jìn)化分析介紹當(dāng)前第32頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)分子進(jìn)化分析介紹系統(tǒng)發(fā)生樹(shù)(phylogenetictree):又名進(jìn)化樹(shù)(evolutionarytree)已發(fā)展成為多學(xué)科交叉形成的一個(gè)邊緣領(lǐng)域。包括生命科學(xué)中的進(jìn)化論、遺傳學(xué)、分類(lèi)學(xué)、分子生物學(xué)、生物化學(xué)、生物物理學(xué)和生態(tài)學(xué),又包括數(shù)學(xué)中的概率統(tǒng)計(jì)、圖論、計(jì)算機(jī)科學(xué)和群論。聞名國(guó)際生物學(xué)界的美國(guó)冷泉港定量生物學(xué)會(huì)議于1987年特辟出"進(jìn)化樹(shù)"專(zhuān)欄進(jìn)行學(xué)術(shù)討論,標(biāo)志著該領(lǐng)域已成為現(xiàn)代生物學(xué)的前沿之一,迄今仍很活躍。當(dāng)前第33頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)分子進(jìn)化分析介紹當(dāng)前第34頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)分子進(jìn)化分析介紹系統(tǒng)發(fā)生樹(shù)結(jié)構(gòu)Thelinesinthetreearecalledbranches(分支).Atthetipsofthebranchesarepresent-dayspeciesorsequencesknownastaxa

(分類(lèi),thesingularformistaxon)oroperationaltaxonomicunits(運(yùn)籌分類(lèi)單位).Theconnectingpointwheretwoadjacentbranchesjoiniscalledanode(節(jié)點(diǎn)),whichrepresentsaninferredancestorofextanttaxa.Thebifurcatingpointattheverybottomofthetreeistherootnode(根節(jié)),whichrepresentsthecommonancestorofallmembersofthetree.Agroupoftaxadescendedfromasinglecommonancestorisdefinedasacladeormonophyleticgroup

(單源群).Thebranchingpatterninatreeiscalledtreetopology(拓?fù)浣Y(jié)構(gòu)).當(dāng)前第35頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)分子進(jìn)化分析介紹有根樹(shù)與無(wú)根樹(shù)樹(shù)根代表一組分類(lèi)的共同祖先當(dāng)前第36頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)分子進(jìn)化分析介紹如何確定樹(shù)根根據(jù)外圍群:Oneistouseanoutgroup(外圍群),whichisasequencethatishomologoustothesequencesunderconsideration,butseparatedfromthosesequencesatanearlyevolutionarytime.根據(jù)中點(diǎn):Intheabsenceofagoodoutgroup,atreecanberootedusingthemidpointrootingapproach,inwhichthemidpointofthetwomostdivergentgroupsjudgedbyoverallbranchlengthsisassignedastheroot.當(dāng)前第37頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)RootedbyoutgroupbacteriaoutgrouprooteukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaeaMonophyleticgroup(單源群)Monophyleticgroup外圍群分子進(jìn)化分析介紹當(dāng)前第38頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)分子進(jìn)化分析介紹樹(shù)形系統(tǒng)發(fā)生圖(Phylograms):有分支和支長(zhǎng)信息分支圖(Cladograms)只有分支信息,無(wú)支長(zhǎng)信息當(dāng)前第39頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)第二節(jié)系統(tǒng)發(fā)生樹(shù)構(gòu)建方法Molecularphylogenetictreeconstructioncanbedividedintofivesteps:(1)choosingmolecularmarkers;(2)performingmultiplesequencealignment;(3)choosingamodelofevolution;(4)determiningatreebuildingmethod;(5)assessingtreereliability.當(dāng)前第40頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)當(dāng)前第41頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)第三節(jié)系統(tǒng)發(fā)生樹(shù)構(gòu)建實(shí)例系統(tǒng)發(fā)生分析常用軟件(1)PHYLIP(2)PAUP(3)TREE-PUZZLE(4)MEGA(5)PAML(6)TreeView(7)VOSTORG

(8)Fitchprograms

(9)Phylo_win

(10)ARB

(11)DAMBE(12)PAL

(13)Bionumerics

其它程序見(jiàn):

當(dāng)前第42頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)系統(tǒng)發(fā)生樹(shù)構(gòu)建實(shí)例Mega3下載地址當(dāng)前第43頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)當(dāng)前第44頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)當(dāng)前第45頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)當(dāng)前第46頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)當(dāng)前第47頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)當(dāng)前第48頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)當(dāng)前第49頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)當(dāng)前第50頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)當(dāng)前第51頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)當(dāng)前第52頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)當(dāng)前第53頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)當(dāng)前第54頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)當(dāng)前第55頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)當(dāng)前第56頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)當(dāng)前第57頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)當(dāng)前第58頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)當(dāng)前第59頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)當(dāng)前第60頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)當(dāng)前第61頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)當(dāng)前第62頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)當(dāng)前第63頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)當(dāng)前第64頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)離散特征數(shù)據(jù)(discretecharacterdata):即所獲得的是2個(gè)或更多的離散的值。如:DNA序列某一位置是或者不是剪切位點(diǎn)(二態(tài)特征);序列中某一位置,可能的堿基有A、T、G、C共4種(多態(tài)特征);相似性和距離數(shù)據(jù)(similarityanddistancedata):是用彼此間的相似性或距離所表示出來(lái)的各分類(lèi)單位間的相互關(guān)系。當(dāng)前第65頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)核酸序列的預(yù)測(cè)和鑒定當(dāng)前第66頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)內(nèi)容:序列概率信息的統(tǒng)計(jì)模型核酸序列的預(yù)測(cè)與鑒定當(dāng)前第67頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)第一節(jié)、序列概率信息的統(tǒng)計(jì)模型Oneoftheapplicationsofmultiplesequencealignmentsinidentifyingrelatedsequencesindatabasesisbyconstructionofsomestatisticalmodels.Position-specificscoringmatrices(PSSMs)ProfilesHiddenMarkovmodels(HMMs).當(dāng)前第68頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)收集已知的功能序列和非功能序列實(shí)例(這些序列之間是非相關(guān)的)訓(xùn)練集(trainingset)測(cè)試集或控制集(controlset)建立完成識(shí)別任務(wù)的模型檢驗(yàn)所建模型的正確性對(duì)預(yù)測(cè)模型進(jìn)行訓(xùn)練,使之通過(guò)學(xué)習(xí)后具有正確處理和辨別能力。進(jìn)行“功能”與“非功能”的判斷,根據(jù)判斷結(jié)果計(jì)算模識(shí)別的準(zhǔn)確性。識(shí)別“功能序列”和“非功能序列”的過(guò)程

當(dāng)前第69頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)多序列比對(duì)相關(guān)序列選取模型構(gòu)建模型訓(xùn)練參數(shù)調(diào)整應(yīng)用確立模型ProfileHMMHmmcalibrateClustalXHmmbuildHmmtHiddenMarkovModel當(dāng)前第70頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)HiddenMarkovModel應(yīng)用HMMshasmorepredictivepowerthanProfiles.HMMisabletodifferentiatebetweeninsertionanddeletionstatesInprofilecalculation,asinglegappenaltyscorethatisoftensubjectivelydeterminedrepresentseitheraninsertionordeletion.當(dāng)前第71頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)HiddenMarkovModel應(yīng)用OnceanHMMisestablishedbasedonthetrainingsequences,Itcanbeusedtodeterminehowwellanunknownsequencematchesthemodel.Itcanbeusedfortheconstructionofmultiplealignmentofrelatedsequences.HMMscanbeusedfordatabasesearchingtodetectdistantsequencehomologs.HMMsarealsousedinProteinfamilyclassificationthroughmotifandpatternidentificationAdvancedgeneandpromoterprediction,Transmembraneproteinprediction,Proteinfoldrecognition.當(dāng)前第72頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)第二節(jié)核酸序列的預(yù)測(cè)與鑒定本節(jié)內(nèi)容核酸序列預(yù)測(cè)概念基因預(yù)測(cè)啟動(dòng)子和調(diào)控元件預(yù)測(cè)酶切位點(diǎn)分析與引物設(shè)計(jì)當(dāng)前第73頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)1、核酸序列預(yù)測(cè)概念指利用一些計(jì)算方式(計(jì)算機(jī)程序)從基因組序列中發(fā)現(xiàn)基因及其表達(dá)調(diào)控元件的位置和結(jié)構(gòu)的過(guò)程。包括:基因預(yù)測(cè)(GenePrediction

)基因表達(dá)調(diào)控元件預(yù)測(cè)(PromoterandRegulatoryElementPrediction)當(dāng)前第74頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)

StructureofEukaryoticGenes當(dāng)前第75頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)gene1gene2gene3exonintergenicregionintronAGCATCGAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGC當(dāng)前第76頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)第二節(jié)核酸序列的預(yù)測(cè)與鑒定本節(jié)內(nèi)容核酸序列預(yù)測(cè)概念基因預(yù)測(cè)啟動(dòng)子和調(diào)控元件預(yù)測(cè)酶切位點(diǎn)分析與引物設(shè)計(jì)當(dāng)前第77頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)基因預(yù)測(cè)的概念及意義原核基因識(shí)別真核基因預(yù)測(cè)的困難性真核基因預(yù)測(cè)的依據(jù)真核基因預(yù)測(cè)的基本步驟及策略真核基因預(yù)測(cè)方法及其基本原理2、基因預(yù)測(cè)當(dāng)前第78頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)概念:GenePrediction:GivenanuncharacterizedDNAsequence,findout:Wheredoesthegenestartsandends?-detectionofthelocationofopenreadingframes(ORFs)Whichregionscodeforaprotein?-delineationofthestructuresofintronsaswellasexons(eukaryotic)2.1基因預(yù)測(cè)的概念及意義當(dāng)前第79頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)基因預(yù)測(cè)的概念及意義意義:ComputationalGeneFinding(GenePrediction)isoneofthemostchallengingandinterestingproblemsinbioinformaticsatthemoment.ComputationalGeneFindingisimportantbecauseSomanygenomeshavebeenbeingsequencedsorapidly.Purebiologicalmeansaretimeconsumingandcostly.FindinggenesinDNAsequencesisthefoundationforallfurtherinvestigation(Knowledgeoftheprotein-codingregionsunderpinsfunctionalgenomics).

當(dāng)前第80頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)基因預(yù)測(cè)的概念及意義原核基因識(shí)別真核基因預(yù)測(cè)的困難性真核基因預(yù)測(cè)的依據(jù)真核基因預(yù)測(cè)的基本步驟及策略真核基因預(yù)測(cè)方法及其基本原理2、基因預(yù)測(cè)當(dāng)前第81頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)2.2、原核基因識(shí)別原核基因識(shí)別任務(wù)的重點(diǎn)是識(shí)別開(kāi)放閱讀框,或者說(shuō)識(shí)別長(zhǎng)的編碼區(qū)域。一個(gè)開(kāi)放閱讀框(ORF,openreadingframe)是一個(gè)沒(méi)有終止編碼的密碼子序列。當(dāng)前第82頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)原核基因預(yù)測(cè)工具介紹ORFFinderHMM-basedgenefindingprogramsGeneMarkGlimmerFGENESBRBSfinder原核基因識(shí)別當(dāng)前第83頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)ORFFinder(OpenReadingFrameFinder)原核基因識(shí)別當(dāng)前第84頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)zinc-bindingalcoholdehydrogenase,novicida(弗朗西絲菌

)當(dāng)前第85頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)當(dāng)前第86頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)當(dāng)前第87頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)當(dāng)前第88頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)當(dāng)前第89頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)HMM-basedgenefindingprogramsGeneMark:Trainedonanumberofcompletemicrobialgenomes原核基因識(shí)別當(dāng)前第90頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)HMM-basedgenefindingprogramsGlimmer(GeneLocatorandInterpolatedMarkovModeler):AUNIXprogram原核基因識(shí)別當(dāng)前第91頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)HMM-basedgenefindingprogramsFGENESB:Web-basedprogramTrainedforbacterialsequences原核基因識(shí)別當(dāng)前第92頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)HMM-basedgenefindingprogramsRBSfinder:UNIXprogramPredictedstartsites原核基因識(shí)別當(dāng)前第93頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)基因預(yù)測(cè)的概念及意義原核基因識(shí)別真核基因預(yù)測(cè)的困難性真核基因預(yù)測(cè)的依據(jù)真核基因預(yù)測(cè)的基本步驟及策略真核基因預(yù)測(cè)方法及其基本原理2、基因預(yù)測(cè)當(dāng)前第94頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)HumanFuguwormE.coliWhyisGenePredictionChallenging?Codingdensity:asthecoding/non-codinglengthratiodecreases,exonpredictionbecomesmorecomplex.SomefactsabouthumangenomeCodingregionscompriselessthan3%ofthegenome

Thereisageneof2400000bps,only14000bpsareCDS(<1%)2.3真核基因預(yù)測(cè)的困難性當(dāng)前第95頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)wormE.coliSplicingofgenes:findingmultiple(short)exonsisharderthanfindingasingle(long)exon.SomefactsabouthumangenomeAverageof5-6exons/geneAverageexonlength:~200bpAverageintronlength:~2000bp~8%geneshaveasingleexonSomeexonscanbeassmallas3bp.Alternatesplicingareverydifficulttopredict(next)真核基因預(yù)測(cè)的困難性當(dāng)前第96頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)真核基因預(yù)測(cè)的困難性當(dāng)前第97頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)基因預(yù)測(cè)的概念及意義原核基因識(shí)別真核基因預(yù)測(cè)的困難性真核基因預(yù)測(cè)的依據(jù)真核基因預(yù)測(cè)的基本步驟及策略真核基因預(yù)測(cè)方法及其基本原理2、基因預(yù)測(cè)當(dāng)前第98頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)真核基因預(yù)測(cè)的依據(jù)功能位點(diǎn)Splicingsitesignals剪切供體位點(diǎn)和受體位點(diǎn)(Donor/Acceptor):thesplicejunctionsofintronsandexonsfollowtheGT–AGruleinwhichanintronatthe5splicejunctionhasaconsensusmotifofGTAAGT(Donor);andatthe3splicejunctionisaconsensusmotifof(Py)12NCAG(Acceptor)當(dāng)前第99頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)NucleotideDistributionProbabilitiesaroundDonorSitesPositionp(A)p(C)p(G)p(T)-30.3330.3530.1930.12-20.5810.1440.1320.143-10.09690.03550.7790.088300.000480.000480.9990.0004810.000480.000480.000480.99920.4930.02780.4550.023530.7230.07530.1180.083540.05950.05130.8410.04850.1510.1670.210.472真核基因預(yù)測(cè)的依據(jù)當(dāng)前第100頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)NucleotideDistributionProbabilitiesaroundnonDonorSitesPositionp(A)p(C)p(G)p(T)-30.2620.2310.2360.272-20.2620.2310.2350.272-10.2620.2310.2360.27200.2620.2310.2350.27210.2620.2310.2360.27220.2620.2310.2350.27230.2620.2310.2360.27240.2620.2310.2350.27250.2620.2310.2360.272真核基因預(yù)測(cè)的依據(jù)當(dāng)前第101頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)NucleotideDistributionaroundSplicingSites當(dāng)前第102頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)功能位點(diǎn)Translationinitiationsitesignaltranslationstartcodon:MostvertebrategenesuseATGasthetranslationstartcodonandhaveauniquelyconservedflankingsequencecallaKozaksequence(CCGCCATGG).Translationterminationsitesignaltranslationstopcodon:TGA真核基因預(yù)測(cè)的依據(jù)當(dāng)前第103頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)功能位點(diǎn)TranscriptionstartsignalsTranscriptionstartsignals:CpGisland:toidentifythetranscriptioninitiationsiteofaeukaryoticgenemostofthesegeneshaveahighdensityofCGdinucleotidesnearthetranscriptionstartsite.ThisregionisreferredtoasaCpGisland。真核基因預(yù)測(cè)的依據(jù)當(dāng)前第104頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)酵母基因組兩聯(lián)核苷酸頻率表僅為隨機(jī)概率的20%但在真核基因啟動(dòng)子區(qū),CpG出現(xiàn)密度達(dá)到隨機(jī)預(yù)測(cè)水平。長(zhǎng)度幾百bp。人類(lèi)基于組中大約有45000個(gè)CpG島,其中一半與管家基因有關(guān),其余與組織特異性基于啟動(dòng)子關(guān)聯(lián)。當(dāng)前第105頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)功能位點(diǎn)TranscriptionstopsignalsTranscriptionstopsignals:.Thepoly-Asignalcanalsohelplocatethefinalcodingsequence真核基因預(yù)測(cè)的依據(jù)當(dāng)前第106頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)編碼區(qū)與非編碼區(qū)基因組成特征密碼子使用偏好外顯子長(zhǎng)度等值區(qū)(isochore)真核基因預(yù)測(cè)的依據(jù)當(dāng)前第107頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)編碼區(qū)與非編碼區(qū)基因組成特征CodonUsagePreference(密碼子使用偏好)Statisticalresultsshowthatsomecodonsareusedwithdifferentfrequenciesincodingandnon-codingregions,e.g:hexamerfrequenciesCodonUsageFrequency:真核基因預(yù)測(cè)的依據(jù)當(dāng)前第108頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)ForcodingregionFornon-codingregion編碼區(qū)與非編碼區(qū)基因組成特征CodonUsagePreference

Hexamer(Di-codonUsage,雙連密碼子)frequencies:hexamerfrequencies(連續(xù)6核苷酸)出現(xiàn)頻率的比對(duì)是確定一個(gè)窗口是否屬于編碼區(qū)或非編碼區(qū)的最好單個(gè)指標(biāo)真核基因預(yù)測(cè)的依據(jù)當(dāng)前第109頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)編碼區(qū)與非編碼區(qū)基因組成特征CodonUsagePreference

CodonUsageFrequency(密碼子的使用頻率)由于密碼子的簡(jiǎn)并性(degeneracy),每個(gè)氨基酸至少對(duì)應(yīng)1種密碼子,最多有6種對(duì)應(yīng)的密碼子。在基因中,同義密碼子的使用并不是完全一致的。不同物種、不同生物體的基因密碼子使用存在著很大的差異在不同物種中,類(lèi)型相同的基因具有相近的同義密碼子使用偏性對(duì)于同一類(lèi)型的基因由物種引起的同義密碼子使用偏性的差異較小真核基因預(yù)測(cè)的依據(jù)當(dāng)前第110頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)CodonUsageFrequencyForcodingregion當(dāng)前第111頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)當(dāng)前第112頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)LengthDistributionofInternalExonsofHumanGenes編碼區(qū)與非編碼區(qū)基因組成特征外顯子長(zhǎng)度真核基因預(yù)測(cè)的依據(jù)當(dāng)前第113頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)編碼區(qū)與非編碼區(qū)基因組成特征等值區(qū)定義:具有一致堿基組成的長(zhǎng)區(qū)域長(zhǎng)度超過(guò)1000000bp同一等值區(qū)GC含量相對(duì)均衡,但不同等值區(qū)GC含量差異顯著人類(lèi)基因組劃分為5個(gè)等值區(qū)L1:GC39%L2:GC42%L1和L2包含80%的組織特異性基因H1:GC46%H2:GC49%H3:GC54%。包含80%的管家基因真核基因預(yù)測(cè)的依據(jù)當(dāng)前第114頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)TheDependenceofCodonUsageScoreonCGContent當(dāng)前第115頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)基因預(yù)測(cè)的概念及意義原核基因識(shí)別真核基因預(yù)測(cè)的困難性真核基因預(yù)測(cè)的依據(jù)真核基因預(yù)測(cè)的基本步驟及策略真核基因預(yù)測(cè)方法及其基本原理2、基因預(yù)測(cè)當(dāng)前第116頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)2.5真核基因預(yù)測(cè)的步驟和策略Themainissueinpredictionofeukaryoticgenesistheidentificationofexons,introns,andsplicingsites。當(dāng)前第117頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)真核基因預(yù)測(cè)的步驟和策略當(dāng)前第118頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)真核基因預(yù)測(cè)的步驟和策略基本步驟判定序列中的載體污染屏蔽重復(fù)序列發(fā)現(xiàn)基因結(jié)果評(píng)估當(dāng)前第119頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)真核基因預(yù)測(cè)的步驟和策略序列中的污染和重復(fù)元件必須首先去除。序列污染(sequencecontamination)的來(lái)源:載體接頭和PCR引物轉(zhuǎn)座子和插入序列DNA/RNA樣品純度不高重復(fù)元件(repetitiveelement):散在重復(fù)元件、衛(wèi)星DNA、簡(jiǎn)單重復(fù)序列、低復(fù)雜度序列等當(dāng)前第120頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)基因發(fā)現(xiàn)策略:Thecurrentgenepredictionmethodscanbeclassifiedintotwomajorcategories從頭計(jì)算法或基于統(tǒng)計(jì)的方法(abinitio–basedapproachesorStatisticallybasedmethod):predictsgenesbasedonthegivensequencealone基于同源序列比對(duì)的方法(homology-basedapproachesorSequencealignmentbasedmethod):makespredictionsbasedonsignificantmatchesofthequerysequencewithsequencesofknowngenes.真核基因預(yù)測(cè)的步驟和策略當(dāng)前第121頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)基因發(fā)現(xiàn)的策略選擇真核基因預(yù)測(cè)的步驟和策略當(dāng)前第122頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)基因預(yù)測(cè)的概念及意義原核基因識(shí)別真核基因預(yù)測(cè)的困難性真核基因預(yù)測(cè)的依據(jù)真核基因預(yù)測(cè)的基本步驟及策略真核基因預(yù)測(cè)方法及其基本原理2、基因預(yù)測(cè)當(dāng)前第123頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)載體污染判定方法重復(fù)序列分析程序基因預(yù)測(cè)程序(Eukaryotic)2.6、真核基因預(yù)測(cè)方法及其基本原理當(dāng)前第124頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)載體污染判定載體污染判定方法載體數(shù)據(jù)庫(kù)相似性搜索搜索序列中的限制酶切位點(diǎn)工具:VecScreen:NCBIBlast2EVEC:EMBL真核基因預(yù)測(cè)方法及其基本原理當(dāng)前第125頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)真核基因預(yù)測(cè)方法及其基本原理屏蔽重復(fù)序列重復(fù)序列分析程序RepeatMasker:針對(duì)靈長(zhǎng)類(lèi)、嚙齒類(lèi)、擬南芥、草本植物、果蠅XBLAST:適用于任何物種bioweb.pasteur.fr/seqanal/interfaces/xblast.html#-data/當(dāng)前第126頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)真核基因預(yù)測(cè)方法及其基本原理GenePredictionPrograms(Eukaryotic)AbInitio–BasedProgramsHomology-BasedProgramsConsensus-BasedProgramsPerformanceEvaluation當(dāng)前第127頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)真核基因預(yù)測(cè)方法及其基本原理AbInitio–BasedPrograms

Thegoaloftheabinitiogenepredictionprogramsistodiscriminateexonsfromnoncodingsequencesandsubsequentlyjointheexonstogetherinthecorrectorder.Thealgorithmsrelyontwofeatures:genesignalsgenecontentToderiveanassessmentforthisfeature,HMMsorneuralnetwork-basedalgorithmscanbeusedThefrequentlyusedabinitioprogramsaredescribednext.當(dāng)前第128頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)AbInitio–BasedProgramsGENSCAN:Webbased:

makespredictionsbasedonfifth-orderHMMs.Itcombineshexamerfrequencieswithcodingsignals(initiationcodons,TATAbox,capsite,poly-A,etc.)inprediction.Putativeexonsareassignedaprobabilityscore(P)ofbeingatrueexon.OnlypredictionswithP>0.5aredeemedreliable.Thisprogramistrainedforsequencesfromvertebrates,Arabidopsis,andmaize.Ithasbeenusedextensivelyinannotatingthehumangenome.真核基因預(yù)測(cè)方法及其基本原理當(dāng)前第129頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)AbInitio–BasedPrograms

GRAIL(GeneRecognitionandAssemblyInternetLink):aweb-basedprogram:

basedonaneuralnetworkalgorithm.Theprogramistrainedonseveralstatisticalfeaturessuchassplicejunctions,startandstopcodons,poly-Asites,promoters,andCpGislands.Theprogramscansthequerysequencewithwindowsofvariablelengthsandscoresforcodingpotentialsandfinallyproducesanoutputthatistheresultofexoncandidates.Theprogramiscurrentlytrainedforhuman,mouse,Arabidopsis,Drosophila,andEscherichiacoli

sequences.真核基因預(yù)測(cè)方法及其基本原理當(dāng)前第130頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)當(dāng)前第131頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)當(dāng)前第132頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)當(dāng)前第133頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)AbInitio–BasedPrograms

FGENES(FindGenes)Web-basedprogram:UsesLDAtodeterminewhetherasignalisanexon.InadditiontoFGENES,therearemanyvariantsoftheprogram:FGENESH:makeuseofHMMs.FGENESHC:similaritybased.FGENESH+:combinebothabinitioandsimilarity-basedapproaches.真核基因預(yù)測(cè)方法及其基本原理當(dāng)前第134頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)AbInitio–BasedPrograms

MZEF(MichaelZhang’sExonFinder)Webbased:UsesQDAforexonprediction.Hasnotbeenobviousinactualgeneprediction.真核基因預(yù)測(cè)方法及其基本原理當(dāng)前第135頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)AbInitio–BasedPrograms

HMMgene:Webbased:

HMM-basedprogram.Theuniquefeatureoftheprogramisthatitusesacriterioncalledtheconditionalmaximumlikelihoodtodiscriminatecodingfromnoncodingfeatures.Ifasequencealreadyhasasubregionidentifiedascodingregion,whichmaybebasedonsimilaritywithcDNAsorproteinsinadatabase,theseregionsarelockedascodingregions.AnHMMpredictionissubsequentlymadewithabiastowardthelockedregionandisextendedfromthelockedregiontopredicttherestofthegenecodingregionsandevenneighboringgenes.Theprogramisinawayahybridalgorithmthatusesbothabinitio-basedandhomology-basedcriteria.真核基因預(yù)測(cè)方法及其基本原理當(dāng)前第136頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)真核基因預(yù)測(cè)方法及其基本原理Homology-BasedPrograms

Homology-basedprogramsarebasedonthefactthatexonstructuresandexonsequencesofrelatedspeciesarehighlyconserved.Whenpotentialcodingframesinaquerysequencearetranslatedandusedtoalignwithclosestproteinhomologsfoundindatabases,nearperfectlymatchedregionscanbeusedtorevealtheexonboundariesinthequery.Thisapproachassumesthatthedatabasesequencesarecorrect.ItisareasonableassumptioninlightofthefactthatmanyhomologoussequencestobecomparedwitharederivedfromcDNAorexpressedsequencetags(ESTs)ofthesamespecies.當(dāng)前第137頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)Homology-BasedPrograms:優(yōu)勢(shì):Withthesupportofexperimentalevidence,thismethodbecomesratherefficientinfindinggenesinanunknowngenomicDNA.不足:Thedrawbackofthisapproachisitsrelianceonthepresenceofhomologsindatabases.Ifthehomologsarenotavailableinthedatabase,themethodcannotbeused.Novelgenesinanewspeciescannotbediscoveredwithoutmatchesinthedatabase.真核基因預(yù)測(cè)方法及其基本原理當(dāng)前第138頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)Homology-BasedPrograms

GenomeScanweb-basedserver:CombinesGENSCANpredictionresultswithBLASTXsimilaritysearches.TheuserprovidesgenomicDNAandproteinsequencesfromrelatedspecies.ThegenomicDNAistranslatedinallsixframestocoverallpossibleexons.Thetranslatedexonsarethenusedtocomparewiththeuser-suppliedproteinsequences.Translatedgenomicregionshavinghighsimilarityattheproteinlevelreceivehigherscores.ThesamesequenceisalsopredictedwithaGENSCANalgorithm,whichgivesexonsprobabilityscores.Finalexonsareassignedbasedoncombinedscoreinformationfrombothanalyses.真核基因預(yù)測(cè)方法及其基本原理當(dāng)前第139頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)Homology-BasedPrograms

EST2Genome:web-basedprogram:Todefineintron–exonboundaries.PurelybasedonthesequencealignmentapproachTheprogramcomparesanEST(orcDNA)sequencewithagenomicDNAsequencecontainingthecorrespondinggene.Thealignmentisdoneusingadynamicprogramming–basedalgorithm.真核基因預(yù)測(cè)方法及其基本原理當(dāng)前第140頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)Homology-BasedProgramsTwinScan

Asimilarity-basedgene-findingserver.PredictexonsHowtoworks:itusesGenScantopredictallpossibleexonsfromthegenomicsequence.TheputativeexonsareusedforBLASTsearchingtofindclosesthomologs.TheputativeexonsandhomologsfromBLASTsearchingarealignedtoidentifythebestmatch.Onlytheclosestmatchfromagenomedatabaseisusedasatemplateforrefiningthepreviousexonselectionandexonboundaries.真核基因預(yù)測(cè)方法及其基本原理當(dāng)前第141頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)真核基因預(yù)測(cè)方法及其基本原理Consensus-BasedPrograms

Theseprogramsworkbyretainingcommonpredictionsagreedbymostprogramsandremovinginconsistentpredictions.Suchanintegratedapproachmayimprovethespecificitybycorrectingthefalsepositivesandtheproblemofoverprediction.However,sincethisprocedurepunishesnovelpredictions,itmayleadtoloweredsensitivityandmissedpredictions.Twoexamplesofconsensus-basedprogramsaregivennext.當(dāng)前第142頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)Consensus-BasedPrograms

GeneComber:awebserver:

CombinesHMMgeneandGenScanpredictionresults.Theconsistencyofbothpredictionmethodsiscalculated.Ifthetwopredictionsmatch,theexonscoreisreinforced.Ifnot,exonsareproposedbasedonseparatethresholdscores.真核基因預(yù)測(cè)方法及其基本原理當(dāng)前第143頁(yè)\共有172頁(yè)\編于星期五\4點(diǎn)Consensus-BasedPrograms

DIGIT:webserver:

First,existinggene-finders(–FGENESH,GENSCAN,andHMMgene)areappliedtoanuncharacterizedgenomesequence(inputsequence

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論