mega操作過程多序列比對進化樹演示文稿_第1頁
mega操作過程多序列比對進化樹演示文稿_第2頁
mega操作過程多序列比對進化樹演示文稿_第3頁
mega操作過程多序列比對進化樹演示文稿_第4頁
mega操作過程多序列比對進化樹演示文稿_第5頁
已閱讀5頁,還剩167頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

mega操作過程多序列比對進化樹演示文稿目前一頁\總數(shù)一百七十二頁\編于十四點mega操作過程多序列比對進化樹目前二頁\總數(shù)一百七十二頁\編于十四點多序列比對

分子進化分析——系統(tǒng)發(fā)生樹構(gòu)建

核酸序列的預(yù)測與鑒定

酶切圖譜制作

引物設(shè)計內(nèi)容目前三頁\總數(shù)一百七十二頁\編于十四點多序列比對目前四頁\總數(shù)一百七十二頁\編于十四點內(nèi)容:多序列比對多序列比對程序及應(yīng)用目前五頁\總數(shù)一百七十二頁\編于十四點第一節(jié)、多序列比對

(Multiplesequencealignment)概念多序列比對的意義多序列比對的打分函數(shù)多序列比對的方法目前六頁\總數(shù)一百七十二頁\編于十四點1、概念多序列比對(Multiplesequencealignment)alignmultiplerelatedsequencestoachieveoptimalmatchingofthesequences.為了便于描述,對多序列比對過程可以給出下面的定義:把多序列比對看作一張二維表,表中每一行代表一個序列,每一列代表一個殘基的位置。將序列依照下列規(guī)則填入表中:(a)一個序列所有殘基的相對位置保持不變;(b)將不同序列間相同或相似的殘基放入同一列,即盡可能將序列間相同或相似殘基上下對齊(下表)。目前七頁\總數(shù)一百七十二頁\編于十四點1234567891ⅠYDGGAV-EALⅡYDGG---EALⅢFEGGILVEALⅣFD-GILVQAVⅤYEGGAVVQAL表1多序列比對的定義表示五個短序列(I-V)的比對結(jié)果。通過插入空位,使5個序列中大多數(shù)相同或相似殘基放入同一列,并保持每個序列殘基順序不變目前八頁\總數(shù)一百七十二頁\編于十四點2、多序列比對的意義用于描述一組序列之間的相似性關(guān)系,以便了解一個分子家族的基本特征,尋找motif,保守區(qū)域等。用于描述一組同源序列之間的親緣關(guān)系的遠近,應(yīng)用到分子進化分析中。序列同源性分析:是將待研究序列加入到一組與之同源,但來自不同物種的序列中進行多序列同時比較,以確定該序列與其它序列間的同源性大小。其他應(yīng)用,如構(gòu)建profile,打分矩陣等目前九頁\總數(shù)一百七十二頁\編于十四點手工比對在運行經(jīng)過測試并具有比較高的可信度的計算機程序(輔助編輯軟件如bioedit,seaview,Genedoc等)基礎(chǔ)上,結(jié)合實驗結(jié)果或文獻資料,對多序列比對結(jié)果進行手工修飾,應(yīng)該說是非常必要的。為了便于進行交互式手工比對,通常使用不同顏色表示具有不同特性的殘基,以幫助判別序列之間的相似性。計算機程序自動比對通過特定的算法(如窮舉法,啟發(fā)式算法等),由計算機程序自動搜索最佳的多序列比對狀態(tài)。3、多序列比對的方法目前十頁\總數(shù)一百七十二頁\編于十四點窮舉法窮舉法(exhaustivealignmentmethod)將序列兩兩比對時的二維動態(tài)規(guī)劃矩陣擴展到多維矩陣。即用矩陣的維數(shù)來反映比對的序列數(shù)目。這種方法的計算量很大,對于計算機系統(tǒng)的資源要求比較高,一般只有在進行少數(shù)的較短的序列的比對的時候才會用到這個方法DCA(Divide-and-ConquerAlignment):aweb-basedprogramthatissemiexhaustivehttp://bibiserv.techfak.uni-bielefeld.de/dca/目前十一頁\總數(shù)一百七十二頁\編于十四點啟發(fā)式算法啟發(fā)式算法(heuristicalgorithms):大多數(shù)實用的多序列比對程序采用啟發(fā)式算法(heuristicalgorithms),以降低運算復(fù)雜度。隨著序列數(shù)量的增加,算法復(fù)雜性也不斷增加。用O(m1m2m3…mn)表示對n個序列進行比對時的算法復(fù)雜性,其中mn是最后一條序列的長度。若序列長度相差不大,則可簡化成O(mn),其中n表示序列的數(shù)目,m表示序列的長度。顯然,隨著序列數(shù)量的增加,序列比對的算法復(fù)雜性按指數(shù)規(guī)律增長。目前十二頁\總數(shù)一百七十二頁\編于十四點第二節(jié)多序列比對程序及應(yīng)用ProgressiveAlignmentMethodIterativeAlignmentBlock-BasedAlignmentDNASTARDNAMAN目前十三頁\總數(shù)一百七十二頁\編于十四點1、ProgressiveAlignmentMethodClustal:Clustal,是由Feng和Doolittle于1987年提出的。Clustal程序有許多版本ClustalW(Thompson等,1994)是目前使用最廣泛的多序列比對程序它的PC版本是ClustalX作為程序的一部分,Clustal可以輸出用于構(gòu)建進化樹的數(shù)據(jù)。目前十四頁\總數(shù)一百七十二頁\編于十四點ClustalW程序:ClustalW程序可以自由使用在NCBI/EBI的FTP服務(wù)器上可以找到下載的軟件包。ClustalW程序用選項單逐步指導(dǎo)用戶進行操作,用戶可根據(jù)需要選擇打分矩陣、設(shè)置空位罰分等。

ftp://ftp.ebi.ac.uk/pub/software/EBI的主頁還提供了基于Web的ClustalW服務(wù),用戶可以把序列和各種要求通過表單提交到服務(wù)器上,服務(wù)器把計算的結(jié)果用Email返回用戶(或在線交互使用)。http://www.ebi.ac.uk/clustalw/ProgressiveAlignmentMethod目前十五頁\總數(shù)一百七十二頁\編于十四點ClustalW程序ClustalW對輸入序列的格式比較靈活,可以是FASTA格式,還可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。輸出格式也可以選擇,有ALN、GCG、PHYLIP和GDE等,用戶可以根據(jù)自己的需要選擇合適的輸出格式。用ClustalW得到的多序列比對結(jié)果中,所有序列排列在一起,并以特定的符號代表各個位點上殘基的保守性,“*”號表示保守性極高的殘基位點;“.”號代表保守性略低的殘基位點。ProgressiveAlignmentMethod目前十六頁\總數(shù)一百七十二頁\編于十四點ClustalW

使用輸入地址:http://www.ebi.ac.uk/clustalw/設(shè)置選項(next)ProgressiveAlignmentMethod目前十七頁\總數(shù)一百七十二頁\編于十四點ClustalW

使用一些選項說明PHYLOGENETICTREE有三個選項

TREETYPE:構(gòu)建系統(tǒng)發(fā)育樹的算法,有四個個選擇none、nj(neighbourjoining)、phylip、distCORRECTDIST:決定是否做距離修正。對于小的序列歧異(<10%),選擇與否不會產(chǎn)生差異;對于大的序列歧異,需做出修正。因為觀察到的距離要比真實的進化距離低。IGNOREGAPS:選擇on,序列中的任何空位將被忽視。詳細說明參見http://www.ebi.ac.uk/clustalw/clustalw_frame.htmlProgressiveAlignmentMethod目前十八頁\總數(shù)一百七十二頁\編于十四點ClustalW

使用輸入5個16SRNA基因序列AF310602AF308147AF283499AF012090AF447394點擊“RUN”ProgressiveAlignmentMethod目前十九頁\總數(shù)一百七十二頁\編于十四點ProgressiveAlignmentMethodT-Coffee(Tree-basedConsistencyObjectiveFunctionforalignmentEvaluation):Progressivealignmentmethod/software/TCoffee.htmlInprocessingaquery,T-Coffeeperformsbothglobalandlocalpairwisealignmentforallpossiblepairsinvolved.Adistancematrixisbuilttoderiveaguidetree,whichisthenusedtodirectafullmultiplealignmentusingtheprogressiveapproach.OutperformsClustalwhenaligningmoderatelydivergentsequencesSlowerthanClustal目前二十頁\總數(shù)一百七十二頁\編于十四點ProgressiveAlignmentMethodPRALINE:web-based:http://ibivu.cs.vu.nl/programs/pralinewww/

FirstbuildprofilesforeachsequenceusingPSI-BLASTdatabasesearching.Eachprofileisthenusedformultiplealignmentusingtheprogressiveapproach.theclosestneighbortobejoinedtoalargeralignmentbycomparingtheprofilescoresdoesnotuseaguidetreeIncorporateproteinsecondarystructureinformationtomodifytheprofilescores.Perhapsthemostsophisticatedandaccuratealignmentprogramavailable.Extremelyslowcomputation.目前二十一頁\總數(shù)一百七十二頁\編于十四點ProgressiveAlignmentMethodDbClustal:http://igbmc.u-strasbg.fr:8080/DbClustal/dbclustal.htmlPoa(Partialorderalignments):/poa/目前二十二頁\總數(shù)一百七十二頁\編于十四點2、IterativeAlignmentPRRN:web-basedprogramhttp://prrn.ims.u-tokyo.ac.jp/

Usesadoublenestediterativestrategyformultiplealignment.Basedontheideathatanoptimalsolutioncanbefoundbyrepeatedlymodifyingexistingsuboptimalsolutions目前二十三頁\總數(shù)一百七十二頁\編于十四點Block-BasedAlignmentDIALIGN2:awebbasedprogramhttp://bioweb.pasteur.fr/seqanal/interfaces/dialign2.html

Itplacesemphasisonblock-to-blockcomparisonratherthanresidue-to-residuecomparison.Thesequenceregionsbetweentheblocksareleftunaligned.Theprogramhasbeenshowntobeespeciallysuitableforaligningdivergentsequenceswithonlylocalsimilarity.目前二十四頁\總數(shù)一百七十二頁\編于十四點Block-BasedAlignmentMatch-Box:web-basedserverhttp://www.fundp.ac.be/sciences/biologie/bms/matchbox_submit.shtmlAimstoidentifyconservedblocks(orboxes)amongsequences.TheserverrequirestheusertosubmitasetofsequencesintheFASTAformatandtheresultsarereturnedbye-mail.目前二十五頁\總數(shù)一百七十二頁\編于十四點DNASTARDNAMAN軟件:目前二十六頁\總數(shù)一百七十二頁\編于十四點分子進化分析——系統(tǒng)發(fā)生樹構(gòu)建目前二十七頁\總數(shù)一百七十二頁\編于十四點本章內(nèi)容:分子進化分析介紹系統(tǒng)發(fā)生樹構(gòu)建方法系統(tǒng)發(fā)生樹構(gòu)建實例目前二十八頁\總數(shù)一百七十二頁\編于十四點第一節(jié)分子進化分析介紹基本概念:系統(tǒng)發(fā)生(phylogeny)——是指生物形成或進化的歷史系統(tǒng)發(fā)生學(xué)(phylogenetics)——研究物種之間的進化關(guān)系系統(tǒng)發(fā)生樹(phylogenetictree)——表示形式,描述物種之間進化關(guān)系目前二十九頁\總數(shù)一百七十二頁\編于十四點分子進化研究的目的從物種的一些分子特性出發(fā),從而了解物種之間的生物系統(tǒng)發(fā)生的關(guān)系。蛋白和核酸序列通過序列同源性的比較進而了解基因的進化以及生物系統(tǒng)發(fā)生的內(nèi)在規(guī)律分子進化分析介紹目前三十頁\總數(shù)一百七十二頁\編于十四點分子進化分析介紹分子進化研究的基礎(chǔ)基本理論:在各種不同的發(fā)育譜系及足夠大的進化時間尺度中,許多序列的進化速率幾乎是恒定不變的。(分子鐘理論,Molecularclock

1965)實際情況:雖然很多時候仍然存在爭議,但是分子進化確實能闡述一些生物系統(tǒng)發(fā)生的內(nèi)在規(guī)律目前三十一頁\總數(shù)一百七十二頁\編于十四點分子進化分析介紹直系同源與旁系同源Orthologs(直系同源):Homologoussequencesindifferentspeciesthatarosefromacommonancestralgeneduringspeciation;mayormaynotberesponsibleforasimilarfunction.Paralogs(旁系同源):Homologoussequenceswithinasinglespeciesthatarosebygeneduplication.。以上兩個概念代表了兩個不同的進化事件。用于分子進化分析中的序列必須是直系同源的,才能真實反映進化過程。目前三十二頁\總數(shù)一百七十二頁\編于十四點分子進化分析介紹目前三十三頁\總數(shù)一百七十二頁\編于十四點分子進化分析介紹系統(tǒng)發(fā)生樹(phylogenetictree):又名進化樹(evolutionarytree)已發(fā)展成為多學(xué)科交叉形成的一個邊緣領(lǐng)域。包括生命科學(xué)中的進化論、遺傳學(xué)、分類學(xué)、分子生物學(xué)、生物化學(xué)、生物物理學(xué)和生態(tài)學(xué),又包括數(shù)學(xué)中的概率統(tǒng)計、圖論、計算機科學(xué)和群論。聞名國際生物學(xué)界的美國冷泉港定量生物學(xué)會議于1987年特辟出"進化樹"專欄進行學(xué)術(shù)討論,標志著該領(lǐng)域已成為現(xiàn)代生物學(xué)的前沿之一,迄今仍很活躍。目前三十四頁\總數(shù)一百七十二頁\編于十四點分子進化分析介紹目前三十五頁\總數(shù)一百七十二頁\編于十四點分子進化分析介紹系統(tǒng)發(fā)生樹結(jié)構(gòu)Thelinesinthetreearecalledbranches(分支).Atthetipsofthebranchesarepresent-dayspeciesorsequencesknownastaxa

(分類,thesingularformistaxon)oroperationaltaxonomicunits(運籌分類單位).Theconnectingpointwheretwoadjacentbranchesjoiniscalledanode(節(jié)點),whichrepresentsaninferredancestorofextanttaxa.Thebifurcatingpointattheverybottomofthetreeistherootnode(根節(jié)),whichrepresentsthecommonancestorofallmembersofthetree.Agroupoftaxadescendedfromasinglecommonancestorisdefinedasacladeormonophyleticgroup

(單源群).Thebranchingpatterninatreeiscalledtreetopology(拓撲結(jié)構(gòu)).目前三十六頁\總數(shù)一百七十二頁\編于十四點分子進化分析介紹有根樹與無根樹樹根代表一組分類的共同祖先目前三十七頁\總數(shù)一百七十二頁\編于十四點分子進化分析介紹如何確定樹根根據(jù)外圍群:Oneistouseanoutgroup(外圍群),whichisasequencethatishomologoustothesequencesunderconsideration,butseparatedfromthosesequencesatanearlyevolutionarytime.根據(jù)中點:Intheabsenceofagoodoutgroup,atreecanberootedusingthemidpointrootingapproach,inwhichthemidpointofthetwomostdivergentgroupsjudgedbyoverallbranchlengthsisassignedastheroot.目前三十八頁\總數(shù)一百七十二頁\編于十四點RootedbyoutgroupbacteriaoutgrouprooteukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaeaMonophyleticgroup(單源群)Monophyleticgroup外圍群分子進化分析介紹目前三十九頁\總數(shù)一百七十二頁\編于十四點分子進化分析介紹樹形系統(tǒng)發(fā)生圖(Phylograms):有分支和支長信息分支圖(Cladograms)只有分支信息,無支長信息目前四十頁\總數(shù)一百七十二頁\編于十四點第二節(jié)系統(tǒng)發(fā)生樹構(gòu)建方法Molecularphylogenetictreeconstructioncanbedividedintofivesteps:(1)choosingmolecularmarkers;(2)performingmultiplesequencealignment;(3)choosingamodelofevolution;(4)determiningatreebuildingmethod;(5)assessingtreereliability.目前四十一頁\總數(shù)一百七十二頁\編于十四點目前四十二頁\總數(shù)一百七十二頁\編于十四點第三節(jié)系統(tǒng)發(fā)生樹構(gòu)建實例系統(tǒng)發(fā)生分析常用軟件(1)PHYLIP(2)PAUP(3)TREE-PUZZLE(4)MEGA(5)PAML(6)TreeView(7)VOSTORG

(8)Fitchprograms

(9)Phylo_win

(10)ARB

(11)DAMBE(12)PAL

(13)Bionumerics

其它程序見:/phylip/software.html

目前四十三頁\總數(shù)一百七十二頁\編于十四點系統(tǒng)發(fā)生樹構(gòu)建實例Mega3下載地址/mega目前四十四頁\總數(shù)一百七十二頁\編于十四點目前四十五頁\總數(shù)一百七十二頁\編于十四點目前四十六頁\總數(shù)一百七十二頁\編于十四點目前四十七頁\總數(shù)一百七十二頁\編于十四點目前四十八頁\總數(shù)一百七十二頁\編于十四點目前四十九頁\總數(shù)一百七十二頁\編于十四點目前五十頁\總數(shù)一百七十二頁\編于十四點目前五十一頁\總數(shù)一百七十二頁\編于十四點目前五十二頁\總數(shù)一百七十二頁\編于十四點目前五十三頁\總數(shù)一百七十二頁\編于十四點目前五十四頁\總數(shù)一百七十二頁\編于十四點目前五十五頁\總數(shù)一百七十二頁\編于十四點目前五十六頁\總數(shù)一百七十二頁\編于十四點目前五十七頁\總數(shù)一百七十二頁\編于十四點目前五十八頁\總數(shù)一百七十二頁\編于十四點目前五十九頁\總數(shù)一百七十二頁\編于十四點目前六十頁\總數(shù)一百七十二頁\編于十四點目前六十一頁\總數(shù)一百七十二頁\編于十四點目前六十二頁\總數(shù)一百七十二頁\編于十四點目前六十三頁\總數(shù)一百七十二頁\編于十四點目前六十四頁\總數(shù)一百七十二頁\編于十四點目前六十五頁\總數(shù)一百七十二頁\編于十四點離散特征數(shù)據(jù)(discretecharacterdata):即所獲得的是2個或更多的離散的值。如:DNA序列某一位置是或者不是剪切位點(二態(tài)特征);序列中某一位置,可能的堿基有A、T、G、C共4種(多態(tài)特征);相似性和距離數(shù)據(jù)(similarityanddistancedata):是用彼此間的相似性或距離所表示出來的各分類單位間的相互關(guān)系。目前六十六頁\總數(shù)一百七十二頁\編于十四點核酸序列的預(yù)測和鑒定目前六十七頁\總數(shù)一百七十二頁\編于十四點內(nèi)容:序列概率信息的統(tǒng)計模型核酸序列的預(yù)測與鑒定目前六十八頁\總數(shù)一百七十二頁\編于十四點第一節(jié)、序列概率信息的統(tǒng)計模型Oneoftheapplicationsofmultiplesequencealignmentsinidentifyingrelatedsequencesindatabasesisbyconstructionofsomestatisticalmodels.Position-specificscoringmatrices(PSSMs)ProfilesHiddenMarkovmodels(HMMs).目前六十九頁\總數(shù)一百七十二頁\編于十四點收集已知的功能序列和非功能序列實例(這些序列之間是非相關(guān)的)訓(xùn)練集(trainingset)測試集或控制集(controlset)建立完成識別任務(wù)的模型檢驗所建模型的正確性對預(yù)測模型進行訓(xùn)練,使之通過學(xué)習(xí)后具有正確處理和辨別能力。進行“功能”與“非功能”的判斷,根據(jù)判斷結(jié)果計算模識別的準確性。識別“功能序列”和“非功能序列”的過程

目前七十頁\總數(shù)一百七十二頁\編于十四點多序列比對相關(guān)序列選取模型構(gòu)建模型訓(xùn)練參數(shù)調(diào)整應(yīng)用確立模型ProfileHMMHmmcalibrateClustalXHmmbuildHmmtHiddenMarkovModel目前七十一頁\總數(shù)一百七十二頁\編于十四點HiddenMarkovModel應(yīng)用HMMshasmorepredictivepowerthanProfiles.HMMisabletodifferentiatebetweeninsertionanddeletionstatesInprofilecalculation,asinglegappenaltyscorethatisoftensubjectivelydeterminedrepresentseitheraninsertionordeletion.目前七十二頁\總數(shù)一百七十二頁\編于十四點HiddenMarkovModel應(yīng)用OnceanHMMisestablishedbasedonthetrainingsequences,Itcanbeusedtodeterminehowwellanunknownsequencematchesthemodel.Itcanbeusedfortheconstructionofmultiplealignmentofrelatedsequences.HMMscanbeusedfordatabasesearchingtodetectdistantsequencehomologs.HMMsarealsousedinProteinfamilyclassificationthroughmotifandpatternidentificationAdvancedgeneandpromoterprediction,Transmembraneproteinprediction,Proteinfoldrecognition.目前七十三頁\總數(shù)一百七十二頁\編于十四點第二節(jié)核酸序列的預(yù)測與鑒定本節(jié)內(nèi)容核酸序列預(yù)測概念基因預(yù)測啟動子和調(diào)控元件預(yù)測酶切位點分析與引物設(shè)計目前七十四頁\總數(shù)一百七十二頁\編于十四點1、核酸序列預(yù)測概念指利用一些計算方式(計算機程序)從基因組序列中發(fā)現(xiàn)基因及其表達調(diào)控元件的位置和結(jié)構(gòu)的過程。包括:基因預(yù)測(GenePrediction

)基因表達調(diào)控元件預(yù)測(PromoterandRegulatoryElementPrediction)目前七十五頁\總數(shù)一百七十二頁\編于十四點

StructureofEukaryoticGenes目前七十六頁\總數(shù)一百七十二頁\編于十四點gene1gene2gene3exonintergenicregionintronAGCATCGAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGC目前七十七頁\總數(shù)一百七十二頁\編于十四點第二節(jié)核酸序列的預(yù)測與鑒定本節(jié)內(nèi)容核酸序列預(yù)測概念基因預(yù)測啟動子和調(diào)控元件預(yù)測酶切位點分析與引物設(shè)計目前七十八頁\總數(shù)一百七十二頁\編于十四點基因預(yù)測的概念及意義原核基因識別真核基因預(yù)測的困難性真核基因預(yù)測的依據(jù)真核基因預(yù)測的基本步驟及策略真核基因預(yù)測方法及其基本原理2、基因預(yù)測目前七十九頁\總數(shù)一百七十二頁\編于十四點概念:GenePrediction:GivenanuncharacterizedDNAsequence,findout:Wheredoesthegenestartsandends?-detectionofthelocationofopenreadingframes(ORFs)Whichregionscodeforaprotein?-delineationofthestructuresofintronsaswellasexons(eukaryotic)2.1基因預(yù)測的概念及意義目前八十頁\總數(shù)一百七十二頁\編于十四點基因預(yù)測的概念及意義意義:ComputationalGeneFinding(GenePrediction)isoneofthemostchallengingandinterestingproblemsinbioinformaticsatthemoment.ComputationalGeneFindingisimportantbecauseSomanygenomeshavebeenbeingsequencedsorapidly.Purebiologicalmeansaretimeconsumingandcostly.FindinggenesinDNAsequencesisthefoundationforallfurtherinvestigation(Knowledgeoftheprotein-codingregionsunderpinsfunctionalgenomics).

目前八十一頁\總數(shù)一百七十二頁\編于十四點基因預(yù)測的概念及意義原核基因識別真核基因預(yù)測的困難性真核基因預(yù)測的依據(jù)真核基因預(yù)測的基本步驟及策略真核基因預(yù)測方法及其基本原理2、基因預(yù)測目前八十二頁\總數(shù)一百七十二頁\編于十四點2.2、原核基因識別原核基因識別任務(wù)的重點是識別開放閱讀框,或者說識別長的編碼區(qū)域。一個開放閱讀框(ORF,openreadingframe)是一個沒有終止編碼的密碼子序列。目前八十三頁\總數(shù)一百七十二頁\編于十四點原核基因預(yù)測工具介紹ORFFinderHMM-basedgenefindingprogramsGeneMarkGlimmerFGENESBRBSfinder原核基因識別目前八十四頁\總數(shù)一百七十二頁\編于十四點ORFFinder(OpenReadingFrameFinder)/gorf/gorf.html原核基因識別目前八十五頁\總數(shù)一百七十二頁\編于十四點zinc-bindingalcoholdehydrogenase,novicida(弗朗西絲菌

)目前八十六頁\總數(shù)一百七十二頁\編于十四點目前八十七頁\總數(shù)一百七十二頁\編于十四點目前八十八頁\總數(shù)一百七十二頁\編于十四點目前八十九頁\總數(shù)一百七十二頁\編于十四點目前九十頁\總數(shù)一百七十二頁\編于十四點HMM-basedgenefindingprogramsGeneMark:Trainedonanumberofcompletemicrobialgenomes/GeneMark/

原核基因識別目前九十一頁\總數(shù)一百七十二頁\編于十四點HMM-basedgenefindingprogramsGlimmer(GeneLocatorandInterpolatedMarkovModeler):AUNIXprogram/softlab/glimmer/glimmer.html原核基因識別目前九十二頁\總數(shù)一百七十二頁\編于十四點HMM-basedgenefindingprogramsFGENESB:Web-basedprogramTrainedforbacterialsequences/berry.phtml?topic=gfindb原核基因識別目前九十三頁\總數(shù)一百七十二頁\編于十四點HMM-basedgenefindingprogramsRBSfinder:UNIXprogramPredictedstartsites/pub/software/RBSfinder/原核基因識別目前九十四頁\總數(shù)一百七十二頁\編于十四點基因預(yù)測的概念及意義原核基因識別真核基因預(yù)測的困難性真核基因預(yù)測的依據(jù)真核基因預(yù)測的基本步驟及策略真核基因預(yù)測方法及其基本原理2、基因預(yù)測目前九十五頁\總數(shù)一百七十二頁\編于十四點HumanFuguwormE.coliWhyisGenePredictionChallenging?Codingdensity:asthecoding/non-codinglengthratiodecreases,exonpredictionbecomesmorecomplex.SomefactsabouthumangenomeCodingregionscompriselessthan3%ofthegenome

Thereisageneof2400000bps,only14000bpsareCDS(<1%)2.3真核基因預(yù)測的困難性目前九十六頁\總數(shù)一百七十二頁\編于十四點wormE.coliSplicingofgenes:findingmultiple(short)exonsisharderthanfindingasingle(long)exon.SomefactsabouthumangenomeAverageof5-6exons/geneAverageexonlength:~200bpAverageintronlength:~2000bp~8%geneshaveasingleexonSomeexonscanbeassmallas3bp.Alternatesplicingareverydifficulttopredict(next)真核基因預(yù)測的困難性目前九十七頁\總數(shù)一百七十二頁\編于十四點真核基因預(yù)測的困難性目前九十八頁\總數(shù)一百七十二頁\編于十四點基因預(yù)測的概念及意義原核基因識別真核基因預(yù)測的困難性真核基因預(yù)測的依據(jù)真核基因預(yù)測的基本步驟及策略真核基因預(yù)測方法及其基本原理2、基因預(yù)測目前九十九頁\總數(shù)一百七十二頁\編于十四點真核基因預(yù)測的依據(jù)功能位點Splicingsitesignals剪切供體位點和受體位點(Donor/Acceptor):thesplicejunctionsofintronsandexonsfollowtheGT–AGruleinwhichanintronatthe5splicejunctionhasaconsensusmotifofGTAAGT(Donor);andatthe3splicejunctionisaconsensusmotifof(Py)12NCAG(Acceptor)目前一百頁\總數(shù)一百七十二頁\編于十四點NucleotideDistributionProbabilitiesaroundDonorSitesPositionp(A)p(C)p(G)p(T)-30.3330.3530.1930.12-20.5810.1440.1320.143-10.09690.03550.7790.088300.000480.000480.9990.0004810.000480.000480.000480.99920.4930.02780.4550.023530.7230.07530.1180.083540.05950.05130.8410.04850.1510.1670.210.472真核基因預(yù)測的依據(jù)目前一百零一頁\總數(shù)一百七十二頁\編于十四點NucleotideDistributionProbabilitiesaroundnonDonorSitesPositionp(A)p(C)p(G)p(T)-30.2620.2310.2360.272-20.2620.2310.2350.272-10.2620.2310.2360.27200.2620.2310.2350.27210.2620.2310.2360.27220.2620.2310.2350.27230.2620.2310.2360.27240.2620.2310.2350.27250.2620.2310.2360.272真核基因預(yù)測的依據(jù)目前一百零二頁\總數(shù)一百七十二頁\編于十四點NucleotideDistributionaroundSplicingSites目前一百零三頁\總數(shù)一百七十二頁\編于十四點功能位點Translationinitiationsitesignaltranslationstartcodon:MostvertebrategenesuseATGasthetranslationstartcodonandhaveauniquelyconservedflankingsequencecallaKozaksequence(CCGCCATGG).Translationterminationsitesignaltranslationstopcodon:TGA真核基因預(yù)測的依據(jù)目前一百零四頁\總數(shù)一百七十二頁\編于十四點功能位點TranscriptionstartsignalsTranscriptionstartsignals:CpGisland:toidentifythetranscriptioninitiationsiteofaeukaryoticgenemostofthesegeneshaveahighdensityofCGdinucleotidesnearthetranscriptionstartsite.ThisregionisreferredtoasaCpGisland。真核基因預(yù)測的依據(jù)目前一百零五頁\總數(shù)一百七十二頁\編于十四點酵母基因組兩聯(lián)核苷酸頻率表僅為隨機概率的20%但在真核基因啟動子區(qū),CpG出現(xiàn)密度達到隨機預(yù)測水平。長度幾百bp。人類基于組中大約有45000個CpG島,其中一半與管家基因有關(guān),其余與組織特異性基于啟動子關(guān)聯(lián)。目前一百零六頁\總數(shù)一百七十二頁\編于十四點功能位點TranscriptionstopsignalsTranscriptionstopsignals:.Thepoly-Asignalcanalsohelplocatethefinalcodingsequence真核基因預(yù)測的依據(jù)目前一百零七頁\總數(shù)一百七十二頁\編于十四點編碼區(qū)與非編碼區(qū)基因組成特征密碼子使用偏好外顯子長度等值區(qū)(isochore)真核基因預(yù)測的依據(jù)目前一百零八頁\總數(shù)一百七十二頁\編于十四點編碼區(qū)與非編碼區(qū)基因組成特征CodonUsagePreference(密碼子使用偏好)Statisticalresultsshowthatsomecodonsareusedwithdifferentfrequenciesincodingandnon-codingregions,e.g:hexamerfrequenciesCodonUsageFrequency:真核基因預(yù)測的依據(jù)目前一百零九頁\總數(shù)一百七十二頁\編于十四點ForcodingregionFornon-codingregion編碼區(qū)與非編碼區(qū)基因組成特征CodonUsagePreference

Hexamer(Di-codonUsage,雙連密碼子)frequencies:hexamerfrequencies(連續(xù)6核苷酸)出現(xiàn)頻率的比對是確定一個窗口是否屬于編碼區(qū)或非編碼區(qū)的最好單個指標真核基因預(yù)測的依據(jù)目前一百一十頁\總數(shù)一百七十二頁\編于十四點編碼區(qū)與非編碼區(qū)基因組成特征CodonUsagePreference

CodonUsageFrequency(密碼子的使用頻率)由于密碼子的簡并性(degeneracy),每個氨基酸至少對應(yīng)1種密碼子,最多有6種對應(yīng)的密碼子。在基因中,同義密碼子的使用并不是完全一致的。不同物種、不同生物體的基因密碼子使用存在著很大的差異在不同物種中,類型相同的基因具有相近的同義密碼子使用偏性對于同一類型的基因由物種引起的同義密碼子使用偏性的差異較小真核基因預(yù)測的依據(jù)目前一百一十一頁\總數(shù)一百七十二頁\編于十四點CodonUsageFrequencyForcodingregion目前一百一十二頁\總數(shù)一百七十二頁\編于十四點目前一百一十三頁\總數(shù)一百七十二頁\編于十四點LengthDistributionofInternalExonsofHumanGenes編碼區(qū)與非編碼區(qū)基因組成特征外顯子長度真核基因預(yù)測的依據(jù)目前一百一十四頁\總數(shù)一百七十二頁\編于十四點編碼區(qū)與非編碼區(qū)基因組成特征等值區(qū)定義:具有一致堿基組成的長區(qū)域長度超過1000000bp同一等值區(qū)GC含量相對均衡,但不同等值區(qū)GC含量差異顯著人類基因組劃分為5個等值區(qū)L1:GC39%L2:GC42%L1和L2包含80%的組織特異性基因H1:GC46%H2:GC49%H3:GC54%。包含80%的管家基因真核基因預(yù)測的依據(jù)目前一百一十五頁\總數(shù)一百七十二頁\編于十四點TheDependenceofCodonUsageScoreonCGContent目前一百一十六頁\總數(shù)一百七十二頁\編于十四點基因預(yù)測的概念及意義原核基因識別真核基因預(yù)測的困難性真核基因預(yù)測的依據(jù)真核基因預(yù)測的基本步驟及策略真核基因預(yù)測方法及其基本原理2、基因預(yù)測目前一百一十七頁\總數(shù)一百七十二頁\編于十四點2.5真核基因預(yù)測的步驟和策略Themainissueinpredictionofeukaryoticgenesistheidentificationofexons,introns,andsplicingsites。目前一百一十八頁\總數(shù)一百七十二頁\編于十四點真核基因預(yù)測的步驟和策略目前一百一十九頁\總數(shù)一百七十二頁\編于十四點真核基因預(yù)測的步驟和策略基本步驟判定序列中的載體污染屏蔽重復(fù)序列發(fā)現(xiàn)基因結(jié)果評估目前一百二十頁\總數(shù)一百七十二頁\編于十四點真核基因預(yù)測的步驟和策略序列中的污染和重復(fù)元件必須首先去除。序列污染(sequencecontamination)的來源:載體接頭和PCR引物轉(zhuǎn)座子和插入序列DNA/RNA樣品純度不高重復(fù)元件(repetitiveelement):散在重復(fù)元件、衛(wèi)星DNA、簡單重復(fù)序列、低復(fù)雜度序列等目前一百二十一頁\總數(shù)一百七十二頁\編于十四點基因發(fā)現(xiàn)策略:Thecurrentgenepredictionmethodscanbeclassifiedintotwomajorcategories從頭計算法或基于統(tǒng)計的方法(abinitio–basedapproachesorStatisticallybasedmethod):predictsgenesbasedonthegivensequencealone基于同源序列比對的方法(homology-basedapproachesorSequencealignmentbasedmethod):makespredictionsbasedonsignificantmatchesofthequerysequencewithsequencesofknowngenes.真核基因預(yù)測的步驟和策略目前一百二十二頁\總數(shù)一百七十二頁\編于十四點基因發(fā)現(xiàn)的策略選擇真核基因預(yù)測的步驟和策略目前一百二十三頁\總數(shù)一百七十二頁\編于十四點基因預(yù)測的概念及意義原核基因識別真核基因預(yù)測的困難性真核基因預(yù)測的依據(jù)真核基因預(yù)測的基本步驟及策略真核基因預(yù)測方法及其基本原理2、基因預(yù)測目前一百二十四頁\總數(shù)一百七十二頁\編于十四點載體污染判定方法重復(fù)序列分析程序基因預(yù)測程序(Eukaryotic)2.6、真核基因預(yù)測方法及其基本原理目前一百二十五頁\總數(shù)一百七十二頁\編于十四點載體污染判定載體污染判定方法載體數(shù)據(jù)庫相似性搜索搜索序列中的限制酶切位點工具:VecScreen:NCBIBlast2EVEC:EMBLwww.ebi.ac.uk/blastall/vectors.html真核基因預(yù)測方法及其基本原理目前一百二十六頁\總數(shù)一百七十二頁\編于十四點真核基因預(yù)測方法及其基本原理屏蔽重復(fù)序列重復(fù)序列分析程序RepeatMasker:針對靈長類、嚙齒類、擬南芥、草本植物、果蠅/cgi-bin/RepeatMaskerXBLAST:適用于任何物種bioweb.pasteur.fr/seqanal/interfaces/xblast.html#-data/目前一百二十七頁\總數(shù)一百七十二頁\編于十四點真核基因預(yù)測方法及其基本原理GenePredictionPrograms(Eukaryotic)AbInitio–BasedProgramsHomology-BasedProgramsConsensus-BasedProgramsPerformanceEvaluation目前一百二十八頁\總數(shù)一百七十二頁\編于十四點真核基因預(yù)測方法及其基本原理AbInitio–BasedPrograms

Thegoaloftheabinitiogenepredictionprogramsistodiscriminateexonsfromnoncodingsequencesandsubsequentlyjointheexonstogetherinthecorrectorder.Thealgorithmsrelyontwofeatures:genesignalsgenecontentToderiveanassessmentforthisfeature,HMMsorneuralnetwork-basedalgorithmscanbeusedThefrequentlyusedabinitioprogramsaredescribednext.目前一百二十九頁\總數(shù)一百七十二頁\編于十四點AbInitio–BasedProgramsGENSCAN:Webbased:/GENSCAN.html

makespredictionsbasedonfifth-orderHMMs.Itcombineshexamerfrequencieswithcodingsignals(initiationcodons,TATAbox,capsite,poly-A,etc.)inprediction.Putativeexonsareassignedaprobabilityscore(P)ofbeingatrueexon.OnlypredictionswithP>0.5aredeemedreliable.Thisprogramistrainedforsequencesfromvertebrates,Arabidopsis,andmaize.Ithasbeenusedextensivelyinannotatingthehumangenome.真核基因預(yù)測方法及其基本原理目前一百三十頁\總數(shù)一百七十二頁\編于十四點AbInitio–BasedPrograms

GRAIL(GeneRecognitionandAssemblyInternetLink):aweb-basedprogram:/public/tools/

basedonaneuralnetworkalgorithm.Theprogramistrainedonseveralstatisticalfeaturessuchassplicejunctions,startandstopcodons,poly-Asites,promoters,andCpGislands.Theprogramscansthequerysequencewithwindowsofvariablelengthsandscoresforcodingpotentialsandfinallyproducesanoutputthatistheresultofexoncandidates.Theprogramiscurrentlytrainedforhuman,mouse,Arabidopsis,Drosophila,andEscherichiacoli

sequences.真核基因預(yù)測方法及其基本原理目前一百三十一頁\總數(shù)一百七十二頁\編于十四點目前一百三十二頁\總數(shù)一百七十二頁\編于十四點目前一百三十三頁\總數(shù)一百七十二頁\編于十四點目前一百三十四頁\總數(shù)一百七十二頁\編于十四點AbInitio–BasedPrograms

FGENES(FindGenes)Web-basedprogram:/

UsesLDAtodeterminewhetherasignalisanexon.InadditiontoFGENES,therearemanyvariantsoftheprogram:FGENESH:makeuseofHMMs.FGENESHC:similaritybased.FGENESH+:combinebothabinitioandsimilarity-basedapproaches.真核基因預(yù)測方法及其基本原理目前一百三十五頁\總數(shù)一百七十二頁\編于十四點AbInitio–BasedPrograms

MZEF(MichaelZhang’sExonFinder)Webbased:/genefinder/UsesQDAforexonprediction.Hasnotbeenobviousinactualgeneprediction.真核基因預(yù)測方法及其基本原理目前一百三十六頁\總數(shù)一百七十二頁\編于十四點AbInitio–BasedPrograms

HMMgene:Webbased:www.cbs.dtu.dk/services/HMMgene

HMM-basedprogram.Theuniquefeatureoftheprogramisthatitusesacriterioncalledtheconditionalmaximumlikelihoodtodiscriminatecodingfromnoncodingfeatures.Ifasequencealreadyhasasubregionidentifiedascodingregion,whichmaybebasedonsimilaritywithcDNAsorproteinsinadatabase,theseregionsarelockedascodingregions.AnHMMpredictionissubsequentlymadewithabiastowardthelockedregionandisextendedfromthelockedregiontopredicttherestofthegenecodingregionsandevenneighboringgenes.Theprogramisinawayahybridalgorithmthatusesbothabinitio-basedandhomology-basedcriteria.真核基因預(yù)測方法及其基本原理目前一百三十七頁\總數(shù)一百七十二頁\編于十四點真核基因預(yù)測方法及其基本原理Homology-BasedPrograms

Homology-basedprogramsarebasedonthefactthatexonstructuresandexonsequencesofrelatedspeciesarehighlyconserved.Whenpotentialcodingframesinaquerysequencearetranslatedandusedtoalignwithclosestproteinhomologsfoundindatabases,nearperfectlymatchedregionscanbeusedtorevealtheexonboundariesinthequery.Thisapproachassumesthatthedatabasesequencesarecorrect.ItisareasonableassumptioninlightofthefactthatmanyhomologoussequencestobecomparedwitharederivedfromcDNAorexpressedsequencetags(ESTs)ofthesamespecies.目前一百三十八頁\總數(shù)一百七十二頁\編于十四點Homology-BasedPrograms:優(yōu)勢:Withthesupportofexperimentalevidence,thismethodbecomesratherefficientinfindinggenesinanunknowngenomicDNA.不足:Thedrawbackofthisapproachisitsrelianceonthepresenceofhomologsindatabases.Ifthehomologsarenotavailableinthedatabase,themethodcannotbeused.Novelgenesinanewspeciescannotbediscoveredwithoutmatchesinthedatabase.真核基因預(yù)測方法及其基本原理目前一百三十九頁\總數(shù)一百七十二頁\編于十四點Homology-BasedPrograms

GenomeScanweb-basedserver:/genomescan.htmlCombinesGENSCANpredictionresultswithBLASTXsimilaritysearches.TheuserprovidesgenomicDNAandproteinsequencesfromrelatedspecies.ThegenomicDNAistranslatedinallsixframestocoverallpossibleexons.Thetranslatedexonsarethenusedtocomparewiththeuser-suppliedproteinsequences.Translatedgenomicregionshavinghighsimilarityattheproteinlevelreceivehigherscores.ThesamesequenceisalsopredictedwithaGENSCANalgorithm,whichgivesexonsprobabilityscores.Finalexonsareassignedbasedoncombinedscoreinformationfrombothanalyses.真核基因預(yù)測方法及其基本原理目前一百四十頁\總數(shù)一百七十二頁\編于十四點Homology-BasedPrograms

EST2Genome:web-basedprogram:http://bioweb.pasteur.fr/seqanal/interfaces/est2genome.htmlTodefineintron–exonboundaries.PurelybasedonthesequencealignmentapproachTheprogramcomparesanEST(orcDNA)sequencewithagenomicDNAsequencecontainingthecorrespondinggene.Thealignmentisdoneusingadynamicprogramming–basedalgorithm.真核基因預(yù)測方法及其基本原理目前一百四十一頁\總數(shù)一百七十二頁\編于十四點Homology-BasedProgramsTwinScan/

Asimilarity-basedgene-findingserver.PredictexonsHowtoworks:itusesGenScantopredictallpossibleexonsfromthegenomicsequence.TheputativeexonsareusedforBLASTsearchingtofindclosesthomologs.TheputativeexonsandhomologsfromBLASTsearchingarealignedtoidentifythebestmatch.Onlytheclosestmatchfromagenomedatabaseisusedasatemplateforrefiningthepreviousexonselectionandexonboundaries.真核基因預(yù)測方法及其基本原理目前一百四十二頁\總數(shù)一百七十二頁\編于十四點真核基因預(yù)測方法及其基本原理Consensus-BasedPrograms

Theseprogramsworkbyretainingcommonpredictionsagreedbymostprogramsandremovinginconsistentpredictions.Suchanintegratedapproachmayimprovethespecificitybycorrectingthefalsepositivesandtheproblemofoverprediction.However,sincethisprocedurepuni

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論