




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
PreviouslecutureResourceofproteindatabase:checkthelistinExPASy.(sequencesandannotation,functionalregionofsequences,PPI,structure)AnalysisToolsthroughwebserver:alsocheckthelistinExPASyandNAR
web-serverissueUsingproteinsequenceforanalysisandpredictionForproteinfamily,useblastorthefunctionalregionanalysisPhysicalproperties,basiccharacters,TMpredictionLocalization,TargetP,SignalP,andWolfPSORTFunction,comprehensiveanalysisthroughdifferentviewsGeneOntology,usebiologicalprocess,cellularcomponentandmolecularfunctiontodescribeagene.1Lect9PhylogeneticAnalysis
凌毅2GoalofthelecturetodayIntroductiontoevolutionandphylogeneticanalysis
(系統(tǒng)發(fā)生分析)Nomenclature/terminology(術(shù)語(yǔ))oftreesFivestepsofphylogenetictreeconstruction: [1]selectingsequences(DNA/protein); [2]multiplesequencealignment; [3]choosingamodelofevolution
substitution;[4]determiningatree-buildingmethod; [5]assessingtreereliability.Treebuildingsoftware3Whatisevolution?物競(jìng)天擇,適者生存,優(yōu)勝劣汰4OntheOriginofSpeciesByMeansofNaturalSelection5ToDarwin,
thestruggleforexistenceinducesanaturalselection.Offspringaredissimilarfromtheirparents(thatis,variabilityexists),and
individualsthataremorefitforagivenenvironmentareselectedfor.Inthisway,overlongperiodsoftime,speciesevolve.Groupsoforganismschangeovertimesothatdescendantsdifferstructurallyandfunctionallyfromtheirancestors.CharlesDarwin(1809-1882)自然選擇意義下的物種起源Evolution,phylogeny
andphylogeneticanalysisAtthemolecularlevel,evolutionisaprocessofmutationwithselection.
分子水平上,進(jìn)化是一種伴隨著突變的自然選擇過(guò)程。(突變?cè)斐傻倪z傳物質(zhì)改變并沒(méi)有方向性,只是產(chǎn)生了種群中的生物多樣性.只有那些能夠適應(yīng)變化了的生存條件的個(gè)體才能存活并繁衍下來(lái).也就是說(shuō),突變?cè)斐傻倪z傳多樣性是自然選擇的源動(dòng)力.)Phylogenyistheinferenceofevolutionaryrelationships.
系統(tǒng)發(fā)生/發(fā)育即根據(jù)某種特征對(duì)各物種的進(jìn)化關(guān)系進(jìn)行推斷。Phylogeneticanalysisisthestudyoftheevolutionaryhistoryoflivingorganismsusingtree-likediagramstorepresentpedigreesoftheseorganisms.
系統(tǒng)發(fā)育分析是以分枝樹狀圖的形式來(lái)研究物種〔特征〕之間的進(jìn)化關(guān)系與進(jìn)化歷史。6Term簡(jiǎn)而言之,系統(tǒng)發(fā)育分析就是一種分類方法,它是按照進(jìn)化時(shí)間的順序?qū)⒉煌锓N的親源關(guān)系進(jìn)行分類。GoalsofmolecularphylogenyPhylogenycananswerquestionssuchas:Howmanygenesarerelatedtomyfavoritegene?Howrelatedarewhales,dolphins&porpoisestocows?WhereandwhendidHIVorothervirusesoriginate?Whatisthehistoryoflifeonearth?Wastheextinctquaggamorelikeazebraorahorse?Wasthequagga(nowextinct)morelikeazebraorahorse?生物學(xué)經(jīng)典分類方法以人類為例Superkindom(超界〕:Eukaryota(真核超界)Kindom(界):Metazoa(后生動(dòng)物界)Phylum(門):Chordata(脊索動(dòng)物門)Class(綱):Mammalia(哺乳動(dòng)物綱)Order(目):Primata(靈長(zhǎng)目)Family(科):Hominidae(人科)Genus(屬):Homo(人屬)Species(種):sapiens(現(xiàn)代人種)9系統(tǒng)發(fā)育分析使用的“特征〞經(jīng)典系統(tǒng)發(fā)育學(xué)主要是物種的表型特征(形態(tài)學(xué)特征)如生物體的大小、顏色、觸角個(gè)數(shù)生理/生化或行為習(xí)性特征化石!(包含形態(tài)特征與變異時(shí)間)缺點(diǎn)表型一般與多個(gè)遺傳因素相關(guān),結(jié)果會(huì)產(chǎn)生偏差化石樣品難尋分子系統(tǒng)發(fā)生學(xué)利用從遺傳物質(zhì)中提取的信息作為特征即利用核酸或蛋白質(zhì)序列〔molecularfossil!)優(yōu)點(diǎn)數(shù)量大,獲取容易10Themoresimilarcharactersyouhave,the
morerelatedyouare.However,characterscanbeuniqueandnon-unique,sowe’dbetterusemorecharactersforanalysis11MolecularphylogeneticsThestudyofevolutionaryrelationshipsofgenesandotherbiologicalmacromoleculesbyanalyzingmutationsatvariouspositionsintheirsequencesanddevelopinghypothesesabouttheevolutionaryrelatednessofthebiomolecules.
分子系統(tǒng)發(fā)生學(xué)即是通過(guò)對(duì)序列多個(gè)位點(diǎn)突變情況的分析來(lái)研究和推斷基因或其它生物大分子之間的進(jìn)化關(guān)系。研究前題:參與分析的序列必須同源。即擁有共同的祖先,只是隨著時(shí)間的推移才發(fā)生變化。系統(tǒng)發(fā)育的差異是二分叉的〔bifurcating〕,即在每一個(gè)分歧點(diǎn)上一個(gè)父分支〔parentbranch〕被分成兩個(gè)子分支〔daughterbranches〕。也就是說(shuō),序列在每一個(gè)點(diǎn)的進(jìn)化都是相對(duì)獨(dú)立的。12TermGoalofthelecturetodayIntroductiontoevolutionandphylogeneticanalysis
(系統(tǒng)發(fā)生分析)Nomenclature/terminology(術(shù)語(yǔ))oftreesFivestepsofphylogenetictreeconstruction: [1]selectingsequences(DNA/protein); [2]multiplesequencealignment; [3]choosingamodelofevolution;[4]determiningatree-buildingmethod; [5]assessingtreereliability.Treebuildingsoftware13Nomenclature/terminology1、Ortholog(s),paralog(s)andxenolog(s)直系、旁系及交叉同源2、Branch(es),taxon(taxa)/Operationaltaxonomicunits(OTUs),node(s),root,clade/monophyleticgroup
分支,分類/可操作分類單元,節(jié)點(diǎn),樹根,進(jìn)化枝/單系類群(單源進(jìn)化類型)3、Parentbranch,daughterbranch,sistertaxa,Lineage,paraphyletic
父分支,子分支,姊妹分類,世系(家系),并系類群(并系進(jìn)化類型)4、Treetopology,bifurcationandmultifurcation,dichotomyvs.polytomy
樹狀拓樸,二分叉與多分叉,二叉圖與多分支圖5、Rooted,unrooted,outgroup
有根(樹),無(wú)根(樹),外群6、Molecularclock
分子鐘7、Genetreesandspeciestrees
基因樹與物種樹8、Phylogramvs.cladogram
系統(tǒng)發(fā)育圖與進(jìn)化分支圖9、Newickformatfortrees14Term同源物的三種形式Orthologs直系同源物,是在物種形成事件中從一個(gè)祖先序列進(jìn)化形成的,常具有相似的功能或結(jié)構(gòu)。Paralogs旁系同源物,指在某個(gè)物種中由于基因復(fù)制事件而產(chǎn)生的同源序列。旁系同源物可能具有不同但卻相關(guān)的功能。Xenologs交叉同源物,是由于基因在兩個(gè)物種之間的橫向轉(zhuǎn)移〔lateraltransfer〕而造成的同源。交叉同源物一般在兩個(gè)物種中具有相似的功能,但這種相關(guān)性與進(jìn)化無(wú)關(guān)。Atypicalbifurcatingphylogenetictree16ABCDEBranchesPresent-dayspeciesorsequences–
現(xiàn)在的物種或序列〔屬/種群/個(gè)體等分類單元〕Taxon(taxa),OTUs
分類/可操作分類單元,
terminalnodesInternalnodes
內(nèi)部節(jié)點(diǎn)Aninferredancestorofextanttaxa.
推斷得到的現(xiàn)存分類的祖先Rootnode,root
根節(jié)點(diǎn)Thecommonancestorofallmembersofthetree.Clades
monophyletics
進(jìn)化枝/單系類群21分支:Allthelinesinthetree.一個(gè)分支只連接相鄰的兩個(gè)節(jié)點(diǎn)。Agroupoftaxonconsistsofasinglecommonancestorandallitsdescendants.
包含來(lái)源于同一個(gè)共同祖先的一組分類(包括所有的后代)Consistsofnodesandbranches.Anyway,nodeisataxonomicunit,itlocatesinthebifurcatingbranchpoint.Atypicalbifurcatingphylogenetictree17ABCDE21單系類群中,每?jī)蓚€(gè)下層分類擁有一個(gè)唯一的共同祖先,這兩個(gè)分類被稱作姊妹分類。rootLineage世系(家系):thebranchpathdepictinganancestor-descendantrelationshiponatree
能夠描述祖先與后代之間關(guān)系的分支路徑Inatree,ifagroupoftaxoncontainsitsmostrecentcommonancestorbutdoesnotcontainallthedescendantsofthatancestor,theyareparaphyleticgroup.并系類群.
具有一個(gè)共同祖先的局部后代(而非全部).
例:AandB,orB,CandDSo,branchrootto2istheparentbranch,ofbranch2toAand2to1.Thelattertwobranchesarecalleddaughterbranches.And,Aand1aresistertaxon.Treetopology18Thebranchpatterninatreeiscalledtreetopology樹狀拓樸.
Polytomy多分支圖:thephylegenywithmutifurcatingbranches.
造成多分法的可能性:1)在進(jìn)化中,一個(gè)祖先分類同時(shí)產(chǎn)生的后代超過(guò)兩個(gè);2〕未完全解析的系統(tǒng)發(fā)育情況,即不能清晰地確定二分叉的順序。Dichotomy二叉圖:
allbranchesbifurcateonaphylogenetictree.
Inthiscase,eachancestordividesandgivesrisestotwodescendants.當(dāng)一個(gè)內(nèi)局部支只有兩個(gè)直接的線性后代〔分支〕,這個(gè)節(jié)點(diǎn)是二分叉內(nèi)部節(jié)點(diǎn)。而二分叉的圖稱為二叉圖或叉狀分支圖。其中任一個(gè)分支都直接分裂成兩個(gè)子分支。假設(shè)一棵樹存在著包含兩個(gè)以上直接后代的節(jié)點(diǎn),就稱為多分支樹。Examplesofmultifurcation:failuretoresolvethebranchingorderofsomemetazoansandprotostomesRokasA.etal.,AnimalEvolutionandtheMolecularSignatureofRadiationsCompressedinTime,Science310:1933,23December2005,Fig.1.Treeroots20pastpresent12345678945871236Rootedtree,showsthecommonancestorofallspecies/genesintheevolutionarypath.
有根樹中所有的序列都具有一個(gè)共同的祖先〔根節(jié)點(diǎn)〕。從根節(jié)點(diǎn)到所有的節(jié)點(diǎn)都有唯一的進(jìn)化路徑。Unrootedtree
并不知道共同祖先的位置,只是顯示各個(gè)分類之間的相互關(guān)系。無(wú)根樹中不顯示進(jìn)化路徑的方向。Obviously,arootedtreeismoreinformativethananunrootedone.Outgrouprooting21pastpresent1123459Outgroup(usedtoplacetheroot)7810root6Anunrootedtreecanberootedusinganoutgroup(外群,thatis,a
taxonknowntobehomologousbutdistantlyrelatedfromallothertaxa).45871236Unrootedtree外群的選擇對(duì)進(jìn)化分析影響較大,即要選擇同源序列,又要保證外群序列與分析序列組之間的差異比分析序列組之間的序列差異更顯著。Molecularclock分子鐘假說(shuō)認(rèn)為對(duì)于每一個(gè)給定的基因〔或蛋白質(zhì)〕,其分子進(jìn)化速率是大致恒定的。因此進(jìn)化中突變的數(shù)量多少與進(jìn)化時(shí)間成正比。根據(jù)這一假說(shuō),人們可以根據(jù)進(jìn)化樹中分支的長(zhǎng)度來(lái)推算不同物種序列發(fā)生分化的時(shí)間。22Gene/proteintreesvs.
Speciestrees23Molecularevolutionarystudiescanbecomplicated
bythefact
thatbothspeciesandgenesevolve.speciationusuallyoccurswhenaspeciesbecomes
reproductivelyisolated.Inaspeciestree,each
internalnoderepresentsaspeciationevent.
分子進(jìn)化研究由于同時(shí)包含了物種的進(jìn)化和基因的進(jìn)化而變得復(fù)雜起來(lái)。一般新物種出現(xiàn)在祖先形成生殖隔離以后。在物種樹中,一個(gè)內(nèi)部節(jié)點(diǎn)代表一個(gè)物種形成事件。Genes(andproteins)mayduplicateorotherwiseevolve
beforeorafteranygivenspeciationevent.Thetopology
ofagene(orprotein)basedtreemaydifferfromthe
topologyofaspeciestree.
基因樹的內(nèi)部節(jié)點(diǎn)代表一個(gè)祖先基因分化為兩個(gè)新的獨(dú)特基因序列的事件。然而基因或蛋白質(zhì)在物種形成事件以前或以后都可以發(fā)生復(fù)制,因此基因或蛋白質(zhì)樹的拓樸結(jié)構(gòu)與物種樹的拓樸結(jié)構(gòu)可能不同。物種樹的系統(tǒng)發(fā)育分析需要對(duì)分析物種的多個(gè)家族的基因/蛋白樹進(jìn)行綜合評(píng)判后才能獲得。24species1species2speciationevent
物種形成事件Speciestreesversusgene/proteintreespastpresent25species1species2speciationeventSpeciestreesversusgene/proteintreesGeneduplicationEvents基因復(fù)制事件OTUsGenes/Proteins特定基因的進(jìn)化途徑與相應(yīng)物種的進(jìn)化途徑不必完全一致。Phylogramandcladogram
系統(tǒng)發(fā)育圖與進(jìn)化分支圖26RectangularPhylogramRectangularCladogramSlantedCladogramDifference:phylogramisscaled(有刻度比例的),butcladogramnot.Inaphylogram,thebranchlengthsrepresenttheamountofevolutionarydivergence.Sothephylogramcouldshowingboththeevolutionaryrelationshipsandinformationabouttherelativedivergencetimeofthebranches.
系統(tǒng)發(fā)育圖不僅能夠顯示出各個(gè)分類單元之間的進(jìn)化關(guān)系,還能夠給出各個(gè)分支相對(duì)的分化時(shí)間。NomeaningtotheSpacing(間隔)betweenthetaxa,ortotheorderinwhichtheyappearfromtoptobottom.TaxonATaxonBTaxonCTaxonETaxonDThisdimensioneithercanhavenoscale(for‘cladograms’,進(jìn)化分支圖),Orcanbeproportionaltogeneticdistanceoramountofchange(for‘phylograms系統(tǒng)分支圖),orcanbeproportionaltotime(for‘ultrametrictrees’ortrueevolutionarytrees).ThesesaythatBandCaremorecloselyrelatedtoeachotherthaneitheristoA,andthatA,B,andCformacladethatisasistergrouptothecladecomposedofDandE.Ifthetreehasatimescale,thenDandEarethemostcloselyrelated.Phylogram(valuesareproportionaltobranchlengths)系統(tǒng)發(fā)生圖,分支的長(zhǎng)度與改變是成比例的。有標(biāo)度。但考慮到視覺(jué)問(wèn)題分支的權(quán)重值并不是全部顯現(xiàn)出來(lái)。相對(duì)位置較近的分類擁有較強(qiáng)的進(jìn)化相關(guān)性。Cladogram(valuesarenotproportionaltobranchlengths)進(jìn)化分支圖,無(wú)標(biāo)度,分支長(zhǎng)度與改變數(shù)值不成比例,但可以看清所有分支的權(quán)值。Rectangularphylogram(valuesareproportionaltobranchlengths)Rectangularcladogram(valuesarenotproportionaltobranchlengths)Thesefourtreesdisplaythesamedataindifferentformats.Newickformat32Whyfindingatruetreeisdifficult33Therearethreepossibleunrootedtreesforfourtaxa(A,B,C,D)ACBDTree1ABCDTree2ABDCTree3ABCThreetaxahasoneunrootedtree對(duì)二叉無(wú)根樹來(lái)說(shuō)…Numbersoftrees35Number Numberof NumberofofOTUs rootedtrees unrootedtrees2 1 13 3 14 15 35 105 1510 34,459,425 2,027,025208x1021
2x1020隨著分類個(gè)數(shù)的增加可能的樹形數(shù)量以指數(shù)形式增長(zhǎng)。因此,知道構(gòu)建發(fā)育樹可能存在的樹的數(shù)目非常重要。Enumeratingtrees(枚舉樹)36Cavalii-SforzaandEdwards(1967)derivedthenumberofpossibleunrootedtrees(NU)fornOTUs(n
>3): NU=
Thenumberofbifurcatingrootedtrees
(NR) NR=For10OTUs(e.g.10DNAorproteinsequences),thenumberofpossiblerootedtreesis
34million,andthenumberofunrootedtreesis
2million.Manytree-makingalgorithmscanexhaustivelyexamineeverypossibletreeforuptotentotwelvesequences.
(2n-5)!2n-3(n-3)!(2n-3)!2n-2(n-2)!GoalofthelecturetodayIntroductiontoevolutionandphylogeneticanalysis
(系統(tǒng)發(fā)生分析)Nomenclature/terminology(術(shù)語(yǔ))oftreesFivestepsofphylogenetictreeconstruction: [1]selectingsequences(DNA/protein); [2]multiplesequencealignment; [3]choosingadistancemodelofevolution;[4]determiningatree-buildingmethod; [5]assessingtreereliability.Treebuildingsoftware37Step1.selectingsequences在系統(tǒng)發(fā)育研究中序列的選擇取決于序列中的特征及研究的目的。當(dāng)研究非常近緣的物種時(shí),可能會(huì)使用比蛋白質(zhì)序列變化多得多的核酸序列,如對(duì)同一種群中不同個(gè)體的進(jìn)化進(jìn)行分析時(shí),常使用線粒體DNA的非編碼區(qū)域。當(dāng)研究進(jìn)化距離較遠(yuǎn)的物種時(shí),可以選用進(jìn)化較慢的核酸序列(如核糖體RNA)或蛋白質(zhì)序列當(dāng)進(jìn)化關(guān)系非常遠(yuǎn)時(shí)〔如比較細(xì)菌與真核生物〕,那么可能會(huì)使用保守的蛋白質(zhì)序列進(jìn)行分析38某些情況下,研究DNA能夠比研究蛋白質(zhì)獲得更豐富的信息蛋白質(zhì)編碼區(qū)域的DNA可發(fā)生同義(synonymous)或非同義替換(nonsynonymoussubstitution)。因此,有些DNA水平的變化不會(huì)反映到蛋白質(zhì)序列上。當(dāng)同義替換率(dS)大于非同義替換率(dN),時(shí),DNA可能發(fā)生了陰性選擇或稱凈化選擇。即對(duì)相應(yīng)的氨基酸序列改變進(jìn)行了限制。這種選擇發(fā)生在蛋白質(zhì)的結(jié)構(gòu)和/或功能是臨界的和不能發(fā)生替換的時(shí)候。當(dāng)非同義替換率大于同義替換率時(shí),發(fā)生了陽(yáng)性選擇。舉一個(gè)例子是進(jìn)行自我復(fù)制后的基因在自然選擇的壓力下為了能承擔(dān)新的功能從而進(jìn)化的較快。39Synonymoussubstitutions(nucleotidesinred)andnonsynonymoussubstitutions(redarrowheads)inglobins人和馬的RBP編碼蛋白局部核苷酸比對(duì)情況,其中可觀察到的錯(cuò)配是3個(gè),但參考其祖先序列并分析這兩個(gè)序列,事實(shí)上此區(qū)域內(nèi)的突變事件遠(yuǎn)不止三個(gè)。
除了同義及非同義替換的情況外,核酸序列中的突變還分為可觀察到的及不可觀察到的兩種.DNA中可獲得更豐富的信息II與假設(shè)的原始祖先序列相比,除了單核苷酸替換,連續(xù)性替換及巧合性替換三種突變外,平行的、趨同的、回復(fù)的突變都不能被直接觀察到。因此,在計(jì)算兩條序列的進(jìn)化距離時(shí),要在可觀察到的替換根底上進(jìn)行調(diào)整。大多數(shù)情況下使用蛋白質(zhì)序列Unlessthesequencesarealmostidentical,itiseasiertokeepworkingattheproteinlevel.ThismaynotbeasaccurateasworkingwithDNAsequences,but,inmostcases,youcanexpecttheresultstobereasonablygood.Oneachcolumn,proteinshave20states(aminoacids)insteadofonlyfourforDNA,sothereisastrongerphylogeneticsignal.43TipsforsequencesselectioninmakingaphylogenetictreeAvoidsequencefragmentsItwillmakeMSAandtreereconstructionmethodsverysick.Ifyouhavetodoso,atleastusethesamefragmentforallthesequences.AvoidXenologsAvoidrecombinantsequencesSomeproteinsresultfromthecombinationofseveralproteins.Thisiscommoninviruses.Suchproteinshavetwoormoreancestors,andstandardtreemethodsarenotequippedtorepresentthiskindofrelationship.AvoidlargecomplexfamiliesVerylargefamiliesthatcontainvariousdomainsandrepeatscanbeverytrickytoanalyze.Trytoworkonsmaller,moreuniformsubsets.Addanoutgrouptoyourdataset44Step2.multiplesequencealignment45Thefundamentalbasisofaphylogenetictreeis
amultiplesequencealignment.Onlythecorrectalignmentproducescorrectphylogeneicinferencebecausealignedpositionsareassumedtobegenealogicallyrelated.
(Ifthereisamisalignment,orifanonhomologoussequenceisincludedinthealignment,itwillstillbepossibletogenerateatree.–meaningless!)進(jìn)行多序列比對(duì)時(shí),要注意46[1]Confirmthatallsequencesarehomologous[2]Adjustgapcreationandextensionpenaltiesasneededto
optimizethealignment[3]Restrictphylogeneticanalysistoregionsofthemultiple
sequencealignmentforwhichdataareavailableforall
taxa(deletecolumnshavingincompletedata).[4]Manyexpertsrecommendthatyoudeleteanycolumnofanalignmentthatcontainsgaps(evenifthegapoccurs
inonlyonetaxon)
toreconstructphylogenytree.1、仔細(xì)檢查所有參加多重比對(duì)的序列,確保其中所有的序列都是同源的?!卜椒ǎ号袛嘈蛄兄g的距離,PairWisealignment,BLAST,觀察E值的大小及比對(duì)區(qū)域的長(zhǎng)短?!橙绻l(fā)現(xiàn)非同源序列,應(yīng)將其從多重比對(duì)中移除。2、某些序列的完整性不可知時(shí),omrbp(虹鱒魚〕和btrtb〔?!车腞BP序列沒(méi)有起始的蛋氨酸。在系統(tǒng)分析時(shí)應(yīng)嚴(yán)格限制多重比對(duì)在每一研究對(duì)象中都可獲得的那局部序列中。3、此多序列比對(duì)中,有些位點(diǎn)的變化將4種魚類與其他物種分隔開來(lái)。箭頭3、6、8、11,而有些位點(diǎn)魚和兩棲類是一致的,如箭頭7,10。Considerthealignmentof13orthologousofretinol-bindingproteinsStep3.choosingasubstitutionmodelorevolutionarymodel衡量序列間差異的最簡(jiǎn)單方法是比照對(duì)結(jié)果中的發(fā)生的替換進(jìn)行計(jì)數(shù)。然而,比對(duì)中可觀測(cè)到的替換數(shù)量并不能真實(shí)表達(dá)進(jìn)化中實(shí)際發(fā)生的替換數(shù)量〔比方平行、趨同及回復(fù)突變的結(jié)果〕。使得對(duì)序列間的真實(shí)進(jìn)化距離的估計(jì)產(chǎn)生偏差。--非同源相似的影響48Homologyvs.HomoplasyHomologymeansthesimilarityduetothecommonancestor.Homoplasy(非同源相似),ontheotherhand,meanssimilarityduetoconvergentevolution,butindependentorigins.49TermNucleotidesubstitutionmodelThestatisticalmodelsusedtocorrecthomoplasyarecalledsubstitutionmodelsorevolutionarymodels.警告:只適用于那些處于適度相似范圍內(nèi)的序列。如果序列比對(duì)在某個(gè)位點(diǎn)發(fā)生了過(guò)多的替換〔對(duì)于多數(shù)差異序列來(lái)說(shuō)事實(shí)如此〕使該位點(diǎn)的變化趨于飽合時(shí),進(jìn)化差異就超越了統(tǒng)計(jì)模型所能校正的范圍,從而得不到真實(shí)的進(jìn)化距離。50NucleotidesubstitutionmodelJukes-Cantormodel(1969)此模型只適用于那些適度近緣的序列分析:ifalignmentABis20nucleotideslongand6pairsarefoundtobedifferent:可觀測(cè)的距離p=0.3,修正后的DAB=0.38然而一但p=0.75,那么修正后的DAB會(huì)導(dǎo)致無(wú)窮大。51DAB=(-)ln(1–pAB)3443D:A,B兩個(gè)序列之間的進(jìn)化距離;
p:可觀測(cè)到的序列差異,由可觀測(cè)到的替換數(shù)與序列比對(duì)全長(zhǎng)的比率計(jì)算得到。Typesofnucleotidesubstitution52AGCTtransitiontransitiontransversiontransversionInpractice,thetransitionrateistypicallygreaterthanthetransversionrate.IntheJukes–Cantormodel,allnucleotideshaveequalsubstitutionrates(α).NucleotidesubstitutionmodelIIKimuramodel(assumesa≠b,transitionrate≠transversionrate)53AGTCbbbbaadAB=-(1/2)ln(1-2pti-ptv)-(1/4)ln(1-2ptv)
dAB:序列AB之間的進(jìn)化距離;
pti:觀察到的轉(zhuǎn)換頻率;
ptv:
觀察到的顛換頻率。MoresophisticatedandmorerealisticmodelwhencomparedwithJukes-Cantormodel.ProteinsubstitutionmodelsPAMorJTTaminoacidsubstitutionmatrixProteinequivalentsofJukes-CantorandKimuramodelsKimuramodelforcorrectingmultiplesubstitutionsinproteindistancesdAB=-ln(1-p-0.2p2〕pistheobservedpairwisedistancebetweentwosequences.54Among-SiteVariations上述公式的計(jì)算中都假定了不同位點(diǎn)的進(jìn)化是以相同的速率進(jìn)行的。--與真實(shí)情況不符DNA序列中編碼區(qū)內(nèi)的核酸替換率與非編碼區(qū)不同DNA序列中的第三位密碼子突變要快于其他兩位密碼子蛋白質(zhì)序列中由于功能/結(jié)構(gòu)的約束使得某些氨基酸殘基變化較少位點(diǎn)間的差異進(jìn)化速率〔among-siterateheterogeneity〕要求再對(duì)上述進(jìn)化距離的計(jì)算模型進(jìn)行參數(shù)上的調(diào)整。55Step4.TreebuildingmethodDistance-based(基于距離)methods使用距離打分矩陣,此類方法消耗的計(jì)算時(shí)間較少。方法包括:UPGMA(非加權(quán)成對(duì)/分組算術(shù)平均值)、neighbor-joining(鄰接法)Character-based(基于字符特征)methods統(tǒng)計(jì)序列中字符的變化數(shù)目方法包括:maximumparsimony(MP,最大簡(jiǎn)約)、maximumlikelihood(ML,最大似然)MP分析即搜索可觀測(cè)到的氨基酸〔或核酸〕變化具有最少數(shù)目替換方式的系統(tǒng)樹途徑。56ThistreeshowsRBPorthologsin13species.commoncarpzebrafishrainbowtroutteleostAfricanclawedfrogchickenmouseratrabbitcowpighorsehuman10changesFishRBPorthologsOthervertebrateRBPorthologsDistance-basedtree在基于距離的建樹方法中,我們可計(jì)算多重序列比對(duì)中每一對(duì)蛋白質(zhì)序列的氨基酸相似百分比。如果兩個(gè)序列關(guān)系很近,那么在樹上的位置也會(huì)非常靠近。而那些進(jìn)化距離較遠(yuǎn)的序列那么會(huì)被放置上樹上相隔較遠(yuǎn)的位置。直覺(jué)上,我們可從水平角度考察圖中的序列,并在整個(gè)序列范圍內(nèi)計(jì)算進(jìn)化距離。Character-basedtree:基于字符特征的建樹方法是從一個(gè)垂直的角度來(lái)分析多重序列比對(duì)結(jié)果的。在每一列氨基酸的排列形式中,哪一種排列方法是解釋進(jìn)化最簡(jiǎn)單或最簡(jiǎn)約的方法?將魚類放置在離其他蛋白質(zhì)序列很遠(yuǎn)的進(jìn)化樹位置上通過(guò)對(duì)圖中像箭頭3、6、8、11等的位點(diǎn)考察后的結(jié)果。UPGMA:adistance-basedclusteringtree-buildingmethod60UPGMAisUnweightedPairGroupMethodusingArithmeticmean12345此方法假定所有的蛋白質(zhì)序列〔分類單元〕都是以同樣的固定速率發(fā)生改變與進(jìn)化,所以它們到樹根的距離是等同的。61Tree-buildingmethods:UPGMAStep1:Givenadistancematrix,computethepairwisedistancesofalltheproteins.Getreadytoputthenumbers1-5atthebottomofyournewtree.1234562Tree-buildingmethods:UPGMAStep2:Findthetwoproteinswiththesmallestpairwisedistance.Clusterthem.12345126一個(gè)新節(jié)點(diǎn)通過(guò)其女兒節(jié)點(diǎn)來(lái)定義.并且它被放置在進(jìn)化樹1/2d12處。隨后的步驟中1、2節(jié)點(diǎn)被去除并用聚類6〔1,2的祖先節(jié)點(diǎn)〕來(lái)代替。63Tree-buildingmethods:UPGMAStep3:Doitagain.Findthenexttwoproteinswiththesmallestpairwisedistance.Clusterthem.1234512645764Tree-buildingmethods:UPGMAStep4:Keepgoing.Cluster.1234512645738循環(huán)往復(fù)前進(jìn),直到每一個(gè)新的聚類都被重新定義。65Tree-buildingmethods:UPGMAStep4:Lastcluster!Thisisyourtree.12345126457389當(dāng)只剩下兩類時(shí),樹根節(jié)點(diǎn)被放置在樹的1/2d的位置。UPGMA的距離計(jì)算66合并AC后的距離矩陣MB(AC)=(MBA+MBC)/2=(8+9)/2=8.5MD(AC)=(MDA+MDC)/2=(12+11)/2=11.5根據(jù)給定的距離矩陣或?qū)嶋H觀測(cè)67合并〔AC〕B后的距離矩陣M(ABC)D=(MAD+MBD+MCD)/3=(12+14+11)/3=12.3368ABCDA0B8.50C78.50D12.3312.3312.33069OriginaldistancematrixFinaldistancematrixofthetreeaccordingtotheUPGMAmethodUPGMA方法總結(jié)70Asimpleapproachformakingtrees.AnUPGMAtreeisalwaysrooted.Anassumptionofthealgorithmisthatthemolecularclockisconstantforsequencesinthetree.Ifthereareunequalsubstitutionrates,thetreemaybewrong(mostofthetime).WhileUPGMAissimple,itislessaccuratethantheneighbor-joiningapproach(describednext).Neighbor-joining
:anotherdistance-basedclusteringtree-buildingmethod71NJ并不像UPGMA那樣假設(shè)每個(gè)分類到樹根的距離都完全相同。它在建樹前先使用了一個(gè)距離轉(zhuǎn)換步驟來(lái)校正序列間不同的進(jìn)化速率。d’AB=dAB–?*(rA+rB)d’AB–轉(zhuǎn)換后序列A與B間的距離dAB–序列A與B間的實(shí)際進(jìn)化距離rA/rB是指A〔或B〕與其它所有分類單元的距離總和
r的通用表達(dá)式為:ri=∑dij,r’i=ri/n-2其中,r’i用來(lái)確定某個(gè)分類單元i與其最近節(jié)點(diǎn)間的距離當(dāng)待分析的序列數(shù)量為n時(shí),假設(shè)序列A和B形成了一個(gè)為U的節(jié)點(diǎn),那么
A到U的距離為dAU=[dAB+(r‘A–r’B)]/272Tree-buildingmethods:NeighborjoiningNJ法先將待分析的所有分類單元〔序列〕與一個(gè)單節(jié)點(diǎn)組成一個(gè)星狀樹結(jié)構(gòu),再根據(jù)上頁(yè)的距離校正公式計(jì)算校正后的各序列間的距離,選擇距離最短的兩個(gè)序列進(jìn)行合并并首先脫離星狀結(jié)構(gòu)。新節(jié)點(diǎn)再與其它節(jié)點(diǎn)一起計(jì)算新的n-1個(gè)分類單元的距離,合并距離最小的兩個(gè)分類。這樣不斷重復(fù)下去,直到所有的內(nèi)部節(jié)點(diǎn)都被合并。這一過(guò)程被稱為stardecomposition.NJ方法總結(jié)NJ法產(chǎn)生的是無(wú)根樹〔unrootedtree〕,需要參加外群來(lái)確定樹根的位置NJ法基于最小進(jìn)化原理,是ME方法的簡(jiǎn)化版。它將每一步聚類得到的進(jìn)化距離總和最小化。在進(jìn)行大量序列的進(jìn)化分析時(shí)NJ法非常有效。是基于距離數(shù)據(jù)重建系統(tǒng)發(fā)育樹最有效的方法之一。73Exampleofaneighbor-joiningtree:phylogeneticanalysisof13RBPsOtherDistance-basedClusteringmethodsOptimality-basedmethods(基于最優(yōu)化的方法〕基于距離的聚類方法只產(chǎn)生一棵樹,而基于最優(yōu)化的方法那么可以比較所有可能的樹形拓樸結(jié)構(gòu)并選擇一棵最符合實(shí)際進(jìn)化距離矩陣的樹。由于要找最優(yōu)化的樹,此種方法最大的缺陷在于數(shù)據(jù)量的限制及運(yùn)算速度緩慢。Fitch-Margoliash〔FM〕Minimumevolution(ME,最小進(jìn)化方法)75MP:acharacter-basedtreebuildingmethod最大簡(jiǎn)約法的主要思想:擁有最短可能分支長(zhǎng)度的進(jìn)化樹將是最好的系統(tǒng)發(fā)育樹。根據(jù)這一理論,我們將尋找最簡(jiǎn)約即字符特征變化次數(shù)最少的進(jìn)化樹。步驟確定信息位點(diǎn)。如果某一個(gè)序列位點(diǎn)恒定不變,那么它不是信息位點(diǎn)。簡(jiǎn)約信息位點(diǎn)上,不同的字符特征必須各自至少在兩個(gè)序列〔分類單元〕中出現(xiàn)。對(duì)構(gòu)建每一棵樹所需要發(fā)生的字符特征改變進(jìn)行計(jì)數(shù),尋找改變數(shù)最少的樹〔或樹群〕。當(dāng)序列數(shù)少于12條時(shí),一般采用窮盡法遍歷所有可能的樹形,當(dāng)序列大于12條時(shí),那么多采用啟發(fā)式的算法以降低搜索的復(fù)雜度。7677Asanexampleoftree-buildingusingmaximumparsimony,considerthesefourtaxa: AAG AAA GGA AGAHowmighttheyhaveevolvedfromacommonancestorsuchasAAA?78AAGAAAGGAAGAAAAAAA11AGAAAGAGAAAAGGAAAAAAA12AAAAAGGGAAAAAGAAAAAAA11AAA12Tree-buildingmethods:MaximumparsimonyCost=3Cost=4Cost=41Inmaximumparsimony,choosethetree(s)withthelowestcost(shortestbranchlengths).AAG
AAA
GGA
AGA簡(jiǎn)約算法中的問(wèn)題:
longbranchattraction79Forsomephylogenetictrees,particularlythosebasedonmaximumparsimony,theartifactoflong-branchattractionmayoccur.
Branchlengthsoftendepictthenumberofsubstitutionsthatoccurbetweentwotaxa.Parsimonyassumesalltaxaevolveatthesamerate,andallcharacterscontributethesameamountofinformation.
分支長(zhǎng)度描述了兩個(gè)分類之間出現(xiàn)的替換情況.簡(jiǎn)約法假定所有的分類都是以一個(gè)相同的速率來(lái)進(jìn)化的,并且所有的字符特征的改變對(duì)總信息量改變的奉獻(xiàn)也是相同的。Rapidlyevolvingtaxamaybeplacedonthesamebranch,notbecausetheyarerelated,butbecausetheybothhavemanysubstitutions.
在進(jìn)化樹上一些分類存在于同一分支中并不是因?yàn)樗鼈冎g的親緣關(guān)系較近,而是因?yàn)樗鼈儼l(fā)現(xiàn)的替換較多(即進(jìn)化速度較快)。因此,在遇到趨同進(jìn)化或進(jìn)化速率不同時(shí),MP法的建樹結(jié)果并不理想。長(zhǎng)枝吸引會(huì)使系統(tǒng)分析產(chǎn)生錯(cuò)誤80真實(shí)的進(jìn)化樹包含了一個(gè)比其他分類進(jìn)化速率快很多的分類。2、3有共同祖先,但推論得到的樹中,由于2被一個(gè)含有長(zhǎng)進(jìn)化分支的外圍集團(tuán)所吸引,在樹中被放置在與其他分類分開的位置上。Step5.Evaluatingtree評(píng)估系統(tǒng)發(fā)育樹準(zhǔn)確性的標(biāo)準(zhǔn)在于它是否具有一致性、有效性及穩(wěn)健性。評(píng)估可以針對(duì)一種建樹方法或者一個(gè)特定的系統(tǒng)發(fā)育樹通常我們使用自舉法〔bootstrapping)和折刀法〔jackknifing〕來(lái)檢測(cè)系統(tǒng)樹的穩(wěn)健性。81Bootstrapping
method82Bootstrapping(自舉法)isacommonlyusedapproachtomeasuringtherobustnessofatreetopology.Givenabranchingorder,howconsistentlydoes
analgorithmfindthatbranchingorderinarandomlypermuted(序列改變)versionoftheoriginaldataset?Tobootstrap,makeanartificialdatasetobtainedbyrandomlysamplingcolumnsfromyourmultiplesequencealignment.Makethedatasetthesamesizeastheoriginal.Do100(to1,000)bootstrapreplicates.Observethepercentofcasesinwhichtheassignmentofcladesintheoriginaltreeissupportedbythebootstrapreplicates.>70%isconsideredsignificant.In61%ofthebootstrapresamplings,ssrbpandbtrbp(pigandcowRBP)formedadistinctclade.In39%ofthecases,anotherproteinjoinedtheclade(e.g.ecrbp),oroneofthesetwosequencesjoinedanotherclade.GoalofthelecturetodayIntroductiontoevolutionandphylogeneticanalysis
(系統(tǒng)發(fā)生分析)Nomenclature/terminology(術(shù)語(yǔ))oftreesFivestepsofphylogenetictreeconstruction: [1]selectingsequences(DNA/protein); [2]multiplesequencealignment; [3]choosingadistancemodelofevolution;[4]determiningatree-buildingmethod; [5]assessingtreereliability.Treebuildingsoftware84Treebuildingsoftware85Regardlessofwhetheryouusedistance-orcharacter-basedmethodsforbuildingatree,thestartingpointisamultiplesequencealignment.ReadSeqisaconvenientweb-basedprogramthattranslatesmultiplesequencealignmentsintoformatscomp
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 印刷服務(wù)合同
- 手破碎機(jī)設(shè)備買賣合同
- 聘用出納合同增加多場(chǎng)景
- 生產(chǎn)車間承包合同協(xié)議
- 機(jī)械工程勞務(wù)分包合同
- 河北化工醫(yī)藥職業(yè)技術(shù)學(xué)院《中學(xué)生物課堂教學(xué)技能訓(xùn)練》2023-2024學(xué)年第二學(xué)期期末試卷
- 廣州華立科技職業(yè)學(xué)院《數(shù)據(jù)挖掘與決策管理》2023-2024學(xué)年第二學(xué)期期末試卷
- 寧波衛(wèi)生職業(yè)技術(shù)學(xué)院《界面化學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 宜春學(xué)院《需求工程》2023-2024學(xué)年第二學(xué)期期末試卷
- 宿州職業(yè)技術(shù)學(xué)院《水質(zhì)工程學(xué)實(shí)驗(yàn)》2023-2024學(xué)年第二學(xué)期期末試卷
- 2024年湖南高速鐵路職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)新版
- 《研學(xué)旅行市場(chǎng)營(yíng)銷》課件-研學(xué)旅行市場(chǎng)營(yíng)銷之社群營(yíng)銷
- 醫(yī)美機(jī)構(gòu)客戶滿意度調(diào)查表
- clsim100-32藥敏試驗(yàn)標(biāo)準(zhǔn)2023中文版
- LNG加氣站質(zhì)量管理手冊(cè)
- 艱難梭菌感染動(dòng)物模型的建立及其應(yīng)用評(píng)價(jià)
- (正式版)HGT 22820-2024 化工安全儀表系統(tǒng)工程設(shè)計(jì)規(guī)范
- 2024年公安部直屬事業(yè)單位招聘筆試參考題庫(kù)附帶答案詳解
- 《旅游景點(diǎn)云南》課件2
- 2 我多想去看看(課件)-一年級(jí)下冊(cè)語(yǔ)文
- 《肺癌課件:基本概念與臨床表現(xiàn)》
評(píng)論
0/150
提交評(píng)論