第七章分子系統(tǒng)發(fā)育分析 進化樹_第1頁
第七章分子系統(tǒng)發(fā)育分析 進化樹_第2頁
第七章分子系統(tǒng)發(fā)育分析 進化樹_第3頁
第七章分子系統(tǒng)發(fā)育分析 進化樹_第4頁
第七章分子系統(tǒng)發(fā)育分析 進化樹_第5頁
已閱讀5頁,還剩109頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第七章分子系統(tǒng)發(fā)育分析姚正培yao_zp@163.com1精選ppt本章內(nèi)容引言生物進化的分子機制系統(tǒng)進化樹及其構建分子系統(tǒng)發(fā)育分析軟件及應用2精選ppt引言生物學家:Wehaveadream…TreeofLife:重建所有生物的進化歷史并以系統(tǒng)樹的形式加以描述3精選ppt引言夢想走進現(xiàn)實:How?最理想的方法:化石!——零散、不完整4精選ppt引言夢想走進現(xiàn)實:How?比較形態(tài)學和比較生理學:確定大致的進化框架——細節(jié)存很多的爭議5精選ppt引言夢想走進現(xiàn)實:How?第三種方案:分子進化1964年,美國進化生物學家E.Zuckerkandl和量子化學家LinusPauling提出分子進化理論基本假設核酸和蛋白質(zhì)序列中含有生物進化歷史的全部信息理論分子進化速率恒定。分子鐘:物種的同源基因之間的差異程度與它們的共同祖先的存在時間(即兩者的分歧時間)有一定的數(shù)量關系。發(fā)生在分子層面的進化過程:DNA,RNA和蛋白質(zhì)分子6精選ppt引言分子鐘成立的證據(jù):1、至少某些生物大分子(如珠蛋白)的進化速率在相當長的地質(zhì)時間內(nèi)的相對穩(wěn)定、均勻;2、許多不同物種的多種同源大分子在相當長時間內(nèi)的平均進化速率近似恒定。7精選ppt建立分子鐘的大致步驟1、選擇所要比較的生物大分子種類根據(jù)具體研究目標和已掌握的資料,選擇進化速率相對恒定、速率大小合適、分布范圍能涵蓋各待比較物種的生物大分子。2、選擇所要比較的物種,確定各比較組合及其所代表的進化事件3、獲得生物大分子一級結構的資料4、獲得有關的代表性進化事件發(fā)生的地質(zhì)時間數(shù)據(jù)5、通過比較大分子一級結構,選擇合適的數(shù)學模型,計算得到進化產(chǎn)生的分子差異d,通過回歸分析等統(tǒng)計方法得到大分子的進化速率r(t)6、由此可以推斷未知進化事件的發(fā)生時間8精選pptExample:Molecularclockfor17mammalspeciesInferredpairwisenucleotidesubstitutionsamong17mammalspeciesfromsevengeneproducts,asestimatedfromproteinstudies,plottedagainstdateofdivergence,asestimatedfromthefossilrecord.Thelineisdrawnfromtheoriginthroughtheoldestpoint(marsupial/placentaldivergenceat125MYBP).Thestronglinearrelationshipsuggeststhatmoleculardifferencesbetweenpairsofspeciesareproportionaltothetimeoftheirseparation,ratherthanthedegreeoforganismaldifference.

Therefore,measuresofgeneticdivergencecanbeusedtodatethetimeofdivergenceforspeciespairsforwhichnofossildataareavailable:genesfunctionasMolecularClocks.

(fromA.C.Wilson1976)9精選ppt關于分子鐘的討論和爭議1、對長期進化而言,不存在以恒定速率替換的生物大分子一級結構;(基因功能的改變、基因數(shù)目的增加)2、不存在通用的分子鐘;3、爭議:分子鐘的準確性中性理論(分子鐘成立的基礎)10精選ppt第一節(jié)生物進化的分子機制分子途經(jīng)研究生物進化的可行性分子進化的模式分子進化的特點研究分子進化的作用11精選ppt分子途徑研究生物進化的可行性普適性由4種核酸組成分子水平的進化表現(xiàn)為:DNA序列的演化、氨基酸序列演化、蛋白質(zhì)結構及功能的演化可比較性比較不同物種的有關DNA序列建立DNA序列的演化模型、氨基酸序列的演化模型蛋白質(zhì)結構的演化模型基因組包含豐富的編碼信息與形態(tài)、性狀包含的信息相比,基因組序列、蛋白質(zhì)序列包含更多、更復雜的信息結構12精選ppt基因變異1、核苷酸替代、插入/缺失、重組2、基因復制固定在生物個體以及物種內(nèi)遺傳漂變自然選擇傳遞給后代產(chǎn)生新的形態(tài)、性狀分子進化的模式13精選ppt分子進化的模式1.DNA突變:替代,插入,缺失,倒位核苷酸替代:轉換(Transition)&顛換(Transversion)2.基因復制:多基因家族的產(chǎn)生以及偽基因的產(chǎn)生A.單個基因復制–重組或者逆轉錄B.染色體片斷復制C.基因組復制14精選pptThrTyrLeuLeuACCTATTTGCTGACCTCTTTGCTGThrSerLeuLeu替代ThrTyrLeuLeuACCTATTTGCTGACCTACTTTGCTGThrTyrPheAla插入ThrTyrLeuLeuACCTATTTGCTGACCTATTGCTG-ThrTyrCys-缺失ThrTyrLeuLeuACCTAT

TTGCTGACCTTT

ATGCTGThrPheMetLeu倒位(1)DNA突變15精選ppt核苷酸替代:轉換&顛換1.轉換:嘌呤被嘌呤替代,或者嘧啶被嘧啶替代2.顛換:嘌呤被嘧啶替代,或者嘧啶被嘌呤替代16精選ppt(2)基因復制:單個基因復制重組逆轉錄17精選ppt(2)基因復制:染色體片段復制人狒狒18精選ppt(2)基因復制:基因組復制S.Cerevisiae(釀酒酵母)K.Waltii(克魯雄酵母)研究結果:克魯雄酵母中的同源基因數(shù)量與釀酒酵母相比為1:219精選ppt分子進化的特點生物大分子進化速率相對恒定分子進化速率

生物大分子隨時間的改變而變化,主要表現(xiàn)為核苷酸、蛋白質(zhì)的一級結構的改變,即分子序列中核苷酸、氨基酸的替換不同物種同源大分子的分子進化速率大體相同

例子:比較不同物種血紅蛋白氨基酸序列差異

人、馬——0.810-9/AA.a

人、鯉魚——0.610-9/AA.a

分子進化速率遠遠比表型進化速率穩(wěn)定20精選ppt生物大分子進化的保守性保守性

功能上重要的大分子或大分子的局部在進化速率上明顯低于那些在功能上不重要的大分子或者大分子局部。(引起表型發(fā)生顯著改變的突變發(fā)生的頻率要低于無明顯表型發(fā)生顯著改變得突變發(fā)生的頻率。)氨基酸

例:血紅蛋白分子的外區(qū)的功能要次于內(nèi)區(qū)的功能,外區(qū)的進化速率是內(nèi)區(qū)進化速率的10倍。核苷酸

例:DNA密碼子的同義替代頻率高于非同義替代頻率;內(nèi)含子上的核苷酸替代頻率較高。GTTGTCGTAGTGCGTCGC脯氨酸P組氨酸HTGGTGC色氨酸W半胱氨酸C21精選ppt研究分子進化的作用從物種的一些分子特性出發(fā),構建系統(tǒng)發(fā)育樹,進而了解物種之間的生物系統(tǒng)發(fā)生的關系——treeoflife;物種分類大分子功能與結構的分析:同一家族的大分子,具有相似的三級結構及生化功能,通過序列同源性分析,構建系統(tǒng)發(fā)育樹,進行相關分析;功能預測進化速率分析:例如,HIV的高突變性;哪些位點易發(fā)生突變?22精選ppt研究分子進化的作用TreeofLife:16SrRNA23精選ppt研究分子進化的作用OutofAfrica53個人的線粒體基因組(16,587bp)人類遷移的路線24精選ppt第二節(jié)系統(tǒng)進化樹及其構建系統(tǒng)進化樹的概念系統(tǒng)進化樹的種類系統(tǒng)進化樹的構建25精選ppt系統(tǒng)進化樹的概念所有生物都可以追溯到共同的祖先,生物的產(chǎn)生和分化就像樹一樣生長、分叉,以樹的形式來表示生物之間的進化關系是非常自然的事。26精選ppt系統(tǒng)進化樹的概念phylogenetictree/evolutionarytree系統(tǒng)進化樹/生物進化樹/系統(tǒng)發(fā)育樹/系統(tǒng)發(fā)生樹/系統(tǒng)樹/進化樹/演化樹是表明被認為具有共同祖先的各物種相互間進化關系的樹形圖。27精選ppt系統(tǒng)進化樹的概念——術語祖先節(jié)點/樹根內(nèi)部節(jié)點/分歧點,該分支可能的祖先節(jié)點分支/世系:長度對應演化距離(如估計的演化時間)

末端節(jié)點:代表最終分類,可以是物種,群體,或者蛋白質(zhì)、DNA、RNA分子等

ABCDE28精選ppt系統(tǒng)進化樹的概念進化樹分支的圖像稱為進化的拓撲結構理論上,一個DNA序列在物種形成或基因復制時,分裂成兩個子序列,因此系統(tǒng)進化樹一般是二歧的。ABCDE?FGFGCDE?AB29精選ppt系統(tǒng)進化樹的概念直系同源(orthologs):同源的基因是由于共同的祖先基因進化而產(chǎn)生的。旁系同源(paralogs):同源的基因是由于基因復制產(chǎn)生的。用于分子進化分析中的序列必須是直系同源的,才能真實反映進化過程。旁系同源直系同源30精選ppt拓撲結構:有根樹:反映時間順序無根樹:反映距離系統(tǒng)進化樹的種類

——有根樹、無根樹archaeaarchaeaeukaryoteeukaryoteeukaryoteeukaryotearchaeabacteriaoutgrouprooteukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaea外圍支31精選pptabcdabcdabcdadbcbacdcabddabcacbdbcadcbaddbacadbcbaaccdabdcab考慮4個分類群時,共有15種可能的有根樹32精選pptabcdacbdadbc考慮4個分類群時,共有3種可能的無根樹33精選ppt#Taxa無根樹有根樹31343155151056105945794510,395…30~3.58X1036~2.04X1038Taxa增多,計算量急劇增加,選出真實樹的拓撲結構十分困難,因此,目前算法都為優(yōu)化算法,不能保證最優(yōu)解。系統(tǒng)進化樹的種類

——有根樹、無根樹34精選ppt系統(tǒng)進化樹的種類

——標度樹、非標度樹標度樹:分支的長度表示變化的程度非標度樹:分支只表示進化關系,支長無意義Bacterium1Bacterium3Bacterium2Eukaryote1Eukaryote4Eukaryote3Eukaryote2Bacterium1Bacterium3Bacterium2Eukaryote1Eukaryote4Eukaryote3Eukaryote2一個單位35精選pptabcdef基因分裂基因分裂基因分裂物種分裂系統(tǒng)進化樹的種類

——物種樹、基因樹物種樹:代表一個物種或群體進化歷史的系統(tǒng)進化樹,兩個物種分歧的時間為兩個物種發(fā)生生殖隔離的時間基因樹:由來自各個物種的一個基因構建的系統(tǒng)進化樹(不完全等同于物種樹),表示基因分離的時間。36精選ppt系統(tǒng)進化樹的構建構建系統(tǒng)進化樹的步驟構建系統(tǒng)進化樹的方法構建進化樹的一般原則37精選ppt構建系統(tǒng)進化樹的步驟多序列比對(自動比對,手工校正)選擇建樹方法以及替代模型建立進化樹進化樹評估38精選ppt構建系統(tǒng)進化樹的方法1.最大簡約法(maximumparsimony,MP)適用序列有很高相似性時2.距離法(distance)適用序列有較高相似性時3.最大似然法(maximumlikelihood,ML)可用于任何相關序列集合計算速度:距離法>最大簡約法>最大似然法39精選ppt構建系統(tǒng)進化樹的方法

——最大簡約法(MP)

理論基礎為奧卡姆(Ockham)原則:計算所需替代數(shù)最小的那個拓撲結構,作為最優(yōu)樹在分析的序列位點上沒有回復突變或平行突變,且被檢驗的序列位點數(shù)很大的時候,最大簡約法能夠推導獲得一個很好的進化樹缺點:分析序列上存在較多的回復突變或平行突變,而被檢驗的序列位點數(shù)又比較少的時候,可能會給出一個不合理的或者錯誤的進化樹推導結果40精選ppt信息位點能將所有可能的樹區(qū)別出來的位點。至少存在2個不同堿基/氨基酸且每個不同堿基/氨基酸至少出現(xiàn)兩次的位點。構建系統(tǒng)進化樹的方法

——最大簡約法(MP)

41精選ppt42精選ppt上例1.Position5,7,9為信息位點2.基于position5的三個MP樹:Tree1長度1,Tree2&3長度23.Tree1更為簡約:總長:4Tree2長5;Tree3長64.計算結果:MPtree的最優(yōu)結果為tree143精選ppt構建系統(tǒng)進化樹的方法

——距離法又稱距離矩陣法,首先通過各個物種之間的比較,根據(jù)一定的假設(進化距離模型)推導得出分類群之間的進化距離,構建一個進化距離矩陣。進化樹的構建則是基于這個矩陣中的進化距離關系。44精選ppt構建系統(tǒng)進化樹的方法

——距離法簡單的距離矩陣45精選ppt由進化距離構建進化樹的方法有很多,常見有:(1)Fitch-MargoliashMethod(FM法):對短支長非常有效(2)Neighbor-JoiningMethod(NJ法/鄰接法):求最短支長,最通用的距離方法(3)NeighborsRelatonMethod(鄰居關系法)(4)UnweightedPairGroupMethod(UPGMA法/非加權組平均法)構建系統(tǒng)進化樹的方法

——距離法46精選pptDE距離=d+e(1)D到ABC間的平均距離=d+m(2)E到ABC間的平均距離=e+m(3)(2)-(3)+(1)d=4,e=6構建系統(tǒng)進化樹的方法

——FM法47精選pptC最接近DE!分成三組:C,DE,以及AB構建系統(tǒng)進化樹的方法

——FM法48精選pptc+g+(e+d)/2=19(1)c+f+(a+b)/2=40(2)(e+d)/2+(a+b)/2+f+g=41(2)(1)+(2)-(3)得:c=9構建系統(tǒng)進化樹的方法

——FM法49精選pptc+g+(e+d)/2=19(e+d)/2=5,c=9,則g=5構建系統(tǒng)進化樹的方法

——FM法50精選ppt由:(a+b)/2+f+g+(d+e)/2=41得:f=20由:a+f+c=39得:a=10,則b=12構建系統(tǒng)進化樹的方法

——FM法51精選ppt1.最大似然法(maximumlikelihood,ML):最早應用于對基因頻率數(shù)據(jù)的分析上2.選取一個特定的替代模型來分析給定的一組序列數(shù)據(jù),在每組序列比對中考慮每個核苷酸替換的概率。例如,轉換出現(xiàn)的概率大約是顛換的三倍。在一個三條序列的比對中,如果發(fā)現(xiàn)其中有一列為一個C,一個T和一個G,我們就認為,C和T所在的序列之間的關系很有可能更接近。3.計算表示序列關系的每棵可能的樹的概率。概率總和最大的那棵樹最有可能是反映真實情況的系統(tǒng)發(fā)生樹。4.缺點:費時,每個步驟都要考慮內(nèi)部節(jié)點的所有可能性5.改進:啟發(fā)式算法構建系統(tǒng)進化樹的方法

——最大似然法(ML)52精選ppt構建系統(tǒng)進化樹的原則53精選ppt1.可靠的待分析數(shù)據(jù)2.準確的多序列比對3.選擇合適的建樹方法:A.序列相似程度高,MP首先B.序列相似程度較低,ML首先C.序列相似程度太低,無意義4.一般采用兩種及以上方法構建進化樹,無顯著區(qū)別可接受構建系統(tǒng)進化樹的原則54精選ppt1.選擇一個或多個已知與分析序列關系較遠的序列作為外圍支2.外圍支可以輔助定位樹根3.外圍支序列必須與剩余序列關系較近,但外圍支序列與其他序列間的差異必須比其他序列之間的差異更顯著構建系統(tǒng)進化樹的原則選擇外圍支bacteriaoutgroupeukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaea外類群55精選ppt進化樹的可靠性分析單純由預先獲得的多序列比對結果數(shù)據(jù)所推導出的進化樹有時并不一定可靠。改進辦法:引進一些統(tǒng)計分析來尋找更優(yōu)的進化樹,檢驗結果的可靠性。最常見的就是bootstrap評估。56精選ppt從排列的多序列中隨機有放回的抽取某一列,構成相同長度的新的排列序列;重復上面的過程,得到多組新的序列;對這些新的序列進行建樹,再觀察這些樹與原始樹是否有差異,以此評價建樹的可靠性。至少進行100次重復取樣。進化樹的可靠性分析自舉法(BootstrapMethod)57精選ppt進化樹的可靠性分析

自舉法(BootstrapMethod)原始數(shù)據(jù)多序列比對結果對序列中每個位置重復抽樣,基于原比對結果生成多個樣本58精選ppt59精選ppt第三節(jié)分子系統(tǒng)發(fā)育分析軟件及應用常用分子系統(tǒng)發(fā)育分析軟件分子系統(tǒng)發(fā)育分析實例(實驗三)60精選ppt軟件說明PHYLIP免費的、集成的進化分析工具/phylip.htmlMEGA圖形化、集成的進化分析工具,不包括ML/

PAUP商業(yè)軟件,集成的進化分析工具

/PHYML最快的ML建樹工具http://atgc.lirmm.fr/phyml/MrBayes基于貝葉斯方法的建樹工具/MAC5基于貝葉斯方法的建樹工具/software/mac5/常用分子系統(tǒng)發(fā)育分析軟件61精選ppt常用分子系統(tǒng)發(fā)育分析軟件軟件說明ClustalX圖形化的多序列比對工具;構建N-J系統(tǒng)樹http://bips.u-strasbg.fr/fr/Documentation/ClustalX//GeneDoc多序列比對結果的美化工具(可以導入fasta格式的文件,作圖可用于發(fā)表)/biomed/genedoc/

BioEdit序列分析的綜合工具

/BioEdit/bioedit.html

TreeView進化樹顯示工具http://taxonomy.zoology.gla.ac.uk/rod/treeview.html

62精選ppt常用分子系統(tǒng)發(fā)育分析軟件進化分析軟件PHYLIP:由華盛頓大學遺傳學系開發(fā),是一個免費的系統(tǒng)發(fā)育分析軟件包,可以通過以下地址下載,目前已更新至3.69版。/phylip.htmlPhylip包含了35個獨立的程序,這些獨立的程序都實現(xiàn)特定的功能,這些程序基本上包括了系統(tǒng)發(fā)生分析的所有方面。63精選ppt分子系統(tǒng)發(fā)育分析實例(實驗三)64精選ppt第五章:基于特征的系統(tǒng)發(fā)生分析

65精選ppt分子系統(tǒng)發(fā)生分析主要分成三個步驟:(1)分子序列或特征數(shù)據(jù)的分析;(2)系統(tǒng)發(fā)生樹的構造;(3)結果的檢驗。其中,第一步的作用是通過分析,產(chǎn)生距離或特征數(shù)據(jù),為建立系統(tǒng)發(fā)生樹提供依據(jù)。

66精選ppt

構成系統(tǒng)發(fā)生樹的分子數(shù)據(jù):

特征數(shù)據(jù)基于特征的系統(tǒng)發(fā)生分析

距離數(shù)據(jù)基于距離的系統(tǒng)發(fā)生分析關于進化關系的結論的一致性可以看作是對一棵系統(tǒng)發(fā)生樹的正確性的積極認可。67精選ppt5.1簡約法在生物學中,描述按照進化途徑中突變事件最少的標準來優(yōu)先選擇一個進化途徑的過程。兩個簡單假設:(1)突變是罕見事件;(2)一個模型引發(fā)了越不合理的事件,這個模型就越不可能是正確的。

因此,突變最少的進化關系就越有可能是物種之間真實的進化關系。68精選ppt4個物種三種可能的無根樹12341324142369精選ppt5.1.1信息位點和非信息位點根據(jù)信息內(nèi)容可以分為:信息位點(informative):含有信息的位點

信息位點就是指能由位點產(chǎn)生的突變數(shù)目把一棵樹與其它樹區(qū)分開來的位點;非信息位點(uninformative):不含有信息的位點

不變位點(invariant):屬于非信息位點,比較的所有序列都有同樣的核苷酸。即每一棵描述所有序列間進化關系的樹都有相同的突變數(shù)目(0)。70精選ppt((1,2)(3,4))((1,3)(2,4))((1,4)(2,3))序列位點1位點2位點3位點4位點5位點61GGGGGG2GGGAGT3GGATAG4GATCAT

圖5.1

4條同源序列的比對(每條序列有6個核苷酸)6個位點構造4個物種之間進化關系的可能無根樹不變位點71精選ppt序列位點1位點2位點3位點4位點5位點61GGGGGG2GGGAGT3GGATAG4GATCAT((1,2)(3,4))((1,3)(2,4))((1,4)(2,3))不變位點非信息位點72精選ppt序列位點1位點2位點3位點4位點5位點61GGGGGG2GGGAGT3GGATAG4GATCAT不變位點非信息位點非信息位點((1,2)(3,4))((1,3)(2,4))((1,4)(2,3))73精選ppt序列位點1位點2位點3位點4位點5位點61GGGGGG2GGGAGT3GGATAG4GATCAT不變位點非信息位點非信息位點非信息位點((1,2)(3,4))((1,3)(2,4))((1,4)(2,3))74精選ppt序列位點1位點2位點3位點4位點5位點61GGGGGG2GGGAGT3GGATAG4GATCAT不變位點非信息位點非信息位點非信息位點信息位點((1,2)(3,4))((1,3)(2,4))((1,4)(2,3))75精選ppt序列位點1位點2位點3位點4位點5位點61GGGGGG2GGGAGT3GGATAG4GATCAT不變位點非信息位點非信息位點非信息位點信息位點信息位點((1,2)(3,4))((1,4)(2,3))((1,3)(2,4))T76精選ppt信息位點的共同特征:

如果一個位點是信息位點,那么它(1)至少有兩種不同的核苷酸,并且(2)這些核苷酸至少出現(xiàn)兩次。77精選ppt5.1.2無權簡約法最簡約樹:考慮每個信息位點所有可能的樹,分別給每棵樹進行打分,統(tǒng)計每個位點的核苷酸最小替換數(shù)目。所有簡約信息位點最小核苷酸替換數(shù)的總和最小的樹記為最簡約樹。4條序列比對的例子可能是最簡單的例子:在只包含4條序列的分析中,每個信息位點只能支持3棵可能的樹中的1棵,含有最多信息位點的樹就是最簡約樹。78精選ppt5條或更多序列數(shù)據(jù)集的計算復雜得多。原因在于:⑴隨序列數(shù)增加,無根樹數(shù)目也增加;⑵每個信息位點可能有多棵樹,整個數(shù)據(jù)集的最大簡約樹不一定是含最多信息位點的樹;⑶每棵樹的核苷酸替換數(shù)目的計算更加困難。n個物種可能得到無根系統(tǒng)發(fā)生樹(Nu)數(shù)目:Nu=(2n-5)!/2n-3(n-3)!79精選ppt下圖是描述5條不同序列之間關系的15棵可能無根樹中的3棵。這3棵無根樹有相同的簡約度,它們的最小替換數(shù)都是2。由簡約規(guī)則,推斷出的祖先的候選核苷酸分別列在每個內(nèi)部節(jié)點的旁邊。T512346789GGAAGA(GA)(GAT)(a)A123456789GGTAGA(GT)

(GTA)(b)123456789GTGAAGGA(GA)(c)計算祖先核苷酸位置的算法:如果一個內(nèi)部節(jié)點的兩個直接后代節(jié)點上的核苷酸的交集非空,那么這個節(jié)點的最可能的候選核苷酸集就是這個交集;否則為它的兩個后代節(jié)點上的核苷酸集的并集。80精選ppt上述方法只適用于信息位點,不適用于非信息位點。非信息位點的最小替換數(shù):外部節(jié)點上不同核苷酸數(shù)目減去1(與樹的拓撲結構無關)例如:

5條序列的比對中,有一個位置上的核苷酸是G、G、A、G和T,則最小替換數(shù)就是3-1=2。非信息位點對所有可能的樹的貢獻都是等價的,在簡約分析中往往被完全排除。樹的長度(length):當一棵樹在信息位點和非信息位點的替換數(shù)的總和是一個確定的數(shù)值時,這個數(shù)值就是指樹的長度。81精選ppt5.1.3加權簡約法賦值的必要性:“突變是罕見事件”將所有突變看成是等價的,但之前的學習已經(jīng)告訴我們插入和刪除比替換可能性??;長插入和長刪除比短插入和短刪除少見;轉換概率大于顛換;功能相關的突變比無關的突變發(fā)生的概率小……因此,我們給各種突變賦予相對概率值,在簡約算法中可將這些值轉化為權值。82精選ppt我們無法得到一組適用于所有數(shù)據(jù)集的權值,原因有三:(1)一些序列比其他序列更容易插入和刪除;(2)即使是同源基因,對功能的重要性也因不同的基因、不同的物種而有所差別;(3)不同的基因和物種有不同的替換偏好。因此,最佳的權值通常來自對實驗數(shù)據(jù)集的分析,可獲得的最佳實驗數(shù)據(jù)集是實際分析過的數(shù)據(jù)集。例如:假如轉換出現(xiàn)頻率為顛換的3倍,那么對同一序列集的簡約分析就可以給所有的轉換替換賦權值1,給所有的顛換替換賦權值0.33。83精選ppt5.2推斷出的祖先序列簡約法最值得注意的副產(chǎn)品是分析過程中產(chǎn)生的推斷出的祖先序列,即使這些祖先可能在數(shù)億年前就已經(jīng)滅絕。推斷出的樹中的內(nèi)部分支的信息位點稱作共源性狀(synapomorphies,幾個物種共有的遺傳狀態(tài))。其他信息位點稱作同形性狀(homoplasies,),它是通過趨同進化、平行進化和逆轉進化,由物種獨立發(fā)展出來的特征,而不是從共同祖先遺傳得到的。84精選ppt哺乳動物嚙齒動物例如同形性狀共源性狀

應用

進化論對創(chuàng)世論的反駁利用簡約分析推斷出祖先,不僅填補了分子進化研究中空白,還能從現(xiàn)存后代序列中推斷出中間狀態(tài);85精選ppt5.3快速搜索策略即使信息位點的數(shù)目較少,用未改進的簡約法對較多序列的比對進行手工計算也是不現(xiàn)實。分析10條序列需要考慮200萬棵樹。由于數(shù)據(jù)集十分龐大,計算困難,因此研究出一些改進的算法,不用考慮所有可能的樹就能夠方便可靠地確定最簡約樹。分支約束法啟發(fā)式搜索86精選ppt5.3.1分支約束法分支約束法(BranchandBoundMethod)是在一個復雜的空間中進行搜索的通用技術,搜索空間以從一個分層樹的根節(jié)點至葉節(jié)點的一系列路徑表示。步驟:⑴為最簡約樹的長度確定一個上限L。L的值可以是隨機選擇的任何一棵描述被研究物種之間關系的樹的長度。但是如果用近似最簡約的樹(例如UPGMA產(chǎn)生的樹)來建立上限更有效。⑵樹的生長過程,即在描述部分序列之間關系的樹中每次增加一個分支。87精選ppt這個方法的原理是:由數(shù)據(jù)子集得到的任何一棵樹,如果它的替換數(shù)大于L,那么當剩下的序列加入后,總的分支長度必定變得更大,那么原先的長度為L的樹為最簡約樹。如果在分析過程中,如果發(fā)現(xiàn)比初始建立的上限為L的樹替換數(shù)更少的樹,那么L的值將隨之修正,這樣余下的數(shù)據(jù)集的分析將更為有效。88精選ppt分支約束法搜索最簡約樹的過程表示3個物種(A,B,C)之間關系的無根樹只有1棵(A1);用這棵樹作為起始點,將第4個物種(D)插入到樹A1中,得到四個物種的3種無根樹(B1,B2,B3);如果插入后得到的樹的長度大于原來的樹,例如B3,舍棄該樹。繼續(xù)插入第5個物種,重復上述步驟,直到所有待分析物種都被插入到樹中。下圖是用分支約束法搜索簡約樹的過程89精選pptBACA1STOPABCDB3ABCDB2ABCDB1ABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEABCDEC2.1C2.2C2.3C2.4C2.5STOPSTOPSTOPSTOPSTOPC1.1C1.2C1.3C1.4C1.5圖5.4用分支約束法搜索最簡約樹的過程90精選ppt分支約束法快速搜索策略的優(yōu)缺點優(yōu)點:分支約束法保證在分析完成時沒有遺漏更簡約的樹,具有比窮舉法搜索快幾個數(shù)量級的優(yōu)點;能分析多達20條序列。缺點:對于多于1×1021可能的無根樹的分析,計算量還是太大。91精選ppt5.3.2啟發(fā)式搜索對大于20條序列的多序列進行比對必須采用近似的更為有效的算法。啟發(fā)式方法的假設:各個可能的樹并不總是相互獨立的。最簡約數(shù)和次簡約數(shù)拓撲結構相似,因此首先構建一棵初始樹,從它開始尋找更短的樹。因此啟發(fā)式搜索通過子樹分支交換,把它們嫁接到該步分析中找到的最好的那棵樹的其他位置上,從而產(chǎn)生一棵拓撲結構和初始樹相似的樹。同分支約束法一樣,如果初始樹很接近于最簡約樹(例如UPGMA產(chǎn)生的樹),啟發(fā)式搜索會更有效。92精選ppt圖5.5分支交換再接1234567剪除1245673第一輪分析中,由初始樹產(chǎn)生出上百棵新樹,其中所有比初始樹短的新樹都在第二輪分析中被剪枝和嫁接。不斷重復這個過程,直到某一輪通過剪枝和嫁接無法產(chǎn)生與前一輪等長或更短的樹。93精選ppt大量序列比對的可能的無根樹的數(shù)目是一個天文數(shù)字,這種比對深度對計算造成了很大困難,把多個序列比對分成幾個較少序列的比對可以較好的解決這一問題。例如:同源哺乳動物序列靈長類序列嚙齒類序列部分偶蹄、兔類、靈長、嚙齒探知樹中靈長類所在樹干的末段之間的關系確定樹中嚙齒類所在樹干的末段之間的關系檢驗更早的分支、更具體的靈長類樹干和嚙齒類樹干的最后位置94精選ppt5.4一致樹簡約法產(chǎn)生多棵等價的簡約數(shù)是很常見的。此時最簡單的方法是用一個一致樹(consensustree)作為代表來概括所有等價的簡約樹。方法如下:(1)在所有樹中都一致的分支點在一致樹中表示成二叉分支點。(2)不一致的分支點蛻變成連接三個或更多后代分支的內(nèi)部節(jié)點。95精選ppt嚴格一致樹(strictconsensustree):只要有一棵簡約樹與其他不同,對所有不一致的分支點都進行相同的處理。過半截定一致(50%majority-ruleconsensus)

:只要有至少一半的樹符合條件,這個內(nèi)部節(jié)點在一致樹中就可以表示成二叉節(jié)點,而少于一半的樹符合條件的內(nèi)部節(jié)點表示為多叉節(jié)點。不一致性閾值是一個參數(shù),可以取0~100%的任意值。96精選ppt由一個數(shù)據(jù)集推斷出的3棵樹7712345612345612345671234567過半截定一致原則1234567嚴格一致原則97精選ppt5.5樹的置信度所有的系統(tǒng)發(fā)生樹都是關于組成數(shù)據(jù)集的序列的進化歷史的假設。系統(tǒng)發(fā)生樹的可靠性?問題:

(1)整棵樹和它的組成部分(分支)的置信度是多少?

(2)這樣得到正確的樹的可能性比隨機選出一棵是正確的樹的可能性大多少?解決方法:自舉檢驗——解決問題(1)參數(shù)檢驗——解決問題(2)98精選ppt5.5.1自舉檢驗(bootstraptest)

自舉檢驗是一種重采樣技術,能粗略地量化這些置信度水平。

自舉檢驗的基本方法是:(1)從原數(shù)據(jù)集中抽?。ㄍ瑫r替換)部分數(shù)據(jù)組成新的數(shù)據(jù)集。(2)用這個新的數(shù)據(jù)集推斷系統(tǒng)發(fā)生樹。重復上述過程,產(chǎn)生成百上千的重采樣數(shù)據(jù)集,并同時生成對應的自舉樹,進而檢驗自舉樹對最終系統(tǒng)發(fā)生樹各個分支的支持率。在各個自舉樹中都有出現(xiàn)或大量出現(xiàn)的那些部分將具有較高的置信度。產(chǎn)生相同分組的自舉樹的數(shù)目常常標注在系統(tǒng)發(fā)生樹相應節(jié)點的旁邊,表示樹中每個部分的相對置信度。99精選ppt系統(tǒng)發(fā)生樹的自舉檢驗序列Ⅳ位置ⅠⅡⅢⅤ推斷樹ⅠⅡⅢⅣⅤ自舉樹1ⅠⅡⅢⅣⅤ自舉樹2ⅠⅡⅢⅣⅤ自舉樹3ⅠⅡⅢⅣⅤ(a)(b)自舉樹ⅠⅡⅢⅣⅤ(c)

為3個重采樣數(shù)據(jù)集的一致樹7567GGGGGGGAAAGGGAGGGAAAGGGTAAAAATGAACAAAGGTGTTCAAAAAT12245557710GGGGGGATTTGGGATTATTTAAATGGACCCTTTCTTGTTTTTTCTTATTT3334667888GGGGGGGCCCGGGGGGTCCCGGAAAAGAAAGGTAAATAAAGGTAAATCCC1135556999GGGGGGATCAGGGAGTATCAGGATAGACATGATCATGTATGTTCATATCT12345678910100精選ppt5.5.2參數(shù)檢驗是否一棵有10,000個替換的樹比另一棵有10,001個替換的樹更有可能描述序列間真實進化關系?比起先前提出的另一棵描述物種間進化關系的樹,最簡約樹是真實樹的概率會大多少?

101精選pptH.Kishino和M.Hasegawa假設比對中的各個信息位點彼此獨立而且等價,并用兩棵樹的最小替換數(shù)之差D作為檢驗統(tǒng)計量。分別考慮每一個信息位點,按下式計算反映D變化程度的V值:

其中n是信息位點的數(shù)目,Di為兩棵樹中各個信息位點替換數(shù)的差值。n–1個自由度的t檢驗可以用來檢驗空假設,即兩棵樹的替換數(shù)相等的情況:102精選ppt5.6各種系統(tǒng)發(fā)生分析方法的比較無論是基于距離的系統(tǒng)發(fā)生樹重建方法,還是基于特征的系統(tǒng)發(fā)生樹重建方法,都不能保證一定能夠得到一棵描述比對序列進化歷史的真實的樹。一般的,對于某個數(shù)據(jù)集,如果用一種方法能推斷出正確的系統(tǒng)發(fā)生關系,那么用其他流行的方法也能得到好的結果。但是,如果模擬數(shù)據(jù)集中序列變化很大,或不同的分支變化速率不同,則沒有一種方法十分可靠。總規(guī)則:如果用截然不同的距離矩陣法和簡約法分析一個數(shù)據(jù)集能夠產(chǎn)生相似的系統(tǒng)發(fā)生樹,則這棵樹相當可靠。103精選ppt5.7分子系統(tǒng)發(fā)生分析5.7.1生命之樹序列分析提供了關于進化關系的新信息,其中最具影響力的是我們對于生命分化本質(zhì)的理解。過去30年中涌現(xiàn)了無數(shù)用序列分析解開進化關系之謎的有趣而重要的例子。這樣的研究往往對醫(yī)學、農(nóng)業(yè)和自然保護有重要的意義。例如:對一種傳染病治療有效的藥物可能對其他相關生物體引起的傳染病也有效;抗病因子通常容易在近緣關系的物種之間進行傳遞;一個生物體種群是否足以成為一個獨立的物種而值得特別保護。104精選ppt5.7.1生命之樹很多年前,生物學家將所有生命分成植物和動物這兩個主要的類。隨著越來越多生物體的發(fā)現(xiàn),后來在細胞結構的基礎上,人們把生物體分成了原核生物和真核生物。再后來,人們又提出了一些生命的基本分類,例如Whi

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論