分子進(jìn)化和系統(tǒng)發(fā)育課件_第1頁
分子進(jìn)化和系統(tǒng)發(fā)育課件_第2頁
分子進(jìn)化和系統(tǒng)發(fā)育課件_第3頁
分子進(jìn)化和系統(tǒng)發(fā)育課件_第4頁
分子進(jìn)化和系統(tǒng)發(fā)育課件_第5頁
已閱讀5頁,還剩86頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、分子進(jìn)化和系統(tǒng)發(fā)育第1頁,共91頁。Darwin, Charles(1809-1882) The Origin of Species(1859)共同祖先第2頁,共91頁?;C據(jù)最理想的方法經(jīng)典的進(jìn)化研究方法然而零散、不完整第3頁,共91頁。形態(tài)學(xué)證據(jù)確定大致的進(jìn)化框架經(jīng)典的進(jìn)化研究方法第4頁,共91頁。分子進(jìn)化研究分子進(jìn)化理論由萊納斯.鮑林(Linus Pauling)于 1964年提出。該理論基本假設(shè):核苷酸和氨基酸序列中含有生物進(jìn)化歷史的全部信息。ACTCGACTTACTCGGCTTACTTGGCTTGCTTGGCTTGCTTGTCTTGATTGTCTCCATTGTCACCACTATCA

2、CCACTATGAC第5頁,共91頁。系統(tǒng)發(fā)育分析:研究物種進(jìn)化和系統(tǒng)分類的一種方法,常用一種類似樹狀分支的圖形來概括各物種/類群生物之間的親緣關(guān)系,這種樹狀分支的圖形稱為系統(tǒng)發(fā)育樹。系統(tǒng)發(fā)育(phylogeny)相關(guān)概念第6頁,共91頁。Tree of Life:重建所有生物的進(jìn)化歷史并以系統(tǒng)樹的形式加以描述。第7頁,共91頁。分子進(jìn)化研究系統(tǒng)進(jìn)化樹16S rDNA第8頁,共91頁。分子進(jìn)化研究物種分類第9頁,共91頁。分子進(jìn)化研究人類起源(Out of Africa)線粒體基因組(16,587bp)人類遷移的路線當(dāng)前人類線粒體基因組最大的差異存在于非洲和非非洲人之間。第10頁,共91頁。分

3、子鐘理論在各種不同的發(fā)育譜系及足夠大的進(jìn)化時間尺度中,許多序列的進(jìn)化速率幾乎是恒定不變的。兩個物種的同源基因之間的差異程度與它們的共同祖先的存在時間(即兩者的分歧時間)有一定的數(shù)量關(guān)系。第11頁,共91頁。從一個分歧數(shù)據(jù)可以推測其他序 列 分 歧 度分歧時間xy分子鐘理論第12頁,共91頁。系統(tǒng)發(fā)育分析的基本步驟第13頁,共91頁。序列有指定的來源并且正確無誤。序列是同源的,即所有的序列都起源于同一祖先序列(ortholog)。樣本序列之間的差異包含了足以解決感興趣的問題的信息位點(diǎn)。樣本序列隨機(jī)進(jìn)化。序列中的每一個位點(diǎn)的進(jìn)化都是獨(dú)立的。選擇生物學(xué)數(shù)據(jù)時的注意事項第14頁,共91頁。Orthol

4、og (直系同源基因):兩個基因通過物種形成的事件而產(chǎn)生,或源于不同物種的最近的共同祖先的兩個基因,或者兩個物種中的同一基因,一般具有相同的功能。Paralog (旁系同源基因):兩個基因在同一物種中,通過至少一次基因復(fù)制(重復(fù))的事件而產(chǎn)生,常常具有不同的功能。第15頁,共91頁。paralogsorthologs直系同源基因 vs. 旁系同源基因第16頁,共91頁。祖先節(jié)點(diǎn)/樹根內(nèi)部節(jié)點(diǎn)/分歧點(diǎn),該分支可能的祖先結(jié)點(diǎn)分支/世系末端節(jié)點(diǎn) ABCDE代表最終分類,可以是物種,群體,或者蛋白質(zhì)、DNA、RNA分子等系統(tǒng)發(fā)育樹的基本特征第17頁,共91頁。通過外類群來確定樹根根bacteria o

5、utgroupeukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaea有根樹外類群無根樹,有根樹,外類群通過外類群來確定樹根有根樹外類群通過外類群來確定樹根有根樹外類群通過外類群來確定樹根有根樹eukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaea無根樹第18頁,共91頁。樹根確定最常用的確定樹根的方法是使用一個或多個無可爭議的同源物種作為外群(outgroup),這個外群要足夠近,以提供足夠的信息,但又不能太近以至于和樹中的種類相混。外群(outgroup)第19頁,共91頁

6、。abcabc不同數(shù)目的分類群可能的有根樹和無根樹考慮3個分類群時,共有3種可能的有根樹,1種無根樹acbcba第20頁,共91頁。abcdabcdabcdadbcbacdcabddabcacbdbcadcbaddbacadbcbaaccdabdcab考慮4個分類群時,共有15種可能的有根樹第21頁,共91頁。abcdacbdadbc考慮4個分類群時,共有3種可能的無根樹第22頁,共91頁。無根樹和有根樹:潛在的拓?fù)浣Y(jié)構(gòu)數(shù)目無根樹有根樹分類群數(shù)樹分枝/樹樹分枝/樹31334435156515710586105994510102,027,0251734,459,42518308.69 10365

7、74.95 103858N(2N - 5)!2N - 3 (N - 3)!2N - 3(2N - 3)!2N - 2 (N - 2)!2N - 2第23頁,共91頁。真實樹(true tree)物種分化事件的順序在歷史上是唯一的,所以在用給定物種建立的所有可能的樹中只有一種能代表真實的進(jìn)化歷史,這樣一種系統(tǒng)樹稱為真實樹。推測樹(inferred tree)用某一組數(shù)據(jù)和某種構(gòu)樹法得到的樹稱推測樹,推測樹可能與真實樹等同也可能與真實樹不同。分類數(shù)目增大,計算量急劇增加,因此,目前算法都為優(yōu)化算法,不能保證最優(yōu)解第24頁,共91頁。DNA序列的替換模型第25頁,共91頁。祖先基因XYt2t時間XY

8、第26頁,共91頁。AAGACTTTGGACTTAAGGCCTAGGGCATTAGCCCTAGCACTTAAGGCCTTGGACTTTAGCCCATAGACTTAGCACAAAGGGCATAGGGCATTAGCCCTAGCACTTAAGACTTTGGACTTAAGGCCTAGGGCATTAGCCCTAGCACTTAAGGCCTTGGACTTAGCGCTTAGCACAATAGACTTTAGCCCAAGGGCATDNA 序列進(jìn)化演變321當(dāng)前百萬年第27頁,共91頁。DNA序列間的差異DNA序列間核苷酸的差異越少,分化時間越短;同一祖先序列衍生的兩條后裔序列間分化的簡單測度就是兩條后裔序列不同核苷

9、酸位點(diǎn)的比例。第28頁,共91頁。對于兩條長度為N的序列,差異位點(diǎn)數(shù)為n,則兩條DNA序列的替換率P(也可以稱兩條序列之間的距離或差異):DNA序列的替換率估計P=n/N第29頁,共91頁。14個堿基長度,其中有3個位點(diǎn)發(fā)生了改變,那么這兩條序列的替換率(距離) P=3/14DNA序列的替換率估計大多數(shù)替換估計會顯著低估真正替換的數(shù)目。如在序列的同一個位點(diǎn)可能發(fā)生不止一次的變化。如在第7個位置觀測到G,而在另一條序列為A, 有多種可能 G AG C A第30頁,共91頁。DNA序列替換模式第31頁,共91頁。必須準(zhǔn)確和無偏見地估計替換率;數(shù)學(xué)模型可以考慮回復(fù)和平行突變等情況,尤其是在P值較大時

10、。DNA序列的替換模型替換模型的必要性:第32頁,共91頁。Jukes - Cantor 單參數(shù)模型最簡單的DNA序列進(jìn)化模型:假設(shè)每個核苷酸有同樣的機(jī)會突變?yōu)槿我黄渌塑账? 突變幾率為;那么每一個核苷酸總的替換幾率為3。ATCGK=真正的替換率P=觀測到的替換率可以概括出大部分突變的發(fā)生情況第33頁,共91頁。Jukes-Cantor單參數(shù)模型修正替換率為: K = (- ) ln (1 *0.21) = 0.253443如觀測到的替換率 7/14 =0.5, 那么單參數(shù)模型修正后的替換率更為可信: K = (- ) ln (1 *0.5) = 0.823443Jukes - Cantor

11、 單參數(shù)模型觀測到的替換率3/14 = 0.21第34頁,共91頁。Kimura雙參數(shù)模型轉(zhuǎn)換: 嘌呤 嘌呤;嘧啶 嘧啶顛換: 嘌呤 嘧啶;嘧啶 嘌呤兩類核苷酸: 嘌呤(A,G);嘧啶:(C,T和U)同類型核苷酸間相互替換和不同類型核苷間互替換的幾率不同。這促使了Kiumra兩參數(shù)模型的產(chǎn)生。轉(zhuǎn)換發(fā)生的幾率是顛換的三倍。第35頁,共91頁。Kimura雙參數(shù)模型ATCG轉(zhuǎn)換發(fā)生的幾率是顛換發(fā)生的幾率是K=真正的替換率P=觀測到的轉(zhuǎn)換率Q=觀測到的顛換率第36頁,共91頁。Kimura雙參數(shù)模型修正替換率為: K = ln ( ) +12 1 0 1-2*0.07-0.14觀測到的替換率3/14

12、 = 0.21觀測到的轉(zhuǎn)換率1/14 = 0.07觀測到的顛換率2/14 = 0.12Kimura雙參數(shù)模型14 1 0 1-2*0.14ln ( )=0.164+0.082=0.246K = (- ) ln (1 *0.21) = 0.2463443單參數(shù)模型修正:第37頁,共91頁。單參數(shù)和雙參數(shù)模型的比較序列分化(序列差異)較小時, 兩個模型的結(jié)果基本相同;序列分化(序列差異)較大時,雙參數(shù)模型更為準(zhǔn)確, 特別是轉(zhuǎn)換率明顯高于顛換率。第38頁,共91頁。氨基酸序列的替換模型第39頁,共91頁。氨基酸序列的進(jìn)化演變氨基酸序列較核苷酸序列更為保守,對年代跨度大的進(jìn)化分析大多采用氨基酸序列數(shù)據(jù)

13、;對于編碼蛋白質(zhì)的基因序列對齊排列時可能需要借助氨基酸序列的校正;氨基酸置換模型比核苷酸置換模型簡單。為什么研究氨基酸?第40頁,共91頁。氨基酸序列替換率估計兩條氨基酸序列的替換率(P距離)為:兩條序列間差異氨基酸的數(shù)目(n)占氨基酸序列長度(N)的比例:P距離P=n/N進(jìn)化時間越長,P值越大第41頁,共91頁。氨基酸序列替換率估計不同物種間血紅蛋白鏈氨基酸差異數(shù)及比例不同物種血紅蛋白鏈氨基酸序列的對齊(140個aa的前60個)第42頁,共91頁。進(jìn)化時間氨基酸序列替換率期望值 (實際值)觀測值P不是很嚴(yán)格地與時間成比例進(jìn)化時間較短時,回復(fù)突變較少,兩者大致成線性關(guān)系;當(dāng)進(jìn)化時間較大時,回復(fù)

14、突變增多,二者成非線性關(guān)系。第43頁,共91頁。泊松校正(Poisson Correction)泊松校正d=-ln(1-p),即泊松距離。TIYAPPPWSTIYTPPPWSTIYGPPPWSTIYAPPPWS例如該位點(diǎn)的丙氨酸雖然發(fā)生了3次變化,但我們并沒有觀察到這些變化由于氨基酸存在回復(fù)突變,大多數(shù)替換估計會顯著低估真正替換率。第44頁,共91頁。泊松校正0.129 0.129 0.206 0.573 0.6660.129 0.232 0.637 0.6520.197 0.598 0.6240.573 0.7070.753泊松校正距離P距離第45頁,共91頁。P-距離與泊松距離比較進(jìn)化時間

15、氨基酸序列替換率期望值 (實際值)P距離(觀測值)泊松距離第46頁,共91頁。1. 最大簡約法 (maximum parsimony, MP)適用序列有很高相似性2. 距離法 (distance)適用序列有較高相似性3. 最大似然法 (maximum likelihood, ML)可用于任何相關(guān)序列集合計算速度:距離法 最大簡約法 最大似然法系統(tǒng)發(fā)育樹重建基本方法第47頁,共91頁。1. 最大簡約法根據(jù)信息位點(diǎn)提供的各序列間的替換情況,在所有可能的樹中篩選含最小替換數(shù)樹的方法。理論基礎(chǔ)為奧卡姆剃刀(Ockham)原則:計算所需替換數(shù)最小的那個拓?fù)浣Y(jié)構(gòu),作為最優(yōu)樹。在分析的序列位點(diǎn)上沒有回復(fù)突變

16、或平行突變,且被檢驗的序列位點(diǎn)數(shù)很大的時候,最大簡約法能夠推導(dǎo)獲得一個很好的進(jìn)化樹。第48頁,共91頁。優(yōu)點(diǎn):不需要在處理核苷酸或者氨基酸替代的時候引入假設(shè) (替代模型)缺點(diǎn):分析序列上存在較多的回復(fù)突變或平行突變,而被檢驗的序列位點(diǎn)數(shù)又比較少的時候,可能會給出一個不合理的或者錯誤的進(jìn)化樹。第49頁,共91頁。最大簡約法(Maximum Parsimony Method)以下3個序列:1. ACG2. ACA3. GGA它們?nèi)绾螐囊粋€共同祖先(GGG)進(jìn)化而來?ACGACAGGAGGGACGACGACAGGAGGGGGGACGACAGGAGGGGGA121312212最大簡約法基本原則:計算一

17、個有最小化突變事件的進(jìn)化路徑,作為最優(yōu)樹。第50頁,共91頁。簡約信息位點(diǎn):位點(diǎn)上至少有兩種不同的核苷酸或氨基酸,且每種至少出現(xiàn)兩次。 不變位點(diǎn):在所有分類群中相同核苷酸或氨基酸的位點(diǎn)。 不變位點(diǎn)不提供任何信息。信息位點(diǎn) (informative site)第51頁,共91頁。哪一個樹是正確的?第52頁,共91頁。信息位點(diǎn)第53頁,共91頁。第54頁,共91頁。第55頁,共91頁。第56頁,共91頁。Tree 1突變位點(diǎn)4Tree 2突變位點(diǎn)5Tree 3突變位點(diǎn)6用最大簡約法構(gòu)樹, 選擇最小變化的拓?fù)錁涞?7頁,共91頁。Tree 1突變位點(diǎn)4MP tree最優(yōu)結(jié)果為Tree 1Tree 2

18、突變位點(diǎn)5Tree 3突變位點(diǎn)6第58頁,共91頁。根據(jù)最大簡約法構(gòu)建的最優(yōu)樹第59頁,共91頁。2. 距離法又稱距離矩陣法,首先通過各個物種之間的比較,根據(jù)一定的假設(shè)(進(jìn)化距離模型)推導(dǎo)得出分類群之間的進(jìn)化距離,構(gòu)建一個進(jìn)化距離矩陣。再依據(jù)進(jìn)化距離,分別依次將序列合并聚類,構(gòu)建進(jìn)化樹。第60頁,共91頁。一種簡單的距離矩陣距離數(shù)據(jù)(distance data) : 涉及成對基因、個體、群體或物種信息,常用距離矩陣描述,表示兩個數(shù)據(jù)集之間的關(guān)系。 第61頁,共91頁。構(gòu)樹方法: UPGMA非加權(quán)分組平均法 (UPGMA, Unweighted Pair Group Method with Ar

19、ithmetic mean)最近分類群分類群聚類計算平均距離第62頁,共91頁。構(gòu)樹方法: UPGMA新的距離矩陣計算:如分類單元i和j,所形成的新的聚類群(ij),新聚類群到其他分類單元k的距離計算如下:其中ni,nj,(ni+nj)分別為分類單元i、j和(ij)類的元素個數(shù)。第63頁,共91頁。ABCDEB2C44D666E6664F888881)通過兩兩比較,獲得一個距離矩陣 構(gòu)樹方法: UPGMAABECDF第64頁,共91頁。2) 找到距離矩陣中最小的距離,在這個例子中最小距離是A 和 BABCDEB2C44D666E6664F88888構(gòu)樹方法: UPGMA第65頁,共91頁。將

20、A 與 B 相連并給每一個分支賦予一半的距離。構(gòu)樹方法: UPGMAABECDF第66頁,共91頁。ABCDEB2C44D666E6664F888882) 將(AB) 作為一個單元考慮,根據(jù)聚類結(jié)果來重新計算距離d(AB),C=d(AC)/2+d(BC)/2=4d(AB),D=(dAD)/2+d(BD)/2=6d(AB),E=(dAE)/2+d(BE)/2=6d(AB),F=(dAF)/2+d(BF)/2=8構(gòu)樹方法: UPGMAABECDF第67頁,共91頁。ABCDEB2C44D666E6664F888882) (AB) 作為一個新的聚類單元,依次計算所有影響到的距離構(gòu)樹方法: UPGMA

21、ABCDEC4D66E664F8888第68頁,共91頁。ABCDEC4D66E664F88883) 找到下一個最小的距離(D與E)構(gòu)樹方法: UPGMA第69頁,共91頁。將 D 與 E 相連并給每一個分支賦予一半的距離。構(gòu)樹方法: UPGMAABECDF第70頁,共91頁。ABCDEC4D66E664F88883) 將(DE) 作為一個單元考慮,根據(jù)聚類結(jié)果來重新計算距離例如, (DE) 與 (AB)的距離等同于(dAD+dAE+dBD+dBE)/4=(6+6+6+6)/4=6構(gòu)樹方法: UPGMAECDFAB第71頁,共91頁。ABCDEC4D66E664F88883) 依次計算所有影響

22、到的距離構(gòu)樹方法: UPGMAABCDEC4DE66F888第72頁,共91頁。ABCDEC4DE66F8884) 繼續(xù)找到下一個最小的距離(C與 (AB))構(gòu)樹方法: UPGMA第73頁,共91頁。將 C 與 (AB) 相連并給每一個分支賦予一半的距離。構(gòu)樹方法: UPGMADECFAB第74頁,共91頁。ABCDEC4DE66F8884) 將(AB)C) 作為一個單元考慮,根據(jù)聚類結(jié)果來重新計算距離例如, (AB)C) 和(DE)的距離等同于(dAD+dAE+dBD+dBE+dCD+dCE)/6=6構(gòu)樹方法: UPGMADECFAB第75頁,共91頁。ABCDEC4DE66F8884) (

23、AB)C) 作為一個新的聚類單元,依次計算所有影響到的距離構(gòu)樹方法: UPGMAABCDEDE6F88第76頁,共91頁。ABCDEDE6F885)繼續(xù)找到下一個最小的距離在這個例子中 是(DE)和 (AB)C)之間的距離構(gòu)樹方法: UPGMA第77頁,共91頁。構(gòu)樹方法: UPGMADEFABC將 (DE)與 (AB)C) 相連并給每一個分支賦予一半的距離。第78頁,共91頁。ABCDEDE6F885)(AB)C)(DE) 作為一個新的聚類單元,根據(jù)聚類結(jié)果來重新計算距離構(gòu)樹方法: UPGMADEFABC第79頁,共91頁。ABCDEF86) 最后一步,生成UPGMA樹構(gòu)樹方法: UPGMA

24、第80頁,共91頁。如進(jìn)化速率在不同分類群間近似恒定,以至進(jìn)化距離與分化時間之間存在近似線性關(guān)系,則可用該方法來構(gòu)建系統(tǒng)樹。UPGMA構(gòu)樹方法特點(diǎn)UPGMA 是一種構(gòu)樹的簡單方法,應(yīng)用范圍:第81頁,共91頁。如變化速率在各分類群間不同,則UPGMA法可能會給出錯誤的拓?fù)浣Y(jié)構(gòu)。UPGMA構(gòu)樹方法特點(diǎn)真實樹的拓?fù)浣Y(jié)構(gòu)UPGMA構(gòu)建的錯誤拓?fù)浣Y(jié)構(gòu)第82頁,共91頁。鄰位相連法(Neighbor Joining)鄰位相連法:根據(jù)距離矩陣,在所有可能的拓?fù)浣Y(jié)構(gòu)中,選擇分支長度和最小作為最優(yōu)樹。通過對整個樹的長度進(jìn)行最小化,從而對樹的拓?fù)浣Y(jié)構(gòu)進(jìn)行了限制。CDXYUVABEF(h)(i)(d)(g)(c)(f)(b)(e)(a)S:所有分支長度總和S=a+b+g+c+h+d+i+e+f最

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論