分子進(jìn)化與系統(tǒng)發(fā)育分析_第1頁
分子進(jìn)化與系統(tǒng)發(fā)育分析_第2頁
分子進(jìn)化與系統(tǒng)發(fā)育分析_第3頁
分子進(jìn)化與系統(tǒng)發(fā)育分析_第4頁
分子進(jìn)化與系統(tǒng)發(fā)育分析_第5頁
已閱讀5頁,還剩110頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

關(guān)于分子進(jìn)化與系統(tǒng)發(fā)育分析第一頁,共一百一十五頁,2022年,8月28日本章內(nèi)容提要第一節(jié)關(guān)于分子進(jìn)化簡介第二節(jié)密碼子偏好及分析第三節(jié)氨基酸序列的進(jìn)化演變第四節(jié)分子系統(tǒng)發(fā)育分析第五節(jié)分子系統(tǒng)發(fā)育分析軟件介紹第二頁,共一百一十五頁,2022年,8月28日TreeofLife

重建所有生物的進(jìn)化歷史并以系統(tǒng)樹的形式加以描述第一節(jié)關(guān)于分子進(jìn)化簡介第三頁,共一百一十五頁,2022年,8月28日生物進(jìn)化理論達(dá)爾文進(jìn)化論:進(jìn)化:變異的遺傳自然選擇:解釋為何演變發(fā)生的機制種群中個體變異的遺傳學(xué)基礎(chǔ):孟德爾遺傳孟德爾豌豆實驗:雜交的表現(xiàn)特征是基因表達(dá)的結(jié)果,而不是基因雜交遺傳中性進(jìn)化論:并非所有種群中保留下來的突變都由自然選擇所形成;大多數(shù)突變是中性或接近中性,不妨礙種群的生存與繁衍。第四頁,共一百一十五頁,2022年,8月28日研究生物進(jìn)化歷史的途徑1.最確鑿證據(jù)是:生物化石!——零散、不完整2.比較形態(tài)學(xué)、比較解剖學(xué)和生理學(xué)等:確定大致的進(jìn)化框架——細(xì)節(jié)存很多的爭議第五頁,共一百一十五頁,2022年,8月28日分子進(jìn)化1964年,LinusPauling提出分子進(jìn)化理論;從物種的一些分子特性出發(fā),從而了解物種之間的生物系統(tǒng)發(fā)生的關(guān)系。

發(fā)生在分子層面的進(jìn)化過程:DNA,RNA和蛋白質(zhì)分子

基本假設(shè):核苷酸和氨基酸序列中含有生物進(jìn)化歷史的全部信息。第六頁,共一百一十五頁,2022年,8月28日分子進(jìn)化的模式DNA突變的模式:替代,插入,缺失,倒位;

核苷酸替代:轉(zhuǎn)換(Transition)&顛換(Transversion)

基因復(fù)制:多基因家族的產(chǎn)生以及偽基因的產(chǎn)生A.單個基因復(fù)制–重組或者逆轉(zhuǎn)錄B.染色體片斷復(fù)制C.基因組復(fù)制第七頁,共一百一十五頁,2022年,8月28日DNA突變的模式替代插入缺失倒位第八頁,共一百一十五頁,2022年,8月28日核苷酸替代:轉(zhuǎn)換&顛換

轉(zhuǎn)換:嘌呤被嘌呤替代,或者嘧啶被嘧啶替代

顛換:嘌呤被嘧啶替代,或者嘧啶被嘌呤替代第九頁,共一百一十五頁,2022年,8月28日基因復(fù)制:單個基因復(fù)制重組逆轉(zhuǎn)錄第十頁,共一百一十五頁,2022年,8月28日基因復(fù)制:基因組復(fù)制釀酒酵母克魯雄酵母研究結(jié)果:克魯雄酵母中的同源基因數(shù)量與釀酒酵母相比為1:2第十一頁,共一百一十五頁,2022年,8月28日物種分類及關(guān)系:從物種的一些分子特性出發(fā),構(gòu)建系統(tǒng)發(fā)育樹,進(jìn)而了解物種之間的生物系統(tǒng)發(fā)生的關(guān)系——treeoflife

大分子功能與結(jié)構(gòu)的分析:同一家族的大分子,具有相似的三級結(jié)構(gòu)及生化功能,通過序列同源性分析,構(gòu)建系統(tǒng)發(fā)育樹,進(jìn)行相關(guān)分析;功能預(yù)測

進(jìn)化速率分析:例如,HIV的高突變性;哪些位點易發(fā)生突變?分子進(jìn)化研究的目的第十二頁,共一百一十五頁,2022年,8月28日第十三頁,共一百一十五頁,2022年,8月28日基于16S/18S核糖體RNA序列比對得到的古細(xì)菌系統(tǒng)發(fā)育樹生命三界:細(xì)菌(Eubacteria)古細(xì)菌(Archaebacteria)真核(Eukaryotes)第十四頁,共一百一十五頁,2022年,8月28日TreeofLife:16SrRNA第十五頁,共一百一十五頁,2022年,8月28日OutofAfrica53個人的線粒體基因組(16,587bp)人類遷移的路線第十六頁,共一百一十五頁,2022年,8月28日同源性與相似性相似性(Similarity)序列比對過程中用來描述檢測序列和目標(biāo)序列之間相似DNA堿基或氨基酸殘基序列所占比例;定量描述;同源性(Homology)兩個基因或蛋白質(zhì)序列具有共同祖先的結(jié)論;定性判斷;相似不一定同源,同源不一定相似。氨基酸序列相似性超過30%,很可能同源。第十七頁,共一百一十五頁,2022年,8月28日兩種同源物:即垂直方向的(orthology)與水平

方向的(paralogy)。直系同源(orthology)是比較基因組學(xué)中最重要的定義。直系同源的定義是:(1)在進(jìn)化上起源于一個始祖基因并垂直傳遞(verticaldescent)的同源基因;(2)分布于兩種或兩種以上物種的基因組;(3)功能高度保守乃至于近乎相同,甚至于其在近緣物種可以相互替換;(4)結(jié)構(gòu)相似;(5)組織特異性與亞細(xì)胞分布相似。第十八頁,共一百一十五頁,2022年,8月28日鑒定直系同源的實際操作標(biāo)準(zhǔn)(practicalcriteria)為:

如基因組Ⅰ中的A基因與基因組Ⅱ中的A‘基因被認(rèn)是直系同源,則要求:(1)A‘的產(chǎn)物比任何在基因組Ⅱ中所發(fā)現(xiàn)的其它基因產(chǎn)物都更相似于A產(chǎn)物;(2)A‘與A的相似程度比在任何一個親緣關(guān)系較遠(yuǎn)的基因組中的任一基因都要高;(3)A編碼的蛋白與A‘編碼的蛋白要從頭到尾都能并排比較,即含有相似以至于相同的模序(motif)第十九頁,共一百一十五頁,2022年,8月28日旁系同源

(paralogy)基因是指同一基因組(或同系物種的基因組)中,由于始祖基因的加倍而橫向(horizontal)產(chǎn)生的幾個同源基因。

即兩個基因在同一物種中,通過至少一次基因復(fù)制的事件而產(chǎn)生。常常具有不同功能。第二十頁,共一百一十五頁,2022年,8月28日paralogsorthologs直系同源物vs.旁系同源物第二十一頁,共一百一十五頁,2022年,8月28日Orthologs&Paralogs

(直系同源與旁系同源)WormFlyHuman1Human2Yeast1Yeast2OrthologsParalogsGeneduplicationeventsSpeciationeventsParalogs第二十二頁,共一百一十五頁,2022年,8月28日第二十三頁,共一百一十五頁,2022年,8月28日直系與旁系的共性是同源,都源于各自的始祖基因。其區(qū)別在于:在進(jìn)化起源上,直系同源是強調(diào)在不同基因組中的垂直傳遞,旁系同源則是在同一基因組中的橫向加倍;在功能上,直系同源要求功能高度相似,而旁系同源在定義上對功能上沒有嚴(yán)格要求,可能相似,但也可能并不相似(盡管結(jié)構(gòu)上具一定程度的相似),甚至于沒有功能(如基因家族中的假基因)。旁系同源的功能變異可能是橫向加倍后的重排變異或進(jìn)化上獲得了另一功能。第二十四頁,共一百一十五頁,2022年,8月28日同源物種類Ortholog(直系同源物):兩個基因通過物種形成的事件而產(chǎn)生,或源于不同物種的最近的共同祖先的兩個基因,或者兩個物種中的同一基因,一般具有相同的功能。Paralog(旁系同源物):兩個基因在同一物種中,通過至少一次基因復(fù)制的事件而產(chǎn)生。常常具有不同功能。Xenolog(異系同源物):由某一個基因水平轉(zhuǎn)移事件而得到的同源序列。水平轉(zhuǎn)移的基因功能主要根據(jù)在前后宿主中變化而確定,然而功能卻常常相似。第二十五頁,共一百一十五頁,2022年,8月28日異源基因或水平轉(zhuǎn)移基因xenologousorhorizontallytransferredgenes第二十六頁,共一百一十五頁,2022年,8月28日序列同源性模型中的進(jìn)化假設(shè)所有的生物都起源于同一個祖先;序列不是隨機產(chǎn)生,而是在進(jìn)化上,不斷發(fā)生著演變;基本假設(shè):序列保守性結(jié)構(gòu)保守性注意:反之未必序列保守性結(jié)構(gòu)保守性第二十七頁,共一百一十五頁,2022年,8月28日第二節(jié)密碼子偏好及分析

密碼子(codon):在隨機或者無自然選擇的情況下,各個密碼子出現(xiàn)頻率將大致相等;

密碼子偏好:各個物種中,編碼同一氨基酸的不同同義密碼子的頻率非常不一致;

可能的原因:密碼子對應(yīng)的同功tRNA豐度的不同-Anticodon第二十八頁,共一百一十五頁,2022年,8月28日標(biāo)準(zhǔn)密碼子第二十九頁,共一百一十五頁,2022年,8月28日大腸桿菌RNA聚合酶第三十頁,共一百一十五頁,2022年,8月28日大腸桿菌RNA聚合酶(2)

密碼子偏好非常明顯;例如

同為編碼Leu的同義密碼子CUA和CUG,二者出現(xiàn)的次數(shù)顯著不等,CUA(1次),CUG(141次);

再如:編碼Arg的四個密碼子CGU,CGC,CGA,CGG,出現(xiàn)次數(shù)分別為:89,46,1,0.

提示:對應(yīng)CGG的同功tRNA可能不存在!第三十一頁,共一百一十五頁,2022年,8月28日tRNA&Anticodon

每一個密碼子,對應(yīng)一個tRNA;tRNA通過Anticodon來識別codon,聯(lián)系mRNA和氨基酸序列的合成;

密碼子的使用偏好:由密碼子對應(yīng)的tRNA的進(jìn)化及豐度來決定。第三十二頁,共一百一十五頁,2022年,8月28日堿基出現(xiàn)的頻率1.假如:每個核苷酸位點上的替代是隨機發(fā)生的,則A,T,C,G出現(xiàn)的頻率應(yīng)該大致相等。2.實際情況:DNA受到自然選擇的壓力,各個位點的堿基出現(xiàn)頻率并不相等。3.需要解決的問題:A.每個位點上受到什么樣的選擇壓力?B.各個位點的堿基頻率反映了什么樣的規(guī)律?4.表征/統(tǒng)計的方法:計算G+C的含量,并進(jìn)行比較第三十三頁,共一百一十五頁,2022年,8月28日同義替代vs.非同義替代64個密碼子,編碼20個氨基酸GTTGTCGTAGTGCGTCGC脯氨酸P組氨酸H四倍簡并二倍簡并TGGTGC色氨酸W半胱氨酸C同義替代非同義替代第三十四頁,共一百一十五頁,2022年,8月28日DNA序列突變對氨基酸序列的影響

同義(沉默)替代(synonymous/silentsubstitution)仍然為同義密碼子的核苷酸替代如:TATTAC

TyrTyr

非同義替代(nonsynonymoussubstitution)導(dǎo)致產(chǎn)生非同義密碼子的核苷酸替代如:TATAAT

TyrAsn

無義突變(nonsensemutation)導(dǎo)致產(chǎn)生終止密碼子的核苷酸突變?nèi)纾篢ATTAA

TyrSTP問題:假設(shè)所有密碼子以同一概率出現(xiàn),上述三種突變的比例?

25%,71%,4%第三十五頁,共一百一十五頁,2022年,8月28日分子進(jìn)化的理論自然選擇理論:陽性選擇:促進(jìn)有益突變;定向選擇:固定有益的等位基因;平衡選擇:保持多態(tài)性;陰性選擇(凈化選擇):清除有害突變;中性理論:陽性選擇:少有;陰性選擇:普遍存在;中性進(jìn)化:普遍存在;第三十六頁,共一百一十五頁,2022年,8月28日分子進(jìn)化的理論1.陽性選擇,適應(yīng)性進(jìn)化,達(dá)爾文進(jìn)化:DNA分子顯著出現(xiàn)非同義替代,改變編碼蛋白質(zhì)的氨基酸組成,并產(chǎn)生新的功能;2.陰性選擇,凈化選擇:DNA分子的同義替代顯著,較少改變蛋白質(zhì)的氨基酸組成,其原來的功能高度保守;3.中性進(jìn)化:同義替代與非同義替代比例相當(dāng),突變不好不壞,不改變或輕微改變蛋白質(zhì)的功能。第三十七頁,共一百一十五頁,2022年,8月28日基因的編碼區(qū)和非編碼區(qū)基因的DNA由編碼區(qū)(Codingregion)和非編碼區(qū)(Non-codingregion)構(gòu)成;編碼區(qū)可以轉(zhuǎn)錄信使RNA,進(jìn)而調(diào)控蛋白質(zhì)的合成;非編碼區(qū)不能轉(zhuǎn)錄成信使RNA,但是它可以調(diào)控遺傳信息的表達(dá);原核基因:編碼區(qū)全部編碼蛋白質(zhì);

真核基因:編碼區(qū)分為外顯子和內(nèi)含子,只有外顯子能編碼蛋白質(zhì);第三十八頁,共一百一十五頁,2022年,8月28日分子進(jìn)化選擇壓力

進(jìn)化選擇壓力:A.編碼區(qū):陽性選擇1%(決定物種形成、新功能的產(chǎn)生);陰性選擇19%(較少改變蛋白質(zhì)的氨基酸組成,其原來的功能高度保守);中性進(jìn)化80%(突變不好不壞)。B.非編碼區(qū):~100%的中性進(jìn)化第三十九頁,共一百一十五頁,2022年,8月28日編碼區(qū):密碼子1.對于同義的密碼子,第一位少部分可以允許不同,例如,編碼Ser的六個密碼子:TCT,TCC,TCA,TCG,AGT,AGC2.第二位必須相同3.第三位絕大多數(shù)可以不同

近似隨機;4.因此:A.第一位:陰性進(jìn)化占大部分,中性進(jìn)化占小部分B.第二位:陰性進(jìn)化C.第三位:陰性進(jìn)化占小部分,中性進(jìn)化占大部分第四十頁,共一百一十五頁,2022年,8月28日密碼子偏好的應(yīng)用及計算

基本假設(shè):在高表達(dá)的基因中,密碼子的選擇,更傾向于使用“優(yōu)化”的同義密碼子

推論1:給定一個物種的一些高表達(dá)的基因,我們可以估算優(yōu)化的同義密碼子的分布

推論2:接著,我們可以對給定的一個未知基因的序列進(jìn)行密碼子分布的分析,預(yù)測該基因的表達(dá)量!

推論3:對于一個表達(dá)量很低的基因,我們是否能夠通過將少量的密碼子改變成優(yōu)化密碼子,從而顯著提高基因的表達(dá)量?第四十一頁,共一百一十五頁,2022年,8月28日RSCU相對同義密碼子使用度(relativesynonymouscodonusage,RSCU)

定義:觀測到的某一同一密碼子的使用次數(shù),除以“期望”的該密碼子出現(xiàn)次數(shù)編碼第i個氨基酸的第j個密碼子的出現(xiàn)次數(shù)編碼第i氨基酸的同義密碼子的數(shù)目編碼第i個氨基酸的第j個密碼子的RSCU值第四十二頁,共一百一十五頁,2022年,8月28日密碼子相對適應(yīng)度

Therelativeadaptivenessofacodon

編碼第i個氨基酸的第j個同義密碼子的“相對適應(yīng)性”:

即該同義密碼子的觀察值,除以編碼該氨基酸的同義密碼子的最大值第四十三頁,共一百一十五頁,2022年,8月28日大腸桿菌&酵母第四十四頁,共一百一十五頁,2022年,8月28日CAI:密碼子適應(yīng)指數(shù)

CodonAdaptationIndexL為基因中所使用的密碼子數(shù)CAI值介于0~1之間,該值越大表示偏性越強;CAI值一般用來預(yù)測種內(nèi)基因的表達(dá)水平,以及預(yù)測外源基因的表達(dá)水平。不同物種CAI的計算依賴于各自的參考數(shù)據(jù)集。第四十五頁,共一百一十五頁,2022年,8月28日大腸桿菌和酵母:部分基因的CAI第四十六頁,共一百一十五頁,2022年,8月28日異源基因:在其他物種中的CAI第四十七頁,共一百一十五頁,2022年,8月28日第三節(jié)氨基酸序列的進(jìn)化演變

分子進(jìn)化的分析:基于氨基酸序列的分析早于DNA序列

優(yōu)勢:氨基酸序列更為保守,對年代跨度大的進(jìn)化分析有幫助;數(shù)學(xué)模型較DNA遠(yuǎn)為簡單p距離:p-distance

泊松校正,d距離第四十八頁,共一百一十五頁,2022年,8月28日P-distance:利用DNA序列數(shù)據(jù)計算遺傳距離

兩條蛋白質(zhì)序列之間的氨基酸差異數(shù)為nd,序列的氨基酸數(shù)目均為n,則P距離:不同物種的血紅蛋白α鏈中差異氨基酸的數(shù)目及比例:(長度:140aa)所有的插入/缺失均刪除第四十九頁,共一百一十五頁,2022年,8月28日PC:泊松校正

序列差異的百分比(p)與分歧時間t的關(guān)系:t較短的時候,回復(fù)突變較少,兩者大致成線性關(guān)系;當(dāng)t較大時,回復(fù)突變增多,二者成非線性關(guān)系基本假設(shè):令r為某一位點每年的氨基酸替代率,并假設(shè)所有位點的r都相同

在時間t年之后,每個位點替代的平均數(shù)為:rt

給定一個位點,氨基酸替代數(shù)k(k=0,1,2,3,…)的可能性遵循泊松分布,即

因此,某一位點氨基酸不變的概率為第五十頁,共一百一十五頁,2022年,8月28日泊松距離

祖先序列未知:不知道當(dāng)前的序列從何演化而來

解決方案:對兩條已經(jīng)有t年分化的序列,一條序列某位點無替代的概率為:,兩條序列同源位點均無替代概率為:

此概率可用1-p估計:q=1-p;兩個序列間每個位點氨基酸替代總數(shù)(d=2rt):d=-ln(1-p),即泊松距離第五十一頁,共一百一十五頁,2022年,8月28日P-距離vs.泊松距離p距離和泊松校正(PC)距離隨分歧時間變化的關(guān)系第五十二頁,共一百一十五頁,2022年,8月28日第四節(jié)分子系統(tǒng)發(fā)育分析1.系統(tǒng)發(fā)育樹:分子進(jìn)化樹/分子進(jìn)化分析2.通過進(jìn)化樹的構(gòu)建,分析分子之間的起源關(guān)系,預(yù)測分子的功能。3.建樹方法:A.最大簡約法(MaximumParsimony)B.距離法(distance-basedmethods)C.最大似然性法(MaximumLikelihood)D.貝葉斯(Bayesian)推斷

第五十三頁,共一百一十五頁,2022年,8月28日祖先節(jié)點/樹根內(nèi)部節(jié)點/分歧點,該分支可能的祖先結(jié)點分支/世系末端節(jié)點

ABCDE代表最終分類,可以是物種,群體,或者蛋白質(zhì)、DNA、RNA分子等系統(tǒng)發(fā)育樹:術(shù)語第五十四頁,共一百一十五頁,2022年,8月28日TaxonATaxonBTaxonCTaxonD116遺傳變化TaxonATaxonBTaxonCTaxonD時間TaxonATaxonBTaxonCTaxonD無意義分支圖

進(jìn)化樹

時間度量樹以上三種類型的系統(tǒng)發(fā)育樹表示相同的分支狀況,相同的進(jìn)化關(guān)系系統(tǒng)發(fā)育樹:三種類型遺傳變化無意義時間遺傳變化無意義以上三種類型的系統(tǒng)發(fā)育樹表示相同的分支狀況,相同的進(jìn)化關(guān)系時間遺傳變化無意義以上三種類型的系統(tǒng)發(fā)育樹表示相同的分支狀況,相同的進(jìn)化關(guān)系時間遺傳變化無意義分支圖

進(jìn)化樹

時間度量樹第五十五頁,共一百一十五頁,2022年,8月28日樹只代表分支的拓?fù)浣Y(jié)構(gòu)ABCDEFGFGCDEAB第五十六頁,共一百一十五頁,2022年,8月28日通過外類群來確定樹根根bacteriaoutgroupeukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaea有根樹外類群無根樹,有根樹,外類群通過外類群來確定樹根有根樹外類群通過外類群來確定樹根有根樹外類群通過外類群來確定樹根有根樹eukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaea無根樹第五十七頁,共一百一十五頁,2022年,8月28日無根樹和有根樹:潛在的數(shù)目#Taxa無根樹有根樹31343155151056105945794510,395…30~3.58X1036~2.04X1038Taxa增多,計算量急劇增加,因此,目前算法都為優(yōu)化算法,不能保證最優(yōu)解第五十八頁,共一百一十五頁,2022年,8月28日多序列比對(自動比對,手工校正)選擇建樹方法以及替代模型建立進(jìn)化樹進(jìn)化樹評估系統(tǒng)發(fā)育樹重建分析步驟第五十九頁,共一百一十五頁,2022年,8月28日1.最大簡約法(maximumparsimony,MP)適用序列有很高相似性時2.距離法(distance)適用序列有較高相似性時3.最大似然法(maximumlikelihood,ML)可用于任何相關(guān)序列集合計算速度:距離法>最大簡約法>最大似然法系統(tǒng)發(fā)育樹重建的基本方法第六十頁,共一百一十五頁,2022年,8月28日1.最大簡約法(MP)

根據(jù)信息位點提供的各序列間的替換情況,在所有可能的樹中篩選含最小替換數(shù)的樹的方法。理論基礎(chǔ)為奧卡姆剃刀(Ockham)原則:計算所需替換數(shù)最小的那個拓?fù)浣Y(jié)構(gòu),作為最優(yōu)樹。

在分析的序列位點上沒有回復(fù)突變或平行突變,且被檢驗的序列位點數(shù)很大的時候,最大簡約法能夠推導(dǎo)獲得一個很好的進(jìn)化樹。

優(yōu)點:不需要在處理核苷酸或者氨基酸替代的時候引入假設(shè)(替代模型)

缺點:分析序列上存在較多的回復(fù)突變或平行突變,而被檢驗的序列位點數(shù)又比較少的時候,可能會給出一個不合理的或者錯誤的進(jìn)化樹推導(dǎo)結(jié)果。第六十一頁,共一百一十五頁,2022年,8月28日信息位點:能將所有可能的樹區(qū)別出來的位點。

信息位點是指那些至少存在2個不同堿基/氨基酸且每個不同堿基/氨基酸至少出現(xiàn)兩次的位點。信息位點

(Sitesareinformative)第六十二頁,共一百一十五頁,2022年,8月28日第六十三頁,共一百一十五頁,2022年,8月28日上例Position5,7,9為信息位點;

基于position5的三個MP樹:Tree1長度為1,Tree2&3長度為2Tree1最為簡約:總長=4

Tree2長5;Tree3長6

計算結(jié)果:MPtree的最優(yōu)結(jié)果為tree1第六十四頁,共一百一十五頁,2022年,8月28日2.距離法又稱距離矩陣法,首先通過各個物種之間的比較,根據(jù)一定的假設(shè)(進(jìn)化距離模型)推導(dǎo)得出分類群之間的進(jìn)化距離,構(gòu)建一個進(jìn)化距離矩陣。再依據(jù)進(jìn)化距離,分別依次將序列合并聚類,構(gòu)建進(jìn)化樹。第六十五頁,共一百一十五頁,2022年,8月28日簡單的距離矩陣第六十六頁,共一百一十五頁,2022年,8月28日由進(jìn)化距離構(gòu)建進(jìn)化樹的方法有很多,常見有:(1)Fitch-MargoliashMethod(FM法):對短支長非常有效(2)Neighbor-JoiningMethod(NJ法/鄰接法):求最短支長,最通用的距離方法(3)NeighborsRelatonMethod(鄰居關(guān)系法)(4)UnweightedPairGroupMethodwithArithmeticMean(UPGMA,非加權(quán)組平均法)通過距離矩陣建樹的方法第六十七頁,共一百一十五頁,2022年,8月28日(1)Fitch-Margoliash方法(FM法)=>D和E最接近!DEABCedm示例第六十八頁,共一百一十五頁,2022年,8月28日分成三組:D,E,以及ABC(1)FM法示例第六十九頁,共一百一十五頁,2022年,8月28日DE距離=d+e=10(1)D到ABC間的平均距離=d+m=32.7(2)E到ABC間的平均距離=e+m=34.7(3)(2)-(3)+(1)d=4,e=6DEABCedm第七十頁,共一百一十五頁,2022年,8月28日分成三組:C,DE,以及AB=>C最接近DE!第七十一頁,共一百一十五頁,2022年,8月28日c+g+(e+d)/2=19(1)c+f+(a+b)/2=40(2)(e+d)/2+(a+b)/2+f+g=41(2)(1)+(2)-(3)=>

c=9=>g=5第七十二頁,共一百一十五頁,2022年,8月28日由:(a+b)/2+f+g+(d+e)/2=41得:f=20由:a+f+c=39得:a=10,則b=12第七十三頁,共一百一十五頁,2022年,8月28日(2)N-J/鄰接法與FM方法非常類似保證總的支長最短總支長:a+b+c+d+e=314/4=78.5第七十四頁,共一百一十五頁,2022年,8月28日找到距離最近的兩個點1.任意兩個節(jié)點選為相鄰序列的總支長計算公式:2.計算SAB,SBC,SCD,SDE…等數(shù)值3.該例中,SAB最小第七十五頁,共一百一十五頁,2022年,8月28日把A、B看成一個新的復(fù)合序列,構(gòu)建一個新的距離表,重復(fù)以上過程計算A,B的分支長度第七十六頁,共一百一十五頁,2022年,8月28日d=e=10/2=5UPGMA法第七十七頁,共一百一十五頁,2022年,8月28日c=19/2=9.5g=c-d=9.5-5=4.5第七十八頁,共一百一十五頁,2022年,8月28日a=b=22/2=11AB(CDE)A-2239.5B--41.5(CDE)---第七十九頁,共一百一十五頁,2022年,8月28日(AB)(CDE)(AB)-40.5(CDE)--f1+a=f2+c=40.5/2=20.25f1=9.25,f2=11.75第八十頁,共一百一十五頁,2022年,8月28日最大似然法(ML)最大似然法(maximumlikelihood,ML):最早應(yīng)用于對基因頻率數(shù)據(jù)的分析上

選取一個特定的替代模型來分析給定的一組序列數(shù)據(jù),使得獲得的每一個拓?fù)浣Y(jié)構(gòu)的似然率都為最大值,然后再挑出其中似然率最大的拓?fù)浣Y(jié)構(gòu)作為最優(yōu)樹;

在最大似然法的分析中,所考慮的參數(shù)并不是拓?fù)浣Y(jié)構(gòu)而是每個拓?fù)浣Y(jié)構(gòu)的枝長,并對似然率求最大值來估計枝長;

缺點:費時,每個步驟都要考慮內(nèi)部節(jié)點的所有可能性

改進(jìn):啟發(fā)式算法,分枝交換搜索等第八十一頁,共一百一十五頁,2022年,8月28日構(gòu)建進(jìn)化樹的一般原則第八十二頁,共一百一十五頁,2022年,8月28日1.可靠的待分析數(shù)據(jù)2.準(zhǔn)確的多序列比對3.選擇合適的建樹方法:A.序列相似程度高,MP首先B.序列相似程度較低,ML首先C.序列相似程度太低,無意義4.一般采用兩種及以上方法構(gòu)建進(jìn)化樹,無顯著區(qū)別可接受構(gòu)建進(jìn)化樹的一般原則(2)第八十三頁,共一百一十五頁,2022年,8月28日

選擇一個或多個已知與分析序列關(guān)系較遠(yuǎn)的序列作為外類群;

外類群可以輔助定位樹根;

外類群序列必須與剩余序列關(guān)系較近,但外類群序列與其他序列間的差異必須比其他序列之間的差異更顯著。外類群(Outgroup)bacteriaoutgroupeukaryoteeukaryoteeukaryoteeukaryotearchaeaarchaeaarchaea外類群第八十四頁,共一百一十五頁,2022年,8月28日進(jìn)化樹的可靠性分析單純由預(yù)先獲得的多序列比對結(jié)果數(shù)據(jù)所推導(dǎo)出的進(jìn)化樹有時并不一定可靠。改進(jìn)辦法:引進(jìn)一些統(tǒng)計分析來尋找更優(yōu)的進(jìn)化樹,檢驗結(jié)果的可靠性。最常見的就是bootstrap評估。第八十五頁,共一百一十五頁,2022年,8月28日從排列的多序列中隨機有放回的抽取某一列,構(gòu)成相同長度的新的排列序列;

重復(fù)上面的過程,得到多組新的序列;

對這些新的序列進(jìn)行建樹,再觀察這些樹與原始樹是否有差異,以此評價建樹的可靠性。一般Bootstrap的值>70,則認(rèn)為構(gòu)建的進(jìn)化樹較為可靠。自展法-進(jìn)化樹的可靠性分析BootstrapMethod第八十六頁,共一百一十五頁,2022年,8月28日原始排列AlphaAACAACBetaAACCCCGammaACCAACDeltaCCACCAEpsilonCCAAAC

Bootstrap1AlphaACAAACBetaACCCCCGammaACAAACDeltaCACCCAEpsilonCAAAACBootstrap2AlphaAAAACCBetaAACCCCGammaCCAACCDeltaCCCCAAEpsilonCCAACCBootstrap3AlphaACAAACBetaACCCCCGammaCCAAACDeltaCACCCAEpsilonCAAAAC第八十七頁,共一百一十五頁,2022年,8月28日第五節(jié)系統(tǒng)發(fā)育分析軟件介紹軟件說明PHYLIP免費的、集成的進(jìn)化分析工具/phylip.htmlMEGA圖形化、集成的進(jìn)化分析工具,不包括ML/

PAUP商業(yè)軟件,集成的進(jìn)化分析工具

/PHYML最快的ML建樹工具h(yuǎn)ttp://atgc.lirmm.fr/phyml/MrBayes基于貝葉斯方法的建樹工具/MAC5基于貝葉斯方法的建樹工具/software/mac5/第八十八頁,共一百一十五頁,2022年,8月28日相關(guān)軟件軟件說明ClustalX圖形化的多序列比對工具;構(gòu)建N-J系統(tǒng)樹http://bips.u-strasbg.fr/fr/Documentation/ClustalX//GeneDoc多序列比對結(jié)果的美化工具(可以導(dǎo)入fasta格式的文件,作圖可用于發(fā)表)/biomed/genedoc/

BioEdit序列分析的綜合工具

/BioEdit/bioedit.html

TreeView進(jìn)化樹顯示工具h(yuǎn)ttp://taxonomy.zoology.gla.ac.uk/rod/treeview.html

第八十九頁,共一百一十五頁,2022年,8月28日Phylip軟件包介紹由華盛頓大學(xué)遺傳學(xué)系開發(fā),免費的系統(tǒng)發(fā)育分析軟件包。目前最廣泛使用的系統(tǒng)發(fā)生分析程序,主要包括以下幾個程序組:分子序列組,距離矩陣組,基因頻率組,離散字符組,進(jìn)化樹繪制組。訪問及免費下載地址:第九十頁,共一百一十五頁,2022年,8月28日Phylip軟件包介紹

Phylip包含了35個獨立的程序,這些獨立的程序都實現(xiàn)特定的功能,這些程序基本上包括了系統(tǒng)發(fā)生分析的所有方面。多種不同平臺的版本(包括windows,Macintosh,DOS,Linux,Unix和OpenVMX)。

Phylip軟件包的文檔是非常詳細(xì)的,對于每個獨立的程序,都有一個獨立的文檔,詳細(xì)的介紹了該程序的使用及其說明。第九十一頁,共一百一十五頁,2022年,8月28日Phylip軟件包的應(yīng)用1,根據(jù)你的分析數(shù)據(jù),選擇適當(dāng)?shù)某绦蛉纾惴治龅氖荄NA數(shù)據(jù),就在核酸序列分析類中選擇程序(dnapenny,dnapars,dnamove,dnaml,dnamlk,dnainvar,dnadist,dnacomp

)2.選擇適當(dāng)?shù)姆治龇椒?如你分析的是DNA數(shù)據(jù),可以選擇簡約法(DNAPARS),似然法(DNAML,DNAMLK),距離法等(DNADIST)。3.進(jìn)行分析選擇好程序后,執(zhí)行,讀入分析數(shù)據(jù),選擇適當(dāng)?shù)膮?shù),進(jìn)行分析,結(jié)果自動保存為outfile,outtree。第九十二頁,共一百一十五頁,2022年,8月28日

outfile是一個記錄文件,記錄了分析的過程和結(jié)果,可以直接用文本編輯器(如寫字板)打開。

outtree是分析結(jié)果的樹文件,可以用phylip提供的繪樹程序打開查看,也可以用其他的程序來打開,如treeview等。Phylip軟件包的應(yīng)用第九十三頁,共一百一十五頁,2022年,8月28日現(xiàn)有8段protein序列:>P1MPRFAANLSMMFTEVPFIERFAAARKAGFDAVEFLFPYNYSTLQIQKQLE>P2MPRFEANLSMMFTEVPFAERFADARKAGFDAVEFLFPYCYSDLQIQCQLE>P3WPRFEANLSMMFTEVPFAERFADARKIGFDAEEFLFPYCYSDLQIQCQLE>P4MPCFAANLSMMFTEVPFIERFAAARKAGFDAVEFLFPYNYSTLQIQKQLE>P5MPRFEANLSMEFTAVPFIERFADARKAGFDAVEFLFPYCYSTLQIQKQLE>P6MPRFEANLSMMFTEVPFAERFADARKAGFDAEEFLFPYCYSDLQIQCQLE>P7MPRFEANLSMEFTEVPFIERFADARKAGFDAVEFLFPYCYSTLQIQKQLE>P8WPRFEANLS

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論