![生物信息學(xué)概論第四章基于距離的系統(tǒng)發(fā)生分析_第1頁](http://file4.renrendoc.com/view/4947decf1bc8ea1e47e142842b611e9a/4947decf1bc8ea1e47e142842b611e9a1.gif)
![生物信息學(xué)概論第四章基于距離的系統(tǒng)發(fā)生分析_第2頁](http://file4.renrendoc.com/view/4947decf1bc8ea1e47e142842b611e9a/4947decf1bc8ea1e47e142842b611e9a2.gif)
![生物信息學(xué)概論第四章基于距離的系統(tǒng)發(fā)生分析_第3頁](http://file4.renrendoc.com/view/4947decf1bc8ea1e47e142842b611e9a/4947decf1bc8ea1e47e142842b611e9a3.gif)
![生物信息學(xué)概論第四章基于距離的系統(tǒng)發(fā)生分析_第4頁](http://file4.renrendoc.com/view/4947decf1bc8ea1e47e142842b611e9a/4947decf1bc8ea1e47e142842b611e9a4.gif)
![生物信息學(xué)概論第四章基于距離的系統(tǒng)發(fā)生分析_第5頁](http://file4.renrendoc.com/view/4947decf1bc8ea1e47e142842b611e9a/4947decf1bc8ea1e47e142842b611e9a5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、第四章 基于距離的系統(tǒng)發(fā)生(fshng)分析共五十六頁本章(bn zhn)內(nèi)容分子(fnz)系統(tǒng)發(fā)生學(xué)的歷史4.1分子系統(tǒng)發(fā)生分析的優(yōu)點4.2系統(tǒng)發(fā)生樹4.3距離矩陣法4.4最大似然法4.5多重序列比對4.6共五十六頁4.1 分子(fnz)系統(tǒng)發(fā)生學(xué)的歷史 系統(tǒng)發(fā)生學(xué)是研究物種之間的進(jìn)化關(guān)系(gun x)的,是進(jìn)化生物學(xué)的一個重要研究領(lǐng)域,系統(tǒng)發(fā)生分析在達(dá)爾文時代就已經(jīng)開始。從那時起,科學(xué)家們就開始尋找物種的源頭,分析物種之間的進(jìn)化關(guān)系,給各個物種分門別類。 Charles Darwin (1809-1882)共五十六頁4.1 分子系統(tǒng)(xtng)發(fā)生學(xué)的歷史 19021904年,G.H.F
2、Nuttall證明了把一個生物體的血液注射到另一個生物體時,產(chǎn)生的免疫反應(yīng)的程度與這兩個生物體的進(jìn)化關(guān)系直接相關(guān)。通過這些實驗,他檢測了成百種生物之間的關(guān)系,并且最早正確地推斷出人和猿比它們和其它靈長類動物有更近的共同祖先 20世紀(jì)50年代,分子數(shù)據(jù)才開始(kish)被廣泛應(yīng)用于系統(tǒng)發(fā)生研究。蛋白質(zhì)電泳,使得我們可以在一些淺層特征上(如分子大小、電荷等)來分離和比較蛋白質(zhì) 20世紀(jì)60年代,蛋白質(zhì)測序成為可能,而在此之前,測序中等長度蛋白質(zhì)的全部氨基酸序列都是很不容易的。所有這些方法促進(jìn)了可研究其系統(tǒng)方式的生物體種類的重大改變共五十六頁4.1 分子系統(tǒng)(xtng)發(fā)生學(xué)的歷史20世紀(jì)70年代,
3、研究者開始能夠獲得真正的基因組信息。研究者一度熱衷于重建系統(tǒng)發(fā)生關(guān)系,結(jié)果還為面臨著成指數(shù)增長的數(shù)據(jù)的分子生物學(xué)家們發(fā)展出很多嚴(yán)格的數(shù)學(xué)方法。這是第一次研究者有可能對系統(tǒng)發(fā)生分類賦予統(tǒng)計置信度,并且相對容易地形成關(guān)于進(jìn)化過程的可驗性假設(shè) 如今(rjn),DNA序列數(shù)據(jù)比任何其他形式的分子信息都要豐富得多。傳統(tǒng)的基于解剖差異的分類方法仍舊給進(jìn)化提供補(bǔ)充數(shù)據(jù)。古生物學(xué)也提供了關(guān)于生物體積累差異和進(jìn)化真實時間不可替代的線索。此外,像PCR(聚合酶鏈?zhǔn)椒磻?yīng))這樣的分子技術(shù)產(chǎn)生同源序列提供了第一手的資料,使得回答關(guān)于地球上生命的歷史和關(guān)系這樣至關(guān)重要的問題變得更容易了。共五十六頁4.2 分子系統(tǒng)(xtn
4、g)發(fā)生分析的優(yōu)點 遺傳關(guān)系在解碼進(jìn)化(jnhu)關(guān)系上十分重要。分子時鐘假設(shè)的最大作用是暗示了分子數(shù)據(jù)能用來解碼所有生命體之間的系統(tǒng)發(fā)生關(guān)系。簡單說,就是生物體之間分子相似度越高,他們之間的關(guān)系就越近。表型分析在能夠利用分子生物學(xué)工具提供的分子數(shù)據(jù)進(jìn)行這種分析之前,分類學(xué)家只能依靠表型的比較來推斷生物體的基因型。最初的表型檢查僅包括大量粗略的解剖特征,后來還研究了行為的、超微結(jié)構(gòu)以及生物化學(xué)特性共五十六頁表型分析的局限性趨同進(jìn)化有時候關(guān)系很遠(yuǎn)的生物體也能進(jìn)化出相似的表型例如,如果一個生物學(xué)家按照生物體是否有眼睛來構(gòu)建進(jìn)化樹,那么他可能將人類、兩翼昆蟲和軟體動物放在同一個進(jìn)化組中許多生物沒有可
5、用來進(jìn)行比較的易于研究的表型特征例如,研究細(xì)菌之間的關(guān)系總是困難重重。即使用顯微鏡檢查(jinch),細(xì)菌幾乎沒有明顯特征當(dāng)比較關(guān)系較遠(yuǎn)的生物的時候,第三個問題出現(xiàn)了,即什么樣的表型特征能用來比較呢?共五十六頁基于DNA和蛋白質(zhì)序列的分析一般(ybn)不會存在這樣的問題,因為很多同源分子對所有生物都是很基本的共五十六頁概念 系統(tǒng)發(fā)生樹:三個或者更多基因或生物體 之間 進(jìn)化關(guān)系的典型圖示; 大部分系統(tǒng)發(fā)生研究都是圍繞系統(tǒng)發(fā)生樹的概念進(jìn)行的,它表示了數(shù)據(jù)之間的關(guān)系分歧時間共同(gngtng)祖先的特征 4.3 系統(tǒng)(xtng)發(fā)生樹共五十六頁4.3.1 重建系統(tǒng)發(fā)生(fshng)樹的術(shù)語系統(tǒng)發(fā)生樹
6、有時也稱為系統(tǒng)樹圖,它是由一系列的節(jié)點和分支組成的,其中每個節(jié)點代表一個分類單元。分支末端(m dun)的節(jié)點(外部節(jié)點)對應(yīng)一個基因或生物體;內(nèi)部節(jié)點代表一個推斷的共同祖先,它在過去的某個時候分歧出兩個獨立的分支。ABCD外部節(jié)點內(nèi)部節(jié)點根節(jié)點共五十六頁4.3.1 重建系統(tǒng)(xtng)發(fā)生樹的術(shù)語Newick 格式系統(tǒng)發(fā)生(fshng)樹結(jié)構(gòu)的基本信息在計算機(jī)程序中常用一組嵌套的圓括號表示,稱為 Newick 格式,用該格式來表示上圖中的樹,可寫成 ( ( (,) , (, ) ) , ) ABCD共五十六頁二叉樹與多叉樹雖然內(nèi)部節(jié)點可以是多叉,即有三個或者更多的派生分支,但大多數(shù)樹的內(nèi)部節(jié)
7、點都只有兩個分支,稱為二叉節(jié)點多叉節(jié)點可以用以下的兩個方法之一來解釋:一個祖先種群同時產(chǎn)生了三個或者更多的獨立分支過去某時發(fā)生了兩個或者多個二叉分歧,但是由于可獲得數(shù)據(jù)的限制無法確定它們發(fā)生的先后次序本章(bn zhn)系統(tǒng)發(fā)生樹主要指二叉樹共五十六頁一棵系統(tǒng)發(fā)生樹的分支模式能表達(dá)關(guān)于進(jìn)化事件發(fā)生順序的信息;一棵系統(tǒng)發(fā)生樹的分支長度有時(yush)用來表示不同數(shù)據(jù)集分歧的程度。標(biāo)度樹:是指分支長度與相鄰節(jié)點對的差異程度成正比的樹。在最好的情況下,標(biāo)度樹是可加的,即連接兩個節(jié)點的分支的長度準(zhǔn)確地表示了它們之間的差異非標(biāo)度樹:只是將所有外部節(jié)點排成行,表示他們之間的親緣關(guān)系,而沒有表示它們之間差異
8、程度的任何信息共五十六頁4.3.2 有根樹和無根樹根時間 有根樹 無根樹有根樹,單一的節(jié)點(ji din)指派為共同的祖先,從祖先節(jié)點只有唯一的路徑進(jìn)化到達(dá)其他任何節(jié)點。無根樹只表明(biomng)了節(jié)點之間的關(guān)系,而沒有關(guān)于進(jìn)化發(fā)生方向的信息;但是通過引入外群或外部參考物種,可以在無根樹中指派根節(jié)點共五十六頁4.3.2 有根樹和無根樹只考慮3個物種(wzhng)的時候,有3棵有根(二叉)樹,一棵無根樹,如下圖所示:有根樹無根樹共五十六頁4.3.2 有根樹和無根樹描述少量物種之間可能的進(jìn)化關(guān)系(gun x)的有根樹和無根樹的數(shù)目物種數(shù)目有根樹數(shù)目無根樹數(shù)目2113314153510515103
9、4 459 4252 207 02515213 458 046 767 8757 905 853 580 625208 200 794 532 637 891 559 375221 643 095 476 699 771 875n 個物種可能的有根系統(tǒng)(xtng)發(fā)生樹 (NR)和無根系統(tǒng)發(fā)生樹(NU)數(shù)目可用下面的公式計算得到: NR = (2n-3)! 2n-2 (n-2)! NU =(2n-5)!2n-3(n-3)!只有一棵樹代表了(基因或物種)的實際系統(tǒng)發(fā)生關(guān)系! 共五十六頁4.3.3 基因(jyn)樹和物種樹區(qū)別:基因樹為基于單個同源基因差異構(gòu)建的系統(tǒng)發(fā)生樹;物種樹一般從多個基因數(shù)據(jù)
10、中分析得出。 只考慮一個基因的時候,個體有可能(knng)表現(xiàn)出與其他物種的成員關(guān)系更近的情況。(下圖)基因分化的發(fā)生通常先于產(chǎn)生新物種的種群分離基因分化事件常常在物種形成前或后都有發(fā)生。共五十六頁abcdefG1G2G3SG4G5共五十六頁4.3.4 特征(tzhng)和距離數(shù)據(jù)用于構(gòu)建系統(tǒng)發(fā)生樹的分子數(shù)據(jù)分成兩類: (1) 距離 (distances) 數(shù)據(jù),常用距離矩陣描述,表示兩個數(shù)據(jù)集之間所有兩兩差異; (2) 特征 (characters) 數(shù)據(jù),存在有限不同(b tn)狀態(tài)的特征。 DNA 和蛋白質(zhì)序列數(shù)據(jù)描述離散的特征;其他特征數(shù)據(jù)集的例子包括基于解剖學(xué)或行為學(xué)的分類法中較常見
11、的特征,如生物體顏色、生物體對某種刺激的反應(yīng)時間等。一旦建立了確定所有可能狀態(tài)之間相似性的標(biāo)準(zhǔn),特征數(shù)據(jù)就很容易轉(zhuǎn)化成距離數(shù)據(jù);例如,來自兩個物種的兩個基因之間的距離值(D)可以簡單地用序列的最優(yōu)比對來確定,計算匹配的核苷酸數(shù)目(m),將它除以總的位點數(shù)目(t):D = m/t許多生物學(xué)家用“每100個核苷酸改變數(shù)”來歸一化距離值。共五十六頁通過蛋白質(zhì)序列比對時,也可以用同樣的方法來計算蛋白質(zhì)距離。但是,做這樣的轉(zhuǎn)換時,大量重要的潛在生物信息可能會丟失。比如,我們知道,一些(yxi)替換更容易發(fā)生在某些特定的核酸和蛋白質(zhì)序列上,因此比對時,應(yīng)賦予不同的權(quán)重值。以算術(shù)為基礎(chǔ)的系統(tǒng)發(fā)生樹重建方法,
12、常常忽略數(shù)據(jù)集的生物學(xué)上的意義(本章)。表型分類學(xué)家喜歡使用這種方法,因為他們把重點放在數(shù)據(jù)集之間的關(guān)系上,而不管他們到達(dá)當(dāng)前狀態(tài)的途徑如何遺傳分類學(xué)家一般更加關(guān)心進(jìn)化的途徑和模式,傾向于使用更多以生物學(xué)為基礎(chǔ)的建樹方法(第五章)這兩類方法都被廣泛使用,并且對大部分?jǐn)?shù)據(jù)集都適用共五十六頁4.4 距離(jl)矩陣法兩兩距離(jl)矩陣是全體有待分析的數(shù)據(jù)集之間差異的表格化總結(jié),包含用于很多常見系統(tǒng)發(fā)生樹重建算法的原始數(shù)據(jù)。要深入理解這些算法背后的邏輯,讀者首先應(yīng)該理解系統(tǒng)發(fā)生樹到底傳遞了什么樣的信息,從而選擇不同的算法4.4.1 非加權(quán)組平均法(UPGMA) 非加權(quán)組平均法 (UPGMA) 是最
13、早的距離矩陣法,20世紀(jì)60年代早期提出,用來協(xié)助進(jìn)行表型特征的進(jìn)化分析的是基于統(tǒng)計的,像所有基于距離的方法一樣,要求數(shù)據(jù)能夠精簡為所有被研究的物種兩兩之間遺傳距離的度量。 一般來說,UPGMA方法需要建立一個距離矩陣。 共五十六頁UPGMA距離(jl)矩陣系統(tǒng)(xtng)發(fā)生樹ACBDE共五十六頁例:4個物種A、B、C、D建立(jinl)的矩陣,假設(shè)其兩兩距離如下所示:數(shù)目ABCBdABCdACdBCDdADdBDdCDdAB表示(biosh)物種A和B之間的距離,dAC表示物種A和C之間的距離,依次類推。共五十六頁UPGMA 算法(sun f)先將兩個距離最近的物種合成一個復(fù)合物種組,如上
14、表所示,假設(shè)距離矩陣中的最小值是dAB,所以物種AB首先組合成一組(AB),聚類以后,需要更新距離矩陣,計算新組( AB ) 和物種C和D之間的距離:d (AB) C = 1/2 ( dAC+dBC), d(AB)D = 1/2 ( dAD+dBD ) 然后再將新的矩陣中距離最近的物種再次合成一個復(fù)合物種組,如此反復(fù),直到把所有物種都聚為一類。共五十六頁 例:兩兩矩陣(j zhn)之間的不匹配的核苷酸數(shù)目物種ABCDB9C811D121510E15181351020304050A:GTGCTGCACGGCTCAGTATAGCATTTACCCTTCCATCTTCAGATCCTGAAB:ACGCT
15、GCACGGCTCAGTGCGGTGCTTACCCTCCCATCTTCAGATCCTGAAC:GTGCTCGCAGGCTCGGCGCAGCATTTACCCTCCCATCTTCAGATCCTA T CD:GTATCACACGACTCAGCGCAGCATTTGCCCTCCCGTCTCCAGATCCTAAAE:CTATCACA T AGCTCAGCGCAGCATTTGCCCTCCCGTCTTCAGATCTAAAA最小將物種D和E聚成一類,然后(rnhu)再計算新的距離矩陣共五十六頁 將物種D和E聚成一類,然后再計算(j sun)新的距離矩陣物種ABCB9C811DE物種ABCDB9C811D1215
16、10E1518135=1/2(dAD+dAE)13.516.511.5=1/2(dBD+dBE)=1/2(dCD+dCE)共五十六頁 將物種A和C聚成一類,然后(rnhu)再計算新的距離矩陣物種BACACDE16.5物種ABCB9C811DE13.516.511.510=1/2(dAB+dBC)12.5=1/2(dA(DE)+dC(DE)共五十六頁用UPGMA法重建(zhn jin)系統(tǒng)發(fā)生樹DE(D,E)ACDE(A,C),(D,E)ACBDE(A,C),B),(D,E)物種BACAC10DE16.512.5共五十六頁4.4.2 分支長度(chngd)的估計系統(tǒng)發(fā)生樹的拓?fù)浣Y(jié)構(gòu)除了描述(mi
17、o sh)序列之間的關(guān)系,還可以表達(dá)有關(guān)序列的分歧程度的信息。標(biāo)度樹能夠表達(dá)這樣的信息,通常稱為進(jìn)化分支圖,它的分支長度對應(yīng)于推斷出的序列獨立積累替換的時間。確定進(jìn)化分支圖中每一條分支的相對長度,只要利用距離矩陣中的信息進(jìn)行簡單的計算。如果假設(shè)所有家系的進(jìn)化速率不變,那么內(nèi)部節(jié)點將置于與分叉樹上相對應(yīng)的兩個物種距離相等的地方。共五十六頁 例:兩兩矩陣(j zhn)之間的不匹配的核苷酸數(shù)目物種ABCDB9C811D121510E15181351020304050A:GTGCTGCACGGCTCAGTATAGCATTTACCCTTCCATCTTCAGATCCTGAAB:ACGCTGCACGGCTC
18、AGTGCGGTGCTTACCCTCCCATCTTCAGATCCTGAAC:GTGCTCGCAGGCTCGGCGCAGCATTTACCCTCCCATCTTCAGATCCTATCD:GTATCACACGACTCAGCGCAGCATTTGCCCTCCCGTCTCCAGATCCTAAAE:CTATCACATAGCTCAGCGCAGCATTTGCCCTCCCGTCTTCAGATCTAAAA共五十六頁4.4.2 分支長度(chngd)的估計例:A(A,C) (D,E)CDE442.52.56.256.25這個簡單的估計分支長度(chngd)的方法使得UPGMA成為能構(gòu)造有根系統(tǒng)發(fā)生樹的少數(shù)幾種方法之一。
19、dDE = 5dAC = 8 如果假設(shè)所有家系的進(jìn)化速率不變,那么內(nèi)部節(jié)點將置于與分叉樹上相對應(yīng)的兩個物種距離相等的地方。描述4個物種的標(biāo)度樹共五十六頁4.4.2 分支長度(chngd)的估計當(dāng)不同的家系有不同的進(jìn)化速率時,確定標(biāo)度樹的分支長度變得略微(lwi)復(fù)雜些BACzdAC= + dAB= + zdBC= + z對上面的等式進(jìn)行簡單的代數(shù)變換,分支長度就可以用兩兩距離矩陣中的數(shù)值表示: = (dAB + dAC dBC)/ 2 = (dAC + dBC dAB) / 2z = ( dAB + dBC dAC )/ 2最簡單的樹 (3個物種,1個分支點)共五十六頁4.4.2 分支(fnz
20、h)長度的估計對于更復(fù)雜的樹(多于一個分支點的樹)的分支長度(chngd)的估計,可以一次考慮3個分支。例:在一組5個物種(1,2,3,4和5)的距離矩陣中,用UPGMA首先將物種1和物種2聚到一組, 前面等式中的dAC和dBC就是這兩個物種和其他所有物種之間距離的平均值: dAC=(d13 + d14 + d15 )/3 dBC =(d23 + d24 + d25 )/3共五十六頁BACz123451、先考慮圓圈里的分支2、由于這里不再是三個物種, C所表示的含義不同于三 個物種的系統(tǒng)樹,它代表(dibio)除 1、2之外的所有物種。3、計算dAC、dBC dAC=(d13+d14+d15)
21、 / 3 dBC=(d23+d24+d25) / 34、用新計算出的dAC 、dBC替換三個物種系統(tǒng)樹公式中的dAC和dBC,得到公式 = (dAB + dAC dBC)/ 2 = (dAC + dBC dAB) / 2z = ( dAB + dBC dAC )/ 25、解出x、z之后再考慮下一個分支,最終解出全部(qunb)的距離共五十六頁4.4.3 距離(jl)變換法距離矩陣法的一個優(yōu)點是對于表型數(shù)據(jù)和分子數(shù)據(jù),甚至是兩者的結(jié)合,都很適用。它考慮了具體分析中所有可能獲得的數(shù)據(jù),而在第5章中介紹另一種算法簡約法則忽略所謂的非信息位點。UPGMA算法的一個缺陷是假定所有家系的進(jìn)化速率是相同的,
22、但是相對速率測試表明(biomng)情況并不總是這樣。替換速率的變化對UPGMA方法來說是很重要的問題,極易導(dǎo)致它產(chǎn)生錯誤的拓?fù)浣Y(jié)構(gòu)的樹。共五十六頁4.4.3 距離(jl)變換法除UPGMA法外,其他的一些基于距離矩陣的方法考慮了不同的家系有不同的進(jìn)化速率,其中最簡單的最早的算法是距離變換法。這種方法充分利用了外群或外部參考物種先于其他所有被考慮的物種 內(nèi)群或內(nèi)部物種 從它們的共同祖先中分化出來(ch li)的那些物種 。UPGMA距離矩陣系統(tǒng)發(fā)生樹外部種群距離變換共五十六頁4.4.3 距離(jl)變換法假定D為外部參考物種,變換式如下:dij=(dij-diD-djD)/ 2+dDdij是物
23、種i和j之間變換后的距離, dD是外部參考物種與全體內(nèi)部(nib)物種之間的平均距離。 dD=diD / (n-1)物種ABCB9C811D121510四個物種兩兩進(jìn)化距離(假設(shè)樹可加)ABCD362316四個物種之間真實系統(tǒng)發(fā)生關(guān)系以及分支長度共五十六頁物種ABCB9C811D121510dD=(dAD+dBD+dCD) / 3 = (12+15+10) / 3 = 37/ 3物種ABBCdAB=(dAB-dAD-dBD) / 2 + dD = (9-12-15)/2+37/3=10/310/3dBC=(dBC-dBD-dCD) / 2 + dD = (11-15-10)/2+37/3=16
24、/3dAC=(dAC-dAD-dCD) / 2 + dD = (8-12-10)/2+37/3=16/316/316/3共五十六頁4.4.3 距離(jl)變換法dij=(dij-diD-djD)/ 2+dDdij是物種i和j之間變換后的距離, dD是外部參考物種與全體內(nèi)部(nib)物種之間的平均距離。 dD=diD / (n-1)物種ABCB9C811D121510物種ABB10/3C16/316/3四個物種兩兩進(jìn)化距離(假設(shè)樹可加)3個物種為內(nèi)部物種,D為外部物種時的距離矩陣共五十六頁引入dD只是為了確保所有變換后的距離為正值,因為從進(jìn)化的角度看,負(fù)值是不可能的距離變化法的優(yōu)勢體現(xiàn)在那些很簡
25、單卻容易被忽略的方面內(nèi)部物種只是在分化發(fā)生后進(jìn)化分離出來(ch li)的,所以它們積累的替換數(shù)目一定是從那以后才有了差異外部參考物種為比較它們替換速率提供了客觀參考的框架上述例子中,距離變換法在確定樹的正確拓?fù)浣Y(jié)構(gòu)上優(yōu)于單獨使用UPGMA法。當(dāng)然,當(dāng)不能獨立確定哪些物種是外部參考物種時,UPGMA法還是可行的。任意一個內(nèi)部物種也能提供時候變換距離的參考框架,而使用外部參考物種的最大優(yōu)點是使得系統(tǒng)發(fā)生樹能有一個根共五十六頁4.4.4 近鄰(jn ln)關(guān)系法近鄰關(guān)系法是由UPGMA法演變出的另一種(y zhn)常用的方法,強(qiáng)調(diào)配對物種,由此構(gòu)造一棵分支長度總和最小的樹(針對4個物種,無根樹)。近
26、鄰:任意一棵無根樹中,僅被一個內(nèi)部節(jié)點分隔的一對物種稱為近鄰。DABCabcde四個物種 (A,B,C,D) 之間進(jìn)化關(guān)系的通用系統(tǒng)發(fā)生樹共五十六頁上圖中的系統(tǒng)發(fā)生樹的拓?fù)浣Y(jié)構(gòu)給出了一些近鄰間有用的代數(shù)關(guān)系,由于樹是正確的且可加和,則下面的等式成立: dAC + dBD= dAD + dBC = a+b+c+d+2e = dAB + dCD+ 2e下面的不等式也是成立的(四點條件): a+b+c+d = dAB + dCD dAC + dBD = a+b+c+d+2ea+b+c+d = dAB + dCD dAD + dBC = a+b+c+d+2e考慮4個物種間所有可能物種對的排列(3對),
27、然后(rnhu)確定哪一個滿足四點不等式。四點不等式的一個重要假設(shè)是,系統(tǒng)發(fā)生樹的分支長度是可加的。由于它對不符合假設(shè)的情況不敏感,所以不可加的數(shù)據(jù)集會導(dǎo)致這種算法產(chǎn)生錯誤拓?fù)浣Y(jié)構(gòu)的樹共五十六頁dAB + dCD dAC + dBDdAB + dCD dAD + dBC物種ABCB1C43D321ABCD113324共五十六頁1977年,S.Sattath和A.Tversky提出了一種用近鄰關(guān)系法構(gòu)建多于4個物種的樹的方法。他們建立了一個距離矩陣,用矩陣中的值計算出針對前4個物種的3個數(shù)值: dAB + dCD dAC + dBD dAD + dBC。取和最小的兩個配對打分為1,而其他的4個配
28、對打分為0 。對數(shù)據(jù)集中所有可能的4個物種的組合(Cn4 )都重復(fù)以上的步驟,不斷累計得分。最后得分最高的一對物種聚為一組,即這兩個物種是近鄰,就像UPMGA法一樣,得到一個新的距離矩陣,用新的距離矩陣開始新一輪的打分過程(guchng),直到只剩下3個物種(此時,樹的拓?fù)浣Y(jié)構(gòu)已經(jīng)明確確定了)。 共五十六頁例:假定有5個物種(wzhng),A,B,C,D,E構(gòu)成的距離矩陣要做C54 =5次比較,每次取4個物種A B C D、 A B C E、 A B D E、 A C D E、 B C D E每次比較對C42 =6個物種對賦值(0或1)總計C52 =10個物種對A-BA-CA-DA-EB-CB
29、-DB-EC-DC-ED-E第一次XXXXXX第二次XXXXXX第三次XXXXXX第四次XXXXXX第五次XXXXXX總計共五十六頁4.4.5 鄰近(ln jn)歸并法鄰近歸并法是對上面的方法做了一些改動。這類算法首先是由一棵星狀樹開始,不管數(shù)目多少,所有的物種(wzhng)都從一個中心節(jié)點出發(fā),然后通過最小化樹的分支長度和,相繼找到近鄰。計算分支長度和公式: 1987年N.Saitou和M.Nei 提出 樹的1和2的位置可以使其中任何一對物種,N是距離矩陣中物種的數(shù)目 k 是引入外部參考物種, dij是物種 i 和 j 之間的距離; 共五十六頁1988年,J.Studier和K.Kepple
30、r提出一種快速算法: Q12= (N-2) d12 - d1i - d2i 在每一輪過程中考慮所有可能的物種對(Cn2),把能使樹的整個分支長度最?。⊿或Q最?。┑奈锓N對聚為一組,從而產(chǎn)生新的距離矩陣S和Q標(biāo)準(zhǔn)在理論上是相關(guān)的。上面(shng min)所述的鄰近歸并法和近鄰關(guān)系法在理論上也是等價的,因為它們都基于四點不等式和可加和的假設(shè)。所以,鄰近歸并法和近鄰關(guān)系法產(chǎn)生的樹的拓?fù)浣Y(jié)構(gòu),即使不完全一致,也是十分相似的。共五十六頁4.5 最大似然法最大似然法是另外一類完全基于統(tǒng)計的系統(tǒng)發(fā)生樹重建方法的代表。該法在每組序列比對中考慮了每個核苷酸替換的概率。例如(lr),在第3章中我們已經(jīng)知道,轉(zhuǎn)換出
31、現(xiàn)的概率大約是顛換的3倍。在一個三序列的比對中,發(fā)現(xiàn)其中有一列為一個C、一個T和一個G,有理由認(rèn)為,C和T所在的序列之間的關(guān)系有可能更接近。共五十六頁算法復(fù)雜性:由于被研究序列的共同祖先序列是未知的,概率的計算變得復(fù)雜。又由于可能在一個位點或多個位點發(fā)生(fshng)多次替換,并且不是所有的位點都相互獨立或者等價,概率計算的復(fù)雜度進(jìn)一步加大盡管如此,還是能用客觀標(biāo)準(zhǔn)來計算每個位點的概率以及在此基礎(chǔ)之上表示多序列比對中序列間關(guān)系的每棵可能樹的概率。然后根據(jù)定義,概率總和最大的那棵樹最有可能是反映真實情況的系統(tǒng)發(fā)生樹。沒有一個替換模型是普遍適用的。因為不同的模型很容易導(dǎo)致不同的結(jié)果,所以當(dāng)用這種方法的時候,必須仔細(xì)考慮和描述所使用的模型共五十六頁4.6 多重序列(xli)比對在前面第2章提到多重序列比對,在被比對的序列十分相似并且不涉及很多的插入或刪除事件情況下的序列比對是最容易的。兩個以上的序列同時(tngsh)比對是兩個序列比對的擴(kuò)展。多序列比對中的最主要的困難是計算。 例如:在多序列比對中,在一條序列中
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學(xué)二年級數(shù)學(xué)乘法口算測試題人教版
- 醫(yī)院網(wǎng)絡(luò)安全保密協(xié)議書范本
- 財產(chǎn)抵押借款合同范本
- 2025年度食堂窗口員工培訓(xùn)及管理服務(wù)合同
- 二零二五年度國際貨運代理合同書協(xié)議書
- 二零二五年度集體魚塘承包與漁業(yè)法律法規(guī)咨詢合同范本
- 二零二五年度實習(xí)生薪資及培訓(xùn)費用補(bǔ)充協(xié)議
- 人教版道德與法治九年級下冊5.1《走向世界大舞臺》聽課評課記錄1
- 二零二五年度茶葉加盟店營銷推廣合作協(xié)議
- 二零二五年度物業(yè)與業(yè)主之間安全隱患賠償合同
- 現(xiàn)代通信原理與技術(shù)(第五版)PPT全套完整教學(xué)課件
- 社區(qū)獲得性肺炎教學(xué)查房
- 病例展示(皮膚科)
- GB/T 39750-2021光伏發(fā)電系統(tǒng)直流電弧保護(hù)技術(shù)要求
- DB31T 685-2019 養(yǎng)老機(jī)構(gòu)設(shè)施與服務(wù)要求
- 燕子山風(fēng)電場項目安全預(yù)評價報告
- 高一英語課本必修1各單元重點短語
- 糖尿病運動指導(dǎo)課件
- 完整版金屬學(xué)與熱處理課件
- T∕CSTM 00640-2022 烤爐用耐高溫粉末涂料
- 心腦血管病的危害教學(xué)課件
評論
0/150
提交評論