版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第9章系統(tǒng)發(fā)育分析系統(tǒng)發(fā)育學(xué)研究的是進(jìn)化關(guān)系,系統(tǒng)發(fā)育分析就是要推斷或者評(píng)估這些進(jìn)化關(guān)系。通過(guò)系統(tǒng)發(fā)育分析所推斷出來(lái)的進(jìn)化關(guān)系一般用分枝圖表(進(jìn)化樹)來(lái)描述,這個(gè)進(jìn)化樹就描述了同一譜系的進(jìn)化關(guān)系,包括了分子進(jìn)化(基因樹)、物種進(jìn)化以及分子進(jìn)化和物種進(jìn)化的綜合。因?yàn)椤眂lade”這個(gè)詞(擁有共同祖先的同一譜系)在希臘文中的本意是分支,所以系統(tǒng)發(fā)育學(xué)有時(shí)被稱為遺傳分類學(xué)(cladistics)。在現(xiàn)代系統(tǒng)發(fā)育學(xué)研究中,研究的重點(diǎn)已經(jīng)不再是生物的形態(tài)學(xué)特征或者其他特性,而是生物大分子尤其是序列。盡管本章的目的是想描述一個(gè)萬(wàn)能的系統(tǒng)發(fā)育分析方法,但是這個(gè)目標(biāo)過(guò)于天真,是不可能實(shí)現(xiàn)的(Hills et
2、al.,1993)。雖然人們已經(jīng)設(shè)計(jì)了大量的用于系統(tǒng)發(fā)育的算法、過(guò)程和計(jì)算機(jī)程序,這些方法的可靠性和實(shí)用性還是依賴于數(shù)據(jù)的結(jié)構(gòu)和大小,因此關(guān)于這些方法的優(yōu)點(diǎn)和缺點(diǎn)的激烈爭(zhēng)論成了分類學(xué)和系統(tǒng)發(fā)育學(xué)期刊的熱門課題(Avise, 1994:Saitou, 1996; Li, 1997; Swofford et al., 1996a)。Hillis等人(1993)曾經(jīng)極其簡(jiǎn)單地介紹過(guò)系統(tǒng)發(fā)育學(xué)。比起許多其它學(xué)科而言,用計(jì)算的方法進(jìn)行系統(tǒng)發(fā)育分析很容易得到錯(cuò)誤的結(jié)果,而且出錯(cuò)的危險(xiǎn)幾乎是不可避免的;其它學(xué)科一般都會(huì)有實(shí)驗(yàn)基礎(chǔ),而系統(tǒng)發(fā)育分析不太可能會(huì)擁有實(shí)驗(yàn)基礎(chǔ),至多也就是一些模擬實(shí)驗(yàn)或者病毒實(shí)驗(yàn)(Hi
3、llis et al., 1994);實(shí)際上,系統(tǒng)發(fā)育的發(fā)生過(guò)程都是已經(jīng)完成的歷史,只能去推斷或者評(píng)估,而無(wú)法再現(xiàn)了。盡管現(xiàn)在的系統(tǒng)發(fā)育分析的程序存在著很多缺陷,許多生物學(xué)著作中仍然大量引用系統(tǒng)發(fā)育分析得到的結(jié)論,這些結(jié)論的源數(shù)據(jù)只是簡(jiǎn)單地應(yīng)用了某一個(gè)系統(tǒng)發(fā)育的分析程序。只有在很偶然的情況下,在應(yīng)用某些 HYPERLINK /soft/ 軟件處理數(shù)據(jù)時(shí)受到的困難會(huì)少一點(diǎn),但是在概念上理解這些程序是如何處理數(shù)據(jù)仍然是個(gè)難題。本文中關(guān)于系統(tǒng)發(fā)育分析方法的指導(dǎo)有如下一些目的。首先,我們要介紹一個(gè)概念性的步驟,這個(gè)步驟包含了當(dāng)前在對(duì)生物序列進(jìn)行系統(tǒng)發(fā)育分析時(shí)最廣泛使用的方法中應(yīng)用到的一些最重要的原理。
4、這個(gè)步驟認(rèn)為,所有的系統(tǒng)發(fā)育方法都刻畫了一個(gè)模型去模擬真實(shí)的進(jìn)化過(guò)程,然后假定程序發(fā)現(xiàn)的序列之間的差異是模擬的進(jìn)化結(jié)果,而這個(gè)模型本身就包含了方法中固有的假定。對(duì)于一個(gè)好的使用的系統(tǒng)發(fā)育的分析方法,刻畫一個(gè)正確的模型同描繪一個(gè)正確的進(jìn)化樹是同等重要的。另外,我們還將討論一些比較通用的方法所刻畫的模型,并且討論一下這些模型是如何影響對(duì)數(shù)據(jù)組的分析的。最后,我們會(huì)針對(duì)系統(tǒng)發(fā)育模型和進(jìn)化史的推論,提供一些具體方法應(yīng)用的例子。系統(tǒng)發(fā)育模型的組成系統(tǒng)發(fā)育的建樹方法都會(huì)預(yù)先假定一個(gè)進(jìn)化模型(Penny et al., 1994)。比如,所有廣泛使用的方法都假定進(jìn)化的分歧是嚴(yán)格分枝的,因此我們可以用樹狀拓?fù)?/p>
5、發(fā)生圖來(lái)描述已知的數(shù)據(jù)。但是在一個(gè)給定的數(shù)據(jù)組中,因?yàn)榇嬖谥锓N的雜交以及物種之間遺傳物質(zhì)的傳遞,這個(gè)假定很可能會(huì)被推翻。因此,如果所觀察的序列并非是嚴(yán)格遺傳的話,大多數(shù)系統(tǒng)發(fā)育方法就會(huì)得到錯(cuò)誤的結(jié)果。系統(tǒng)發(fā)育方法中固有的模型會(huì)導(dǎo)致一些額外的假定:序列有指定的來(lái)源并且正確無(wú)誤(Helbig and Seibold, 1996; Hershkovitz and Lewis, 1996; Soltis et al., 1997)。 序列是同源的(也就是說(shuō),所有的序列都起源于同一祖先序列);這些序列不是“paralog“(paralog指的是一個(gè)祖先序列通過(guò)復(fù)制等方法在 HYPERLINK /bio
6、logy/postgenomics/ t _blank 基因組中產(chǎn)生的歧化序列)的混合物。 序列比對(duì)中,不同序列的同一個(gè)位點(diǎn)都是同源的。 在接受分析的一個(gè)序列組中,序列之間的系統(tǒng)發(fā)育史是相同的(比如,序列組中不存在核序列與細(xì)胞器序列的混合)。 樣本足以解決感興趣的問(wèn)題。 樣本序列之間的差異代表了感興趣的寬組。 樣本序列之間的差異包含了足以解決感興趣的問(wèn)題的系統(tǒng)發(fā)育信號(hào)。 還有一些假定,在某些方法中是默認(rèn)的,但是在另外一些方法中是可以修正的:樣本序列是隨機(jī)進(jìn)化的。 序列中的所有位點(diǎn)的進(jìn)化都是隨機(jī)的。 序列中的每一個(gè)位點(diǎn)的進(jìn)化都是獨(dú)立的。 許多公開發(fā)表的系統(tǒng)發(fā)育分析結(jié)果的錯(cuò)誤通常都是因?yàn)檫`反了上述
7、假定,特別令人惱火的是現(xiàn)有的方法并不能察覺(jué)對(duì)基本假定的違反。每一個(gè)序列組都必須根據(jù)上述基本假定進(jìn)行評(píng)估,并且同分析過(guò)程相協(xié)調(diào)。下面我們將會(huì)描述分析過(guò)程。系統(tǒng)發(fā)育數(shù)據(jù)分析:比對(duì),建立取代模型,建立進(jìn)化樹以及進(jìn)化樹評(píng)估對(duì)DNA序列進(jìn)行系統(tǒng)發(fā)育分析的四個(gè)主要步驟是比對(duì),建立取代模型,建立進(jìn)化樹以及進(jìn)化樹評(píng)估。一般來(lái)說(shuō),執(zhí)行這四個(gè)步驟的計(jì)算機(jī)程序都是相互獨(dú)立的,但是他們都是進(jìn)行系統(tǒng)發(fā)育分析的有機(jī)部分。當(dāng)前的討論主要集中在分析DNA序列的方法上,這些方法基本上(不全是)仍然是通過(guò)堿基和密碼子的替代來(lái)考察序列的差異;這個(gè)方法同樣應(yīng)用于對(duì)蛋白質(zhì)序列的分析,但是由于氨基酸的生物化學(xué)多樣性,我們必須引入更多的數(shù)
8、學(xué)參數(shù)。因此,下面討論的適用于核苷酸堿基的方法同樣適用于氨基酸和密碼子,而關(guān)于蛋白質(zhì)的一些特殊問(wèn)題和程序會(huì)在別的地方得到討論(Felsenstein, 1996)。因?yàn)榻涞臉?biāo)準(zhǔn)在一定程度上依賴比對(duì)和取代模型,因此一開始就應(yīng)該介紹這些方法,這些介紹非常必要。三種主要的建樹方法分別是距離、最大節(jié)約(maximum parsimony, MP)和最大似然(maximum likelihood,ML)。距離樹考察數(shù)據(jù)組中所有序列的兩兩比對(duì)結(jié)果,通過(guò)序列兩兩之間的差異決定進(jìn)化樹的拓?fù)浣Y(jié)構(gòu)和樹枝長(zhǎng)度。最大節(jié)約方法考察數(shù)據(jù)組中序列的多重比對(duì)結(jié)果,優(yōu)化出的進(jìn)化樹能夠利用最少的離散步驟去解釋多重比對(duì)中的堿基差
9、異。最大似然方法考察數(shù)據(jù)組中序列的多重比對(duì)結(jié)果,優(yōu)化出擁有一定拓?fù)浣Y(jié)構(gòu)和樹枝長(zhǎng)度的進(jìn)化樹,這個(gè)進(jìn)化樹能夠以最大的概率導(dǎo)致考察的多重比對(duì)結(jié)果。這些方面將會(huì)在后面詳細(xì)討論。建立數(shù)據(jù)模型(比對(duì))系統(tǒng)發(fā)育的序列數(shù)據(jù)通常會(huì)進(jìn)行多重比對(duì),也就是說(shuō),在系統(tǒng)發(fā)育的有關(guān)文獻(xiàn)中通常會(huì)把那些單獨(dú)的比對(duì)好的堿基所占據(jù)的位置稱作位點(diǎn);在進(jìn)行系統(tǒng)發(fā)育的理論討論時(shí)這些位點(diǎn)等同于特征符,而占據(jù)這些位點(diǎn)的真實(shí)的堿基或者空位被稱為特征符狀態(tài);但是也有例外,STATALIGN程序(Thorne and Kishino, 1992)在進(jìn)行系統(tǒng)發(fā)育分析時(shí)不會(huì)進(jìn)行多重比對(duì),它使用原始的未比對(duì)過(guò)的序列。多重比對(duì)在第七章中有詳細(xì)討論,在這里
10、我們只討論與系統(tǒng)發(fā)育分析有關(guān)的多重比對(duì)方法。對(duì)準(zhǔn)的序列位點(diǎn)將會(huì)被應(yīng)用于系統(tǒng)發(fā)育分析,但是這只能描述一個(gè)先驗(yàn)的系統(tǒng)發(fā)育的結(jié)論,因?yàn)槲稽c(diǎn)本身(不是真實(shí)的堿基)都是假定為同源的(Mindell, 1991; Wheeler, 1994)。因此,出于系統(tǒng)發(fā)育的目的,比對(duì)程序只是系統(tǒng)發(fā)育分析的一部分。建立一個(gè)比對(duì)模型的基本步驟包括:選擇合適的比對(duì)程序;然后從比對(duì)結(jié)果中提取系統(tǒng)發(fā)育的數(shù)據(jù)集,至于如何提取有效數(shù)據(jù),取決于所選擇的建樹程序如何處理容易引起歧義的比對(duì)區(qū)域和插入刪除序列(即所謂的indel狀態(tài)或者空位狀態(tài))。多重比對(duì)程序多重比對(duì)程序有如下一些屬性:計(jì)算機(jī)依賴性:無(wú)依賴;部分依賴;完全依賴。系統(tǒng)發(fā)育
11、調(diào)用:無(wú)調(diào)用;先驗(yàn)調(diào)用;遞歸調(diào)用。比對(duì)參數(shù)評(píng)估:先驗(yàn)評(píng)估;動(dòng)態(tài)評(píng)估;遞歸評(píng)估。比對(duì)特征:基本結(jié)構(gòu)(比如序列);高級(jí)結(jié)構(gòu)。數(shù)學(xué)優(yōu)化:統(tǒng)計(jì)優(yōu)化;非統(tǒng)計(jì)優(yōu)化。在系統(tǒng)發(fā)育分析研究中,一個(gè)典型的比對(duì)過(guò)程包括:首先應(yīng)用CLUSTAL W程序,然后進(jìn)行手工比對(duì),最后提交給一個(gè)建樹程序。這個(gè)過(guò)程有如下特征選項(xiàng):(1)、部分依賴于計(jì)算機(jī)(也就是說(shuō),需要手工調(diào)整);(2)、需要一個(gè)先驗(yàn)的系統(tǒng)發(fā)育標(biāo)準(zhǔn)(也就是說(shuō)需要一個(gè)前導(dǎo)樹);(3)、使用先驗(yàn)評(píng)估方法和動(dòng)態(tài)評(píng)估方法(推薦)對(duì)比對(duì)參數(shù)進(jìn)行評(píng)估;(4)、對(duì)基本結(jié)構(gòu)(序列)進(jìn)行比對(duì)(對(duì)于親水的氨基酸,推薦引入部分的二級(jí)結(jié)構(gòu)特征);(5)、應(yīng)用非統(tǒng)計(jì)數(shù)學(xué)優(yōu)化。這些特征選項(xiàng)
12、的取舍都依賴于下面將要描述的具體的系統(tǒng)發(fā)育分析方法。計(jì)算機(jī)依賴型提倡進(jìn)行完全的計(jì)算機(jī)多重比對(duì)的人常常有這樣的依據(jù),他們認(rèn)為手工比對(duì)通常都是含混不清的(Gatesy et al., 1993)。MALIGN(Wheeler and Gladstein, 1994)和TreeAlign(Hein, 1990, 1994)程序都試圖在根據(jù)系統(tǒng)發(fā)育功能而優(yōu)化比對(duì)的時(shí)候?qū)崿F(xiàn)完全計(jì)算機(jī)化,尤其是試圖通過(guò)初步的多重比對(duì)而優(yōu)化出一個(gè)最大節(jié)約樹(MP tree)。一般來(lái)說(shuō),只有當(dāng)我們假定計(jì)算機(jī)程序能夠進(jìn)行正確的比對(duì)的時(shí)候,我們才會(huì)實(shí)行完全的計(jì)算機(jī)處理。之所以還提倡進(jìn)行手工比對(duì)(比如,Thompson et al
13、., 1994),是因?yàn)楝F(xiàn)在的比對(duì)算法和程序還不能滿足系統(tǒng)發(fā)育分析的需要。系統(tǒng)發(fā)育標(biāo)準(zhǔn)許多計(jì)算機(jī)多重比對(duì)程序(比如CLUSTAL, PileUp,ALIGN in ProPack)根據(jù)明確的系統(tǒng)發(fā)育標(biāo)準(zhǔn)(一個(gè)前導(dǎo)樹)進(jìn)行比對(duì),這個(gè)前導(dǎo)樹是由雙重比對(duì)得到的。但是SAM(Hughey et al., 1996)和MACAW(Lawrence et al., 1993)程序在進(jìn)行多重比對(duì)時(shí)并不引入明確的系統(tǒng)發(fā)育標(biāo)準(zhǔn),雖然這些程序也可以模擬系統(tǒng)發(fā)育過(guò)程操作參數(shù)。如果在進(jìn)行系統(tǒng)發(fā)育分析的時(shí)候,比對(duì)中引入了前導(dǎo)樹,那么通過(guò)這個(gè)比對(duì)推導(dǎo)出的進(jìn)化樹邏輯上應(yīng)該同前導(dǎo)樹的拓?fù)浣Y(jié)構(gòu)相同。由CLUSTAL比對(duì)得到的前
14、導(dǎo)樹(如圖9.1)將會(huì)被轉(zhuǎn)化成PHYLIP樹的文件格式,然后輸入到畫樹程序中,這些畫樹程序包括TreeTool(X windows), TreeDraw(Macintosh), PHYLODENDRON(Macintosh), TREEVIEW(Macintosh, Microsoft Windows) 或者PAUP(圖 9.1;Macintosh, Microsoft Windows)的畫樹工具。按道理,我們應(yīng)該回過(guò)頭來(lái)為CLUSTAL比對(duì)再指定一個(gè)前導(dǎo)樹,但是在實(shí)際操作中我們并不會(huì)這么做。有些程序(比如TreeAlign and MALIGN)為了得到優(yōu)化的比對(duì)和系統(tǒng)發(fā)育樹,程序本身就設(shè)計(jì)
15、了交叉(同步)遞歸優(yōu)化的算法。理論上,能夠解決比對(duì)系統(tǒng)發(fā)育難題的同步優(yōu)化算法或者配套算法應(yīng)該是存在的,但是遞歸算法必須冒一定的風(fēng)險(xiǎn),它很可能會(huì)導(dǎo)致一個(gè)錯(cuò)誤的或者不完整的結(jié)果(Thorne and Kishino, 1992)。因此,根據(jù)比對(duì)結(jié)果建立進(jìn)化樹之后,必須考慮另外的可能性,也就是說(shuō),如果根據(jù)其它的比對(duì)結(jié)果得到一個(gè)并不是最優(yōu)化的進(jìn)化樹,這個(gè)次優(yōu)化的進(jìn)化樹是不是更能夠滿足研究的需要。比對(duì)參數(shù)評(píng)估在比對(duì)中會(huì)出現(xiàn)一些序列區(qū)域,其長(zhǎng)度是可變的,如何處理這些區(qū)域中indel狀態(tài)的位點(diǎn)是最重要,這取決于進(jìn)化模型的所有要素(比如,包括核苷酸轉(zhuǎn)換/顛換速率),而且相關(guān)的參數(shù)在前導(dǎo)樹與比對(duì)推導(dǎo)的進(jìn)化樹中應(yīng)
16、該保持一致。比對(duì)參數(shù)應(yīng)該隨著進(jìn)化的分叉動(dòng)態(tài)變化(Thompson et al., 1994),只有這樣才能保證堿基錯(cuò)配的幾率能夠滿足序列趨異的需要;比對(duì)參數(shù)應(yīng)該隨時(shí)調(diào)整(Thompson et al., 1994, Hughey et al., 1996),以防止引入過(guò)多的近似序列而導(dǎo)致比對(duì)序列的信息量不足,可以通過(guò)降低近似序列的比對(duì)分值權(quán)重來(lái)防止這種情況。CULSTAL程序兼顧了這兩種情況(參數(shù)動(dòng)態(tài)變化),而SAM程序引入了序列權(quán)重。利用基本結(jié)構(gòu)或者高級(jí)結(jié)構(gòu)進(jìn)行比對(duì)根據(jù)二級(jí)或者三級(jí)序列結(jié)構(gòu)進(jìn)行比對(duì),比起直接利用一級(jí)序列進(jìn)行比對(duì)的可信度要好,因?yàn)樵谕葱栽u(píng)估中,人們一直認(rèn)為復(fù)雜結(jié)構(gòu)的保守性高于
17、簡(jiǎn)單特征(核苷酸,氨基酸)的同源保守性,而且,立足于復(fù)雜結(jié)構(gòu)的比對(duì)程序還可以 HYPERLINK / 搜索到一些特殊的關(guān)聯(lián)位點(diǎn),這些位點(diǎn)是進(jìn)化的功能區(qū)域。實(shí)際上,基于系統(tǒng)發(fā)育的結(jié)構(gòu)多重比對(duì)并沒(méi)有將問(wèn)題簡(jiǎn)化,也就是說(shuō),序列比對(duì)必須服從結(jié)構(gòu)進(jìn)化,而結(jié)構(gòu)進(jìn)化則同系統(tǒng)發(fā)育保持一致。有一個(gè)探索式的手工程序(如圖9.2),是用來(lái)對(duì)核糖體DNA進(jìn)行結(jié)構(gòu)比對(duì)的(Gutell et al., 1994),這個(gè)程序要考察相關(guān)取代的樣式,但是相關(guān)性必須通過(guò)系統(tǒng)發(fā)育樹中的多個(gè)獨(dú)立的補(bǔ)償性突變推導(dǎo)得到(cf. Harvey and Pagel, 1991)。數(shù)學(xué)優(yōu)化有些比對(duì)程序(比如,MACAW, SAM)根據(jù)一個(gè)統(tǒng)計(jì)
18、模型進(jìn)行優(yōu)化,但是這些統(tǒng)計(jì)同系統(tǒng)發(fā)育模型的關(guān)系并不清楚。僅僅根據(jù)一個(gè)系統(tǒng)發(fā)育模型是沒(méi)有辦法比較多重比對(duì)方法的優(yōu)劣的??偨Y(jié):對(duì)于系統(tǒng)發(fā)育分析,最好的比對(duì)程序是什么呢?對(duì)于一個(gè)給定的系統(tǒng)發(fā)育問(wèn)題,如果預(yù)先不知道其中的系統(tǒng)發(fā)育關(guān)系,就很難知道最適用的比對(duì)方法(cf. Morrison and Ellis, 1997)。一般來(lái)說(shuō),我們并不贊成直接把計(jì)算機(jī)比對(duì)結(jié)果提交給建樹程序,因?yàn)榻涑绦虿荒馨l(fā)現(xiàn)比對(duì)的錯(cuò)誤;尤其是那些包含在比對(duì)程序包中(比如,CLUSTAL and TREE in ProPack)的建樹程序,特別要注意這一點(diǎn)(Feng and Doolittle, 1996),因?yàn)樵谶@些程序包中的建
19、樹程序更加不嚴(yán)格。我們必須通過(guò)分子結(jié)構(gòu)功能和堿基取代過(guò)程作出一些假定,并且結(jié)合另外一些獨(dú)立的系統(tǒng)發(fā)育證據(jù),對(duì)整個(gè)比對(duì)進(jìn)行考察。從比對(duì)中提取系統(tǒng)發(fā)育數(shù)據(jù)集在某些比對(duì)中,比對(duì)長(zhǎng)度是可變的,這時(shí),系統(tǒng)發(fā)育數(shù)據(jù)集同比對(duì)就不會(huì)完全吻合;即使 在一些長(zhǎng)度不變的比對(duì)中,數(shù)據(jù)集也可能同比對(duì)結(jié)果不一致-舉一個(gè)很簡(jiǎn)單的例子,有時(shí)候我們只需要處理第一個(gè)和第二個(gè)密碼子位點(diǎn),就不需要全部的比對(duì)結(jié)果,這個(gè)話題我們?cè)诤竺嬗懻撊〈P偷臅r(shí)候還會(huì)涉及到。如果比對(duì)中出現(xiàn)可變長(zhǎng)度,我們通常會(huì)根據(jù)比對(duì)的不確定性程度和處理indel狀態(tài)的原則這兩個(gè)標(biāo)準(zhǔn)對(duì)比對(duì)結(jié)果進(jìn)行取舍,從中選擇所需的系統(tǒng)發(fā)育數(shù)據(jù)集;其中針對(duì)indel狀態(tài)的處理方法取
20、決于建樹方法以及從比對(duì)結(jié)果中發(fā)掘出的系統(tǒng)發(fā)育信息,最極端的方法是把包括空位在內(nèi)的所有indel位點(diǎn)從比對(duì)中清除出去,在分析時(shí)不加考慮(cf. Swofford et al., 1996a),這個(gè)方法的好處是可以把序列的變化包容在取代模型中,而不需要特別的模型來(lái)處理indel狀態(tài),但是它的缺點(diǎn)也很明顯:indel區(qū)域的系統(tǒng)發(fā)育信息完全被忽略了。在提取數(shù)據(jù)集時(shí)保留indel區(qū)域但是忽略所有的空位分值,將會(huì)保留包括空位在內(nèi)的位點(diǎn)堿基變化信息。某些長(zhǎng)度可變區(qū)域在部分序列或者全部序列中很難對(duì)準(zhǔn),在這種情況下,這些難以對(duì)準(zhǔn)的堿基的分值應(yīng)該清零;這個(gè)方法存在很大的缺陷,MP和ML建樹方法會(huì)不加考慮地把這些清
21、零的或者被忽略的分值理解為零分歧,但是實(shí)際上隱藏在這些分值下面的實(shí)際的數(shù)據(jù)(不管是空位還是難以對(duì)準(zhǔn)的堿基),一般來(lái)說(shuō),反映出的分歧度都很大。PAUP 4.0中的距離建樹方法(將在下文描述)允許通過(guò)非空位區(qū)域外推得到空位區(qū)域的距離。最大節(jié)約(MP;見下)是允許把可比對(duì)的空位合并,并將其視為特征符的唯一方法;可以通過(guò)兩種方式達(dá)到目的:作為一個(gè)附加的特征符狀態(tài)(第五種核酸堿基或者第二十一種氨基酸),或者作為一套獨(dú)立于堿基取代的特征符集。當(dāng)空位占據(jù)了不止一個(gè)位點(diǎn)的時(shí)候,前一個(gè)方法行不通,因?yàn)槊恳粋€(gè)空位位點(diǎn)都會(huì)被統(tǒng)計(jì)為一次獨(dú)立的特征符狀態(tài)變化。當(dāng)比對(duì)的序列的局部出現(xiàn)很好的可比對(duì)的空位的時(shí)候,后一種方法非
22、常有用。我們可以把一套空位特征符附加到比對(duì)序列數(shù)據(jù)集中,也可以用額外的堿基程序在適當(dāng)?shù)奈恢脤?duì)空位計(jì)分,但是在計(jì)分的時(shí)候,空位位點(diǎn)中只有一個(gè)作為空位計(jì)分,其余的將會(huì)被忽略。PAUP將會(huì)執(zhí)行這個(gè)方法。對(duì)于某些比對(duì)而言,比對(duì)程序會(huì)忽略所有的空位分值或者忽略所有低于預(yù)設(shè)值的空位分值;但是,還沒(méi)有任何一種程序會(huì)忽略單個(gè)序列的單個(gè)位點(diǎn)。如果比對(duì)在序列組內(nèi)部相當(dāng)明確,但是處身其中時(shí)卻不太清楚,此時(shí)必須對(duì)比對(duì)做“手術(shù)”,確保同序列組相關(guān)的明確的信息被保留,而除去模糊的信息。圖9.3給出了一個(gè)比對(duì)“手術(shù)”的例子。在空位區(qū)域,我們必須作出決定:在可供選擇的比對(duì)中,哪一個(gè)更加合理,尤其重要的是,哪一個(gè)更加適合于建立
23、進(jìn)化樹分析。如果手工解決比對(duì)的不確定性,就必須考慮系統(tǒng)發(fā)育關(guān)系、取代過(guò)程(比如,轉(zhuǎn)換和顛換)和堿基組成;在這個(gè)階段,用系統(tǒng)發(fā)育證據(jù)解決不確定性非常合理。在傾向于變長(zhǎng)的序列區(qū)域,關(guān)系非常疏遠(yuǎn)的序列和序列組的比對(duì)就可以側(cè)向展開(就是說(shuō),引入人工空位,并且忽略分值),最終的結(jié)果使得只有關(guān)系很近的序列區(qū)域?qū)?zhǔn)在一起。某些序列中的某些位點(diǎn)雖然對(duì)準(zhǔn)了,但是并不確定,他們的分值可以在計(jì)分時(shí)忽略;這個(gè)方法的優(yōu)點(diǎn)是可以保留同這些序列相關(guān)的明確信息,缺點(diǎn)是最大節(jié)約和最大似然的建樹方法會(huì)把這些“缺失”的分值看做是零分歧。由MALIGN(Wheeler and Gladstein, 1994)和TreeAlign得到
24、的比對(duì)不需要在比對(duì)后用這些方法中的建樹方法進(jìn)行數(shù)據(jù)修飾,即使這些比對(duì)中仍然有一些同樣類型的不確定性,這些不確定性在另外一個(gè)程序進(jìn)行分析時(shí)需要修正。如前所述,這些程序會(huì)根據(jù)由比對(duì)得到的最好的MP系統(tǒng)發(fā)育進(jìn)化樹,對(duì)比對(duì)參數(shù)進(jìn)行遞歸優(yōu)化。MALIGN還會(huì)利用一套空位為代價(jià),對(duì)以連接的可供選擇的比對(duì)為基礎(chǔ)的建樹方法進(jìn)行優(yōu)化;在這個(gè)方法中,在最有可能的幾種比對(duì)中出現(xiàn)的比對(duì)特征將會(huì)被加權(quán)。這就提供了一種方法,可以捕獲序列分歧的數(shù)量(在取消不確定的比對(duì)區(qū)域的分值的時(shí)候這些分歧是被忽略掉的),因?yàn)檫@些區(qū)域的所有可能的比對(duì)方式都將顯示這些區(qū)域的最大的序列分歧。處于不確定的比對(duì)區(qū)域中的位點(diǎn)很可能不是同源的,因此在
25、進(jìn)化樹中需要加入一些噪聲干擾或者偏向。決定取代模型對(duì)于取代模型,應(yīng)該給予同比對(duì)和建樹同樣的重視。就像前面暗示的那樣,取代模型既影響比對(duì),也影響建樹;因此需要采用遞歸方法?,F(xiàn)在,對(duì)于核酸數(shù)據(jù)而言,可以通過(guò)取代模型中的兩個(gè)要素進(jìn)行計(jì)算機(jī)評(píng)估(Swofford, 1997),但是對(duì)于氨基酸和密碼子數(shù)據(jù)而言,沒(méi)有什么評(píng)估方案(Felsenstein, 1996)。其中一個(gè)要素是堿基之間相互取代的模型;另外一個(gè)要素是序列中不同位點(diǎn)的所有取代的相對(duì)速率。還沒(méi)有一種簡(jiǎn)單的計(jì)算機(jī)程序可以對(duì)較復(fù)雜的變量(比如,位點(diǎn)特異性或者系統(tǒng)特異性取代模型)進(jìn)行評(píng)估,同樣,現(xiàn)有的建樹 HYPERLINK /soft/ 軟件也
26、不可能理解這些復(fù)雜變量。堿基取代速率模型一般而言,生物化學(xué)性質(zhì)相近的堿基之間的取代頻率較高;在DNA中,四種轉(zhuǎn)換(A G, G A, C T, T C)的頻率比八種顛換(A C, A T, C G, G T, 以及前四種的反向取代)的頻率要高;這些偏向會(huì)影響兩個(gè)序列之間的預(yù)計(jì)的分歧。各個(gè)殘基之間的相對(duì)取代速率一般由方陣形式列出;對(duì)于堿基而言,行數(shù)和列數(shù)都是4,對(duì)于氨基酸而言,行數(shù)和列數(shù)都是20(比如PAM方陣),對(duì)于密碼子而言,行數(shù)和列數(shù)都是61(除去了中止密碼子)。非對(duì)角線元素對(duì)應(yīng)于一個(gè)堿基變?yōu)榱硪粋€(gè)堿基的相對(duì)代價(jià),而對(duì)角線元素則代表不同序列擁有同一個(gè)堿基的代價(jià)。這些代價(jià)值可以固定為先驗(yàn)的代
27、價(jià)表,以確保建樹方法在計(jì)分時(shí)對(duì)每一種取代都使用確定的代價(jià)值。固定的代價(jià)方陣是典型的靜態(tài)權(quán)重方陣,MP建樹方法(如圖9.4)使用的就是這種方陣。如果使用這種權(quán)重,那么這個(gè)方法就會(huì)被稱為“加權(quán)節(jié)約”。又如,ML建樹方法,代價(jià)值是由即時(shí)的速率方陣得到的,這個(gè)方陣(如圖9.5)代表了各種取代可能會(huì)發(fā)生的概率的ML估計(jì)值。MP權(quán)重方陣只涉及簡(jiǎn)單的算術(shù),而應(yīng)用距離和ML速率方陣則可以引入復(fù)雜的代數(shù)。為了避免盲目使用不適當(dāng)?shù)姆椒ǎㄗh大家熟悉其內(nèi)部的基本原理(見Li, 1997, and / or Swofford et al., 1996a)。實(shí)際上,“前進(jìn)”和“反向”取代速率被認(rèn)為是相同的;這個(gè)取代模型
28、被稱為是“時(shí)間可逆”;這個(gè)模型擁有“靜態(tài)”的性質(zhì),因?yàn)樵谒械膲A基頻率中沒(méi)有預(yù)知的變化。在系統(tǒng)發(fā)育的特殊歷史中,不同序列中的堿基頻率不同表明,前進(jìn)和反向速率實(shí)際上可能會(huì)不同;而傳統(tǒng)的取代權(quán)重或者速率方陣不能包容這個(gè)“非靜態(tài)”環(huán)境;本節(jié)的結(jié)尾將討論一個(gè)基于非靜態(tài)取代模型(“l(fā)ogdet”)的建樹方法,這個(gè)方法將會(huì)提供一個(gè)可供選擇的計(jì)算方法。通常,特征符狀態(tài)的權(quán)重方陣都會(huì)或多或少地通過(guò)觀察進(jìn)行過(guò)估值,當(dāng)然也可以從速率矩陣衍生得到。比如,如果假定兩個(gè)轉(zhuǎn)化的其中一個(gè),發(fā)生的頻率是每個(gè)顛換的兩倍,那么據(jù)此就可以確定一個(gè)權(quán)重方陣,比如,AG的轉(zhuǎn)換代價(jià)為1,而AT的顛換代價(jià)為2(圖9.4)。(節(jié)約方法規(guī)定對(duì)
29、角線元素值,或者說(shuō)是不同序列中擁有相同堿基的代價(jià)值為零。這是節(jié)約方法的一個(gè)缺點(diǎn)詳見下文)在隨后的建樹步驟中,這套假定會(huì)把顛換的總數(shù)降至最低值,而力求把那些主要差異是轉(zhuǎn)換的序列集中在一起。任何一種“時(shí)間可逆”的核苷酸取代模型都可以用圖9.5所示的方陣刻畫,只是其中一個(gè)速率和其它速率的差異;在任意組合中,最多可以達(dá)到只有六個(gè)參數(shù),其中每一個(gè)速率參數(shù)都是獨(dú)立的(Swofford et al., 1996a;Li, 1997)。如果平衡的堿基頻率不相等,則需要額外的參數(shù);如果平衡的堿基頻率不相等,但是卻假定這些頻率相等,那么系統(tǒng)發(fā)育進(jìn)化樹的最終結(jié)果將會(huì)出錯(cuò)(Li, 1997)。側(cè)線(paralinea
30、r)(Lake, 1994)和“l(fā)ogdet”(Lockhart et al., 1994)做了一些修正(見Swofford et al., 1996a)來(lái)滿足非靜態(tài)環(huán)境的需要;這個(gè)方法只適用于距離進(jìn)化樹的建立;在這個(gè)方法中,對(duì)于每一個(gè)序列匹配,各種類型和變化方向的原始取代的數(shù)目都會(huì)計(jì)算在一個(gè)44的方陣中(如圖9.6)。每個(gè)方陣都會(huì)有一個(gè)代數(shù)行列式,這個(gè)行列式的log值是評(píng)估序列差異性的一個(gè)要素,因此被稱為“l(fā)ogdet”。對(duì)那些擁有各種各樣的堿基頻率的序列進(jìn)行雙重比較,就會(huì)得到各種各樣的方陣,也就會(huì)得到各種各樣的行列式值;因此,在評(píng)估序列兩兩之間的距離的時(shí)候,就要受到序列兩兩之間的行列式值的
31、影響,而且序列兩兩之間的比較允許適用不同的取代模型,因此沿著系統(tǒng)發(fā)育進(jìn)化樹的不同樹枝,將會(huì)產(chǎn)生多元化。Logdet尤其對(duì)位點(diǎn)之間的速率差異(見下文)敏感,因此,堿基頻率的偏向可能只存在于那些承受變化的位點(diǎn)。位點(diǎn)內(nèi)速率差異模型除了取代模型的多元化以外,一個(gè)序列中各個(gè)不同位點(diǎn)之間取代速率的差異也會(huì)對(duì)建立進(jìn)化樹的結(jié)果產(chǎn)生很深遠(yuǎn)的影響(Swofford et al., 1996a);關(guān)于位點(diǎn)之間的速率差異(或者叫做位點(diǎn)異質(zhì)性),有一個(gè)最明顯的例子,就是在一個(gè)編碼序列中,三聯(lián)體編碼的位點(diǎn)差異:在三聯(lián)體編碼中,第三個(gè)編碼位點(diǎn)比另外兩個(gè)位點(diǎn)更加容易發(fā)生變化;正是出于這個(gè)原因,許多系統(tǒng)發(fā)育分析方法在分析編碼序
32、列時(shí),都會(huì)把第三個(gè)編碼位點(diǎn)排除在外;但是在某些情況下,速率差異模型會(huì)更加敏銳(比如,對(duì)應(yīng)于蛋白質(zhì)或者rRNA的保守序列)。對(duì)位點(diǎn)差異的取代速率進(jìn)行估值的方法有非參數(shù)化模型(W.M. Yang et al., 1996),不變式模型和gamma分布模型(Swofford et al., 1996a)。非參數(shù)化方法源于特異位點(diǎn)的相對(duì)速率的范疇;這個(gè)方法可以在MP建樹方法中使用,只要根據(jù)相對(duì)的變異頻率對(duì)特異位點(diǎn)進(jìn)行簡(jiǎn)單加權(quán)就可以了,當(dāng)然進(jìn)行加權(quán)時(shí)需要有關(guān)于真實(shí)進(jìn)化樹的預(yù)備知識(shí);這個(gè)方法同樣也可以適用于ML建樹方法,但是在計(jì)算上被認(rèn)為是不切實(shí)際的(W.M. Yang et al., 1996)。不變式
33、模型對(duì)一定比例的位點(diǎn)進(jìn)行估值,這些位點(diǎn)并不能自由變化;剩余的位點(diǎn)假定為等概率變化。至于gamma模型方法,它假定一個(gè)給定的序列變化的概率是遵守gamma分布規(guī)律的,據(jù)此指定位點(diǎn)的取代概率;gamma分布的形狀(有形狀參數(shù)描述)描述了一個(gè)序列中各個(gè)位點(diǎn)的取代頻率的分布(Swofford et al., 1996a, p. 444, Figure 13; cf. Li, 1997, p. 76, Figure 3.10; 注意尺度差異)。在一個(gè)混合方法中,可以假定一部分位點(diǎn)是不變的,而剩余的位點(diǎn)則是按照gamma分布變化的。實(shí)際上,gamma修正可以是連續(xù)的,離散的或者自離散的(W.M. Yang
34、 et al., 1996)。連續(xù)gamma的意思是各個(gè)位點(diǎn)沿一條連續(xù)的概率曲線變化;目前,這個(gè)方法在絕大多數(shù)情況下無(wú)法計(jì)算。離散gamma逼近方法指定各個(gè)位點(diǎn)的概率,使得這些(大量的)概率值逼近gamma曲線。自離散模型假定相鄰的位點(diǎn)的變化速率是相關(guān)聯(lián)的;許多組位點(diǎn)被分為許多類,其中每一類中的位點(diǎn)的變化速率可能被假定為常量或者異類值。進(jìn)化樹建立程序使用各種各樣的位點(diǎn)速率差異修正方法。對(duì)于核酸數(shù)據(jù),PAUP 4.0在單獨(dú)或者混合使用時(shí)間可逆的距離建樹方法和最大似然建樹方法時(shí),既使用不變式gamma模型,也使用離散的gamma模型;在使用logdet距離建樹方法時(shí),使用不變式模型(見下)。對(duì)于核
35、酸,氨基酸和編碼子數(shù)據(jù),PAML使用連續(xù)的,離散的和自離散的gamma模型。對(duì)于核酸和氨基酸數(shù)據(jù),PHYLIP使用一種離散的gamma模型。究竟使用哪一種取代模型呢?在一個(gè)給定的序列集中,即使一個(gè)取代模型中的任何參數(shù)都可以證明是很有判斷力的,但是最好的模型并不一定總是擁有最多的蠶室;相反,參數(shù)越少,模型越好,這是因?yàn)閷?duì)每一個(gè)參數(shù)進(jìn)行估值都會(huì)引入一個(gè)相關(guān)的變量,而每引入一個(gè)附加的參數(shù)維度,都會(huì)使得整體的變數(shù)增加,有時(shí)候甚至?xí)?duì)模型起抑制作用(見Li, 1997: p. 84, 表4.1)。對(duì)于一個(gè)給定的序列比較,如果模型只有兩個(gè)參數(shù),那么堿基差異的總和要被劃分為兩個(gè)類別;如果模型有六個(gè)參數(shù),那么
36、堿基差異的總和要被劃分為六個(gè)類別;很明顯,如果分為六個(gè)類別,那么每一個(gè)類別中的位點(diǎn)樣本數(shù)目將會(huì)很小,很可能小得無(wú)法進(jìn)行合理地估值。PAUP的“描述樹”特征是對(duì)DNA序列的取代模型進(jìn)行規(guī)范的一個(gè)較好的策略,它使用似然方法同時(shí)評(píng)估六個(gè)可逆的取代速率、gamma分布的形狀參數(shù)和不變的位點(diǎn)的比例(圖9.7)。這些參數(shù)可以通過(guò)相等的或者指定的堿基頻率進(jìn)行估值。通常,任何一個(gè)合理的系統(tǒng)發(fā)育進(jìn)化樹(比如,很容易就可以得到一個(gè)相鄰連接的進(jìn)化樹)都適用于這個(gè)程序,因?yàn)楹苊黠@,對(duì)參數(shù)的估值在很大程度上受到特征符模式的影響,而不是進(jìn)化樹的拓?fù)浣Y(jié)構(gòu)(Swofford et al., 1996b)。這個(gè)估值程序?qū)τ?0
37、個(gè)序列而言,并不會(huì)耗費(fèi)太多的時(shí)間。如果序列較多,或者時(shí)間較緊,可以對(duì)試驗(yàn)的進(jìn)化樹進(jìn)行精簡(jiǎn),在保留全部的系統(tǒng)發(fā)育范圍和結(jié)構(gòu)的同時(shí),減少分類數(shù)目。通過(guò)這些估算的取代參數(shù),我們可以通過(guò)比較由較多參數(shù)和較少參數(shù)分別評(píng)估得到的似然分值,決定一個(gè)簡(jiǎn)化的模型是否合理(比如,六個(gè)取代類別是否可以減少到兩個(gè))。有時(shí)候,參數(shù)和不變位點(diǎn)的比例可以相互替換,所以我們應(yīng)該比較每一個(gè)單獨(dú)使用時(shí)得到的似然分值和兩個(gè)同時(shí)使用時(shí)得到的似然分值。注意,和MP以及ME不同,用不同的參數(shù)值得到ML分值可以直接比較(Swofford et al., 1996b)。對(duì)于編碼蛋白質(zhì)的DNA序列,根據(jù)樣本的分歧程度,有時(shí)候很明顯地,有用的變
38、化基本上都是第一位和第二位的編碼位點(diǎn),而在整個(gè)數(shù)據(jù)集中,第三位點(diǎn)通常都是隨機(jī)的,或者第三位點(diǎn)變化而第一位點(diǎn)和第二位點(diǎn)不變。盡管除去“無(wú)用”位點(diǎn)可以提高剩余位點(diǎn)的不同速率的估值精確度,上面所述的程序還是要對(duì)這個(gè)速率差異進(jìn)行修正。對(duì)于節(jié)約進(jìn)化樹的建立,我們有時(shí)候會(huì)把隨機(jī)的第三位點(diǎn)從分析中除去,因?yàn)檫@些位點(diǎn)只會(huì)引入噪聲,如果堿基頻率不相等,這些位點(diǎn)還會(huì)引入錯(cuò)誤。怎么樣才能確定數(shù)據(jù)集中的非靜態(tài)因素是否會(huì)成為一個(gè)問(wèn)題呢?最簡(jiǎn)單的方法可能就是去比較PAUP中兩種通過(guò)不同方法得到的建樹結(jié)果和進(jìn)化樹評(píng)估結(jié)果,一種方法是使用時(shí)間可逆的方法,另一種方法是logdet距離建樹方法。下面的章節(jié)中將會(huì)涉及到這些程序。還
39、沒(méi)有什么好的計(jì)算方法,能夠直接從序列數(shù)據(jù)中評(píng)估非靜態(tài)因素的影響。PAUP中有一個(gè)命令,會(huì)列出所有序列的堿基頻率。這個(gè)程序應(yīng)該使用排除不變位點(diǎn)(Exclude Constant Sites)的選項(xiàng)。序列中的堿基頻率可以很直觀地比較出來(lái)。數(shù)據(jù)文件應(yīng)該指定 gapmode=missing,或者PAUP要把一個(gè)空位特征符計(jì)算為一個(gè)堿基變化。堿基頻率的命令還要對(duì)數(shù)據(jù)執(zhí)行一個(gè)“chi平方(chisquare)”測(cè)試,但是這個(gè)測(cè)試并不切實(shí)際,因?yàn)樗俣〝?shù)據(jù)是從一個(gè)隨機(jī)樣本中提取的,而結(jié)果就會(huì)假定所觀察到的不相等是相互獨(dú)立的而不是系統(tǒng)發(fā)育結(jié)構(gòu)的結(jié)果。一個(gè)毫無(wú)意義的chisquare分值并不能除去非靜態(tài)因素,而
40、一個(gè)有意義的分值很可能會(huì)進(jìn)一步證實(shí)非靜態(tài)因素。PAUP中的堿基組成命令已經(jīng)被用來(lái)證明:在被子植物和綠 HYPERLINK /biology/Special/zaolei/Index.shtml t _blank 藻的5.8S rDNA序列中,兩者之間變化比較大的位點(diǎn)集中存在中堿基偏好,但是并不一定在某個(gè)序列上產(chǎn)生變化(Hershkovitz and Lewis, 1996)。建樹方法現(xiàn)有的軟件中所采用的建樹方法已經(jīng)在某些著作(Saitou, 1996; Swofford et al., 1996a; Li, 1997)中有很詳盡的討論;這部分只是簡(jiǎn)單地描述一些最常用的方法。建樹方法可以分為兩類
41、,每類有兩種不同的方法:基于算法的和基于標(biāo)準(zhǔn)的。基于算法的建樹方法根據(jù)一系列的步驟得到一個(gè)進(jìn)化樹;而基于標(biāo)準(zhǔn)的建樹方法則是根據(jù)一些優(yōu)化的功能對(duì)可選的進(jìn)化樹進(jìn)行評(píng)估。相鄰連接方法(NJ)是一個(gè)純粹的基于算法的建樹方法,這個(gè)方法只得到一個(gè)進(jìn)化樹,這個(gè)進(jìn)化樹擁有令人滿意的性質(zhì),它的距離附加值接近或者是非常優(yōu)化的(見下);而一個(gè)基于標(biāo)準(zhǔn)的距離建樹方法將會(huì)根據(jù)進(jìn)化樹的附加值優(yōu)化的標(biāo)準(zhǔn),對(duì)所有可能的進(jìn)化樹(不管這些進(jìn)化樹是否產(chǎn)生)進(jìn)行評(píng)估。 基于距離的和基于特征符的。歷史上的和現(xiàn)有的許多關(guān)于系統(tǒng)發(fā)育的討論描述了各種各樣的基于距離的和基于特征符的建樹方法的效用(比如,Saitou, 1996: Li, 19
42、97)。距離建樹方法根據(jù)一些尺度計(jì)算出雙重序列的距離,然后拋開真實(shí)數(shù)據(jù),只是根據(jù)固定的距離建立進(jìn)化樹;而基于特征符的建樹方法在建立進(jìn)化樹時(shí),優(yōu)化了每一個(gè)特征符的真實(shí)數(shù)據(jù)模式的分布,于是雙重序列的距離不再固定,而是取決于進(jìn)化樹的拓?fù)浣Y(jié)構(gòu)。最常用的基于特征符的建樹方法包括MP和ML。 距離建樹方法距離建樹方法根據(jù)雙重序列比對(duì)的差異程度(距離)建立進(jìn)化樹。如果所有的起源分歧事件都很精確地記錄在序列中(Swofford et al., 1996a),那么距離建樹方法將會(huì)重構(gòu)真實(shí)的進(jìn)化樹。然而,當(dāng)序列突變達(dá)到飽和時(shí),分歧程度就會(huì)達(dá)到上限。一對(duì)分歧序列的其中之一在某個(gè)特定位點(diǎn)發(fā)生突變后,后續(xù)的突變不管發(fā)生
43、在哪一條序列,都不會(huì)再造成更多的差異。實(shí)際上,后續(xù)的變異很可能會(huì)使得前一個(gè)位點(diǎn)恢復(fù)成相等的狀態(tài),從而屏蔽掉前一個(gè)突變,因此,絕大多數(shù)基于距離的建樹方法都會(huì)針對(duì)這樣“不可見”的替換進(jìn)行修正。在實(shí)際操作中,使用的速率方陣都會(huì)很有效地假定:在所觀察的相等的堿基對(duì)中,實(shí)際上存在一定比例的位點(diǎn),這些位點(diǎn)經(jīng)受了多次突變,而且,隨著整個(gè)序列差異程度的增加,這些位點(diǎn)的比例也在增加。有些程序(至少是隨意地)會(huì)計(jì)算出不正確的距離進(jìn)行,比方說(shuō),MEGA程序(Kumar et al., 1994)只針對(duì)密碼子和氨基酸數(shù)據(jù)會(huì)計(jì)算出錯(cuò)誤的距離;除非序列的整體差異程度很小,這個(gè)程序?qū)嵸|(zhì)上將會(huì)保證給出錯(cuò)誤的結(jié)果。雙重序列差異
44、使用最大似然方法的取代速率計(jì)算得到。最常用的距離建樹程序使用的模型局限于時(shí)間可逆模型,只包含很有限的幾個(gè)取代模型;但是PAUP 4.0 基本上會(huì)測(cè)試時(shí)間可逆模型的所有變化,包括用最大似然方法從數(shù)據(jù)中評(píng)估得到的實(shí)際模型,以及針對(duì)非靜態(tài)數(shù)據(jù)的logdet距離建樹方法所得到的模型。與最大似然方法相比,距離建樹方法的計(jì)算強(qiáng)度很小,但是可以使用序列進(jìn)化的相同模型,這是它們最主要的優(yōu)點(diǎn)。這個(gè)方法的缺點(diǎn)是屏蔽了真實(shí)的特征符數(shù)據(jù)。最常用的距離建樹方法是“不加權(quán)配對(duì)組算術(shù)方法”(UPGMA,unweighted pair group method with arithmetic mean)、相鄰連接方法(NJ,
45、neighbor joining)和對(duì)距離進(jìn)化樹的附加值進(jìn)行優(yōu)化的方法,包括最小進(jìn)化方法(ME,minimum evolution)。有些方法被不止一個(gè)系統(tǒng)發(fā)育軟件包引用,但是在使用時(shí)不一定會(huì)使用相同的指定參數(shù)和(或)進(jìn)化樹優(yōu)化特征(比如,樹枝交換見下)。不加權(quán)配對(duì)組算術(shù)方法(UPGMA,unweighted pair group method with arithmetic mean)UPGMA是一種聚類或者說(shuō)是分類方法它按照配對(duì)序列的最大相似性和連接配對(duì)的平均值的標(biāo)準(zhǔn)將進(jìn)化樹的樹枝連接起來(lái)。它還不是一種嚴(yán)格的進(jìn)化距離建樹方法(Li, 1997)。只有當(dāng)序列分歧是基于一個(gè)分子鐘或者近似等于原
46、始的序列差異性的時(shí)候,我們才會(huì)期望UPGMA會(huì)產(chǎn)生一個(gè)擁有真實(shí)的樹枝長(zhǎng)度的準(zhǔn)確的拓?fù)浣Y(jié)構(gòu)(ultrametric; Swofford et al., 1996a)。正如前面討論的那樣,在實(shí)際問(wèn)題中很少會(huì)遇到這種情況。相鄰連接方法(NJ,neighbor joining)相鄰連接算法在距離建樹中經(jīng)常會(huì)用到,而不會(huì)理會(huì)使用什么樣的優(yōu)化標(biāo)準(zhǔn)。完全解析出的進(jìn)化樹是通過(guò)對(duì)完全沒(méi)有解析出的“星型”進(jìn)化樹進(jìn)行“分解”得到的,分解的步驟是連續(xù)不斷地在最接近(實(shí)際上,是最孤立的)的序列對(duì)中插入樹枝,而保留進(jìn)化樹的終端(圖9.8)。于是,最接近的序列對(duì)被鞏固了,而“星型”進(jìn)化樹被改善了,這個(gè)過(guò)程將不斷重復(fù)。這個(gè)方
47、法相對(duì)而言很快,也就是說(shuō),對(duì)于一個(gè)50個(gè)序列的進(jìn)化樹,只需要若干秒甚至更少。FitchMargoliash(FM)FitchMargoliash(FM)方法設(shè)法通過(guò)把所有可能觀察到的距離相對(duì)于進(jìn)化樹中所有可能的路徑長(zhǎng)度的偏差的平方極小化,將進(jìn)化樹中觀察到的雙重距離的合適度極大化(Felsenstein, 1997)。有一些變量,在怎樣對(duì)錯(cuò)誤進(jìn)行加權(quán)的處理上不太一樣。對(duì)變化的估值并非是完全獨(dú)立的,因?yàn)樗械倪M(jìn)化樹內(nèi)部的樹枝中存在的錯(cuò)誤都至少被計(jì)算了兩次(Rzhetsky and Nei, 1992)。最小進(jìn)化方法(ME,Minimum Evolution)最小進(jìn)化方法先使用同F(xiàn)M相同的方式計(jì)算出
48、路徑長(zhǎng)度,然后根據(jù)路徑長(zhǎng)度優(yōu)化出最短的進(jìn)化樹;也就是說(shuō),它要求將觀察到的距離相對(duì)于基于進(jìn)化樹的距離的偏差的平方最小化(Rzhetsky and Nei, 1992; Swofford et al., 1996a; Felsenstein, 1997)。同F(xiàn)M方法不同,ME方法并不使用所有可能的雙重序列距離和所有可能的相關(guān)的進(jìn)化樹路徑長(zhǎng)度,而是先根據(jù)到外層節(jié)點(diǎn)的距離固定進(jìn)化樹內(nèi)部節(jié)點(diǎn)的位置,然后根據(jù)這些觀察點(diǎn)之間的最小計(jì)算誤差,對(duì)內(nèi)部的樹枝長(zhǎng)度進(jìn)行優(yōu)化。于是這個(gè)方法聲稱它消除了FM計(jì)算的依賴性。究竟哪一個(gè)基于距離的建樹程序是最好的ME和FM似乎是最好的程序程序,它們?cè)谀M研究中所取得的成績(jī)幾乎相
49、同(Huelsenbeck, 1995)。ME在計(jì)算機(jī)程序中的應(yīng)用越來(lái)越廣泛了,包括METREE(Rzhetsky and Nei, 1994)和PAUP都在使用ME。對(duì)于蛋白質(zhì)數(shù)據(jù),PHYLIP中的FM程序提供了最多的時(shí)間可逆取代模型,但是沒(méi)有對(duì)位點(diǎn)內(nèi)部的取代速率差異進(jìn)行修正。MEGA(Kumar et al., 1994)和METREE軟件包包括一個(gè)針對(duì)蛋白質(zhì)的gamma修正,但是只有同一個(gè)原始(“p距離”)的分歧模型(沒(méi)有距離修正或者偏好修正)結(jié)合時(shí)才進(jìn)行修正,這種方法只有當(dāng)分歧很小時(shí)才合理(Rzhetsky and Nei, 1994)。MEGA也計(jì)算同義的和異義的位點(diǎn)的分離距離,但是
50、只有當(dāng)沒(méi)有取代或者堿基頻率偏好的時(shí)候,以及沒(méi)有對(duì)位點(diǎn)內(nèi)部的速率差異進(jìn)行修正的時(shí)候,這個(gè)方法才合理。因此,對(duì)于絕大多數(shù)數(shù)據(jù)集而言,對(duì)核苷酸數(shù)據(jù)應(yīng)用一個(gè)更加理想的模型可能會(huì)比MEGA方法要好。模擬研究指出,對(duì)于一個(gè)大范圍的進(jìn)化樹形狀空間,UPGMA的可操作性很差(Huelsenbeck, 1995)。我們并不贊成使用這種方法,而之所以在這里會(huì)提及這個(gè)方法,是因?yàn)樵诂F(xiàn)在的出版物上經(jīng)常會(huì)出現(xiàn)UPGMA的應(yīng)用,這一點(diǎn)可以由當(dāng)前的出版物中出現(xiàn)的UPGMA“基因進(jìn)化樹”證明(Huelsenbeck, 1995)。很顯然,NJ是最快的程序,并且所產(chǎn)生的進(jìn)化樹同ME進(jìn)化樹相比,雖不能說(shuō)一樣,但也已經(jīng)非常相近了(
51、Rzhetsky and Nei, 1992; Li, 1997)。但是,NJ只產(chǎn)生一個(gè)進(jìn)化樹。根據(jù)數(shù)據(jù)結(jié)構(gòu),有大量不同的進(jìn)化樹可能和NJ進(jìn)化樹一樣好,甚至比NJ進(jìn)化樹好得多(Swofford et al.1996a)。我們中的一個(gè)(MAH)和D.Hillis(個(gè)人通訊)已經(jīng)各自獨(dú)立地得到了一些(雖然很少)數(shù)據(jù)集,對(duì)于這些數(shù)據(jù)集,NJ給出的進(jìn)化樹很糟糕;但是使用PAUP方法中的“最接近(closest)”選項(xiàng)后,進(jìn)行逐步加總,得到了一個(gè)較好的距離進(jìn)化樹(Swofford, 1997)。特征符建樹方法除了在所有的分析步驟中都會(huì)用到特征符數(shù)據(jù)以外,基于特征符的建樹方法毫無(wú)共同之處。這就使得我們能夠
52、評(píng)估一個(gè)比對(duì)中每一個(gè)堿基位點(diǎn)對(duì)其它所有的堿基位點(diǎn)的依賴性。最常用的基于特征符的建樹方法是最大節(jié)約方法和最大似然方法。最大節(jié)約方法(MP,Maximum Parsimony)最大節(jié)約方法是一種優(yōu)化標(biāo)準(zhǔn),這個(gè)標(biāo)準(zhǔn)遵循“奧卡姆剃刀原則(Occams razor)”:對(duì)數(shù)據(jù)最好的解釋也是最簡(jiǎn)單的,而最簡(jiǎn)單的所需要的特別假定也最少。在實(shí)際應(yīng)用中,MP進(jìn)化樹是最短的也是變化最少的進(jìn)化樹,根據(jù)定義,這個(gè)進(jìn)化樹的平行變化最少,或者說(shuō)是同形性最低。MP中有一些變量與特征符狀態(tài)改變的可行方向不盡相符(Swofford et al., 1996a)。為了能夠包容取代偏好,MP必須加權(quán);比如,顛換的變換相對(duì)于轉(zhuǎn)換(見
53、上文)被加權(quán)。進(jìn)行加權(quán)的最簡(jiǎn)單的方法就是建立一個(gè)加權(quán)步驟方陣,在這個(gè)方陣?yán)?,?quán)重用速率的倒數(shù),這個(gè)速率是由上面描述的ML方法評(píng)估得到的。步驟方陣加權(quán)可能會(huì)極大地減慢MP的計(jì)算速度。如果比對(duì)內(nèi)部的位點(diǎn)確實(shí)存在這速率差異,那么MP方法就會(huì)執(zhí)行得很不好(Huelsenbeck, 1995)。對(duì)于這個(gè)問(wèn)題,還沒(méi)有什么很好的解決方法。有一個(gè)方法,就是對(duì)數(shù)據(jù)集進(jìn)行修改,使得最終分析的數(shù)據(jù)集中只包括那些內(nèi)部差異性很小的位點(diǎn),這些位點(diǎn)是由前面提到的似然分析方法判斷得到的。更常見的情況是,MP分析只簡(jiǎn)單地屏蔽掉那些高度同形的可疑位點(diǎn)(比如說(shuō),某些序列比對(duì)中的第三個(gè)編碼位點(diǎn))。另外一個(gè)方法是根據(jù)引導(dǎo)樹中所能觀察到
54、的位點(diǎn)變化傾向,對(duì)位點(diǎn)進(jìn)行循環(huán)加權(quán)。這個(gè)“連續(xù)逼近”方法在PAUP中會(huì)自動(dòng)簡(jiǎn)化,但是這個(gè)方法的出錯(cuò)的傾向程度取決于引導(dǎo)樹的出錯(cuò)程度。MP分析期望能夠產(chǎn)生大量的(有時(shí)候是成千上萬(wàn)個(gè))具有相同分值的進(jìn)化樹。因?yàn)檫@些進(jìn)化樹之間的優(yōu)化程度相同,所以只有所有進(jìn)化樹都嚴(yán)格一致的分組才算是得到數(shù)據(jù)的支持。距離建樹方法和ML建樹方法期望得到一個(gè)最簡(jiǎn)單的最好的進(jìn)化樹,是因?yàn)檫@些方法的算法中包括了除法和小數(shù),而MP建樹方法只是計(jì)算離散的步長(zhǎng)。對(duì)于一個(gè)給定的數(shù)據(jù)集,存在著比最佳的進(jìn)化樹差不了多少的ME進(jìn)化樹或者M(jìn)L進(jìn)化樹,如果這些進(jìn)化樹嚴(yán)格一致的話,很可能會(huì)產(chǎn)生同MP一致進(jìn)化樹多少有些可比性的分解。不幸的是,MP的
55、使用者傳統(tǒng)上都會(huì)給出嚴(yán)格一致的進(jìn)化樹(有時(shí)候是進(jìn)化樹的一致性,其中有一個(gè)或者兩個(gè)步驟不太好),而ME和ML用戶通常就不會(huì)這樣做?,F(xiàn)在已經(jīng)開發(fā)了大量的進(jìn)化樹統(tǒng)計(jì)量值來(lái)描述一個(gè)MP進(jìn)化樹。除了進(jìn)化樹的長(zhǎng)度外,這些統(tǒng)計(jì)量包括各種各樣的比例,用以描述同形的數(shù)量,比如稠度指數(shù),或者一個(gè)進(jìn)化樹中一個(gè)特征符改變狀態(tài)的平均次數(shù)(Swofford, 1990)。盡管在MP分析中仍然經(jīng)常報(bào)告這些指數(shù),但是已經(jīng)證明這些指數(shù)受到許多人為因素的干擾,比如被分析的分類群的數(shù)量。模擬研究(Huelsenbeck, 1995)已經(jīng)表明,如果從世系分歧開始的序列進(jìn)化的數(shù)量遠(yuǎn)大于世系分離的分歧數(shù)量(比如,一個(gè)進(jìn)化樹中,終端的樹枝
56、很長(zhǎng),而內(nèi)部節(jié)間的樹枝很短),MP的效果同ME一樣差,比ML還要更差。這種情況會(huì)造成“長(zhǎng)樹枝效應(yīng)”長(zhǎng)樹枝可能會(huì)被人工連接,因?yàn)槔鄯e的非同源的相似性的數(shù)量超過(guò)了因?yàn)檎鎸?shí)的相關(guān)性而保留的同源相似性的數(shù)量(Swofford et al., 1996a)。在這種情況下,特征符加權(quán)會(huì)改善MP的執(zhí)行效果(Huelsenbeck, 1995)。最大似然方法(ML, Maximum Likelihood)ML對(duì)系統(tǒng)發(fā)育問(wèn)題進(jìn)行了徹底搜查。ML期望能夠搜尋出一種進(jìn)化模型(包括對(duì)進(jìn)化樹本身進(jìn)行 HYPERLINK / 搜索),使得這個(gè)模型所能產(chǎn)生的數(shù)據(jù)與觀察到的數(shù)據(jù)最相似。實(shí)際上,ML是從比對(duì)的每一個(gè)堿基位點(diǎn)衍生
57、出來(lái)的。給定一個(gè)特定的進(jìn)化樹和觀察到的全部的堿基頻率,我們可以計(jì)算出似然值,具體方法是要計(jì)算一個(gè)位點(diǎn)遵循一個(gè)特定取代過(guò)程時(shí)所得到的變化模式的概率;似然值就是把在這個(gè)特定的取代過(guò)程中每一個(gè)可能的取代的再現(xiàn)的概率進(jìn)行加和。所有位點(diǎn)的似然值相乘就得到了整個(gè)進(jìn)化樹的似然值(也就是說(shuō),數(shù)據(jù)集的概率給出了進(jìn)化樹和進(jìn)化過(guò)程)。大家可以想象一下,對(duì)于一個(gè)特定的進(jìn)化樹,數(shù)據(jù)集的似然值在某些位點(diǎn)偏低,而另外一些位點(diǎn)偏高。如果進(jìn)化樹比較好,那么大多數(shù)位點(diǎn)的似然值都會(huì)較高,因此整個(gè)似然值較高;如果進(jìn)化樹不太好,似然值就會(huì)比較低。如果數(shù)據(jù)集中沒(méi)有系統(tǒng)發(fā)育的信號(hào),所有隨機(jī)的進(jìn)化樹的似然值上都會(huì)相差無(wú)幾。取代模型應(yīng)該得到優(yōu)
58、化,以適應(yīng)觀察到的數(shù)據(jù)的需要。比方說(shuō),如果存在著轉(zhuǎn)化的偏好(其明顯表現(xiàn)為有大量的位點(diǎn)只包含嘌呤或者只包含嘧啶),那么,如果計(jì)算數(shù)據(jù)的似然值時(shí)所采用的模型沒(méi)有考慮偏好的話,其效果顯然不如采用考慮了偏好的模型。同樣地,如果有一部分位點(diǎn)確實(shí)只包含一種堿基,而另外一部分位點(diǎn)以相同的概率包含各種堿基,那么,如果計(jì)算數(shù)據(jù)的似然值時(shí)所采用的模型假定所有位點(diǎn)的進(jìn)化都平等的話,其效果顯然不如采用考慮了位點(diǎn)內(nèi)部的速率差異的模型。對(duì)于一個(gè)特定的進(jìn)化樹,改變?nèi)〈鷧?shù)就意味著將改變與之相關(guān)聯(lián)的數(shù)據(jù)集的似然值;因此,在某一個(gè)取代模型下,進(jìn)化樹可以取得很高的似然值,但是,在另一個(gè)取代模型下,進(jìn)化樹所取得的似然值就可能會(huì)很低
59、。因?yàn)镸L要耗費(fèi)大量的計(jì)算機(jī)機(jī)時(shí),所以對(duì)于一個(gè)給定的數(shù)據(jù)集,想要在優(yōu)化取代模型和進(jìn)化樹的同時(shí)進(jìn)行完全的 HYPERLINK / 搜索幾乎是不可實(shí)現(xiàn)的。值得推薦的是一個(gè)很經(jīng)濟(jì)的探索式的程序(Adachi and Hasegawa, 1996; Swofford et al., 1996a)。在這一點(diǎn)上,可能最好的節(jié)約時(shí)間的方法是前面所說(shuō)的對(duì)取代模型的ML評(píng)估(圖9.7)。這個(gè)程序可以反復(fù)進(jìn)行, HYPERLINK / 搜索到較好的ML進(jìn)化樹,然后重新對(duì)參數(shù)進(jìn)行評(píng)估,然后 HYPERLINK / 搜索更好的進(jìn)化樹。隨著算法、計(jì)算機(jī)和對(duì)系統(tǒng)發(fā)育的認(rèn)識(shí)的進(jìn)步,ML標(biāo)準(zhǔn)在分子系統(tǒng)發(fā)育分析中也變得越來(lái)越流
60、行。在模擬研究中,如果對(duì)由相同的模型產(chǎn)生的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析的話,ML做得總是比ME和MP要好(Huelsenbeck, 1995)。在所有的方法中,ML的計(jì)算強(qiáng)度最大,所以在某些情況下,它總是無(wú)法實(shí)現(xiàn);而且,同樣的模擬研究表明在許多情況下,ME和MP方法同ML方法的執(zhí)行效果一樣好(或者一樣差)。距離方法、節(jié)約方法和最大似然方法的差異距離方陣方法簡(jiǎn)單的計(jì)算兩個(gè)序列的差異數(shù)量。這個(gè)數(shù)量被看作進(jìn)化距離,而其準(zhǔn)確大小依賴于進(jìn)化模型的選擇。然后運(yùn)行一個(gè)聚類算法,從最相似(也就是說(shuō),兩者之間的距離最短)的序列開始,通過(guò)距離值方陣計(jì)算出實(shí)際的進(jìn)化樹,或者通過(guò)將總的樹枝長(zhǎng)度最小化而優(yōu)化出進(jìn)化樹。用最大節(jié)約方法
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度新能源儲(chǔ)能系統(tǒng)承包安裝合同4篇
- 2024美容美發(fā)產(chǎn)品購(gòu)銷簡(jiǎn)單合同范本
- 2025年度深層水文地質(zhì)勘探打井勞務(wù)服務(wù)合同4篇
- 2024版智能家居設(shè)備租賃合同
- 2024私人房屋買賣合同范本53299
- 2024銷售無(wú)標(biāo)簽油煙機(jī)合同范本
- 2024版金融信息服務(wù)框架合同
- 2024運(yùn)營(yíng)總監(jiān)企業(yè)創(chuàng)新機(jī)制與激勵(lì)機(jī)制合同3篇
- 2025年度停車場(chǎng)照明設(shè)施改造承包合同4篇
- 2021-2026年中國(guó)飲料瓶智能回收機(jī)市場(chǎng)調(diào)查研究及行業(yè)投資潛力預(yù)測(cè)報(bào)告
- 拆遷評(píng)估機(jī)構(gòu)選定方案
- 床旁超聲監(jiān)測(cè)胃殘余量
- 上海市松江區(qū)市級(jí)名校2025屆數(shù)學(xué)高一上期末達(dá)標(biāo)檢測(cè)試題含解析
- 綜合實(shí)踐活動(dòng)教案三上
- 《新能源汽車電氣設(shè)備構(gòu)造與維修》項(xiàng)目三 新能源汽車照明與信號(hào)系統(tǒng)檢修
- 2024年新課標(biāo)《義務(wù)教育數(shù)學(xué)課程標(biāo)準(zhǔn)》測(cè)試題(附含答案)
- 醫(yī)院培訓(xùn)課件:《靜脈中等長(zhǎng)度導(dǎo)管臨床應(yīng)用專家共識(shí)》
- 趣味知識(shí)問(wèn)答100道
- 中國(guó)國(guó)際大學(xué)生創(chuàng)新大賽與“挑戰(zhàn)杯”大學(xué)生創(chuàng)業(yè)計(jì)劃競(jìng)賽(第十一章)大學(xué)生創(chuàng)新創(chuàng)業(yè)教程
- 鋼管豎向承載力表
- 2024年新北師大版八年級(jí)上冊(cè)物理全冊(cè)教學(xué)課件(新版教材)
評(píng)論
0/150
提交評(píng)論