版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、分子進(jìn)化與系統(tǒng)進(jìn)化樹的構(gòu)建分子進(jìn)化與系統(tǒng)進(jìn)化樹的構(gòu)建主要內(nèi)容:1、分子進(jìn)化的研究方法2、系統(tǒng)進(jìn)化樹的構(gòu)建方法3、系統(tǒng)進(jìn)化樹構(gòu)建常用軟件匯集 # ?: m2 v: G/ 6 I- U4、系統(tǒng)進(jìn)化樹構(gòu)建方法及軟件的選擇 5、Phylip分子進(jìn)化分析軟件包簡介及使用6、如何利用MEGA3.1構(gòu)建進(jìn)化樹%聲明:1、本篇涉及的資源主要源于網(wǎng)絡(luò)及相關(guān)書籍,由酷友搜集、分析、整理、審改,供大 家學(xué)習(xí)參考用,如有轉(zhuǎn)載、傳播請注明源于 基因酷 及本篇的工作人員;若本篇侵犯了您 的版權(quán)或有任何不妥,請 Email ge 告知。2、由于我們的學(xué)識、經(jīng)驗有限,本篇難免會存在一些錯誤及缺陷,敬請不吝賜教:請到基因 酷論
2、壇(/bbs)本篇對 應(yīng)的專題跟貼 指出或 Email gen 。致謝:整編者:flashhyh主要參考資料:生物信息學(xué)札記 樊龍江;分子進(jìn)化分析與相關(guān)軟件的應(yīng)用 作 者不詳;進(jìn)化樹構(gòu)建 ZHAO Yangguo ;如何用 MEGA 3.1 構(gòu)建進(jìn)化樹 作者不 詳; MEGA3 指南 作者不詳; # ?( r, F9 !分子進(jìn)化的研究方法分子進(jìn)化的研究方法分子進(jìn)化研究的意義+Q自 20 世紀(jì)中葉,隨著分子生物學(xué)的不斷發(fā)展,進(jìn)化研究也進(jìn)入了分子進(jìn)化 (molecularevolution) 研究水平,并建立了一套依賴于核酸、蛋白質(zhì)序列信息的理論和方 法。 隨著基因組測序計劃的實施, 基因組的巨量
3、信息對若干生物領(lǐng)域重大問題的研究提 供了有力的幫助, 分子進(jìn)化研究再次成為生命科學(xué)中最引人注目的領(lǐng)域之一。這些重大 問題包括:遺傳密碼的起源、基因組結(jié)構(gòu)的形成與演化、進(jìn)化的動力、生物進(jìn)化等等。 分子進(jìn)化研究目前更多地是集中在分子序列上,但隨著越來越多生物基因組的測序完 成,從基因組水平上探索進(jìn)化奧秘,將開創(chuàng)進(jìn)化研究的新天地。分子進(jìn)化研究最根本的目的就是從物種的一些分子特性出發(fā), 從而了解物種之間的 生物系統(tǒng)發(fā)生的關(guān)系。 通過核酸、 蛋白質(zhì)序列同源性的比較進(jìn)而了解基因的進(jìn)化以及生 物系統(tǒng)發(fā)生的內(nèi)在規(guī)律。分子進(jìn)化研究的基礎(chǔ) $ D3 Q( I ?4 C3 |9 假設(shè):核苷酸和氨基酸序列中含有生物進(jìn)
4、化歷史的全部信息。分子鐘理論: 在各種不同的發(fā)育譜系及足夠大的進(jìn)化時間尺度中, 許多序列的進(jìn)化 速率幾乎是恒定不變的。如下圖:直系同源與旁系同源 7 C& q1 I S# L x5 Z,直系同源(orthologs):同源的基因是由于共同的祖先基因進(jìn)化而產(chǎn)生的;旁系同源(paralogs):同源的基因是由于基因復(fù)制產(chǎn)生的。一+.兩者之間的關(guān)系如下圖所示:注:用于分子進(jìn)化分析中的序列必須是直系同源的 ,才能真實反映進(jìn)化過程。 分子進(jìn)化研究的基本方法對于進(jìn)化研究, 主要通過構(gòu)建系統(tǒng)發(fā)育過程有助于通過物種間隱含的種系關(guān)系揭示 進(jìn)化動力的實質(zhì)。9 n) e N- e # h表型的(phenetic)和
5、遺傳的(cladistic)數(shù)據(jù)有著明顯差異。Sneath和Sokal(1973)將表型 性關(guān)系定義為根據(jù)物體一組表型性狀所獲得的相似性,而遺傳性關(guān)系含有祖先的信息, 因而可用于研究進(jìn)化的途徑。這兩種關(guān)系可用于系統(tǒng)進(jìn)化樹(phyloge netictree)或樹狀圖(dendrogram)來表示。表型分枝圖(phenogram)和進(jìn)化分枝圖(cladogram)兩個術(shù)語已用于 表示分別根據(jù)表型性的和遺傳性的關(guān)系所建立的關(guān)系樹。 進(jìn)化分枝圖可以顯示事件或類 群間的進(jìn)化時間,而表型分枝圖則不需要時間概念。文獻(xiàn)中,更多地是使用“系統(tǒng)進(jìn)化樹”一詞來表示進(jìn)化的途徑,另外還有系統(tǒng)發(fā)育樹、物種樹 (spec
6、iestree)基因樹等等一 些相同或含義略有差異的名稱 .系統(tǒng)進(jìn)化樹分有根(rooted)和無根(unrooted)樹。有根樹反映了樹上物種或基因的時 間順序, 而無根樹只反映分類單元之間的距離而不涉及誰是誰的祖先問題。 下圖表示了4 個物種部分有根樹和無根樹形式:用于構(gòu)建系統(tǒng)進(jìn)化樹的數(shù)據(jù)有二種類型:一種是特征數(shù)據(jù)(characterdata),它提供了基因、個體、群體或物種的信息;二是距離數(shù)據(jù)(distancedata)或相似性數(shù)據(jù) (similaritydata) ,它涉及的則是成對基因、個體、群體或物種的信息。距離數(shù)據(jù)可由特征 數(shù)據(jù)計算獲得, 但反過來則不行。 這些數(shù)據(jù)可以矩陣的形式表
7、達(dá)。 距離矩陣 (distancematrix) 是在計算得到的距離數(shù)據(jù)基礎(chǔ)上獲得的,距離的計算總體上是要依據(jù)一定的遺傳模型, 并能夠表示出兩個分類單位間的變化量。 系統(tǒng)進(jìn)化樹的構(gòu)建質(zhì)量依賴于距離估算的準(zhǔn)確 性。系統(tǒng)進(jìn)化樹的構(gòu)建方法系統(tǒng)進(jìn)化樹的構(gòu)建方法系統(tǒng)樹的構(gòu)建主要有三種方法:距離矩陣法(distanee matrix method)是根據(jù)每對物種之間的距離,其計算一般很直接, 所生成的樹的質(zhì)量取決于距離尺度的質(zhì)量。距離通常取決于遺傳模型。最大簡約 (maximum parsimony) 法較少涉及遺傳假設(shè), 它通過尋求物種間最小的變更數(shù) 來完成的。對于模型的巨大依賴性是最大似然 (maxi
8、mum likelihood) 法的特征,該方法在計算上繁 雜,但為統(tǒng)計推斷提供了基礎(chǔ)。距離矩陣法 1 n9 Y8 F0 a首先通過各個物種之間的比較,根據(jù)一定的假設(shè)(進(jìn)化距離模型)推導(dǎo)得出分類群 之間的進(jìn)化距離, 構(gòu)建一個進(jìn)化距離矩陣。進(jìn)化樹的構(gòu)建則是基于這個矩陣中的進(jìn)化距 離關(guān)系。這里的遺傳距離為所有成對實用分類單位(operational taxonomic units , OTU)之間的距離。用這些距離對OUT進(jìn)行表型意義的分類可借助于聚類分析(clustering),聚類過程可以看作是鑒別具有相近 OUT 類群的過程。 : k M* X9 & R4 A8 Q. X由進(jìn)化距離構(gòu)建進(jìn)化樹
9、的方法很多,常用有如下幾種:平均連接聚類法(UPGMA法):聚類的方法很多,包括序貫法(sequential)、聚合法(agglomerative)、分層法(hierarchical)和非重疊法(nonoverlapping)等。應(yīng)用最廣泛的是平 均連接聚類法(average linkage clustering)或稱為UPGMA法(應(yīng)用算術(shù)平均數(shù)的非加權(quán)成 組配對法, un weighted pair-group method using an arithmetic average)。該法將類間距離定 義為兩個類的成員所有成對距離的平均值,廣泛用于距離矩陣。 Nei 等模擬了構(gòu)建樹的 不同方
10、法,發(fā)現(xiàn)當(dāng)沿樹上所有分枝的突變率相同時, UPGMA 法一般能夠得到較好的結(jié) 果。但必須強(qiáng)調(diào)有關(guān)突變率相等 (或幾乎相等 ) 的假設(shè)對于 UPGMA 的應(yīng)用是重要的。另 一些模型研究 (如 Kim 和 Burgman) 已證實當(dāng)各分枝的突變率不相等時, 這一方法的結(jié)果 不盡人意。當(dāng)各分枝突變率相等時,認(rèn)為分子鐘 (molecularclock) 在起作用。 ( m2 O% v( R B2 i* f% f- KFitch-Margoliash Method (FM 法): UPGMA 法包含這樣的假定:沿著樹的所有分 枝突變率為常數(shù)。 Fitch 和 Margoliash(1967) 所發(fā)展的方
11、法去除了這一假定。該法的應(yīng)用 過程包括插入 喪失的” OUT作為后面OUT的共同祖先,并每次使分枝長度擬合于3個OTU 組。 G$ ! B) L0 P, E. MMargoliash 擔(dān)心他們的法則所得到的拓?fù)浣Y(jié)構(gòu)可能是不完全正確的,并建議考查其 它的拓?fù)浣Y(jié)構(gòu)??梢圆捎肍itch和Margoliash(1967)稱之為百分標(biāo)準(zhǔn)差”的一種擬合優(yōu)度 來比較不同的系統(tǒng)樹, 最佳系統(tǒng)樹應(yīng)具有最小的百分標(biāo)準(zhǔn)差。根據(jù)百分標(biāo)準(zhǔn)差選擇系統(tǒng) 樹,其最佳系統(tǒng)樹可能與由 Fitch-Margoliash 法則所得的不相同。當(dāng)存在分子鐘時,可 以預(yù)期這一標(biāo)準(zhǔn)差的應(yīng)用將給出類似于 UPGMA 方法的結(jié)果。 如果不存在分
12、子鐘, 因而 在不同的世系 (分枝)中的變更率是不同的, 則 Fitch-Margoliash 標(biāo)準(zhǔn)就會比 UPGMA 好得 多。通過選擇不同的 OUT 作為初始配對單位,就可以選擇其它的系統(tǒng)樹進(jìn)行考查。具 有最低百分標(biāo)準(zhǔn)差的系統(tǒng)樹即被認(rèn)為是最佳的, 并且這個標(biāo)準(zhǔn)是建立在應(yīng)用 Fitch- Margoliash算法的基礎(chǔ)上的。FM 算法的基本步驟:1 、找出關(guān)系最近的序列對,如 A 和 B2、 將剩余的序列作為一個簡單復(fù)合序列,分別計算A、B 到所有其他序列的距離的平 均值3、用這些值來計算 A 和 B 間的距離4、將 A、B 作為一個單一的復(fù)合序列 AB ,計算與每一個其他序列的距離,生成新
13、的距 離矩陣5、確定下一對關(guān)系最近的序列,重復(fù)前面的步聚計算枝長6、從每個序列對開始,重復(fù)整個過程7、對每個樹計算每對序列間的預(yù)測距離,發(fā)現(xiàn)與原始數(shù)據(jù)最符合的樹Neighbor-JoiningMethod(NJ 法/鄰接法 ):鄰接法 (Neighbor-joiningMethod) 由 Saitou 和Nei(1987)提出。該方法通過確定距離最近(或相鄰)的成對分類單位來使系統(tǒng)樹的總距 離達(dá)到最小。相鄰是指兩個分類單位在某一無根分叉樹中僅通過一個節(jié)點(no de)相連。通過循序地將相鄰點合并成新的點,就可以建立一個相應(yīng)的拓?fù)錁?。最大簡約法最大簡約法(maximum parsimony ,
14、MP)最早源于形態(tài)性狀研究,現(xiàn)在已經(jīng)推廣到分 子序列的進(jìn)化分析中。最大簡約法的理論基礎(chǔ)是奧卡姆(Ockham )哲學(xué)原則,這個原則認(rèn)為: 解釋一個過程的最好理論是所需假設(shè)數(shù)目最少的那一個。對所有可能的拓?fù)浣Y(jié)構(gòu)進(jìn)行計算,并計算出所需替代數(shù)最小的那個拓?fù)浣Y(jié)構(gòu),作為最優(yōu)樹。9 T# J L2 M$ ) Y) P- zFelse nstein指出,在試圖使進(jìn)化事件的次數(shù)最小時,簡約法隱含地假定這類事件是 不可能的。如果在進(jìn)化時間范圍內(nèi)堿基變更的量較小,則簡約法是很合理的,但對于存 在大量變更的情形,隨著所用資料的增加,簡約法可能給出實際上更為錯誤的系統(tǒng)樹。最大簡約法的優(yōu)點: 最大簡約法不需要在處理核苷
15、酸或者氨基酸替代的時候引入假 設(shè)(替代模型)。此外,最大簡約法對于分析某些特殊的分子數(shù)據(jù)如插入、缺失等序列 有用。缺點:在分析的序列位點上沒有回復(fù)突變或平行突變,且被檢驗的序列位點數(shù)很大 的時候, 最大簡約法能夠推導(dǎo)獲得一個很好的進(jìn)化樹。然而在分析序列上存在較多的回 復(fù)突變或平行突變, 而被檢驗的序列位點數(shù)又比較少的時候,最大簡約法可能會給出一 個不合理的或者錯誤的進(jìn)化樹推導(dǎo)結(jié)果。最大似然法( ML )最大似然法 (maximum likelihood,ML) 最早應(yīng)用于系統(tǒng)發(fā)育分析是在對基因頻率數(shù) 據(jù)的分析上,后來基于分子序列的分析中也已經(jīng)引入了最大似然法的分析方法。最大似然法分析中, 選取
16、一個特定的替代模型來分析給定的一組序列數(shù)據(jù),使得獲 得的每一個拓?fù)浣Y(jié)構(gòu)的似然率都為最大值, 然后再挑出其中似然率最大的拓?fù)浣Y(jié)構(gòu)作為 最優(yōu)樹。 在最大似然法的分析中, 所考慮的參數(shù)并不是拓?fù)浣Y(jié)構(gòu)而是每個拓?fù)浣Y(jié)構(gòu)的枝 長,并對似然率球最大值來估計枝長。最大似然法的建樹過程是個很費時的過程,因為 在分析過程中有很大的計算量,每個步驟都要考慮內(nèi)部節(jié)點的所有可能性。最大似然法也是一個比較成熟的參數(shù)估計的統(tǒng)計學(xué)方法, 具有很好的統(tǒng)計學(xué)理論基 礎(chǔ), 在當(dāng)樣本量很大的時候, 似然法可以獲得參數(shù)統(tǒng)計的最小方差。 只要使用了一個合 理的、正確的替代模型,最大似然法可以推導(dǎo)出一個很好的進(jìn)化樹結(jié)果。 0 v q, n
17、 I7 e k) * y6 L注:上述只是對系統(tǒng)進(jìn)化樹構(gòu)建方法的簡要介紹,沒有深入每種方法的構(gòu)建原理等 方面,若想進(jìn)一步了解,請參見附件中的 生物信息學(xué)札記一一分子進(jìn)化:系統(tǒng)樹的構(gòu) 建,樊龍江編 。若欲深入了解,請參考相關(guān)文獻(xiàn)。系統(tǒng)進(jìn)化樹構(gòu)建方法及軟件的選擇系統(tǒng)進(jìn)化樹構(gòu)建方法及軟件的選擇構(gòu)建方法的選擇從上述我們可以了解到,構(gòu)建系統(tǒng)進(jìn)化樹的方法主要有:基于距離矩陣的方法(UPGMA、NJ( Neighbor-Joining ,鄰接法)等、 MP ( Maximum parsimony,最大簡約 法)、ML (Maximum likelihood,最大似然法)以及貝葉斯( Bayesian)推斷等
18、方法。 其中基于距離矩陣中的UPGMA法已經(jīng)較少使用。一般情況,若有合適模型,ML的效果較好;近緣序列,一般使用MP (基于的假設(shè)少);遠(yuǎn)緣序列,一般使用NJ或ML。對相似度很低的序列,NJ往往出現(xiàn)Long-branch attraction( LBA,長枝吸引現(xiàn)象), 有時會嚴(yán)重干擾進(jìn)化樹的構(gòu)建;貝葉斯的方法則太慢。各種方法構(gòu)建的系統(tǒng)進(jìn)化樹,(Hall BG. Mol Biol Evol 2005, 22(3):792-802 )認(rèn)為貝葉斯方法的準(zhǔn)確性最高,其次是ML ,然后再是MP。其實若序列有較高的相似性,各種方法都會得到不錯的結(jié)果,模型間的差 別也不大。對于NJ和ML兩種方法,需要選擇
19、構(gòu)建模型。對于核酸及蛋白質(zhì)序列,兩者模型 的選擇是不同的。 蛋白質(zhì)的序列,一般選擇 Poisson Correction (泊松修正)這一模型; 而對于核酸序列,一般選擇Kimura 2-parameter ( Kimura-2參數(shù))模型。Bootstrap選項一般都要選擇,當(dāng)Bootstrap的值70,一般都認(rèn)為構(gòu)建的進(jìn)化樹較為 可靠。如果Bootstrap的值太低,則有可能進(jìn)化樹的拓?fù)浣Y(jié)構(gòu)有錯誤,進(jìn)化樹是不可靠 的。.“,對于進(jìn)化樹的構(gòu)建,如果對理論的了解并不深入,則推薦使用缺省的參數(shù),并啟用 Bootstrap檢驗。一般情況下,使用兩種不同的方法構(gòu)建進(jìn)化樹,如果得到的進(jìn)化樹基本一致,結(jié)果
20、較為可靠。 構(gòu)建軟件的選擇構(gòu)建NJ樹,可以用PHYLIP或者M(jìn)EGA。MEGA是Nei開發(fā)的方法并設(shè)計的圖形 化的軟件,使用非常方便,推薦使用。雖然多序列比對工具ClustalW/X也自帶了一個NJ的建樹程序,但是該程序只有p-distanee模型,而且構(gòu)建的樹不夠準(zhǔn)確,一般不用來構(gòu)建進(jìn)化樹。構(gòu)建MP樹,最好的工具是PAUP,但該程序?qū)儆谏虡I(yè)軟件, 并不對科研學(xué)術(shù)免費。 MEGA和PHYLIP也可以用來構(gòu)建 MP樹。構(gòu)建ML樹可以使用PHYML,速度較快。也可使用 Tree-puzzle,該程序做蛋白質(zhì) 序列的進(jìn)化樹效果比較好。 ML還可以使用 PAUP、PHYLIP (或BioEdit )來
21、構(gòu)建。BioEdit 集成了一些PHYLIP的程序,用來構(gòu)建進(jìn)化樹。Tree-puzzle是另外一個不錯的選擇,不 過該程序是命令行格式的,需要學(xué)習(xí)DOS命令。貝葉斯的算法以MrBayes為代表,不過速度較慢。一般的進(jìn)化樹分析中較少應(yīng)用。系統(tǒng)進(jìn)化樹構(gòu)建常用軟件匯集系統(tǒng)進(jìn)化樹構(gòu)建常用軟件匯集軟件名稱網(wǎng)址說明PHYLIP HYPERLINK /phylip/software.html /phylip/software.html -目前發(fā)布最廣,用 戶最多的通用系 統(tǒng)樹構(gòu)建軟件,由 美國華盛頓大學(xué)Felse nste in 開發(fā), 可免費下載,適用 絕大多數(shù)操作系 統(tǒng)PAUPscavottos in
22、 或ftp:/ ony /paup國際上最通用的 系統(tǒng)樹構(gòu)建軟件 之一, 美國 simths onioninstitute 開發(fā),僅 適用Apple-Maci ntosh 和UNIX操作系 統(tǒng)-E#MEGA HYPERLINK http:/bioi http:/bioi nfo.weizma nn .ac.il/databases/i nfo/mega.sof美國賓西法尼亞 州 立 大 學(xué)MasatoshiNei 開發(fā)的分子進(jìn)化遺 傳學(xué)軟件,圖形 化、集成的進(jìn)化分 析工具,不包括MLMOLPHY HYPERLINK ftp:/s ftp:/s unm h.ism.ac.jp/pub/molphy日本國立統(tǒng)計數(shù)理研究所開發(fā),最大似然法構(gòu)樹PAML HYPERLINK http:/abacus.gene.ucl.ac.uk/software/paml.html http:/abacus.gene.ucl.ac.uk/software/paml.html
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 某高中副校長在11月升旗活動上的講話
- 2023年中考地理模擬卷(四)
- 湛江-PEP-2024年10版小學(xué)三年級下冊英語第5單元寒假試卷
- 《管理學(xué)原理》期末考試復(fù)習(xí)題庫(含答案)
- 骨盆骨折護(hù)理常規(guī)
- 云南省大理市2024-2025學(xué)年高三年級上冊規(guī)?;y(tǒng)一檢測地理試題(含答案)
- 2023年群路密碼機(jī)系列投資申請報告
- 2024年密封墊及類似接合襯墊項目資金籌措計劃書代可行性研究報告
- 強(qiáng)化財政投融資體制促進(jìn)積極財政政策的實施
- 耐高溫自潤滑聚酰亞胺復(fù)合材料
- Unit4-Hows-the-weather-today-說課(課件)人教精通版英語四年級上冊
- 大學(xué)新生心理壓力與情緒管理策略與心理調(diào)整與發(fā)展計劃
- 空乘人員生涯發(fā)展展示
- 黃旭華(修訂版)
- 子宮內(nèi)膜異位癥術(shù)后護(hù)理課件
- 醫(yī)療器材廣告推廣方案
- 保險基礎(chǔ)知識課件
- 病毒學(xué)-流感病毒的變異與預(yù)防策略教學(xué)教案
- 干部履歷表(中共中央組織部2015年制)
- “訂餐協(xié)議書:團(tuán)體訂餐服務(wù)合作協(xié)議”
- 小學(xué)各年級小學(xué)一年級提高思維能力的方法主題班會
評論
0/150
提交評論