




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第七章 分子系統(tǒng)發(fā)育分析,姚正培 yao_,本章內(nèi)容,引言 生物進(jìn)化的分子機(jī)制 系統(tǒng)進(jìn)化樹及其構(gòu)建 分子系統(tǒng)發(fā)育分析軟件及應(yīng)用,引言,生物學(xué)家:We have a dream Tree of Life: 重建所有生物的進(jìn)化歷史并以系統(tǒng)樹的形式加以描述,引言,夢想走進(jìn)現(xiàn)實(shí):How? 最理想的方法:化石! 零散、不完整,引言,夢想走進(jìn)現(xiàn)實(shí):How? 比較形態(tài)學(xué)和比較生理學(xué):確定大致的進(jìn)化框架 細(xì)節(jié)存很多的爭議,引言,夢想走進(jìn)現(xiàn)實(shí):How? 第三種方案:分子進(jìn)化 1964年,美國進(jìn)化生物學(xué)家 E. Zuckerkandl和 量子化學(xué)家Linus Pauling提出分子進(jìn)化理論 基本假設(shè) 核酸和蛋白質(zhì)
2、序列中含有生物進(jìn)化歷史的全部信息 理論 分子進(jìn)化速率恒定。 分子鐘:物種的同源基因之間的差異程度與它們的共同祖先的存在時(shí)間(即兩者的分歧時(shí)間)有一定的數(shù)量關(guān)系。 發(fā)生在分子層面的進(jìn)化過程:DNA, RNA和蛋白質(zhì)分子,引言,分子鐘成立的證據(jù): 1、至少某些生物大分子(如珠蛋白)的進(jìn)化速率在相當(dāng)長的地質(zhì)時(shí)間內(nèi)的相對(duì)穩(wěn)定、均勻; 2、許多不同物種的多種同源大分子在相當(dāng)長時(shí)間內(nèi)的平均進(jìn)化速率近似恒定。,建立分子鐘的大致步驟 1、選擇所要比較的生物大分子種類 根據(jù)具體研究目標(biāo)和已掌握的資料,選擇進(jìn)化速率相對(duì)恒定、速率大小合適、分布范圍能涵蓋各待比較物種的生物大分子。 2、選擇所要比較的物種,確定各比較
3、組合及其所代表的進(jìn)化事件 3、獲得生物大分子一級(jí)結(jié)構(gòu)的資料 4、獲得有關(guān)的代表性進(jìn)化事件發(fā)生的地質(zhì)時(shí)間數(shù)據(jù) 5、通過比較大分子一級(jí)結(jié)構(gòu),選擇合適的數(shù)學(xué)模型,計(jì)算得到進(jìn)化產(chǎn)生的分子差異d,通過回歸分析等統(tǒng)計(jì)方法得到大分子的進(jìn)化速率r(t) 6、由此可以推斷未知進(jìn)化事件的發(fā)生時(shí)間,Example: Molecular clock for 17 mammal species Inferred pairwise nucleotide substitutions among 17 mammal species from seven gene products, as estimated from pro
4、tein studies, plotted against date of divergence, as estimated from the fossil record. The line is drawn from the origin through the oldest point (marsupial / placental divergence at 125 MYBP). The strong linear relationship suggests that molecular differences between pairs of species are proportion
5、al to the time of their separation, rather than the degree of organismal difference. Therefore, measures of genetic divergence can be used to date the time of divergence for species pairs for which no fossil data are available: genes function as Molecular Clocks. (from A. C. Wilson 1976),關(guān)于分子鐘的討論和爭議
6、 1、對(duì)長期進(jìn)化而言,不存在以恒定速率替換的生物大分子一級(jí)結(jié)構(gòu);(基因功能的改變、基因數(shù)目的增加) 2、不存在通用的分子鐘; 3、爭議: 分子鐘的準(zhǔn)確性 中性理論(分子鐘成立的基礎(chǔ)),第一節(jié) 生物進(jìn)化的分子機(jī)制,分子途經(jīng)研究生物進(jìn)化的可行性 分子進(jìn)化的模式 分子進(jìn)化的特點(diǎn) 研究分子進(jìn)化的作用,分子途徑研究生物進(jìn)化的可行性,普適性 由4種核酸組成 分子水平的進(jìn)化表現(xiàn)為:DNA序列的演化、氨基酸序列演化、蛋白質(zhì)結(jié)構(gòu)及功能的演化 可比較性 比較不同物種的有關(guān)DNA序列 建立DNA序列的演化模型、氨基酸序列的演化模型 蛋白質(zhì)結(jié)構(gòu)的演化模型 基因組包含豐富的編碼信息 與形態(tài)、性狀包含的信息相比,基因組序
7、列、蛋白質(zhì)序列包含更多、更復(fù)雜的信息結(jié)構(gòu),基因變異,1、核苷酸替代、插入/缺失、重組 2、基因復(fù)制,固定在生物個(gè)體 以及物種內(nèi),遺傳漂變,自然選擇,傳遞給后代,產(chǎn)生新的形態(tài)、性狀,分子進(jìn)化的模式,分子進(jìn)化的模式,1. DNA突變:替代,插入,缺失,倒位 核苷酸替代:轉(zhuǎn)換 (Transition) 物種分類 大分子功能與結(jié)構(gòu)的分析:同一家族的大分子,具有相似的三級(jí)結(jié)構(gòu)及生化功能,通過序列同源性分析,構(gòu)建系統(tǒng)發(fā)育樹,進(jìn)行相關(guān)分析;功能預(yù)測 進(jìn)化速率分析:例如,HIV的高突變性;哪些位點(diǎn)易發(fā)生突變?,研究分子進(jìn)化的作用,Tree of Life: 16S rRNA,研究分子進(jìn)化的作用,Out of
8、Africa,53個(gè)人的線粒體基因組(16,587bp),人類遷移的路線,第二節(jié) 系統(tǒng)進(jìn)化樹及其構(gòu)建,系統(tǒng)進(jìn)化樹的概念 系統(tǒng)進(jìn)化樹的種類 系統(tǒng)進(jìn)化樹的構(gòu)建,系統(tǒng)進(jìn)化樹的概念,所有生物都可以追溯到共同的祖先,生物的產(chǎn)生和分化就像樹一樣生長、分叉,以樹的形式來表示生物之間的進(jìn)化關(guān)系是非常自然的事。,系統(tǒng)進(jìn)化樹的概念,phylogenetic tree/evolutionary tree 系統(tǒng)進(jìn)化樹/生物進(jìn)化樹/系統(tǒng)發(fā)育樹/系統(tǒng)發(fā)生樹/系統(tǒng)樹/進(jìn)化樹/演化樹 是表明被認(rèn)為具有共同祖先的各物種相互間進(jìn)化關(guān)系的樹形圖。,系統(tǒng)進(jìn)化樹的概念術(shù)語,祖先節(jié)點(diǎn)/樹根,內(nèi)部節(jié)點(diǎn)/分歧點(diǎn),該分支可能的祖先節(jié)點(diǎn),分支/
9、世系:長度對(duì)應(yīng)演化距離(如估計(jì)的演化時(shí)間),末端節(jié)點(diǎn):代表最終分類,可以是物種,群體,或者蛋白質(zhì)、DNA、RNA分子等,A,B,C,D,E,系統(tǒng)進(jìn)化樹的概念,進(jìn)化樹分支的圖像稱為進(jìn)化的拓?fù)浣Y(jié)構(gòu) 理論上,一個(gè)DNA序列在物種形成或基因復(fù)制時(shí),分裂成兩個(gè)子序列,因此系統(tǒng)進(jìn)化樹一般是二歧的。,A,B,C,D,E,F,G,F,G,C,D,E,A,B,系統(tǒng)進(jìn)化樹的概念,直系同源(orthologs): 同源的基因是由于共同的祖先基因進(jìn)化而產(chǎn)生的。 旁系同源(paralogs): 同源的基因是由于基因復(fù)制產(chǎn)生的。 用于分子進(jìn)化分析中的序列必須是直系同源的,才能真實(shí)反映進(jìn)化過程。,旁系同源,直系同源,拓?fù)浣Y(jié)
10、構(gòu): 有根樹: 反映時(shí)間順序 無根樹: 反映距離,系統(tǒng)進(jìn)化樹的種類 有根樹、無根樹,外圍支,考慮4個(gè)分類群時(shí),共有15種可能的有根樹,a,b,c,d,a,c,b,d,a,d,b,c,考慮4個(gè)分類群時(shí),共有3種可能的無根樹,#Taxa 無根樹 有根樹,3 1 3 4 3 15 5 15 105 6 105 945 7 945 10,395 30 3.58X1036 2.04X1038,Taxa增多,計(jì)算量急劇增加,選出真實(shí)樹的拓?fù)浣Y(jié)構(gòu)十分困難,因此,目前算法都為優(yōu)化算法,不能保證最優(yōu)解。,系統(tǒng)進(jìn)化樹的種類 有根樹、無根樹,系統(tǒng)進(jìn)化樹的種類 標(biāo)度樹、非標(biāo)度樹,標(biāo)度樹:分支的長度表示變化的程度 非標(biāo)
11、度樹:分支只表示進(jìn)化關(guān)系,支長無意義,一個(gè)單位,系統(tǒng)進(jìn)化樹的種類 物種樹、基因樹,物種樹:代表一個(gè)物種或群體進(jìn)化歷史的系統(tǒng)進(jìn)化樹,兩個(gè)物種分歧的時(shí)間為兩個(gè)物種發(fā)生生殖隔離的時(shí)間 基因樹:由來自各個(gè)物種的一個(gè)基因構(gòu)建的系統(tǒng)進(jìn)化樹(不完全等同于物種樹),表示基因分離的時(shí)間。,系統(tǒng)進(jìn)化樹的構(gòu)建,構(gòu)建系統(tǒng)進(jìn)化樹的步驟 構(gòu)建系統(tǒng)進(jìn)化樹的方法 構(gòu)建進(jìn)化樹的一般原則,構(gòu)建系統(tǒng)進(jìn)化樹的步驟,多序列比對(duì)(自動(dòng)比對(duì),手工校正),選擇建樹方法以及替代模型,建立進(jìn)化樹,進(jìn)化樹評(píng)估,構(gòu)建系統(tǒng)進(jìn)化樹的方法,1. 最大簡約法 (maximum parsimony, MP) 適用序列有很高相似性時(shí) 2. 距離法 (dista
12、nce) 適用序列有較高相似性時(shí) 3. 最大似然法 (maximum likelihood, ML) 可用于任何相關(guān)序列集合 計(jì)算速度: 距離法 最大簡約法 最大似然法,構(gòu)建系統(tǒng)進(jìn)化樹的方法 最大簡約法(MP),理論基礎(chǔ)為奧卡姆 (Ockham)原則:計(jì)算所需替代數(shù)最小的那個(gè)拓?fù)浣Y(jié)構(gòu),作為最優(yōu)樹 在分析的序列位點(diǎn)上沒有回復(fù)突變或平行突變,且被檢驗(yàn)的序列位點(diǎn)數(shù)很大的時(shí)候,最大簡約法能夠推導(dǎo)獲得一個(gè)很好的進(jìn)化樹 缺點(diǎn):分析序列上存在較多的回復(fù)突變或平行突變,而被檢驗(yàn)的序列位點(diǎn)數(shù)又比較少的時(shí)候,可能會(huì)給出一個(gè)不合理的或者錯(cuò)誤的進(jìn)化樹推導(dǎo)結(jié)果,信息位點(diǎn) 能將所有可能的樹區(qū)別出來的位點(diǎn)。 至少存在2個(gè)不
13、同堿基/氨基酸且每個(gè)不同堿基/氨基酸至少出現(xiàn)兩次的位點(diǎn)。,構(gòu)建系統(tǒng)進(jìn)化樹的方法 最大簡約法(MP),上例,1. Position 5, 7, 9為信息位點(diǎn) 2. 基于position 5的三個(gè)MP樹: Tree 1長度1,Tree 2 非信息位點(diǎn) (uninformative): 不含有信息的位點(diǎn) 不變位點(diǎn) (invariant): 屬于非信息位點(diǎn),比較的所有序列都有同樣的核苷酸。即每一棵描述所有序列間進(jìn)化關(guān)系的樹都有相同的突變數(shù)目(0)。,(1,2)(3,4),(1,3)(2,4),(1,4)(2,3),圖5.1 4條同源序列的比對(duì)(每條序列有6個(gè)核苷酸),6個(gè)位點(diǎn)構(gòu)造4個(gè)物種之間進(jìn)化關(guān)系的
14、可能無根樹,不變位點(diǎn),(1,2)(3,4),不變位點(diǎn),非信息位點(diǎn),不變位點(diǎn),非信息位點(diǎn),非信息位點(diǎn),不變位點(diǎn),非信息位點(diǎn),非信息位點(diǎn),非信息位點(diǎn),不變位點(diǎn),非信息位點(diǎn),非信息位點(diǎn),非信息位點(diǎn),信息位點(diǎn),不變位點(diǎn),非信息位點(diǎn),非信息位點(diǎn),非信息位點(diǎn),信息位點(diǎn),信息位點(diǎn),信息位點(diǎn)的共同特征: 如果一個(gè)位點(diǎn)是信息位點(diǎn),那么它(1)至少有兩種不同的核苷酸,并且(2)這些核苷酸至少出現(xiàn)兩次。,5.1.2 無權(quán)簡約法,最簡約樹:考慮每個(gè)信息位點(diǎn)所有可能的樹,分別給每棵樹進(jìn)行打分,統(tǒng)計(jì)每個(gè)位點(diǎn)的核苷酸最小替換數(shù)目。所有簡約信息位點(diǎn)最小核苷酸替換數(shù)的總和最小的樹記為最簡約樹。 4條序列比對(duì)的例子可能是最簡單的
15、例子: 在只包含4條序列的分析中,每個(gè)信息位點(diǎn)只能支持 3 棵可能的樹中的1棵,含有最多信息位點(diǎn)的樹就是最簡約樹。,5條或更多序列數(shù)據(jù)集的計(jì)算復(fù)雜得多。原因在于: 隨序列數(shù)增加,無根樹數(shù)目也增加; 每個(gè)信息位點(diǎn)可能有多棵樹,整個(gè)數(shù)據(jù)集的最大簡約樹不一定是含最多信息位點(diǎn)的樹; 每棵樹的核苷酸替換數(shù)目的計(jì)算更加困難。 n個(gè)物種可能得到無根系統(tǒng)發(fā)生樹 (Nu) 數(shù)目: Nu=(2n-5)!/2n-3(n-3)!,下圖是描述5條不同序列之間關(guān)系的15棵可能無根樹中的3棵。這3棵無根樹有相同的簡約度,它們的最小替換數(shù)都是2。由簡約規(guī)則,推斷出的祖先的候選核苷酸分別列在每個(gè)內(nèi)部節(jié)點(diǎn)的旁邊。,計(jì)算祖先核苷酸
16、位置的算法: 如果一個(gè)內(nèi)部節(jié)點(diǎn)的兩個(gè)直接后代節(jié)點(diǎn)上的核苷酸的交集非空,那么這個(gè)節(jié)點(diǎn)的最可能的候選核苷酸集就是這個(gè)交集; 否則為它的兩個(gè)后代節(jié)點(diǎn)上的核苷酸集的并集。,上述方法只適用于信息位點(diǎn),不適用于非信息位點(diǎn)。 非信息位點(diǎn)的最小替換數(shù):外部節(jié)點(diǎn)上不同核苷酸數(shù)目減去1 (與樹的拓?fù)浣Y(jié)構(gòu)無關(guān)) 例如: 5條序列的比對(duì)中,有一個(gè)位置上的核苷酸是 G、G、A、G和T,則最小替換數(shù)就是 3-1=2 。 非信息位點(diǎn)對(duì)所有可能的樹的貢獻(xiàn)都是等價(jià)的,在簡約分析中往往被完全排除。 樹的長度(length):當(dāng)一棵樹在信息位點(diǎn)和非信息位點(diǎn)的替換數(shù)的總和是一個(gè)確定的數(shù)值時(shí),這個(gè)數(shù)值就是指樹的長度。,5.1.3 加權(quán)
17、簡約法,賦值的必要性: “突變是罕見事件” 將所有突變看成是等價(jià)的,但之前的學(xué)習(xí)已經(jīng)告訴我們插入和刪除比替換可能性??;長插入和長刪除比短插入和短刪除少見;轉(zhuǎn)換概率大于顛換;功能相關(guān)的突變比無關(guān)的突變發(fā)生的概率小 因此,我們給各種突變賦予相對(duì)概率值,在簡約算法中可將這些值轉(zhuǎn)化為權(quán)值。,我們無法得到一組適用于所有數(shù)據(jù)集的權(quán)值,原因有三: (1)一些序列比其他序列更容易插入和刪除; (2)即使是同源基因,對(duì)功能的重要性也因不同的基因、 不同的物種而有所差別; (3)不同的基因和物種有不同的替換偏好。 因此,最佳的權(quán)值通常來自對(duì)實(shí)驗(yàn)數(shù)據(jù)集的分析,可獲得的最佳實(shí)驗(yàn)數(shù)據(jù)集是實(shí)際分析過的數(shù)據(jù)集。 例如:假如
18、轉(zhuǎn)換出現(xiàn)頻率為顛換的3倍,那么對(duì)同一序列集的簡約分析就可以給所有的轉(zhuǎn)換替換賦權(quán)值 1,給所有的顛換替換賦權(quán)值 0.33。,5.2 推斷出的祖先序列,簡約法最值得注意的副產(chǎn)品是分析過程中產(chǎn)生的推斷出的祖先序列,即使這些祖先可能在數(shù)億年前就已經(jīng)滅絕。 推斷出的樹中的內(nèi)部分支的信息位點(diǎn)稱作共源性狀 (synapomorphies,幾個(gè)物種共有的遺傳狀態(tài))。 其他信息位點(diǎn)稱作同形性狀(homoplasies,),它是通過趨同進(jìn)化、平行進(jìn)化和逆轉(zhuǎn)進(jìn)化,由物種獨(dú)立發(fā)展出來的特征,而不是從共同祖先遺傳得到的。,哺乳動(dòng)物,嚙齒動(dòng)物,例如,同形性狀,共源性狀,應(yīng)用,進(jìn)化論對(duì)創(chuàng)世論的反駁 利用簡約分析推斷出祖先,
19、不僅填補(bǔ)了分子進(jìn)化研究中空白,還能從現(xiàn)存后代序列中推斷出中間狀態(tài);,5.3 快速搜索策略,即使信息位點(diǎn)的數(shù)目較少,用未改進(jìn)的簡約法對(duì)較多序列的比對(duì)進(jìn)行手工計(jì)算也是不現(xiàn)實(shí)。分析10條序列需要考慮200萬棵樹。 由于數(shù)據(jù)集十分龐大,計(jì)算困難,因此研究出一些改進(jìn)的算法,不用考慮所有可能的樹就能夠方便可靠地確定最簡約樹。 分支約束法 啟發(fā)式搜索,5.3.1 分支約束法,分支約束法(Branch and Bound Method) 是在一個(gè)復(fù)雜的空間中進(jìn)行搜索的通用技術(shù),搜索空間以從一個(gè)分層樹的根節(jié)點(diǎn)至葉節(jié)點(diǎn)的一系列路徑表示。 步驟: 為最簡約樹的長度確定一個(gè)上限 L。 L的值可以是隨機(jī)選擇的任何一棵描
20、述被研究物種之間關(guān)系的樹的長度。但是如果用近似最簡約的樹(例如UPGMA產(chǎn)生的樹)來建立上限更有效。 樹的生長過程,即在描述部分序列之間關(guān)系的樹中每次增加一個(gè)分支。,這個(gè)方法的原理是: 由數(shù)據(jù)子集得到的任何一棵樹,如果它的替換數(shù)大于L,那么當(dāng)剩下的序列加入后,總的分支長度必定變得更大,那么原先的長度為L的樹為最簡約樹。 如果在分析過程中,如果發(fā)現(xiàn)比初始建立的上限為L的樹替換數(shù)更少的樹,那么L的值將隨之修正,這樣余下的數(shù)據(jù)集的分析將更為有效。,分支約束法搜索最簡約樹的過程,表示 3個(gè)物種 (A, B, C) 之間關(guān)系的無根樹只有1棵 (A1); 用這棵樹作為起始點(diǎn),將第4個(gè)物種 (D) 插入到樹
21、A1中,得到四個(gè)物種的 3 種無根樹 (B1, B2,B3); 如果插入后得到的樹的長度大于原來的樹,例如 B3,舍棄該樹。 繼續(xù)插入第5個(gè)物種,重復(fù)上述步驟,直到所有待分析物種都被插入到樹中。 下圖是用分支約束法搜索簡約樹的過程,STOP,C2.1,C2.2,C2.3,C2.4,C2.5,STOP,STOP,STOP,STOP,STOP,C1.1,C1.2,C1.3,C1.4,C1.5,圖5.4 用分支約束法搜索最簡約樹的過程,分支約束法快速搜索策略的優(yōu)缺點(diǎn),優(yōu)點(diǎn): 分支約束法保證在分析完成時(shí)沒有遺漏更簡約的樹,具有比窮舉法搜索快幾個(gè)數(shù)量級(jí)的優(yōu)點(diǎn);能分析多達(dá)20條序列。 缺點(diǎn): 對(duì)于多于11
22、021可能的無根樹的分析,計(jì)算量還是太大。,5.3.2 啟發(fā)式搜索,對(duì)大于20條序列的多序列進(jìn)行比對(duì)必須采用近似的更為有效的算法。 啟發(fā)式方法的假設(shè):各個(gè)可能的樹并不總是相互獨(dú)立的。 最簡約數(shù)和次簡約數(shù)拓?fù)浣Y(jié)構(gòu)相似,因此首先構(gòu)建一棵初始樹,從它開始尋找更短的樹。 因此啟發(fā)式搜索通過子樹分支交換,把它們嫁接到該步分析中找到的最好的那棵樹的其他位置上,從而產(chǎn)生一棵拓?fù)浣Y(jié)構(gòu)和初始樹相似的樹。 同分支約束法一樣,如果初始樹很接近于最簡約樹(例如UPGMA產(chǎn)生的樹),啟發(fā)式搜索會(huì)更有效。,圖5.5 分支交換,第一輪分析中,由初始樹產(chǎn)生出上百棵新樹,其中所有比初始樹短的新樹都在第二輪分析中被剪枝和嫁接。不
23、斷重復(fù)這個(gè)過程,直到某一輪通過剪枝和嫁接無法產(chǎn)生與前一輪等長或更短的樹。,大量序列比對(duì)的可能的無根樹的數(shù)目是一個(gè)天文數(shù)字,這種比對(duì)深度對(duì)計(jì)算造成了很大困難,把多個(gè)序列比對(duì)分成幾個(gè)較少序列的比對(duì)可以較好的解決這一問題。 例如:,5.4 一致樹,簡約法產(chǎn)生多棵等價(jià)的簡約數(shù)是很常見的。 此時(shí)最簡單的方法是用一個(gè)一致樹 (consensus tree)作為代表來概括所有等價(jià)的簡約樹。方法如下: (1)在所有樹中都一致的分支點(diǎn)在一致樹中表示成二叉分支點(diǎn)。 (2)不一致的分支點(diǎn)蛻變成連接三個(gè)或更多后代分支的內(nèi)部節(jié)點(diǎn)。,嚴(yán)格一致樹 (strict consensus tree):只要有一棵簡約樹與其他不同,
24、對(duì)所有不一致的分支點(diǎn)都進(jìn)行相同的處理。 過半截定一致 (50% majority-rule consensus) :只要有至少一半的樹符合條件,這個(gè)內(nèi)部節(jié)點(diǎn)在一致樹中就可以表示成二叉節(jié)點(diǎn),而少于一半的樹符合條件的內(nèi)部節(jié)點(diǎn)表示為多叉節(jié)點(diǎn)。 不一致性閾值是一個(gè)參數(shù),可以取0 100%的任意值。,由一個(gè)數(shù)據(jù)集推斷出的3棵樹,5.5 樹的置信度,所有的系統(tǒng)發(fā)生樹都是關(guān)于組成數(shù)據(jù)集的序列的進(jìn)化歷史的假設(shè)。 系統(tǒng)發(fā)生樹的可靠性? 問題: (1)整棵樹和它的組成部分(分支)的置信度是多少? (2)這樣得到正確的樹的可能性比隨機(jī)選出一棵是正確的樹的可能性大多少? 解決方法: 自舉檢驗(yàn)解決問題(1) 參數(shù)檢驗(yàn)解
25、決問題(2),5.5.1 自舉檢驗(yàn) (bootstrap test) 自舉檢驗(yàn)是一種重采樣技術(shù),能粗略地量化這些置信度水平。 自舉檢驗(yàn)的基本方法是: (1)從原數(shù)據(jù)集中抽取(同時(shí)替換)部分?jǐn)?shù)據(jù)組成新的數(shù)據(jù)集。 (2)用這個(gè)新的數(shù)據(jù)集 推斷 系統(tǒng)發(fā)生樹。 重復(fù)上述過程,產(chǎn)生成百上千的重采樣數(shù)據(jù)集,并同時(shí)生成對(duì)應(yīng)的自舉樹,進(jìn)而檢驗(yàn)自舉樹對(duì)最終系統(tǒng)發(fā)生樹各個(gè)分支的支持率。 在各個(gè)自舉樹中都有出現(xiàn)或大量出現(xiàn)的那些部分將具有較高的置信度。產(chǎn)生相同分組的自舉樹的數(shù)目常常標(biāo)注在系統(tǒng)發(fā)生樹相應(yīng)節(jié)點(diǎn)的旁邊,表示樹中每個(gè)部分的相對(duì)置信度。,系統(tǒng)發(fā)生樹的自舉檢驗(yàn),序列,推斷樹,自舉樹1,自舉樹2,自舉樹3,(a),
26、(b),自舉樹,(c) 為3個(gè)重采樣數(shù)據(jù)集的一致樹,75,67,5.5.2 參數(shù)檢驗(yàn) 是否一棵有 10,000 個(gè)替換的樹比另一棵有10,001個(gè)替換的樹更有可能描述序列間真實(shí)進(jìn)化關(guān)系? 比起先前提出的另一棵描述物種間進(jìn)化關(guān)系的樹,最簡約樹是真實(shí)樹的概率會(huì)大多少?,H. Kishino 和 M. Hasegawa 假設(shè)比對(duì)中的各個(gè)信息位點(diǎn)彼此獨(dú)立而且等價(jià),并用兩棵樹的最小替換數(shù)之差 D作為檢驗(yàn)統(tǒng)計(jì)量。分別考慮每一個(gè)信息位點(diǎn),按下式計(jì)算反映 D 變化程度的 V 值: 其中 n 是信息位點(diǎn)的數(shù)目,Di 為兩棵樹中各個(gè)信息位點(diǎn)替換數(shù)的差值。n1個(gè)自由度的 t 檢驗(yàn)可以用來檢驗(yàn)空假設(shè),即兩棵樹的替換數(shù)
27、相等的情況:,5.6 各種系統(tǒng)發(fā)生分析方法的比較,無論是基于距離的系統(tǒng)發(fā)生樹重建方法,還是基于特征的系統(tǒng)發(fā)生樹重建方法,都不能保證一定能夠得到一棵描述比對(duì)序列進(jìn)化歷史的真實(shí)的樹。 一般的,對(duì)于某個(gè)數(shù)據(jù)集,如果用一種方法能推斷出正確的系統(tǒng)發(fā)生關(guān)系,那么用其他流行的方法也能得到好的結(jié)果。但是,如果模擬數(shù)據(jù)集中序列變化很大,或不同的分支變化速率不同,則沒有一種方法十分可靠。 總規(guī)則:如果用截然不同的距離矩陣法和簡約法分析一個(gè)數(shù)據(jù)集能夠產(chǎn)生相似的系統(tǒng)發(fā)生樹,則這棵樹相當(dāng)可靠。,5.7 分子系統(tǒng)發(fā)生分析,5.7.1 生命之樹 序列分析提供了關(guān)于進(jìn)化關(guān)系的新信息,其中最具影響力的是我們對(duì)于生命分化本質(zhì)的理
28、解。 過去30年中涌現(xiàn)了無數(shù)用序列分析解開進(jìn)化關(guān)系之謎的有趣而重要的例子。這樣的研究往往對(duì)醫(yī)學(xué)、農(nóng)業(yè)和自然保護(hù)有重要的意義。 例如:對(duì)一種傳染病治療有效的藥物可能對(duì)其他相關(guān)生物體引起的傳染病也有效;抗病因子通常容易在近緣關(guān)系的物種之間進(jìn)行傳遞;一個(gè)生物體種群是否足以成為一個(gè)獨(dú)立的物種而值得特別保護(hù)。,5.7.1 生命之樹,很多年前,生物學(xué)家將所有生命分成植物和動(dòng)物這兩個(gè)主要的類。 隨著越來越多生物體的發(fā)現(xiàn),后來在細(xì)胞結(jié)構(gòu)的基礎(chǔ)上,人們把生物體分成了原核生物和真核生物。 再后來,人們又提出了一些生命的基本分類,例如Whittaker的五界學(xué)說(原核生物、原生生物、植物、真菌和動(dòng)物)。 20世紀(jì)7
29、0年代后期開始,DNA和RNA序列被用來解開物種之間進(jìn)化歷史的主線。,5.7.1 生命之樹,圖5.8 無根“生命之樹”,用簡約法和距離矩陣法處理 16SrRNA 基因序列數(shù)據(jù),得到了無根“生命之樹”。3個(gè)主要分支分別是:真核生物、真細(xì)菌和古細(xì)菌。,5.7.1 生命之樹,古細(xì)菌和細(xì)菌,雖然由于它們都沒有內(nèi)膜而都被認(rèn)為是原核生物,但是它們?cè)谶z傳上的差異程度就像細(xì)菌和真核一樣。 它們?cè)诒硇头矫娴倪M(jìn)化并不明顯,化石記錄也毫無幫助。只有把它們的核苷酸序列進(jìn)行比較,才可以看出明顯差別。 其他基因的序列,包括5S核糖體RNA、大核糖體RNA和編碼一些很重要的蛋白質(zhì)的基因,都強(qiáng)烈支持該觀點(diǎn)這三個(gè)主要的進(jìn)化類的劃分法是最好的。,5.7 分子系統(tǒng)發(fā)生分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 惠州布袋風(fēng)管施工方案
- 武漢學(xué)校智能地暖施工方案
- 隧洞豎井管棚施工方案
- 云浮無塵車間凈化施工方案
- 衛(wèi)生間防水上墻施工方案
- 2012年7月國家開放大學(xué)漢語言文學(xué)本科《中國現(xiàn)代文學(xué)專題》期末紙質(zhì)考試試題及答案
- 提升農(nóng)業(yè)生產(chǎn)技術(shù)的創(chuàng)新與應(yīng)用實(shí)施方案
- 綠色就業(yè)與勞動(dòng)市場轉(zhuǎn)型策略
- 加強(qiáng)污染防治和生態(tài)建設(shè)未來展望與持續(xù)改進(jìn)措施
- 加強(qiáng)跨部門協(xié)作與整合資源的策略及實(shí)施路徑
- 2025年徐州生物工程職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫含答案
- 2025年湖南鐵道職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫新版
- 新媒體運(yùn)營課件
- 《鼴鼠的月亮河》考試題附答案
- 2025年內(nèi)蒙古巴彥淖爾市交通投資集團(tuán)有限公司招聘筆試參考題庫附帶答案詳解
- 2025年新公司法知識(shí)競賽題庫與答案
- 2025年新人教版物理八年級(jí)下冊(cè)全冊(cè)教案
- 微量注射泵培訓(xùn)
- 形象設(shè)計(jì)師三級(jí)習(xí)題庫及答案
- 2025年度能源行業(yè)員工聘用合同范本
- 戶外廣告安裝安全施工方案
評(píng)論
0/150
提交評(píng)論