蘭州大學(xué)生物信息學(xué)課件:8-系統(tǒng)發(fā)育-封爍_第1頁
蘭州大學(xué)生物信息學(xué)課件:8-系統(tǒng)發(fā)育-封爍_第2頁
蘭州大學(xué)生物信息學(xué)課件:8-系統(tǒng)發(fā)育-封爍_第3頁
蘭州大學(xué)生物信息學(xué)課件:8-系統(tǒng)發(fā)育-封爍_第4頁
蘭州大學(xué)生物信息學(xué)課件:8-系統(tǒng)發(fā)育-封爍_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、系統(tǒng)發(fā)育分析,封爍,引言,生物學(xué)家:We have a dream Tree of Life: 重建所有生物的進化歷史并以系統(tǒng)樹的形式加以描述。,引言,夢想走進現(xiàn)實:How? 最理想的方法:化石! 零散、不完整,引言,夢想走進現(xiàn)實:How? 比較形態(tài)學(xué)和比較生理學(xué):確定大致的進化框架 細節(jié)存很多的爭議,引言,夢想走進現(xiàn)實:How? 第三種方案:分子進化 1964年,美國進化生物學(xué)家 E. Zuckerkandl和 量子化學(xué)家Linus Pauling提出分子進化理論 基本假設(shè) 核酸和蛋白質(zhì)序列中含有生物進化歷史的全部信息 理論 分子進化速率恒定。 分子鐘:物種的同源基因之間的差異程度與它們的共

2、同祖先的存在時間(即兩者的分歧時間)有一定的數(shù)量關(guān)系。 發(fā)生在分子層面的進化過程:DNA, RNA和蛋白質(zhì)分子,系統(tǒng)進化樹的概念,所有生物都可以追溯到共同的祖先,生物的產(chǎn)生和分化就像樹一樣生長、分叉,以樹的形式來表示生物之間的進化關(guān)系是非常自然的事。,系統(tǒng)發(fā)育的定義,系統(tǒng)發(fā)育(phylogeny),也叫系統(tǒng)發(fā)生,是指任何實體(基因、個體、種群、物種等)的起源和演化關(guān)系。 將進化論的原理拓展到核苷酸水平和蛋白質(zhì)序列水平,通過多重序列比對,研究一組相關(guān)的基因或蛋白質(zhì),推斷和評估不同基因間的進化關(guān)系。,分子進化的模式,1. DNA突變:替代,插入,缺失,倒位 核苷酸替代:轉(zhuǎn)換 (Transition

3、) & 顛換 (Transversion) 2. 基因復(fù)制:多基因家族的產(chǎn)生以及偽基因的產(chǎn)生 A. 單個基因復(fù)制 重組或者逆轉(zhuǎn)錄 B. 染色體片斷復(fù)制 C. 基因組復(fù)制,Thr Tyr Leu Leu ACC TAT TTG CTG,ACC TCT TTG CTG Thr Ser Leu Leu,替代,Thr Tyr Leu Leu ACC TAT TTG CTG,ACC TAC TTT GCT G Thr Tyr Phe Ala,插入,Thr Tyr Leu Leu ACC TAT TTG CTG,ACC TAT TGC TG- Thr Tyr Cys -,缺失,Thr Tyr Leu Le

4、u ACC TAT TTG CTG,ACC TTT ATG CTG Thr Phe Met Leu,倒位,DNA突變,核苷酸替代:轉(zhuǎn)換 & 顛換,1. 轉(zhuǎn)換:嘌呤被嘌呤替代,或者嘧啶被嘧啶替代 2. 顛換:嘌呤被嘧啶替代,或者嘧啶被嘌呤替代,基因復(fù)制:單個基因復(fù)制,重組,逆轉(zhuǎn)錄,基因復(fù)制:染色體片段復(fù)制,人,狒狒,基因復(fù)制:基因組復(fù)制,S. Cerevisiae (釀酒酵母),K. Waltii (克魯雄酵母),研究結(jié)果:克魯雄酵母中的同源基因數(shù)量與釀酒酵母相比為1:2,系統(tǒng)進化樹及其構(gòu)建,系統(tǒng)進化樹的概念 系統(tǒng)進化樹的種類 系統(tǒng)進化樹的構(gòu)建,系統(tǒng)進化樹的概念術(shù)語,祖先節(jié)點/樹根,內(nèi)部節(jié)點/分

5、歧點,該分支可能的祖先節(jié)點,分支/世系:長度對應(yīng)演化距離(如估計的演化時間),末端節(jié)點:代表最終分類,可以是物種,群體,或者蛋白質(zhì)、DNA、RNA分子等,A,B,C,D,E,系統(tǒng)進化樹的概念,直系同源(orthologs): 同源的基因是由于共同的祖先基因進化而產(chǎn)生的。 旁系同源(paralogs): 同源的基因是由于基因復(fù)制產(chǎn)生的。 用于分子進化分析中的序列必須是直系同源的,才能真實反映進化過程。,旁系同源,直系同源,拓撲結(jié)構(gòu): 有根樹: 反映時間順序 無根樹: 反映距離,系統(tǒng)進化樹的種類 有根樹、無根樹,外圍支,系統(tǒng)進化樹的種類 標度樹、非標度樹,標度樹:分支的長度表示變化的程度 非標度樹

6、:分支只表示進化關(guān)系,支長無意義,一個單位,系統(tǒng)進化樹的種類 物種樹、基因樹,物種樹:代表一個物種或群體進化歷史的系統(tǒng)進化樹,兩個物種分歧的時間為兩個物種發(fā)生生殖隔離的時間 基因樹:由來自各個物種的一個基因構(gòu)建的系統(tǒng)進化樹(不完全等同于物種樹),表示基因分離的時間。,系統(tǒng)進化樹的種類 物種樹、基因樹,系統(tǒng)進化樹的種類 物種樹、基因樹,系統(tǒng)進化樹的構(gòu)建,構(gòu)建系統(tǒng)進化樹的步驟 構(gòu)建系統(tǒng)進化樹的方法 構(gòu)建進化樹的一般原則,構(gòu)建系統(tǒng)進化樹的步驟,多序列比對(自動比對,手工校正),選擇建樹方法以及替代模型,建立進化樹,進化樹評估,最經(jīng)典和廣為熟知的多序列比對軟件是 clustalw 。 比對速度(Mus

7、cleMAFFTClustalWT-Coffee) 比對準確性(MAFFTMuscleT-CoffeeClustalW),MAFFT,構(gòu)建系統(tǒng)進化樹的步驟,較為精確的方法 L-INS-i 最準確的方法。適合于 output $ linsi input output G-INS-i 適合于序列長度相似的多序列比對。序列條數(shù) output $ ginsi input output E-INS-i 適合序列中包含較大的非匹配區(qū)域。序列條數(shù) output $ einsi input output 節(jié)約速度的方法 FFT-NS-i 減少迭代次數(shù),最大迭代次數(shù)減為 2 。 $ mafft -retree

8、2 -maxiterate 2 input output $ fftnsi input output FFT-NS-2 最大迭代次數(shù)減為 0 。 $ mafft -retree 2 -maxiterate 0 input output $ fftns input output FFT-NS-1 此方法非常快速,適合 2000 條序列的多序列比對。 $ mafft -retree 1 -maxiterate 0 input output NW-NS-i 迭代過程中不進行 FFT aproximation $ mafft -retree 2 -maxiterate 2 -nofft input o

9、utput $ nwnsi input output NW-NS-2 $ mafft -retree 2 -maxiterate 0 -nofft input output $ nwns input output NW-NS-PartTree-1 3 個參數(shù)都設(shè)置為最不消耗時間的類型,適合于 10,000 到 50,000 條序列的比對。 $ mafft -retree 1 -maxiterate 0 -nofft -parttree input output,構(gòu)建系統(tǒng)進化樹的步驟,多序列比對(自動比對,手工校正),選擇建樹方法以及替代模型,建立進化樹,進化樹評估,模型預(yù)測: Jmodelte

10、st ProtTest,構(gòu)建系統(tǒng)進化樹的方法,1. 最大簡約法 (maximum parsimony, MP) 適用序列有很高相似性時 2. 距離法 (distance) 適用序列有較高相似性時 3. 最大似然法 (maximum likelihood, ML) 可用于任何相關(guān)序列集合 計算速度: 距離法 最大簡約法 最大似然法,構(gòu)建系統(tǒng)進化樹的方法 最大簡約法(MP),理論基礎(chǔ)為奧卡姆 (Ockham)原則:計算所需替代數(shù)最小的那個拓撲結(jié)構(gòu),作為最優(yōu)樹 在分析的序列位點上沒有回復(fù)突變或平行突變,且被檢驗的序列位點數(shù)很大的時候,最大簡約法能夠推導(dǎo)獲得一個很好的進化樹 缺點:分析序列上存在較多的

11、回復(fù)突變或平行突變,而被檢驗的序列位點數(shù)又比較少的時候,可能會給出一個不合理的或者錯誤的進化樹推導(dǎo)結(jié)果,構(gòu)建系統(tǒng)進化樹的方法 距離法,又稱距離矩陣法,首先通過各個物種之間的比較,根據(jù)一定的假設(shè)(進化距離模型)推導(dǎo)得出分類群之間的進化距離,構(gòu)建一個進化距離矩陣。進化樹的構(gòu)建則是基于這個矩陣中的進化距離關(guān)系 。,構(gòu)建系統(tǒng)進化樹的方法 距離法,簡單的距離矩陣,由進化距離構(gòu)建進化樹的方法有很多,常見有: (1) Fitch-Margoliash Method (FM法): 對短支長非常有效 (2) Neighbor-Joining Method (NJ法/鄰接法):求最短支長,最通用的距離方法 (3)

12、 Neighbors Relaton Method(鄰居關(guān)系法) (4) Unweighted Pair Group Method (UPGMA法/非加權(quán)組平均法),構(gòu)建系統(tǒng)進化樹的方法 距離法,1.最大似然法(maximum likelihood, ML): 最早應(yīng)用于對基因頻率數(shù)據(jù)的分析上 2.選取一個特定的替代模型來分析給定的一組序列數(shù)據(jù),在每組序列比對中考慮每個核苷酸替換的概率。 例如,轉(zhuǎn)換出現(xiàn)的概率大約是顛換的三倍。在一個三條序列的比對中,如果發(fā)現(xiàn)其中有一列為一個C,一個 T和一個 G,我們就認為,C和 T所在的序列之間的關(guān)系很有可能更接近。 3.計算表示序列關(guān)系的每棵可能的樹的概率

13、。 概率總和最大的那棵樹最有可能是反映真實情況的系統(tǒng)發(fā)生樹。 4.缺點:費時,每個步驟都要考慮內(nèi)部節(jié)點的所有可能性 5.改進:啟發(fā)式算法,構(gòu)建系統(tǒng)進化樹的方法 最大似然法(ML),1. 可靠的待分析數(shù)據(jù) 2. 準確的多序列比對 3. 選擇合適的建樹方法: A. 序列相似程度高,MP首先 B. 序列相似程度較低,ML首先 C. 序列相似程度太低,無意義 4. 一般采用兩種及以上方法構(gòu)建進化樹,無顯著區(qū)別可接受。,構(gòu)建系統(tǒng)進化樹的原則,進化樹的可靠性分析,單純由預(yù)先獲得的多序列比對結(jié)果數(shù)據(jù)所推導(dǎo)出的進化樹有時并不一定可靠。 改進辦法:引進一些統(tǒng)計分析來尋找更優(yōu)的進化樹,檢驗結(jié)果的可靠性。 最常見的就是bootstrap評估。,從排列的多序列中隨機有放回的抽取某一列,構(gòu)成相同長度的新的排列序列; 重復(fù)上面的過程,得到多組新的序列; 對這些新的序列進行建樹,再觀察這些樹與原始樹是否有差異,以此評價建樹的可靠性。 至少進行100次重復(fù)取樣。,進化樹

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論