生物信息技術(shù)概述課件_第1頁
生物信息技術(shù)概述課件_第2頁
生物信息技術(shù)概述課件_第3頁
生物信息技術(shù)概述課件_第4頁
生物信息技術(shù)概述課件_第5頁
已閱讀5頁,還剩253頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

金麗華生物信息技術(shù)

項目3進(jìn)化樹的構(gòu)建生物信息技術(shù)

項目3進(jìn)化樹的構(gòu)建1項目3課程導(dǎo)學(xué)生物是怎么進(jìn)行進(jìn)化的?從什么數(shù)據(jù)中我們可以看出生物分子的進(jìn)化過程呢?猴子和人類有多大的相似性?在本項目中,我們利用系統(tǒng)進(jìn)化樹的方法來理解生物的進(jìn)化過程。項目3課程導(dǎo)學(xué)生物是怎么進(jìn)行進(jìn)化的?2項目任務(wù)1)學(xué)習(xí)并理解分子進(jìn)化。2)能理解分子鐘和中性理論3)能看懂進(jìn)化樹4)能利用MEGA5.1軟件畫出系統(tǒng)進(jìn)化樹。項目任務(wù)1)學(xué)習(xí)并理解分子進(jìn)化。3學(xué)習(xí)內(nèi)容1.分子進(jìn)化與系統(tǒng)發(fā)育2.分子進(jìn)化樹與系統(tǒng)進(jìn)化樹3.利用MEGA5.1構(gòu)建進(jìn)化樹(實操任務(wù))學(xué)習(xí)內(nèi)容1.分子進(jìn)化與系統(tǒng)發(fā)育4分子進(jìn)化與系統(tǒng)發(fā)育分子進(jìn)化與系統(tǒng)發(fā)育5內(nèi)容提要分子進(jìn)化分析介紹系統(tǒng)發(fā)育樹重建方法Phylip軟件包在分子進(jìn)化分析中的應(yīng)用PAUP*在分子進(jìn)化分析中的應(yīng)用MEGA分子進(jìn)化樹分析軟件內(nèi)容提要分子進(jìn)化分析介紹6

從物種的一些分子特性出發(fā),從而了解物種之間的生物系統(tǒng)發(fā)生的關(guān)系。

蛋白和核酸序列

通過序列同源性的比較進(jìn)而了解基因的進(jìn)化以及生物系統(tǒng)發(fā)生的內(nèi)在規(guī)律。分子進(jìn)化研究的目的 從物種的一些分子特性出發(fā),從而了解物種之間的生物系統(tǒng)發(fā)生7系統(tǒng)發(fā)育樹是什么?

對一組實際對象的世系關(guān)系的描述(如基因,物種等)。系統(tǒng)發(fā)育樹是什么? 對一組實際對象的世系關(guān)系的描述(如基因,8祖先節(jié)點/樹根內(nèi)部節(jié)點/分歧點,該分支可能的祖先結(jié)點分支/世系末端節(jié)點

ABCDE代表最終分類,可以是物種,群體,或者蛋白質(zhì)、DNA、RNA分子等系統(tǒng)發(fā)育樹:術(shù)語祖先節(jié)點/樹根內(nèi)部節(jié)點/分歧點,該分支可能的祖先結(jié)點分支/世9ABCDE?FG樹只代表分支的拓?fù)浣Y(jié)構(gòu)FGCDE?ABABCDE?FG樹只代表分支的拓?fù)浣Y(jié)構(gòu)FGCDE?AB10分子進(jìn)化研究的基礎(chǔ)(假設(shè))核苷酸和氨基酸序列中含有生物進(jìn)化歷史的全部信息。分子進(jìn)化研究的基礎(chǔ)(假設(shè))核苷酸和氨基酸序列中含有生物進(jìn)化歷11在各種不同的發(fā)育譜系及足夠大的進(jìn)化時間尺度中,許多序列的進(jìn)化速率幾乎是恒定不變的。(分子鐘理論,1965)分子進(jìn)化研究的基礎(chǔ)(理論)分子進(jìn)化研究的基礎(chǔ)(理論)12雖然很多時候仍然存在爭議,但是分子進(jìn)化確實能闡述一些生物系統(tǒng)發(fā)生的內(nèi)在規(guī)律。分子進(jìn)化研究的基礎(chǔ)(實際)分子進(jìn)化研究的基礎(chǔ)(實際)13從一個分歧數(shù)據(jù)可以推測其他序列分歧度分歧時間xy分子鐘理論從一個分歧數(shù)據(jù)可以推測其他序列分歧度分歧時間xy分子14速率恒定的證據(jù):血色素速率恒定的證據(jù):血色素15中性理論“在生物分子層次上的進(jìn)化改變不是由自然選擇作用于有利突變引起的,而是在連續(xù)的突變壓之下由選擇中性或非常接近中性的突變的隨機(jī)固定造成的,中性突變是指對當(dāng)前適應(yīng)度無影響的突變?!狈裾J(rèn)自然選擇在生物進(jìn)化中的作用,認(rèn)為生物大分子的進(jìn)化的主要因素是機(jī)會和突變壓力中性理論16進(jìn)化及遺傳模型1、序列有指定的來源并且正確無誤。2、序列是同源的,而序列不是“paralog”的混合物。3、序列比對中,不同序列的同一個位點都是同源的4、在接受分析的一個序列組中,序列之間的系統(tǒng)發(fā)育史是相同的。5、樣本足以解決感興趣的問題。進(jìn)化及遺傳模型1、序列有指定的來源并且正確無誤。17進(jìn)化及遺傳模型6、樣本序列之間的差異代表了感興趣的寬組。7、樣本序列之間的差異包含了足以解決感興趣的問題的系統(tǒng)發(fā)育信號。8、樣本序列是隨機(jī)進(jìn)化的。9、序列中的所有位點的進(jìn)化都是隨機(jī)的。10、序列中的每一個位點的進(jìn)化都是獨立的。進(jìn)化及遺傳模型6、樣本序列之間的差異代表了感興趣的寬組。18直系同源(orthologs):同源的基因通過物種形成的事件而產(chǎn)生,或源于不同物種的最近的共同祖先的兩個基因,或者兩個物種中的同一基因,一般具有相同的功能。并系同源(paralogs):同源基因在同一物種中,通過至少一次基因復(fù)制的事件而產(chǎn)生。直系同源與旁系同源直系同源(orthologs):同源的基因通過物種形成的事件19paralogsorthologsparalogsorthologs20paralogsorthologsErikL.L.SonnhammerOrthology,paralogyandproposedclassificationforparalogsubtypesTRENDSinGeneticsVol.18No.12December20020168-9525/02/$–seefrontmatter?2002ElsevierScienceLtd.Allrightsreserved.paralogsorthologsErikL.L.Son21

以上兩個概念代表了兩個不同的進(jìn)化事件用于分子進(jìn)化分析中的序列必須是直系同源的,才能真實反映進(jìn)化過程。生物信息技術(shù)概述課件22趨同進(jìn)化的基因(Convergentevolution)通過不同的進(jìn)化途徑獲得相似的功能,或者功能替代物(geneshaveconvergedfunctionbyseparateevolutionarypaths)趨同進(jìn)化的基因(Convergentevolution)23異源基因或水平轉(zhuǎn)移基因(xenologousorhorizontallytransferredgenes)由某一個水平基因轉(zhuǎn)移事件而得到的同源序列異源基因或水平轉(zhuǎn)移基因24Bacterium1Bacterium3Bacterium2Eukaryote1Eukaryote4Eukaryote3Eukaryote2Bacterium1Bacterium3Bacterium2Eukaryote1Eukaryote4Eukaryote3Eukaryote2Phylogramsshowbranchorderandbranchlengths進(jìn)化樹,有分支和支長信息2.進(jìn)化分支圖,進(jìn)化樹Cladogramsshowbranchingorder-branchlengthsaremeaningless進(jìn)化分支圖,只用分支信息,無支長信息。Bacterium1Bacterium3Bacteriu25archaeaarchaeaeukaryoteeukaryoteeukaryoteeukaryote通過外圍支來確定樹根archaeabacteriaoutgroup根eukaryoteeukaryoteeukaryoteeukaryote無根樹archaeaarchaeaarchaea有根樹外圍支無根樹,有根樹,外圍支archaeaarchaeaeukaryoteeukaryo26無根樹和有根樹:潛在的數(shù)目#Taxa無根樹有根樹31343155151056105945794510,395…30~3.58X1036~2.04X1038Taxa增多,計算量急劇增加,因此,目前算法都為優(yōu)化算法,不能保證最優(yōu)解無根樹和有根樹:潛在的數(shù)目#Taxa無274.基因樹,物種樹WeoftenassumethatgenetreesgiveusspeciestreesabcABDGenetreeSpeciestree4.基因樹,物種樹Weoftenassumeth28系統(tǒng)發(fā)育樹重建分析步驟多序列比對(自動比對,手工比對)建立取代模型(建樹方法)建立進(jìn)化樹進(jìn)化樹評估系統(tǒng)發(fā)育樹重建分析步驟多序列比對(自動比對,手工比對)建立取291.最大簡約法(maximumparsimony,MP)2.距離法(distance)3.最大似然法(maximumlikelihood,ML)系統(tǒng)發(fā)育樹重建的基本方法1.最大簡約法(maximumparsimony,M30最大簡約法(MP)1.理論基礎(chǔ)為奧卡姆剃刀(Ockham)原則:計算所需替代數(shù)最小的那個拓?fù)浣Y(jié)構(gòu),作為最優(yōu)樹2.在分析的序列位點上沒有回復(fù)突變或平行突變,且被檢驗的序列位點數(shù)很大的時候,最大簡約法能夠推導(dǎo)獲得一個很好的進(jìn)化樹3.優(yōu)點:不需要在處理核苷酸或者氨基酸替代的時候引入假設(shè)(替代模型)4.缺點:分析序列上存在較多的回復(fù)突變或平行突變,而被檢驗的序列位點數(shù)又比較少的時候,可能會給出一個不合理的或者錯誤的進(jìn)化樹推導(dǎo)結(jié)果最大簡約法(MP)1.理論基礎(chǔ)為奧卡姆剃刀(Ockha311.信息位點,必須在至少2個taxa中具有相同的序列性狀2.信息位點是指那些至少存在2個不同堿基/氨基酸且每個不同堿基/氨基酸至少出現(xiàn)兩次的位點信息位點(Sitesareinformative)1.信息位點,必須在至少2個taxa中具有相同的序列性狀信32生物信息技術(shù)概述課件33上例1.Position5,7,9為信息位點2.基于position5的三個MP樹:Tree1長度1,Tree2&3長度23.Tree1更為簡約上例1.Position5,7,9為信息位點342.距離法又稱距離矩陣法,首先通過各個物種之間的比較,根據(jù)一定的假設(shè)(進(jìn)化距離模型)推導(dǎo)得出分類群之間的進(jìn)化距離,構(gòu)建一個進(jìn)化距離矩陣。進(jìn)化樹的構(gòu)建則是基于這個矩陣中的進(jìn)化距離關(guān)系2.距離法又稱距離矩陣法,首先通過各個物種之間的比較,根據(jù)35計算序列的距離,建立距離矩陣通過距離矩陣建進(jìn)化樹計算序列的距離,建立距離矩陣通過距離矩陣建進(jìn)化樹36簡單的距離矩陣簡單的距離矩陣37由進(jìn)化距離構(gòu)建進(jìn)化樹的方法有很多,常見有:(1)Fitch-MargoliashMethod(FM法):對短支長非常有效(2)Neighbor-JoiningMethod(NJ法/鄰接法):求最短支長,最通用的距離方法(3)NeighborsRelatonMethod(鄰居關(guān)系法)(4)UnweightedPairGroupMethod(UPGMA法)通過距離矩陣建樹的方法由進(jìn)化距離構(gòu)建進(jìn)化樹的方法有很多,常見有:通過距離矩陣建樹的381.找出關(guān)系最近的序列對,如A和B2.將剩余的序列作為一個簡單復(fù)合序列,分別計算A、B到所有其他序列的距離的平均值3.用這些值來計算A和B間的距離4.將A、B作為一個單一的復(fù)合序列AB,計算與每一個其他序列的距離,生成新的距離矩陣5.確定下一對關(guān)系最近的序列,重復(fù)前面的步聚計算枝長7.從每個序列對開始,重復(fù)整個過程8.對每個樹計算每對序列間的預(yù)測距離,發(fā)現(xiàn)與原始數(shù)據(jù)最符合的樹Fitch-Margoliash方法(FM法)1.找出關(guān)系最近的序列對,如A和BFitch-Margoli39Fitch-Margoliash方法(FM法)Fitch-Margoliash方法(FM法)40D和E最接近!分成三組:D,E,以及ABCD和E最接近!分成三組:D,E,以及ABC41DE距離=d+e(1)D到ABC間的平均距離=d+m(2)E到ABC間的平均距離=e+m(3)(2)-(3)+(1)d=4,e=6DE距離=d+e(1)42C最接近DE!分成三組:C,DE,以及ABC最接近DE!分成三組:C,DE,以及AB43c+g+(e+d)/2=19(1)c+f+(a+b)/2=40(2)(e+d)/2+(a+b)/2+f+g=41(2)(1)+(2)-(3)得:c=9c+g+(e+d)/2=19(1)44c+g+(e+d)/2=19(e+d)/2=5,c=9,則g=5c+g+(e+d)/2=1945由:(a+b)/2+f+g+(d+e)/2=41得:f=20由:a+f+c=39得:a=10,則b=12由:(a+b)/2+f+g+(d+e)/2=41得:f=246練習(xí)題

計算以下序列的進(jìn)化距離,畫出進(jìn)化樹。序列1:AACTGTTAGTCAATTGATTCCAATGGTCCATAAACGAATC序列2:AACAGTCAGTCAAGTGTTTCCTTTGGTCCATCGACGAATC序列3:AAGGGTCTGTCACAGGATGGCATCGGTCGGTAAACGAGAC序列4:AAGGGTCTGTCACAG

GAAGG

CATCGGTGGGTAAACGTGAC序列5:AACAC

ACAGTCAAGAGTTTCCTTGGGTCCATCGTCGAATC練習(xí)題序列1:AACTGTTAGTCAATTGAT47NJ法/鄰接法Neighbor-JoiningMethod(NJ法/鄰接法):鄰接法(Neighbor-joiningMethod)由Saitou和Nei(1987)提出。該方法通過確定距離最近(或相鄰)的成對分類單位來使系統(tǒng)樹的總距離達(dá)到最小。相鄰是指兩個分類單位在某一無根分叉樹中僅通過一個節(jié)點(node)相連。通過循序地將相鄰點合并成新的點,就可以建立一個相應(yīng)的拓?fù)錁洹J法/鄰接法Neighbor-JoiningMethod48NJ/鄰接法1.與FM方法非常類似2.保證總的支長最短總支長:a+b+c+d+e=314/4=78.5NJ/鄰接法1.與FM方法非常類似總支長:a+b+c+d+49找到距離最近的兩個點1.任意兩個節(jié)點選為相鄰序列的總支長計算公式:2.計算SAB,SBC,SCD,SDE…等數(shù)值3.該例中,SAB最小找到距離最近的兩個點1.任意兩個節(jié)點選為相鄰序列的總支長計算50

把A、B看成一個新的復(fù)合序列,構(gòu)建一個新的距離表,重復(fù)以上過程計算A,B的分支長度把A、B看成一個新的復(fù)合序列,構(gòu)建一個新的距離表,重51AB組合出現(xiàn)3次,DE組合出現(xiàn)3次,CD、AC、BC組合各一次,則AB和DE各為兩對關(guān)系最近的鄰居。(關(guān)系最近的鄰居作為鄰居的次數(shù)最多),將鄰居看成一個新的復(fù)合序列,重復(fù)這個過程鄰居關(guān)系法AB組合出現(xiàn)3次,DE組合出現(xiàn)3次,CD、AC、BC組合各一52UPGMA法稱為(應(yīng)用算術(shù)平均數(shù)的非加權(quán)成組配對法,unweightedpair-groupmethodusinganarithmeticaverage)。該法將類間距離定義為兩個類的成員所有成對距離的平均值,廣泛用于距離矩陣。Nei等模擬了構(gòu)建樹的不同方法,發(fā)現(xiàn)當(dāng)沿樹上所有分枝的突變率相同時,UPGMA法一般能夠得到較好的結(jié)果。但必須強(qiáng)調(diào)有關(guān)突變率相等(或幾乎相等)的假設(shè)對于UPGMA的應(yīng)用是重要的。另一些模型研究(如Kim和Burgman)已證實當(dāng)各分枝的突變率不相等時,這一方法的結(jié)果不盡人意。當(dāng)各分枝突變率相等時,認(rèn)為分子鐘(molecularclock)在起作用。UPGMA法稱為(應(yīng)用算術(shù)平均數(shù)的非加權(quán)成組配對法,unw53d=e=10/2=5UPGMA法d=e=10/2=5UPGMA法54c=19/2=9.5g=c-d=9.5-5=4.5c=19/2=9.555a=b=22/2=11AB(CDE)A-2239.5B--41.5(CDE)---a=b=22/2=11AB(CDE)A-2239.5B--456(AB)(CDE)(AB)-40.5(CDE)--f1+a=f2+c=40.5/2=20.25f1=9.25,f2=11.75(AB)(CDE)(AB)-40.5(CDE)--f1+a=57最大似然法(ML)1.最大似然法(maximumlikelihood,ML):最早應(yīng)用于對基因頻率數(shù)據(jù)的分析上2.選取一個特定的替代模型來分析給定的一組序列數(shù)據(jù),使得獲得的每一個拓?fù)浣Y(jié)構(gòu)的似然率都為最大值,然后再挑出其中似然率最大的拓?fù)浣Y(jié)構(gòu)作為最優(yōu)樹3.在最大似然法的分析中,所考慮的參數(shù)并不是拓?fù)浣Y(jié)構(gòu)而是每個拓?fù)浣Y(jié)構(gòu)的枝長,并對似然率求最大值來估計枝長4.缺點:費時,每個步驟都要考慮內(nèi)部節(jié)點的所有可能性5.改進(jìn):啟發(fā)式算法最大似然法(ML)1.最大似然法(maximumlik58構(gòu)建進(jìn)化樹的一般原則構(gòu)建進(jìn)化樹的一般原則591.選擇一個或多個已知與分析序列關(guān)系較遠(yuǎn)的序列作為外圍支2.外圍支可以輔助定位樹根3.外圍支序列必須與剩余序列關(guān)系較近,但外圍支序列與其他序列間的差異必須比其他序列之間的差異更顯著選擇外圍支(Outgroup)1.選擇一個或多個已知與分析序列關(guān)系較遠(yuǎn)的序列作為外圍支選601.進(jìn)化樹的可靠性分析:自展法(BootstrapMethod)從排列的多序列中隨機(jī)有放回的抽取某一列,構(gòu)成相同長度的新的排列序列2.重復(fù)上面的過程,得到多組新的序列3.對這些新的序列進(jìn)行建樹,再觀察這些樹與原始樹是否有差異,以此評價建樹的可靠性自展法1.進(jìn)化樹的可靠性分析:自展法(BootstrapMe61原始排列AlphaAACAACBetaAACCCCGammaACCAACDeltaCCACCAEpsilonCCAAACBootstrap1AlphaACAAACBetaACCCCCGammaACAAACDeltaCACCCAEpsilonCAAAACBootstrap2AlphaAAAACCBetaAACCCCGammaCCAACCDeltaCCCCAAEpsilonCCAACC

Bootstrap3AlphaACAAACBetaACCCCCGammaCCAAACDeltaCACCCAEpsilonCAAAAC原始排列Bootstrap162PHYLIP、PUZZLE、MEGA、PAUP、TREEVIEW、CLUSTALX和PHYLO-WIN(LINUX)常用的進(jìn)化樹軟件phylip3.6a3進(jìn)化樹分析軟件,并可繪制進(jìn)化樹。TreeView1.6.6進(jìn)化樹處理軟件。GeneTree1.3比較基因與種系進(jìn)化樹的程序。NDE0.5.0用來編輯NEXUS格式文件的程序。TreeMap1.0用來可視地比較主、從進(jìn)化樹的程序。Spectrum分析進(jìn)化信息而不用將之轉(zhuǎn)化為進(jìn)化樹的軟件。Phyltools1.32計算與處理進(jìn)化樹數(shù)據(jù)的軟件。tree-puzzle5.0核酸序列、蛋白序列相似性分析及進(jìn)化樹構(gòu)建工具。ATV1.92JAVA語言編寫的顯示“NewHampshire”與NHX格式的進(jìn)化樹文件軟件。TREECON1.3bDemo構(gòu)建和繪制進(jìn)化樹的軟件包。ProBiosys1.0比較表現(xiàn)型分類法數(shù)據(jù)和分析計算核酸序列數(shù)據(jù)距離值的軟件。COMPONENT2.0分析進(jìn)化樹免費軟件。NJplot小巧的顯示進(jìn)化樹的免費軟件NJplot。MEGA2.1免費分子進(jìn)化遺傳分析軟件PAUP4PAUP的快速使用手冊PHYLIP、PUZZLE、MEGA、PAUP、TREEVI63生物信息技術(shù)概述課件64生物信息技術(shù)概述課件65生物信息技術(shù)概述課件66生物信息技術(shù)概述課件67Phylip軟件包介紹Phylip是一個免費的系統(tǒng)發(fā)生(phylogenetics)分析軟件包。以下鏈接可以下載:

http://evolution.genetics,/phylip.html

由華盛頓大學(xué)遺傳學(xué)系開發(fā),1980年首次公布。Phylip軟件包介紹Phylip是一個免費的系統(tǒng)發(fā)生(ph68Phylip軟件包介紹Phylip包含了35個獨立的程序,這些獨立的程序都實現(xiàn)特定的功能,這些程序基本上包括了系統(tǒng)發(fā)生分析的所有方面。

Phylip有多種不同平臺的版本(包括windows,Macintosh,DOS,Linux,Unix和OpenVMX)。Phylip軟件包介紹Phylip包含了35個獨立的程69Phylip是目前最廣泛使用的系統(tǒng)發(fā)生分析程序,主要包括一下幾個程序組:分子序列組,距離矩陣組,基因頻率組,離散字符組,進(jìn)化樹繪制組。

Phylip軟件包介紹Phylip是目前最廣泛使用的系統(tǒng)發(fā)生分析程序,主要包70分子序列組:

1.蛋白質(zhì)序列:protpars,proml,promlk,

protdist2.核酸序列:dnapenny,dnapars,

dnamove,dnaml,dnamlk,

dnainvar,dnadist,dnacompPhylip軟件包分組介紹分子序列組:Phylip軟件包分組介紹71距離矩陣組:Fitch,kitsch,neighbor基因頻率組:Gendist,contml離散字符組Pars,mix,move,penny,dollop,dolmove,dolpenny,clique,factorPhylip軟件包分組介紹距離矩陣組:Phylip軟件包分組介紹72進(jìn)化樹繪制組:drawtree,drawgram其他:restdist,restml,seqboot,contrasttreedist,consense,retreePhylip軟件包分組介紹進(jìn)化樹繪制組:drawtree,drawgramPhylip73Phylip軟件包的文檔是非常詳細(xì)的,對于每個獨立的程序,都有一個獨立的文檔,詳細(xì)的介紹了該程序的使用及其說明。此外,Phylip軟件包還包括程序的源代碼(c語言)。Phylip軟件包的文檔Phylip軟件包的文檔是非常詳細(xì)的,對于每個獨立的74Phylip軟件包的應(yīng)用1,根據(jù)你的分析數(shù)據(jù),選擇適當(dāng)?shù)某绦蛉?,你分析的是DNA數(shù)據(jù),就在核酸序列分析類中選擇程序(dnapenny,dnapars,dnamove,dnaml,dnamlk,dnainvar,dnadist,dnacomp

)如果分析的是離散數(shù)據(jù),如突變位點數(shù)據(jù),就在離散字符組里面選擇程序。Phylip軟件包的應(yīng)用1,根據(jù)你的分析數(shù)據(jù),選擇適當(dāng)?shù)某绦?52.選擇適當(dāng)?shù)姆治龇椒ㄈ缒惴治龅氖荄NA數(shù)據(jù),可以選擇簡約法(DNAPARS),似然法(DNAML,DNAMLK),距離法等(DNADIST)。。。Phylip軟件包的應(yīng)用2.選擇適當(dāng)?shù)姆治龇椒≒hylip軟件包的應(yīng)用763.進(jìn)行分析選擇好程序后,執(zhí)行,讀入分析數(shù)據(jù),選擇適當(dāng)?shù)膮?shù),進(jìn)行分析,結(jié)果自動保存為outfile,outtree。

Phylip軟件包的應(yīng)用3.進(jìn)行分析Phylip軟件包的應(yīng)用77 Outfile是一個記錄文件,記錄了分析的過程和結(jié)果,可以直接用文本編輯器(如寫字板)打開。

outtree是分析結(jié)果的樹文件,可以用phylip提供的繪樹程序打開查看,也可以用其他的程序來打開,如treeviewPhylip軟件包的應(yīng)用 Outfile是一個記錄文件,記錄了分析的過程和結(jié)果,可78生物信息技術(shù)概述課件79出發(fā)數(shù)據(jù)-已經(jīng)排列好的蛋白序列。重構(gòu)算法-距離法(protdist.exe)

最大簡約法(protpars.exe)

最大似然法(proml.exe)統(tǒng)計分析-撥靴法(bootstrap)實際應(yīng)用(從蛋白序列推導(dǎo)進(jìn)化樹)出發(fā)數(shù)據(jù)-已經(jīng)排列好的蛋白序列。實際應(yīng)用(從蛋白序列推導(dǎo)進(jìn)化80實際操作Phylip軟件包中的每個分析程序都是一個獨立的應(yīng)用程序。我們選擇好了分析算法后,按一定的順序組合使用選擇的程序,就可以獲得按選擇的算法分析的結(jié)果(進(jìn)化樹)。例子:從我們剛剛通過clustal比對獲得的蛋白序列推測進(jìn)化樹。

選擇方法:距離法(protdist.exe)實際操作Phylip軟件包中的每個分析程序都是一個獨立81

第一步:雙擊執(zhí)行protdist.exe,根據(jù)提示輸入分析的文件名(程序默認(rèn)是infile)。

第一步:雙擊執(zhí)行protdist.exe,根據(jù)提示輸入分析82第二步:設(shè)定各個參數(shù),執(zhí)行程序,獲得距離矩陣數(shù)據(jù)輸出文件outfile。第三步:選擇通過距離矩陣推測進(jìn)化樹的算法(fitch.exe,kotsch.exe,neighbor.exe)。第四步:將剛獲得的輸出文件改名為infile,執(zhí)行選擇的推測算法(neighbor.exe)。設(shè)置好參數(shù)后執(zhí)行程序,獲得outfile和outtree兩個結(jié)果輸出。第二步:設(shè)定各個參數(shù),執(zhí)行程序,獲得距83生物信息技術(shù)概述課件84

獲得的結(jié)果文件中,outtree文件是一個樹文件,可以用treeview等軟件打開。outfile是一個分析結(jié)果的輸出報告,包括了樹和其他一些分析報告,可以用記事本直接打開。outfileouttree獲得的結(jié)果文件中,outtree文件是一個樹文件,可以85加入統(tǒng)計分析(bootstrap)我們剛剛獲得的進(jìn)化樹是純粹的根據(jù)先前獲得的排列數(shù)據(jù)所推導(dǎo)出來的。有很多可能使得這個樹并不一定可靠。1.測序的出錯。2.多序列比對算法本身的問題。3.其他的問題。我們可以引進(jìn)一些統(tǒng)計分析來尋找更優(yōu)的進(jìn)化樹最常見的就是bootstrap分析。加入統(tǒng)計分析(bootstrap)我們剛剛獲得的進(jìn)化樹是純粹86Bootstrap分析Phylip軟件包中有兩個用于執(zhí)行bootstrap分析的程序。(seqboot.exe,consence.exe)。分析過程:1.Seqboot產(chǎn)生大量的數(shù)據(jù)組2.應(yīng)用選擇的算法對產(chǎn)生的數(shù)據(jù)組進(jìn)行分析。3.由consence獲得最優(yōu)樹。Bootstrap分析Phylip軟件包中有兩個用于執(zhí)行bo87PAUP*的使用PAUP*的數(shù)據(jù)格式(Nexus)#NEXUSbegintaxa; dimensionsntax=12; taxlabelsLemur_catta …Tarsius_syrichta;end;begincharacters; dimensionsnchar=898; formatmissing=?gap=-matchchar=.interleavedatatype=dna; optionsgapmode=missing; matrixLemur_cattaAAGCTTCATAGGAGCAACCATTCTAATAATCGCACATGGCCTTACATCATCCATATTATTHomo_sapiensAAGCTTCACCGGCGCAGTCATTCTCATAATCGCCCACGGGCTTACATCCTCATTACTATTPanAAGCTTCACCGGCGCAATTATCCTCATAATCGCCCACGGACTTACATCCTCATTATTATTGorillaAAGCTTCACCGGCGCAGTTGTTCTTATAATTGCCCACGGACTTACATCATCATTATTATTPongoAAGCTTCACCGGCGCAACCACCCTCATGATTGCCCATGGACTCACATCCTCCCTACTGTTHylobatesAAGCTTTACAGGTGCAACCGTCCTCATAATCGCCCACGGACTAACCTCTTCCCTGCTATTPAUP*的使用PAUP*的數(shù)據(jù)格式(Nexus)#NEXU88beginassumptions; charsetcoding=2-457660-896; charsetnoncoding=1458-659897-898; charset1stpos=2-457\3660-896\3; charset2ndpos=3-457\3661-896\3; charset3rdpos=4-457\3662-.\3;

exsetcoding=noncoding; exsetnoncoding=coding;

usertype2_1=4 [weightstransversions2timestransitions] acgt [a] .212 [c]2.21 [g] 12.2 [t] 212. ; usertype3_1=4 [weightstransversions3timestransitions] acgt [a] .313 [c]3.31 [g] 13.3 [t] 313. ;

taxsethominoids=Homo_sapiensPanGorillaPongoHylobates;end;beginpaup; constraintsch=((Homo_sapiens,Pan)); constraintschg=((Homo_sapiens,Pan,Gorilla));end;生物信息技術(shù)概述課件89PAUP*的數(shù)據(jù)格式(Nexus)

主要包括taxa,characters,assumptions,sets,trees,codons,distances,paup八個數(shù)據(jù)塊。對于一個常規(guī)的分析,taxa,characters塊是必須的。而分析的命令可以通過菜單操作(mac),或者鍵盤命令(win,linux),也可以在nexus文件中加入paup命令塊PAUP*的數(shù)據(jù)格式(Nexus)901.TAXA塊主要是定義所分析的數(shù)據(jù)(如分子序列)個數(shù),以及這些數(shù)據(jù)的名稱(如物種名稱)。2.CHARACTERS塊主要是定義數(shù)據(jù)矩陣(如多序列比對結(jié)果)和其他一些相關(guān)的信息(如序列特征值,序列有效區(qū)域等)PAUP*的Nexus的文件塊1.TAXA塊PAUP*的Nexus的文件塊913.ASSUMPTIONS塊定義了對數(shù)據(jù)的一些設(shè)定,如那些特征值是不需考慮的,怎么處理gap這個特征值等,用戶自定義的一些數(shù)據(jù)也放在這塊,如自定義的打分矩陣。4.SETS塊定義了一系列的數(shù)據(jù)組,如特征值組,物種組等,這些設(shè)置都是為了方便后續(xù)的分析。3.ASSUMPTIONS塊925.TREES塊定義了用戶自己設(shè)定的樹。用于后續(xù)的分析,如作為限制樹等。6.CODONS塊定義了遺傳密碼子的一些信息。如編碼的位置(哪些是編碼的,密碼子的位點等)。7.DISTANCES塊定義了一些距離矩陣。5.TREES塊938.PAUP

塊是軟件的核心塊,所有的分析命令和一些參數(shù)設(shè)置(90多個命令)都放在這一塊。這一塊并不是分析輸入數(shù)據(jù)所必須的,這些命令可以寫在這一塊(文件中),這時載入文件時就開始根據(jù)該塊的命令進(jìn)行分析(有點類似dos的批處理過程)。當(dāng)然也可以通過鍵盤命令逐一敲入,交互進(jìn)行分析。

批處理的方式在分析過程比較長,耗時比較久的時候是比較有用的。當(dāng)然在進(jìn)行處理之前一定要先保證該批處理過程沒有問題。8.PAUP塊94一個PAUP*的基本分析實例1.通過clustalw/clustalx獲取一個多序列比對結(jié)果(可能要經(jīng)過人工調(diào)整,推薦用bioedit做輔助編輯器)。保存成nexus格式的文件,或者用其他格式轉(zhuǎn)換軟件轉(zhuǎn)換成nexus格式。paup*中也有一個tonexus命令可以將其他格式(包括phylip,GCG等格式)的文件轉(zhuǎn)換為nexus格式的文件。一個PAUP*的基本分析實例1.通過clustalw/clu952.在PAUP*程序中讀入數(shù)據(jù)(Nexus格式)輸入命令的地方打開文件的窗口程序自帶的測試數(shù)據(jù)執(zhí)行該文件還是編輯該文件?執(zhí)行文件時將文件數(shù)據(jù)讀入程序,編輯文件則調(diào)用一個文本編輯器。如果不是nexus格式,執(zhí)行時候會出錯,然后調(diào)用文本編輯器打開。2.在PAUP*程序中讀入數(shù)據(jù)(Nexus格式)輸入命令的地963.數(shù)據(jù)輸入完成,開始分析…

兩個很有用的命令

?:顯示所有的命令

命令?:顯示命令的所有參數(shù)3.數(shù)據(jù)輸入完成,開始分析…97分析…(開始一)1.開始之前打開記錄文件?(跟蹤整個分析過程)命令:logstartfile=your_log_file_name;停止:logstop;分析…(開始一)1.開始之前982.設(shè)置數(shù)據(jù)哪些用于分析?如:includecoding/only;excludecoding/only;哪些物種要分析(刪除不要的)?如:delete1;或者deletetaxa_name…undelete1;……分析…(開始二)2.設(shè)置數(shù)據(jù)分析…(開始二)993.確定建樹方法最大簡約法?最大似然法?距離法?命令:Setcriterion=parsimony|likelihood|distance;

分析…(建樹一)3.確定建樹方法分析…(建樹一)1004.確定其他參數(shù)Set?查看其他參數(shù)的設(shè)置,改為自己所需要的設(shè)置。如:setmaxtree=10000increase=noautoclose=yes;分析…(建樹二)4.確定其他參數(shù)分析…(建樹二)1015.確定搜索方法(對于距離法不適用)窮盡法:alltrees

分支跳躍查找:bandb

啟發(fā)式搜索:hsearch

其他:puzzle(只在likelihood時有效)…分析…(建樹三)5.確定搜索方法(對于距離法不適用)分析…(建樹三)1026.開始搜索樹之前(設(shè)置各個建樹方法的參數(shù))距離法:dset如:dsetdistance=tamneinegbrlen=allow最大簡約法:pset如psetcollapse=nogapmode=newstate最大似然法:lset如:lsetnst=6clock=yes分析…(建樹四)6.開始搜索樹之前(設(shè)置各個建樹方法的參數(shù))分析…(建樹四1037.再次確認(rèn)參數(shù)是否要設(shè)置外圍群(outgroup)?如outgroup1,2;或者outgrouptaxa_set;其他參數(shù)?分析…(建樹五)7.再次確認(rèn)參數(shù)分析…(建樹五)1047.開始搜索樹距離法:NJ,UPGMA最大簡約法,最大似然法Hsearch?參數(shù)是否要更改?如:hsearchandseq=randomswap=spr分析…(建樹六)7.開始搜索樹分析…(建樹六)1058.進(jìn)化樹的評估選擇評估方法?Bootstrap(自展法)

用的最多,是對進(jìn)化樹重新取樣的評估方法,可以對距離法,簡約法,似然法以及衍生出的任何其他方法構(gòu)建的進(jìn)化樹進(jìn)行評估。其分析結(jié)果是一組數(shù)字,這個數(shù)字描述了進(jìn)化樹進(jìn)化分支的支持比例,也就是進(jìn)化樹分支的穩(wěn)健性。分析…(樹評估一)8.進(jìn)化樹的評估分析…(樹評估一)106分析…(樹評估二)未經(jīng)過bootstrap的樹Bootstrap后的樹分析…(樹評估二)未經(jīng)過bootstrap的樹Bootst107BOOTSTRAP[options][/heuristic-search-options|branch-and-bound-search-options];

使用分支限制或者是啟發(fā)式搜索的方法進(jìn)行bootstrap分析。參數(shù):?BSEED=integer-value隨機(jī)數(shù)種子。?NREPS=integer-valuebootstrap重復(fù)的次數(shù),默認(rèn)值為100。?SEARCH=HEURISTIC|BANDB|FASTSTEP|NJ|UPGMA搜索方式?CONLEVEL=integer-valuebootstrap重復(fù)次數(shù)的最低比率,默認(rèn)為50。?KEEPALL=YES|NO?WTS=IGNORE|SIMPLE|REPEATCNT|PROPORTIONAL?NCHAR=CURRENT|number-of-characters每次重復(fù)采樣的數(shù)目。?GRPFREQ=YES|NO顯示bootstrap分割頻率?TREEFILE=bootstrap-tree-file-name樹的文件?FORMAT=NEXUS|ALTNEXUS|FREQPARS|PHYLIP|HENNIG?BRLENS=YES|NO分支的長度?*REPLACE=YES|NO?CUTOFFPCT=integer-value定義顯示的最低bootstrap分割頻率。Examplebootstrapnreps=200treefile=boot.tresearch=heuristic/addseq=random;分析…(樹評估三)PAUP*中的bootstrap命令BOOTSTRAP[options][/heuristic108對折分析(jackknife)跟bootstrap類似,只是在對原始數(shù)據(jù)取樣的時候不會取重復(fù)的數(shù)據(jù)位點。因為它重復(fù)取樣的時候是在原始數(shù)據(jù)中除去一個或者多個比對位點。

對折分析得出的結(jié)果和bootstrap是一樣的。命令和參數(shù)都類似,用的比bootstrap少很多。分析…(樹評估四)對折分析(jackknife)分析…(樹評估四)109JACKKNIFE[options][/heuristic-search-options|branchand-bound-search-options];對折分析?PCTDELETE=real-value

每個對折分析循環(huán)中刪除的dataset百分?jǐn)?shù)?JSEED=integer-value

隨機(jī)數(shù)種子?NREPS=integer-value對折循環(huán)次數(shù)?SEARCH=HEURISTIC|BANDB|FASTSTEP|NJ|UPGMA樹的搜索方法(NJ和UPGMA僅在最優(yōu)規(guī)則為distance時才可用)?RESAMPLE=NORMAL|JAC?CONLEVEL=integer-valueboostrap中出現(xiàn)的最小比例(最為保留group),默認(rèn)為50,即50%?KEEPALL=YES|NO低于conlevel的樹,若與一致樹兼容,也保留?WTS=IGNORE|SIMPLE|REPEATCNT|PROPORTIONAL?GRPFREQ=YES|NO顯示對折分區(qū)頻率?TREEFILE=tree-file-name?FORMAT=NEXUS|ALTNEXUS|FREQPARS|PHYLIP|HENNIG?*REPLACE=YES|NO?CUTOFFPCT=integer-value

對折頻率表中顯示的最小頻率。ExampleJACKKNIFEnreps=200treefile=tree.tresearch=heuristic/addseq=random分析…(樹評估五)PAUP*中的jackknife命令JACKKNIFE[options][/heuristic110KHtest和SHtest

用來測試一個特定的次優(yōu)化的ml或者mp拓?fù)浣Y(jié)構(gòu)同最優(yōu)化的拓?fù)浣Y(jié)構(gòu)相比是否顯著不同(通常用來做Hypothesistest)。

PAUP*中這兩個測試是作為pscores和lscores的一個參數(shù),默認(rèn)關(guān)閉,需要進(jìn)行這兩個測試的時候,要打開該參數(shù)。Pscore中有KHtest,不支持SHtestLscore中有KHtest和SHtest分析…(樹評估六)KHtest和SHtest分析…(樹評估六)111如:Pscoresall/khtest=normal;Lscoresall/khtest=normalshtest=rell;

測試得出的結(jié)果是返回一個顯著性差異系數(shù)(P值)。分析…(樹評估七)如:分析…(樹評估七)112其他測試隨機(jī)測試:permute不一致的長度差異測試:hompart…分析…(樹評估八)其他測試分析…(樹評估八)113分析結(jié)束之前1.保存分析結(jié)果Savetrees

根據(jù)要求將內(nèi)存中的樹保存到文件如:savetreesfile=tree.trebrlens=yessavebootp=bothfrom=1to=2;2.停止記錄文件Logstop;分析結(jié)束之前1.保存分析結(jié)果114退出3.如果要進(jìn)行下一項分析,想讓原來改過的參數(shù)全部變回默認(rèn)設(shè)置命令:factory所有參數(shù)恢復(fù)默認(rèn)設(shè)置4.確定要退出后命令:quit退出3.如果要進(jìn)行下一項分析,想讓原來改過的參數(shù)全部變回默認(rèn)115一些有用的命令1.Treeinfo

查看內(nèi)存中樹的情況(多少個?有根還是無根?…)。2.clear

清除內(nèi)存中所有的樹。3.showtree

查看內(nèi)存中的樹(默認(rèn)顯示第一個樹,可以加入?yún)?shù))如:showtreeall;showtree2,3;4.gettrees

從樹文件中讀取樹到內(nèi)存中一些有用的命令1.Treeinfo1165.dscores,pscores,lscores

計算樹的距離,簡約性,相似性分值。6.ingroup/outgroup

取消和設(shè)定外圍群7.Contree

根據(jù)一定的規(guī)則求解一致樹8.Deroottrees

將有根樹轉(zhuǎn)換為無根樹9.Roottrees根據(jù)當(dāng)前設(shè)定的outgroup將無根樹轉(zhuǎn)換為有根樹5.dscores,pscores,lscores11710.Filter根據(jù)設(shè)定的規(guī)則篩選樹。11.詳細(xì)的命令請參考paup*軟件的commandreference。10.Filter118Paup塊的一個例子beginpaup;Logstarfile=log.txt;

setcriterion=likelihoodautoclose=yesmaxtrees=10000increase=no; lsetnst=6rmatrix=estimatebasefreq=estimatepinv=estimaterates=gammashape=estimate;hsearchaddseq=randomnreps=100;

bootstrapnreps=1000search=heuristicbrlens=yes;savetreesfile=tree.tresavebootp=bothfrom=1to=1;logstop;quit;end;Paup塊的一個例子beginpaup;119構(gòu)建進(jìn)化樹實例MEGA3.1軟件安裝啟動程序Alignment轉(zhuǎn)入fasta格式文件比對保存比對后文件為擴(kuò)展名meg的格式關(guān)閉軟件窗口按鈕點phylogeny菜單選構(gòu)建樹的方式完成構(gòu)建構(gòu)建進(jìn)化樹實例MEGA3.1軟件安裝啟動程序Al120生物信息技術(shù)概述課件121生物信息技術(shù)概述課件122生物信息技術(shù)概述課件123生物信息技術(shù)概述課件124生物信息技術(shù)概述課件125生物信息技術(shù)概述課件126生物信息技術(shù)概述課件127生物信息技術(shù)概述課件128生物信息技術(shù)概述課件129金麗華生物信息技術(shù)

項目3進(jìn)化樹的構(gòu)建生物信息技術(shù)

項目3進(jìn)化樹的構(gòu)建130項目3課程導(dǎo)學(xué)生物是怎么進(jìn)行進(jìn)化的?從什么數(shù)據(jù)中我們可以看出生物分子的進(jìn)化過程呢?猴子和人類有多大的相似性?在本項目中,我們利用系統(tǒng)進(jìn)化樹的方法來理解生物的進(jìn)化過程。項目3課程導(dǎo)學(xué)生物是怎么進(jìn)行進(jìn)化的?131項目任務(wù)1)學(xué)習(xí)并理解分子進(jìn)化。2)能理解分子鐘和中性理論3)能看懂進(jìn)化樹4)能利用MEGA5.1軟件畫出系統(tǒng)進(jìn)化樹。項目任務(wù)1)學(xué)習(xí)并理解分子進(jìn)化。132學(xué)習(xí)內(nèi)容1.分子進(jìn)化與系統(tǒng)發(fā)育2.分子進(jìn)化樹與系統(tǒng)進(jìn)化樹3.利用MEGA5.1構(gòu)建進(jìn)化樹(實操任務(wù))學(xué)習(xí)內(nèi)容1.分子進(jìn)化與系統(tǒng)發(fā)育133分子進(jìn)化與系統(tǒng)發(fā)育分子進(jìn)化與系統(tǒng)發(fā)育134內(nèi)容提要分子進(jìn)化分析介紹系統(tǒng)發(fā)育樹重建方法Phylip軟件包在分子進(jìn)化分析中的應(yīng)用PAUP*在分子進(jìn)化分析中的應(yīng)用MEGA分子進(jìn)化樹分析軟件內(nèi)容提要分子進(jìn)化分析介紹135

從物種的一些分子特性出發(fā),從而了解物種之間的生物系統(tǒng)發(fā)生的關(guān)系。

蛋白和核酸序列

通過序列同源性的比較進(jìn)而了解基因的進(jìn)化以及生物系統(tǒng)發(fā)生的內(nèi)在規(guī)律。分子進(jìn)化研究的目的 從物種的一些分子特性出發(fā),從而了解物種之間的生物系統(tǒng)發(fā)生136系統(tǒng)發(fā)育樹是什么?

對一組實際對象的世系關(guān)系的描述(如基因,物種等)。系統(tǒng)發(fā)育樹是什么? 對一組實際對象的世系關(guān)系的描述(如基因,137祖先節(jié)點/樹根內(nèi)部節(jié)點/分歧點,該分支可能的祖先結(jié)點分支/世系末端節(jié)點

ABCDE代表最終分類,可以是物種,群體,或者蛋白質(zhì)、DNA、RNA分子等系統(tǒng)發(fā)育樹:術(shù)語祖先節(jié)點/樹根內(nèi)部節(jié)點/分歧點,該分支可能的祖先結(jié)點分支/世138ABCDE?FG樹只代表分支的拓?fù)浣Y(jié)構(gòu)FGCDE?ABABCDE?FG樹只代表分支的拓?fù)浣Y(jié)構(gòu)FGCDE?AB139分子進(jìn)化研究的基礎(chǔ)(假設(shè))核苷酸和氨基酸序列中含有生物進(jìn)化歷史的全部信息。分子進(jìn)化研究的基礎(chǔ)(假設(shè))核苷酸和氨基酸序列中含有生物進(jìn)化歷140在各種不同的發(fā)育譜系及足夠大的進(jìn)化時間尺度中,許多序列的進(jìn)化速率幾乎是恒定不變的。(分子鐘理論,1965)分子進(jìn)化研究的基礎(chǔ)(理論)分子進(jìn)化研究的基礎(chǔ)(理論)141雖然很多時候仍然存在爭議,但是分子進(jìn)化確實能闡述一些生物系統(tǒng)發(fā)生的內(nèi)在規(guī)律。分子進(jìn)化研究的基礎(chǔ)(實際)分子進(jìn)化研究的基礎(chǔ)(實際)142從一個分歧數(shù)據(jù)可以推測其他序列分歧度分歧時間xy分子鐘理論從一個分歧數(shù)據(jù)可以推測其他序列分歧度分歧時間xy分子143速率恒定的證據(jù):血色素速率恒定的證據(jù):血色素144中性理論“在生物分子層次上的進(jìn)化改變不是由自然選擇作用于有利突變引起的,而是在連續(xù)的突變壓之下由選擇中性或非常接近中性的突變的隨機(jī)固定造成的,中性突變是指對當(dāng)前適應(yīng)度無影響的突變?!狈裾J(rèn)自然選擇在生物進(jìn)化中的作用,認(rèn)為生物大分子的進(jìn)化的主要因素是機(jī)會和突變壓力中性理論145進(jìn)化及遺傳模型1、序列有指定的來源并且正確無誤。2、序列是同源的,而序列不是“paralog”的混合物。3、序列比對中,不同序列的同一個位點都是同源的4、在接受分析的一個序列組中,序列之間的系統(tǒng)發(fā)育史是相同的。5、樣本足以解決感興趣的問題。進(jìn)化及遺傳模型1、序列有指定的來源并且正確無誤。146進(jìn)化及遺傳模型6、樣本序列之間的差異代表了感興趣的寬組。7、樣本序列之間的差異包含了足以解決感興趣的問題的系統(tǒng)發(fā)育信號。8、樣本序列是隨機(jī)進(jìn)化的。9、序列中的所有位點的進(jìn)化都是隨機(jī)的。10、序列中的每一個位點的進(jìn)化都是獨立的。進(jìn)化及遺傳模型6、樣本序列之間的差異代表了感興趣的寬組。147直系同源(orthologs):同源的基因通過物種形成的事件而產(chǎn)生,或源于不同物種的最近的共同祖先的兩個基因,或者兩個物種中的同一基因,一般具有相同的功能。并系同源(paralogs):同源基因在同一物種中,通過至少一次基因復(fù)制的事件而產(chǎn)生。直系同源與旁系同源直系同源(orthologs):同源的基因通過物種形成的事件148paralogsorthologsparalogsorthologs149paralogsorthologsErikL.L.SonnhammerOrthology,paralogyandproposedclassificationforparalogsubtypesTRENDSinGeneticsVol.18No.12December20020168-9525/02/$–seefrontmatter?2002ElsevierScienceLtd.Allrightsreserved.paralogsorthologsErikL.L.Son150

以上兩個概念代表了兩個不同的進(jìn)化事件用于分子進(jìn)化分析中的序列必須是直系同源的,才能真實反映進(jìn)化過程。生物信息技術(shù)概述課件151趨同進(jìn)化的基因(Convergentevolution)通過不同的進(jìn)化途徑獲得相似的功能,或者功能替代物(geneshaveconvergedfunctionbyseparateevolutionarypaths)趨同進(jìn)化的基因(Convergentevolution)152異源基因或水平轉(zhuǎn)移基因(xenologousorhorizontallytransferredgenes)由某一個水平基因轉(zhuǎn)移事件而得到的同源序列異源基因或水平轉(zhuǎn)移基因153Bacterium1Bacterium3Bacterium2Eukaryote1Eukaryote4Eukaryote3Eukaryote2Bacterium1Bacterium3Bacterium2Eukaryote1Eukaryote4Eukaryote3Eukaryote2Phylogramsshowbranchorderandbranchlengths進(jìn)化樹,有分支和支長信息2.進(jìn)化分支圖,進(jìn)化樹Cladogramsshowbranchingorder-branchlengthsaremeaningless進(jìn)化分支圖,只用分支信息,無支長信息。Bacterium1Bacterium3Bacteriu154archaeaarchaeaeukaryoteeukaryoteeukaryoteeukaryote通過外圍支來確定樹根archaeabacteriaoutgroup根eukaryoteeukaryoteeukaryoteeukaryote無根樹archaeaarchaeaarchaea有根樹外圍支無根樹,有根樹,外圍支archaeaarchaeaeukaryoteeukaryo155無根樹和有根樹:潛在的數(shù)目#Taxa無根樹有根樹31343155151056105945794510,395…30~3.58X1036~2.04X1038Taxa增多,計算量急劇增加,因此,目前算法都為優(yōu)化算法,不能保證最優(yōu)解無根樹和有根樹:潛在的數(shù)目#Taxa無1564.基因樹,物種樹WeoftenassumethatgenetreesgiveusspeciestreesabcABDGenetreeSpeciestree4.基因樹,物種樹Weoftenassumeth157系統(tǒng)發(fā)育樹重建分析步驟多序列比對(自動比對,手工比對)建立取代模型(建樹方法)建立進(jìn)化樹進(jìn)化樹評估系統(tǒng)發(fā)育樹重建分析步驟多序列比對(自動比對,手工比對)建立取1581.最大簡約法(maximumparsimony,MP)2.距離法(distance)3.最大似然法(maximumlikelihood,ML)系統(tǒng)發(fā)育樹重建的基本方法1.最大簡約法(maximumparsimony,M159最大簡約法(MP)1.理論基礎(chǔ)為奧卡姆剃刀(Ockham)原則:計算所需替代數(shù)最小的那個拓?fù)浣Y(jié)構(gòu),作為最優(yōu)樹2.在分析的序列位點上沒有回復(fù)突變或平行突變,且被檢驗的序列位點數(shù)很大的時候,最大簡約法能夠推導(dǎo)獲得一個很好的進(jìn)化樹3.優(yōu)點:不需要在處理核苷酸或者氨基酸替代的時候引入假設(shè)(替代模型)4.缺點:分析序列上存在較多的回復(fù)突變或平行突變,而被檢驗的序列位點數(shù)又比較少的時候,可能會給出一個不合理的或者錯誤的進(jìn)化樹推導(dǎo)結(jié)果最大簡約法(MP)1.理論基礎(chǔ)為奧卡姆剃刀(Ockha1601.信息位點,必須在至少2個taxa中具有相同的序列性狀2.信息位點是指那些至少存在2個不同堿基/氨基酸且每個不同堿基/氨基酸至少出現(xiàn)兩次的位點信息位點(Sitesareinformative)1.信息位點,必須在至少2個taxa中具有相同的序列性狀信161生物信息技術(shù)概述課件162上例1.Position5,7,9為信息位點2.基于position5的三個MP樹:Tree1長度1,Tree2&3長度23.Tree1更為簡約上例1.Position5,7,9為信息位點1632.距離法又稱距離矩陣法,首先通過各個物種之間的比較,根據(jù)一定的假設(shè)(進(jìn)化距離模型)推導(dǎo)得出分類群之間的進(jìn)化距離,構(gòu)建一個進(jìn)化距離矩陣。進(jìn)化樹的構(gòu)建則是基于這個矩陣中的進(jìn)化距離關(guān)系2.距離法又稱距離矩陣法,首先通過各個物種之間的比較,根據(jù)164計算序列的距離,建立距離矩陣通過距離矩陣建進(jìn)化樹計算序列的距離,建立距離矩陣通過距離矩陣建進(jìn)化樹165簡單的距離矩陣簡單的距離矩陣166由進(jìn)化距離構(gòu)建進(jìn)化樹的方法有很多,常見有:(1)Fitch-MargoliashMethod(FM法):對短支長非常有效(2)Neighbor-JoiningMethod(NJ法/鄰接法):求最短支長,最通用的距離方法(3)NeighborsRelatonMethod(鄰居關(guān)系法)(4)UnweightedPairGroupMethod(UPGMA法)通過距離矩陣建樹的方法由進(jìn)化距離構(gòu)建進(jìn)化樹的方法有很多,常見有:通過距離矩陣建樹的1671.找出關(guān)系最近的序列對,如A和B2.將剩余的序列作為一個簡單復(fù)合序列,分別計算A、B到所有其他序列的距離的平均值3.用這些值來計算A和B間的距離4.將A、B作為一個單一的復(fù)合序列AB,計算與每一個其他序列的距離,生成新的距離矩陣5.確定下一對關(guān)系最近的序列,重復(fù)前面的步聚計算枝長7.從每個序列對開始,重復(fù)整個過程8.對每個樹計算每對序列間的預(yù)測距離,發(fā)現(xiàn)與原始數(shù)據(jù)最符合的樹Fitch-Margoliash方法(FM法)1.找出關(guān)系最近的序列對,如A和BFitch-Margoli168Fitch-Margoliash方法(FM法)Fitch-Margoliash方法(FM法)169D和E最接近!分成三組:D,E,以及ABCD和E最接近!分成三組:D,E,以及ABC170DE距離=d+e(1)D到ABC間的平均距離=d+m(2)E到ABC間的平均距離=e+m(3)(2)-(3)+(1)d=4,e=6DE距離=d+e(1)171C最接近DE!分成三組:C,DE,以及ABC最接近DE!分成三組:C,DE,以及AB172c+g+(e+d)/2=19(1)c+f+(a+b)/2=40(2)(e+d)/2+(a+b)/2+f+g=41(2)(1)+(2)-(3)得:c=9c+g+(e+d)/2=19(1)173c+g+(e+d)/2=19(e+d)/2=5,c=9,則g=5c+g+(e+d)/2=19174由:(a+b)/2+f+g+(d+e)/2=41得:f=20由:a+f+c=39得:a=10,則b=12由:(a+b)/2+f+g+(d+e)/2=41得:f=2175練習(xí)題

計算以下序列的進(jìn)化距離,畫出進(jìn)化樹。序列1:AACTGTTAGTCAATTGATTCCAATGGTCCATAAACGAATC序列2:AACAGTCAGTCAAGTGTTTCCTTTGGTCCATCGACGAATC序列3:AAGGGTCTGTCACAGGATGGCATCGGTCGGTAAACGAGAC序列4:AAGGGTCTGTCACAG

GAAGG

CATCGGTGGGTAAACGTGAC序列5:AACAC

ACAGTCAAGAGTTTCCTTGGGTCCATCGTCGAATC練習(xí)題序列1:AACTGTTAGTCAATTGAT176NJ法/鄰接法Neighbor-JoiningMethod(NJ法/鄰接法):鄰接法(Neighbor-joiningMethod)由Saitou和Nei(1987)提出。該方法通過確定距離最近(或相鄰)的成對分類單位來使系統(tǒng)樹的總距離達(dá)到最小。相鄰是指兩個分類單位在某一無根分叉樹中僅通過一個節(jié)點(node)相連。通過循序地將相鄰點合并成新的點,就可以建立一個相應(yīng)的拓?fù)錁?。NJ法/鄰接法Neighbor-JoiningMethod177NJ/鄰接法1.與FM方法非常類似2.保證總的支長最短總支長:a+b+c+d+e=314/4=78.5NJ/鄰接法1.與FM方法非常類似總支長:a+b+c+d+178找到距離最近的兩個點1.任意兩個節(jié)點選為相鄰序列

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論