生物信息技術(shù)概述_第1頁
生物信息技術(shù)概述_第2頁
生物信息技術(shù)概述_第3頁
生物信息技術(shù)概述_第4頁
生物信息技術(shù)概述_第5頁
已閱讀5頁,還剩125頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

金麗華生物信息技術(shù)

項目3進化樹的構(gòu)建項目3課程導(dǎo)學(xué)生物是怎么進行進化的?從什么數(shù)據(jù)中我們可以看出生物分子的進化過程呢?猴子和人類有多大的相似性?在本項目中,我們利用系統(tǒng)進化樹的方法來理解生物的進化過程。項目任務(wù)1)學(xué)習(xí)并理解分子進化。2)能理解分子鐘和中性理論3)能看懂進化樹4)能利用MEGA5.1軟件畫出系統(tǒng)進化樹。學(xué)習(xí)內(nèi)容1.分子進化與系統(tǒng)發(fā)育2.分子進化樹與系統(tǒng)進化樹3.利用MEGA5.1構(gòu)建進化樹(實操任務(wù))分子進化與系統(tǒng)發(fā)育內(nèi)容提要分子進化分析介紹系統(tǒng)發(fā)育樹重建方法Phylip軟件包在分子進化分析中的應(yīng)用PAUP*在分子進化分析中的應(yīng)用MEGA分子進化樹分析軟件

從物種的一些分子特性出發(fā),從而了解物種之間的生物系統(tǒng)發(fā)生的關(guān)系。

蛋白和核酸序列

通過序列同源性的比較進而了解基因的進化以及生物系統(tǒng)發(fā)生的內(nèi)在規(guī)律。分子進化研究的目的系統(tǒng)發(fā)育樹是什么?

對一組實際對象的世系關(guān)系的描述(如基因,物種等)。祖先節(jié)點/樹根內(nèi)部節(jié)點/分歧點,該分支可能的祖先結(jié)點分支/世系末端節(jié)點

ABCDE代表最終分類,可以是物種,群體,或者蛋白質(zhì)、DNA、RNA分子等系統(tǒng)發(fā)育樹:術(shù)語ABCDE?FG樹只代表分支的拓撲結(jié)構(gòu)FGCDE?AB分子進化研研究的基礎(chǔ)礎(chǔ)(假設(shè)))核苷酸和氨氨基酸序列列中含有生生物進化歷歷史的全部部信息。在各種不同同的發(fā)育譜譜系及足夠夠大的進化化時間尺度度中,許多多序列的進進化速率幾幾乎是恒定定不變的。。(分子鐘鐘理論,1965)分子進化研研究的基礎(chǔ)礎(chǔ)(理論))雖然很多時時候仍然存存在爭議,,但是分子子進化確實實能闡述一一些生物系系統(tǒng)發(fā)生的的內(nèi)在規(guī)律律。分子進化研研究的基礎(chǔ)礎(chǔ)(實際))從一個分歧歧數(shù)據(jù)可以以推測其他他序列分分歧度度分歧時間xy分子鐘理論論速率恒定的的證據(jù):血血色素中性理論“在生物分分子層次次上的進進化改變變不是由由自然選選擇作用用于有利利突變引引起的,,而是在在連續(xù)的的突變壓壓之下由由選擇中中性或非非常接近近中性的的突變的的隨機固固定造成成的,中中性突變變是指對對當(dāng)前適適應(yīng)度無無影響的的突變。?!狈裾J自然然選擇在在生物進進化中的的作用,,認為生生物大分分子的進進化的主主要因素素是機會會和突變變壓力進化及遺遺傳模型型1、序列有有指定的的來源并并且正確確無誤。。2、序列是是同源的的,而序序列不是是“paralog”的混合合物。3、序列比比對中,,不同序序列的同同一個位位點都是是同源的的4、在接受受分析的的一個序序列組中中,序列列之間的的系統(tǒng)發(fā)發(fā)育史是是相同的的。5、樣本足足以解決決感興趣趣的問題題。進化及遺遺傳模型型6、樣本序序列之間間的差異異代表了了感興趣趣的寬組組。7、樣本序序列之間間的差異異包含了了足以解解決感興興趣的問問題的系系統(tǒng)發(fā)育育信號。。8、樣本序序列是隨隨機進化化的。9、序列中中的所有有位點的的進化都都是隨機機的。10、序列中中的每一一個位點點的進化化都是獨獨立的。。直系同源源(orthologs):同源的基基因通過過物種形成成的事件而而產(chǎn)生,,或源于于不同物物種的最最近的共共同祖先先的兩個個基因,,或者兩兩個物種種中的同同一基因因,一般般具有相相同的功功能。并系同源源(paralogs):同源基因因在同一一物種中中,通過過至少一一次基因復(fù)制制的事件而而產(chǎn)生。。直系同源源與旁系系同源paralogsorthologsparalogsorthologsErikL.L.SonnhammerOrthology,paralogyandproposedclassificationforparalogsubtypesTRENDSinGeneticsVol.18No.12December20020168-9525/02/$––seefrontmatter?2002ElsevierScienceLtd.Allrightsreserved.以上兩個個概念代代表了兩兩個不同同的進化化事件用于分子子進化分分析中的的序列必須是直直系同源源的,才能能真實反反映進化化過程。。趨同進化化的基因因(Convergentevolution)通過不同同的進化化途徑獲獲得相似似的功能能,或者者功能替替代物(geneshaveconvergedfunctionbyseparateevolutionarypaths)異源基因因或水平平轉(zhuǎn)移基基因(xenologousorhorizontallytransferredgenes)由某一個個水平基因因轉(zhuǎn)移事件而得得到的同同源序列列Bacterium1Bacterium3Bacterium2Eukaryote1Eukaryote4Eukaryote3Eukaryote2Bacterium1Bacterium3Bacterium2Eukaryote1Eukaryote4Eukaryote3Eukaryote2Phylogramsshowbranchorderandbranchlengths進化樹,,有分支支和支長長信息2.進化分支支圖,進進化樹Cladogramsshowbranchingorder-branchlengthsaremeaningless進化分支支圖,只只用分支支信息,,無支長長信息。。archaeaarchaeaeukaryoteeukaryoteeukaryoteeukaryote通過外圍支支來確定定樹根archaeabacteriaoutgroup根eukaryoteeukaryoteeukaryoteeukaryote無根樹archaeaarchaeaarchaea有根樹外圍支無根樹,有根根樹,外圍支支無根樹和有根根樹:潛在的的數(shù)目#Taxa無根樹有有根樹31343155151056105945794510,395…30~3.58X1036~2.04X1038Taxa增多,計算量量急劇增加,,因此,目前前算法都為優(yōu)優(yōu)化算法,不不能保證最優(yōu)優(yōu)解4.基因樹,物種種樹WeoftenassumethatgenetreesgiveusspeciestreesabcABDGenetreeSpeciestree系統(tǒng)發(fā)育樹重重建分析步驟驟多序列比對((自動比對,,手工比對))建立取代模型型(建樹方法法)建立進化樹進化樹評估1.最大簡約法(maximumparsimony,MP)2.距離法(distance)3.最大似然法(maximumlikelihood,ML)系統(tǒng)發(fā)育樹重重建的基本方方法最大簡約法(MP)1.理論基礎(chǔ)為奧奧卡姆剃刀(Ockham)原則:計算所所需替代數(shù)最最小的那個拓拓撲結(jié)構(gòu),作作為最優(yōu)樹2.在分析的序列列位點上沒有有回復(fù)突變或或平行突變,,且被檢驗的的序列位點數(shù)數(shù)很大的時候候,最大簡約約法能夠推導(dǎo)導(dǎo)獲得一個很很好的進化樹樹3.優(yōu)點:不需要要在處理核苷苷酸或者氨基基酸替代的時時候引入假設(shè)設(shè)(替代模型)4.缺點:分析序序列上存在較較多的回復(fù)突突變或平行突突變,而被檢檢驗的序列位位點數(shù)又比較較少的時候,,可能會給出出一個不合理理的或者錯誤誤的進化樹推推導(dǎo)結(jié)果1.信息位點,必必須在至少2個taxa中具有相同的的序列性狀2.信息位點是指指那些至少存存在2個不同堿基/氨基酸且每個個不同堿基/氨基酸至少出出現(xiàn)兩次的位位點信息位點(Sitesareinformative)上例1.Position5,7,9為信息位點2.基于position5的三個MP樹:Tree1長度1,Tree2&3長度23.Tree1更為簡約2.距離法又稱距離矩陣陣法,首先通通過各個物種種之間的比較較,根據(jù)一定定的假設(shè)(進進化距離模型型)推導(dǎo)得出出分類群之間間的進化距離離,構(gòu)建一個個進化距離矩矩陣。進化樹樹的構(gòu)建則是是基于這個矩矩陣中的進化化距離關(guān)系計算序列的距距離,建立距距離矩陣通過距離矩陣陣建進化樹簡單的距離矩矩陣由進化距離構(gòu)構(gòu)建進化樹的的方法有很多多,常見有::(1)Fitch-MargoliashMethod(FM法):對短支長非常常有效(2)Neighbor-JoiningMethod(NJ法/鄰接法):求最短支長,,最通用的距距離方法(3)NeighborsRelatonMethod(鄰居關(guān)系法)(4)UnweightedPairGroupMethod(UPGMA法)通過距離矩陣陣建樹的方法法1.找出關(guān)系最近近的序列對,,如A和B2.將剩余的序列列作為一個簡簡單復(fù)合序列列,分別計算算A、B到所有其他序序列的距離的的平均值3.用這些值來計計算A和B間的距離4.將A、B作為一個單單一的復(fù)合合序列AB,計算與每每一個其他他序列的距距離,生成成新的距離離矩陣5.確定下一對對關(guān)系最近近的序列,,重復(fù)前面面的步聚計計算枝長7.從每個序列列對開始,,重復(fù)整個個過程8.對每個樹計計算每對序序列間的預(yù)預(yù)測距離,,發(fā)現(xiàn)與原原始數(shù)據(jù)最最符合的樹樹Fitch-Margoliash方法(FM法)Fitch-Margoliash方法(FM法)D和E最接近!分成三組::D,E,以及ABCDE距離=d+e(1)D到ABC間的平均距距離=d+m(2)E到ABC間的平均距距離=e+m(3)(2)-(3)+(1)d=4,e=6C最接近DE!分成三組::C,DE,以及ABc+g+(e+d)/2=19(1)c+f+(a+b)/2=40(2)(e+d)/2+(a+b)/2+f+g=41(2)(1)+(2)-(3)得:c=9c+g+(e+d)/2=19(e+d)/2=5,c=9,則g=5由:(a+b)/2+f+g+(d+e)/2=41得:f=20由:a+f+c=39得:a=10,則b=12練習(xí)題計算以下序序列的進化化距離,畫畫出進化樹樹。序列1:AACTGTTAGTCAATTGATTCCAATGGTCCATAAACGAATC序列2:AACAGTCAGTCAAGTGTTTCCTTTGGTCCATCGACGAATC序列3:AAGGGTCTGTCACAGGATGGCATCGGTCGGTAAACGAGAC序列4:AAGGGTCTGTCACAGGAAGGCATCGGTGGGTAAACGTGAC序列5:AACACACAGTCAAGAGTTTCCTTGGGTCCATCGTCGAATCNJ法/鄰接法Neighbor-JoiningMethod(NJ法/鄰接法):鄰接法(Neighbor-joiningMethod)由Saitou和Nei(1987)提出。該方方法通過確確定距離最最近(或相鄰)的成對分類類單位來使使系統(tǒng)樹的的總距離達達到最小。。相鄰是指指兩個分類類單位在某某一無根分分叉樹中僅僅通過一個個節(jié)點(node)相連。通過過循序地將將相鄰點合合并成新的的點,就可可以建立一一個相應(yīng)的的拓撲樹。。NJ/鄰接法1.與FM方法非常類類似2.保證總的支支長最短總支長:a+b+c+d+e=314/4=78.5找到距離最最近的兩個個點1.任意兩個節(jié)節(jié)點選為相相鄰序列的的總支長計計算公式:2.計算SAB,SBC,SCD,SDE…等數(shù)值3.該例中,SAB最小把A、B看成一個新新的復(fù)合序序列,構(gòu)建建一個新的的距離表,,重復(fù)以上上過程計算算A,B的分分支支長長度度AB組合合出出現(xiàn)現(xiàn)3次,,DE組合合出出現(xiàn)現(xiàn)3次,,CD、AC、BC組合合各各一一次次,,則則AB和DE各為為兩兩對對關(guān)關(guān)系系最最近近的的鄰鄰居居。。(關(guān)系系最最近近的的鄰鄰居居作作為為鄰鄰居居的的次次數(shù)數(shù)最最多多),將將鄰鄰居居看看成成一一個個新新的的復(fù)復(fù)合合序序列列,,重重復(fù)復(fù)這這個個過過程程鄰居居關(guān)關(guān)系系法法UPGMA法稱為為(應(yīng)用用算算術(shù)術(shù)平平均均數(shù)數(shù)的的非非加加權(quán)權(quán)成成組組配配對對法法,,unweightedpair-groupmethodusinganarithmeticaverage)。該法法將將類類間間距距離離定定義義為為兩兩個個類類的的成成員員所所有有成成對對距距離離的的平平均均值值,,廣廣泛泛用用于于距距離離矩矩陣陣。。Nei等模模擬擬了了構(gòu)構(gòu)建建樹樹的的不不同同方方法法,,發(fā)發(fā)現(xiàn)現(xiàn)當(dāng)當(dāng)沿沿樹樹上上所所有有分分枝枝的的突突變變率率相相同同時時,,UPGMA法一一般般能能夠夠得得到到較較好好的的結(jié)結(jié)果果。。但但必必須須強強調(diào)調(diào)有有關(guān)關(guān)突突變變率率相相等等(或幾幾乎乎相相等等)的假假設(shè)設(shè)對對于于UPGMA的應(yīng)應(yīng)用用是是重重要要的的。。另另一一些些模模型型研研究究(如Kim和Burgman)已證證實實當(dāng)當(dāng)各各分分枝枝的的突突變變率率不不相相等等時時,,這這一一方方法法的的結(jié)結(jié)果果不不盡盡人人意意。。當(dāng)當(dāng)各各分分枝枝突突變變率率相相等等時時,,認認為為分分子子鐘鐘(molecularclock)在起起作作用用。。d=e=10/2=5UPGMA法c=19/2=9.5g=c-d=9.5-5=4.5a=b=22/2=11AB(CDE)A-2239.5B--41.5(CDE)---(AB)(CDE)(AB)-40.5(CDE)--f1+a=f2+c=40.5/2=20.25f1=9.25,f2=11.75最大大似似然然法法(ML)1.最大大似似然然法法(maximumlikelihood,ML):最早早應(yīng)應(yīng)用用于于對對基基因因頻頻率率數(shù)數(shù)據(jù)據(jù)的的分分析析上上2.選取取一一個個特特定定的的替替代代模模型型來來分分析析給給定定的的一一組組序序列列數(shù)數(shù)據(jù)據(jù),,使使得得獲獲得得的的每每一一個個拓拓撲撲結(jié)結(jié)構(gòu)構(gòu)的的似似然然率率都都為為最最大大值值,,然然后后再再挑挑出出其其中中似似然然率率最最大大的的拓拓撲撲結(jié)結(jié)構(gòu)構(gòu)作作為為最最優(yōu)優(yōu)樹樹3.在最大似似然法的的分析中中,所考考慮的參參數(shù)并不不是拓撲撲結(jié)構(gòu)而而是每個個拓撲結(jié)結(jié)構(gòu)的枝枝長,并并對似然然率求最最大值來來估計枝枝長4.缺點:費費時,每每個步驟驟都要考考慮內(nèi)部部節(jié)點的的所有可可能性5.改進:啟啟發(fā)式算算法構(gòu)建進化化樹的一一般原則則1.選擇一個個或多個個已知與與分析序序列關(guān)系系較遠的的序列作作為外圍圍支2.外圍支可可以輔助助定位樹樹根3.外圍支序序列必須須與剩余余序列關(guān)關(guān)系較近近,但外外圍支序序列與其其他序列列間的差差異必須須比其他他序列之之間的差差異更顯顯著選擇外圍圍支(Outgroup)1.進化樹的的可靠性性分析:自展法(BootstrapMethod)從排列的的多序列列中隨機機有放回回的抽取取某一列列,構(gòu)成成相同長長度的新新的排列列序列2.重復(fù)上面面的過程程,得到到多組新新的序列列3.對這些新新的序列列進行建建樹,再再觀察這這些樹與與原始樹樹是否有有差異,,以此評評價建樹樹的可靠靠性自展法原始排列列AlphaAACAACBetaAACCCCGammaACCAACDeltaCCACCAEpsilonCCAAACBootstrap1AlphaACAAACBetaACCCCCGammaACAAACDeltaCACCCAEpsilonCAAAACBootstrap2AlphaAAAACCBetaAACCCCGammaCCAACCDeltaCCCCAAEpsilonCCAACCBootstrap3AlphaACAAACBetaACCCCCGammaCCAAACDeltaCACCCAEpsilonCAAAACPHYLIP、PUZZLE、MEGA、PAUP、TREEVIEW、CLUSTALX和PHYLO-WIN(LINUX)常用的進進化樹軟軟件phylip3.6a3進化樹分分析軟件件,并可可繪制進進化樹。。進化樹處處理軟件件。GeneTree1.3比較基因因與種系系進化樹樹的程序序。用來編輯輯NEXUS格式文件件的程序序。TreeMap1.0用來可視視地比較較主、從從進化樹樹的程序序。Spectrum分析進化化信息而而不用將將之轉(zhuǎn)化化為進化化樹的軟軟件。Phyltools1.32計算與處處理進化化樹數(shù)據(jù)據(jù)的軟件件。tree-puzzle5.0核酸序列列、蛋白白序列相相似性分分析及進進化樹構(gòu)構(gòu)建工具具。ATV1.92JAVA語言編寫寫的顯示示“NewHampshire”與NHX格式的進進化樹文文件軟件。TREECON1.3bDemo構(gòu)建和繪繪制進化化樹的軟軟件包。。ProBiosys1.0比較表現(xiàn)現(xiàn)型分類類法數(shù)據(jù)據(jù)和分析析計算核核酸序列列數(shù)據(jù)距距離值的的軟件。。COMPONENT2.0分析進化化樹免費費軟件。。NJplot小巧的顯顯示進化化樹的免免費軟件件NJplot。MEGA2.1免費分子子進化遺遺傳分析析軟件PAUP4PAUP的快速使使用手冊冊Phylip軟件包介介紹Phylip是一個免免費的系系統(tǒng)發(fā)生生(phylogenetics)分析軟件件包。以以下鏈接接可以下下載:http://evolution.genetics,/phylip.html由華盛頓頓大學(xué)遺遺傳學(xué)系系開發(fā),,1980年首次公公布。Phylip軟件包介介紹Phylip包含了35個獨立的的程序,,這些獨獨立的程程序都實實現(xiàn)特定定的功能能,這些些程序基基本上包包括了系系統(tǒng)發(fā)生生分析的的所有方方面。Phylip有多種不不同平臺臺的版本本(包括括windows,Macintosh,DOS,Linux,Unix和OpenVMX)。Phylip是目前最最廣泛使使用的系系統(tǒng)發(fā)生生分析程程序,主主要包括括一下幾幾個程序序組:分子序列列組,距離矩陣陣組,基因頻頻率組,,離散字字符組,,進化樹繪繪制組。Phylip軟件包介介紹分子序列列組:1.蛋白質(zhì)序序列:protpars,proml,promlk,protdist2.核酸序列列:dnapenny,dnapars,dnamove,dnaml,dnamlk,dnainvar,dnadist,dnacompPhylip軟件包分分組介紹紹距離矩陣陣組:Fitch,kitsch,neighbor基因頻率率組:Gendist,contml離散字符符組Pars,mix,move,penny,dollop,dolmove,dolpenny,clique,factorPhylip軟件包包分組組介紹紹進化樹樹繪制制組::drawtree,drawgram其他::restdist,restml,seqboot,contrasttreedist,consense,retreePhylip軟件包包分組組介紹紹Phylip軟件包包的文文檔是是非常常詳細細的,,對于于每個個獨立立的程程序,,都有有一個個獨立立的文文檔,,詳細細的介介紹了了該程程序的的使用用及其其說明明。此外,,Phylip軟件包包還包包括程程序的的源代代碼((c語言))。Phylip軟件包包的文文檔Phylip軟件包包的應(yīng)應(yīng)用1,根據(jù)據(jù)你的的分析析數(shù)據(jù)據(jù),選選擇適適當(dāng)?shù)牡某绦蛐蛉纾惴治鑫龅氖荄NA數(shù)據(jù),就在在核酸序列列分析類中中選擇程序序(dnapenny,dnapars,dnamove,dnaml,dnamlk,dnainvar,dnadist,dnacomp)如果分析析的是離散散數(shù)據(jù),如如突變位點點數(shù)據(jù),就就在離散字字符組里面面選擇程序序。2.選擇適當(dāng)?shù)牡姆治龇椒ǚㄈ缒惴治龅牡氖荄NA數(shù)據(jù),可以以選擇簡約約法(DNAPARS),似然法法(DNAML,DNAMLK),距離法法等(DNADIST)。。。Phylip軟件包的應(yīng)應(yīng)用3.進行分析選擇好程序序后,執(zhí)行行,讀入分分析數(shù)據(jù),,選擇適當(dāng)當(dāng)?shù)膮?shù),,進行分析析,結(jié)果自自動保存為為outfile,outtree。Phylip軟件包的應(yīng)應(yīng)用Outfile是一個記錄錄文件,記記錄了分析析的過程和和結(jié)果,可可以直接用用文本編輯輯器(如寫寫字板)打打開。outtree是分析結(jié)果果的樹文件件,可以用用phylip提供的繪樹樹程序打開開查看,也也可以用其其他的程序序來打開,,如treeviewPhylip軟件包的應(yīng)應(yīng)用出發(fā)數(shù)據(jù)--已經(jīng)排列列好的蛋白白序列。重構(gòu)算法--距離法(protdist.exe)最大簡約法法(protpars.exe)最大似然法法(proml.exe)統(tǒng)計分析--撥靴法(bootstrap)實際應(yīng)用((從蛋白序序列推導(dǎo)進進化樹)實際操作Phylip軟件包中的的每個分析析程序都是是一個獨立立的應(yīng)用程程序。我們們選擇好了了分析算法法后,按一一定的順序序組合使用用選擇的程程序,就可可以獲得按按選擇的算算法分析的的結(jié)果(進進化樹)。。例子:從我我們剛剛通通過clustal比對獲得的的蛋白序列列推測進進化樹。選擇方法::距離法(protdist.exe)第一步:雙雙擊執(zhí)行protdist.exe,根據(jù)提示輸輸入分析的的文件名(程序默認是是infile)。第二步:設(shè)設(shè)定各個參參數(shù),執(zhí)行行程序,獲獲得距離矩陣數(shù)據(jù)據(jù)輸出文件件outfile。第三步:選選擇通過距距離矩陣推推測進化樹樹的算法(fitch.exe,kotsch.exe,neighbor.exe)。第四步:將將剛獲得的的輸出文件件改名為infile,執(zhí)行選擇擇的推測算算法(neighbor.exe)。設(shè)置好參參數(shù)后執(zhí)行行程序,獲獲得outfile和outtree兩個結(jié)果輸輸出。獲得的結(jié)果果文件中,,outtree文件是一個個樹文件,,可以用treeview等軟件打開開。outfile是一個分析析結(jié)果的輸輸出報告,,包括了樹樹和其他一一些分析報報告,可以以用記事本本直接打開開。outfileouttree加入統(tǒng)計分分析(bootstrap)我們剛剛獲獲得的進化化樹是純粹粹的根據(jù)先先前獲得的的排列數(shù)據(jù)據(jù)所推導(dǎo)出出來的。有有很多可能能使得這個個樹并不一一定可靠。。1.測序的出錯錯。2.多序列比對對算法本身身的問題。。3.其他的問題題。我們可以引引進一些統(tǒng)統(tǒng)計分析來來尋找更優(yōu)優(yōu)的進化樹樹最常見的就就是bootstrap分析。Bootstrap分析Phylip軟件包中有有兩個用于于執(zhí)行bootstrap分析的程序序。(seqboot.exe,consence.exe)。分析過程::1.Seqboot產(chǎn)生大量的的數(shù)據(jù)組2.應(yīng)用選擇的的算法對產(chǎn)產(chǎn)生的數(shù)據(jù)據(jù)組進行分分析。3.由consence獲得最優(yōu)樹樹。PAUP*的使用PAUP*的數(shù)據(jù)格式式(Nexus)#NEXUSbegintaxa;dimensionsntax=12;taxlabelsLemur_catta…Tarsius_syrichta;end;begincharacters;dimensionsnchar=898;formatmissing=?gap=-matchchar=.interleavedatatype=dna;optionsgapmode=missing;matrixLemur_cattaAAGCTTCATAGGAGCAACCATTCTAATAATCGCACATGGCCTTACATCATCCATATTATTHomo_sapiensAAGCTTCACCGGCGCAGTCATTCTCATAATCGCCCACGGGCTTACATCCTCATTACTATTPanAAGCTTCACCGGCGCAATTATCCTCATAATCGCCCACGGACTTACATCCTCATTATTATTGorillaAAGCTTCACCGGCGCAGTTGTTCTTATAATTGCCCACGGACTTACATCATCATTATTATTPongoAAGCTTCACCGGCGCAACCACCCTCATGATTGCCCATGGACTCACATCCTCCCTACTGTTHylobatesAAGCTTTACAGGTGCAACCGTCCTCATAATCGCCCACGGACTAACCTCTTCCCTGCTATTbeginassumptions;charsetcoding=2-457660-896;charsetnoncoding=1458-659897-898;charset1stpos=2-457\3660-896\3;charset2ndpos=3-457\3661-896\3;charset3rdpos=4-457\3662-.\3;exsetcoding=noncoding;exsetnoncoding=coding;usertype2_1=4[weightstransversions2timestransitions]acgt[a].212[c]2.21[g]12.2[t]212.;usertype3_1=4[weightstransversions3timestransitions]acgt[a].313[c]3.31[g]13.3[t]313.;taxsethominoids=Homo_sapiensPanGorillaPongoHylobates;end;beginpaup;constraintsch=((Homo_sapiens,Pan));constraintschg=((Homo_sapiens,Pan,Gorilla));end;PAUP*的數(shù)數(shù)據(jù)據(jù)格格式式(Nexus)主要要包包括括taxa,characters,assumptions,sets,trees,codons,distances,paup八個數(shù)據(jù)塊。對于一個常規(guī)規(guī)的分析,taxa,characters塊是必須的。。而分析的命命令可以通過過菜單操作((mac),或者鍵盤盤命令(win,linux),也可以在nexus文件中加入paup命令塊1.TAXA塊主要是定義所所分析的數(shù)據(jù)據(jù)(如分子序序列)個數(shù),以及這些數(shù)數(shù)據(jù)的名稱((如物種名稱)。2.CHARACTERS塊主要是定義數(shù)數(shù)據(jù)矩陣(如如多序列比對對結(jié)果)和其其他一些相關(guān)關(guān)的信息(如如序列特征值值,序列有效效區(qū)域等)PAUP*的Nexus的文件塊3.ASSUMPTIONS塊定義了對數(shù)據(jù)據(jù)的一些設(shè)定定,如那些特特征值是不需需考慮的,怎怎么處理gap這個特征值等等,用戶自定定義的一些數(shù)數(shù)據(jù)也放在這這塊,如自定定義的打分矩矩陣。4.SETS塊定義了一系列列的數(shù)據(jù)組,,如特征值組組,物種組等等,這些設(shè)置置都是為了方方便后續(xù)的分分析。5.TREES塊定義了用戶自自己設(shè)定的樹樹。用于后續(xù)續(xù)的分析,如如作為限制樹樹等。6.CODONS塊定義了遺傳密密碼子的一些些信息。如編編碼的位置((哪些是編碼碼的,密碼子子的位點等))。7.DISTANCES塊定義了一些距距離矩陣。8.PAUP塊是軟件的核心心塊,所有的的分析命令和和一些參數(shù)設(shè)設(shè)置(90多個命令)都都放在這一塊塊。這一塊并不是是分析輸入數(shù)數(shù)據(jù)所必須的的,這些命令令可以寫在這這一塊(文件件中),這時時載入文件時時就開始根據(jù)據(jù)該塊的命令令進行分析((有點類似dos的批處理過程程)。當(dāng)然也也可以通過鍵鍵盤命令逐一一敲入,交互進行分析。批處理的方式在分析析過程比較長長,耗時比較較久的時候是是比較有用的的。當(dāng)然在進進行處理之前前一定要先保保證該批處理理過程沒有問問題。一個PAUP*的基本分析實實例1.通過clustalw/clustalx獲取一個多序序列比對結(jié)果果(可能要經(jīng)經(jīng)過人工調(diào)整整,推薦用bioedit做輔助編輯器器)。保存成成nexus格式的文件,,或者用其他他格式轉(zhuǎn)換軟軟件轉(zhuǎn)換成nexus格式。paup*中也有一個tonexus命令可以將其其他格式(包包括phylip,GCG等格式)的文文件轉(zhuǎn)換為nexus格式的文件。。2.在PAUP*程序中讀入數(shù)數(shù)據(jù)(Nexus格式)輸入命令的地地方打開文件的窗窗口程序自帶的測測試數(shù)據(jù)執(zhí)行該文件還還是編輯該文文件?執(zhí)行文件時將將文件數(shù)據(jù)讀讀入程序,編編輯文件則調(diào)調(diào)用一個文本本編輯器。如如果不是nexus格式,執(zhí)行時時候會出錯,,然后調(diào)用文文本編輯器打打開。3.數(shù)據(jù)輸入完成成,開始分析析…兩個很有用的的命令?:顯示所有的的命令命令?:顯示命令的的所有參數(shù)分析…(開始一)1.開始之前打開記錄文件件?(跟蹤整整個分析過程程)命令:logstartfile=your_log_file_name;停止:logstop;2.設(shè)置數(shù)據(jù)哪些用于分析析?如:includecoding/only;excludecoding/only;哪些物種要分分析(刪除不不要的)?如:delete1;或者deletetaxa_name…undelete1;……分析…(開始二)3.確定建樹方法法最大簡約法??最大似然法法?距離法法?命令:Setcriterion=parsimony|likelihood|distance;分析…(建樹一)4.確定其他參數(shù)數(shù)Set?查看其他參參數(shù)的設(shè)置,,改為自己所所需要的設(shè)置置。如:setmaxtree=10000increase=noautoclose=yes;分析…(建樹二)5.確定搜索方法法(對于距離離法不適用))窮盡法:alltrees分支跳跳躍查查找::bandb啟發(fā)式式搜索索:hsearch其他::puzzle(只在在likelihood時有效效)…分析…(建樹樹三))6.開始搜搜索樹樹之前前(設(shè)設(shè)置各各個建建樹方方法的的參數(shù)數(shù))距離法法:dset如:dsetdistance=tamneinegbrlen=allow最大簡簡約法法:pset如psetcollapse=nogapmode=newstate最大似似然法法:lset如:lsetnst=6clock=yes分析…(建樹樹四))7.再次確確認參參數(shù)是否要要設(shè)置置外圍圍群((outgroup)?如outgroup1,2;或者outgrouptaxa_set;其他參參數(shù)??分析…(建樹樹五))7.開始搜搜索樹樹距離法法:NJ,UPGMA最大簡簡約法法,最最大似似然法法Hsearch?參數(shù)數(shù)是否否要更更改??如:hsearchandseq=randomswap=spr分析…(建樹樹六))8.進化樹樹的評評估選擇評評估方方法??Bootstrap(自展展法))用的最最多,,是對進進化樹樹重新新取樣樣的評評估方方法,,可以以對距距離法法,簡簡約法法,似似然法法以及及衍生生出的的任何何其他他方法法構(gòu)建建的進進化樹樹進行行評估估。其其分析析結(jié)果果是一一組數(shù)數(shù)字,,這個個數(shù)字字描述述了進進化樹樹進化化分支支的支支持比比例,,也就就是進進化樹樹分支支的穩(wěn)穩(wěn)健性性。分析…(樹評評估一一)分析…(樹評評估二二)未經(jīng)過過bootstrap的樹Bootstrap后的樹樹BOOTSTRAP[options][/heuristic-search-options|branch-and-bound-search-options];使用分分支限限制或或者是是啟發(fā)發(fā)式搜搜索的的方法法進行行bootstrap分析。。參數(shù)::?BSEED=integer-value隨機數(shù)數(shù)種子子。?NREPS=integer-valuebootstrap重復(fù)的的次數(shù)數(shù),默默認值值為100。?SEARCH=HEURISTIC|BANDB|FASTSTEP|NJ|UPGMA搜索方方式?CONLEVEL=integer-valuebootstrap重復(fù)次次數(shù)的的最低低比率率,默默認為為50。?KEEPALL=YES|NO?WTS=IGNORE|SIMPLE|REPEATCNT|PROPORTIONAL?NCHAR=CURRENT|number-of-characters每次重重復(fù)采采樣的的數(shù)目目。?GRPFREQ=YES|NO顯示bootstrap分割頻頻率?TREEFILE=bootstrap-tree-file-name樹的文文件?FORMAT=NEXUS|ALTNEXUS|FREQPARS|PHYLIP|HENNIG?BRLENS=YES|NO分支的的長度度?*REPLACE=YES|NO?CUTOFFPCT=integer-value定義顯顯示的的最低低bootstrap分割頻頻率。。Examplebootstrapnreps=200treefile=boot.tresearch=heuristic/addseq=random;分析…(樹評評估三三)PAUP*中的bootstrap命令對折分分析((jackknife)跟bootstrap類似,,只是是在對對原始始數(shù)據(jù)據(jù)取樣樣的時時候不不會取取重復(fù)復(fù)的數(shù)數(shù)據(jù)位位點。。因為為它重重復(fù)取取樣的的時候候是在在原始始數(shù)據(jù)據(jù)中除除去一一個或或者多多個比比對位位點。。對折分分析得得出的的結(jié)果果和bootstrap是一樣樣的。。命令和和參數(shù)數(shù)都類類似,,用的的比bootstrap少很多多。分析…(樹評評估四四)JACKKNIFE[options][/heuristic-search-options|branchand-bound-search-options];對折分分析?PCTDELETE=real-value每個個對對折折分分析析循循環(huán)環(huán)中中刪刪除除的的dataset百分分?jǐn)?shù)數(shù)?JSEED=integer-value隨機機數(shù)數(shù)種種子子?NREPS=integer-value對折折循循環(huán)環(huán)次次數(shù)數(shù)?SEARCH=HEURISTIC|BANDB|FASTSTEP|NJ|UPGMA樹的的搜搜索索方方法法((NJ和UPGMA僅在在最最優(yōu)優(yōu)規(guī)規(guī)則為為distance時才才可可用用))?RESAMPLE=NORMAL|JAC?CONLEVEL=integer-valueboostrap中出出現(xiàn)現(xiàn)的的最最小小比比例例((最最為為保保留留group),,默默認認為為50,即即50%?KEEPALL=YES|NO低于于conlevel的樹樹,,若若與與一一致致樹樹兼兼容容,,也也保保留留?WTS=IGNORE|SIMPLE|REPEATCNT|PROPORTIONAL?GRPFREQ=YES|NO顯示示對對折折分分區(qū)區(qū)頻頻率率?TREEFILE=tree-file-name?FORMAT=NEXUS|ALTNEXUS|FREQPARS|PHYLIP|HENNIG?*REPLACE=YES|NO?CUTOFFPCT=integer-value對折折頻頻率率表表中中顯顯示示的的最最小小頻頻率率。。ExampleJACKKNIFEnre

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論