Mrbayes中文使用說明步驟_第1頁
Mrbayes中文使用說明步驟_第2頁
Mrbayes中文使用說明步驟_第3頁
Mrbayes中文使用說明步驟_第4頁
Mrbayes中文使用說明步驟_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、< >內為需要輸入的內容,但不包括括號。所有命令都需要在MrBayes >的提示下才能輸入。文件格式:文件輸入,輸入格式為Nexus fileASCII,a simple text file,如圖:或者還有其他信息:interleave=yes 代表數據矩陣為交叉序列interleaved sequences nexus文件可由MacClade或者Mesquite生成。但Mrbayes并不支持the full Nexus standard。同時,Mrbayes象其它許多系統(tǒng)軟件一樣允許模糊特點,如:如果一個特點有兩個狀態(tài)2、3,可以表示為:(23),(2,3),23或者2,3

2、。但除了DNAA, C, G, T, R, Y, M, K,S, W, H, B, V, D, N、RNAA, C, G, U, R, Y, M, K, S, W, H, B, V, D, N、Protein A, R, N, D, C, Q, E, G, H, I, L, K, M, F, P, S, T, W, Y, V, X、二進制數據0, 1、標準數據形態(tài)學數據0, 1, 2, 3, 4, 5, 6, 5, 7, 8, 9外,并不支持其他數據或者符號形式。執(zhí)行文件:execute <filename>或縮寫exe <filename>,注意:文件必須在程序所在的

3、文件夾或者指明文件具體路徑,文件名中不能含有空格,如果執(zhí)行成功,執(zhí)行窗口會自動輸出文件的簡單信息。選定模型:通常至少需要兩個命令,lset和prset,lset用于定義模型的結構,prset用于定義模型參數的先驗概率分布。在進行分析之前可以執(zhí)行showmodel命令檢查當前矩陣模型的設置?;蛘邎?zhí)行help lset檢查默認設置如圖:略Nucmodel用于指定DNA模型的一般類型。我們通常選取標準的核苷酸替代模型nucleotide substitution model,即默認選項4by4。另外,Doublet選項用于paired stem regions of ribosomal DNA的分析

4、,Codon選項用于DNA sequence in terms of its codons的分析。替代模型的一般結構一般由Nst設置決定。默認狀態(tài)下,所有的置換比率相同,對應于F81模型JC model。一般我們選用GTR模型,即nst=6。Code設置只有在DNA模型設置為codon的情況下才使用。Ploidy設置也與我們無關。Rates通常設置為invgamma (gamma-shaped rate variation with a proportion of invariable sites),Ngammacat(the number of discrete categories use

5、d to approximate the gamma distribution)一般采用默認選項4。通常這個設置已經足夠,增加該選項設置的數量可能會增加似然計算的精確性,但所花時間也成比例增加,大多數情況下,由增加該數值對結果的影響可以忽略不計。余下的選項中,只有Covarion和 Parsmodel與單核苷酸模型相關,而我們既不會采用parsimony model,也不會采用the covariotide model,故保留默認狀態(tài)。在對矩陣作了以上修改后,重新輸入help lset命令,可以查看變化后的設置。設置先驗參數prior:現在可以為模型設置先驗參數了。模型有6種類型的參數:the

6、 topology, the branch lengths, the four stationary frequencies of the nucleotides, the six different nucleotide substitution rates, the proportion of invariable sites, and the shape parameter of the gamma distribution of rate variation.默認參數在大多數分析中都已足夠,通常不許修改,如需立即使用,這部分可以跳過。通過輸入help prset可以獲得模型的各參數默認

7、設置列表:略,我們只對Revmatpr (for the six substitution rates of the GTR rate matrix), Statefreqpr (for the stationary nucleotide frequencies of the GTR rate matrix), Shapepr (for the shape parameter of the gamma distribution of rate variation), Pinvarpr (for the proportion of invariable sites), Topologypr (f

8、or the topology), Brlenspr (for the branch lengths) 這幾項設置作簡單介紹。Revmatpr and Statefreqpr的默認的先驗概率密度prior probability density都是a flat Dirichlet () 。有時可能需要把Statefreqpr設置為equal,比方在JC and SYM模型下,命令prset statefreqpr=fixed(equal)。如果我們要對默認的statefreqpr的flat Dirichlet prior狀態(tài)加以強調,即equal nucleotide frequencies。

9、可以輸入命令prset statefreqpr= Dirichlet(10,10,10,10),或者更甚的強調prset statefreqpr=Dirichlet(100,100,100,100)。如果修改了該選項后想改回來,輸入prset statefreqpr=Dirichlet(1,1,1,1)或者prsst= Dir(1,1,1,1)。Shapepr參數定義the prior for the (shape) parameter of the gamma distribution of rate variation.Pinvarpr參數定義the prior for the propo

10、rtion of invariable sites。Topologypr參數默認設置uniform puts equal probability on all distinct, fully resolved topologies.The alternative is to constrain some nodes in the tree to always be present but we will not attempt that in this analysis.Brlenspr參數可以設置為unconstrained或者clock-constrained。默認為unconstrain

11、ed,對于沒有分子鐘的樹,the branch length prior可以設置為指數的exponential或者均一的uniform,默認為指數的,參數為10.0,對大多分析都合適。可以在分析前輸入showmodel命令檢查模型的設置。分析及設置:由mcmc命令設置參數并開始分析。在設置前可以輸入help mcmc命令查看默認設置。Seed是隨機數產生器隨機輸出的一個種子數值。Swapseed是單獨的用于產生隨機交換序列the chain swapping sequence的隨機數產生器。除非特別指定,這兩個值由系統(tǒng)時鐘生成。Ngennumber of generations設置分析要跑的代

12、數。通??梢韵仍O置較少的代數以確認分析的各項設置正常,并可以估計一個較長的分析所要花的時間和代數。如果要設置ngen值但不想立即開始分析,可以使用mcmcp命令,如mcmcp ngen=10000。默認狀態(tài)下,bayes會同時運行兩個(Nruns = 2)完全獨立的但由不同的隨機樹開始的分析。一般采取默認設置。檢查Mcmcdiagn 參數是否設置為yes,Diagnfreq 是否設置為一個合適的值,如默認的每第1000代可以更改。這樣bayes會在每第1000代計算各種運行分析的診斷,并把它們保存在一個<filename>.mcmc的文件中。最重要的診斷,不同分析中樹取樣the t

13、ree samples的相似性的衡量,也會在每1000代輸出到屏幕上。每一次診斷完成,一個固定數量(burnin)或者比例(burninfrac)的樣品會被丟棄。Relburnin參數定義是使用固定數量(relburnin=no)還是百分比(relburnin=yes)。默認狀態(tài)為(relburnin=yes and ),即每個診斷完成,25的樣品被丟棄。默認狀態(tài)下,bayes會使用Metropolis coupling提高the MCMC sampling of the target distribution。Swapfreq, Nswaps, Nchains和Temp四個參數一起控制Met

14、ropolis coupling行為。Nchains設置為1,不使用heating。設置為n,n-1個熱鏈heated chains被使用。默認n4,表示bayes會使用3個熱鏈和1個"cold" chain。根據經驗,heating對于大于50個類群序列的分析是很重要的。增加熱鏈數量對于分析大的困難的數據集可能有幫助。但分析時間也會隨著鏈的增加成比例增加。MPI版本的程序要好些,時間影響較小。Bayes使用一種增值的熱方案an incremental heating scheme,該方案下,通過增加其后驗概率,鏈i被heated到the power 1/ (1 + i),

15、其中是由Temp參數控制。Heating的作用是保持后驗概率平穩(wěn)flatten out the posterior probability,以便熱鏈可以輕松找到后驗概率中的峰isolated peaks,幫助冷鏈cold chain快速通過這些峰。每第Swapfreq代,會從兩條鏈中隨機抽取并交換它們的狀態(tài)an attempt is made to swap their states。默認參數對大多數分析已足夠,但如果你采用了不止3個熱鏈,你可以增加交換數量(Nswaps) number of swaps ,默認設置為每次鏈停交換一次that are tried each time the c

16、hain stops for swapping。Samplefreq定義對鏈取樣的頻率。默認狀態(tài)下,每第100代,對鏈取樣一次。如果分析量較小,我們也許想盡快使其收斂,可設置為每10代取樣一次。改變該參數mcmcp samplefreq=10. 每次對鏈取樣的參數會被保存在文件中。替代模型參數會保存在filename.p文件中,每個獨立的分析有各自的參數文件filename和filename。拓撲和枝長被保存在filename .t文件中,即filename和filename.中。Printfreq參數定義鏈的狀態(tài)輸出到屏幕上的頻率。默認為每100代輸出一次。默認狀態(tài)下,bayes自動把枝長保

17、存在樹文件中filename.t。利用Startingtree命令,可以自定義起始樹,默認狀態(tài)下是隨機選擇起始樹。運行分析:用于分析的各項參數都設置好后mcmcp,就可以開始分析了。輸入mcmc命令,窗口會顯示用于本次分析的模型和后驗概率的一些設置情況。The proposal probabilities可以用props命令進行修改,但最好默認,不適當的修改可能使分析失敗。然后分析就開始運行,窗口會輸出每100代鏈的狀態(tài)信息。其中第1欄為代數,25為其中一個分析的4個鏈的log likelihood values,中括號為冷鏈。如果Metropolis coupling運行良好的話,冷鏈會不斷

18、變動位置,表示冷鏈成功的和熱鏈交換了位置。如果冷鏈停滯不動,則Metropolis coupling運行效率低或無,需要延長分析時間或者將熱冷鏈間的溫度差值temperature difference降低。最后一欄為運行剩余時間,在運行初始,該值可能偏大,逐漸平穩(wěn)而代表真實所剩余時間。停止分析:當要求的代數已經運行完畢,窗口會提示詢問是否繼續(xù)運行,如果答復yes,會要求輸入繼續(xù)運行的代數。在答復之前,我們一般要先檢查the average standard deviation of split frequencies的值,該值代表兩個獨立分析當前的相似性程度,越接近0越好。雖然我們推薦聚斂診斷

19、convergence diagnostic,比方上面的分裂頻率標準偏差,來決定運行時間,但其實有更簡單但可能不是如此有效的方法來決定分析的停止與否。最簡單的是檢查冷鏈的the log likelihood values,在分析初始,該值變化較大,當該值逐漸平穩(wěn)而不變化,而且兩個獨立的分析中的該值相等或幾乎相等時,可以停止分析,但這個方法不如聚斂診斷精確。總結樣品替代模型參數Summarizing Samples of Substitution Model Parameters:在運行過程中,每samplefreq 代的Samples of Substitution Model Paramet

20、ers已經被寫入filename.p文件中,如圖:方括號中第一個數字,是一個讓你可以知道這個取樣來源的隨機生成的ID號,第2行為標題,從左到右依次為:(1)代數 the generation number (Gen); (2)冷鏈對數似然值? the log likelihood of the cold chain (LnL); (3)樹長 the total tree length (the sum of all branch lengths, TL); (4)6個GTR比率參數the six GTR rate parameters (r(A<->C), r(A<->

21、G) etc); (5)4個核苷酸發(fā)生頻率 the four stationary nucleotide frequencies (pi(A), pi(C) etc); (6) 比率變化伽馬分布的形狀參數the shape parameter of the gamma distribution of rate variation (alpha); (7)不變位點的比例 the proportion of invariable sites (pinvar). 如果你的數據集使用了一個不同的模型,文件內容也會有所不同。Sump命令用于總結取樣參數值summarize the sampled par

22、ameter values,如sump burnin=250,默認狀態(tài)下,該命令總結filename.p文件中最近形成的25取樣參數信息。Sump命令會首先生成一個代數和the log probability of the data (the log likelihood values)的關系圖。如果分析已足夠的話,圖看起來很平穩(wěn),沒有上升或者下降的趨勢:如果有任何上升或者下降的趨勢,可能需要延長分析時間以獲得充分的后掩蓋率分布取樣。在下面,有一個總結取樣參數值的表,列舉了各參數的平均值、variance、95%可靠間區(qū)的最高最低值、中間值和PSRFthe Potential Scale Reduction Factor。各參數就是filename.p中的各參數。PSRF也是一種聚斂診斷方式,如果分析較徹底,該值應接近1.0。總結樣品樹和枝長Summarizing Samples of Trees and Branch Lengths樹和枝長輸出到filename.t文件中,為nexus格式的樹文件:總結樹和枝長信息,輸入命令sumt,如sumt burnin=250。Sumt命令會輸出summary statistics for the taxon bipartitions,一個具有枝長可信度clade credibility (p

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論