Mrbayes中文使用說明步驟_第1頁
Mrbayes中文使用說明步驟_第2頁
Mrbayes中文使用說明步驟_第3頁
Mrbayes中文使用說明步驟_第4頁
Mrbayes中文使用說明步驟_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、< >內(nèi)為需要輸入的內(nèi)容,但不包括括號。所有命令都需要在MrBayes >的提示下才能輸入。文件格式:文件輸入,輸入格式為Nexus fileASCII,a simple text file,如圖:或者還有其他信息:interleave=yes 代表數(shù)據(jù)矩陣為交叉序列interleaved sequences nexus文件可由MacClade或者Mesquite生成。但Mrbayes并不支持the full Nexus standard。同時,Mrbayes象其它許多系統(tǒng)軟件一樣允許模糊特點,如:如果一個特點有兩個狀態(tài)2、3,可以表示為:(23),(2,3),23或者2,3

2、。但除了DNAA, C, G, T, R, Y, M, K,S, W, H, B, V, D, N、RNAA, C, G, U, R, Y, M, K, S, W, H, B, V, D, N、Protein A, R, N, D, C, Q, E, G, H, I, L, K, M, F, P, S, T, W, Y, V, X、二進制數(shù)據(jù)0, 1、標(biāo)準(zhǔn)數(shù)據(jù)形態(tài)學(xué)數(shù)據(jù)0, 1, 2, 3, 4, 5, 6, 5, 7, 8, 9外,并不支持其他數(shù)據(jù)或者符號形式。執(zhí)行文件:execute <filename>或縮寫exe <filename>,注意:文件必須在程序所在的

3、文件夾或者指明文件具體路徑,文件名中不能含有空格,如果執(zhí)行成功,執(zhí)行窗口會自動輸出文件的簡單信息。選定模型:通常至少需要兩個命令,lset和prset,lset用于定義模型的結(jié)構(gòu),prset用于定義模型參數(shù)的先驗概率分布。在進行分析之前可以執(zhí)行showmodel命令檢查當(dāng)前矩陣模型的設(shè)置?;蛘邎?zhí)行help lset檢查默認(rèn)設(shè)置如圖:略Nucmodel用于指定DNA模型的一般類型。我們通常選取標(biāo)準(zhǔn)的核苷酸替代模型nucleotide substitution model,即默認(rèn)選項4by4。另外,Doublet選項用于paired stem regions of ribosomal DNA的分析

4、,Codon選項用于DNA sequence in terms of its codons的分析。替代模型的一般結(jié)構(gòu)一般由Nst設(shè)置決定。默認(rèn)狀態(tài)下,所有的置換比率相同,對應(yīng)于F81模型JC model。一般我們選用GTR模型,即nst=6。Code設(shè)置只有在DNA模型設(shè)置為codon的情況下才使用。Ploidy設(shè)置也與我們無關(guān)。Rates通常設(shè)置為invgamma (gamma-shaped rate variation with a proportion of invariable sites),Ngammacat(the number of discrete categories use

5、d to approximate the gamma distribution)一般采用默認(rèn)選項4。通常這個設(shè)置已經(jīng)足夠,增加該選項設(shè)置的數(shù)量可能會增加似然計算的精確性,但所花時間也成比例增加,大多數(shù)情況下,由增加該數(shù)值對結(jié)果的影響可以忽略不計。余下的選項中,只有Covarion和 Parsmodel與單核苷酸模型相關(guān),而我們既不會采用parsimony model,也不會采用the covariotide model,故保留默認(rèn)狀態(tài)。在對矩陣作了以上修改后,重新輸入help lset命令,可以查看變化后的設(shè)置。設(shè)置先驗參數(shù)prior:現(xiàn)在可以為模型設(shè)置先驗參數(shù)了。模型有6種類型的參數(shù):the

6、 topology, the branch lengths, the four stationary frequencies of the nucleotides, the six different nucleotide substitution rates, the proportion of invariable sites, and the shape parameter of the gamma distribution of rate variation.默認(rèn)參數(shù)在大多數(shù)分析中都已足夠,通常不許修改,如需立即使用,這部分可以跳過。通過輸入help prset可以獲得模型的各參數(shù)默認(rèn)

7、設(shè)置列表:略,我們只對Revmatpr (for the six substitution rates of the GTR rate matrix), Statefreqpr (for the stationary nucleotide frequencies of the GTR rate matrix), Shapepr (for the shape parameter of the gamma distribution of rate variation), Pinvarpr (for the proportion of invariable sites), Topologypr (f

8、or the topology), Brlenspr (for the branch lengths) 這幾項設(shè)置作簡單介紹。Revmatpr and Statefreqpr的默認(rèn)的先驗概率密度prior probability density都是a flat Dirichlet () 。有時可能需要把Statefreqpr設(shè)置為equal,比方在JC and SYM模型下,命令prset statefreqpr=fixed(equal)。如果我們要對默認(rèn)的statefreqpr的flat Dirichlet prior狀態(tài)加以強調(diào),即equal nucleotide frequencies。

9、可以輸入命令prset statefreqpr= Dirichlet(10,10,10,10),或者更甚的強調(diào)prset statefreqpr=Dirichlet(100,100,100,100)。如果修改了該選項后想改回來,輸入prset statefreqpr=Dirichlet(1,1,1,1)或者prsst= Dir(1,1,1,1)。Shapepr參數(shù)定義the prior for the (shape) parameter of the gamma distribution of rate variation.Pinvarpr參數(shù)定義the prior for the propo

10、rtion of invariable sites。Topologypr參數(shù)默認(rèn)設(shè)置uniform puts equal probability on all distinct, fully resolved topologies.The alternative is to constrain some nodes in the tree to always be present but we will not attempt that in this analysis.Brlenspr參數(shù)可以設(shè)置為unconstrained或者clock-constrained。默認(rèn)為unconstrain

11、ed,對于沒有分子鐘的樹,the branch length prior可以設(shè)置為指數(shù)的exponential或者均一的uniform,默認(rèn)為指數(shù)的,參數(shù)為10.0,對大多分析都合適??梢栽诜治銮拜斎雜howmodel命令檢查模型的設(shè)置。分析及設(shè)置:由mcmc命令設(shè)置參數(shù)并開始分析。在設(shè)置前可以輸入help mcmc命令查看默認(rèn)設(shè)置。Seed是隨機數(shù)產(chǎn)生器隨機輸出的一個種子數(shù)值。Swapseed是單獨的用于產(chǎn)生隨機交換序列the chain swapping sequence的隨機數(shù)產(chǎn)生器。除非特別指定,這兩個值由系統(tǒng)時鐘生成。Ngennumber of generations設(shè)置分析要跑的代

12、數(shù)。通常可以先設(shè)置較少的代數(shù)以確認(rèn)分析的各項設(shè)置正常,并可以估計一個較長的分析所要花的時間和代數(shù)。如果要設(shè)置ngen值但不想立即開始分析,可以使用mcmcp命令,如mcmcp ngen=10000。默認(rèn)狀態(tài)下,bayes會同時運行兩個(Nruns = 2)完全獨立的但由不同的隨機樹開始的分析。一般采取默認(rèn)設(shè)置。檢查Mcmcdiagn 參數(shù)是否設(shè)置為yes,Diagnfreq 是否設(shè)置為一個合適的值,如默認(rèn)的每第1000代可以更改。這樣bayes會在每第1000代計算各種運行分析的診斷,并把它們保存在一個<filename>.mcmc的文件中。最重要的診斷,不同分析中樹取樣the t

13、ree samples的相似性的衡量,也會在每1000代輸出到屏幕上。每一次診斷完成,一個固定數(shù)量(burnin)或者比例(burninfrac)的樣品會被丟棄。Relburnin參數(shù)定義是使用固定數(shù)量(relburnin=no)還是百分比(relburnin=yes)。默認(rèn)狀態(tài)為(relburnin=yes and ),即每個診斷完成,25的樣品被丟棄。默認(rèn)狀態(tài)下,bayes會使用Metropolis coupling提高the MCMC sampling of the target distribution。Swapfreq, Nswaps, Nchains和Temp四個參數(shù)一起控制Met

14、ropolis coupling行為。Nchains設(shè)置為1,不使用heating。設(shè)置為n,n-1個熱鏈heated chains被使用。默認(rèn)n4,表示bayes會使用3個熱鏈和1個"cold" chain。根據(jù)經(jīng)驗,heating對于大于50個類群序列的分析是很重要的。增加熱鏈數(shù)量對于分析大的困難的數(shù)據(jù)集可能有幫助。但分析時間也會隨著鏈的增加成比例增加。MPI版本的程序要好些,時間影響較小。Bayes使用一種增值的熱方案an incremental heating scheme,該方案下,通過增加其后驗概率,鏈i被heated到the power 1/ (1 + i),

15、其中是由Temp參數(shù)控制。Heating的作用是保持后驗概率平穩(wěn)flatten out the posterior probability,以便熱鏈可以輕松找到后驗概率中的峰isolated peaks,幫助冷鏈cold chain快速通過這些峰。每第Swapfreq代,會從兩條鏈中隨機抽取并交換它們的狀態(tài)an attempt is made to swap their states。默認(rèn)參數(shù)對大多數(shù)分析已足夠,但如果你采用了不止3個熱鏈,你可以增加交換數(shù)量(Nswaps) number of swaps ,默認(rèn)設(shè)置為每次鏈停交換一次that are tried each time the c

16、hain stops for swapping。Samplefreq定義對鏈取樣的頻率。默認(rèn)狀態(tài)下,每第100代,對鏈取樣一次。如果分析量較小,我們也許想盡快使其收斂,可設(shè)置為每10代取樣一次。改變該參數(shù)mcmcp samplefreq=10. 每次對鏈取樣的參數(shù)會被保存在文件中。替代模型參數(shù)會保存在filename.p文件中,每個獨立的分析有各自的參數(shù)文件filename和filename。拓撲和枝長被保存在filename .t文件中,即filename和filename.中。Printfreq參數(shù)定義鏈的狀態(tài)輸出到屏幕上的頻率。默認(rèn)為每100代輸出一次。默認(rèn)狀態(tài)下,bayes自動把枝長保

17、存在樹文件中filename.t。利用Startingtree命令,可以自定義起始樹,默認(rèn)狀態(tài)下是隨機選擇起始樹。運行分析:用于分析的各項參數(shù)都設(shè)置好后mcmcp,就可以開始分析了。輸入mcmc命令,窗口會顯示用于本次分析的模型和后驗概率的一些設(shè)置情況。The proposal probabilities可以用props命令進行修改,但最好默認(rèn),不適當(dāng)?shù)男薷目赡苁狗治鍪?。然后分析就開始運行,窗口會輸出每100代鏈的狀態(tài)信息。其中第1欄為代數(shù),25為其中一個分析的4個鏈的log likelihood values,中括號為冷鏈。如果Metropolis coupling運行良好的話,冷鏈會不斷

18、變動位置,表示冷鏈成功的和熱鏈交換了位置。如果冷鏈停滯不動,則Metropolis coupling運行效率低或無,需要延長分析時間或者將熱冷鏈間的溫度差值temperature difference降低。最后一欄為運行剩余時間,在運行初始,該值可能偏大,逐漸平穩(wěn)而代表真實所剩余時間。停止分析:當(dāng)要求的代數(shù)已經(jīng)運行完畢,窗口會提示詢問是否繼續(xù)運行,如果答復(fù)yes,會要求輸入繼續(xù)運行的代數(shù)。在答復(fù)之前,我們一般要先檢查the average standard deviation of split frequencies的值,該值代表兩個獨立分析當(dāng)前的相似性程度,越接近0越好。雖然我們推薦聚斂診斷

19、convergence diagnostic,比方上面的分裂頻率標(biāo)準(zhǔn)偏差,來決定運行時間,但其實有更簡單但可能不是如此有效的方法來決定分析的停止與否。最簡單的是檢查冷鏈的the log likelihood values,在分析初始,該值變化較大,當(dāng)該值逐漸平穩(wěn)而不變化,而且兩個獨立的分析中的該值相等或幾乎相等時,可以停止分析,但這個方法不如聚斂診斷精確??偨Y(jié)樣品替代模型參數(shù)Summarizing Samples of Substitution Model Parameters:在運行過程中,每samplefreq 代的Samples of Substitution Model Paramet

20、ers已經(jīng)被寫入filename.p文件中,如圖:方括號中第一個數(shù)字,是一個讓你可以知道這個取樣來源的隨機生成的ID號,第2行為標(biāo)題,從左到右依次為:(1)代數(shù) the generation number (Gen); (2)冷鏈對數(shù)似然值? the log likelihood of the cold chain (LnL); (3)樹長 the total tree length (the sum of all branch lengths, TL); (4)6個GTR比率參數(shù)the six GTR rate parameters (r(A<->C), r(A<->

21、G) etc); (5)4個核苷酸發(fā)生頻率 the four stationary nucleotide frequencies (pi(A), pi(C) etc); (6) 比率變化伽馬分布的形狀參數(shù)the shape parameter of the gamma distribution of rate variation (alpha); (7)不變位點的比例 the proportion of invariable sites (pinvar). 如果你的數(shù)據(jù)集使用了一個不同的模型,文件內(nèi)容也會有所不同。Sump命令用于總結(jié)取樣參數(shù)值summarize the sampled par

22、ameter values,如sump burnin=250,默認(rèn)狀態(tài)下,該命令總結(jié)filename.p文件中最近形成的25取樣參數(shù)信息。Sump命令會首先生成一個代數(shù)和the log probability of the data (the log likelihood values)的關(guān)系圖。如果分析已足夠的話,圖看起來很平穩(wěn),沒有上升或者下降的趨勢:如果有任何上升或者下降的趨勢,可能需要延長分析時間以獲得充分的后掩蓋率分布取樣。在下面,有一個總結(jié)取樣參數(shù)值的表,列舉了各參數(shù)的平均值、variance、95%可靠間區(qū)的最高最低值、中間值和PSRFthe Potential Scale Reduction Factor。各參數(shù)就是filename.p中的各參數(shù)。PSRF也是一種聚斂診斷方式,如果分析較徹底,該值應(yīng)接近1.0??偨Y(jié)樣品樹和枝長Summarizing Samples of Trees and Branch Lengths樹和枝長輸出到filename.t文件中,為nexus格式的樹文件:總結(jié)樹和枝長信息,輸入命令sumt,如sumt burnin=250。Sumt命令會輸出summary statistics for the taxon bipartitions,一個具有枝長可信度clade credibility (p

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論