高通量數(shù)據(jù)處理的一些經(jīng)驗和建議_第1頁
高通量數(shù)據(jù)處理的一些經(jīng)驗和建議_第2頁
高通量數(shù)據(jù)處理的一些經(jīng)驗和建議_第3頁
高通量數(shù)據(jù)處理的一些經(jīng)驗和建議_第4頁
高通量數(shù)據(jù)處理的一些經(jīng)驗和建議_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、高通量數(shù)據(jù)處理的一些經(jīng)驗和建議高通量數(shù)據(jù)處理的一些經(jīng)驗和建議最近一年時間里收到很多同學(xué)和朋友關(guān)于454數(shù)據(jù)處理的詢問,通過QQ,微信,人人網(wǎng)和郵件等各種途徑,當然不少也是面對面的討論。這些同學(xué)和朋友包括同組的,跨組的,同所的,跨所的,其他大學(xué)的,來自北京的、南京的、廣州的、西安的,甚至也有國外的中國朋友。有些朋友我素未謀面,也不知長相如何,不知男女。有時候同一天能收到五六份郵件,問題之五花八門,有時已經(jīng)超越了我所能夠解答的范圍。這些現(xiàn)象也反映了當前生物信息學(xué)的急劇變革,第二代測序技術(shù)就像Iphone問世一些,徹底席卷和重新定義了當前生態(tài)學(xué)研究的方法和手段。而幾年前費用昂貴的第二代測序如今已“舊

2、時王謝堂前燕,飛入尋常百姓家”,于是乎大潮裹挾之下的碩士生博士生們都想出來耍耍,扔個十幾萬塊錢,希望能夠輕松的收獲幾篇文章??蒲姓撐牡陌l(fā)表講究“獵奇性”,大家都喜歡看到新奇的方法和漂亮的圖表。但我認為這其實也是當今科研界的弊端之一,講究創(chuàng)新和手段的先進,而忽視了研究的重要性。以微生物生態(tài)學(xué)的旗艦雜志ISMEJ為例,最近一年多發(fā)表的學(xué)術(shù)論文里,第二代測序技術(shù)已經(jīng)是尋常方法,所謂第三代的單細胞測序技術(shù)也開始出現(xiàn)。研究生物信息學(xué)的來自美國科羅拉多的Rob Knight能夠作為ISMEJ的高級主編,方法對于微生物生態(tài)學(xué)研究的重要性可見一斑。前幾天讀到阿伯丁大學(xué)的James Prosser教授在Natu

3、re上發(fā)表的一篇觀點文章“Think before you sequence“,在這里面他講到,第二代測序只不過是一個工具而已,我們的研究依舊要從扎扎實實的假設(shè)出發(fā),設(shè)計實驗來解決問題和驗證假設(shè)。高通量測序并不能彌補實驗設(shè)計的缺陷。我在閱讀文章的過程中也發(fā)現(xiàn),設(shè)計合理和完整的實驗,即使使用傳統(tǒng)的Sanger測序技術(shù),依舊能夠說明和解決問題,并能夠發(fā)表到高檔次期刊上。而如果使用第二代測序技術(shù),但是數(shù)據(jù)處理有問題,數(shù)據(jù)質(zhì)量控制不好,文章也很難得到發(fā)表,相當于花錢買罪受。我從2011年秋天開始學(xué)習(xí)454數(shù)據(jù)的處理,在學(xué)習(xí)的起始階段,能夠和師弟袁超磊一起探討和交流,并且?guī)缀蹰喿x了ISMEJ上所有與第二

4、代測序技術(shù)有關(guān)的文章,所以能夠很快的上手。在此我也對師弟袁超磊表示正式的感謝,祝愿他在阿德雷德大學(xué)能吃上可口的飯菜。很多朋友的問題我未能一一解答,在此也表示歉意。我經(jīng)歷過學(xué)習(xí)454數(shù)據(jù)處理的漫長和痛苦的過程,我很清楚有時候一句話或者一段話很難解決所問的問題。去年我自己投出的文章經(jīng)歷了很多次的拒稿,十幾位審稿人和生物信息學(xué)家對數(shù)據(jù)處理提出了建議,現(xiàn)在經(jīng)過在悉尼和生物信息學(xué)專家的討論,我也能夠更加合理地看待數(shù)據(jù)處理的問題。摸著石頭過河的一些經(jīng)驗和建議,在這里進行分享,希望正在摸索和思考中的你,覺得并不孤單。1. Mothur和QIIME那個軟件更好?Mothur是美國密歇根大學(xué)的Patrick S

5、chloss在2009年開發(fā)的數(shù)據(jù)處理平臺,它的前身是Dothur軟件,相信大家都聽說過。這兩個軟件的發(fā)音分別為Mother和Daughter,是Dr Parick獻給他的妻子和女兒的。另一個被廣泛使用的數(shù)據(jù)處理平臺是QIIME,也是美國科羅拉多Rob Knight等人于2009年開發(fā)出來的。截至今天,Mothur的方法文獻已經(jīng)被引用1229次,而QIIME被引用574次。這說明Mothur比QIIME有更廣泛的群眾基礎(chǔ)。我剛開始學(xué)習(xí)使用的就是Mothur,我個人非常喜歡這個開源的數(shù)據(jù)處理平臺,基本能夠?qū)崿F(xiàn)我的所有數(shù)據(jù)處理目的。Mothur軟件無需安裝,在Windos, Linix,和MacO

6、S系統(tǒng)上都可以運行。我研究了Mothur每一個中間導(dǎo)出文件的格式和原理,所以我能夠?qū)⑦@些中間產(chǎn)生的文件導(dǎo)入其他軟件進行處理和做圖,比如R語言。很多人不喜歡Mothur,都是因為Mothur不能夠直接出圖,必須依賴于其他軟件。而這正式我所喜歡的原因,我現(xiàn)在也正在進一步學(xué)習(xí)R語言,R的做圖功能是非常強大的,其實大家平時看到文章上那些非常漂亮的圖,大都是R語言做出來的。所以,如果將Mothur和R結(jié)合,我認為是一個能正確處理數(shù)據(jù)并完美展現(xiàn)數(shù)據(jù)的途徑。除了羅氏454數(shù)據(jù)處理之外,Mothur現(xiàn)在也有了針對Illumina數(shù)據(jù)的處理方式,大家從Mothur的網(wǎng)頁上就可以讀到Dr. Patick寫的標準數(shù)

7、據(jù)處理流程?,F(xiàn)在QIIME攜蘋果電腦的時髦,也得到了很多人的青睞。這個軟件我本人沒有真正使用過,但是知道QIIME只能在MacOS和Linix系統(tǒng)上運行,當然也可以通過在Windos系統(tǒng)上安裝Virtual Box來運行。這個軟件出圖的效果比較好,很多人把直接出的圖用來發(fā)表文章。我所在的悉尼這邊的研究所的生物信息學(xué)專家也是用QIIME來處理數(shù)據(jù)。我就這個軟件問題和他討論了好多次。基本來說,兩個軟件都可以幫助我們實現(xiàn)正確的數(shù)據(jù)處理,并不存在哪個更好的問題,只有個人在使用上的喜好。我希望你無論使用那個軟件,都仔仔細細閱讀軟件網(wǎng)頁上的教程,并熟悉所有的命令。自己一一試試各個命令,合理組合命令,這樣才

8、會通過修改命令來正確處理自己的數(shù)據(jù)。這個過程沒人可以幫你,只有你自己能夠救贖自己。2. 數(shù)據(jù)處理難學(xué)嗎?這是一個我一直以來很想告訴所有人的問題。說實話,那兩個軟件都很好使用,有標準的處理流程在那里等著你,把所有數(shù)據(jù)處理下來絕對不超過十天時間。但是,為什么我們幾個月甚至一年都拿不下來數(shù)據(jù)處理?因為數(shù)據(jù)處理的難點不在于軟件的使用,而在于你對微生物生態(tài)學(xué)基本概念的了解。我認為我們需要在數(shù)據(jù)處理之前就應(yīng)該特別清楚的是1)多樣性的各種指標。數(shù)據(jù)條數(shù)的多少會直接影響多樣性的計算結(jié)果,它們之間是正相關(guān)關(guān)系。所以計算多樣性必須統(tǒng)一序列條數(shù)。而我們知道統(tǒng)一序列條數(shù)就會舍棄很多條數(shù)不足的樣品,這個取舍就涉及到很多

9、的經(jīng)驗問題,需要你閱讀很多的文獻來了解;2)多樣性的表征方式。我研究多樣性的時候,閱讀了很多相關(guān)的文獻,對Bray-Curtis指數(shù),UniFrac等都非常了解。選擇能夠最好表現(xiàn)你多樣性差異的指數(shù),需要花很多很多的汗水。3)多元統(tǒng)計方法。這個又是更大的難點了,Mothur不會告訴你,QIIME也不會告訴你。你只有去閱讀教材,閱讀文章,才能彌補這些缺陷。不然你連那些命令都讀不懂,還談什么數(shù)據(jù)處理,修改命令。4)文章的構(gòu)思。這又是更高一級的知識預(yù)儲備了。在你的數(shù)據(jù)處理之前,請閱讀所有高質(zhì)量期刊上的相關(guān)文章,至少需要預(yù)估計,你可以出哪些圖,做哪些分析。其實在數(shù)據(jù)處理的過程中已經(jīng)是你不斷驗證假設(shè)和推翻

10、假設(shè)的過程。希望你在數(shù)據(jù)處理之前踏踏實實地做好這些功課,不然你很難完美運行各個命令。另外,要仔細研究各個軟件的原理,做到人機合一的效果。因為有時候軟件并不能解決所有問題,比如在alignment的時候,有時候在部分區(qū)域比對效果不好,你需要使用合適的軟件打開這些中間文件,手動進行刪除,不然會影響后續(xù)的多樣性計算。所以,你需要把自己練成一臺機器。2010年我做過同位素超高速離心,盡管已經(jīng)有很多文獻可供參考,我當時還是研究了離心機的原理和等密度梯度離心的原理,所以自己就很清楚應(yīng)當如何優(yōu)化實驗條件,獲得最好的數(shù)據(jù)。3 細菌和古菌16S數(shù)據(jù)和功能基因數(shù)據(jù)處理的不同?如果你處理的是細菌16S數(shù)據(jù),那么恭喜

11、你,你應(yīng)該很容易完成數(shù)據(jù)處理,因為Mothur和QIIME都包含了細菌16S比對和分類的數(shù)據(jù)庫。因為細菌的研究已經(jīng)非常多,所以分類的效果也很好,未知的類別一般也很少。如果是古菌16S的話,RDP,Greengenes,SILVA等數(shù)據(jù)庫我都用過,分類效果都很差,但是不影響你的多樣性分析。因為古菌的純培養(yǎng)仍然很少,分類問題仍然是處于發(fā)展階段。你基本也可以順利按照標準流程完成數(shù)據(jù)處理。但是功能基因的話,就面臨很大很大的難題。如果想測序功能基因的同學(xué),一定要三思而后行,我自己在這方面進行了很多的嘗試,雖然知道處理的方式,但是解釋起來真的很難。就像我在上面所說的,如果你不了解Mothur和QIIME的

12、文件格式,基本架構(gòu),我很難告訴你怎么去實現(xiàn)自己的目的。所以大家也可以看到,現(xiàn)在發(fā)表的關(guān)于功能基因測序的文章很少很少。大家基本都是DIY,都是一些很熟悉生物信息學(xué)的國外實驗室發(fā)表的。希望你能認識到功能基因處理的難點1)第一步是比對alignment,一開始就做不了。因為沒有可供使用的alignment reference數(shù)據(jù)庫。我的經(jīng)驗是自己做一些,從NCBI上下載功能基因序列,然后自己通過MUSCLE或者ARB比對的很齊,然后作為參比序列;2)分類。這個更難,需要經(jīng)過alignment之后,分成不同的OTU,然后從每個OTU中選擇一個代表序列,通過BLAST進行分類。3)分OTU。對于細菌和古

13、菌16S而言,97%代表species水平,但是功能基因就完全不一樣。以氨氧化微生物研究為例,AOA的species-level OTU應(yīng)當是87%,而AOB應(yīng)當是80%,所以和16S數(shù)據(jù)完全不同。對于必須要做功能基因的同學(xué),我建議可以考慮基因芯片(microarray)的方法?,F(xiàn)在針對pmoA和amoA基因的基因芯片都已經(jīng)開發(fā)的非常完善,國際合作也不是難題。Microarray通過設(shè)計的探針合理解決了分類的問題,價格比454測序也便宜,數(shù)據(jù)處理簡單。所以我認為是一種更好的方式。以上所寫,難免有錯誤之處。我以分享知識為樂趣,也祝各位同學(xué)和朋友數(shù)據(jù)處理順利。Mothur 命令手冊-Mothur命

14、令中文解釋(一)Align.check這個命令使你計算16S rRNA基因序列中潛在的錯配堿基對數(shù)目。如果你對ARB(http:/www.arb-home.de/)的編輯窗口熟悉的話,這與計算,#,-和=這些符號的數(shù)目相同。用greengenes的二級結(jié)構(gòu)圖譜和esophagus dataset運行這個命令。要運行這個命令,你必須提供FASTA格式的序列文件。Align.seqs這個命令把用戶提供的FASTA格式的候選序列文件對齊到用戶提供的同樣格式的模板序列。通用的方法是:1.采用kmer searching( tree searching找到每個候選序列的最接近模板2.在候選序列文件和空位

15、模板序列之間進行堿基配對,采用Needleman-Wunsch,Gotoh,或者blastn算法規(guī)則。3.重新在候選和模板序列對之間插入間隔(空位),采用NAST算法,這樣候選序列就能與原始模板序列兼容。我們提供了一些16S和18S基因序列的數(shù)據(jù)庫,這些是與greengenes和SILVA隊列兼容的。然而,自定義的任何DNA序列的排列都可以用作模板,所以鼓勵用戶分享他們的排列供其他人使用。普遍來說,進行排列是很快的-我們能在3小時內(nèi)將超過186000個的全長序列排序到SILVA排列中,而且質(zhì)量像SINA aligner做的一樣好。另外,這個速率可以由多個處理器加倍。Amova分子方差分析(An

16、alysis of molecular variance)是一種傳統(tǒng)方差分析的非參數(shù)模擬。這種方法被廣泛應(yīng)用在種群遺傳學(xué)以檢測關(guān)于兩個種群的遺傳多樣性不是顯著不同于由這兩個種群的共同聯(lián)合導(dǎo)致的多樣性這樣一個假設(shè)。Anosim參考文獻:Clarke, K. R. (1993). Non-parametric multivariate analysis of changes in community structure. _Australian Journal of Ecology_ 18, 117-143. 群落結(jié)構(gòu)變化的非參數(shù)多元分析澳大利亞生態(tài)學(xué)報Bin.seqs這個命令輸出一個fasta格

17、式的文件,其中序列根據(jù)它們所屬的OTU進行排序。這樣的輸出也許對一個OTU生成特異性引物有幫助,用來對序列進行分類。Catchall這個命令使mothur與Linda Woodard,Sean Connolly和John Bunge開發(fā)的catchall程序連接。獲取更多信息,請參看/catchall/index.html。catchall的可執(zhí)行程序必須與你的mothur在同一個文件夾里。如果你是一個Mac或Linux用戶,你必須也安裝了mono,在catchall的網(wǎng)頁中有一個關(guān)于mono的鏈接。Chimera.bellerophon采用

18、Bellerophon方法生成一個挑選的優(yōu)先嵌合序列的得分列表。Chimera.ccode采用Ccode方法。對每個詞語,在查詢序列和參考序列之間對比距離的差異,以及參考序列與它們自己。Chimera.check采用chimeraCheck方法.注意:從RDP模型中,這個方法不能決定一個序列是否是嵌合的,但是讓你決定那些基于產(chǎn)生的IS值的序列。查看“查詢的序列的左邊到它的最近的匹配的距離+查詢的右邊到它最近的匹配的距離-整個查詢序列到它最近的匹配的距離”,通過多個窗口Chimera.perseus這個命令讀取并命名一個fasta文件,輸出潛在的嵌合序列。Chimera.pintail采用Pin

19、tall 方法。在不同的窗口中查詢一個序列,查看期望的差異與觀察到的差異之間的不同Chimera.seqs這個命令已經(jīng)被拆分為6個分離的命令。目前,mothur執(zhí)行六種方法以確定一個序列是不是嵌合的。如果有一個你喜歡看到的算法可以實施,請考慮一下或者貢獻給mothur項目,或者聯(lián)系開發(fā)者,我們將會考慮我們能做什么。chimera.bellerophonchimera.pintailchimera.checkchimera.ccodechimera.slayerchimera.uchimeChimera.slayer這個命令讀取一個fasta文件和參照文件,并輸出潛在的嵌合序列。原始算法的開發(fā)者

20、建議采用一個特殊的模版參照(例如,gold)。我們用silva參照文件提供silva-based 排列的數(shù)據(jù)庫。你將需要在blast/bin文件夾中有megablast和formatdb可執(zhí)行文件的拷貝,這里blast文件夾與mothur可執(zhí)行程序相鄰。megablast/formatdb的版本可以在這里/blast/executables/release/2.2.25/找到,或者它們就包含在mothur的程序版本中。Chimera.uchime這個命令讀取一個fasta文件和參考文件,并輸出潛在的嵌合序列。原始的uchime程序是由Rober

21、t C. Edgar編寫的,并且貢獻為公共所有。Chop.seqs這個命令讀取一個fasta文件,輸出一個.chop.fasta,包含著修剪的整理的序列。它可以用于排序的和未排序的序列。Classify.otu這個命令用來為一個OTU得到一個共有序列分類.Classify.seqs這個命令允許用戶使用多個不同的方法把他們的序列分配到他們選擇的分類提綱(輪廓)中。當前的方法包括采用一個k-nearest鄰近共有序列和Bayesian方法。分類提綱和參考序列可以在taxonomy outline(/wiki/Taxonomy_outline)的頁面中獲得。這

22、個命令需要你提供一個fasta格式的輸入文件和數(shù)據(jù)庫序列文件,還要有一個為了參考序列的分類文件。Classify.tree這個命令用來為一個進化樹的每個節(jié)點獲得一個共有序列。Clear.memory這個命令從內(nèi)存中刪除保存的參考數(shù)據(jù),你可以在已經(jīng)用以下命令(align.seqs, chimera.ccode, chimera.check, chimera.pintail, chimera.slayer和classify.seqs)之一使用過保存參數(shù)之后使用chear.memory. Clearcut這個讓mothur用戶在mothur內(nèi)部運行clearcut程序。chearcut程序是由Ida

23、ho大學(xué)的Initiative for Bioinformatics和Evolutionary Studies(IBEST)編寫。了解更多clearcut相關(guān)信息,參看Cluster一旦一個距離矩陣讀進mothur,cluster命令就能用來給OTUs分派序列。目前,mothur采用三個分簇方式。最近鄰:從OTU的最相似序列,一個OTU內(nèi)的每一個序列都最多x%的距離最遠鄰:一個OTU內(nèi)的所有序列與OTU內(nèi)的所有其它序列最多有X%的距離平均鄰近:這個方法介于另外兩個算法的中間水平如果您有一個算法,請考慮一下貢獻給mothur項目。Cluster.classic這個命令可用于把序列分配到OTUs.

24、它是cluster的dotur工具,目前mothur采用三個分簇方式。Cluster.fragments這個命令需要一個fasta格式的文件,也要提供一個命名的文件而且當一個序列被確定為一個更大的序列的一部分時,列出的與序列名相關(guān)的指明文件就會被合并。Cluster.split這個命令用來分配序列到OTUs并輸出一個.list, .rabund, .sabund文件.它把大的距離矩陣拆分為小的部分。Collect.shared這個命令給計算器生成一個收集曲線,描繪出不同群落間的相似性或它們的共有豐度。Collectors curves描繪隨著你樣本增加的個體,豐富度和多樣性的變化。如果Coll

25、ectors curves變得與x軸平行,你可以合理的確信你在采樣這個工作上做的很好,并且相信曲線上的最終值。否則,你需要繼續(xù)抽樣(采樣),mothur能為collectors curves生成數(shù)據(jù),就像sons做的那樣。當時sons將數(shù)據(jù)呈現(xiàn)在sons文件中,實際上不可能被新手分析解讀。mothur解決了許多這樣的問題,因為mothur為每一個估計值產(chǎn)生分離的文件。Collect.singleCollect.single利用計算器(/wiki/Calculators)生成collectors curves,描述了豐度,多樣性和樣本的其他特征。Colle

26、ctors curves描繪了你抽取額外的個體時豐度和多樣性的變化。Consensus.seqs這個命令可以以兩種方式使用:從fasta文件創(chuàng)建一個共有序列,或者由一個list文件為每個OTU創(chuàng)建一個共有序列。序列必須進行排列。Consensus.seqs的參數(shù)(特征,因素)是fasta, list, name和labelCooccurrence這個命令計算四個度量并且測試他們的顯著性以評估是否樣式的存在與否比起那些隨機期待的有所不同。Corr.axes這個命令將會計算在shared/relabund文件中每一行(或列)的相關(guān)系數(shù),記錄在一個pcoa文件所顯示的軸線上。Count.groups

27、這個命令從一個特定的組(group)或者一套組算出序列,從下面這些文件類型:group或者shared文件.Count.seqs這個命令計算在一個name文件中的代表性序列所代表的序列的數(shù)目。如果提供了一個group文件,它也會提供使group計數(shù)崩潰。Create.database這個命令讀取一個list文件,*.cons.taxonomy, *.rep.fasta, *.s和可選的group文件,并且創(chuàng)建一個數(shù)據(jù)庫(database)文件.Degap.seqs這個命令讀取一個fasta文件并輸出一個.ng.fasta文件,它包含所有間隔字符都被移除后的序列。Deunique

28、.seqs這個命令是unique.seqs的反向命令,從一個fasta和name文件創(chuàng)建一個fasta文件。Deunique.tree這個命令把冗余序列標識符重新插入一個唯一的系統(tǒng)樹。Dist.seqs這個命令將計算兩個排序的DNA序列間不正確的成對距離。這個方法比通用的DNADIST更好,因為這些距離不是存儲在RAM(隨機存儲器)中,它們直接打印到一個文件。而且,通過它可以忽略可能不感興趣的“大的”距離。這個命令將產(chǎn)生一個列格式的距離矩陣,這個矩陣與read.dist命令中的“列選項”相互兼容。這個命令也能生成一個phylip格式的距離矩陣。它有多個如何操縱gap比較和末端gap的選項。Di

29、st.shared這個命令將會生成一個phylip格式的距離矩陣,描述多個組的差異性。這個命令將會計算任何一個描述群落成員或結(jié)構(gòu)相似性的計算子(calculator)。F這個命令讀取一個fastq文件,并創(chuàng)建一個fasta和quality文件。Filter.seqsfilter.seqs從基于一個由用戶定義標準的排列刪除列。例如,生成的與參照排列相對的排列經(jīng)常有一些列的每一個字符是“.”或者“-”。這些列不會包含用于計算距離,因為他們本身沒有信息。通過刪除這些列,計算大量的距離這一過程就會加快。同樣,人們也喜歡用溫和的或強制的屏蔽方式(比如Lane mask)屏蔽他們的序列來

30、移除可變區(qū)域。這類屏蔽只在深層次系統(tǒng)進化分析時鼓勵使用,而在精細水平的分析比如需要計算OTUs中不建議。Get.coremicrobiome這個命令決定可變數(shù)目的樣本中的OTUs的片段,為了不同的最小相關(guān)豐富度。Get.current這個命令允許你找出mothur已經(jīng)為每個類型保存為current的一些文件,你也可以清空current文件。Get.group這個命令允許你為儲存在內(nèi)存中的多個樣本的OTU數(shù)據(jù)獲得一個已有的不同群組的目錄。這個特征應(yīng)該在為其它命令使用group選項時有幫助。Get.groups這個命令從一個特定group或一套groups選擇序列。group來自以下文件類型:fa

31、sta,name,group,list,taxonomy.Get.label這個命令是你為當前儲存在內(nèi)存中的每行OTU數(shù)據(jù)獲得一個標簽的目錄。這個特征應(yīng)該在為其他命令使用label選項時有幫助。Get.lineage這個命令讀取一個taxonomy文件和一個分類(taxon),并產(chǎn)生一個新的文件只包含有來自分類的序列。你也許也會把一個fasta, name, group, list或者align.report 文件包括到這個命令中,mothur將會為那些只包含有選定序列的文件生成新的文件。Get.otulist這個命令解析一個list文件并且為每一個包含兩列的距離創(chuàng)建一個.otu文件。第一列是

32、OTU數(shù)目,第二列是那個OTU中的序列的列表(list)。Get.oturepbin.seqs命令能為所有序列報告OTU號碼(即編號),get.oturep命令生成一個fasta格式的序列文件,為每個OTU只包含一個代表性序列。為每個OTU的定義生成一個.rep.fasta和.s文件。Get.otus這個命令選擇出包含有來自一個特定group或一副groups的序列的OTUs.Get.rabund這個命令將生成一個rabund文件,它基于你輸入到mothur的OTU數(shù)據(jù)。Get.relabund這個命令計算一個樣本中的每個OTU的相對豐富度。它將輸出一個.relabund文件。

33、Get.sabund這個命令將產(chǎn)生一個sabund文件,基于你讀入mothur的OTU數(shù)據(jù)。例如,如果你讀入一個list文件,get.sabund將產(chǎn)生對應(yīng)的sabund文件。Get.seqs這個命令把一個序列名字的列表(list)和一個fasta,name,group,list或align.report文件生成一個新的文件,只包含在list中出現(xiàn)的文件。這個命令也許用于和list.seqs命令結(jié)合以幫助顯示一個序列結(jié)合。Get.sharedseqs這個命令取一個list和group文件并為每個距離輸出一個*.shared.seqs文件。這對于那些情況有用,即你或許對于確定特殊groups中特

34、定的或共有的序列感興趣。這樣接下來你就可以分類。這些是mothur H-Z的目前所有命令的說明的翻譯,第二部分。(使用Ctrl+F搜索你所查命令)參看/wiki/Category:Commands 頁面上查閱的所有命令我查了一下網(wǎng)上的中文教程,似乎沒有?,F(xiàn)在國內(nèi)使用Mothur的人還很少,不過國外有不少做生態(tài)的都用到mothur了。畢竟有很多都是命令行操作。前天我還搜到了一個印度人在網(wǎng)上發(fā)的詢問帖子,想問哪里有關(guān)于mothur的簡單教程呢,他說mothur官方網(wǎng)站的教程有點難,看不太懂。今天這些命令里有三個可能會比較常用,一個是help,就類似于Linu

35、x中的man命令,也就是你在windows中常見的幫助文件。還有兩個,sffinfo和pipeline.pds,在處理sff文件時會用上。其中sffinfo就能將sff文件轉(zhuǎn)化為fasta格式的文件,fasta是mothur處理的文件中最常見的格式。由于最近我要處理一個sff文件,所以特別關(guān)注了與sff有關(guān)的命令,呵呵。Hcluster這個命令可以用來給OTUs分配序列,并輸出一個.list, .rabund, .sabund和.sorted.dist文件。它不會像cluster命令那樣把距離矩陣(distance matrix)保存在RAM(隨機存儲器)中,允許大距離文件被處理。Hclust

36、er對小文件的處理比cluster要慢,但在大文件上更有競爭力。目前,hcluster實行4種成簇方式:1.最近相鄰:一個OTU內(nèi)的每個序列與OTU中最相似的序列有最多X%的距離。2.最遠相鄰:一個OTU內(nèi)的所有序列與OTU內(nèi)的其它序列有最多X%的距離。3.平均相鄰:這個方法介于其他兩種方法之間的水平4.重量相鄰:Heatmap.bin這個命令從一個*.list或*.shared文件提供的數(shù)據(jù)生成一個heat map。heatmap中的每一行呈現(xiàn)一個不同的OTU,每個組中的OTU的顏色根據(jù)那個組內(nèi)那個OTU的豐富度在黑與紅之間形成成比例。這個命令會生成一個SVG文件(圖片格式),它可以在GIM

37、P或Adobe Illustrator中被進一步修改。有一些選項用于為每個采取不同方法的OTU相對豐度按比例繪制或排列。Heatmap.sim這個命令將會產(chǎn)生一個表明多個樣本之間成對相似性的heatmap,采用了多個對比群落成員和結(jié)構(gòu)的calculators(/wiki/Calculators)Helphelp命令將會輸出mothur中有效命令的表單?;蛘?,如果你想要針對一個特定命令的幫助信息,用help作為選項,比如 mothur read.list(help),就會輸出read.list的幫助信息。Homova分子方差的同質(zhì)性(Homogeneity

38、 of molecular variance)是一個為方差同質(zhì)的Bartletts test的非參數(shù)模擬,這已經(jīng)被用于種群遺傳學(xué),檢測以下假設(shè):兩個或多個種群的基因多樣性是同類的或同質(zhì)的(Stewart and Excoffier,1996);這個測試還沒有用于微生物生態(tài)學(xué)文獻。Indicator這個命令可以三種方式運行:1.用一個shared或relabund文件和一個design文件2.用一個shared或relabund文件和一個tree文件3.用一個shared或relabund,tree文件和design文件Indicator命令輸出一個.indicator.summary文件和一個

39、.indicator.tre文件,如果給了一個tree。新的tree在每個內(nèi)部的節(jié)點包含了標簽。標簽是節(jié)點號碼,所以你可以把tree關(guān)聯(lián)到summary文件。Summary文件為每個OTU的每個節(jié)點列出了indicator的值。Libshuff這個命令像以前在s-libshuff和libshuff程序中那樣實施libshuff方法。libshuff法是一個描述兩個或更多群落是否擁有相同結(jié)構(gòu)的通用測試,采用Cramer-von Mises檢測統(tǒng)計。這個檢測統(tǒng)計值的顯著性表明了群落(偶然)擁有同樣結(jié)構(gòu)的可能性。因為每個成對的對比需要兩個顯著測試,所以為多個對比進行一個矯正(比如Bonferroni

40、s correction)。List.seqs這個命令將會寫出在一個fasta,name,group,list或align.report文件中發(fā)現(xiàn)的序列名字。這對于使用get.seqs,remove.seqs命令和生成group文件時有用。Make.biommake.biom命令讓你把你的shared文件轉(zhuǎn)換為一個biom文件。關(guān)于biom格式:/documentation/biom_format.htmlMake.fastq這個命令讀取一個fasta和一個quality文件并創(chuàng)建一個fastq文件。Make.group這個命令讀取一個fasta文件或

41、一系列fasta文件,并創(chuàng)建一個group文件。Make.shared這個命令讀取一個list和group或biom文件,并為每個group創(chuàng)建一個.shared和一個rabund文件。MantelMantel命令計算兩個矩陣的mantel相關(guān)系數(shù)。Sokal, R. R., & Rohlf, F. J. (1995). Biometry, 3rd edn. New York: Freeman.Merge.files這個命令將把多個文件連結(jié)(使連續(xù))起來并把結(jié)果輸出到一個新文件。這對于合并多個fasta格式的序列文件,454 quality文件,group文件,name文件或其它等等是有用的。

42、Merge.groups這個命令讀取一個shared文件和一個design文件并把shared文件中同樣也在design文件中分組的groups合并。Metastats這個命令基于White.J.R.,Nagarajan.N.和Pop.M.開發(fā)的Metastats程序。統(tǒng)計方法用來檢測客觀宏基因組樣本的差異豐度特征。Mgcluster該命令解釋暫無,需要blast參數(shù),官方網(wǎng)站有使用方法。/wiki/MgclusterNmds這個命令是Sarah Goslee在R(/)中所寫nmds代碼的模型化。采用非矩陣多

43、維尺度分析功能,使用的Borg & Groenen的優(yōu)化算法。Normalize.shared這個命令創(chuàng)建一個.norm.shared文件。Otu.association這個命令計算一個shared/relabund文件中的OTUs的相關(guān)系數(shù)。Otu.hierarchy這個命令把不同距離上的OTUs關(guān)聯(lián)起來。Pairwise.seqs這個命令將計算序列之間不正確的成對距離。這會生成一個列格式的距離矩陣,與read.dist中的列選項兼容。這個命令也能產(chǎn)生一個phylip格式的距離矩陣,關(guān)于如何操作gap對比和末端gaps有多個選項。Parse.list這個命令讀取一個list文件和group文

44、件,并為group文件中的每個group生成一個list。Parsimony這個命令采用parsimony方法(aka P-test),以前在TreeClimber中使用過,現(xiàn)在在MacClade和UniFac網(wǎng)站中也有。這個Parsimony方法是一個通用的檢測,用來描述兩個或更多群落是否擁有同樣的結(jié)構(gòu)。檢測統(tǒng)計值的顯著性只表明群落隨機具有相同結(jié)構(gòu)的可能性。這個值不表明相似度水平。Pca運行這個命令需要一個shared或relabund文件。Pcoa需要一個plylip格式的距離矩陣文件。Pcr.seqs這個命令將根據(jù)用戶自定義的選項修剪輸入的序列。Phylo.diversity這個命令需要

45、輸入一個tree文件。兩個文件將被輸出:phylo.diversity和(如果你設(shè)置rarefy=T).rarefaction。Phylotype這個命令可根據(jù)他們的分類用于給OTUs分配序列,輸出一個.list,.rabund和.sabund文件。Pipeline.pds這個命令被設(shè)計用于指導(dǎo)你使用mothur(完成)通過你的分析。為了展示這個命令的各種特性,我們將使用Pats Pipeline Files(點擊下載/w/images/0/0f/Pipeline.tutorial.zip)Pre.cluster這個命令執(zhí)行一個移除序列這個目標的假單鏈接

46、算法,之所以移除這些序列,由于焦磷酸測序過程的錯誤。這個算法的一個版本是由Sue Huse開發(fā),將在接下來的環(huán)境微生物學(xué)一篇論文中發(fā)表。基本的理念是豐富的序列比稀少序列更可能產(chǎn)生一些錯誤序列??紤]到這些,這個算法根據(jù)它們的豐富度給序列排名。然后大略讀過序列表單在原始序列的一些閾值內(nèi)以尋找更稀少的序列。在閾值內(nèi)的那些序列與更大的序列合并。最初的Huse方法在一個距離矩陣上完成這個任務(wù),然而現(xiàn)在我們基于原始序列做這個。我們的方法的優(yōu)點是這個算法在排列的序列上完成而不是距離矩陣。因為通過pre-clustering你移除了大量的序列使距離計算更為快速。Quitquit 命令沒有選項,可帶或不帶括號調(diào)

47、用。Rarefaction.shared這個命令將產(chǎn)生使用,無需更換方法重新取樣的樣品間稀疏曲線。生態(tài)學(xué)家用稀?。╮arefaction)的傳統(tǒng)方式是沒有內(nèi)隨機樣本的抽樣秩序,而樣本之間。舉例來說,如果我們想知道OTU在人類結(jié)腸癌的數(shù)量,我們可以從結(jié)腸內(nèi),不同地點取樣和測定一堆16S rRNA基因序列。通過確定個OTU在每個樣品的數(shù)量,并比較這些樣品的組成,就有可能確定你們在單個范圍內(nèi)的生物多樣性的采樣的好壞。 mothur有能力觀察到的物種數(shù)量的樣品間稀疏曲線生成數(shù)據(jù)。對于本教程,你應(yīng)該下載并解壓縮Patient70Data.zip(/w/images

48、/b/b2/Patient70Data.zip)Rarefaction.single這個命令將會產(chǎn)生樣本內(nèi)的rarefaction曲線,采取無需更換方法的重新采樣。Rarefaction曲線提供一個對比不同樣品中的觀察到的豐度的方法。大體來說,如果你沒有采的許多個體作樣本你將期望已經(jīng)觀察了你平均獲得的OTUs的數(shù)目。盡管有一個公式可產(chǎn)生rarefaction曲線(參看/wiki/Rarefaction),但mothur使用隨機步驟。它也能幫你評估你的樣本密度(強度)。如果一個rarefaction曲線變得與X軸平行,你可以合理相信你的采樣工作做的很好,而

49、且相信觀察到的豐富度水平。否則,你需要繼續(xù)采樣。Rarefaction實際上對多樣性的測量比它對豐度的測定更好。Read.dist注意:從mothur1.18.0開始,read.list命令不復(fù)存在。你可以直接輸入你的距離矩陣文件的名稱到命令行中來使用它們。Read.tree注意:從mothur1.18.0開始,這個命令不復(fù)存在,你可以直接輸入文件名字到命令行來使用它們。Remove.groups這個命令從一個特定的group或一套groups中移除序列。你可以輸入一下這些文件類型:fasta, name, group, list, taxonomy和shared。 Remove.lineag

50、e這個命令讀取一個taxonomy文件和一個taxon,并生成一個新的文件,只包含不在taxon中的序列。你也可以把一個fasta,name,group,list,或align.report文件包括到這個命令中,mothur將會為每個生成新的“只包含不在taxon中的序列”的文件。Remove.otus這個命令刪除這樣的OTUs,它們含有“來自特定group或一套groups的序列”。Remove.rare這個命令讀取以下文件類型之一:list,rabund,sabund或者shared文件,它輸出一個刪除了稀有OTUs的新文件。Remove.seqs這個命令把一個list中的序列名稱和一個f

51、asta, name, group, list或align,report文件生成一個新的文件,不包含list中的序列。這個命令與list.seqs連結(jié)對于顯示序列集群(collection)有幫助。Reverse.seqs提供一個fasta格式的文件,reverse.seqs將生成一個包含有它們互補序列的文件。Screen.seqs這個命令使你保留滿足特定用戶所定標準的序列。而且,它能使你剔除那些不符合來自names,group或align.report文件的標準的序列。Sens.spec說明暫無。Seq.error這個命令讀取一個查詢的alignment文件和一個參考的alignment文件

52、,并創(chuàng)建.(后面未說明)Set.current這個命令使你為mothur的使用設(shè)置current文件,你也可以清空current文件。Set.dir這個命令使你重新指向mothur創(chuàng)建的output文件,或者設(shè)置mothur將要查找input文件的所在目錄。如果它不能在input位置找到你的文件你也可以設(shè)置一個缺省的(或默認的)位置供mothur查找。這使你把你的參考文件保留在一個位置。Set.logfile你或許想給你的logfile(日志文件)起一個特定的名字或者附加一系列的logfiles。set.logfile可以使你做這件事。Sffinfo這個命令從一個.sff文件釋放讀取序列。Sh

53、hh.flows這個命令是Chris Quince的PyroNoise算法的Pat Schloss翻譯,使用的mothur的bells和whistles的合并從C到C+?;赒unice提供的測試數(shù)據(jù)資料組的處理,shhh.flows把同樣或相似的輸出結(jié)果給AmpliconNoise. 這個命令采用期望最大算法以糾正流程圖,確認每個流程圖的理想化形式。并且把流程圖轉(zhuǎn)譯到DNA序列。我們的測試表明當使用trim.flows命令把Titanium數(shù)據(jù)消減到450flows時,shhh.flows為任何其他已有的方法提供質(zhì)量最高的數(shù)據(jù)。對比之下,當我們使用Quince建議的最小/最大數(shù)目(360/7

54、20)flows時,錯誤率沒有那么大。這較大提高的錯誤率不是來自計算花費。然而,在trim.seqs的特征采取分鐘的順序,shhh.flows可以采取小時的次序。沒有多個處理器或MPI時不建議對較大數(shù)據(jù)資料組運行shhh.flows命令。你可以為你的操作系統(tǒng)獲得合適版本的MPI(/).你也需要一個lookup文件告訴shhh.flows對一個給定同源多聚長度觀察到一個強度值的可能性。你可以在這兒(/wiki/Lookup_files)獲得mothur兼容的文件,你將需要把這些文件與你的數(shù)據(jù)或mothur可執(zhí)行程

55、序放在一起。Shhh.seqs這個命令是基于mothur的,對Chris Quinces序列表示程序SeqNoise的重新編寫。Sort.seqs這個命令把來自fasta,name,group,quality,flow或taxonomy文件的序列放在同樣的次序(order)下。Split.abund這個命令讀取一個fasta文件,和一個list或一個names文件,把序列分割為稀有和豐富groups.Split.groups這個命令讀取一個fasta和group文件,并為group文件中的每個group生成一個fasta文件。Sub.sample這個命令用來作為一個使你的數(shù)據(jù)標準化的路徑,或者從你的原始set創(chuàng)建一個小的set。它把以下這些文件類型作為輸入:fasta, list, shared, rabund和sabund,并產(chǎn)生一個包含你原始文件樣本的新文件。Summary.qual這

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論