宏基因組測(cè)序中短序列的注釋_第1頁(yè)
宏基因組測(cè)序中短序列的注釋_第2頁(yè)
宏基因組測(cè)序中短序列的注釋_第3頁(yè)
宏基因組測(cè)序中短序列的注釋_第4頁(yè)
宏基因組測(cè)序中短序列的注釋_第5頁(yè)
已閱讀5頁(yè),還剩6頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

宏基因組中短底列的注釋是理解測(cè)序微生物群落潛在功能的重要步驟之一。單純利用局部匹配的注釋容易混淆那些蛋白同源性且局部序列非常相似的序列,進(jìn)而不能真實(shí)準(zhǔn)確反映復(fù)雜蛋白質(zhì)家族中多變的結(jié)構(gòu)和功能域。今天我們介紹一種新方法MetaGeneHunt,該方法可以識(shí)別特定的蛋白質(zhì)結(jié)構(gòu)域,并根據(jù)結(jié)構(gòu)域的長(zhǎng)度對(duì)hit-counts進(jìn)行標(biāo)準(zhǔn)化。使用MetaGeneHunt對(duì)MG-RAST對(duì)公開(kāi)獲取的宏基因組進(jìn)行分析,包括哺孚⑻物微生物群和TwinGut腸道菌群研究,以評(píng)估短序列中含GH蛋白的頻率和位于GH區(qū)域的匹配頻率。在對(duì)糖苗水解酶(GHs)的研究,發(fā)現(xiàn)在所有樣本中4726,023條含有GH區(qū)域蛋白匹配的短讀序列中,有58.3%的廂列位于目標(biāo)區(qū)域之外。接下來(lái),在比較樣本之前,將匹配到目標(biāo)區(qū)域的hit-counts標(biāo)準(zhǔn)化,以說(shuō)明對(duì)應(yīng)的域長(zhǎng)度。腸道和盲腸中的菌群顯示出與不同微生物組合相匹配的GH譜特征。相反,胃和結(jié)腸的菌群在結(jié)構(gòu)和功能上顯示出更多樣性和多變性。在樣本中,盡管有波動(dòng),但碳水化合物處理的潛在功能變化與群落組成的變化相關(guān)。這表示,在利用MG-RAST平臺(tái)處理宏基因組測(cè)廂寤列時(shí),MetaGeneHunt是一種能快速準(zhǔn)確地識(shí)別短序列宏基因組中離散蛋白結(jié)構(gòu)試的新方法。在過(guò)去的幾十年里,宏基因組DNA的高通量測(cè)序已經(jīng)產(chǎn)生了大量的廂列,這些序列的特征為我們了解微生物群落的結(jié)構(gòu)和功能提供了許多認(rèn)知。例如,截至2019年12月,MG-RAST托管了約40萬(wàn)個(gè)可公開(kāi)訪問(wèn)的帶注釋的數(shù)據(jù)集。在數(shù)據(jù)處理過(guò)程中,不考慮目標(biāo)區(qū)域(或蛋白質(zhì))的長(zhǎng)度會(huì)導(dǎo)致兩個(gè)主要的系統(tǒng)偏差。首先,目標(biāo)區(qū)城越長(zhǎng),他們的頻率就越容易被高估。其次,如果數(shù)據(jù)處理涉及稀疏性較短的、不太豐富的域,盡管重要,也可能被丟棄。為了解決r這些問(wèn)題,研究人員設(shè)計(jì)了MetaGeneHunt來(lái)精確注釋從MG-RAST檢索到的短序列宏基因組中的蛋白質(zhì)結(jié)構(gòu)域。MetaGeneHunt將MG-RAST提供的短陰列局部比對(duì)與M5nr數(shù)據(jù)庫(kù)中精確的基于PFam的蛋白質(zhì)結(jié)構(gòu)域識(shí)別相結(jié)合,以在公共可訪問(wèn)數(shù)據(jù)集中識(shí)別蛋白質(zhì)結(jié)構(gòu)域。方法MetaGeneHunt簡(jiǎn)要說(shuō)明:MetaGeneHunt的設(shè)計(jì)基于MG-RAST平臺(tái)注釋的數(shù)據(jù)集的。在使用GeneHunt創(chuàng)建的M5nr數(shù)據(jù)庫(kù)中,MetaGeneHunt使用了糖昔水解酶和輔助結(jié)構(gòu)域(如CBMs)的精確的特定結(jié)構(gòu)懺注釋(PFam)作為參考注釋表(RAT)。首先,MetaGeneHunt使用MG-RAST應(yīng)用程序接□從MG-RAST("330"和"650〃文件)檢索M5n「注釋的宏基因組。接下來(lái),使用來(lái)自RAT的注釋命中的MD5id,在文件窗中識(shí)別與潛在的GHs匹配的序列。接下來(lái),對(duì)于這些局部匹配”將精確對(duì)齊位置與RAT中特定于域的注釋進(jìn)行比較。如果查詢中的〉20AAS與特定的蛋白質(zhì)結(jié)構(gòu)域(考慮到RAT中的HMM?envelope位置)對(duì)齊,則該結(jié)構(gòu)域注釋被轉(zhuǎn)移到查詢中。

相反,如果查詢的〉20AAS匹配在目標(biāo)區(qū)域之外(例如,在連接域、輔助域、信號(hào)肽中),則該注釋被認(rèn)為是否定的。用戶可以隨意修改重疊(overlapping)的閾值。接下來(lái),從序列聚集文件("330〃文件)中檢索每個(gè)識(shí)別出的命中的實(shí)際序列計(jì)數(shù)。最后,在后續(xù)的數(shù)據(jù)處理和標(biāo)準(zhǔn)化過(guò)程中,根據(jù)Pfam數(shù)據(jù)庫(kù)中蛋白質(zhì)結(jié)構(gòu)域的大小,對(duì)每個(gè)蛋白質(zhì)結(jié)構(gòu)域的命中計(jì)數(shù)進(jìn)行標(biāo)準(zhǔn)化。方法驗(yàn)證:文中使用的原始數(shù)據(jù)和預(yù)處理數(shù)據(jù)可在MG-RAST服務(wù)器上公開(kāi)訪問(wèn)。在mgp20861項(xiàng)目中可獲得對(duì)應(yīng)于555百萬(wàn)個(gè)100bp序列的小鼠微生物組數(shù)據(jù)。使用MG-RASTAPI檢索了哺孚⑻物微生物組數(shù)據(jù)(nigpll6)和雙腸腸道菌群硏究(mgpIO)其他數(shù)據(jù)集。哺乳動(dòng)物微生物組研究糖苗水解酶(GHs)和相關(guān)酶的附加注釋表是從BrianMuegge(直接對(duì)應(yīng))獲得的。使用MG-RASTAPI檢索了預(yù)處理的數(shù)據(jù),包括從門到屬水平的讀物分類注釋。數(shù)據(jù)分析和統(tǒng)計(jì)使用R統(tǒng)計(jì)語(yǔ)言。主要結(jié)果糖莒水解酶的識(shí)別識(shí)別蛋白質(zhì)結(jié)構(gòu)域并考慮其長(zhǎng)度產(chǎn)生了一個(gè)健壯的功能注釋系統(tǒng),對(duì)hit-count的標(biāo)準(zhǔn)化反應(yīng)了目標(biāo)區(qū)域的實(shí)際分布。Gonus(Phylum)Gonus(Phylum)bbNormalizedHitCountDomainLength<AAs)Gaia:Qwgpe.CGHb?O■8006004002001QK(OGeajOcPOU.WUHV40■GH1GH?Gh?勺■課2」二-M?fsm2f:SM3MS■-w-HMM8F:lM5MLI!■III^UlMj如MIM2F:lM5MIM6MIMM5MCMSL33(Rawflcount)GH125DomainLength<AAs)Gaia:Qwgpe.CGHb?O■8006004002001QK(OGeajOcPOU.WUHV40■GH1GH?Gh?勺■課2」二-M?fsm2f:SM3MS■-w-HMM8F:lM5MLI!■III^UlMj如MIM2F:lM5MIM6MIMM5MCMSL33(Rawflcount)GH125■■■FFiSM8F:C■M3MCM6-MCyro-3dE”vsMT-0?■5罰詢L-'r纟FoCoLmnZ-SarcGH43-GH13-GH88-GH29-GH3C-GH130-GH3-GH28-GH2N?GH31-GH5-GH2C?gheizGH27GH5)?GH5:GH2Q-GM25?GH35-Glillir-fTs-AGH10R*GHW*GH78-GH106-t:H:汩7*GH94¥GH2G*CBM4/9GH42GH4GH4CGH42MG粼GH63GH42CCBM48GH24GH66GH395000a10000aSex?Female▲MaleLocationCecum?IntestineEColona)?橫軸為目標(biāo)區(qū)域的原始hit-count,縱軸為標(biāo)準(zhǔn)化后的hit-count,圖中的顏色階梯表示目標(biāo)區(qū)域的長(zhǎng)度。這種標(biāo)準(zhǔn)化主要影響長(zhǎng)度短的域(例如,GH78、GH25)、小的亞域(例如,GH31N、GH36C)和目標(biāo)區(qū)域的附屬域(例如,CMB5J2)Ob)?小鼠胃腸道中目標(biāo)區(qū)域的標(biāo)準(zhǔn)化后的hit-count(僅顯示大于100的hit-count的區(qū)域),可見(jiàn),標(biāo)準(zhǔn)化后的hit-count與結(jié)構(gòu)域長(zhǎng)度無(wú)關(guān)(附加文件中有對(duì)兩者做相關(guān)分析,結(jié)果分別為P.pearson=0.38,P.spearman二0.33)

c)?熱圖顯示了小鼠胃腸道中最受樣本來(lái)源影響的被稀疏標(biāo)準(zhǔn)化的GH區(qū)域的分布(two-way方差分析)??v軸的注釋列Mx:F/M:S/l/C/L分別表示小鼠(樣本號(hào))雌性/雄性:胃/腸/盲腸/結(jié)腸小鼠腸道菌群的結(jié)構(gòu),與盲腸中的微生物群落相比,結(jié)腸與腸道中的微生物群落結(jié)構(gòu)更相似結(jié)腸和胃中的微生物群落有較高的相似性。0—03*02^丄r(J1■0.0-宀C宀廠宀宀iL—sO£ULLlSSu.sco電白亦Jr)<iofdicSjC\JrdSS0—03*02^丄r(J1■0.0-宀C宀廠宀宀iL—sO£ULLlSSu.sco電白亦Jr)<iofdicSjC\JrdSS2乏3ZSS5<r-Biftdobactenum(MDS2=0.23)Akkermansia(V)Alistipes(B)Bacillus(F)Bacteroides(B)Bifidjbaderium(A)Blautia(F)Bryantella(F)ButyrMbno(F)Clostridium(F)Doroa(F)Eubacterium(F)HokJemama(F)Lactobacillus(F)Pa陽(yáng)bacteroides(B)Porphyromonas(B)Prevotella(B)Roseburia(F)Ruminococcus(F)Turidbacter(F)PhyljnnTuridbacter(MDS2=0.35AActinobactoriaLactobacillusHoldemania.PrevoteilaEwcteroidAs..AhshpesProteoOactoriaVorruoomicrobaBacterodetesFlrrhculesEubaaenum.-ClostridiumRuminococcusBlautiaIDoreaRoseburAKButyrivibrioParabacteroidesPorphyromonasStomachIntestneCecum4342剛MDS1M3禍樓恥Akkermansia...a)?對(duì)受樣本來(lái)源影響較大的樣本根據(jù)屬水平進(jìn)行樣本聚類(Bray-Curtis距離指數(shù),completelinkage)。b)?樣本間的微生物群落組成,只展示了相對(duì)豐度至少占群落中1%的屬水平物種(V:疣微菌門,B:擬桿菌門,A:放線菌門,F(xiàn):厚壁菌門)。

.NMDS分析(2Dstress=0.020),展示了在樣本聚類中都存在的這些菌屬,在b)中的主要類群用標(biāo)簽指示,不同門水平按顏色區(qū)分,點(diǎn)的大小反映該屬在樣本中的最大頻率。微生物組中的結(jié)構(gòu)■功能關(guān)系,多樣性仍然與潛在功能高度相關(guān)。胃和盲腸的群落在結(jié)構(gòu)和功能上是最多樣化的。其次,腸道中的群落組成和功能大多是保守的,而與保守的微生物群落相關(guān)20的大腸則顯示出可變功能潛力。/COAO*0AO*(eeEMo-Aem閹△」eEMo-Aem閹△0.05-山口□口0Stomach(九5=082PpyVO01)△Intestine(RPoafSor=0.73.Pp^<0.001)?CeCUm(Rpearscn=0'89,P'<0'001)0.00-0.10.2□Colon(Rpag=0.56.PMicrobialCommunityStructurePMrscn<0.01)0.0(PairwiseBray-CurtisDissimilarity)0.30.00-0.10.2□Colon(Rpag=0.56.PMicrobialCommunityStructurePMrscn<0.01)0.0(PairwiseBray-CurtisDissimilarity)0.3對(duì)同一位置的樣本的微生物群落結(jié)構(gòu)和功能差異進(jìn)行成對(duì)比較(Bray-Curtis),線條為線性回歸的結(jié)果。在胃,腸,盲腸和結(jié)腸中,屬水平群落結(jié)構(gòu)的變化與多糖解構(gòu)功能的相關(guān)性分析結(jié)果表示除大腸外,其余的P?pearson的值都在0.001以下。胃和盲腸的群落在結(jié)構(gòu)和功能上是最多樣化的,盡管多樣性仍然與功能潛力高度相關(guān)。其次,腸道中的群落組成和功能大多是保守的,而與保守的微生物群落相關(guān)的大腸則顯示出可變的功能潛力。MetaGeneHune提供了一種新的方法來(lái)識(shí)別短序列宏基因組中的GHs及其相關(guān)結(jié)構(gòu)域。識(shí)別結(jié)構(gòu)域而不是蛋白質(zhì)是至關(guān)重要的,因?yàn)镚H結(jié)構(gòu)域與許多可變結(jié)構(gòu)域相關(guān)。這種新方法基于GeneHunt注釋方法,并對(duì)其進(jìn)行補(bǔ)充,旨在分析MG-RAST中的短序列宏

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論