全長(zhǎng)轉(zhuǎn)錄組有參報(bào)賬用結(jié)題報(bào)告_第1頁(yè)
全長(zhǎng)轉(zhuǎn)錄組有參報(bào)賬用結(jié)題報(bào)告_第2頁(yè)
全長(zhǎng)轉(zhuǎn)錄組有參報(bào)賬用結(jié)題報(bào)告_第3頁(yè)
全長(zhǎng)轉(zhuǎn)錄組有參報(bào)賬用結(jié)題報(bào)告_第4頁(yè)
全長(zhǎng)轉(zhuǎn)錄組有參報(bào)賬用結(jié)題報(bào)告_第5頁(yè)
已閱讀5頁(yè),還剩40頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

合同關(guān)鍵指標(biāo)

2+3全長(zhǎng)有參轉(zhuǎn)錄組服務(wù)合完成1個(gè)樣品的全長(zhǎng)轉(zhuǎn)錄組,樣品產(chǎn)出不少于8GbCleanData。完成可變剪接分析。完成長(zhǎng)鏈非編碼RNA預(yù)測(cè)和長(zhǎng)鏈非編碼RNA靶預(yù)測(cè)。完成轉(zhuǎn)錄本功能注釋分析。實(shí)驗(yàn)流全長(zhǎng)轉(zhuǎn)錄組實(shí)驗(yàn)流程包括樣品檢測(cè)、文庫(kù)構(gòu)建和上機(jī)。實(shí)驗(yàn)流程見下圖全長(zhǎng)轉(zhuǎn)錄組實(shí)驗(yàn)流程樣品檢高質(zhì)量的RNA是整個(gè)項(xiàng)目成功的基礎(chǔ),為保證數(shù)據(jù)準(zhǔn)確性,我們使用以下方法對(duì)樣品進(jìn)行檢測(cè),檢測(cè)結(jié)果達(dá)到要求后方可進(jìn)行庫(kù)Nanodrop檢測(cè)RNA的純度(OD260/280)、濃度、核酸吸收峰是否正常Agilent2100精確檢測(cè)RNA的完整性,檢測(cè)指標(biāo)包括:RIN值、28S/18S、圖譜基線有無(wú)上抬、5S峰電泳檢測(cè)RNA樣品是否有組DNA的污文庫(kù)構(gòu)樣品檢測(cè)合格后,進(jìn)行文庫(kù)構(gòu)建,主要流程如下使用SMARTer?PCRcDNASynthesisKit合成mRNA的cDNABluePippin篩選全cDNA片段,構(gòu)建不同大小cDNA文庫(kù):。(3)再次PCR擴(kuò)增放大篩選的全長(zhǎng)cDNA。對(duì)全長(zhǎng)cDNA進(jìn)行末端修復(fù)連接SMRT啞鈴型接頭進(jìn)行核酸外切酶消化使用BluePippin進(jìn)行二次篩選,獲得文庫(kù)文庫(kù)質(zhì)文庫(kù)構(gòu)建完成后,對(duì)文庫(kù)質(zhì)量進(jìn)行檢測(cè),檢測(cè)結(jié)果達(dá)到要求后方可進(jìn)行上機(jī),檢測(cè)方法如下使用Qubit2.0進(jìn)行準(zhǔn)確定量使用Agilent2100對(duì)文庫(kù)大小進(jìn)行檢測(cè),文庫(kù)大小符合預(yù)期后才可進(jìn)行上機(jī)上庫(kù)檢合格后,按照目標(biāo)下機(jī)數(shù)據(jù)量,使用PacBio儀器進(jìn)行全長(zhǎng)轉(zhuǎn)錄組生物信息學(xué)轉(zhuǎn)錄組研究是理解生命過(guò)程必不可少的工具之一,然而基于第二代高通量平臺(tái)的R-e2.0技術(shù)往往不能準(zhǔn)確得到或組裝出完整轉(zhuǎn)錄本,無(wú)法識(shí)別Isoform、同源、超、等位表達(dá)的轉(zhuǎn)錄本,使人們難以理解這一生命活動(dòng)更次的含義?;赼cioRT單分子實(shí)時(shí)技術(shù)的全長(zhǎng)轉(zhuǎn)錄組無(wú)須打斷A片段,使用AE技術(shù)反轉(zhuǎn)錄得到的全長(zhǎng)cDA。該平臺(tái)的超長(zhǎng)讀?。╡dian10kb)包含了單條完整轉(zhuǎn)錄本序列信息,后期分析無(wú)需組裝,所測(cè)即所得[1][2][3]。獲取全長(zhǎng)轉(zhuǎn)錄組的分析過(guò)程主要包括3個(gè)階段[4],全長(zhǎng)序列識(shí)別、isoform水平聚類得到一致性序列和一致性序列polishin,詳細(xì)步驟如下:從原始下機(jī)序列中提取ROI(ReadsOfInsert)序列,過(guò)濾序列中的cDNA引物和polyA,并根據(jù)序列中是否存在3'引物、5'引物和PolyA(可選)將序列分成全長(zhǎng)序列與非全長(zhǎng)序列、嵌合序列與非嵌合序列。使用ICE(Iterativeisoform-clustering)算法將來(lái)自同一isoform的全長(zhǎng)序列進(jìn)行聚類,將具有相似序列的全長(zhǎng)序列聚成一簇(cluster),每個(gè)cluster得到一條一致性序列使用Quiver算法聚類非全長(zhǎng)序列,對(duì)得到的一致性序列進(jìn)行校正(polishing),篩選高質(zhì)量的序列進(jìn)行后續(xù)分析。考慮到cNA建庫(kù)的局限性[4],我們篩選得到的高質(zhì)量序列由于建庫(kù)時(shí)5'端序列的缺失可能是非全長(zhǎng)序列,因此,僅5'末端外顯子存在差異,其余外顯子均一致的序列進(jìn)行合并,取其中最長(zhǎng)的序列作為最終的轉(zhuǎn)錄本序列最終得到的轉(zhuǎn)錄本序列可直接用于后續(xù)的Isoform、同源、、等位、SS、可變剪接、lncNA等分析。引導(dǎo)人們更次的理解位于中心法則中心地位的這一生命活動(dòng),另外還可用于對(duì)所在組的注釋升級(jí),完善組數(shù)據(jù)庫(kù)。轉(zhuǎn)錄組生物信息分析流程見下圖全長(zhǎng)轉(zhuǎn)錄組生物信息分析流程2.2.1數(shù)基于單分子(SequencingBySynthesis,SMRT)技術(shù),Pacbio高通量平臺(tái)對(duì)cDNA文庫(kù)進(jìn)序,產(chǎn)出大量的數(shù)據(jù),稱為原始數(shù)據(jù)(RawData)。結(jié)果文件列(1)pacbio文件命名規(guī)則pacbio產(chǎn)出文件或序列命名方式示例如下pacbio命名示"m"=TimeofRunStart(yymmdd_hhmmss)上機(jī)時(shí)InstrumentSerialNumber儀器序列編SMRTCellBarcodeSMRTcellbarcode編SetNumber(a.k.a."LookNumber".Deprecatedfield,usedinearlierversionofRS)6PartNumber(usually"p0","X0"whenusingexpiredreagents)ZMWholenumberSubreadRegion(start_stopusingpolymerasereadcoordinates)?subread在原始序列中的起始和終止(2)主要文件介紹主要生成*.bas.h5,*.1.bax.h5,*.2.bax.h5,和*.3.bax.h5文件。bax.h5文件包括每個(gè)循環(huán)中堿基識(shí)別信息。bas.h5文件bax.h5文件的描述(pointer)信息。bas.h5文件說(shuō)明請(qǐng)考 /software/instrument/2.0.0/bas.h5+Reference+Guide.pdfetadat.xl文件主要包括數(shù)據(jù)的基本信息,包括所使用的酶和化學(xué)試劑信息、樣品名稱和其他實(shí)驗(yàn)信息。詳細(xì)說(shuō)明請(qǐng)參考:https: /software/instrument/2.0.0/Metadata+Output+Guide.pdf。sts.xml文件主要包括每輪(movie)中的統(tǒng)計(jì)信息說(shuō)明,詳細(xì)說(shuō)明請(qǐng)考 /software/instrument/1.3.1/Statistics+Output+Guide.pdfsubread序列文件:原始序列(Polymerasereads)從接頭處打斷并過(guò)濾掉接頭序列后得到subread,該序列FASTQFASTA格式保存,其中FASTQ主要包括序列和質(zhì)量信息,F(xiàn)ASTQ格式文件示意圖如下:FASTQ格式文件示意注:FASTQ文件中通常每4行對(duì)應(yīng)一個(gè)序列單元:第一行以@開頭,后面接著序列標(biāo)識(shí)(I)以及其它可選的描述信息;第二行為堿基序列,即es;第三行以開頭,后面接著可選的描述信息;第四行為as每個(gè)堿基對(duì)應(yīng)的質(zhì)量打分編碼,長(zhǎng)度必須和es的序列長(zhǎng)度相同,該行中每個(gè)字符對(duì)應(yīng)的ASII值減去,即為對(duì)應(yīng)第二行堿基的質(zhì)量值。中每個(gè)ZMW(zero- waveguide)中得到的原始序列如下圖所示序列介Polymerase聚合酶序列(polymeraseread):DNA聚合酶以SMRTbell?環(huán)狀模板鏈合成的核酸序列,可用于過(guò)程中每輪(run)的質(zhì)控。olyerasereds經(jīng)過(guò)濾后僅剩余高質(zhì)量片段,包含接頭序列和通過(guò)環(huán)狀模板鏈合成的含多個(gè)序列的拷貝,如圖6中'ra'所示。每個(gè)聚合酶序列(polymeraseread)可以分割成一個(gè)或多個(gè)子序列(Subread),subread是聚合酶以SMRTbell?一條模板鏈經(jīng)過(guò)一輪(passes)合成的,不包括接頭序列。每個(gè)subreads包含質(zhì)量值和相關(guān)酶活參數(shù)。圖6共有2個(gè)半的subread。其中fullpasses(完整的subread)數(shù)為2。numberoffull指原始序列中存在兩端均含有SMRTbell?接頭(adapter,圖6中黑域)的子序列(接頭間的序列)個(gè)數(shù),圖6中fullpasses2CircularConsensus(CCS)CCS序列是通過(guò)每個(gè)ZMW孔中的(subreads)子序列得到的一致性序列,無(wú)需進(jìn)行參考序列的比對(duì)。不同于ROI序列,序列要求每個(gè)插入序列中至少含2個(gè)完整(full-pass)的subreadsReadsofInsert根據(jù)需求篩選原始序列中滿足最小numberoffullpasses(<低序列準(zhǔn)確性(0.70~1.00)的原始序列,通過(guò)子序列獲得一致序列即為每個(gè)單分子反應(yīng)器ZMW的ROI序列。ROI是每個(gè)單分子反應(yīng)器ZMW里插入序列的最高質(zhì)量序列。ROI序列可以從一定程度上評(píng)估建庫(kù)質(zhì)量和SMRT?Cell上樣時(shí)序列的長(zhǎng)度。為充分利用數(shù)據(jù)量,本項(xiàng)目不考慮完整的subread個(gè)數(shù)(即設(shè)置最小fullpasses=0),最低序列準(zhǔn)確度為0.75。(詳細(xì)內(nèi)容請(qǐng)參見:/acificiocince/c_prier/iki/ndersanding-acio-tansripoe-daa#radxplined)。例如,如果根據(jù)模板鏈最終合成了一個(gè)半的subread,最終將合并成一條插入序列(ReadofInsert,ROI),而CCS序列要求最少有兩個(gè)完整的subreads,所以它是ROI序列的特殊情況。ROI序列可以很好的評(píng)估SMRTcell上樣時(shí)的插入序列的長(zhǎng)度。對(duì)于較長(zhǎng)的模板鏈,最終產(chǎn)生的ROI序列可能和polymeraseread序列等長(zhǎng)。Full-Length(FL)ReadversusNon-Full-Length(nFL)SMRTLink軟件中IsoSeq2定義兩端同時(shí)含有3'引物和5'3'引物前polyA尾(可選)的序列稱為全長(zhǎng)序列(Full-Length(FL)Read)。5'或3'primer可以是Clontech或其他全長(zhǎng)cDNA建庫(kù)引物,或特異性的RT-PCR引物。反之,則為非全(non-full-lengthread)Full-Lengthnon-chimericRead(FLNC):建庫(kù)過(guò)程中因接頭濃度或SMRTbell濃度過(guò)低造成兩個(gè)cDNA模板鏈直接相連而生的嵌合序列稱為人工嵌合序列,如下圖所示全長(zhǎng)序列中的人工嵌合序SMRT所使用的PacBio儀器每個(gè)cell含有ZMWs,reads進(jìn)入ZMW孔中被,一個(gè)ZMW中含一條的reads(P1)為有據(jù)本項(xiàng)目F01下機(jī)數(shù)據(jù)過(guò)濾PolymeraseRead片段長(zhǎng)度小于50bp、序列準(zhǔn)確性小于0.75的序列,將剩余序列從接頭處打斷并過(guò)濾掉接頭序列后得到subreads,過(guò)濾長(zhǎng)度小于50bp的sbred,剩余subred即為cleandata。 數(shù)據(jù)統(tǒng)計(jì)SampleSamplecDNASMRTData1-22-13-1根據(jù)條件fullpasses>=0且序列準(zhǔn)確性大于0.75從原始序列提取ROI序列。統(tǒng)計(jì)各建庫(kù)中ROI(ReadsofInsert)序列數(shù)、ROI的堿基數(shù)和插入序列的平均長(zhǎng)度對(duì)下機(jī)數(shù)據(jù)進(jìn)行評(píng)估。該項(xiàng)目各建庫(kù)數(shù)據(jù)產(chǎn)出統(tǒng)計(jì)見下表:ROI數(shù)據(jù)統(tǒng)計(jì)部分結(jié)果展cDNAReadsofReadBasesofMeanReadLengthofMeanReadQualityof1-2-3-(1)ROI序列長(zhǎng)度分布:ROI序列長(zhǎng)度與建庫(kù)時(shí)的cDNA長(zhǎng)度選擇有關(guān),ROI序列隨cDNA長(zhǎng)度的增加而增加cDNA長(zhǎng)度建庫(kù)ROI序列長(zhǎng)度分布如下圖所示cDNA建庫(kù)ROI長(zhǎng)度分布示意注:橫坐標(biāo):ROI長(zhǎng)度分布;左側(cè)縱坐標(biāo):ROI序列長(zhǎng)度頻數(shù)分布直方圖;右側(cè)縱坐標(biāo):ROI序列長(zhǎng)度累積頻率曲線(3)ROIfullpasses數(shù)分布ROI的各孔fullpassescDNA的長(zhǎng)度有關(guān),一般cDNA長(zhǎng)度的增加而減少。ROI序列的準(zhǔn)確性fullpasses的影響,fullpasses越高,序列準(zhǔn)確性越高,各cDNA建庫(kù)數(shù)據(jù)的fullpasses數(shù)分布如下圖所示:生成ROI序列的fullpasses數(shù)分布示注:橫坐標(biāo):生成ROI序列的fullpasses數(shù);縱坐標(biāo):相應(yīng)fullpasses數(shù)的ROI序列數(shù)(3)ROI質(zhì)量分布 質(zhì)量值反映序列的準(zhǔn)確性,各建庫(kù)數(shù)據(jù)的ROI序列質(zhì)量分布如下圖所示ROI質(zhì)量值分布示意注:橫坐標(biāo):ROI質(zhì)量值分布;左側(cè)縱坐標(biāo):ROI序列質(zhì)量頻數(shù)分布直方圖;右側(cè)縱坐標(biāo):大于相應(yīng)質(zhì)量值的堿基通過(guò)檢測(cè)ROI序列中是否包含5'引物,3'引物及polyA尾,可將序列分成全長(zhǎng)序列(包含5'引物,3'引物及polyA尾)和非全長(zhǎng)序列。classify過(guò)程去除ROI序列中cDNA引物序列及polyA序列獲得建庫(kù)時(shí)的插入序列,同時(shí)根據(jù)建庫(kù)時(shí)兩端引物的差別確定鏈合成方向,并將序列分為全長(zhǎng)序列和非全長(zhǎng)序列、嵌合序列和非嵌合序列。全長(zhǎng)序列數(shù)據(jù)統(tǒng)計(jì)cDNAReadsofNumberoffiveprimeNumberofthreeprimeNumberofpoly-A1-2-3-全長(zhǎng)序列長(zhǎng)度反映了建庫(kù)時(shí)cDA序列長(zhǎng)度,可通過(guò)統(tǒng)計(jì)全長(zhǎng)序列的長(zhǎng)度評(píng)估建庫(kù)質(zhì)量,本次數(shù)據(jù)中的全長(zhǎng)序列長(zhǎng)度與建庫(kù)大小一致。不同cDNA建庫(kù)時(shí)FLNC序列的長(zhǎng)度分布如下圖所示:全長(zhǎng)非嵌合序列長(zhǎng)度分布示意注:橫坐標(biāo):FNC序列長(zhǎng)度分布;左側(cè)縱坐標(biāo):FNC序列長(zhǎng)度頻數(shù)分布直方圖;右側(cè)縱坐標(biāo):FLNC序列長(zhǎng)度累積頻率曲線。LC長(zhǎng)度除受建庫(kù)時(shí)cDA的長(zhǎng)度影響外,還受試劑和時(shí)間等因素的影響,故全長(zhǎng)序列的百分比(L%)在不同cell中會(huì)有很大變化。因建庫(kù)過(guò)程中SMRTbell或adaptor濃度過(guò)低,會(huì)產(chǎn)生嵌合(ArtificialConcatemers)序列,本次全長(zhǎng)序列中ArtificialConcatemers比例0.38%,可認(rèn)為該數(shù)SMRTbell濃度適中。各庫(kù)中所有ROI序列分類結(jié)果如下圖所示:序列分類(classify)示意isoformSMRTysis(v2.3.0)軟件使用ICE(IterativeClusteringforErrorCorrection)算法對(duì)序列進(jìn)行迭代聚類,將相似的序列(即同一轉(zhuǎn)錄本的多個(gè)拷貝)聚類到一簇cluster,每個(gè)cluster得到一個(gè)一致性序列(consensusisoform)。結(jié)合非全長(zhǎng)序列,使用quiver程序?qū)Ω鱟luster中的一致序列進(jìn)行校正,最終得到準(zhǔn)確度大于99%的高質(zhì)量轉(zhuǎn)錄(HQ,high- isoforms)。不同建庫(kù)長(zhǎng)度得到的HQ和LQ(低質(zhì)量轉(zhuǎn)錄本,low-quality)轉(zhuǎn)錄本統(tǒng)計(jì)結(jié)果見下表ICE聚類結(jié)果統(tǒng)計(jì)NumberofconsensusAverageconsensusisoformsreadNumberofpolishedhigh-quality本項(xiàng)目F01得到consensusisoform65,257個(gè),其中HQ轉(zhuǎn)錄本數(shù)為24,889,LQ轉(zhuǎn)錄本40,345個(gè),得到的consensus序列長(zhǎng)度分布如下所示consensusisoform長(zhǎng)度分布示注:橫坐標(biāo):consensusisoform序列長(zhǎng)度分布;左側(cè)縱坐標(biāo):consensusisoform序列長(zhǎng)度頻數(shù)分布直方圖;右側(cè)縱坐consensusisoform序列長(zhǎng)度累積頻率曲線利用proovread軟件[5]通過(guò)RNA-Seq數(shù)據(jù)對(duì)各個(gè)樣品得到的低質(zhì)量一致性序列進(jìn)行校正,提高序列的準(zhǔn)確性。轉(zhuǎn)錄本去冗在全長(zhǎng)轉(zhuǎn)錄本cluster過(guò)程中參數(shù)設(shè)置較嚴(yán)格,為得到質(zhì)量較高的一致性序列,同一轉(zhuǎn)錄本的多拷貝序列分到不同cluster的可能性比隨機(jī)將兩個(gè)不屬于同一轉(zhuǎn)錄本拷貝的序列分到同一cluster中的可能性大,不可避免的產(chǎn)生了冗余序列。同時(shí),全長(zhǎng)轉(zhuǎn)錄本過(guò)程中,3'端因存在poly-A結(jié)構(gòu),可以確定3'端比較完整,而5'端序列可能存在降解,導(dǎo)致同一轉(zhuǎn)錄本的不同拷貝分到不同的cluster中,如下圖綠色圈中所示,5'端差異造成不同轉(zhuǎn)錄本,導(dǎo)致冗余序列的產(chǎn)生。5'序列差異造成轉(zhuǎn)錄本序列通過(guò)GMAP(GenomicMapandAlignmentProgram)[6]將得到的校正后的一致序列與參考組進(jìn)行序列比對(duì)(設(shè)置參數(shù)--cross-species--allow-close-indels0),使用cDNA_Cupcake( /Magdoll/cDNA_Cupcake/wiki)軟件對(duì)比對(duì)結(jié)果去冗余,過(guò)濾identity小于0.9,coverage小于0.85的序列,合并僅5’端外顯子有差異的比對(duì)。過(guò)濾的轉(zhuǎn)錄本列1.轉(zhuǎn)錄本序列1.轉(zhuǎn)錄本分類結(jié)1.轉(zhuǎn)錄本注釋結(jié)果1.轉(zhuǎn)錄組eads與參考組序列比對(duì)結(jié)果文件(通常為BAM格式)、物種參考組序列和注釋文件,推薦使用整合組瀏覽器(IGV,IntegrativeGenomicsViewer)進(jìn)行可視化瀏覽。IGV具有以下特點(diǎn):能在不同尺度下顯示單個(gè)或多個(gè)eads在參考組上的位置,包括eads在各個(gè)上的分布情況和在注釋的外顯子、內(nèi)含子、剪接接合區(qū)、間區(qū)的分布情況等;能在不同尺度下顯示不同區(qū)域的Reads豐度,以反映不同區(qū)域的轉(zhuǎn)錄水平能顯示及其剪接異構(gòu)體的注釋信息能顯示其他注釋信息既可以從服務(wù)器端各種注釋信息,又可以從本地加載注釋信息IGV瀏覽器界利用BUSCO[7]對(duì)去冗余后的轉(zhuǎn)錄組進(jìn)行完整性評(píng)估,評(píng)估結(jié)果如圖所示轉(zhuǎn)錄組完整性評(píng)估結(jié)果示意轉(zhuǎn)錄本融合發(fā)因?yàn)槿ト哂喾治鲞^(guò)程中,通過(guò)設(shè)置最小coverage為0.85過(guò)濾了嵌合序列,故融合轉(zhuǎn)錄本分析中需要使用去冗余前的一致序列,按下條件進(jìn)行融合轉(zhuǎn)錄本篩選比對(duì)到2個(gè)或多個(gè)位點(diǎn)每個(gè)位點(diǎn)必須比對(duì)上至少5%的轉(zhuǎn)錄本長(zhǎng)度,最小比對(duì)長(zhǎng)度為所有位點(diǎn)比對(duì)到的總長(zhǎng)度必須占轉(zhuǎn)錄本總長(zhǎng)度的95%以上兩位點(diǎn)間距離必須達(dá)10kb以上。gff注釋文件:融合轉(zhuǎn)錄本GFF文件1.提供組注釋補(bǔ)充信息的同時(shí),也提供以FATA格式的新轉(zhuǎn)錄本序列。融合轉(zhuǎn)錄本序列的FSTA文件:融合轉(zhuǎn)錄本FASTA文件1.轉(zhuǎn)錄本結(jié)構(gòu)分轉(zhuǎn)錄生成的前體mN(pre-RA),有多種剪接方式,選擇不同的外顯子,產(chǎn)生不同的成熟mN,從而翻譯為不同的蛋白質(zhì),構(gòu)成生物性狀的多樣性。這種轉(zhuǎn)錄后的mNA加工過(guò)程稱為可變剪接或選擇性剪接(lternativespliing)。通過(guò)Astalavista軟件[8]獲取每個(gè)樣品存在的可變剪接類型,主要的可變剪接類型如下圖所示可變剪接類注:(A外顯子跳躍;(B)可變轉(zhuǎn)錄終止位點(diǎn);(C)可變外顯子;(D)可變轉(zhuǎn)錄起始位點(diǎn);(E內(nèi)含子保留我們從Astalavista軟件分析結(jié)果中,對(duì)轉(zhuǎn)錄本發(fā)生上述5種可變剪接事件情況進(jìn)行統(tǒng)計(jì),各樣品中預(yù)測(cè)的可變剪接事件數(shù)量統(tǒng)計(jì)見下可變剪接事件數(shù)量統(tǒng)注:Alternative3'splicesite:可變轉(zhuǎn)錄終止位點(diǎn);Alternative5'splicesite:可變轉(zhuǎn)錄起始位點(diǎn);Exonskip外顯子跳躍;Intronretention內(nèi)含子保留;Mutuallyexclusiveexon:可變外顯子可變剪接事件統(tǒng)計(jì)1.由于使用的軟件或數(shù)據(jù)本身的局限性,導(dǎo)致所選參考組的注釋往往不夠精確,這樣就有必要對(duì)原有注釋的結(jié)構(gòu)進(jìn)行優(yōu)化。如果在原有邊界之外的區(qū)域有MappedReads支持,將的非翻譯區(qū)(UntranslatedRegion,UTR)向上下游延伸,修正的邊界。結(jié)構(gòu)優(yōu)化結(jié)果見下面文件:結(jié)構(gòu)優(yōu)化結(jié)注:GeneID:ID;Locus:座,格式為“編號(hào):起點(diǎn)坐標(biāo)-終點(diǎn)坐標(biāo)”;Strand:正負(fù)鏈;Site:優(yōu)化的位置,3'或5'UTR;OriginalSite:原來(lái)注多聚腺苷酸化是指多聚腺苷酸與信使RNA(mRNA)分子的共價(jià)鏈結(jié)。在蛋白質(zhì)生物合成的過(guò)程中,這是產(chǎn)生準(zhǔn)備作翻譯的成mRNA的方式的一部份。在真核生物中,多聚腺苷酸化是一種機(jī)制,令mRNA分子于它們的3'端中斷。多聚腺苷酸尾(A尾)保護(hù)mRNA,免受核酸外切酶,并且對(duì)轉(zhuǎn)錄終結(jié)、將mRNA從細(xì)胞核輸出及進(jìn)行翻譯都十分重要。在原核生物中,前體mRNA的可變多聚腺苷酸化(alternativepolyadenylation,APA)可能貢獻(xiàn)于轉(zhuǎn)錄組多樣性,組的編碼能力以及的調(diào)控機(jī)制。我們采用TAPISpipeline[9]來(lái)識(shí)APA。各個(gè)樣品所識(shí)別出的APA如下:可變多聚腺苷酸化結(jié)1.多聚腺苷酸化位點(diǎn)個(gè)數(shù)分布示意注:橫坐標(biāo):多聚腺苷酸化位點(diǎn)個(gè)數(shù);縱坐標(biāo):個(gè)數(shù)利用MEME對(duì)所有轉(zhuǎn)錄本polyA位點(diǎn)上游50bp的序列進(jìn)行分析,鑒定得到的motif如下圖所示polyA位點(diǎn)上游motifSSR分MISA(MIcroSAliteidentificationtool)是一款鑒定簡(jiǎn)單重復(fù)序列的軟件,其參考見附表。它可以通過(guò)對(duì)轉(zhuǎn)錄本序列的分析,鑒定出7種類型的SSR:Mono-nucleotide(單堿基)、Di-nucleotide(雙堿基)、Tri-nucleotide(三堿基)、Tetra-nucleotide(四堿基)、enta-nuceotde(五堿基)、exa-nuclotie(六堿基)、copoundR(混合微,兩個(gè)SR距離小于100bp)從新轉(zhuǎn)錄本中篩選500bp以上的轉(zhuǎn)錄本,利用MISA軟件做SSR分析,結(jié)果見下表SSR分析結(jié)果統(tǒng)SearchingTotalnumberofsequencesTotalsizeofexaminedsequencesTotalnumberofidentifiedNumberofSSRcontainingNumberofsequencescontainingmorethan1NumberofSSRspresentincompoundMonoDiTriTetraPentaHexaSSR分析結(jié)注:每一行為一個(gè)SSR標(biāo)記及其引物設(shè)計(jì)結(jié)果,每個(gè)SSR標(biāo)記最多設(shè)計(jì)三對(duì)引物;eI:轉(zhuǎn)錄本編號(hào);SSn:同一轉(zhuǎn)錄本上的SSR序號(hào);SSty:SSR類型,包括完美單堿基重復(fù)()、完美雙堿基重復(fù)(p)、完美三堿基重復(fù)(p)、完美四堿基重復(fù)(p)、完美五堿基重復(fù)()、完美六堿基重復(fù)(6)和混合SS(c,即包含至少兩個(gè)完美SS,且之間距離小于1b);SSR:SSR序列,括號(hào)內(nèi)為重復(fù)單元,括號(hào)外數(shù)字表示重復(fù)次數(shù);Siz:SSR的長(zhǎng)度;SSStat:SSR在轉(zhuǎn)錄本上的開始位置;SSREd:SSR在轉(zhuǎn)錄本上的結(jié)束位置;FP1'-:第一條正向引物序列;Tm:第一條正向引物序列的退火溫度,單位為C;Siz:第一條正向引物序列的長(zhǎng)度;P1'-'):第一條反向引物序列;Tm:第一條反向引物序列的退火溫度,單位為C;Siz:第一條反向引物序列的長(zhǎng)度;Psiz:產(chǎn)物的長(zhǎng)度;PStt:產(chǎn)物在上的開始位置;PEd:產(chǎn)物在上的結(jié)束位置。對(duì)不同SSR類型的密度分布進(jìn)行統(tǒng)計(jì),結(jié)果見下圖SSR類型分布示意新編碼區(qū)序列預(yù)TransDecoder[10](v3.0.0)軟件基于開放閱讀框(OpenReadingFrame,ORF)長(zhǎng)度、對(duì)數(shù)似然函數(shù)值(Log-likelihoodcore)、氨基酸序列與fam數(shù)據(jù)庫(kù)蛋白質(zhì)結(jié)構(gòu)域序列的比對(duì)等信息,能夠從轉(zhuǎn)錄本序列中識(shí)別可靠的潛在編碼區(qū)序列(odingequence,CDS),是常用的CDS預(yù)測(cè)軟件對(duì)可變剪接分析中得到的新轉(zhuǎn)錄本使用TransDecoder軟件對(duì)其編碼區(qū)序列及其對(duì)應(yīng)氨基酸序列的預(yù)測(cè)。本次共獲得orf個(gè),其中完整orf20,456條,預(yù)測(cè)的CDS文件結(jié)果如下圖CDS分析結(jié)果文件示意注:文件為標(biāo)準(zhǔn)的FASTA格式,每個(gè)序列單元以開始到下一個(gè)“<”之前結(jié)束。“<”后面緊接編碼區(qū)序列編號(hào)(由轉(zhuǎn)錄本編號(hào)和開放閱讀框序號(hào)構(gòu)成),轉(zhuǎn)錄本編號(hào),之后是序列描述信息,包括序列類型(OFty)、序列長(zhǎng)度(l)、序列在轉(zhuǎn)錄本上的位置(lc)和鏈類型。預(yù)測(cè)的編碼區(qū)序列類型有完整(cmlt,即同時(shí)預(yù)測(cè)到起始子和終止子)、’端部分(im_til,即僅預(yù)測(cè)到起始子)、’端部分(pim_atil,即僅預(yù)測(cè)到終止子)和內(nèi)部區(qū)段(itrl,即起始子和終止子都沒(méi)有預(yù)測(cè)到)。從第二行開始直到出現(xiàn)之前為止為編碼區(qū)序列。預(yù)測(cè)得到的完整ORF區(qū)編碼蛋白序列長(zhǎng)度分布如下預(yù)測(cè)的CDS編碼蛋白長(zhǎng)度分布示意LncRNA預(yù)因lncA不編碼蛋白,因此,通過(guò)對(duì)轉(zhuǎn)錄本進(jìn)行編碼潛能篩選,判斷其是否具有編碼潛能,從而可以判定該轉(zhuǎn)錄本是否為lncRNA。百邁客綜合目前應(yīng)用最廣泛的編碼潛能分析方法對(duì)新發(fā)現(xiàn)的轉(zhuǎn)錄本進(jìn)行l(wèi)ncRNA的預(yù)測(cè),主要包括:CPC[11]分析、CNCI[12]分析、pfam蛋白結(jié)構(gòu)域分析、CPAT[13]分析四種方法。CPC(CodingPotentialCalculator)是一種基于序列比對(duì)的蛋白質(zhì)編碼潛能計(jì)算工具。通過(guò)將轉(zhuǎn)錄本與已知蛋白數(shù)據(jù)庫(kù)比對(duì)根據(jù)轉(zhuǎn)錄本各個(gè)編碼框的生物學(xué)序列特征評(píng)估其編碼潛能。Score<0時(shí),為noncodingRNA。CPC分析結(jié)果CPC分析結(jié)果統(tǒng)注:第1列:transcript_id:轉(zhuǎn)錄本ID;第2列 length:ORF長(zhǎng)度;第3列:type:轉(zhuǎn)錄本類型;第4列:score:轉(zhuǎn)錄本得分,當(dāng)score<0時(shí),為NoncodingCNCICNCI(Coding-Non-CodingIndex)分析是一種通過(guò)相鄰核苷酸三聯(lián)體特征區(qū)分編碼-非編碼轉(zhuǎn)錄本的方法。該工具不依賴于已知的注釋文件,可以有效對(duì)不完整的轉(zhuǎn)錄本和反義轉(zhuǎn)錄本進(jìn)行預(yù)測(cè)。NI工具提供兩種比對(duì)模式:ve(脊椎物種);pl(植物物種),本項(xiàng)目選擇pl參數(shù)。當(dāng)score<0時(shí),為 CI分析結(jié)果如下:CNCI分析結(jié)果統(tǒng)注:第1列:transcript_id:轉(zhuǎn)錄本ID;第2列:type:轉(zhuǎn)錄本類型;第3列:score:轉(zhuǎn)錄本得分,當(dāng)score<0時(shí),為Noncoding;第4列:start:轉(zhuǎn)錄本起始位置;第5列:end:轉(zhuǎn)錄本終止位置。CPATCPAT(CodingPotentialAssessmentTool)分析是一種通過(guò)構(gòu)建邏輯回歸模型,基于ORF長(zhǎng)度、ORF覆蓋度,計(jì)算Fickett得分和Hexamer得分來(lái)判斷轉(zhuǎn)錄本編碼和非編碼能力的分析方法。CPAT分析結(jié)果如下:CPAT分析結(jié)果統(tǒng)fam數(shù)據(jù)庫(kù)是最全面的蛋白結(jié)構(gòu)域注釋的分類系統(tǒng)。蛋白質(zhì)是由一個(gè)或多個(gè)結(jié)構(gòu)域組成的,而每個(gè)特定結(jié)構(gòu)域的蛋白序列具有一定保守性。fam將蛋白質(zhì)的結(jié)構(gòu)域分為不同的蛋白,通過(guò)蛋白序列的比對(duì)建立了每個(gè)的氨基酸序列的HM統(tǒng)計(jì)模型。百邁客將轉(zhuǎn)錄本各個(gè)編碼框上的蛋白序列與pfam數(shù)據(jù)庫(kù)做hmscan同源搜索,能比對(duì)上的轉(zhuǎn)錄本即為具有某個(gè)蛋白結(jié)構(gòu)域的轉(zhuǎn)錄本,即認(rèn)為具有編碼能力,而無(wú)比對(duì)結(jié)果的轉(zhuǎn)錄本被認(rèn)為是潛在的lncRNA。結(jié)果如下:pfam分析結(jié)果統(tǒng)注:第1列:transcript_id:轉(zhuǎn)錄本ID;第2列hmmacc:比對(duì)到pfam結(jié)構(gòu)域ID;:hmmstart:比對(duì)到結(jié)構(gòu)域的起始位置;第3列:hmmname:pfam結(jié)構(gòu)稱;第4列:hmmstart:比對(duì)到結(jié)構(gòu)域的起始位置;5列:hmmend:比對(duì)到結(jié)構(gòu)域的終止位置;6列:hmmlength:pfam結(jié)構(gòu)域的長(zhǎng)度;7列bitscore比對(duì)打分值;第八列:E-value:比對(duì)的E值,pfam結(jié)構(gòu)域篩選的條件E-value<0.001。為直觀展示分析結(jié)果,將以上4種分析軟件鑒定得到的noncdingtranscripts進(jìn)上4種分析結(jié)果取交集,用于后續(xù)lncRNA4種篩選方法維恩根據(jù)lncRNA在參考組注釋信息(gff)上的位置,對(duì)lncRNA進(jìn)行分類繪圖,結(jié)果如下lncRNA位置分類示lncRNA靶預(yù)對(duì)預(yù)測(cè)得到的lncRNA序列進(jìn)行靶預(yù)測(cè)?;趌ncRNA與其靶的作用方式,我們采用2種預(yù)測(cè)方法第一種,lncRNA調(diào)控其鄰近的表達(dá),主要根據(jù)lncRNA與mRNA的位置關(guān)系預(yù)測(cè),定義中每100kbp范圍內(nèi)存在差異表達(dá)lncRNA與差異表達(dá)的mRNA;第二種,lncA與mNA由于堿基互補(bǔ)配對(duì)而產(chǎn)生作用,主要利用Lncar[14]靶預(yù)測(cè)工具對(duì)我們的LncRA進(jìn)行靶預(yù)測(cè)。兩種方法共預(yù)測(cè)得到的靶結(jié)果請(qǐng)見文件:靶預(yù)測(cè)結(jié)果注:第一列:lncRNA的id號(hào);第二列:對(duì)應(yīng)的編號(hào)lncRNA;靶id號(hào);基于位置關(guān)系的LncRNA靶預(yù)基于物理位置的靶預(yù)測(cè)結(jié)注:第一列:lncRNA的id號(hào);第二列:lncRNA對(duì)應(yīng)的靶id號(hào);編號(hào)基于互補(bǔ)序列的靶預(yù)注:#LncRNA_ID:lncRNA的id號(hào);TargetGene_id:lncRNA對(duì)應(yīng)的靶ID轉(zhuǎn)錄因子分轉(zhuǎn)錄因子(Transcriptionfactor)是指能夠結(jié)合在某上游特異核苷酸序列上的蛋白質(zhì),這些蛋白質(zhì)可以調(diào)控RNA聚合酶與DNA模板的結(jié)合,從而調(diào)控的轉(zhuǎn)錄。植物轉(zhuǎn)錄因子預(yù)測(cè)使用iTAK[15]軟件,動(dòng)物轉(zhuǎn)錄因子鑒定使用動(dòng)物轉(zhuǎn)錄因子數(shù)據(jù)庫(kù)—— 2.0[16],共預(yù)測(cè)得到轉(zhuǎn)錄因子4,005個(gè),預(yù)測(cè)結(jié)果如下:轉(zhuǎn)錄因子序列文使用BLAST[17]軟件(version2.2.26)將得到的新轉(zhuǎn)錄本序列與NR[18]、Swissprot[19],GO[20]、COG[21]、KOG[22]、Pfam[23]、NR數(shù)據(jù)庫(kù)是NCBI中的非冗余蛋白質(zhì)數(shù)據(jù)庫(kù),包含了Swissprot、PIR(ProteinInformationResource)、PRF(ProteinResearchFoundation)、PDB(ProteinDataBank)蛋白質(zhì)數(shù)據(jù)庫(kù)及從GenBank和RefSeq的CDS數(shù)據(jù)翻譯過(guò)來(lái)的蛋白質(zhì)數(shù)據(jù)信息。該數(shù)據(jù)庫(kù)網(wǎng)址見附表。issprot數(shù)據(jù)庫(kù)是由I(歐洲生物信息學(xué))負(fù)責(zé)的數(shù)據(jù)庫(kù),包含了有相關(guān)參考文獻(xiàn)且經(jīng)過(guò)校對(duì)的蛋白質(zhì)注釋信息數(shù)據(jù)庫(kù),可信度很高。COG(ClustersofOrthologousGroups)數(shù)據(jù)庫(kù)是對(duì)產(chǎn)物進(jìn)行同源分類的數(shù)據(jù)庫(kù),是一個(gè)較早的識(shí)別直系同源的數(shù)據(jù)庫(kù),通過(guò)對(duì)多種生物的蛋白質(zhì)序列大量比較而來(lái)的。KOG(euKaryoticOrthologGroups)數(shù)據(jù)庫(kù)是針對(duì)真核生物,基于直系同源關(guān)系,結(jié)合進(jìn)化關(guān)系將來(lái)自不同物種的同源分為不同的Ortholog簇。來(lái)自同一Ortholog的具有相同的功能,這樣就可以將功能注釋直接繼承給同一KOG簇的其他成員。Pfam(Proteinfamily)是最全面的蛋白結(jié)構(gòu)域注釋的分類系統(tǒng)。蛋白質(zhì)是由一個(gè)個(gè)結(jié)構(gòu)域組成的,而每個(gè)特定結(jié)構(gòu)域的蛋白序列具有一定保守性。Pfam將蛋白質(zhì)的結(jié)構(gòu)域分為不同的蛋白,通過(guò)蛋白序列的比對(duì)建立了每個(gè)的氨基酸序列的HMM統(tǒng)計(jì)模型。GO(GeneOntology)數(shù)據(jù)庫(kù)是一個(gè)國(guó)際標(biāo)準(zhǔn)化的功能分類體系,提供了一套動(dòng)態(tài)更新的標(biāo)準(zhǔn)詞匯表來(lái)全面描述生物體中和產(chǎn)物的功能屬性。該數(shù)據(jù)庫(kù)總共有三大類,分別是分子功能(molecularfunction),細(xì)胞組分(cellularcomponent)和生物學(xué)過(guò)程(biologicalprocess),各自描述了產(chǎn)物可能行使的分子功能,以及所處的細(xì)胞環(huán)境和參與的生物學(xué)過(guò)程。GO數(shù)據(jù)庫(kù)中最基本的概念是Term,每個(gè)條目都有一個(gè)Term名,比如“cell”、“fibroblastgrowthfactorreceptorbinding”或者“signaltransduction”,同時(shí)有一個(gè)唯一的編號(hào),形如GO:nnnnnnn。KEGG(KyotoEncyclopediaofGenesandGenomes)數(shù)據(jù)庫(kù)是系統(tǒng)分析產(chǎn)物在細(xì)胞中的代謝途徑以及這些產(chǎn)物功能的數(shù)據(jù)庫(kù)。它整合了組、化學(xué)分子和生化系統(tǒng)等方面的數(shù)據(jù),包括代謝通路(AHWA)、藥物(DU)、疾病(IES)、序列(GENES)及組(GENOME)等。利用該數(shù)據(jù)庫(kù)有助于把及表達(dá)信息作為一個(gè)整體的網(wǎng)絡(luò)進(jìn)行研究。將可變剪接分析中得到的新轉(zhuǎn)錄本進(jìn)行功能注釋,各數(shù)據(jù)庫(kù)注釋到的轉(zhuǎn)錄本數(shù)量統(tǒng)計(jì)見下表注釋的轉(zhuǎn)錄本數(shù)量統(tǒng)計(jì)AnnotatedNewIsoformSwiss-(genefamily)是來(lái)源于同一個(gè)祖先,由一個(gè)通過(guò)重復(fù)而產(chǎn)生兩個(gè)或的拷貝而構(gòu)成的一組,它們?cè)诮Y(jié)構(gòu)和功能上具有明顯的相似性,編碼相似的蛋白質(zhì)產(chǎn)物。通過(guò)Pfam注釋,轉(zhuǎn)錄本的 分類結(jié)果如下:分類結(jié)注:第一列:名稱;第二列:對(duì)應(yīng)轉(zhuǎn)錄本的idSNP/InDel分SNP(SingleNucleotidePolymorphisms)是指在組上由單個(gè)核苷酸變異形成的遺傳標(biāo)記,其數(shù)量很多,多態(tài)性豐富。百邁客基于各樣品reads與參考組序列的opat2比對(duì)結(jié)果,使用AK軟件[25]識(shí)別樣品與參考組間的單堿基錯(cuò)配,識(shí)別潛在的SNP位點(diǎn)。進(jìn)而可以分析這些SNP位點(diǎn)是否影響了的表達(dá)水平或者蛋白產(chǎn)物的種類Inel(inertin-eleton)是指相對(duì)于參考組,樣本中發(fā)生的小片段的插入缺失,該插入缺失可能含一個(gè)或多個(gè)堿基。GAK也能夠檢測(cè)樣品的插入缺失(Inel)。Inel變異一般比SP變異少,同樣反映了樣品與參考組之間的差異,并且編碼區(qū)的Inel會(huì)引起移碼突變,導(dǎo)致功能上的變化。GATK識(shí)別標(biāo)準(zhǔn)如下:35bp范圍內(nèi)連續(xù)出現(xiàn)的單堿基錯(cuò)配不超過(guò)3個(gè)經(jīng)過(guò)序列深度標(biāo)準(zhǔn)化的SNP質(zhì)量值大于2.0。各樣品分別按照以上條件篩選,最終獲得可靠的SNP位點(diǎn)SnpEff[26]是一款用于注釋變異(SNP、InDel)和預(yù)測(cè)變異影響的軟件。根據(jù)變異位點(diǎn)在參考組上的位置以及參考組上的位置信息,可以得到變異位點(diǎn)在組發(fā)生的區(qū)域(間區(qū)、區(qū)或DS區(qū)等),以及變異產(chǎn)生的影響(同義非同義突變等)。由于轉(zhuǎn)錄完成之后,RA除了需要加帽、加loy()和可變剪接之外,較少mNA會(huì)經(jīng)歷RA編輯(RAeditin),從而會(huì)產(chǎn)生單堿基的替換、插入、缺失。NA編輯能使同一產(chǎn)生序列多樣的mRA,但是這種多態(tài)性不是組固有的多態(tài)性。從比對(duì)結(jié)果來(lái)看,SNP和單堿基替換的RNA編輯結(jié)果是一樣的。因此,通過(guò)轉(zhuǎn)錄組數(shù)據(jù)識(shí)別出SNP不免會(huì)含有RNA編輯的產(chǎn)物。SNP位點(diǎn)信InDel位點(diǎn)信注:Chr:SNP/InDel位點(diǎn)所在 編號(hào);Pos:SNP/InDel位點(diǎn)在 上的位置;Gene_id:SNP/InDel位點(diǎn)所在的或原來(lái)未注釋的區(qū)(表中用Intergenic表示);Ref:所選參考 組中的SNP/InDel等位;Alt: 樣品中識(shí)別到的其他的SNP/InDel等位;T*:樣品T*該SNP/InDel位點(diǎn)的分型;Depth:樣品T*該SNP/InDel位點(diǎn)的 深度;AlleDp:樣品T*該SNP/InDel位點(diǎn)的各等位 深度;Effect:SNP/InDel所在區(qū)域或類型;Codon_change:編碼改變方式,未改變用點(diǎn)表示。Effect具體說(shuō)明詳見: 根據(jù)SP位點(diǎn)堿基替換的不同方式,可以將SP位點(diǎn)分為轉(zhuǎn)換(ransition)和顛換(ransvesion)兩種類型。根據(jù)SP位點(diǎn)的等位(Allele)數(shù)目,可以將SNP位點(diǎn)分為純合型SNP位點(diǎn)(只有一個(gè)等位)和雜合型SNP位點(diǎn)(兩個(gè)或多個(gè)等位)。不同物種雜合型SNP所占的比例存在差異。對(duì)各樣品篩選出的SNP位點(diǎn)數(shù)目、轉(zhuǎn)換類型比例、顛換類型比例以及雜合型SNP位點(diǎn)比例進(jìn)行統(tǒng)計(jì),如下表SNP位點(diǎn)統(tǒng)計(jì)部分結(jié)果展BMK-SNPGenicIntergenicSNP突變類型統(tǒng)計(jì)分布如下圖所示SNP突變類型分布示意注:橫軸為SNP突變類型,縱軸為相應(yīng)的SNP將每個(gè)的SP位點(diǎn)數(shù)目除以的長(zhǎng)度,得到每個(gè)的SP位點(diǎn)密度值,統(tǒng)計(jì)所有的NP位點(diǎn)密度值并做密度分布圖。部分的SNP位點(diǎn)密度分布圖如下:SNP密度分布注:橫軸為上平均每1000bp序列中分布的SNP數(shù)目,縱軸為數(shù)采用SNPEff分別對(duì)SNP,InDel注釋,SNP,InDel的注釋結(jié)果統(tǒng)計(jì)如下所示注:縱軸為SNP所在區(qū)域或類型,橫軸為分類數(shù)目。InDel注釋分類示注:縱軸為InDel所在區(qū)域或類型,橫軸為分類數(shù)目本項(xiàng)目使用指定的組作為參考進(jìn)行序列比對(duì)及后續(xù)分析,利用HISAT2將CleanReads與參考組進(jìn)行序列比對(duì),獲取在參考組或上的位置信息。將比對(duì)到不同上的Reads進(jìn)行位置分布統(tǒng)計(jì),繪制MappedReads在所選參考組上的覆蓋深度分布圖二代數(shù)據(jù)與參考組比對(duì)部分結(jié)果展TotalMappedUniquelymappedMultiplemappedMappedReads在參考組上的位置及覆蓋深度分布示意注:橫坐標(biāo)為位置;縱坐標(biāo)為覆蓋深度以2為底的對(duì)數(shù)值,以10kb作為區(qū)間單位長(zhǎng)度,劃分成多個(gè)小窗口(Window),統(tǒng)計(jì)落在各個(gè)窗口內(nèi)的Mapped Reads作為其覆蓋深度。藍(lán)色為正鏈,綠色為負(fù)鏈。統(tǒng)計(jì)MappedReads在指定的參考組不同區(qū)域(外顯子、內(nèi)含子和間區(qū))的數(shù)目,繪制組不同區(qū)域上各樣品Mapped的分布圖,如下組不同區(qū)域Reads分布示意注:圖中將組分為外顯子區(qū)、間區(qū)、內(nèi)含子區(qū),區(qū)域大小按Map到相應(yīng)區(qū)域的Reads在所有MappedReads中所占理論上,來(lái)自成熟RA的eads應(yīng)比對(duì)到外顯子區(qū)。eads比對(duì)到內(nèi)含子是由于RA前體和發(fā)生可變剪切的內(nèi)含子保留;Reads比對(duì)到間區(qū)是由于組注釋不完善。合格的轉(zhuǎn)錄組文庫(kù)是轉(zhuǎn)錄組的必要條件,為確保文庫(kù)的質(zhì)量,從以下3個(gè)不同角度對(duì)轉(zhuǎn)錄組文庫(kù)進(jìn)行質(zhì)量評(píng)估。(1)片段化隨機(jī)性檢驗(yàn)mNA片段化后的插入片段大小選擇,是從RA序列中獨(dú)立隨機(jī)地抽取子序列,mNA數(shù)目越大、打斷方式和時(shí)間控制得越合適,目的RA每個(gè)部分被抽取到的可能性就越接近,RA片段化隨機(jī)性越高,mRA上覆蓋的eads越均勻。通過(guò)apped eds在各mRNA轉(zhuǎn)錄本上的位置分布,模擬mRNA片段化結(jié)果,檢驗(yàn)mRNA片段化的隨機(jī)程度。如果mRNA存在嚴(yán)重降解,被降解的堿基序列不能被,即無(wú)eads比對(duì)上。因此,通過(guò)查看appedeads在NA轉(zhuǎn)錄本上的位置分布可了解RA的降解情況。樣品MappedReads在mRNA轉(zhuǎn)錄本上的位置分布如下圖:MappedReadsmRNA上的位置分布示注:橫坐標(biāo)為標(biāo)準(zhǔn)化后的mRNA位置,縱坐標(biāo)為對(duì)應(yīng)位置區(qū)間內(nèi)Reads在總MappedReads中所占百分比。由于參考的mRNA長(zhǎng)度不同,作圖時(shí)對(duì)把每個(gè)mRNA按照長(zhǎng)度劃分成100個(gè)區(qū)間,進(jìn)而統(tǒng)計(jì)每一區(qū)間內(nèi)的MappedReads數(shù)目及所占的比例,圖中反映的是所有mRNA各個(gè)區(qū)間內(nèi)的MappedReads比例的匯總。插入片段長(zhǎng)度檢驗(yàn)插入片段長(zhǎng)度檢驗(yàn)插入片段長(zhǎng)度的離散程度能直接反映出文庫(kù)過(guò)程中磁珠純化的效果。通過(guò)插入片段兩端的eads在參考組上的比對(duì)起止點(diǎn)之間的距離計(jì)算插入片段長(zhǎng)度。大部分的真核生物為斷裂,外顯子被內(nèi)含子隔斷,而轉(zhuǎn)錄組得到的是無(wú)內(nèi)含子的成熟RN。當(dāng)RA中跨內(nèi)含子的片段兩端的eads比對(duì)到組上時(shí),比對(duì)起止點(diǎn)之間的距離要大于插入片段長(zhǎng)度。因此,在插入片段長(zhǎng)度模擬分布圖中,主峰右側(cè)形成1個(gè)或多個(gè)雜峰。各樣品的插入片段長(zhǎng)度模擬分布圖如下:插入片段長(zhǎng)度模擬分布示意注:橫坐標(biāo)為雙端Reads在參考組上的比對(duì)起止點(diǎn)之間的距離,范圍為0到800bp;縱坐標(biāo)為比對(duì)起止點(diǎn)之間不同距離的雙端或插入片段數(shù)量轉(zhuǎn)錄組數(shù)據(jù)飽和度檢驗(yàn)為了評(píng)估數(shù)據(jù)是否充足并滿足后續(xù)分析,對(duì)得到的轉(zhuǎn)錄本數(shù)進(jìn)行飽和度檢測(cè)。由于一個(gè)物種的數(shù)目是有限的,且轉(zhuǎn)錄具有時(shí)間和空間特異性,因此隨著量的增加,檢測(cè)到的轉(zhuǎn)錄本數(shù)目會(huì)趨于飽和。對(duì)于表達(dá)量越高的轉(zhuǎn)錄本,越容易被檢測(cè)定量。因此,對(duì)于表達(dá)量越低的轉(zhuǎn)錄本,需要更大的數(shù)據(jù)量才能被準(zhǔn)確定量。使用各樣品的appedata對(duì)檢測(cè)到的不同表達(dá)情況的轉(zhuǎn)錄本數(shù)目飽和情況進(jìn)行模擬,繪制曲線圖如下:轉(zhuǎn)錄組數(shù)據(jù)飽和度模擬示意注:本圖為隨機(jī)抽取10%、20%、30%……90%的總體數(shù)據(jù)單獨(dú)進(jìn)行定量分析的結(jié)果;橫坐標(biāo)代表抽取數(shù)據(jù)定位到組上Reads數(shù)占總定位的reads數(shù)的百分比,縱坐標(biāo)代表所有抽樣結(jié)果中表達(dá)量差距小于15%的Gene在各個(gè)FPKM范圍的百分比轉(zhuǎn)錄組可以模擬成一個(gè)隨機(jī)抽樣的過(guò)程,即從一個(gè)樣品轉(zhuǎn)錄組的任意一段核酸序列上獨(dú)立地隨機(jī)抽取序列片段。抽取自某一(或轉(zhuǎn)錄本)的片段數(shù)目服從負(fù)二項(xiàng)分布(BetaNegativeBinomialDistribution)?;谠摂?shù)學(xué)模型,使用Cufflinks軟件[27]的Cuffquant和Cuffnorm組件,通過(guò)MappedReads在上的位置信息,對(duì)轉(zhuǎn)錄本的表達(dá)水平進(jìn)行定量。抽取自一個(gè)轉(zhuǎn)錄本的片段數(shù)目與數(shù)據(jù)(或apped ata)量、轉(zhuǎn)錄本長(zhǎng)度、轉(zhuǎn)錄本表達(dá)水平都有關(guān),為了讓片段數(shù)目能反映轉(zhuǎn)錄本表達(dá)水平,需要對(duì)樣品中的appedeads的數(shù)目和轉(zhuǎn)錄本長(zhǎng)度進(jìn)行歸一化。uffuant和uffnorm采用FPKM(FragmentsPerKilobaseoftranscriptperMillionfragmentsmapped)作為衡量轉(zhuǎn)錄本或表達(dá)水平的指標(biāo),F(xiàn)PKM計(jì)算公式如下:FPKM計(jì)算公注:公式中,cDNAFragments表示比對(duì)到某一轉(zhuǎn)錄本上的片段數(shù)目,即雙端Reads數(shù)目;MappedFragmentsMillions)表示比對(duì)到轉(zhuǎn)錄本上的片段總數(shù),以10^6為單位;TranscriptLength(kb):轉(zhuǎn)錄本長(zhǎng)度10^3個(gè)堿基為單位。所有轉(zhuǎn)錄本的注:第一列表示轉(zhuǎn)錄本ID,其余各列表示轉(zhuǎn)錄本在不同樣品中的表達(dá)量樣品轉(zhuǎn)錄本表達(dá)量總體分各樣品FPKM密度分布對(duì)比注:圖中不同顏色的曲線代表不同的樣品,曲線上點(diǎn)的橫坐標(biāo)表示對(duì)應(yīng)樣品FPKM的對(duì)數(shù)值,點(diǎn)的縱坐標(biāo)表示概率密為了進(jìn)一步查看單個(gè)樣品轉(zhuǎn)錄本表達(dá)水平分布的離散程度,以及直觀的比較不同樣品的整體轉(zhuǎn)錄本表達(dá)水平。采用箱線圖展示FPKM分各樣品FPKM箱線注:圖中橫坐標(biāo)代表不同的樣品;縱坐標(biāo)表示樣品表達(dá)量FPKM的對(duì)數(shù)值。該圖從表達(dá)量的總體離散角度來(lái)衡量各樣品表達(dá)水平。對(duì)于設(shè)立生物學(xué)重復(fù)的項(xiàng)目,評(píng)估生物學(xué)重復(fù)的相關(guān)性對(duì)于分析轉(zhuǎn)錄組數(shù)據(jù)非常重要。生物學(xué)重復(fù)的相關(guān)性不僅可以檢驗(yàn)生物學(xué)實(shí)驗(yàn)操作的可重復(fù)性;還可以評(píng)估差異表達(dá)的可靠性和輔助異常樣品的篩查。將皮爾遜相關(guān)系數(shù)r(PearsonCorrelationCoefficient)作為生物學(xué)重復(fù)相關(guān)性的評(píng)估指標(biāo)。r2越接近1,說(shuō)明兩個(gè)重復(fù)樣品相關(guān)性越強(qiáng)。百邁客保證對(duì)同一條件的所有生物學(xué)重復(fù)樣品進(jìn)行同人同批樣品提取、建庫(kù),同Run同Lane。對(duì)異常樣品進(jìn)行詳細(xì)分析,并根據(jù)分析結(jié)果與溝通共識(shí)決定重新進(jìn)行實(shí)驗(yàn),還是剔除異常樣品進(jìn)行后續(xù)分析。為研究在不同實(shí)驗(yàn)處理下的表達(dá)模式,首先對(duì)選取樣品的FPKM進(jìn)行標(biāo)準(zhǔn)化歸一處理,然后對(duì)標(biāo)準(zhǔn)化的FPKM值進(jìn)行K-聚類分析,同一類的在不同的實(shí)驗(yàn)處理下具有相似的變化趨勢(shì),具有相似變化趨勢(shì)的往往具有相似的功能轉(zhuǎn)錄本表達(dá)聚類折線示意注:x軸表示實(shí)驗(yàn)分組,y軸表示標(biāo)準(zhǔn)化的FPKM。黑色線條表示這個(gè)cluster中的所有在不同實(shí)驗(yàn)條件下相表達(dá)量的平均值的折線圖差異表達(dá)分表達(dá)具有時(shí)間和空間特異性,在兩個(gè)不同條件下,表達(dá)水平存在顯著差異的,差異表達(dá)(EG)。差異表達(dá)分析得到的基因集合叫做差異表達(dá)集,使用“_vs_”的方式命名。根據(jù)兩(組)樣品之間表達(dá)水平的相對(duì)高低,差異表達(dá)可以劃分為上調(diào)(Up-regulatedTranscript)和下調(diào)(Down-regulatedTranscript)。上調(diào)在樣品(組)B中的表達(dá)水平高于樣(組)A中的表達(dá)水平;反之為下調(diào)。上調(diào)和下調(diào)是相對(duì)的,由所給A和B的順序決定對(duì)于有生物學(xué)重復(fù)的樣本,Eeq適用于進(jìn)行樣品組間的差異表達(dá)分析,獲得兩個(gè)生物學(xué)條件之間的差異表達(dá)集;對(duì)于沒(méi)有生物學(xué)重復(fù)的樣本,使用EBSeq進(jìn)行差異分析。在差異表達(dá)過(guò)程中,將FoldChange≥2且FDR<0.01作為篩選標(biāo)準(zhǔn)。差異倍數(shù)(FoldChange)表示兩樣品(組)間表達(dá)量的比值。錯(cuò)誤發(fā)現(xiàn)率(alseiscoeryate,R)是通過(guò)對(duì)差異顯著性p值(p-value)進(jìn)行校正得到的。由于轉(zhuǎn)錄組的差異表達(dá)分析是對(duì)大量的表達(dá)值進(jìn)行獨(dú)立的統(tǒng)計(jì)假設(shè)檢驗(yàn),會(huì)存在假陽(yáng)性問(wèn)題,因此在進(jìn)行差異表達(dá)分析過(guò)程中,采用了公認(rèn)的Benjamini-Hochberg校正方法對(duì)原有假設(shè)檢驗(yàn)得到的顯著性p值(p-value)進(jìn)行校正,并最終采用FDR作為差異表達(dá)篩選的關(guān)鍵差異表達(dá)集數(shù)目統(tǒng)計(jì)如下表差異表達(dá)數(shù)目統(tǒng)計(jì)部分結(jié)果展DEGDEGup-down-通過(guò)火山圖(VolcanoPlot)可以快速地查看在兩個(gè)(組)樣品中表達(dá)水平的差異,以及差異的統(tǒng)計(jì)學(xué)顯著性。差異表達(dá)火山圖下圖差異表達(dá)火山示意注:差異表達(dá)火山圖中的每一個(gè)點(diǎn)表示一個(gè),橫坐標(biāo)表示某一個(gè)在兩樣品中表達(dá)量差異倍數(shù)的對(duì)數(shù)值;縱坐標(biāo)表示表達(dá)量變化的統(tǒng)計(jì)學(xué)顯著性的負(fù)對(duì)數(shù)值。橫坐標(biāo)絕對(duì)值越大,說(shuō)明表達(dá)量在兩樣品間的表達(dá)量倍數(shù)差異越大;縱坐標(biāo)值越大,表明差異表達(dá)越顯著,篩選得到的差異表達(dá)越可靠。圖中綠色的點(diǎn)代表下調(diào)差異表達(dá),紅色的點(diǎn)代表上調(diào)差通過(guò)MA圖可以直觀地查看的兩個(gè)(組)樣品的表達(dá)水平和差異倍數(shù)的整體分布。差異表達(dá)MA圖見下圖差異表達(dá)MA示意注:差異表達(dá)MA圖中每一個(gè)點(diǎn)代表一個(gè)。橫坐標(biāo)為A值:log2(FPKM),即兩樣品中表達(dá)量均值的對(duì)數(shù)值;縱坐標(biāo)為M值:log2(FC),即兩樣品間表達(dá)量差異倍數(shù)的對(duì)數(shù)值,用于衡量表達(dá)量差異的大小。圖中綠色的點(diǎn)代表下調(diào)差異表達(dá),紅色的點(diǎn)代表上調(diào)差異表達(dá),黑色的點(diǎn)代表非差異表達(dá)。對(duì)篩選出的差異表達(dá)做層次聚類分析,將具有相同或相似表達(dá)模式的進(jìn)行聚類,部分差異表達(dá)聚類結(jié)果如下圖差異差異表 聚類部分結(jié)果展注:橫坐標(biāo)代表樣品名稱及樣品的聚類結(jié)果,縱坐標(biāo)代表的差異及的聚類結(jié)果。圖中不同的列代表不同的樣品,不同的行代表不同的。顏色代表了在樣品中的表達(dá)量水平log2(FPKM+1)。對(duì)差異表達(dá)進(jìn)行數(shù)據(jù)庫(kù)的功能注釋,各差異表達(dá)集注釋到的數(shù)量統(tǒng)計(jì)見下表注釋的差異表達(dá)數(shù)量部分結(jié)果展DEGSwiss-差異表達(dá)GO注釋及富GO數(shù)據(jù)庫(kù)是GO組織(GeneOntologyConsortium)于2000年構(gòu)建的一個(gè)結(jié)構(gòu)化的標(biāo)準(zhǔn)生物學(xué)注釋系統(tǒng),旨在建立及其產(chǎn)物知識(shí)的標(biāo)準(zhǔn)詞匯體系,適用于各個(gè)物種。GO注釋系統(tǒng)是一個(gè)有向無(wú)環(huán)圖,包含三個(gè)主要分支,即:生物學(xué)過(guò)程(BiologicalProcess),分子功能(MolecularFunction)和細(xì)胞組分(CellularComponent)。差異表達(dá)GO分類統(tǒng)計(jì)結(jié)果見下圖差異表達(dá)GO注釋分類統(tǒng)計(jì)示意注:橫坐標(biāo)為GO分類,縱坐標(biāo)左邊為數(shù)目所占百分比,右邊為數(shù)目。此圖展示的是在差異表達(dá)背景和全部背景下GO各二級(jí)功能的富集情況,體現(xiàn)兩個(gè)背景下各二級(jí)功能的地位,具有明顯比例差異的二級(jí)功能說(shuō)明差異差異表達(dá)topGO有向無(wú)環(huán)示意注:對(duì)每個(gè)GO節(jié)點(diǎn)進(jìn)行富集,最顯著的10個(gè)節(jié)點(diǎn)在圖中用方框表示,圖中還包含其各層對(duì)應(yīng)關(guān)系。每個(gè)方(或橢圓)內(nèi)給出了該GO節(jié)點(diǎn)的內(nèi)容描述和富集顯著性值。不同顏色代表不同的富集顯著性,顏色越深,顯著性越差異表達(dá)KEGG注釋及富在生物體內(nèi),不同的產(chǎn)物相互協(xié)調(diào)來(lái)行使生物學(xué)功能,對(duì)差異表達(dá)的通路(Pathway)注釋分析有助于進(jìn)一步解讀的功能。KEGG(KyotoEncyclopediaofGenesandGenomes)是系統(tǒng)分析功能、組信息數(shù)據(jù)庫(kù),它有助于研究者把及表達(dá)信息作為一個(gè)整體網(wǎng)絡(luò)進(jìn)行研究。作為是有關(guān)Pathway的主要公共數(shù)據(jù)庫(kù)(Kanehisa,2008),KEGG提供的整合代謝途徑(pathay)查詢,包括碳水化合物、核苷、氨基酸等的代謝及有機(jī)物的生物降解,不僅提供了所有可能的代謝途徑,而且對(duì)催化各步反應(yīng)的酶進(jìn)行了全面的注解,包含有氨基酸序列、PDB庫(kù)的等等,是進(jìn)行生物體內(nèi)代謝分析、代謝網(wǎng)絡(luò)研究的強(qiáng)有力工具。差異表 的通路注釋結(jié)果見下圖差異表達(dá)KEGG通路注釋示注:相對(duì)于對(duì)照組來(lái)說(shuō),紅色框標(biāo)記的酶與上調(diào)因有關(guān),綠色框標(biāo)記的酶與下調(diào)有關(guān)。藍(lán)色框標(biāo)記的酶與上調(diào)和下調(diào)均有關(guān),框內(nèi)的數(shù)字代表酶的編號(hào)(ECnumber),而整個(gè)通路由多種酶催化的復(fù)雜生化反應(yīng)構(gòu)成,此通路圖中與差異表達(dá)相關(guān)的酶均用不同的顏色標(biāo)出,根據(jù)研究對(duì)象間的差異,重點(diǎn)研究某些代謝通路相關(guān)的對(duì)差異表達(dá)KEGG的注釋結(jié)果按照KEGG中通路類型進(jìn)行分類,分類圖如下圖所示差異表達(dá)KEGG分類示意注:縱坐標(biāo)為KEGG代謝通路的名稱,橫坐標(biāo)為注釋到該通路下的個(gè)數(shù)及其個(gè)數(shù)占被注釋上的總數(shù)的比例分析差異表達(dá)在某一通是否發(fā)生顯著差異(over-presentation)即為差異表達(dá)的通路富集分析。Pathway顯著性富集分析以KEGG數(shù)據(jù)庫(kù)中Pathway為單位,應(yīng)用超幾何檢驗(yàn),找出與整個(gè)背景相比,在差異表達(dá)中顯著性富集的Pathway。差異表達(dá)KEGG通路富集分析結(jié)果見下圖,圖中呈現(xiàn)了顯著性Q值最小的前20個(gè)通路。差異表達(dá)KEGG通路富集散點(diǎn)示意注:圖中每一個(gè)圓表示一個(gè)KEGG通路,縱坐標(biāo)表示通路名稱,橫坐標(biāo)為富集因子(EnrientFactor),表示差異中注釋到某通路的比例與所有中注釋到該通路的比例的比值。富集因子越大,表示差異表達(dá)在該通路中的富集水平越顯著。圓圈的顏色代表qvalue,qvalue為多重假設(shè)檢驗(yàn)校正之后的Pvalue,qvalue越小,表示差異表達(dá)在該通路中的富集顯著性越可靠;圓圈的大小表示通路中富集的數(shù)目,圓圈越大,表示越多。差異表達(dá)COG分COG(ClusterofOrthologousGroupsofproteins)數(shù)據(jù)庫(kù)是基于細(xì)菌、藻類、真核生物的系統(tǒng)進(jìn)化關(guān)系構(gòu)建得到的,利用COG數(shù)據(jù)庫(kù)可以對(duì)產(chǎn)物進(jìn)行直系同源分類。差異表達(dá)COG分類統(tǒng)計(jì)結(jié)果見下圖差異表達(dá)COG注釋分類統(tǒng)計(jì)示意注:橫坐標(biāo)為COG各分類內(nèi)容,縱坐標(biāo)為數(shù)目。在不同的功能類中,所占多少反映對(duì)應(yīng)時(shí)期和環(huán)境下代謝或者生理偏向等內(nèi)容,差異表達(dá)eggNOG分eggNOG(evolutionarygenealogyofgenes:non-supervisedorthologousgroups)數(shù)據(jù)庫(kù)對(duì)直系同源類群進(jìn)行了功能描述和功能分類的注釋,包含1133個(gè)物種的直系同源類群。eggNOG分類統(tǒng)計(jì)結(jié)果見下圖:差異表達(dá)eggNOG注釋分類統(tǒng)計(jì)示意圖注:橫坐標(biāo)為eggNOG各分類內(nèi)容,縱坐標(biāo)為數(shù)目。差異表達(dá)蛋白互作網(wǎng)TIG是收錄多個(gè)物種預(yù)測(cè)的和實(shí)驗(yàn)驗(yàn)證的蛋白質(zhì)-蛋白質(zhì)互作的數(shù)據(jù)庫(kù),包括直接的物理互作和間接的功能相關(guān)。結(jié)合差異表達(dá)分析結(jié)果和數(shù)據(jù)庫(kù)收錄的互作關(guān)系對(duì),構(gòu)建差異表達(dá)互作網(wǎng)絡(luò)。對(duì)于數(shù)據(jù)庫(kù)中包含的物種,可直接從數(shù)據(jù)庫(kù)中提取出目標(biāo)集的互作關(guān)系對(duì)構(gòu)建互作網(wǎng)絡(luò);對(duì)于數(shù)據(jù)庫(kù)中未收錄信息的物種,使用LAT軟件,將目的與數(shù)據(jù)庫(kù)中的蛋白質(zhì)進(jìn)行序列比對(duì),尋找同源蛋白,根據(jù)同源蛋白的互作關(guān)系對(duì)構(gòu)建互作網(wǎng)絡(luò)。構(gòu)建完成的蛋白質(zhì)互作網(wǎng)絡(luò)可導(dǎo)入Cytoscape軟件進(jìn)行可視化。Cytoscape可視化的差異表達(dá)蛋白質(zhì)互作網(wǎng)絡(luò)如下圖差異表達(dá)蛋白質(zhì)互作網(wǎng)絡(luò)示意注:圖中的節(jié)點(diǎn)為蛋白質(zhì),邊為互作關(guān)系?;プ骶W(wǎng)絡(luò)點(diǎn)(node)的大小與此節(jié)點(diǎn)的度(degree)成正比,即與此節(jié)點(diǎn)相連的邊越多,它的度越大,節(jié)點(diǎn)也就越大。節(jié)點(diǎn)的顏色與此節(jié)點(diǎn)的系數(shù)(clusteringcoefficient)相關(guān),顏色梯度由綠到紅對(duì)應(yīng)系數(shù)的值由低到高;系數(shù)表示此節(jié)點(diǎn)的鄰接點(diǎn)之間的連通性好壞,系數(shù)值越高表示此節(jié)點(diǎn)的鄰接點(diǎn)之間的連通性越好。邊(edge)的寬度表示此邊連接的兩個(gè)節(jié)點(diǎn)間的互相作用的關(guān)系強(qiáng)弱,互相作用的關(guān)系越參考文AuKF,SebastianoV,AfsharPT,DurruthyJD,LeeL,WilliamsBA,etal.CharacterizationofthehumanESCtranscriptomebyhybridsequencing.ProcNatlAcadSciUSA.2013;110(50):E4821–30. :10.1073/pnas. SharonD,TilgnerH,GrubertF,SnyderM.Asingle-moleculelong-readsurveyofthehumantranscriptome.NatBiotechnol.2013;31(11):1009–14. :10.1038/nbt.2705.TreutleinB,GokceO,QuakeSR,SudhofTC.Cartographyofneurexinalternativesplicingmappedbysingle-moleculelong-readmRNAsequencing.ProcNatlAcadSciUSA.2014;111(13):E1291–9. :10.1073/pnas. GordonS, gE,SalamovA,ZhangJ,MengX,etal.(2014)Widespreadpolycistronictranscriptsinmushroom-formingfungirevealedbysingle-moleculelong-readmRNAsequencing.BioRxiv, Hackl,T.,Hedrich,R.,Schultz,J.,Forster,F.(2014).proovread:large-scalehigh-accuracyPacBiocorrectionthroughiterativeshortreadconsensus.Bioinformatics,30(21),3004-3011.WuTD,WatanabeCK(2005)GMAP:agenomicmapandalignmentprogramformRNAandESTsequences.Bioinformatics21:1859–1875.PMID: FelipeA.Sim?o,RobertM.Waterhouse,PanagiotisIoannidis,EvgeniaV.Kriventseva,andEvgenyM.Zdobnov.BUSCO:assessinggenomeassemblyandannotationcompletenesswithsingle-copyorthologs.Bioinformatics31.19(2015):3210-FoissacS,SammethM.ASTALAVISTA:dynamicandflexibleysisofalternativesplicingeventsincustomgenedatasets.NucleicAcidsResearch2007,35(WebServerissue):W297-9.AbdelghanySE,HamiltonM,JacobiJL,etal.Asurveyofthesorghumtranscriptomeusingsingle-moleculelongreads[J].NatureCommunications,2016,7:11706.HaasBJ,PapanicolaouA,YassourM,GrabherrM,BloodPD,BowdenJ,etal.DenovotranscriptsequencereconstructionfromRNA-sequsingtheTrinityplatformforreferencegenerationandysis.NatProtoc.2013;8:1494–1512.:L.Kong,Y.Zhang,Z.Q.Ye,X.Q.Liu,S.Q.Zhao,L.Wei,andG.Gao.2007.CPC:assesstheprotein-codingpotentialoftranscriptsusingsequencefeaturesandsupportvectormachine.NucleicAcidsRes36:W345-349.LiangSun,HaitaoLuo,DechaoBu,GuoguangZhao,KuntaoYu,ChanghaiZhang,YuanningLiu,RunShengChenandYiZhao*Utilizingsequenceintrinsiccompositiontoclassifyprotein-codingandlongnon-codingtranscripts.NucleicAcidsResearch(2013),:10.1093/nar/gkt646.WangL,ParkHJ,DasariS,WangS,KocherJP,LiW.CPAT:Coding-PotentialAssessmentToolusinganalignment-freelogisticregressionmodel.NucleicAcidsRes.2013Apr1;41(6):e74.:10.1093/nar/gkt006.LiJ,MaW,ZengP,etal.LncTar:atoolforpredictingtheRNAtargetsoflongnoncodingRNAs[J].BriefingsinBioinformatics,2015,16(5):806.ZhengY,JiaoC,SunH,RosliHG,PomboMA,ZhangP,BanfM,DaiX,MartinGB,GiovannoniJJ,ZhaoPX,RheeSY,FeiZ(2016)iTAK:aprogramforgenome-widepredictionandclassificationofplanttranscriptionfactors,transcriptionalregulators,andproteinkinases.MolecularPlant9:1667-1670.Hong-MeiZhang,TengLiu,Chun-JieLiu,ShuangyangSong,XiantongZhang,WeiLiu,HaiboJia,YuXue,andAn-YuanGuo.AnimalTFDB2.0:aresourceforexpression,predictionandfunctionalstudyofanimaltranscriptionfactors.Nucl.AcidsRes.(28January2015)43(D1):D76-D81.AltschulSF,MaddenTL,Sch?fferAA,ZhangJ,etal.GappedBLASTandPSIBLAST:ANewGenerationofProteinDatabaseSearchPrograms.NucleicAcidsResearch1997,25(17):3389-3402.DengYY,LiJQ,WuSF,ZhuYP,etal.IntegratedNRDatabaseinProteinAnnotationSystemandItsLocalization.ComputerEngineering2006.,32(5):71-74.ApR,BairochA,WuCH,BarkerWC,etal.UniProt:theUniversalProteinknowledgebase.NucleicAcidsResearch2004Jan1;32(Databaseissue):D115-9.AshburnerM,BallCA,BlakeJA,BotsteinD,etal.Geneontology:toolfortheunificationofbiology.NatureGenetics2000,25(1):25-29.TatusovRL,GalperinMY,NataleDA.TheCOGdatabase:atoolforgenomescaleysisofproteinfunctionsandevolution.NucleicAcidsResearch2000,28(1):33-36.KooninEV,FedorovaND,JacksonJD,etal.Acomprehensiveevolutionaryclassificationofproteinsencodedcompleteeukaryoticgenomes.Genomebiology,2004,5(2):FinnRD,BatemanA,ClementsJ,etal.Pfam:theproteinfamiliesdatabase.NucleicAcidsResearch,2013:KanehisaM,GotoS,KawashimaS,OkunoY,etal.TheKEGGresourcefordecipheringthegenome.NucleicAcidsResearch2004,32(Databaseissue):D277-D280.MckennaA,HannaM,BanksE,etal.TheGenomeysisToolkit:aMapReduceframeworkforyzingnext-generationDNAsequencingdata[J].GenomeResearch,2010,20(9):1297-303.CingolaniP,PlattsA,LeLW,etal.Aprogramforannotatingandpredictingtheeffectsofsinglenucleotidepolymorphisms,SnpEff[J].Fly,2012,6(2):80.TrapnellC,WilliamsBA,PerteaG,etal.TranscriptassemblyandficationbyRNA-Seqrevealsunannotatedtranscriptsandisoformswitchingduringcelldifferentiation.[J].NatureBiotechnology,2010,28(5):511-5.AndersS,HuberW.Differentialexpressionysisforsequencecountdata[J].GenomeBiology,2010,LengN,DawsonJA,ThomsonJA,etal.EBSeq:anempiricalBayeshierarchicalmodelforinferenceinRNA-seqexperiments[J].Bioinformatics,2013,29(8):1035.FranceschiniA,SzklarczykD,FrankildS,et

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論