




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、DOI:10.3969/j.issn.1005-1678.2017.06.169轉錄組測序技術研究進展洪奇陽',畢行建2,王大寧I李子真二命海頃夏寧邵3,李少偉12(1.廈門大學國家傳染病診斷試劑與疫苗工程技術研究中心生命科學學院,福建廈門361102;2.廈門大學分子疫苗學與分子診斷學國家重點實驗室公共衛(wèi)生學院,福建廈門361102)摘要伴隨高通量測序技術的快速發(fā)展,轉錄組測序(RNA-Seq)技術在各個研究領域已經得到廣泛的運用。RNA-Seq通過分析不同細胞或者組織轉錄組的表達情況來揭示細胞的基因表達情況,結構特點和調控規(guī)律。近年來基于高通量測序技術的RNA-Seq分析方法發(fā)展迅
2、速,涌現出一大批相關的分析方法和工具,如何根據實際需求選擇合適的工具和分析流程,成為廣大科研人員面臨的問題。本文參照近幾年在RNA-seq技術研究領域發(fā)表的文獻,綜述了RNA-Seq應用實際過程中涉及的分析方法、軟件工具及其選用標準,為相關的研究和應用提供信息和參考。關鍵詞轉錄組;高通量測序;數據處理與分析中圖分類號S813:S8X)5文獻標識碼AResearchprogressonRNA-SeqtechnologyHONGQi-yang1,BIXing-jian2,WANGDa-ning*,LIZi-zhen1,YUHail,2A,XIANing-shao1*2,LIShao-wei1(1.
3、NationalInstituteofDiagnosticsandVaccineDevelopmentinInfectiousDisease,SchoolofLifeSciences,XiamenUniversity,Xiamen361102,China;2.StateKeyLaboratoryofMolecularVaccinologyandMolecularDiagnostics,schoolof.PublicHealth,XiamenUniversity,Xiamen361102,China)AbstractWiththeremarkableadvancesofhigh-throughp
4、utsequencingtechnology,transcriptomesequencing(RNA-Seq)technologyhasbeenwidelyusedinvariousresearchfields.RNA-Seqcandisclosegeneexpressionspectrum,structurefeatureandregulationnetworkinlivecellsbydifferentialRNA-Seqonwholecellsindifferentconditionsorfromdistincttissues.Whiletherapidapplicationofhigh
5、-throughputsequencingtechnology,therearealargenumberofemerginganalyticalmethodsandtoolsfbrRNA-Seq,whichsometimespuzzlestheresearchershowtomakeachoiceonanappropriatealgorithmanalysisandcorrespondingtool.Here,theanalyticalmethods,softwaretoolsandselectioncriteriaforpracticalRNA-Seqanalysiswerereviewed
6、intheliterature,andthenprovideinformationandinsightsforrelatedresearchandapplication.Keywordstranscriptome;highthroughputsequencing;dataprocessingandanalysis近年來,隨著轉錄組學與高通量測序技術的高速發(fā)展,轉錄組學已經在研究生物體表型和基因表達方面占據了重要的地位。在眾多的轉錄組學分析方法中,轉錄組測序技術(RNA-seq)以新一代高通量測序技術為基礎,具備測序通量高、速度快、價格低、信噪比高等優(yōu)勢,目前已超越傳統的基于雜交技術的芯片法和基
7、于一代Sanger測序的SAGE、MPSS、全長cDNA文庫、EST文庫等方法,成為轉錄組分析的主要手段。轉錄組從廣義上是指特定條件下單個細胞或者細胞群體所轉錄的所有RNA集合,包括編碼蛋白的mRNA和一些功能性的RNA,如rRNA、miRNA、ncRNA、tRNA等,從狹義上則單指編碼蛋白的mRNA。轉錄組測序技術通過將樣本中提取的總體RNA反資助項目:國家自然科學基金(81571996)作者簡介:洪奇陽,男,碩士在讀,研究方向:生物信息學,E-mail:qiyanghong2020;俞海,通信作者,男,博士,副教授,研究方向:生物信息學|E-mail:yuhaio轉錄成cDNA后進行高通量
8、測序來確定樣品中整體轉錄組的表達情況。2005年以來,以Roche公司的454技術Jllumina公司的Solexa技術和ABI公司的SOLiD技術為代表的新一代測序技術的出現改變了以往基于雜交技術和Sanger測序技術的低效轉錄組學分析方法,使得一次的測序就能實現快速、大批量轉錄組檢測,同時也極大的擴充了轉錄組分析的應用范圍?,F階段的轉錄組測序應用包括轉錄本結構研究、轉錄本結構變異研究、基因表達水平研究、非編碼區(qū)域功能研究、低豐度全新轉錄本發(fā)現等。根據不同的研究目的,轉錄組測序相關的分析方法和流程不盡相同,需要研究者根據實際情況選擇適宜的分析方法來開展研究工作。目前基本的轉錄組測序分析流程可
9、分為為實驗沒汁與上機、數據預處理、序列定位與轉錄本識別、轉錄本定量與功能分析、差異基因表達分析、差異基因功能注釋。本文將圍繞RNA-Seq基本的分析流程綜述各步驟的分析方法進展、相關軟件以及需要注意的事項,為轉錄組測序技術的普及和應用提供有利的參考。1實驗設計與上機過去的十年中,高通量測序技術發(fā)展迅速,隨著各種測序平臺不斷更新,測序時間、測序成本已經顯著下降,測序通量和準確度顯著提高。現有的高通量測序方法可分為邊連接邊測序(sequencingbyligalion,SBL,BGI公司)、邊合成邊測序(sequencingbysynthesis,SBS,Illumina公司)、單分子實時測序(s
10、ingle-moleculereal-timesequencing,PacBio公司)和依賴于已有短讀長技術在計算機內構建長讀長的合成法(constructlongreadsinsilico,Illumina公司)。其中Illumina公司的測序平臺技術最為成熟、穩(wěn)定性高、數據可靠、平臺間交叉性互補性好,其市場份額也最大。但Illumina測序平臺由于采用單一的測序方法,可能產生的系統偏好性問題也不容忽視。在轉錄組測序實驗設計過程中,需要根據不同實驗目的合理的選擇實驗樣本。此外根據高通量測序自身特點在設計實驗時需要注意的地方包括:單端或雙端測序的選擇。單端測序成本較低,能滿足注釋完整的基因組大
11、部分后期分析需求,對于注釋不完整的基因組則選用雙端測序效果更好"。mRNA的提取方法。細胞內90%以上的RNA都是rRNA,真核生物mRNA在3,端具有poly(A)結構,可以通過這個特點使用Oligo(dT)富集mRNA,而原核生物由于不具備polyA則需通過去除rRNA的方式來獲取mRNA。無論是真核還是原核細胞,對于樣本量較少的樣本則統一采用去除rRNA的方法,以減少mRNA的損失。測序深度或庫大小。測序深度越深識別的轉錄本越多,定量也越準確,但過多的測序量也會帶來噪音導致轉錄本的錯誤檢測,潼慎的做法是使用飽和曲線來評估合適的測序深度。一般情況下,可以根據基因組大小取其三倍的有
12、效測序數據,如人類基因組大小3G,測序數據量以812G為宜?;阪溙禺愇膸飓@取的測序數據能區(qū)分正反鏈,可減少后續(xù)分析的復雜度并提升分析準確度,但價格較高讀長越長對后續(xù)的定位和轉錄本識別越有利。生物學重復數不應該少于3個,足夠的生物學重復是后期統計學分析的前提。注意批次效應,無論是樣品還是測序儀,不同的批次產生的數據都會存在偏差,需要在實驗設計時避免0當樣本量過多或者其他原因導致不得不分批次測序時,應在測序操作過程盡可能減少操作差異性,并對測序后的數據使用批次矯正方法,如COMBATc,11uJcARSyN121o2數據預處理測序產生的原始數據是一系列以fastq格式存儲的讀段(Read),其中
13、包含了堿基質量信息和相關測序信息,如測序儀器名稱,單雙端,正反鏈等。原始數據在建庫過程或者測序過程中由于多方面的因素,例如污染、錯誤操作、測序平臺等,常常會存在低質量或者錯誤數據。如果不對這些存在問題的數據進行過濾,對后續(xù)分析(例如讀段組裝、定位和定量等)的質量和可信度將會產生很大影響。目前數據過濾中常用的質控軟件是FastQC和NGSQCI3,其中FastQC是Illumina平臺上最常用的軟件,NGSQC13J則被用于更多平臺。其他的質控軟件有Qualimap2U4,HTQCW,QC.chain16,almostSignificanf17,fastq_clean18,FaQCs19-等。數
14、據預處理階段包含的檢測內容為測序質量、GC含量、接頭、過表達的k-mers和重復序列等。根據這些檢測結果可以對原始數據集進行低質量讀段去除,切除部分低質量的堿基,去除接頭,去除重復序列和過短序列等操作。相應的常用的軟件為FASTX.Toolkit(Version0.0.14)20J和Trimmomatic(Version0.36)2,o值得注意的是越靠近讀段的3'端,堿基質量會越差,這是由于測序策略引起的,和長時間PCR引入雜信號和酶活力衰減有關】。另外,VictorKunin等】在研究E.coli的16S核糖體時發(fā)現,5糖端的幾個起始堿基ATGC比例常會存在較大波動,這是由于聚合前誤
15、讀導致,但不會對后續(xù)分析產生太大影響。3讀段定位在獲得預處理過的原始數據后,需將讀段定位到參考基因組上(無參考基因組的物種,則需要先將讀段組裝成scaffolds,作為參考序列,常用軟件為Trinity:24】),這是后續(xù)數據分析的基礎E】。RNA在原核生物中只是簡單的基因組轉錄產物,能與基因一一對應。但在真核生物的基因組中可能存在RNA的可變剪接,即單個基因產生的pre-mRNA通過不同的剪接形式形成多種mRNA異構體(isoforms),而來自這些異構體的讀段有可能跨越兩個外顯子,常常無法定位到參考基因組上。按照是否考慮可變剪接可將現有讀段定位軟件分為兩類:第一類軟件用于處理具有可變剪接的
16、情況,這類軟件首先采用常規(guī)的比對方法將讀段定位到基因組上,對于無法成功定位的讀段嘗試將其分割后再重新與基因組定位,同時記錄分割信息為后續(xù)的轉錄本查找提供依據,相關的軟件為Hisat226!,HPGAligner”】,STAR:28,TopHat229和MapSplice刈oI.Medina等利用多套測序數據分別對這幾款軟件從單端、雙端、讀段長度、分析數據量、靈敏度等方面進行了綜合評估,研究發(fā)現在讀段長度較短時(測試讀段為100bp)Hisat2的定位速度和準確度最優(yōu),當讀段為長片段時(測試讀段為100bp)HPGAligner表現最優(yōu)。第二類軟件不考慮可變剪接的情況,這類軟件直接把讀段定位到參
17、考基因組上,不對讀段進行分割,此類方法的優(yōu)勢是速度快。當參考基因組的注釋信息比較完整時,還可以直接提取感興趣的完整轉錄組序列作為參考序列,使用此類軟件進行讀段定位,可以節(jié)省分析成本。常用的軟件有bowtie2m、BWA、"、NovoAlign33Smalt'34】和Stampy"。SubaziniThankaswamy-Kosalai等頃】采用五種不同物種,在不同讀段長度和數據量的測序數據對這五款軟件從定位敏感度、定位速度、串聯重復對準確定位的影響等方面進行了綜合評估,結果顯示在運算速度上最快的是BWA,其次是bowtie2和Smalt,在定位敏感度上,五款軟件對于
18、長讀段(>lOObp)都表現良好,NovoAlign則無論讀段長短都有較優(yōu)的表現。在RNA-Seq的實際應用中最常用的是bowtie2,因其對插入、缺失和錯誤堿基的容錯率較好】,上述第一類軟件中的Hisat2和TopHat2也是基于bowtie開發(fā)的。讀段定位后產生的文件為文本形式的SAM文件或者其二進制形式的BAM文件°對讀段定位效果的質控能夠發(fā)現測序過程、樣本提取過程和建庫過程的錯誤,而這類錯誤只能在讀段定位后才能被發(fā)現。讀段定位效果的重要質控指標是定位率,在轉錄組測序中一般預期70%的讀段能夠定位到基因組上,對于包含大量質粒表達的轉錄組分析,30%以上定位率也在可接受范圍
19、之內如果單個讀段被定位到多個位置上(multimappingreads),則提示重復序列和同源基因的存在,在后續(xù)的分析過程中這類序列往往會被丟棄,避免其對定量分析產生干擾。另一個重要的質控指標是定位的均一度,如果讀段在內含子區(qū)或者基因間區(qū)有過多異常分布情況那么很有可能建庫過程存在問題或者樣本受到污染瑚。常用的質控軟件包括Picard.RSeQC、Qualimap:40】、FastQC4,、SAMStatt42、RNA-SeqQC(431和QuaCRS;44)o各種質控軟件都各有所長,例如SAMStat能對讀段定位情況做更深入分析,區(qū)分未定位、較差定位和精確定位讀段;RSeQC能對已知、半已知、
20、新發(fā)現的剪接情況進行統計分析;Qualimap的圖形化展示效果最直觀等,因此綜合使用這些軟件能夠實現更全面的質控?;谶@一理念,QuaCR對三款質控軟件RNA-SeQC,RSeQC和FastQC進行了整合,使讀段定位后的質控更加全面和易于操作。4轉錄本識別與定量讀段定位到基因組后,根據讀段在轉錄本上的分布情況對基因表達豐度進行定量。轉錄本分布信息可從基因組的注釋文件中獲取,或者根據讀段定位情況識別新的轉錄本。注釋完整的基因組(如人、老鼠和斑馬魚)往往不需要進行新轉錄本識別,可直接進行基因定量分析皿】。但對于注釋信息并不完整的基因組則需要進行新轉錄本的預測。在RNA-Seq分析中,根據短讀段識別
21、新轉錄本是最具挑戰(zhàn)性的分析之一。,因為短讀段很少能夠跨越多個剪接位點,而且不同轉錄本間存在各種外顯子共享情況,外顯子中也存在共享序列的情況,同時現階段去除核糖體RNA的方法存在偏好性,導致讀段分布不均一心】,給讀段定位造成很大干擾。為了應對這些挑戰(zhàn),研究人員開發(fā)了大量的轉錄本識別軟件:Stringtie.cufflinks48,CIDANEf49j、GRIT俱、TransComb""、iReckon"2】、SLIDE'")'Montebello'54】、Augustus、IsoLasso56】、§0向也此、Traph弱、
22、MITIE、CLASS和FlipFlop等。目前使用最為廣泛的是cufflinks,但KatharinaE.Hayer等在綜合分析了上述軟件中的幾款后,認為StringTie識別轉錄本的準確性高最高,其次是Cufflinks,然而研究結果提示所有的轉錄本識別方法都并不精確。最近StefanCanzar等發(fā)表了新的轉錄本識別方法CIDANE,其轉錄本識別能力優(yōu)于StringTie.Cufflinks.GRIT.MITIE和iReckon等常用軟件。目前新轉錄本的預測仍然是一項難題,各種預測軟件間也存在顯著的不一致性,而提高讀段、讀長是解決這一難點的突破口0轉錄本定量包括對基因的表達量定量和對轉錄
23、本表達量的定量,這是RNA-Seq實驗的最基本的目的??紤]到基因大小、樣本測序深度和批次效應等因素對讀段量的影響,在定量時應使用標準化的方法來消除差異,最常用的樣本內標準化方法包括RPKM(readsperkilobaseofexonmodelpermillionreads)八、FPKM(fragmentsperkilobaseofexonmodelpermillionmappedreads)、TPM(transcriptspermillion)和KPKM(K-mersPerKilobaseperMillionmappedk-mers),這些標準化方法消除了基因、轉錄本長度差異和測序庫大小的差
24、異,其中FPKM的值可以通過一個簡單的公式直接轉化成TPM(59JO需要注意的是無論是RPKM、FPKM還是TPM,當比較不同樣本間基因的表達量時,如果這兩個樣本存在顯著差異表達的基因那么會影響整體的表達量評估【如。這點導致使用RPKM、FPKM或TPM做樣本間相同基因差異表達分析變得不夠準確,但在對不同基因進行表達最比較時,RPKM、FPKM或TPM仍然是目前較好的標準化方法。轉錄本定量的常用軟件有HTSeq611featureCounts621、StringTie、Cufflinks、RSEMf63、Sailfish泌、kallistof63J、IsoLasso和NURD:66。其中HTS
25、eq和featureCounts根據定位到基因組后的文件和基因組注釋信息在基因水平直接計算未標準化的讀段數,StringTie和Cufflinks使用最大期望法,根據基因組定位數據,同時考慮讀段分布偏好性、雙端信息和注釋信息得出經過樣品內標準化的轉錄本水平定量值,NURD能夠高效的對單端讀段進行低內存和低計算量的轉錄本水平定量,Sailfish則無需定位直接根據讀段k-mer值進行定量戚婭】04.1差異基因表達分析現有的差異基因表達分析軟件可以分為兩大類,第一類是以讀段計數矩陣為起始文件,先進行標準化處理,再通過統計學方法計算表達差異,使用的標準化方法包括:TMM69、DESeq"&
26、#176;'PoissonSeq71或UpperQuartile72等。這類軟件能有效地避免樣本間顯著差異表達的基因對整體表達量計算的影響。表1列舉了這類軟件的相關信息。VedbarS.Khadka等使用測序質控數據集SEQC74:對12款最常用的的這類軟件進行了假陽性分析,結果顯示DESeq2,edgeR和limma-voom表現最好。第二類軟件直接以FPKM、RPKM或TPM標準化后的數據進行表達差異的比較,代表軟件為cufflinks和ballgown0這類軟件由于標準化方法本身存在的缺陷(前文已述),其結果可信度較差。Fatemeh、Seyednasrollah等,XiaoWa
27、ng等湎對這2類軟件分別進行比較分析后進一步驗證了第二類軟件在差異基因表達分析能力上較第一類差。表1基因讀段計數的基因表達差異分析軟件Tab.1Softwarefbrdifferentialexpressedgenesanalysisbasedonreadcounts軟件分布模型標準化方法統計模型參考文獻DESeq2(v1.14.1)負二項分布Median-of-ratios沃特檢驗;似然比檢驗77】edgeR(v3.16.5)負二項分布TMM費舍爾精確檢驗;廣義線性模型(7Slimma-voom(v3.30.13)廣義線性模型TMMt檢驗;F檢驗-mbaySeq(v2.8.0)負二項分布Up
28、perQuartile經驗貝葉斯方法1»0:EBScq(v1.14.0)泊松線性回歸模型mediannormalization最大期望算法1SAMseq(v2.11)非參數模型PoissonSampling威爾科克森符號秩檢驗g針對基因差異表達的分析軟件如今層出不窮,經證實采用不同的軟件和方法分析得到的結果都會不同,甚至相同的軟件不同的版本分析的結果也會存在差異E】。因此在實際應用時,在每一次分析時都應詳細記錄所用的軟件和版本號,對于關鍵性的實驗可以綜合分析多種方法的結果廠4.2差異基因功能富集分析對差異基因進行功能富集分析是轉錄組測序技術的主要目的,相關工具眾多,根據不同的富集分析
29、方法可以分為四大類:(1)過表達分析(over.representationanalysis,ORA),常用工具有DAVID,GOstat,GenMAPP等。ORA方法理論完備,結果穩(wěn)健、可靠,但忽視了基因表達水平、基因間相互調控和低顯著性基因的信息;(2)功能集打分(functionalclassscoring,FCS),常用工具有GSEA、GSA、PADOG等。FCS方法較ORA方法在理論上有所突破,考慮了基因表達水平的影響,檢測靈敏度更強,但仍然忽略了基因間的相互調控;(3)基于通路拓撲結構,常用工具有MetaGorePathway-Express.SPIA等。該方法對注釋完善的通路分析
30、結果較好,但對于CP注釋不完整的通路穩(wěn)健性較差;(4)基于網絡拓撲結構,常用工具有NEA.EnrichNet、GANPA等,考慮了基因間的相互作用網絡,在系統層面進行基因功能富集分析,結果相比傳統分析更為可靠,但由于考慮信息過多導致計算速度較慢。王瀟等我對這四大類方法涉及到的原理和軟件的優(yōu)缺點進行了較為詳盡的介紹,研究者需要在理解這些方法的基礎上,根據實驗目的合理進行選擇。除了標準差異表達分析外,RNA.Seq技術還可用于分析融合基因、smallRNAs(18-34核昔酸長度的RNA,包括miRNA.siRNA.piRNA)、可變剪接等,也經常與其他技術相結合,例如DNA測序、DNA甲基化、C
31、hIP.seq、蛋白質組學和代謝組學等。MiriamF等如通過RNA-Seq與DNA測序相結合的方法驗證了0RMD13相關基因突變有導致兒童哮喘的風險。JungHKim等通過RNA-Seq與DNA甲基化相結合的方法揭示了前列腺癌DNA甲基化的不同模式。AnshulKundaje等版通過ChlP-seq和RNA-Seq相結合的方法分析了111種人類細胞和組織的表觀基因組。5挑戰(zhàn)與展望目前轉錄組測序技術面臨的挑戰(zhàn)主要來自三個方面:(1)準確的轉錄本識別?;诙套x長的轉錄組測序很難對轉錄本進行準確識別,解決這一技術難點除了進一步改善識別算法外關鍵還在于增加讀長。但現今基于長讀長的三代測序技術如Pac
32、Bio(Pacific-Biosciences)SMRTXOxfordNanopore和Moleculo雖然發(fā)展迅速,可測序錯誤率仍然偏高。目前比較好的做法是通過三代測序和二代測序相結合的方式來提高RNA-Seq的準確性;(2)小樣本量的轉錄組測序。常規(guī)的轉錄組測序技術需要大量的細胞作為起始樣本,對起始量極少的樣本難以進行測序分析。目前單細胞RNA-Seq(single-cellRNA-Seq)技術為小樣本量的轉錄組分析提供了有效的分析手段。特別是對于異質性較強的組織樣本,需要在單細胞水平進行轉錄組分析,單細胞RNA-Seq更顯示了其獨特的優(yōu)勢;(3)測序費用。伴隨高通量測序技術的快速發(fā)展,測
33、序費用也在急劇下降。據美國國家人類基因組研究所(NHGRI)統計2001年個人基因組測序成本為9500萬美元,2011年已快速下降至2萬美元o到2014年IlluminaHiSeqX10測序平臺的出現更是將個人全基因組測序價格降到1000美元,標志著千元基因組時代的開始。2017年Illumina測序平臺NovaSeq的推出,則意味著個人基因組測序的費用有望降到100美元。近年來,伴隨著后基因組時代的高速發(fā)展,轉錄組測序技術以其高效、準確的技術優(yōu)勢,已被廣泛的運用于醫(yī)學、農學、生物學等各個研究領域,并帶來了革命性的變革。生物體的基因調控是多水平、多層次的復雜網絡系統,轉錄組測序技術為研究該復雜
34、的調控網絡提供了有效的研究手段,相信在不久的將來,隨著三代測序技術的逐漸成熟、單細胞測序技術的快速發(fā)展和測序價格的不斷降低,轉錄組測序在各研究領域的應用會越來越普遍,為人類探究各種生命現象的本質帶來極大的幫助。參考文獻祁云霞,劉永斌,榮威恒.轉錄組研究新技術:RNA-Seq及其應用J.遺傳,2011,33(11):1191-202.1 GOODWINS,MCPHERSONJD,MCCOMBIEWR.Comingofage:tenyearsofnext-generationsequencingtechnologiesJ.NatRevGenet,2016,17(6):333-351.2 R1EBE
35、RN,ZAPATKAM,LASITSCHKAB,elatCoveragebiasandsensitivityofvariantcallingforfourwhole-genomesequencingtechnologiesJJ.PloSone,2013,8(6):e66621.3 WILLIAMSAG,THOMASS,WYMANSK,etal.RNA-seqData:ChallengesinandRecommendationsforExperimentalDesignandAnalysisJ.CurrentProtocolsinHumanGenetics,2014,83:IL13.1-20.4
36、 ZHAOW,HEX,HOADLEYKA,etal.ComparisonofRNA-Seqbypoly(A)capture,ribosomalRNAdepletion,andDNAmicroarrayforexpressionprofilingJ.BMCgenomics,2014,15(1):419.5 TARAZONAS,GARCA-ALCALDEF,DOPAZOJ,etal.DifferentialexpressioninRNA-seq:amatterofdepthJ.Genomeresearch,2011,21(12):2213-2223.6 MORTAZAVIA,WILLIAMSBA,
37、MCCUEK,etal.MappingandquantifyingmammaliantranscriptomesbyRNA-Seq:J.Naturemethods,2008,5(7):621-628.7 LABAJPP,LEPARCGG,UNGGIBE,etal.CharacterizationandimprovementofRNA-SeqprecisioninquantitativetranscriptexpressionprofilingJ.Bioinformatics,2011,27(13):i383-i39i.8 LIUY,ZHOUJ,WHITEKP.RNA-seqdifferenti
38、alexpressionstudies:moresequenceormorereplication?JBioinformatics,2014,30(3) :301-304.9 LEEKJT,SCHARPFRB,BRAVOHC,etal.Tacklingthewidespreadandcriticalimpactofbatcheffectsinhigh-throughputdata:J;.NatRevGenet,2010,11(10):733-739.10 JOHNSONWE,LIC,RABINOVICA.Adjustingbatcheffectsinmicroarrayexpressionda
39、tausingempiricalBayesmethodsJ.Biostatistics,2007,8(1):118-127.:12FERRERA,CONESAA.ARSyN:amethodfortheidentificationandremovalofsystematicnoiseinmultifactorialtimecoursemicroarrayexperimentsJ.Biostatistics,2011,kxiO42.13 PATELRK,JAINM.NGSQCToolkit:atoolkitforqualitycontrolofnextgenerationsequencingdat
40、aJ.PloSone,2012,7(2):e30619.14 OKONECHNIKOVK,CONESAA,GARCA-ALCALDEF.Qualimap2:advancedmulti-samplequalitycontrolforhigh-throughputsequencingdataJj.Bioinformatics,2016,32(2):292-294.j15YANGX,LIUD,LIUF,etal.HTQC:afastqualitycontroltoolkitforIlluminasequencingdataJ.BMCbioinformatics,2013,14(1):33.16ZHO
41、UQ,SUX,WANGA,etal.QC-Chain;fastandholisticqualitycontrolmethodfornext*generationsequencingdataJ1PloSone,2013,8(4):e60234.17WARDJ,COLEC,FEBREKM,etaLAlmostSignificant:simplifyingqualitycontrolofhigh-throughputsequencingdataJ.Bioinformatics,2016,32(24):3850-3851.18ZHANGM,SUNH,FEIZ,etal.Fastq_cle&n:
42、AnoptimizedpipelinetocleantheIlluminasequencingdatawithqualitycontrol;proceedingsoftheBioinformaticsandBiomedicine(BIBM),2014IEEEInternationalConferenceon,F,2014:C.IEEE.19jLOC-C,CHAINPS.RapidevaluationandqualitycontrolofnextgenerationsequencingdatawithFaQCsJ:BMCbioinformatics,2014,15(1):366.20 GORDO
43、NA,HANNONG.Fastx-toolkitJ.FASTQ/Ashort-readspreprocessingtook(unpublished)http:/hannonlabcshledu/fastx_toolkit,2010.21 BOLGERAM,LOHSEM,USADELB.Trimmomatic:aflexibletrimmerforIlluminasequencedatafJ.Bioinformatics,2014,30(15):2114-2120.22DOHMJC,LOTTAZC,BORODINAT,etal.Substantialbiasesinultra-shortread
44、datasetsfromhighthroughputDNAsequencingJ.Nucleicacidsresearch,2008,36(16):el05.23 KUNINV,ENGELBREKTSONA,OCHMANH,etal.Wrinklesintherarebiosphere:pyrosequencingerrorscanleadtoartificialinflationofdiversityestimatesJ,Environmentalmicrobiology,2010,12(1):118-123.24 GRABHERRMG,HAASBJ,YASSOURM,etal.Trinit
45、y:reconstructingafull-lengthtranscriptomewithoutagenomefromRNA-SeqdataJ.Naturebiotechnology,2011,29(7):644.25 王曦,汪小我,王立坤,等.新一代高通量RNA測序數據的處理與分析口.生物化學與生物物理進展,2010,37(8):834-846.26 KIMD,LANGMEADB,SALZBERGSLHISAT:afastsplicedalignerwithlowmemoryrequirementsJ.Naturemethods,2015,12(4) :357-360.27 MEDINAI,
46、TRRAGAJ,MARTNEZH,etal.HighlysensitiveandultrafastreadmappingforRNA-seqanalysisJ.DNAResearch,2016,23(2):93400.28 DOBINA,DAVISCA,SCHLESINGERF,etal.STAR:ultrafasluniversalRNA-seqalignerJjBioinformatics,2013,29(1):15-21.29 TRAPNEIXC,PACHTERL,SALZBERGSLTopHat:discoveringsplicejunctionswithRNA-SeqJ.Bioinf
47、ormatics,2009,25(9):1105-1111.30 WANGK,SINGHD,ZENGZ,etal.MapSplice:accuratemappingofRNA-seqreadsforsplicejunctiondiscoveryJ.Nucleicacidsresearch,2010,gkq622.31LANGMEADB,TRAPNELLC,POPM,etal.UltrafastandmemoryefficientalignmentofshortDNAsequencestothehumangenomeJ.Genomebiology,2009,10(3):R25.32 LIH,DU
48、RBINR.FastandaccurateshortreadalignmentwithBurrows-WheelertransformJ.Bioinformatics,2009,25(14):1754-1760.33 HERCUSC.NovoalignJ.Selangor:NovocraftTechnologies,2012.34 PONSTINGLH.SMALTefficientlyalignsDNAsequencingreadswithareferencegenome.WellcomeTrustSangerInstitute,Hinxton,UnitedKingdom.Currentver
49、sion-SMALTvO.7.5.Released16thJuly2013M,2013.35 LUNTERG,GOODSONM.Stampy:astatisticalalgorithmforsensitiveandfastmappingofIlluminasequencereadsJ.Genomeresearch,2011,21(6):936-969.36 THANKASWAMY-KOSALAIS,SENP,NOOKAEWI.Evaluationandassessmentofread-mappingbymultiplenext-generationsequencingalignersbased
50、ongenome-widecharacteristicsJ.Genomics,2017,pii:80888-7543(17)30020-300204.37jLINDNERR,FRJEDEI,CC.AcomprehensiveevaluationofalignmentalgorithmsinthecontextofRNA-seqJ.PLoSOne,2012,7(12) :e52403.38MAZZONIG,KADARMIDEENHN.ComputationalMethodsforQualityCheck,PreprocessingandNormalizationofRNA-SeqDataforS
51、ystemsBiologyandAnalysisM.SystemsBiologyinAnimalProductionandHealth,Vol2.Springer.2016:61-77.39 WANGL,WANGS,LIWRSeQC:qualitycontrolofRNA-seqexperimentsJ.Bioinformatics,2012,28(16):2184-2185.40 GARCAALCALDEF,OKONECHN1KOVK,CARBONELLJ,etal.Qualimap:evaluatingnextgenerationsequencingalignmentdataJ.Bioin
52、formatics,2012,28(20):2678-2679.41ANDREWSS,FASTQ.Aqualitycontroltoolforhighthroughputsequencedata.2010J.GoogleScholar,2015.42 LASSMANNT,HAYASHIZAKIY,DAUBCO.SAMStat:monitoringbiasesinnextgenerationsequencingdataJ.Bioinformatics,2011,27(1) :130-131.43 DELUCADS,LEVINJZ,SIVACHENKOA,etal.RNA-SeQC:RNA-seq
53、metricsforqualitycontrolandprocessoptimizationJ.Bioinformatics,2012,28(11):1530-1532.44 KROLLKW,MOKARAMNE,PELLETIERAR,etal,QualitycontrolforRNA-seq(QuaCRS):AnintegratedqualitycontrolpipelineJ.Cancerinformatics,2014,13(Suppl3):7.45 HARROWJ,FRANKISHA,GONZALEZJM,etal.GENCODE:thereferencehumangenomeanno
54、tationforTheENCODEProjectJ.Genomeresearch,2012,22(9):1760-1774.46 HAYERKE,PIZARROA,LAHENSNF,etal.Benchmarkanalysisofalgorithmsfordeterminingandquantifyingfull-lengthmRNAspliceformsfromRNA-seqdatafJ.Bioinformatics,2015,btv488.47 PERTEAM,PERTEAGM,ANTONESCUCM,etal.StringTieenablesimprovedreconstruction
55、ofaIranscriptomefromRNA-seqreadsJNaturebiotechnology,2015,33(3):290-295.48 ROBERTSA,PIMENTELH,TRAPNELLC,etal.IdentificationofnoveltranscriptsinannotatedgenomesusingRNASeqJBioinformatics,2011,27(17):2325-2329.49 CANZARS,ANDREOTTIS,WEESED,etal.CIDANE:comprehensiveisoformdiscoveryandabundanceestimation
56、J.Genomebiology,2016,17(1):16.50 BOLEYN,STOIBERMH,BOOTHBW,etal.Genome-guidedtranscriptassemblybyintegrativeanalysisofRNAsequencedataJ.Naturebiotechnology,2014,32(4):341-346.51LIUJ,YUT,JIANGT,elal.TransComb:genome-guidedtranscriptomeassemblyviacombingjunctionsinsplicinggraphsJj.Genomebiology,2016,17(
57、1):213.52 MEZLINIAM,SMITHEJ,FIUMEM,etal.iReckon;SimultaneousisoformdiscoveryandabundanceestimationfromRNA-seqdataJ.Genomeresearch,2013,23(3):519-529.53 LIJJ,JIANGCR,BROWNJB,etal.SparselinearmodelingofnextgenerationmRNAsequencing(RNA-Seq)dataforisofomidiscoveryandabundanceestimationJ;Proceedingsofthe
58、NationalAcademyofSciences,2011,108(50):19867-19872.54 HILLERD,WONGWH.SimultaneousisoformdiscoveryandquantiGcationfromRNA-seqJ.Statisticsinbiosciences,2013,5(1):100-118.55 STANKEM,KELLERO,GUNDUZI,etal.AUGUSTUS:abinitiopredictionofalternativetranscriptsJ.Nucleicacidsresearch,2006,34(suppl2):W435-W439.56 LIW,FENGJ,JIANGT.IsoLasso:aLASSOregressionapproachtoRNA-Seqbasedtranscr
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 西方國家的政治制度與社會適應性試題及答案
- 2025年北京體育大學教學管理人員招聘筆試試卷
- 共享出行信用體系在2025年的發(fā)展現狀與趨勢分析報告
- 西方思潮對政治的影響試題及答案
- 中國人民保險集團招聘總部工作人員考試真題2024
- 溫州文成縣人民法院選調事業(yè)編制人員考試真題2024
- 公共政策中的性別平等問題研究試題及答案
- 智慧港口自動化裝卸設備在2025年智能化改造效果評估分析報告
- 網絡工程師考試指南及試題及答案
- 西方國家政府與民間的關系試題及答案
- 2023高考真題24 三角形中基本量的計算問題
- 餐廳小票打印模板
- 鉻(六價)方法驗證方法證實報告
- 腦疝急救流程圖
- 臨床藥理學(完整課件)
- 公共資源交易中心政府采購業(yè)務流程圖
- 建筑施工單位職業(yè)危害歸類表
- 重慶市醫(yī)療服務價格-重慶市《醫(yī)療服務價格手冊-》
- 2023年廣西中考語文真題及參考答案
- 初中數學一題多解
- 帶電清除導地線懸掛異物標準化作業(yè)指導書
評論
0/150
提交評論