多樣的RNA-seq數(shù)據(jù)分析的可用方法概述_第1頁
多樣的RNA-seq數(shù)據(jù)分析的可用方法概述_第2頁
多樣的RNA-seq數(shù)據(jù)分析的可用方法概述_第3頁
多樣的RNA-seq數(shù)據(jù)分析的可用方法概述_第4頁
免費預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、SCIENCECHINALifeSciencesDecember2011Vol.54No.12:1121-1128doi:10.1007/s11427-011-4255-xOverviewofavailablemethodsfordiverseRNA-SeqdataanalysesCHENGeng,WANGCharles&SHITieLiu這是發(fā)在中國科學(xué)*生命科學(xué)輯(英文版)的一篇綜述文章。摘要比較簡練:“RNA-seq技術(shù)正廣泛用于各種轉(zhuǎn)錄組研究;然而,分析和解釋RNA-seq數(shù)據(jù)面臨著嚴(yán)峻挑戰(zhàn)。隨著高通量測序技術(shù)的發(fā)展,測序成本隨著測序通量急劇增加而大幅度下降。但是測序reads仍然長度

2、很短并包含著各種測序錯誤。同時,錯綜復(fù)雜的轉(zhuǎn)錄組總是比我們預(yù)期的更復(fù)雜。這些挑戰(zhàn)都急需有效地生物信息學(xué)算法來高效處理大量轉(zhuǎn)錄組測序數(shù)據(jù)和進行相關(guān)研究。本文概述了一些轉(zhuǎn)錄組測序的常規(guī)應(yīng)用及其相關(guān)分析策略,包括短reads映射,外顯子剪接位點檢測,基因或亞型表達定量,差異表達分析和轉(zhuǎn)錄組重構(gòu)?!遍_頭是一些常見的背景介紹:“RNA-seq是轉(zhuǎn)錄組研究的一種強有力的技術(shù)。它使我們能研究在不同組織不同階段以及不同條件下生物體的基因活性。相比于微陣列技術(shù),RNA-seq能捕獲理論上一個細胞的快照中幾乎所有表達的轉(zhuǎn)錄本,而微陣列依賴于先驗信息、不能檢測新剪接體、新基因和新轉(zhuǎn)錄本。此外,RNA-seq具有很低

3、的背景噪音和很高的靈敏度,所需RNA樣本更少,正隨著技術(shù)的快速進步變得更劃算。RNA-seq的這些優(yōu)點使我們能更全面地說明轉(zhuǎn)錄組的復(fù)雜性并生成關(guān)于各物種的一個空前的轉(zhuǎn)錄組全景圖。迄今為止,RNA-seq已經(jīng)用于大量物種的各類研究,如推斷可變剪接、定量基因和轉(zhuǎn)錄本的表達、檢測基因融合、揭示lncRNAs和表達的外顯子中的SNV$盡管RNA-seq對這些研究有很大助益,但它仍面臨很多來自測序技術(shù)自身和數(shù)據(jù)的生物信息學(xué)分析的挑戰(zhàn)。具體來說,RNA-seq有文庫構(gòu)建的偏倚,鏈特異性文庫仍然不太容易生產(chǎn)但對決定轉(zhuǎn)錄本定向很重要。而且,RNA-seq產(chǎn)生了大量數(shù)據(jù),read長度通常較短而且存在測序錯誤。這

4、些方面對有效處理大量RNA-seq數(shù)據(jù)的相應(yīng)方法和算法構(gòu)成挑戰(zhàn)。參考基因組序列對于準(zhǔn)確地進行各種RNA-seq研究是至關(guān)重要的,因為它提供了reads映射的模板。參考序列上的相關(guān)注釋能夠指導(dǎo)算法來優(yōu)化對結(jié)果的分析。由于目前的測序技術(shù)主要用于模式生物和研究中涉及的一般物種,很多其他生物仍待測序、缺乏可用的參考基因組。此外,盡管一些生物的基因組被測過序,但是其參考基因組仍有空隙沒有補全或者其參考基因組沒有被很好地注釋。對于這些有相對完整和高質(zhì)量基因組的生物來說,我們能直接映射RNA-seqreads到參考序列上并進行各種轉(zhuǎn)錄組研究。但是,對于那些沒有參考基因組或者其參考基因組不完整的生物來說,需要

5、其他方法來完成相關(guān)研究。在本綜述中,我們提供了對目前進行各種轉(zhuǎn)錄組研究的可用方法的一個概述,這些方法可利用轉(zhuǎn)錄組測序數(shù)據(jù),包括短read映射、外顯子剪接位點檢測、基因或亞型表達定量、差異表達分析和轉(zhuǎn)錄組重構(gòu)??紤]到一些物種有建好的參考基因組,而大多數(shù)其它物種仍沒有相應(yīng)的可用參考序列,所以我們還提供了為達到相應(yīng)研究目標(biāo)的不同策略的相關(guān)建議?!?、RNA-seq的應(yīng)用將摘要所說的幾點應(yīng)用領(lǐng)域展開,依邏輯順序,首先是短read映射:“轉(zhuǎn)錄組測序reads通常首先映射到基因組或轉(zhuǎn)錄組序列上,而reads比對對基于首先映射的分析方法來說是一個基礎(chǔ)和關(guān)鍵的步驟。基因組序列的復(fù)雜性對于短reads的映射準(zhǔn)確

6、度有直接影響。原核基因組較小而且其基因組序列不像真核的那么復(fù)雜。但是,哺乳類基因組通常很大、包含很多重復(fù)性和同源性序列。這些高度的序列相似是短reads映射的巨大挑戰(zhàn)。而且,來自剪接位點的reads需要劈成片段以跨過內(nèi)含子然后映射到參考基因組序列上。然而外顯子和內(nèi)含子長度差別很大,這些差別造成了開發(fā)性能優(yōu)良的跨基因組映射算法的困難。假設(shè)內(nèi)含子過短或過長,就要花更多的計算時間來搜索其真正邊界和正確地映射這些片段。如果外顯子比read長度更短,則帶有這些外顯子的read在映射時就需要劈成多個片段,這會進一步使過程復(fù)雜化。此外,對于35-400bp長白reads來說,其中的測序錯誤和reads的大量

7、性也增加了比對的困難度和含糊不清。于是,快速精確地映射這些短read序列對于有效處理RNA-seq數(shù)據(jù)和完成各種分析人物來說是至關(guān)重要的。RNA-seq的短read映射器可分成拼接型和不拼接型。不拼接型read映射器適合于比對read到已知轉(zhuǎn)錄本數(shù)據(jù)庫來定量基因或亞型的表達。拼接型映射器通常用于比對read到參考基因組,考慮到內(nèi)含子而允許大空隙。這些拼接型read比對器首先使用不拼接型比對器將read比對到參考基因組,然后把未映射的read劈成更短的片段并獨立地映射它們以跨過可能的內(nèi)含子。它們通常用于推斷外顯子剪接位點,下一節(jié)將會介紹。目前,兩種經(jīng)典的方法廣泛用于不拼接短短read映射器:Ha

8、shLook-upTable算法和基于Burrows-WheelerTransform的方法?;谏⒘械膶崿F(xiàn)(如MaqZOOMRMAPSeqMap和SOAP可根據(jù)內(nèi)存消耗進一步分成兩類。一類的內(nèi)存使用依賴于reads的長度和數(shù)目,另一類依賴于基因組大小和種子長度。BWTT法能顯著地減少所需內(nèi)存并顯著地加快映射速度(如Bowtie、SOAP牙口BWA?;谏⒘泻虰WT的方法都可用于處理短reads,但由于其比對短reads的方式不同而呈現(xiàn)出性能上的差異。這些差異包括內(nèi)存消耗、耗時(或速度)、read讀長支持、映射reads數(shù)目以及比對準(zhǔn)確度。實踐中,使用BWT方法來索引參考基因組能減少內(nèi)存使用并

9、獲得更高的映射速度,而基于散列的方法能達到更好的映射靈敏度和準(zhǔn)確度。當(dāng)映射短reads到參考序列時,要考慮很多因素。由于測序錯誤,reads中的一些核甘酸可能是錯誤的并會影響reads映射。需要一個預(yù)處理來去除低質(zhì)量堿基或reads。盡管很多短reads比對器允許錯配,但只有少數(shù)幾個支持有空隙的比對(對于考慮插入缺失是很重要的)。此外,一些軟件在reads比對時考慮了堿基質(zhì)量而另一些則沒有。另一個大的挑戰(zhàn)是同源基因家族、重復(fù)序列和同一基因的可變剪接亞型之間高度的序列相似性會引起映射的歧義性,并導(dǎo)致一些reads映射到多個位置。這些因子會影響下一步的分析,如可變剪接檢測、基因或亞型表達定量。因此

10、,解決這些read映射難題對于首先映射的相關(guān)研究是至關(guān)重要的。為處理多映射reads也提出了一些方法,如按唯一比對reads數(shù)目的比例分配,利用生成性統(tǒng)計模型和相關(guān)推斷方法來解決reads映射不確定性的計算問題?!逼浯问峭怙@子剪接位點檢測:“可變剪接在真核基因轉(zhuǎn)爐過程中非常普遍,對于基因組產(chǎn)生各種RNA冰確保相關(guān)機體功能正常非常重要。目前只有少數(shù)模式生物具有相對良好注釋過的外顯子剪接位點,大多數(shù)物種的基因組尚未測序或很好地注釋。然而,即使對于那些很好注釋過的模式生物,其參考基因組的基因注釋也是不完整的。Trapnell等通過分析小鼠肌細胞系的RNA-seq數(shù)據(jù),檢測到數(shù)千個先前未注釋到的轉(zhuǎn)錄本

11、。Guttman等從小鼠胚干細胞的轉(zhuǎn)錄組數(shù)據(jù)研究揭示了超過一千個大間區(qū)ncRNAs此外,檢測到的外顯子剪接位點對于進一步推斷基因亞型和定量基因或亞型的表達是至關(guān)重要的。因此,精確檢測外顯子剪接位點對于進一步分析極其重要。RN頌接造成了正確映射reads到參考基因組的主要挑戰(zhàn)。為鑒定外顯子剪接位點,軟件必須支持reads的拼接映射,因為跨剪接位點的reads需要劈成更小的片段,以映射到被可能的內(nèi)含子分開的不同外顯子上。已經(jīng)開發(fā)了一些檢測剪接位點的軟件。TopHat用bowtie比對RNA-seqreads到基因組上,然后根據(jù)映射結(jié)果預(yù)測剪接位點。由于大多數(shù)內(nèi)含子具有GT-AG模式,為保證準(zhǔn)確性并

12、節(jié)省時間,TopHat只報告跨GT-AG型內(nèi)含子短于75bp的reads比對。TopHat將會支持用更長的reads搜索GC-AG和AT-AC型內(nèi)含子。SpliceMap不依賴于基因結(jié)構(gòu)的現(xiàn)有注釋,能高度準(zhǔn)確地檢測新剪接位點。MapSplice是另一款有效的軟件,可以快速檢測高敏感性和特異性的剪接位點,它不依賴于剪接位點特征或內(nèi)含子長度。最近SOAPsplice也開發(fā)出來了,可穩(wěn)健地檢測剪接位點而無需已知剪接位點的信息。該軟件可用于從頭預(yù)測剪接位點,來研究可變剪接機制。因為這些策略都需要首先映射RNA-seqreads到參考基因組,所以只適用于那些具有可用參考序列的物種?!钡谌腔蚝蛠喰捅磉_

13、定量“RNA-seq技術(shù)之前,微陣列是研究基因表達譜的主流技術(shù)。但是在定量基因表達時,微陣列局限于基因水平。相反,RNA-seq對基因和亞型水平的基因表達都能估計。很多多外顯子基因在表達時會產(chǎn)生多種亞型,不同亞型有不同作用。為了全面理解復(fù)雜的轉(zhuǎn)錄組,必須在亞型水平研究基因。我們先前的工作表明亞型水平的表達研究能使我們更詳細地探索可變剪接機制,更全面地解釋基因表達的復(fù)雜性。而且,RNA-seq可用于任何物種未注釋的基因和亞型,而微陣列依賴于先驗信息只能定量已知基因。RNA-seq的這些優(yōu)點使得它對于注釋新測序的基因組和檢測基因注釋不完整的物種的新基因和亞型來說,十分有用。到目前為止,已有很多基于

14、RNA-seq數(shù)據(jù)的軟件可用于基因表達分析。一些為定量已知基因或亞型而設(shè)計,另一些無需預(yù)先的基因結(jié)構(gòu)注釋信息。Cufflinks將比對結(jié)果組裝成一個較差質(zhì)量的轉(zhuǎn)錄本集合然后基于映射上的reads數(shù)目來估計這些轉(zhuǎn)錄本的相對豐度。Cufflinks可根據(jù)reads映射到參考基因組的結(jié)果來預(yù)測新基因和亞型。Scripture能夠從頭重構(gòu)轉(zhuǎn)錄組并定量轉(zhuǎn)錄本表達。MISO(MixtureofIsoforms)是一個概率論框架,用推斷的reads到亞型的分配來估計這些亞型的豐度。ALEXA-Seq是關(guān)于可變表達分析的方法,也可定量亞型的表達。除了這些算法外,還有其他一些軟件可用于基因表達分析。用戶可根據(jù)需

15、要和研究目標(biāo)來選擇對應(yīng)的軟件執(zhí)行其分析任務(wù)?;蚧騺喰偷谋磉_定量精確性很大程度上取決于RNA-seqreads的映射結(jié)果。參考基因組序列通常有很多重復(fù)性和同源性序列,而這些序列會引起部分reads映射的模糊性。而且,把這些reads跨過剪接位點分配到正確的參考基因組位置上是困難的??紤]到這些方面,精確定量基因或亞型表達的最好方法是直接映射reads到轉(zhuǎn)錄組序列上。但是轉(zhuǎn)錄組是復(fù)雜的,難以為一個物種構(gòu)建一個絕對的完整的轉(zhuǎn)錄本數(shù)據(jù)庫,即使對很好研究過的物種如任何小鼠也是如此。不過,如果我們只想研究已知轉(zhuǎn)錄本的表達譜,直接映射轉(zhuǎn)錄reads到這些已知的轉(zhuǎn)錄本上來定量其表達水平是最好的選擇?!钡谒狞c就

16、到了差異表達分析“在不同條件下,真核基因會表達出大量不同水平不同種類的亞型來滿足機體需求。如果我們想評估兩個不同狀態(tài)或樣本之間基因或亞型的表達變化,我們可以進行差異表達分析來檢測差異表達基因或亞型。RNA-seq的成本在迅速減少,其相對于微陣列的優(yōu)勢使得它在基因和亞型表達研究中愈發(fā)流行。此外,RNA-seq可用于檢測差異表達基因和亞型,而微陣列只能檢測差異表達基因。因為多外顯子基因可編碼不同功能的亞型,所以在為研究選擇恰當(dāng)?shù)募夹g(shù)時這是一個重要的考慮因素。盡管測序多個樣品相對于微陣列仍然相對較貴,但無容置疑的是RNA-seq終將取代微陣列。對于RNA-seq來說,基因或轉(zhuǎn)錄本的表達水平與映射上的

17、reads數(shù)有關(guān),而對于微陣列,這反映為雜交過程后獲得的熒光水平。如果兩個不同實驗條件下觀測到的一個基因或轉(zhuǎn)錄本的read數(shù)差異或變化是統(tǒng)計顯著的,則這個基因或轉(zhuǎn)錄本可認為是RNA-seq數(shù)據(jù)中差異表達的。但是在進行差異表達分析時,應(yīng)該考慮到RNA-seq的一些偏倚,如測序深度、樣本間計數(shù)分布和基因或轉(zhuǎn)錄本長度。通常,測序深度越高,計數(shù)越高。同時,樣本間計數(shù)分布也會有差異。而且,相應(yīng)轉(zhuǎn)錄本的read計數(shù)與轉(zhuǎn)錄本長度和對應(yīng)RNAB!達水平的乘積成比例。在斷定真正的差異表達基因或亞型時應(yīng)該考慮到這些RNA-seq偏倚。越來越多的策略被設(shè)計出來,以使用RNA-seq數(shù)據(jù)從所研究的不同條件下基因或轉(zhuǎn)錄

18、本集合檢測差異表達標(biāo)簽。這些方法可根據(jù)是否使用參數(shù)模型而分成兩類。參數(shù)方法基于已知概率分布如二項、Poisson、負二項。相反,非參數(shù)方法沒有關(guān)于數(shù)據(jù)分布的假設(shè)。最近,Tarazona等提出了一個有力的非參數(shù)方法NOIseq,對真實數(shù)據(jù)的噪音分布進行建模,能在測序深度變化時表現(xiàn)穩(wěn)健。這些測試結(jié)果表明,它比大多數(shù)現(xiàn)有參數(shù)方法(baySeq、DESeqedgeR)在針對測序深度改變時更靈活。DESeqedgeR和baySeq使用負二項分布,而Taranona等說明了這些方法高度依賴于測序深度而NOIseq則不?!钡谖宀糠植泡喌睫D(zhuǎn)錄組重構(gòu)“轉(zhuǎn)錄組是一個或一群細胞產(chǎn)生的總RNAs包括各種編碼或非編碼R

19、NA$為獲得一個有機體的全轉(zhuǎn)錄組,RNA-seq是一個明智而實用的選擇。目前,主要有兩類重構(gòu)轉(zhuǎn)錄組的策略。首先是基因組引導(dǎo)的方法,先映射所有轉(zhuǎn)錄組測序reads到參考基因組上,然后根據(jù)reads映射信息把比對上的reads組裝成轉(zhuǎn)錄本或片段。Cufflinks和Scripture這樣的程序就是這種策略。它們都用拼接的reads直接來重構(gòu)轉(zhuǎn)錄組并有著相似的計算要求。盡管它們在組裝構(gòu)圖的概念上類似,但是把圖處理成轉(zhuǎn)錄本時有所不同。Cufflinks的過程基于最大精度而Scripture基于最大敏感性?;蚪M引導(dǎo)的方法需要相對完整和高質(zhì)量的參考基因組,對于所研究物種來說是已經(jīng)建立和可用的。另一種重構(gòu)

20、轉(zhuǎn)錄組的方法是獨立于基因組的方法,無需參考基因組,直接組裝reads成轉(zhuǎn)錄本。像Velvet,Trans-ABySS,Trinity和Oases(未發(fā)表)都是基于這種獨立于基因組的方法。有意思的是Veket可用于從頭組裝基因組和轉(zhuǎn)錄組。從頭組裝軟件主要使用deBruijngraphs對來自reads的k-mers進行建模。然后應(yīng)用一系列算法解析deBruijn圖并最終組裝reads為contigs或scaffolds??偟膩碚f,基因組引導(dǎo)的方法更適合于具有高質(zhì)量組裝的可用參考基因組的物種,而獨立于基因組的方法可用于任何物種,不論其有無可用的參考序列。如果一個基因表達了、其轉(zhuǎn)錄本被測序了,來自該

21、基因的reads應(yīng)該比對到基因所處的對應(yīng)位置。該表達基因會被基因組引導(dǎo)的方法檢測到,無論該基因在何種水平表達。然而,基因組序列(尤其是哺乳動物基因組)通常包含很多重復(fù)性和桐原序列,同一基因編碼的亞型序列非常相似。這些因素會導(dǎo)致基因組引導(dǎo)的方法在reads映射階段的模糊性,也會導(dǎo)致那些獨立于基因組的策略的組裝失敗。此外,獨立于基因組的方法會因為算法的限制,主要地重構(gòu)那些中等或高表達的轉(zhuǎn)錄本,而難以獲得低表達的轉(zhuǎn)錄本,除非測序深度很大。采用哪種策略很大程度上依賴于研究目標(biāo)、可用性,物種參考基因組的質(zhì)量和完整性。如果一個物種有一個高質(zhì)量相對完整的參考基因組,則基因組引導(dǎo)的方法是基因表達分析的最佳選擇

22、。然而,對于那些無可用參考基因組的物種(這仍是已知植物中的主體)來說,獨立于基因組的方法是更合理的選擇。值得注意的是重復(fù)性序列、測序技術(shù)和組裝算法的局限是所有獨立于基因組的方法在組裝基因組時的主要挑戰(zhàn)。而且,即使對于很好研究過的模式物種,其參考基因組也仍可能不完整并包含空隙和誤組裝區(qū)域。在我們先前研究中展示了相當(dāng)數(shù)量的人類基因在參考基因組上缺失,而在人腦組織和10和混合細胞系里表達。因此,要構(gòu)建一個完整的轉(zhuǎn)錄組,從頭組裝策略對于捕獲那些不能從基因組引導(dǎo)的方法中得到的轉(zhuǎn)錄本來說是至關(guān)重要的,這是由于參考基因組序列不完整或誤組裝。因此,組合著兩類方法能讓我們構(gòu)建任何物種更全面的轉(zhuǎn)錄組。”最后作者對全文進行了總結(jié)性陳述:“RNA

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論