RNAseq數據差異表達分析方法的比較_第1頁
RNAseq數據差異表達分析方法的比較_第2頁
RNAseq數據差異表達分析方法的比較_第3頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、RNA-seq數據差異表達分析方法的比較BMC Bioinformatics 2013, 14:91 doi:91A comparison of methods for differential expression analysis of RNA-seq dataCharlotte Soneson () Mauro Delorenzi ()摘要說的背景是:“發(fā)現(xiàn)條件間差異表達的基因是理解表型變異的分子基礎的一個有機部分。過去幾十年中,DNA 微陣列被廣泛用于定量不同基因的mRNA 豐度,更近期的RNA-seq作為一個強有力的競爭者冒了出來。隨著測序成本持續(xù)下降,可以想象使用RNA-seq做差

2、異表達分析會迅速增加。為了探索可能性和解決這種 相對新型的數據提出的挑戰(zhàn),大量軟件包特別為 RNA-seq 數據的差異表達分析開發(fā)出來了。 ”而本文的結果是:“我們廣泛比較了RNA-seq數據的差異表達分析的7 種方法。所有方法都可以在R 框架下免費獲得, 并以一個計數矩陣作為輸入,計數即每個樣品中映射到每個感興趣的基因組特征上的 reads 數目。我們基于模擬數據和實際RNA-seq數據評價了這些方法?!苯Y論就是:“極小樣本量仍是RNA-seq實驗的普遍狀況,對所有評價方法造成了困難;而任何在這樣的條件下獲得的結果都應該謹慎解釋。對于更大的樣本量,組合穩(wěn)定方差變換和limma 方法來進行差異

3、表達分析會在很多不同的條件下表現(xiàn)良好,正如非參數的SAMseq 方法一樣。 ”到 2013 年還說這種話,這些結論實在有點雞肋啊 貌似為 SAMseq搖旗吶喊來的不過:比較了 11 種軟件包,這還是前所未有的: DESeq 、 edgeR 、 NBPSeq 、 TSPM 、 baySeq 、 EBSeq 、NOISeq 、 SAMseq 、 ShrinkSeq 這 9 種可直接處理計數數據,另兩種分別是 voom(+limma) 和 vst(+limma) ,轉換數據后用 limma 做差異表達分析。正如很多文章已經提到的那些,RNA-seq比起微陣列有三大優(yōu)點:1、更大的動態(tài)范圍2、更低的背

4、景噪音3、能檢測和定量先前未知的轉錄本及亞型RNA-seq 也有一些難題:1、樣本內不均勻性:基因組區(qū)域之間核苷酸組成的變異性導致沿基因組的read 覆蓋深度并不均勻;2、同樣表達水平下,長基因比短基因有更多的reads ;3、對于條件之間的表達差異,分別對各個基因進行差異表達分析,而忽略了樣本內的偏倚(它們被假設對所有樣本有類似的影響)4、樣本間不均勻性:測序深度或文庫大小5、少數高表達基因抑制了其他基因的read 計數比例,可能導致低表達基因的差異表達假陽性相應的解決辦法是:1、對上述4,5兩點,估計樣本特異的歸一化因子,用于重新調整觀測計數。這些歸一化方法是為了使樣本間的非差異表達基因的

5、歸一化計數是相似的。本研究中使用的是DESeq包中的 TMM 方法。歸一化因子和TMM 兩種方法的性能相似,也是僅有的兩個在文獻9 的評價中對所有度量都提供了滿意結果的方法。2、對于 2、 4 兩點,基因長度和文庫大小,有的軟件采用了RPKM 或相關的FPKM 方法。只有非參數方法才適用于RPKM 值。致命的假設: 大部分基因在樣本間的表達是相等的。于是差異表達基因分成上調、下調及其之間的或多或少相等的三部分。差異表達已經提出的模型中,Poisson分布和負二項分布最常見,還有分布也被提出來。Poisson分布很適合技術變異的分析;而更高的生物學變異需要合并過離散的分布,如負二項分布。RNA-

6、seq 數據的差異表達分析仍處于它的嬰兒期,需要不斷提出新的方法來。目前沒有一致認可的表現(xiàn)最好的方法,只發(fā)表了很少的現(xiàn)有方法的廣泛比較。文 獻 19 中,依照區(qū)分真實差異 /非差異表達基因的能力比較了四種參數方法。還有研究評價了測序深度的影響,并與樣本量進行了比較,并發(fā)現(xiàn)后者的影響相當大。本文中比較了為不同條件下RNA-seq數據的差異表達分析開發(fā)的11 種方法。其中9 種直接對計數數據進行建模,而另兩個先對計數進行變換再應用微陣列數據的差異表達分析的傳統(tǒng)方法。研究限于R 框架下實現(xiàn)的可應用于計數矩陣的可用方法。進一步我們聚焦于發(fā)現(xiàn)兩條件之間的差異表達基因,因為這是最常見的應用,雖然大多數方法

7、也允許更復雜的試驗設計。對 NB 和 Poisson 分布模擬的數據和分別加了一些例外點的數據共四種數據集,同實驗條件下方法的下列方面:研究了在不1、排序真實DEGs 在 nonDEGs之前的能力;2、在給定水平控制I 型錯誤和假發(fā)現(xiàn)率的能力;3、計算時間。對于真實 RNA-seq 數據,比較了 DEGs 集,各自的數目和重疊的數目。還研究了不同方法獲得的基因排序的一致性。六種方法有名義p-value( edgeR 、DESeq 、NBPSeq 、TSPM 、voom+limma、vst+limma ),我們定義分數值為1- pvalue 。對于 SAMseq ,定義平均 Wilcoxon統(tǒng)計

8、量的絕對值為排序分值,而對于baySeq 、EBSeq 、ShrinkSeq使用估計的差異表達后驗概率,或者等價地,1-BFDR ,其中 BFDR 表示估計的Bayesian FDR。對于 NOISeq ,使用統(tǒng)計量q_NOISeq 。所有這些分數都是雙側的,即不被差異表達的方向影響。給定上述分數的閾值,我們就選擇出閾值以上的為DEGs ,其余的為non-DEGs。SAMseq使用了重抽樣策略使文庫大小一致,因此隱含假設了所有歸一化因子是相等的,在整體上調的模擬研究中表現(xiàn)最好。上下調基因都有的時候,所有方法的 AUC (Area underthe ROC curve (AUC), Receiv

9、er Operating Characteristic)性能類似。TSPM和EBSeq在所有方法中表現(xiàn)出最強烈的樣本量依賴性,其次是SAMseq和baySeq。對于最小樣本量(每條件下2 樣本),最佳結果是DESeq 、edgeR 、NBPSeq 、voom+limma和 vst+limma 。當所有 DEGs 上調時, baySeq 結果的變異性很高; 而 DEGs 向不同的方向調整時這種變異就會減小。將真實 DEGs 排的很靠前的方法是基于變換的voom+limma和 vst+limma方法和 ShrinkSeq但是 TSPM 和 NOISeq 還會把一些真實的 nonDEGs排的很靠前。

10、SAMseq也表現(xiàn)不錯,但是有一些真實DEGs 和 nonDEGs被返回靠前的相同的值。,實在是相當繁瑣,直接看結論吧Conclusions文本評價和比較了11 種 RNA-seq數據的差異表達分析方法。主要結果如下:Table 2 Summary of the main observationsDESeq - Conservative with default settings. Becomes more conservative when outliers are introduced.- Generally low TPR.- Poor FDR control with 2 sample

11、s/condition, good FDR control for larger sample sizes, also withoutliers.- Medium computational time requirement, increases slightly with sample size.edgeR - Slightly liberal for small sample sizes with default settings. Becomes more liberal when outliers are introduced.- Generally high TPR.- Poor F

12、DR control in many cases, worse with outliers.- Medium computational time requirement, largely independent of sample size.NBPSeq - Liberal for all sample sizes. Becomes more liberal when outliers are introduced.- Medium TPR.- Poor FDR control, worse with outliers. Often truly non-DE genes are among

13、those with smallest p-values.- Medium computational time requirement, increases slightly with sample size. TSPM - Overall highly sample-size dependent performance.- Liberal for small sample sizes, largely unaffected by outliers.- Very poor FDR control for small sample sizes, improves rapidly with in

14、creasing sample size.Largely unaffected by outliers.- When all genes are overdispersed, many truly non-DE genes are among the ones with smallest p-values. Remedied when the counts for some genes are Poisson distributed.- Medium computational time requirement, largely independent of sample size. voom

15、 / vst- Good type I error control, becomes more conservative when outliers are introduced.- Low power for small sample sizes. Medium TPR for larger sample sizes.- Good FDR control except for simulation study B04000. Largely unaffected by introduction of outliers.- Computationally fast.baySeq- Highly

16、 variable results when all DE genes are regulated in the same direction.Less variability when the DE genes are regulated in different directions.- Low TPR. Largely unaffected by outliers.- Poor FDR control with 2 samples/condition, good for larger sample sizes in the absence of outliers. Poor FDR co

17、ntrol in the presence of outliers.- Computationally slow, but allows parallelization.EBSeq- TPR relatively independent of sample size and presence of outliers.- Poor FDR control in most situations, relatively unaffected by outliers.- Medium computational time requirement, increases slightly with sam

18、ple size.NOISeq - Not clear how to set the threshold for qNOISeq to correspond to a given FDR threshold.- Performs well, in terms of false discovery curves, when the dispersion is different between theconditions (see supplementary material).- Computational time requirement highly dependent on sample

19、 size.SAMseq- Low power for small sample sizes. High TPR for large enough sample sizes.- Performs well also for simulation study B04000.- Largely unaffected by introduction of outliers.- Computational time requirement highly dependent on sample size.ShrinkSeq - Often poor FDR control, but allows the

20、 user to use also a fold change threshold in the inference procedure.- High TPR.- Computationally slow, but allows parallelization.沒有哪種單獨的方法對所有情形都是最優(yōu)的,特定情形下方法的選擇取決于實驗條件。本文評價的這些方法中,基于穩(wěn)定方差的變換與limma 組合的方法在很多情況下都表現(xiàn)不錯,而且不受例外點影響、計算很快,但是要求每條件下至少3 個樣本來提供充分的檢定力。而且在兩條件下散度不同時表現(xiàn)更糟糕。非參數方法SAMseq在大樣本量時是性能最優(yōu)的方法, 需要至少每條件下4-5個樣本

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論