映射至基因組mapping_第1頁
映射至基因組mapping_第2頁
映射至基因組mapping_第3頁
映射至基因組mapping_第4頁
免費預覽已結束,剩余1頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、映射至基因組(Mapping)第一步的工作是比對(alignment)o對于RNA-seq的比對,從來都不是一件容易 的事情。其難點如下:1. 沒有很好的比對模板?,F在的比對模板都是基因組模板,而不是真正的轉 錄組模板,也就是說,這對本來就不是很長的短序來說,它很有可能是界 于兩個exon之間。我們在比對junction的時候,一般還是假設它如果沒 能在基因組模板中找到合適的位置的時候,才考慮它是否是界于junction 上。這種人為的假設可能并不準確。2. SNPs,堿基插入,刪除,錯配,或者質量不高的測序結果,從模板至比 對序列本身,都存在著比基因比對更為復雜的問題。3. 短序可能會有多個

2、100%的匹配位點。4. 有些基因組可能需要龐大的內存空間。為了解決最后一個問題,人們使用了很多辦法,但基本上都會基于事先建立的引 索庫。即所謂"啟發(fā)式"比對(heuristic match)o首先使用一定長度的(通常是11 個堿基)的序列做為索引用的關鍵字,在匹配這一索引字之后,就很大程度地縮 小了其需要匹配的模板范圍。但是這一辦法的問題在于不容易解決問題2中的 空格,錯配問題。所以在很多軟件使用時,會要求人工確認高保真區(qū),以及最高 允許2?3個錯配。現在比較快的“啟發(fā)式”比對主要有兩種算法,一種是哈希表(hashtable), 一種是 BW Ik縮轉換(Burrows

3、Wlieeler transform, BWT)。前者速度快,但是對內存要 求比后者要高。對于問題3, 般而言,大部分軟件使用的辦法是只保留一個匹配位點,其中, 有些是只保留第一個匹配位點,有些是按照概率分布選取保留的位點。當然,前 面已經提到過,可以使用paired-end read來盡量避免問題3的出現。對于問題1,可以使用外顯子庫來確定junction readso有兩種辦法,一種是依 靠已知的外顯子庫來構建,另一種辦法就是依據已經匹配好的短序來構建外顯子 庫(de novo assembly of transcriptome) 后者的不足是運算量大,對測序覆蓋范 圍要求高,最好是使用p

4、aired-end readso還有人發(fā)現,對于ploy(A)的處理會減少不能映身的短序數。比如,Pickrell et al. 就發(fā)現,對于46bp的Illumina reads, 87%的短序可以映射至模板,7%可以映 射至junction libraryc如果對那些不能映射的短序,將在頭或者尾含有的超過連 續(xù)4個的A或者T去除,就可以得到約0.005%的映射。11綜合評價 (Summarizing mapped reads)這一步,主要是基本于不同水平(外顯子水平,轉錄水平,或者基因水平)進行 統(tǒng)訃。最簡單的辦法就是統(tǒng)計落在每個外顯上的短序數。但是有研究表明,很多 (可能超過15%)的短

5、序會落在外顯子兩側,這會影響統(tǒng)計的結果。另一種辦 法就是統(tǒng)會落在內顯子區(qū)域的短序數。無論如何,即使是基因水平的綜合評價,也還是有其它的一些問題。比如 overlapping的基因的統(tǒng)計。比如junction的統(tǒng)計。標準化(Normalization)標準化對于樣品內及樣品間的比較而言是非常重要的。標準化被分為兩類,樣品 內及樣品間(between- and within-library)。樣品內標準化使得在同一樣品內不得基因之間的表達差異變得有意義。最常用到 的一個辦法就是使用落在同一基因內的短序數除以單位基因長度。比較常用的 單位是 RPKM (reads per kilobase of e

6、xon model per million mapped reads)。但是 這一方法也受到樣品制備和測序方法的干擾。而對于樣品間標準化,最簡單而直接的辦法使用短序總數來平衡表達量。然而短 序總數受測序深度的干擾,而且單個基因的短序數與實際的表達量并不一定會 呈線性比較關系。人們乂使用四分位(quantile normlization)標準化的辦法。但是 有研究說這一辦法并沒有實際的價值。還有提出使用對數分布法則(power law distributions)來進行樣品間標準化。但沒有研究對這一處理方式進行驗證。差異表達(Differential expression)差異表達分析的最終LI

7、的是將那些差異表達的基因(外顯子等等)從海量數據中 提取出來。最終的結果顯示一般來說是表格化的,這一表格按照一定的規(guī)則排序, 讓人們能夠盡可能簡單地拿到想要的結果。山于RNA-seq結果的離散性,人們一般都會使用統(tǒng)計模型來擬合實驗得到的結 果。一般而言,RNA-seq的結果是比較附合伯松分布(poisson distribution) W 這一結果得到了單通道Illumina GA測序結果的實驗驗證。但是,伯松分布分析 結果常常在多組重復的樣品間帶來較高的假陽性,因為它低佔了生物取樣的樣品 間誤差。所以RNA-seq如何設 置重復是一個很重要的問題。為了平衡重復樣品 所帶來的誤差,人們使用 了

8、 serial analysis of gene expression (SAGE) data?,F有的軟件一般都是針對較為簡單的實驗設訃的。而對于復朵的實驗設訃,比如 說成對樣品,時間依賴樣品等等,還沒有專門的,較好的解決方案。大多數都使 用edgeR的線性模型來進行分析。22后期系統(tǒng)生物學分析簡單地講,前景是廣闊的,但U前為止手段還是比較有限的,基本上就是GO分 析。在轉錄組高通量測序數據分析過程中,主要就是轉錄本的構建(拼接)及表達水 平的衡量,其次還包括可變剪接之類的轉錄后修飾等研究分析。因此,做過 RNA-seq轉錄組測序數據分析的童鞋們一定使用過或至少聽說過Cufflinks這個 軟

9、件。Cufflinks是加利福尼亞大學伯克利分校數學和計算機生物實驗室,llj LiorPachter 領導的StevenSalzberg團隊,和馬里蘭大學生物信息和計算機生物中心的 Steven Salzberg小組,以及加州理工學院的Barbara Wold實驗室聯(lián)合作用的結 果。Cufflinks利用Top hat比對的結果(alignments)來組裝轉錄本,估汁這些 轉錄本的豐度,并且檢測樣本間的差異表達及可變剪接。這個軟件其實是個套裝, 包括四個部分分別命名為:cufflinkscuffcompare、cuffmerge 及 cuffdiff。tophat->Cufflink

10、s->cuffdiff轉錄組分析大致流程如下:第一步,利用tophat/bowtie比對結果(bam格式)及參考基因組構建轉錄本, 最終的轉錄本是以gtf格式保存的。第二步.Cuffcompare主要是對兩個或多個轉錄本集合中轉錄本相似悄況的比較, 例如將笫一步構建出的轉錄本與ENSEMBL數據庫中的轉錄本進行比較,評佔轉 錄本構建情況,此外,根據構建的轉錄本與已知ENSEMBL數據庫中的轉錄本的 相對位置定義了一系列分類,例如內含子區(qū)域、反義、基因間區(qū)域轉錄本等等近 10種分類。第三步,cuffmerge是將多個轉錄本集合合并成一套轉錄本集合,例如將在多個 組織樣本中構建的多套轉錄本合

11、并成一套轉錄本,cuffinerge能夠很好地完成去 除冗余。第四步,cuffdiff衡量兩個或多個樣本間差異表達的基因,例如癌癥與正常組織 33間差異表達的轉錄本,此外還能衡量差異可變剪接體。至此,轉錄本測序常規(guī)數據分析基本結束,接下來進行實驗驗證或深入數據分析。0K,如果對cufflinks的流程理解沒問題的話,現在問題來了! !在tophat->cufflinks -> cuffdiff流程中,第一步對每一個樣本會產生一個的gtf 格式的轉錄本,因此若有n個樣本就會有n個gtf.但是在對n個樣本之間做差 異表達分析時,由于各樣本之間的轉錄本集合不相同。在做cuffdiff時,

12、卻要求 輸入一個gtf,以便對該gtf文件中轉錄本在不同樣本間進行差異分析。因此需 要將n個樣本的gtf文件合并成一個。問題是,cufflinks有cuffcompare和 cuffhierge兩個合并轉錄本的方法,這是應該選用那個?這兩個有什么區(qū)別?個人理解及經驗分享:這是所有初做NGS分析的很因惑的問題,事實上,對于多個樣本構建的多套轉 錄本,如何得到統(tǒng)一的一套轉錄本,有下面三種方法:1在轉錄本拼接之前,把各樣本的比對bam文件合并,然后用合并的bam跑 cufflinks2每個樣本的比對bam文件分別單獨跑cufflinks,各樣本的轉錄本構建后,再 用cuffcompare合并為一套轉

13、錄本。3每個樣本的比對bam文件分別單獨跑cufflinks,各樣本的轉錄本構建后,再 用cuffmerge合并為一套轉錄本。這三種做法區(qū)別在于:第一種方法流程相對簡單,所有的工作都拋給cufflinks 一人完成,你都不需要 知道cuffmergecuffcompare的用法。貌似是種完美解決方案。但很大的問題 是:cufflinks能處理得了最終合并的bam嗎?對于小物種的樣本還可以,但對 于人,若是7, 8個樣本合成的bam, cufflinks吃不銷! 44笫二和三種方法是類似的,都是在保留可變剪切結構的詢提下,將轉錄本合并。 不同的是,cuffcompare只有A、B兩條轉錄本結構相同的時候,才將A、B合并。 而cuffmerge是A、B某些部分互相overlap,就將它倆合并。事實上,cuffmerge 再做合并的時候,是把overlap的transfrag重新調用了 cufflinks,合成一個

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論