



免費(fèi)預(yù)覽已結(jié)束,剩余1頁可下載查看
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
轉(zhuǎn)錄組測序以及常用算法簡介轉(zhuǎn)錄組測序,也被稱為“全轉(zhuǎn)錄組鳥槍法測序”(WTSS),由于轉(zhuǎn)錄組測序的高覆蓋率,它也被稱為深度測序。它主要利用新一代高通量測序技術(shù),對物種或組織的RNA反轉(zhuǎn)錄而成的cDNA文庫進(jìn)行測序,并得到相關(guān)的RNA信息。其研究對象為特定細(xì)胞在某一功能狀態(tài)下所能轉(zhuǎn)錄出來的所有RNA的總和,包括mRNA和非編碼RNA。它是指用新一代高通量測序技術(shù),對物種或組織的RNA反轉(zhuǎn)錄而成的cDNA文庫進(jìn)行測序,并得到相關(guān)的RNA信息。轉(zhuǎn)錄組測序根據(jù)有無基因組參考序列分為:有參考基因組的轉(zhuǎn)錄組測序,和無參考基因組的de novo測序。如果有基因組參考序列,可以把轉(zhuǎn)錄本映射回基因組,確定轉(zhuǎn)錄本位置、剪切情況等更為全面的遺傳信息,而這些遺傳信息可以廣泛應(yīng)用于生物學(xué)研究、醫(yī)學(xué)研究、臨床研究中。雖然轉(zhuǎn)錄組測序和基因組測序的步驟大體相同,但是在文庫制備和分析方法上卻有很大的區(qū)別。在生物信息學(xué)領(lǐng)域,序列比對作為識別DNA、RNA和蛋白質(zhì)相似區(qū)域的有效手段,有助于我們更好地研究其結(jié)構(gòu)、功能以及進(jìn)化方向的關(guān)系。下圖簡要說明了轉(zhuǎn)錄組測序的主要流程:首先將細(xì)胞中所有的反轉(zhuǎn)錄產(chǎn)物轉(zhuǎn)化為cDNA文庫,再將cDNA隨機(jī)剪切為小DNA片段,并在兩端加上接頭(Adapter),所得序列通過比對(有參考基因組)或者從頭組裝de novo(無參考基因組),形成全基因組范圍的轉(zhuǎn)錄譜。圖1 轉(zhuǎn)錄組測序流程圖常用算法簡介TopHat(/software/tophat/index.shtml)TopHat是Cole Trapnell等人于2009年發(fā)表在Bioinformatics上的基于Bowtie的轉(zhuǎn)錄組測序比對算法,是馬里蘭大學(xué)生物信息和計(jì)算機(jī)生物中心,以及加利福尼亞大學(xué)伯克利分校數(shù)學(xué)系和分子細(xì)胞生物學(xué)系以及哈佛大學(xué)的干細(xì)胞與再生生物學(xué)系聯(lián)合開發(fā)的結(jié)果。它通過超快的高通量短序列比對RNA序列來識別剪切位點(diǎn)。圖2 TopHat流程圖TopHat首先先用Bowtie將RNA序列與整個(gè)參考基因組進(jìn)行比對,找到匹配的序列,再用Maq合并匹配的序列,對外顯子進(jìn)行選擇性的拼接。Bowtie在進(jìn)行比對時(shí)可以兼容一定量的錯(cuò)誤(默認(rèn)值=2)。TopHat使用每個(gè)堿基2比特的編碼方法對龐大的基因數(shù)據(jù)進(jìn)行了有效地儲存和管理,因此允許Bowtie在哺乳動物基因組序列比對時(shí),只使用2GB左右的內(nèi)存。TopHat可以發(fā)現(xiàn)大部分新的剪接位點(diǎn),但如果外顯子相距比較長,或者內(nèi)含子為非經(jīng)典內(nèi)含子,TopHat則無法有效地發(fā)現(xiàn)。RUM(/RUM)RUM(RNA-Seq Unified Mapper)是Gregory R.Grant等人于2011年發(fā)表在Bioinformatics上的轉(zhuǎn)錄組測序比對算法。運(yùn)算分為三個(gè)階段,首先先用Bowtie把所有序列(reads)分別與參考基因組和轉(zhuǎn)錄組進(jìn)行比對,合并結(jié)果后,把無法匹配的序列再用Blat(Blast Like Alignment Tool)與參考基因組進(jìn)行比對,合并后得到最終結(jié)果。RUM很好地利用了Burrows-Wheeler壓縮算法的高效快速,以及Blat的敏感性。Blat之前被認(rèn)為不適合用作短序列的比對,而且由于速度太慢,也不適合進(jìn)行大規(guī)模運(yùn)算。但是Blat可以高效地進(jìn)行短序列比對,識別新的剪切點(diǎn)。隨著科技的發(fā)展,計(jì)算資源成本逐漸降低,比對序列的長度增加,使得Blat可以被更好地應(yīng)用。圖3 RUM流程圖MapSplice(/p/bioinfo/MapSpliceManual)MapSplice是Kai Wang等人于2010年發(fā)表Nucleic Acids Research上的具有高度特異性和敏感性的轉(zhuǎn)錄組測序比對算法。由于大多數(shù)內(nèi)含子剪切位點(diǎn)具有GT-AG模式,即經(jīng)典剪切位點(diǎn),為保證準(zhǔn)確性并節(jié)省時(shí)間,TopHat只報(bào)告含有經(jīng)典剪切位點(diǎn)的內(nèi)含子。MapSplice并不依賴剪切位點(diǎn)的特性或內(nèi)含子的長度,它可以更好地檢測到新的經(jīng)典剪切位點(diǎn)和非經(jīng)典剪切位點(diǎn)。MapSplice在比對的質(zhì)量與序列的多樣性之間做了一個(gè)很好的權(quán)衡。算法分為兩個(gè)步驟:標(biāo)記比對(tag alignment)和拼接推理(splice inference)。在第一階段,被標(biāo)記的mRNA與參考基因組G進(jìn)行比對,產(chǎn)生可能的組合。之后,出現(xiàn)一個(gè)或者更多標(biāo)記比對的剪接位點(diǎn)被篩選出來進(jìn)行分析,根據(jù)比對的質(zhì)量和多樣性打分。STAR(/p/rna-star/)STAR(Spliced Transcripts Alignment to a Reference)是Alexander Dobin等人于2013年發(fā)表在bioinformatics上的一個(gè)快速普適的轉(zhuǎn)錄組測序比對算法。STAR可以準(zhǔn)確比對由三代測序技術(shù)產(chǎn)生的長序列。與大部分比對軟件不同,STAR不是單純的由DNA短序列比對軟件擴(kuò)展而來的(比如TopHat就是由Bowtie擴(kuò)展而來),它直接用非連續(xù)序列進(jìn)行比對,在速度方面也有所提升。算法由兩部分組成:種子搜索(seed search)和聚類、拼接、打分(clustering/stitching/scoring)。STAR進(jìn)行種子搜索的核心是MMP(Maximal Mappable Prefix),與大型基因數(shù)據(jù)比對工具M(jìn)ummer和MAUVE的Maximal Exact Match概念相似,通過運(yùn)行非壓縮的后綴數(shù)組(suffix array, SAs)實(shí)現(xiàn)。MMP可以發(fā)現(xiàn)不同的不匹配序列,但是與Mummer和MAUVE不同,在MMP中,只有不匹配的序列進(jìn)入第二輪搜索。MMP的這一特性使得STAR的運(yùn)行速度有了非常顯著的提高。根據(jù)用戶對匹配、不匹配、插入缺失、間隔定義的分值評估比對結(jié)果并打分,選擇分值最高的結(jié)果輸出。GSNAP(/gmap/)GSNAP(Genomic Short-read Nucleotide Alignment Program)是由Thomas D.Wu等人于2010年發(fā)表在bioinformatics上的一個(gè)快速、SNP兼容的轉(zhuǎn)錄組測序比對算法。它可以利用概率模型或者已知剪接位點(diǎn)的數(shù)據(jù)庫發(fā)現(xiàn)非常短的以及很長的剪接序列。值得一提的是,GSNAP是本次所介紹的五種算法中唯一使用哈希算法的(Hash Table),由于哈希算法需要較大的內(nèi)存空間,對設(shè)備的物理內(nèi)存和運(yùn)算性能要求較高。比如,SOAP需要大約14GB的內(nèi)存來運(yùn)行人類基因組的數(shù)據(jù)。為此,GSNAP采用了基因抽樣的方法(sampling the genomic oligomers),每3nt取出12mers作為索引,從而把所需內(nèi)存由14GB縮短到4GB。GSNAP采用的算法結(jié)構(gòu)決定了其比對過程是基于核苷酸寡聚物層面的,而采用Burrows-Wheeler壓縮轉(zhuǎn)換算法的算法大多是基于核苷酸層面的。ReferenceGregory R. Grant. (2011). Comparative analysis of RNA-Seq alignment algorithms and the RNA-Seq unified mapper (RUM). Bioinformatics, 27(18), 2518-2528.Wang Z, Gerstein M, Snyder M. RNA-Seq: a revolutionary tool for transcriptomics. Nat Rev Genet, 2009, 10(1): 57-63.祁云霞, 劉永斌, 榮威恒. 轉(zhuǎn)錄組研究新技術(shù):RNA-Seq及其應(yīng)用.遺傳2011,33(11):1191-1202Zhao S, Fung-Leung W-P, Bittner A, Ngo K, Liu X (2014) Comparison of RNA-Seq and Microarray in Transcriptome Profiling of Activated T Cells. PLoS ONE 9(1): e78644. doi:10.1371/journal.pone.0078644Yiu, S. Structural Alignment of RNA with Complex Pseudoknot Structure. Journal of Computational Biology, 97-108.Kim, D., Pertea, G., Trapnell, C., Pimentel, H., Kelley, R., Salzberg, S. L. (2013). TopHat2: accurate alignment of transcriptomes in the presence of insertions, deletionsand gene fusions. Genome Biology, 14(4). doi:10.1186/gb-2013-14-4-r36Trapnell, C., Pachter, L., & Salzberg, S. L. (2009). TopHat: discovering splice junctions with RNA-Seq. Bioinformatics/computer Applications in The Biosciences.doi:10.1093/bioinformatics/btp120Kent, W James (2002). BLAT-the BLAST-like alignment tool. Genome Research 12 (4): 656664. doi:10.1101/gr.229202. PMC 187518. PMID 11932250Wang, K., Singh, D., Zeng, Z., Coleman, S. J., Huang, Y., Savich, G. L,et alJ(2010). MapSplice: Accurate mapping of RNA-seq reads for splice junction discovery.Nucleic Acids Research. doi:10.1093/nar/gkq622Dobin, A., Davis, C., Schlesinger, F., Drenkow, J., Zaleski, C., Jha, S., Batut, P., Chaisson, M., Gingeras, T(2013). STAR: ultrafast universal RNA-seq aligner.Bioinformatics. 29(1): 1521. doi: 10.1093/bioinformatics/bts635Wu, T. D., & Nacu, S. (2010). Fast and SNP-tolerant detection of complex variants and splicing in short reads. Bioinformatics/computer Applic
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 預(yù)防小學(xué)生犯罪課件圖片
- 小學(xué)安全教育案例分析
- 倉庫操作培訓(xùn)
- 項(xiàng)目申報(bào)知識培訓(xùn)課件
- 音頻處理技術(shù)課件
- 企業(yè)員工培訓(xùn)需求分析
- 銀行客戶經(jīng)理培訓(xùn)大綱
- 汽車配套產(chǎn)業(yè)基地項(xiàng)目節(jié)能評估報(bào)告(模板范文)
- 2025年結(jié)構(gòu)化布線系統(tǒng)的檢測設(shè)備項(xiàng)目合作計(jì)劃書
- 2025年柴油發(fā)電機(jī)組項(xiàng)目合作計(jì)劃書
- 胃息肉術(shù)后的護(hù)理查房
- 2025年4月版安全法律法規(guī)標(biāo)準(zhǔn)文件清單
- 四川成都?xì)v年中考作文題與審題指導(dǎo)(2005-2024)
- 等保測評服務(wù)人員配置方案
- 安徽省2024年普通高校招生普通本科批院校投檔分?jǐn)?shù)及名次(物理科目組合)
- LY/T 2071-2024人造板類產(chǎn)品生產(chǎn)綜合能耗
- 2024年反洗錢考試題庫及答案
- 售樓處物業(yè)經(jīng)理年終總結(jié)
- 物業(yè)員工夏季防暑培訓(xùn)
- 水廠反恐培訓(xùn)教材
- 品管圈PDCA改善案例-降低住院患者跌倒發(fā)生率
評論
0/150
提交評論