生物信息學(xué)-高通量測序技術(shù)及數(shù)據(jù)分析-陳潤生院士_第1頁
生物信息學(xué)-高通量測序技術(shù)及數(shù)據(jù)分析-陳潤生院士_第2頁
生物信息學(xué)-高通量測序技術(shù)及數(shù)據(jù)分析-陳潤生院士_第3頁
生物信息學(xué)-高通量測序技術(shù)及數(shù)據(jù)分析-陳潤生院士_第4頁
生物信息學(xué)-高通量測序技術(shù)及數(shù)據(jù)分析-陳潤生院士_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、生物信息學(xué)陳小偉中國科學(xué)院生物物理研究所2015.09.30高通量測序技術(shù)及數(shù)據(jù)分析介紹高通量測序技術(shù)及數(shù)據(jù)分析介紹 背景介紹 第一代測序技術(shù) 第二代(高通量)測序技術(shù) 基因芯片與高通量測序的比較 高通量測序技術(shù)的應(yīng)用 高通量測序數(shù)據(jù)分析概覽 高通量測序數(shù)據(jù)質(zhì)量評估與過濾 基因組測序 RNA-seq ChIP-seq UCSC Genome Bioinformatics背景介紹背景介紹 第一代測序技術(shù) Sanger測序法 鏈終止法 雙脫氧終止法 1975年Transcriptionhttp:/ Sanger弗雷德里克桑格1918年8月13日2013年11月19日1958年 諾貝爾化學(xué)獎(jiǎng)1980

2、年 諾貝爾化學(xué)獎(jiǎng)背景介紹 第二代測序技術(shù) 邊合成邊測序 2005年左右 Sequencing by synthesis 代表性測序技術(shù) Illumina/Solexa Roche/454 ABI/SOLiD Polonator HeliScope 參考文獻(xiàn) Metzker, M.L. (2010). Sequencing technologies - the next generation. Nat Rev Genet 11, 31-46.http:/ HiSeq 2500背景介紹 高通量測序文庫構(gòu)建 單末端測序,single-end 首先將DNA樣本進(jìn)行片段化處理形成200-500bp的片段

3、,引物序列連接到DNA片段的一端,然后末端加上接頭,將片段固定在flow cell上生成DNA簇,上機(jī)測序單端讀取序列。 雙末端測序,paired-end 在構(gòu)建待測DNA文庫時(shí)在兩端的接頭上都加上測序引物結(jié)合位點(diǎn),在第一輪測序完成后,去除第一輪測序的模板鏈,引導(dǎo)互補(bǔ)鏈在原位置再生和擴(kuò)增,以達(dá)到第二輪測序所用的模板量,進(jìn)行第二輪互補(bǔ)鏈的合成測序。背景介紹 以Illumina為例簡單介紹測序原理Illumina HiSeq 2500cBot背景介紹 高通量測序數(shù)據(jù)格式 fasta 序列文件的第一行是由大于符號(hào)()打頭的任意文字說明,主要為標(biāo)記序列用。從第二行開始是序列本身,標(biāo)準(zhǔn)核苷酸符號(hào),通常核

4、苷酸符號(hào)大小寫均可 fastq 第一行由開始,后面跟著序列的描述信息,這點(diǎn)跟fasta格式是一樣的;第二行是序列;第三行由+開始,后面也可以跟著序列的描述信息;第四行是第二行序列的質(zhì)量評價(jià)(quality values),字符數(shù)跟第二行的序列是相等的。背景介紹 高通量測序數(shù)據(jù)格式 fastqQ =-10 log10(p) OR Q =-10 log10p/(1-p) (p:堿基錯(cuò)誤率)字符的ASCII值 - 64 = 質(zhì)量值 OR 字符的ASCII值 - 33 = 質(zhì)量值NCBI/Sanger or Illumina 1.8 and later. Using a Phred scale enc

5、oded using ASCII 33 to 93. This is the standard for fastq formats except for the early Illumina data formats (this changed with version 1.8 of the Illumina Pipeline). Illumina Pipeline 1.2 and earlier. Using a Solexa/Illumina scale (-5 to 40) using ASCII 59 to 104. The Workbench automatically conver

6、ts these quality scores to the Phred scale on import in order to ensure a common scale for analyses across data sets from different platforms (see details on the conversion next to the sample below). Illumina Pipeline 1.3 and 1.4. Using a Phred scale using ASCII 64 to 104. Illumina Pipeline 1.5 to 1

7、.7. Using a Phred scale using ASCII 64 to 104. Values 0 () and 1 (A) are not used anymore. Value 2 (B) has special meaning and is used as a trim clipping. This means that when selecting Illumina Pipeline 1.5 and later, the reads are trimmed when a B is encountered in the input file if the Trim reads

8、 option is checked.36 39 39 39 39 39 39 39 39 39 38 39 39 36 36 34 34 29 31 2 20 20 19 19 19 38 38 38 36 36 36 36 36 36 30 32 35 35基因芯片與高通量測序的比較芯片與測序比較 基因芯片 約20年的歷史,技術(shù)比較成熟,成本相對較低 原理 探針,互補(bǔ)配對的原則 靶序列用熒光標(biāo)記 通過熒光強(qiáng)度間接反映靶序列的數(shù)量 應(yīng)用 檢測已知基因的表達(dá)水平 檢測SNP位點(diǎn)的基因型 檢測CNV芯片與測序比較 高通量測序 約10年的歷史,發(fā)展快速,成本逐步減少 原理 邊合成邊測序 堿基用熒光

9、基團(tuán)標(biāo)記 直接測定堿基序列 應(yīng)用 全基因組測序 轉(zhuǎn)錄組測序 (small RNA seq, RNA-seq),可以檢測已知基因的表達(dá)水平,可以發(fā)現(xiàn)全新的轉(zhuǎn)錄本 ChIP-seq CLIP-seq, 芯片與測序比較 用高通量測序技術(shù)和基因芯片技術(shù)檢測基因表達(dá)Malone, J.H., and Oliver, B. (2011). Microarrays, deep sequencing and the true measure of the transcriptome. BMC Biol 9, 34.高通量測序技術(shù)的應(yīng)用測序應(yīng)用 高通量測序數(shù)據(jù)分析概覽測序應(yīng)用Quality Assessment

10、Raw DataFastQC; fastx_quality_statsRemove adaptor / linkerfastx_trimmerfastx_clipperSplit according to barcodefastx_barcode_splitter.plfastx_trimmerQuality Controlfastq_quality_trimmerfastq_quality_filterFurther Analysis 高通量測序數(shù)據(jù)質(zhì)量評估與過濾 FastQC FASTX-Toolkit測序應(yīng)用 全基因組de novo測序 第一期:基因組調(diào)研圖 整體測序深度不低于20倍覆蓋

11、度。進(jìn)行初步的數(shù)據(jù)分析,對基因組大小,GC含量等做出初步評估,確定框架圖梯度文庫構(gòu)建具體策略 第二期:基因組框架圖 基因組覆蓋度達(dá)到90% 以上,基因區(qū)覆蓋度達(dá)到95% 以上,單堿基的錯(cuò)誤率達(dá)到1萬分之一以內(nèi),整體測序覆蓋深度不低于60倍覆蓋度。同時(shí)對框架圖進(jìn)行基本基因注釋和功能注釋,和簡單的比較基因組學(xué)分析。 第三期:基因組精細(xì)圖 基因組覆蓋度達(dá)到95% 以上,基因區(qū)覆蓋度達(dá)到98% 以上,單堿基的錯(cuò)誤率達(dá)到10萬分之一以內(nèi),整體基因組覆蓋度不低于100倍,Scaffold N50大小不低于300Kb,對基因組精細(xì)圖進(jìn)行詳細(xì)基因注釋,基因功能注釋,基因代謝途徑注釋和比較基因組學(xué)分析。 全基因

12、組de novo測序數(shù)據(jù)拼接組裝算法流程De Bruijn Graph(德布魯因圖)Read: AGATACTk-merAGAGATATATACACTAGAGATATATACACT測序應(yīng)用 全基因組重測序(外顯子組測序)算法流程 發(fā)現(xiàn)遺傳變異(SNP,indel等)測序數(shù)據(jù)與參考基因組做比對重新校對測序質(zhì)量打分每一種基因型的先驗(yàn)概率對基因型做推斷計(jì)算每一種基因型的概率測序應(yīng)用測序應(yīng)用 轉(zhuǎn)錄組測序 Small RNA seq 檢測small RNA(主要是miRNA)的表達(dá)水平 發(fā)現(xiàn)新的small RNA RNA-seq Poly(A) 檢測蛋白質(zhì)編碼基因的可變剪切體及表達(dá)水平 Total RN

13、A(except rRNA) 檢測mRNA及l(fā)ong noncoding RNA的表達(dá)水平 發(fā)現(xiàn)新的long noncoding RNA 數(shù)據(jù)分析工具 Bowtie (http:/bowtie- TopHat (/software/tophat/index.shtml) Cufflinks (/)測序應(yīng)用 RNA-seq數(shù)據(jù)分析工具 Bowtie Bowtie is an ultrafast, memory-efficient short read aligner geared toward quickl

14、y aligning large sets of short DNA sequences (reads) to large genomes. TopHat TopHat is a fast splice junction mapper for RNA-Seq reads. Cufflinks Cufflinks assembles transcripts, estimates their abundances, and tests for differential expression and regulation in RNA-Seq samples.Cole Trapnell: TopHa

15、t(2009), Cufflinks(2010)PhD Steven Salzberg, University of Maryland Lior Pachter, University of California, BerkeleyPostdoc Join Rinns lab, The Broad Institute測序應(yīng)用 Overview of TopHat測序應(yīng)用 Splicing JunctionsExon skipping or cassette exonMutually exclusive exonsAlternative donor siteAlternative accepto

16、r siteIntron retention測序應(yīng)用 TopHat: Discovering splice junctions TopHat v1.0.7 earlier seed-and-extend alignment TopHat v1.0.7 and later Suppose S is a read of length l that crosses a splice junction splits S into n segments, n=floor(l/k), (k=25bp) maps the segments s1,sn with Bowtie to the genome se

17、gments si, si+1 that both align to the genome, but not adjacently a segment si fails to align because it crosses a splice junction, but si-1 and si+1 are aligned.測序應(yīng)用 TopHat: Discovering splice junctions TopHat v1.0.7 and later a segment si fails to align because it crosses a splice junction, but si

18、-1 and si+1 are aligned.si-1Si+1si12345678910111213141516171819202122232425sim bpk-m bpm=1,24m=12測序應(yīng)用 Overview of Cufflinks測序應(yīng)用 轉(zhuǎn)錄本拼接算法中涉及到的概念 偏序關(guān)系與偏序集合 Partial order and Partially ordered set 偏序關(guān)系 偏序(亦稱半序)關(guān)系是定義在集合上的一種序結(jié)構(gòu),是集合上滿足一定條件的二元關(guān)系。 直觀的說,偏序指集合中僅有部分部分成員之間可以排序。 全序關(guān)系 在集合 A 中,存在偏序關(guān)系“” ,如果對于任意 aA, bA, 有 a b 或 b a,即 A 中的每對元素都滿足關(guān)系“”,則集合 A 上的偏序 “” 是全序的或線性次序的。直觀來說,全序指集合中全體成員之間都可以進(jìn)行比較,可以排出所有元素的順序。 偏序集合 指配備了偏序關(guān)系的集合測序應(yīng)用 轉(zhuǎn)錄本拼接算法中涉及到的概念 偏序關(guān)系 非嚴(yán)格偏序,自反偏序 給定集合S,“”是S上的二元關(guān)系,若“”滿足: 自反性自反性:aS,有aa; 反對稱性反對稱性:a,bS,ab且ba,則a=b; 傳遞性傳遞性:a,b,cS,ab且bc,則ac; 則稱“”是S上的非嚴(yán)格偏序或自反偏序 嚴(yán)格偏序,反自反偏序 給定集合S,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論