生物信息學-高通量測序技術(shù)及數(shù)據(jù)分析-20141015課件_第1頁
生物信息學-高通量測序技術(shù)及數(shù)據(jù)分析-20141015課件_第2頁
生物信息學-高通量測序技術(shù)及數(shù)據(jù)分析-20141015課件_第3頁
生物信息學-高通量測序技術(shù)及數(shù)據(jù)分析-20141015課件_第4頁
生物信息學-高通量測序技術(shù)及數(shù)據(jù)分析-20141015課件_第5頁
已閱讀5頁,還剩36頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

生物信息學2014.10.15高通量測序技術(shù)及數(shù)據(jù)分析介紹高通量測序技術(shù)及數(shù)據(jù)分析介紹背景介紹第一代測序技術(shù)第二代(高通量)測序技術(shù)基因芯片與高通量測序的比較高通量測序技術(shù)的應用高通量測序數(shù)據(jù)分析概覽高通量測序數(shù)據(jù)質(zhì)量評估與過濾基因組測序RNA-seqChIP-seqUCSCGenomeBioinformatics背景介紹背景介紹第二代測序技術(shù)邊合成邊測序2005年左右Sequeningbysynthesis代表性測序技術(shù)Illumina/SolexaRoche/454ABI/SOLiDPolonatorHeliScope參考文獻Metzker,M.L.(2010).Sequencingtechnologies-thenextgeneration.NatRevGenet11,31-46.IlluminaHiSeq2500背景介紹高通量測序文庫構(gòu)建單末端測序,single-end首先將DNA樣本進行片段化處理形成200-500bp的片段,引物序列連接到DNA片段的一端,然后末端加上接頭,將片段固定在flow

cell上生成DNA簇,上機測序單端讀取序列。雙末端測序,paired-end在構(gòu)建待測DNA文庫時在兩端的接頭上都加上測序引物結(jié)合位點,在第一輪測序完成后,去除第一輪測序的模板鏈,引導互補鏈在原位置再生和擴增,以達到第二輪測序所用的模板量,進行第二輪互補鏈的合成測序。背景介紹以Illumina為例簡單介紹測序原理IlluminaHiSeq2500cBot背景介紹高通量測序數(shù)據(jù)格式fasta序列文件的第一行是由大于符號(>)打頭的任意文字說明,主要為標記序列用。從第二行開始是序列本身,標準核苷酸符號,通常核苷酸符號大小寫均可fastq第一行由‘@’開始,后面跟著序列的描述信息,這點跟fasta格式是一樣的;第二行是序列;第三行由‘+’開始,后面也可以跟著序列的描述信息;第四行是第二行序列的質(zhì)量評價(qualityvalues),字符數(shù)跟第二行的序列是相等的。基因芯片與高通量測序的比較芯片與測序比較高通量測序約10年的歷史,發(fā)展快速,成本逐步減少原理邊合成邊測序堿基用熒光基團標記直接測定堿基序列應用全基因組測序轉(zhuǎn)錄組測序(smallRNAseq,RNA-seq),可以檢測已知基因的表達水平,可以發(fā)現(xiàn)全新的轉(zhuǎn)錄本ChIP-seqCLIP-seq,…高通量測序技術(shù)的應用測序應用高通量測序數(shù)據(jù)分析概覽測序應用QualityAssessmentRawDataFastQC;fastx_quality_statsRemoveadaptor/linkerfastx_trimmerfastx_clipperSplitaccordingtobarcodefastx_barcode_splitter.plfastx_trimmerQualityControlfastq_quality_trimmerfastq_quality_filterFurtherAnalysis高通量測序數(shù)據(jù)質(zhì)量評估與過濾FastQCFASTX-Toolkit測序應用全基因組測序第一期:基因組調(diào)研圖整體測序深度不低于20倍覆蓋度。進行初步的數(shù)據(jù)分析,對基因組大小,GC含量等做出初步評估,確定框架圖梯度文庫構(gòu)建具體策略第二期:基因組框架圖基因組覆蓋度達到90%以上,基因區(qū)覆蓋度達到95%以上,單堿基的錯誤率達到1萬分之一以內(nèi),整體測序覆蓋深度不低于60倍覆蓋度。同時對框架圖進行基本基因注釋和功能注釋,和簡單的比較基因組學分析。第三期:基因組精細圖基因組覆蓋度達到95%以上,基因區(qū)覆蓋度達到98%以上,單堿基的錯誤率達到10萬分之一以內(nèi),整體基因組覆蓋度不低于100倍,ScaffoldN50大小不低于300Kb,對基因組精細圖進行詳細基因注釋,基因功能注釋,基因代謝途徑注釋和比較基因組學分析。測序應用轉(zhuǎn)錄組測序SmallRNAseq檢測smallRNA(主要是miRNA)的表達水平發(fā)現(xiàn)新的smallRNARNA-seqPoly(A)檢測蛋白質(zhì)編碼基因的可變剪切體及表達水平TotalRNA(exceptrRNA)檢測mRNA及l(fā)ongnoncodingRNA的表達水平發(fā)現(xiàn)新的longnoncodingRNA數(shù)據(jù)分析工具Bowtie()TopHat()Cufflinks()測序應用OverviewofTopHat測序應用SplicingJunctionsExonskipping

or

cassetteexonMutuallyexclusiveexonsAlternativedonorsiteAlternativeacceptorsiteIntronretentionExonskipping

or

cassetteexonMutuallyexclusiveexonsAlternativedonorsiteAlternativeacceptorsiteIntronretention測序應用TopHat:DiscoveringsplicejunctionsTopHatv1.0.7andlaterasegmentsifailstoalignbecauseitcrossesasplicejunction,butsi-1

andsi+1arealigned.si-1Si+1si12345678910111213141516171819202122232425simbpk-mbpm=1,…,24m=12測序應用OverviewofCufflinks測序應用轉(zhuǎn)錄本拼接算法中涉及到的概念偏序關(guān)系非嚴格偏序,自反偏序給定集合S,“≤”是S上的二元關(guān)系,若“≤”滿足:自反性:?a∈S,有a≤a;反對稱性:?a,b∈S,a≤b且b≤a,則a=b;傳遞性:?a,b,c∈S,a≤b且b≤c,則a≤c;則稱“≤”是S上的非嚴格偏序或自反偏序嚴格偏序,反自反偏序給定集合S,“<”是S上的二元關(guān)系,若“<”滿足:反自反性:?a∈S,有a≮a;非對稱性:?a,b∈S,a<b?b≮a;傳遞性:?a,b,c∈S,a<b且b<c,則a<c;則稱“<”是S上的嚴格偏序或反自反偏序。測序應用轉(zhuǎn)錄本拼接算法中涉及到的概念偏序集合鏈偏序集合的子集,滿足其中任意兩個元素可比反鏈偏序集合的子集,滿足其中任意兩個元素不可比鏈劃分將偏序集合拆分成很多子集稱作劃分。子集全為鏈的劃分叫做鏈劃分子集全為反鏈的劃分叫反鏈劃分。偏序集合的兩個對偶定理定理1令(S,≤)是一個有限偏序集,并令r是其最大鏈的大小。則S可以被劃分成r個但不能再少的反鏈。定理2(Dilworth定理)

令(S,≤)是一個有限偏序集,并令m是反鏈的最大的大小。則S可以被劃分成m個但不能再少的鏈。測序應用轉(zhuǎn)錄本拼接算法中涉及到的概念二分圖指頂點可以分成兩個不相交的集使得在同一個集內(nèi)的頂點不相鄰(沒有共同邊)的圖。設G=(V,E)是一個無向圖,如果頂點V可分割為兩個互不相交的子集(U,V),并且圖中的每條邊(i,j)所關(guān)聯(lián)的兩個頂點i和j分別屬于這兩個不同的頂點集(iinU,jinV),則稱圖G為一個二分圖。測序應用轉(zhuǎn)錄本拼接算法中涉及到的概念二分圖最大匹配最小點覆蓋K?nig定理:最大匹配數(shù)等于最小點覆蓋數(shù)測序應用轉(zhuǎn)錄本拼接DefinitionTranscriptprimarytranscriptgenomiclocationTranscriptometranscriptionlociThegenomiclocationofatranscriptt∈g∈Gdoesnotoverlapthegenomiclocationofanytranscriptuwhereu∈h∈Gandh≠g.Transcriptionlocusisnotbiological.測序應用轉(zhuǎn)錄本拼接Cufflinksisdesignedtoaimforthefollowing:(1)Everyfragmentisconsistentwithatleastoneassembledtranscript.(2)Everytranscriptistiledbyreads.(3)Thenumberoftranscriptsisthesmallestrequiredtosatisfyrequirement(1).測序應用轉(zhuǎn)錄本拼接Apartialorderonfragmentalignmentsx1andy1arecompatiblex2andy2areincompatibley3isnestedinx3x4isuncertain,becausey4andy5areincompatiblewitheachother.測序應用轉(zhuǎn)錄本拼接AssemblingaparsimonioussetoftranscriptsAssembleasetoftranscriptsFindaminimumpartitionPintochainsFindamaximumantichainFindamaximummatchinginbipartitegraphFindaminimumvertexcoverK?nig'stheoremDilworththeoremHopcroft-Karpalgorithm測序應用ChIP-seq數(shù)據(jù)分析發(fā)現(xiàn)轉(zhuǎn)錄因子結(jié)合位點MACSModel-basedAnalysisforChIP-Seq測序應用UCSCGenomeBioinformatics

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論