生物信息學(xué)高通量測序技術(shù)及數(shù)據(jù)分析課件_第1頁
生物信息學(xué)高通量測序技術(shù)及數(shù)據(jù)分析課件_第2頁
生物信息學(xué)高通量測序技術(shù)及數(shù)據(jù)分析課件_第3頁
生物信息學(xué)高通量測序技術(shù)及數(shù)據(jù)分析課件_第4頁
生物信息學(xué)高通量測序技術(shù)及數(shù)據(jù)分析課件_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

生物信息學(xué)陳小偉chenxiaowei@中國科學(xué)院生物物理研究所2014.10.15高通量測序技術(shù)及數(shù)據(jù)分析介紹高通量測序技術(shù)及數(shù)據(jù)分析介紹背景介紹第一代測序技術(shù)第二代(高通量)測序技術(shù)基因芯片與高通量測序的比較高通量測序技術(shù)的應(yīng)用高通量測序數(shù)據(jù)分析概覽高通量測序數(shù)據(jù)質(zhì)量評估與過濾基因組測序RNA-seqChIP-seqUCSCGenomeBioinformatics背景介紹背景介紹第一代測序技術(shù)Sanger測序法鏈終止法雙脫氧終止法1975年Transcription/s/blog_7110867f0100zi09.htmlFrederickSanger1918年8月13日-2013年11月19日1958年諾貝爾化學(xué)獎1980年諾貝爾化學(xué)獎背景介紹第二代測序技術(shù)邊合成邊測序2005年左右Sequeningbysynthesis代表性測序技術(shù)Illumina/SolexaRoche/454ABI/SOLiDPolonatorHeliScope參考文獻(xiàn)Metzker,M.L.(2010).Sequencingtechnologies-thenextgeneration.NatRevGenet11,31-46./nrg/journal/v11/n1/full/nrg2626.htmlIlluminaHiSeq2500背景介紹高通量測序文庫構(gòu)建單末端測序,single-end首先將DNA樣本進(jìn)行片段化處理形成200-500bp的片段,引物序列連接到DNA片段的一端,然后末端加上接頭,將片段固定在flow

cell上生成DNA簇,上機(jī)測序單端讀取序列。雙末端測序,paired-end在構(gòu)建待測DNA文庫時在兩端的接頭上都加上測序引物結(jié)合位點,在第一輪測序完成后,去除第一輪測序的模板鏈,引導(dǎo)互補(bǔ)鏈在原位置再生和擴(kuò)增,以達(dá)到第二輪測序所用的模板量,進(jìn)行第二輪互補(bǔ)鏈的合成測序。背景介紹以Illumina為例簡單介紹測序原理IlluminaHiSeq2500cBot背景介紹高通量測序數(shù)據(jù)格式fasta序列文件的第一行是由大于符號(>)打頭的任意文字說明,主要為標(biāo)記序列用。從第二行開始是序列本身,標(biāo)準(zhǔn)核苷酸符號,通常核苷酸符號大小寫均可fastq第一行由‘@’開始,后面跟著序列的描述信息,這點跟fasta格式是一樣的;第二行是序列;第三行由‘+’開始,后面也可以跟著序列的描述信息;第四行是第二行序列的質(zhì)量評價(qualityvalues),字符數(shù)跟第二行的序列是相等的。背景介紹高通量測序數(shù)據(jù)格式fastqQ=-10log10(p)ORQ=-10log10[p/(1-p)](p:堿基錯誤率)字符的ASCII值-64=質(zhì)量值

OR

字符的ASCII值-33=質(zhì)量值NCBI/SangerorIllumina1.8andlater.UsingaPhredscaleencodedusingASCII33to93.ThisisthestandardforfastqformatsexceptfortheearlyIlluminadataformats(thischangedwithversion1.8oftheIlluminaPipeline).IlluminaPipeline1.2andearlier.UsingaSolexa/Illuminascale(-5to40)usingASCII59to104.TheWorkbenchautomaticallyconvertsthesequalityscorestothePhredscaleonimportinordertoensureacommonscaleforanalysesacrossdatasetsfromdifferentplatforms(seedetailsontheconversionnexttothesamplebelow).IlluminaPipeline1.3and1.4.UsingaPhredscaleusingASCII64to104.IlluminaPipeline1.5to1.7.UsingaPhredscaleusingASCII64to104.Values0(@)and1(A)arenotusedanymore.Value2(B)hasspecialmeaningandisusedasatrimclipping.ThismeansthatwhenselectingIlluminaPipeline1.5andlater,thereadsaretrimmedwhenaBisencounteredintheinputfileiftheTrimreadsoptionischecked.363939393939393939393839393636343429312202019191938383836363636363630323535基因芯片與高通量測序的比較芯片與測序比較基因芯片約20年的歷史,技術(shù)比較成熟,成本相對較低原理探針,互補(bǔ)配對的原則靶序列用熒光標(biāo)記通過熒光強(qiáng)度間接反映靶序列的數(shù)量應(yīng)用檢測已知基因的表達(dá)水平檢測SNP位點的基因型檢測CNV芯片與測序比較高通量測序約10年的歷史,發(fā)展快速,成本逐步減少原理邊合成邊測序堿基用熒光基團(tuán)標(biāo)記直接測定堿基序列應(yīng)用全基因組測序轉(zhuǎn)錄組測序(smallRNAseq,RNA-seq),可以檢測已知基因的表達(dá)水平,可以發(fā)現(xiàn)全新的轉(zhuǎn)錄本ChIP-seqCLIP-seq,…芯片與測序比較用高通量測序技術(shù)和基因芯片技術(shù)檢測基因表達(dá)Malone,J.H.,andOliver,B.(2011).Microarrays,deepsequencingandthetruemeasureofthetranscriptome.BMCBiol9,34.高通量測序技術(shù)的應(yīng)用測序應(yīng)用高通量測序數(shù)據(jù)分析概覽測序應(yīng)用QualityAssessmentRawDataFastQC;fastx_quality_statsRemoveadaptor/linkerfastx_trimmerfastx_clipperSplitaccordingtobarcodefastx_barcode_splitter.plfastx_trimmerQualityControlfastq_quality_trimmerfastq_quality_filterFurtherAnalysis高通量測序數(shù)據(jù)質(zhì)量評估與過濾FastQCFASTX-Toolkit測序應(yīng)用全基因組測序第一期:基因組調(diào)研圖整體測序深度不低于20倍覆蓋度。進(jìn)行初步的數(shù)據(jù)分析,對基因組大小,GC含量等做出初步評估,確定框架圖梯度文庫構(gòu)建具體策略第二期:基因組框架圖基因組覆蓋度達(dá)到90%以上,基因區(qū)覆蓋度達(dá)到95%以上,單堿基的錯誤率達(dá)到1萬分之一以內(nèi),整體測序覆蓋深度不低于60倍覆蓋度。同時對框架圖進(jìn)行基本基因注釋和功能注釋,和簡單的比較基因組學(xué)分析。第三期:基因組精細(xì)圖基因組覆蓋度達(dá)到95%以上,基因區(qū)覆蓋度達(dá)到98%以上,單堿基的錯誤率達(dá)到10萬分之一以內(nèi),整體基因組覆蓋度不低于100倍,ScaffoldN50大小不低于300Kb,對基因組精細(xì)圖進(jìn)行詳細(xì)基因注釋,基因功能注釋,基因代謝途徑注釋和比較基因組學(xué)分析。測序應(yīng)用轉(zhuǎn)錄組測序SmallRNAseq檢測smallRNA(主要是miRNA)的表達(dá)水平發(fā)現(xiàn)新的smallRNARNA-seqPoly(A)檢測蛋白質(zhì)編碼基因的可變剪切體及表達(dá)水平TotalRNA(exceptrRNA)檢測mRNA及l(fā)ongnoncodingRNA的表達(dá)水平發(fā)現(xiàn)新的longnoncodingRNA數(shù)據(jù)分析工具Bowtie(/index.shtml)TopHat(/software/tophat/index.shtml)Cufflinks(/)測序應(yīng)用RNA-seq數(shù)據(jù)分析工具BowtieBowtieisanultrafast,memory-efficientshortreadalignergearedtowardquicklyaligninglargesetsofshortDNAsequences(reads)tolargegenomes.TopHatTopHat

isafastsplicejunctionmapperforRNA-Seqreads.CufflinksCufflinks

assemblestranscripts,estimatestheirabundances,andtestsfor

differentialexpressionand

regulation

inRNA-Seqsamples.ColeTrapnell:TopHat(2009),Cufflinks(2010)PhDStevenSalzberg,

UniversityofMarylandLiorPachter,UniversityofCalifornia,

BerkeleyPostdocJoinRinn’slab,TheBroadInstitute測序應(yīng)用OverviewofTopHat測序應(yīng)用SplicingJunctionsExonskipping

or

cassetteexonMutuallyexclusiveexonsAlternativedonorsiteAlternativeacceptorsiteIntronretentionExonskipping

or

cassetteexonMutuallyexclusiveexonsAlternativedonorsiteAlternativeacceptorsiteIntronretentionTHANKYOUSUCCESS2022/10/1522可編輯測序應(yīng)用TopHat:DiscoveringsplicejunctionsTopHatv1.0.7earlierseed-and-extendalignmentTopHatv1.0.7andlaterSupposeSisareadoflengthlthatcrossesasplicejunctionsplitsSintonsegments,n=floor(l/k),(k=25bp)mapsthesegmentss1,…,snwithBowtietothegenomesegmentssi,si+1thatbothaligntothegenome,butnotadjacentlyasegmentsifailstoalignbecauseitcrossesasplicejunction,butsi-1

andsi+1arealigned.測序應(yīng)用TopHat:DiscoveringsplicejunctionsTopHatv1.0.7andlaterasegmentsifailstoalignbecauseitcrossesasplicejunction,butsi-1

andsi+1arealigned.si-1Si+1si12345678910111213141516171819202122232425simbpk-mbpm=1,…,24m=12測序應(yīng)用OverviewofCufflinks測序應(yīng)用轉(zhuǎn)錄本拼接算法中涉及到的概念偏序關(guān)系與偏序集合PartialorderandPartiallyorderedset偏序關(guān)系偏序(亦稱半序)關(guān)系是定義在集合上的一種序結(jié)構(gòu),是集合上滿足一定條件的二元關(guān)系。直觀的說,偏序指集合中僅有部分成員之間可以排序。全序關(guān)系在集合

A

中,存在偏序關(guān)系“≤”,如果對于任意

a∈A,

b∈A,有

a≤b

b≤a,即

A

中的每對元素都滿足關(guān)系“≤”,則集合

A

上的偏序

“≤”是全序的或線性次序的。直觀來說,全序指集合中全體成員之間都可以進(jìn)行比較,可以排出所有元素的順序。偏序集合指配備了偏序關(guān)系的集合測序應(yīng)用轉(zhuǎn)錄本拼接算法中涉及到的概念偏序關(guān)系非嚴(yán)格偏序,自反偏序給定集合S,“≤”是S上的二元關(guān)系,若“≤”滿足:自反性:?a∈S,有a≤a;反對稱性:?a,b∈S,a≤b且b≤a,則a=b;傳遞性:?a,b,c∈S,a≤b且b≤c,則a≤c;則稱“≤”是S上的非嚴(yán)格偏序或自反偏序嚴(yán)格偏序,反自反偏序給定集合S,“<”是S上的二元關(guān)系,若“<”滿足:反自反性:?a∈S,有a≮a;非對稱性:?a,b∈S,a<b?b≮a;傳遞性:?a,b,c∈S,a<b且b<c,則a<c;則稱“<”是S上的嚴(yán)格偏序或反自反偏序。測序應(yīng)用轉(zhuǎn)錄本拼接算法中涉及到的概念偏序集合鏈偏序集合的子集,滿足其中任意兩個元素可比反鏈偏序集合的子集,滿足其中任意兩個元素不可比鏈劃分將偏序集合拆分成很多子集稱作劃分。子集全為鏈的劃分叫做鏈劃分子集全為反鏈的劃分叫反鏈劃分。偏序集合的兩個對偶定理定理1令(S,≤)是一個有限偏序集,并令r是其最大鏈的大小。則S可以被劃分成r個但不能再少的反鏈。定理2(Dilworth定理)

令(S,≤)是一個有限偏序集,并令m是反鏈的最大的大小。則S可以被劃分成m個但不能再少的鏈。測序應(yīng)用轉(zhuǎn)錄本拼接算法中涉及到的概念二分圖指頂點可以分成兩個不相交的集使得在同一個集內(nèi)的頂點不相鄰(沒有共同邊)的圖。設(shè)G=(V,E)是一個無向圖,如果頂點V可分割為兩個互不相交的子集(U,V),并且圖中的每條邊(i,j)所關(guān)聯(lián)的兩個頂點i和j分別屬于這兩個不同的頂點集(iinU,jinV),則稱圖G為一個二分圖。測序應(yīng)用轉(zhuǎn)錄本拼接算法中涉及到的概念二分圖最大匹配給定一個二分圖G,在G的一個子圖M中,M的邊集中的任意兩條邊都不依附于同一個頂點,則稱M是一個匹配.選擇這樣的邊數(shù)最大的子集稱為圖的最大匹配(maximalmatching)最小點覆蓋給定一個二分圖G,在G的一個子圖N中,N的點集中的點與所有的邊都有關(guān)聯(lián)(把所有的邊都覆蓋),則稱N是一個點覆蓋選擇這樣的點數(shù)最小的子集稱為圖的最小點覆蓋(minimumvertexcover)測序應(yīng)用轉(zhuǎn)錄本拼接算法中涉及到的概念二分圖最大匹配最小點覆蓋K?nig定理:最大匹配數(shù)等于最小點覆蓋數(shù)測序應(yīng)用轉(zhuǎn)錄本拼接DefinitionTranscriptprimarytranscriptgenomiclocationTranscriptometranscriptionlociThegenomiclocationofatranscriptt∈g∈Gdoesnotoverlapthegenomiclocationofanytranscriptuwhereu∈h∈Gandh≠g.Transcriptionlocusisnotbiological.測序應(yīng)用轉(zhuǎn)錄本拼接Cufflinksisdesignedtoaimforthefollowing:(1)Everyfragmentisconsistentwithatleastoneassembledtranscript.(2)Everytranscriptistiledbyreads.(3)Thenumberoftranscriptsisthesmallestrequiredtosatisfyrequirement(1).測序應(yīng)用轉(zhuǎn)錄本拼接Apartialorderonfragmentalign

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論