




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
生物信息學在高通量測序數(shù)據(jù)分析中的應用第一頁,共六十六頁,編輯于2023年,星期日提綱高通量測序技術的介紹高通量測序技術的主要應用生物信息學在高通量測序數(shù)據(jù)中的主要應用第二頁,共六十六頁,編輯于2023年,星期日高通量測序簡介高通量測序:一次性對幾百萬到十億條DNA分子進行并行測序,又稱為下一代測序技術,其使得可對一個物種的轉(zhuǎn)錄組和基因組進行深入、細致、全貌的分析,所以又被稱為深度測序。High-throughputSequencingNextGenerationSequencingDeepSequencing3第三頁,共六十六頁,編輯于2023年,星期日主要測序技術
第一代測序技術Sangersequencing(1980’s)第二代測序技術(nextgenerationsequencing,NGS)Roche/454(2005)Illumina/Solexa(2006)Life/APG’sSOLiD(2007)Life/APG’sIontorrent(2010)第三代測序技術PacificBioscience’ssinglemoleculesequencing(2011)Nanoporesequencing第四頁,共六十六頁,編輯于2023年,星期日測序的基本反應原理:DNA聚合反應第五頁,共六十六頁,編輯于2023年,星期日第一代測序技術Sanger法第六頁,共六十六頁,編輯于2023年,星期日結合熒光標記和毛細管電泳第七頁,共六十六頁,編輯于2023年,星期日測序峰圖第八頁,共六十六頁,編輯于2023年,星期日ABI3730sequencerReadlength:>1,000bpAccuracy:99.999%Cost:$0.5/kbThroughput:6x105bp/day第九頁,共六十六頁,編輯于2023年,星期日SangervsNGSSangerNGS樣品量大小是否需要電泳是否通量低高單位成本高低準確率高偏低讀長長短第十頁,共六十六頁,編輯于2023年,星期日高通量測序技術
Roche/454pyrosequencing以固化了引物的玻璃微球為中心形成油包水結構的乳滴,每個乳滴都是一個PCR反應的微量反應器(通過控制測序文庫DNA的濃度和微球懸濁液的濃度,保證大多數(shù)微球只結合一條DNA模板)。經(jīng)過多輪循環(huán)反應,每個微球表面都結合了數(shù)千個相同的拷貝。變性后,使微球上結合的都是單鏈DNA片段。富集微球,轉(zhuǎn)移到刻有大規(guī)模微孔陣列的微孔板上,每個微孔只容納一個微球。第十一頁,共六十六頁,編輯于2023年,星期日高通量測序技術
Roche/454pyrosequencing順次向流通池中加入4種dNTP中的一種,流過微孔板的一面。當dNTP與脫氧核糖骨架連接后釋放出焦磷酸,在與dNTP一起加入的ATP硫?;负蜔晒馑孛缸饔孟庐a(chǎn)生一系列級聯(lián)反應,放出不同的光信號。每個微孔中光信號的有無,就表明對應的dNTP是否連接到了片段上。第十二頁,共六十六頁,編輯于2023年,星期日454測序的原理:焦磷酸測序逐次加入dATP等,每加入一種,檢測信號,清洗再加下一種。ATP硫酸化酶5’-磷酰硫酸熒光素酶第十三頁,共六十六頁,編輯于2023年,星期日高通量測序技術
Roche/454pyrosequencing優(yōu)勢:讀長長(max1kb,GSFLXTitaniumXL+),運行時間短(10-23hours)主要錯誤來源:難以準確判定連續(xù)堿基(經(jīng)過3次級聯(lián)化學反應產(chǎn)生的熒光信號與連接上堿基的數(shù)量線性關系較差),容易產(chǎn)生Indel劣勢:通量相對偏低(max700M),單位成本高GSFLX+SystemGSJuniorSystem第十四頁,共六十六頁,編輯于2023年,星期日高通量測序技術
Illumina/Solexa單鏈DNA兩端加上非對稱的通用接頭(包括測序引物),接頭與事先固定在固相芯片表面的序列互補單鏈DNA結合到芯片表面形成橋式結構。然后使用接頭引物進行PCR擴增變性后在一個芯片上可以形成上億個不相關的單鏈DNA分子簇,其一端固定在芯片表面,另一端是自由的第十五頁,共六十六頁,編輯于2023年,星期日高通量測序技術
Illumina/Solexa使用測序引物從自由的通用接頭一側(cè)開始測序反應。測序使用的dNTP每種堿基被不同的熒光基團標記,同時脫氧核糖的3’-OH被封閉,這樣每輪測序循環(huán)只能延伸一個核苷酸。讀取堿基熒光信號,就能知道這一輪每個簇結合上的是什么核苷酸然后切除熒光基團,打開被封閉的3’-OH,繼續(xù)進行下一輪反應第十六頁,共六十六頁,編輯于2023年,星期日Solexa測序的原理:可逆阻斷第十七頁,共六十六頁,編輯于2023年,星期日高通量測序技術
Illumina/Solexa優(yōu)勢:通量最高(max600Gb,HiSeq2500)主要錯誤來源:同一個簇內(nèi)不同DNA鏈延伸情況不同(相位差),導致讀取錯誤劣勢:讀長較短(max250bp,HiSeq2500),運行時間長(1-14days,HiSeq2500大幅提升了運行速度),數(shù)據(jù)存儲和分析難度大。MiSeqHiSeq2000GenomeAnalyzerII第十八頁,共六十六頁,編輯于2023年,星期日高通量測序技術
AB/SOLiDSOLiDSystem5500series第十九頁,共六十六頁,編輯于2023年,星期日SOLiD測序探針介紹類似454的微球反應體系,但使用連接反應。第二十頁,共六十六頁,編輯于2023年,星期日SOLiD
Sequencing每次測序反應的第1輪,測序引物1與接頭序列互補形成平末端,然后與探針連接。當探針1,2位與待測序列模板互補并連接上之后,獲取熒光信息。然后在探針的5,6位之間切開探針,進行下一個連接反應。這樣重復多次,可以獲得模板序列的第1-2,6-7,11-12……位置的信息。第二十一頁,共六十六頁,編輯于2023年,星期日高通量測序技術
Life/APG’sSOLiD優(yōu)點:由于使用雙堿基編碼技術(two-baseencoding),準確率最高,通量高(max300Gb)缺點:讀長最短(max75bp),運行時間長(7-10day),數(shù)據(jù)儲存和分析難度大5500SeriesGeneticAnalysisSystems第二十二頁,共六十六頁,編輯于2023年,星期日高通量測序技術
Life/APG’sIontorrentPGM454發(fā)明者的新作品測序反應在微陣列芯片上的微反應池中進行。每個dNTP結合到延伸鏈上,會釋放出一個H+,pH值變化會導致電位變化。檢測每次dNTP流過的電位差變化,就能知道該dNTP是否連接上去。第二十三頁,共六十六頁,編輯于2023年,星期日高通量測序技術
Life/APG’sIontorrentPGM優(yōu)點:速度快(<2hours),準確度較高(只需要1次聚合反應,電位變化與堿基數(shù)量線性關系較好),成本低,芯片可升級缺點:讀長較短(max200bp),通量較低(max~1G)已有升級版IonProton,號稱比Iontorrent強100倍。Iontorrent318chipIonProton第二十四頁,共六十六頁,編輯于2023年,星期日高通量測序技術
PacificBioscience’ssinglemoleculesequencing每個納米孔底部固定一個已經(jīng)結合了引物和模板的DNA聚合酶分子。每次測序反應加入一種熒光標記的dNTP核苷酸,聚合酶在檢測空間內(nèi)將其捕獲后產(chǎn)生光曝。通過連續(xù)實時檢測每個孔內(nèi)的熒光信號,就快速測定了每個孔內(nèi)的模板序列第二十五頁,共六十六頁,編輯于2023年,星期日高通量測序技術
PacificScience’ssinglemoleculesequencing優(yōu)點:讀長長(max15kb)缺點:錯誤率高(單次反應錯誤率~15%。經(jīng)改進后使用多次循環(huán)重復,錯誤率降低到1%),通量低(與讀長有關)SMATCells第二十六頁,共六十六頁,編輯于2023年,星期日Comparisonof5NGStechniques454SolexaSOLiDIontorrentPacific文庫制備乳滴PCR橋式PCR乳滴PCR乳滴PCR單分子測序反應聚合反應聚合反應連接反應聚合反應聚合反應原理焦磷酸反向終止合成可剪切探針連接pH電位差單分子實時熒光光學檢測是是是否是最大讀長~1kb250bp75bp200bp~15kb最大數(shù)據(jù)產(chǎn)出*700Mb600Gb300Gb~1.2Gb~80Mb運行時間較短長最長短短主要錯誤Indel替換替換IndelCG刪除準確率低高最高較高低平均數(shù)據(jù)成本高低低較低高數(shù)據(jù)分析難度較低高最高高最低*最大數(shù)據(jù)產(chǎn)出量往往不是最大讀長的文庫HiSeq2500和IonProton均號稱1天測1個30x的人類基因組,成本$1000第二十七頁,共六十六頁,編輯于2023年,星期日高通量測序技術的主要應用DNA測序基因組deno測序基因組重測序宏基因組(Metagenome)測序外顯子組測序RNA測序轉(zhuǎn)錄組測序表達譜測序小RNA測序降解組測序表觀基因組測序Chip-seqClip-seq
第二十八頁,共六十六頁,編輯于2023年,星期日生物信息學在高通量測序
數(shù)據(jù)中的主要應用
第二十九頁,共六十六頁,編輯于2023年,星期日常用生物信息學分析平臺與資源常用編程分析平臺:
Perl/BioPerl
Python/BioPython
R/Bioconductor
JAVA/BioJava常用網(wǎng)上資源:
NCBISRA–SequenceReadArchive
UCSCGenomeBrowser
SEQanswers–WiKi&ForumforNGS第三十頁,共六十六頁,編輯于2023年,星期日常用基因組拼接軟件VelvetRayABySSSOAPdenovoSSAKESHARCGSMIRAEdena第三十一頁,共六十六頁,編輯于2023年,星期日基因組比對軟件BLASTBLATMAQSOAPBowtieBWASSAHAELAND第三十二頁,共六十六頁,編輯于2023年,星期日SNP分析軟件SAMToolsSOAPsnpNGS-BackboneMAQSeqManNGenCLCBioGenomics第三十三頁,共六十六頁,編輯于2023年,星期日生物信息學在基因組分析方面的應用
基因組denovo測序?qū)ξ粗蚪M序列的物種取樣:
動物:血液、肌肉植物:葉片(黃化葉,組培植株)估算基因組復雜度(大小、重復序列比例、雜合度)測序技術:Illunimapaired-end為主Sanger、454、SOLiD為輔,PacBio目前也開始用于基因組測序補洞文庫構建盡量隨機打斷第三十四頁,共六十六頁,編輯于2023年,星期日WGS(wholegenomeshortgun)Coveragedepth(覆蓋深度or測序深度):每個堿基被測序的平均次數(shù),是用來衡量測序數(shù)據(jù)量的首要參數(shù)。測序總數(shù)據(jù)量/基因組大小Coverageratio(覆蓋率):被測序到的堿基占全基因組大小的比率。覆蓋比率隨覆蓋深度升高而提高,亦受測序bias的影響,如illumina測序會受到GCbias的影響,而導致測序不均勻。理論上(完全隨機打斷)測序深度達到20x即可覆蓋整個基因組。實際工作中一般需要50x以上(100bp讀長)。Reads長度越長越好。第三十五頁,共六十六頁,編輯于2023年,星期日DenovoassemblyPaired-endreadsContigMate-endreadsorlongreadsScaffoldGeneticmap,FISH…..Chromosome第三十六頁,共六十六頁,編輯于2023年,星期日基因組注釋蛋白編碼基因注釋重復序列注釋非編碼RNA注釋,主要是miRNA基因組注釋流程第三十七頁,共六十六頁,編輯于2023年,星期日全基因組成功測序案例互葉梅基因組(國際互葉梅基因組測序項目,2013)TheAmborellaGenomeandtheEvolutionofFloweringPlants完全使用NGS測序組裝最原始的被子植物互葉梅Amborella已被確定是所有其他存活被子植物的單一姊妹物種,是其他被子植物比較的關鍵參照物。Amborella植物測序基因組解決了“達爾文難解之謎”——為什么幾百萬年前花在地球上突然激增的問題?;蚪M序列為地球生命史上重大事件提供了理論參考:開花植物的起源。第三十八頁,共六十六頁,編輯于2023年,星期日全基因組測序不成功案例麻風樹基因組(日本,2011)Sanger結合NGS組裝完成度低只進行了基本的基因組注釋。發(fā)現(xiàn)許多與脂質(zhì)合成及抗病相關的基因。推測這些都是麻風樹不斷適應干燥環(huán)境獲得的性質(zhì)。第三十九頁,共六十六頁,編輯于2023年,星期日重測序(Resequencing)對已有參考基因組物種的不同基因型或不同個體的全基因組或部分區(qū)段進行測序,以獲得個體之間的基因組和功能差異。用途:了解物種的起源和演化歷程理解疾病的成因理解動植物性狀的分子機制全基因組關聯(lián)分析(Genome-wildassociationstudy,GWAS)第四十頁,共六十六頁,編輯于2023年,星期日SNP檢測,注釋和統(tǒng)計Indel
檢測,注釋和統(tǒng)計SV檢測,注釋和統(tǒng)計CNV檢測,注釋和統(tǒng)計變異檢測第四十一頁,共六十六頁,編輯于2023年,星期日SNPcalling考慮測序錯誤等位基因的SNP(考慮個體測序深度)ACSNVvsSNPSNV(singlenucleotidevariation):單個個體中出現(xiàn)的單核苷酸變異。但是在癌癥研究中,SNV往往指somaticmutation(體細胞突變)SNP(singlenucleotidepolymorphism):在一個群體中出現(xiàn)一定頻率(有人認為>5%)的單核苷酸變異群體SNPcalling第四十二頁,共六十六頁,編輯于2023年,星期日ATCGATCGAATTCGTACGATGCTTAGCTAGCATACGReferenceReadsATCGATCGCGTACGATGCTTAGCTAGCATACGShortInDel檢測第四十三頁,共六十六頁,編輯于2023年,星期日尋找SV(structurevariation)第四十四頁,共六十六頁,編輯于2023年,星期日Copynumbervariation(CNV)需要一定的測序覆蓋度(>10x),mappingdepth也需要仔細檢查第四十五頁,共六十六頁,編輯于2023年,星期日轉(zhuǎn)錄組SmallRNA降解組TextRNADGE生物信息學在RNAomics方面的應用RNA高通量測序第四十六頁,共六十六頁,編輯于2023年,星期日轉(zhuǎn)錄組SmallRNA降解組TextRNADGERNA測序—轉(zhuǎn)錄組測序第四十七頁,共六十六頁,編輯于2023年,星期日轉(zhuǎn)錄組測序簡介轉(zhuǎn)錄組即特定細胞在某一功能狀態(tài)下所能轉(zhuǎn)錄出來的所有RNA的總和,包括mRNA和非編碼RNA(Non-coding
RNA)。
第二代測序系統(tǒng)可精確檢測單個堿基,并且不受到研究中先驗信息的干擾,科研人員能夠快速地獲得某一物種特定器官或組織在某一狀態(tài)下幾乎所有mRNA轉(zhuǎn)錄本序列,從而能夠開展:UTRs區(qū)域界定、可變剪切研究、低豐度新轉(zhuǎn)錄本發(fā)現(xiàn)、融合基因鑒定、cSNP(編碼序列單核苷酸多態(tài)性)研究等。第四十八頁,共六十六頁,編輯于2023年,星期日轉(zhuǎn)錄組研究內(nèi)容轉(zhuǎn)錄組數(shù)據(jù)評估基因表達注釋差異表達基因鑒定、聚類、Geneontology、KEGGpathway分析基因結構優(yōu)化新轉(zhuǎn)錄本可變剪接融合基因SNP第四十九頁,共六十六頁,編輯于2023年,星期日轉(zhuǎn)錄組測序流程無參考序列測序流程有參考序列測序流程第五十頁,共六十六頁,編輯于2023年,星期日轉(zhuǎn)錄組主要分析內(nèi)容無參考序列轉(zhuǎn)錄組分析內(nèi)容有參考序列轉(zhuǎn)錄組分析內(nèi)容1測序數(shù)據(jù)產(chǎn)量統(tǒng)計,數(shù)據(jù)成分和質(zhì)量評估;2Contig及Scaffold組裝、長度分布3Unigene的長度分布和功能注釋,GO分類,Pathway分析,差異表達分析4蛋白功能預測與分類,差異表達基因GO富集和Pathway富集分析。1基本數(shù)據(jù)統(tǒng)計,比對參考序列2序列在基因組上在分布3測序深度分析、隨機性評估和基因差異表達分析4新基因預測,基因可變剪接鑒定和基因融合鑒定等。第五十一頁,共六十六頁,編輯于2023年,星期日基因融合分析基因嵌合分析流程MIPOL1-DGKB
基因融合模式第五十二頁,共六十六頁,編輯于2023年,星期日GenomicintergenicregionReadsclusterPairedReadsdistribution優(yōu)化基因結構
鑒定新的轉(zhuǎn)錄本Paired-End(PE)ReadsReads比對到參考序列基因間區(qū)域第五十三頁,共六十六頁,編輯于2023年,星期日鑒定可變剪接(AlternativeSplicing)exon1exon2exon3exon1exon2exon3exon1exon3commonreadsjunctionreadsmRNA第五十四頁,共六十六頁,編輯于2023年,星期日分析RNA水平SNP轉(zhuǎn)錄組重測序比對軟件:SOAPDenovo轉(zhuǎn)錄組測序:組裝軟件:SoapDenovo比對軟件:SoapSNP第五十五頁,共六十六頁,編輯于2023年,星期日轉(zhuǎn)錄組SmallRNA降解組TextRNADGERNA測序—小RNA測序第五十六頁,共六十六頁,編輯于2023年,星期日SmallRNA:是長度在18-40nt的非編碼RNA,在基因表達調(diào)控中發(fā)揮著重要的作用。小RNA的產(chǎn)生第五十七頁,共六十六頁,編輯于2023年,星期日總RNA通過切膠回收CATGGCTGAAGTCAAGGATGTCATGGAAGGCAATCCCACATACATGCTAGAAAACATTTAATACATGCTAGAAAACATTTAATACATGGTTGAATCTGAAACCCTCATGGTTGAATCTGAAACCCTCATGGCTGAATCTGAGGCTCTCATGGCTGAATCTGAGGCTCTCATGCTAGAAAACATTTAATACATGCTAGAAAACATTTAATACATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACATACATGGCTGAAGTCAAGGATGTCATGGCTGAAGTCAAGGATGT測序CATGCTAGAAAACATTTAATACATGCTAGAAAACATTTAATACATGCTAGAAAACATTTAATACATGCTAGAAAACATTTAATACATGGTTGAATCTGAAACCCT
CATGGTTGAATCTGAAACCCTCATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACATACATGGAAGGCAATCCCACATAmiRNAsiRNArepeatunann比對注釋和預測SmallRNA測序第五十八頁,共六十六頁,編輯于2023年,星期日SmallRNA分析smallRNA的長度分布;rRNA、tRNA、snRNA、snoRNA
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 質(zhì)量與安全自動灌裝機的雙重保障
- 跨境電商平臺在醫(yī)療領域的拓展策略
- 職能部門間的協(xié)同作用總結計劃
- 通過課外活動增強品德意識計劃
- 年度工作計劃中如何加強執(zhí)行力
- 提升學生思辨能力計劃
- 教學輔導與個別幫助方案計劃
- 跨區(qū)域醫(yī)療資源調(diào)配中PACS系統(tǒng)的應用研究
- 名著閱讀 《昆蟲記》(導學案)(學生版)
- 注重實踐操作的生物學授課計劃
- 2025年黑龍江交通職業(yè)技術學院單招職業(yè)技能測試題庫必考題
- 成人腦室外引流護理-中華護理學會團體 標準
- 2024年甘肅省公務員考試《行測》真題及答案解析
- 《撰寫演講稿》-省賽一等獎-完整版課件
- 煤礦四類材料回收復用的管理辦法
- 墻面板安裝爬梯驗算
- 矢量分析與場論講義
- 繪本《一園青菜成了精》
- 贊美詩歌400首全集
- 2013河南省政府制定價格聽證辦法實施細則
- 水庫除險加固初步設計工程勘察報告(共36頁)
評論
0/150
提交評論