版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、問題出發(fā)正常樣本與異常樣本,如腫瘤等;藥物處理前后樣本狀態(tài)變化,如尼古丁刺激前后;發(fā)育不同階段的樣本改變 .第二代測序數(shù)據(jù)分析原理徐汪節(jié)三代DNA測序技術(shù)之比較第一代測序技術(shù):Sanger測序法第二代測序技術(shù):454測序 第三代測序技術(shù):?直接測序法:?2022/9/243第一代測序技術(shù):Sanger測序法簡便、快速2022/9/244逐漸被遺忘的測序技術(shù):Maxam-Gilbert的 DNA化學(xué)降解法2022/9/245Sanger測序的局限通過幾十年的改進(jìn),第1 代測序儀的讀長可以超過1000bp, 原始數(shù)據(jù)的準(zhǔn)確率可以高達(dá)99.999%,測定每千堿基序列的成本是0.5 美元, 每天的數(shù)據(jù)
2、通量可以達(dá)到60萬堿基。但是,不管怎么改進(jìn),第1 代測序技術(shù)在速度和成本方面都已達(dá)到了極限(因?yàn)閷?duì)電泳分離技術(shù)的依賴, 使其難以進(jìn)一步提升分析的速度和提高并行化程度,并且難以通過微型化降低測序成本)。在此種情況下,第二代測序技術(shù)(Next-generation sequencing)應(yīng)運(yùn)而生。2022/9/246概要主要的測序平臺(tái)基因組分析原理轉(zhuǎn)錄組分析原理分析策略的選擇第二代測序技術(shù)454測序Illumina SOLID Polonator Complete Genomics2022/9/248 4542022/9/249 SOLID2022/9/2410 Illumina 2022/9/2
3、411其他Polonator Complete Genomics2022/9/24122022/9/2413第二代測序技術(shù)的共同點(diǎn)1 將目標(biāo)DNA剪切為小片段2 單個(gè)小片段DNA分子結(jié)合到固相表面3 單分子獨(dú)立擴(kuò)增4 每次只復(fù)制一個(gè)堿基(A,C,T,G)并檢測信號(hào)5 高分辨率的成像系統(tǒng)。2022/9/2414第二代測序技術(shù)的局限與第一代測序儀相比,以合成測序?yàn)榛A(chǔ)的下一代測序平臺(tái)速度顯著提高,成本明顯降低。每臺(tái)設(shè)備每天產(chǎn)出千兆堿基的序列不足為奇。但是, 除了羅氏的454平臺(tái)之外,讀長短成了下一代測序平臺(tái)的致命傷,這主要是由于DNA簇中存在的光學(xué)信號(hào)移相造成的。而應(yīng)運(yùn)而生的單分子測序技術(shù)是解決這
4、一問題的一種方法。2022/9/2415第三代測序技術(shù):單分子測序Helicos BiosciencesVisiGenPacific BiosciencesMobious Nexus I2022/9/24162022/9/2417直接測序法在所有上述三 代測序技術(shù)中,序列都是在熒光或者化學(xué)發(fā)光物質(zhì)的協(xié)助下,通過讀取DNA 聚合酶或DNA 連接酶將堿基連接到DNA 鏈上過程中釋放出的光學(xué)信號(hào)而間接確定的。除了需要昂貴的光學(xué)監(jiān)測系統(tǒng),還要記錄、存儲(chǔ)并分析大量的光學(xué)圖像,這都使儀器的復(fù)雜性和成本增加。依賴生物化學(xué)反應(yīng)讀取堿基序列更增加了試劑、耗材的使用,在目前測序成本中比例相當(dāng)大。直接讀取序列信息,
5、不使用化學(xué)試劑,對(duì)于進(jìn)一步降低測序成本是非??扇〉?。為了實(shí)現(xiàn)這樣的目標(biāo),目前就有很多人在研究納米物理技術(shù)。在全球,許多公司和組織,如Agilent,DNA Electronics,IBM, NabSys,Oxford Nanopore Technologies,Sequenom 等都在進(jìn)行納米孔測序的開發(fā),不同的只是采用的方法或策略。2022/9/24182022/9/24192022/9/2420Second generation sequenceRoche 454 Metagenomics De novo sequencing RNA-seqillumia Solexa De novo s
6、equencing Re-sequencing RNA-seq (ChromatinImmunoprecipitation,ChIP) Meth-seqABI SOLiD Re-sequencing ChIP-seq RNA-seqExperimentsDNA-seq: de novo, resequencingRNA-seq:mRNA, ncRNA, smRNA.ChIP-seq: Chromatin ImmunoPrecipitationMethyl-seq: methylated DNA (epigenome)主要的測序平臺(tái)基因組分析原理轉(zhuǎn)錄組分析原理分析策略的選擇Sequencing
7、GlossaryReads. A collection of clones that over-sample the target genome.Pair-end reads.Sequence reads derived from both ends of a sequencing-library clone.Mate-pair reads.Sequence reads derived from both ends of a mate-pair library clone which insert size is usually1kb.Insert size. The size of the
8、clone-insert from which a clone-end pair is taken.Contig. The result of joining an overlapping collection of sequence reads.Scaffold. The result of connectiing non-overlapping contiges by using pir-end reads.N50 size. As applied to contigs or scaffolds, that size above which 50% od the assembled 全基因
9、組de nove分析工具PlatformCorrectionAssemblySolexaSOAPdenovoSOAPdenovo Velvet,AbyssSolidSAETVelvet454newbler分析所需工具Bowtie software-/index.shtml/SAM tools-/TopHat softare-/Cufflinks software-http:/C/CummeRbund software-/cummeRbund/ 外顯子組分析工具PlatformAlignmentFind VariationsSolexaSOAP,bwaSOAPsnp samtoolsSolidB
10、ioscope,BFASTBioscope,BFAST454BLAST,NEWBLERnewbler主要的測序平臺(tái)基因組分析原理轉(zhuǎn)錄組分析原理分析策略的選擇常規(guī)分析Transcripts quantificationSplicing sites discovery and quantificationGene discoverySNP/INDEL detectionAllele specific expressionUniGene拼接目的:將預(yù)處理后reads進(jìn)行拼接,得到拼接結(jié)果。 原理: 應(yīng)用 de Bruijn graph path 算法對(duì)reads進(jìn)行denovo拼接;對(duì)上一步的拼接結(jié)
11、果,再用Hamilton Path算法拼接。 結(jié)果:UniGene序列,UniGene統(tǒng)計(jì)信息,序列長度分布圖 3. 數(shù)據(jù)庫注釋目的:對(duì)拼接得到的UniGene進(jìn)行功能注釋 原理:通過blast+算法將拼接得到的UniGene序列與數(shù)據(jù)庫進(jìn)行比對(duì) 結(jié)果:比對(duì)結(jié)果表格,物種分布統(tǒng)計(jì)和Evalue分布統(tǒng)計(jì) UniGene表達(dá)分析目的:UniGene定量分析。 原理:以UniGene為reference,分別將每個(gè)樣本的reads進(jìn)行reference mapping ,從而得到每個(gè)樣本在每個(gè)UniGenes中的一個(gè)reads覆蓋度,然后應(yīng)用RPKM/FPKM標(biāo)準(zhǔn)化公式對(duì)富集片段的數(shù)量進(jìn)行歸一化。
12、RPKM:Reads Per Kilobase of exon model per Million mapped reads,公式下:UniGene表達(dá)分布圖,1X,5X分別為FPKM=1,F(xiàn)PKM=5分界點(diǎn),可以大體觀察到低表達(dá),中表達(dá)以及高表達(dá)的比例關(guān)系UniGene樣本間表達(dá)相關(guān)性散點(diǎn)圖樣本間表達(dá)差異程度的MA圖,可以體現(xiàn)差異表達(dá)總體偏差UniGene表達(dá)差異分析目的:對(duì)定量結(jié)果進(jìn)行統(tǒng)計(jì)檢驗(yàn)分析,找出差異表達(dá)UniGene 原理:雙層過濾篩選差異基因 FC值篩選:采用Fold-change(FC),表達(dá)差異倍數(shù)進(jìn)行第一層此的差異基因篩選 FDR檢驗(yàn):一般采用卡方檢驗(yàn)中的fisher精確檢
13、驗(yàn)進(jìn)行p值檢驗(yàn),采用Benjamini FDR(False discovery ratio)校驗(yàn)方法對(duì)p值進(jìn)行假陽性檢驗(yàn),即,通過FDR顯著性參數(shù)進(jìn)行第二層次的差異基因篩選。組間差異基因上調(diào)與下調(diào)個(gè)數(shù)統(tǒng)計(jì),可以通過此圖觀察上調(diào)與下調(diào)的一個(gè)總體趨勢差異基因火山圖,可以觀察到差異基因總體分布GO功能分類目的:利用數(shù)據(jù)庫注釋信息將 UniGene進(jìn)行 GO 功能分類。 原理:利用數(shù)據(jù)庫的注釋結(jié)果,應(yīng)用blast2GO算法進(jìn)行GO功能分類,得到所有序列在Gene Ontology 的三大類:molecular function, cellular component, biological proce
14、ss 的各個(gè)層次所占數(shù)目,一般取到14層。 結(jié)果:MF,BP,CC三大分類結(jié)果文件以及 UniGene2GO 關(guān)系列表,三大類別中第二層次上的柱狀分布圖和餅圖,GO功能的層次分布圖。KEGG代謝通路分析目的:對(duì)拼接得到 UniGene 進(jìn)行 KEGG pathway 映射。 原理:應(yīng)用KEGG KAAS在線 pathway比對(duì)分析工具對(duì)拼接得到的UniGene進(jìn)行KEGG映射分析。 結(jié)果:標(biāo)記的Pathway通路圖。IPA pathway analysis(/)COG注釋目的:對(duì)拼接得到 UniGene 進(jìn)行 COG功能分類。 原理:利用blast+算法將拼接得到的UniGene與CDD庫中的
15、COG/KOG庫進(jìn)行比對(duì),進(jìn)行COG功能分類預(yù)測,將其映射到COG分類中。 結(jié)果: COG分類分布情況圖。SSR重復(fù)序列注釋目的:對(duì)拼接得到 UniGene進(jìn)行 SSR 簡單重復(fù)序列的查找。 原理:篩選標(biāo)準(zhǔn):單核苷酸重復(fù)的次數(shù)在10次或10次以上,二核苷酸重復(fù)的次數(shù)在 6次或6次以上,三至六核苷酸重復(fù)的次數(shù)在 5次或 5次以上。同時(shí),也篩選中間被少數(shù)堿基 (間隔小于100或等于100)打斷的不完全重復(fù)的SSR。 結(jié)果:重復(fù)序列的信息文件以及統(tǒng)計(jì)文件。LncRNA預(yù)測目的:對(duì)拼接得到的UniGene進(jìn)行LncRNA(Long noncoding RNA)預(yù)測。 原理: 通過以下過程對(duì)UniGen
16、e進(jìn)行過濾,最終得到候選LncRNA序列。 1) Unigene length 200bp; 2) Unigene ORF(Open Reading Frame) length 300; 3) 將滿足長度條件的UniGene與多個(gè)近源物種進(jìn)行進(jìn)化分析,得到序列的保守性和進(jìn)化特性; 4) 根據(jù)上述的特性和已知數(shù)據(jù)庫中coding、noncoding區(qū)域的特性建立編碼篩選模型; 5) 將符合noncoding模型的UniGene與Pfam等蛋白域數(shù)據(jù)庫進(jìn)行同源性比對(duì),進(jìn)一步去除可能的編碼特性,最終得出LncRNA預(yù)測結(jié)果。RSAM01:模式動(dòng)植物基因組數(shù)據(jù)和注釋信息整合RSAM07:可變剪接分析 可變剪接體 與Exon skipping junction 的識(shí)別RSAM08:轉(zhuǎn)錄起始位點(diǎn)(TSS)分析TSS 類和轉(zhuǎn)錄起始位點(diǎn)模式的識(shí)別(1) 通過tag 聚類方法將5端read 進(jìn)行聚類,識(shí)別出不同模式的TSS,例如下圖所示:確定cluster 的邊界(黃色區(qū)域)。(2) 每個(gè)cluster 至少包含100 reads,并統(tǒng)計(jì)這些cluster 的定位和分布數(shù)量(3) 統(tǒng)計(jì)不同TSS cluster 大小寬度分布,以及轉(zhuǎn)錄起始模式的識(shí)別RSAM09. 融合基因的發(fā)現(xiàn)(Fusion gen
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 合同協(xié)議網(wǎng)絡(luò)廣告協(xié)議
- 借款延期合同
- 借款合同借款合同范文
- 《深入解析HTTP協(xié)議》課件
- 金錢與期刊:媒體禁制令及一稿多投禁制
- 區(qū)塊鏈共識(shí)機(jī)制與改進(jìn)算法研究進(jìn)展
- 生長因子促進(jìn)膝軟骨再生:研究熱點(diǎn)的文獻(xiàn)計(jì)量學(xué)分析
- 基于機(jī)器視覺的智能車系統(tǒng)設(shè)計(jì)
- 考慮失效相關(guān)性的無人機(jī)飛控系統(tǒng)可靠性分配與預(yù)計(jì)
- 基于藍(lán)牙的LBS系統(tǒng)攻擊檢測方法研究
- (一模)寧波市2024學(xué)年第一學(xué)期高考模擬考試 數(shù)學(xué)試卷(含答案)
- 父母贈(zèng)與子女農(nóng)村土地協(xié)議書范本
- 集團(tuán)母子公司協(xié)議書
- 中醫(yī)病證診斷療效標(biāo)準(zhǔn)
- 南安市第三次全國文物普查不可移動(dòng)文物-各鄉(xiāng)鎮(zhèn)、街道分布情況登記清單(表五)
- ITSMS-D-038 問題記錄表范本
- 第1課+古代亞非(教學(xué)設(shè)計(jì))【中職專用】《世界歷史》(高教版2023基礎(chǔ)模塊)
- 新教科版六年級(jí)下冊(cè)科學(xué)全冊(cè)教案
- 物業(yè)客服管家的培訓(xùn)課件
- 2024年房地產(chǎn)行業(yè)的樓市調(diào)控政策解讀培訓(xùn)
- 《統(tǒng)計(jì)學(xué)-基于Python》 課件全套 第1-11章 數(shù)據(jù)與Python語言-時(shí)間序列分析和預(yù)測
評(píng)論
0/150
提交評(píng)論