基因組序列組裝理論與方法簡(jiǎn)介_(kāi)第1頁(yè)
基因組序列組裝理論與方法簡(jiǎn)介_(kāi)第2頁(yè)
基因組序列組裝理論與方法簡(jiǎn)介_(kāi)第3頁(yè)
基因組序列組裝理論與方法簡(jiǎn)介_(kāi)第4頁(yè)
基因組序列組裝理論與方法簡(jiǎn)介_(kāi)第5頁(yè)
已閱讀5頁(yè),還剩43頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基因組序列組裝理論與方法簡(jiǎn)介第1頁(yè)/共48頁(yè)基因組測(cè)序與組裝示意圖第2頁(yè)/共48頁(yè)基于BAC方法的優(yōu)缺點(diǎn)優(yōu)點(diǎn):組裝被局限在BAC的范圍內(nèi),受重復(fù)序列影響小,對(duì)計(jì)算能力要求不高;缺點(diǎn):需要大量前期生物學(xué)研究工作,效率低,成本高。第3頁(yè)/共48頁(yè)全基因組鳥(niǎo)槍法優(yōu)缺點(diǎn)優(yōu)點(diǎn):不需要生物學(xué)前期準(zhǔn)備,速度快,成本低;缺點(diǎn):組裝是在全基因組范圍內(nèi)進(jìn)行,數(shù)據(jù)量大,易產(chǎn)生錯(cuò)拼;對(duì)計(jì)算機(jī)軟硬件要求均高。第4頁(yè)/共48頁(yè)對(duì)拼接軟件的要求能充分利用正反向測(cè)序的配對(duì)信息,避免重復(fù)序列造成的錯(cuò)誤拼接能處理數(shù)以百萬(wàn)甚至千萬(wàn)計(jì)的數(shù)據(jù)

程序并行化高效率比對(duì)

第5頁(yè)/共48頁(yè)能夠采用全基因組鳥(niǎo)槍法的關(guān)鍵技術(shù)進(jìn)步: 毛細(xì)管測(cè)序儀的普遍使用 計(jì)算機(jī)能力的迅速提高第6頁(yè)/共48頁(yè)HierarchicalShotgun(HS)WholeGenomeShotgun(WGS)

…thesequencingofthehumangenomeislikelytobetheonlylargesequencingprojectcarriedtocompletionbythemethodsdescribedinthisissue.

MaynardV.Olson,Themaps:Clonebyclonebyclone,Nature409,816-818(2001)第7頁(yè)/共48頁(yè)Shotgun法序列拼接ConsensusSequenceGap

LowBaseQualitySingleStrandedRegionMis-Assembly(Inverted)第8頁(yè)/共48頁(yè)術(shù)語(yǔ)鳥(niǎo)槍法測(cè)序數(shù)據(jù)的組裝鳥(niǎo)槍法文庫(kù):目標(biāo)基因組一定長(zhǎng)度隨機(jī)片段克隆的集合。正反向測(cè)序?qū)Γ簭耐粋€(gè)克隆片段兩端分別測(cè)序所得到的一對(duì)序列。.插入片段長(zhǎng)度:克隆載體中插入的外源DNA片段長(zhǎng)度。片段連接群(contig):用識(shí)別互相重疊的方法對(duì)測(cè)序數(shù)據(jù)進(jìn)行拼接的結(jié)果。.Scaffold:用正反向測(cè)序?qū)B接的非重疊片段連接群。LW-洞:由于沒(méi)有測(cè)序數(shù)據(jù)覆蓋而在組裝結(jié)果中留下的洞。第9頁(yè)/共48頁(yè)重復(fù)序列分析覆蓋度:基因組被測(cè)序數(shù)據(jù)覆蓋的次數(shù)。重復(fù)數(shù):一段DNA序列在基因組中出現(xiàn)的次數(shù)。深度:一段DNA序列在鳥(niǎo)槍法測(cè)序數(shù)據(jù)集中出現(xiàn)次數(shù)。例如一個(gè)轉(zhuǎn)座子在基因組中出現(xiàn)N次,測(cè)序數(shù)據(jù)集的覆蓋度為C,則這個(gè)轉(zhuǎn)座子的平均深度為NC。20-mer重復(fù)序列:任何深度超過(guò)為該數(shù)據(jù)集確定的重復(fù)序列標(biāo)準(zhǔn)的20-bpDNA片段。是數(shù)學(xué)定義的重復(fù)序列。重復(fù)序列洞:由于屏蔽重復(fù)序列而在組裝結(jié)果中留下的洞。第10頁(yè)/共48頁(yè)組裝結(jié)果的評(píng)價(jià)標(biāo)準(zhǔn)N50大小:把組裝出的contigs或scaffolds從大到小排列,當(dāng)其累計(jì)長(zhǎng)度剛剛超過(guò)全部組裝序列總長(zhǎng)度一半時(shí),最后一個(gè)contig或scaffold的大小。單堿基錯(cuò)誤率:與參考序列比較后發(fā)現(xiàn)的小尺度上的不同所占的比例。所謂小尺度,在這里通常指小于標(biāo)準(zhǔn)測(cè)序長(zhǎng)度,即500bp。實(shí)際上常常只是幾個(gè)堿基。錯(cuò)誤組裝的Contig:測(cè)序數(shù)據(jù)組裝中出現(xiàn)的錯(cuò)誤。由定義,它涉及的片段一般大于500-bp。包括與參考序列相比,插入、刪除,以及在方向和次序上不同的片段。錯(cuò)誤組裝的Scaffold:把非重疊contig連接在一起時(shí)出現(xiàn)的錯(cuò)誤。包括嵌套,錯(cuò)誤的方向和順序等。第11頁(yè)/共48頁(yè)R=3segmentsw/repeat-termination“overlap-layout-consensus”algorithmexploresR!=exponentialnumberofpossiblesolutionsoneEulerPathsolutiongenomesequenceofsizeG,with4repeatsO(G2)pair-wisecomparisonshotgunlibraryconstructionShotgunSequencingAssemblerConcepts第12頁(yè)/共48頁(yè)RePS:

全基因組鳥(niǎo)槍法

測(cè)序數(shù)據(jù)組裝軟件包特點(diǎn):通過(guò)屏蔽在鳥(niǎo)槍法測(cè)序數(shù)據(jù)中發(fā)現(xiàn)的重復(fù)序列來(lái)完成組裝。第13頁(yè)/共48頁(yè)RePS的流程圖第14頁(yè)/共48頁(yè)RePS2的新流程圖第15頁(yè)/共48頁(yè)識(shí)別重復(fù)序列的數(shù)學(xué)模型第16頁(yè)/共48頁(yè)第17頁(yè)/共48頁(yè)重復(fù)序列識(shí)別:若repeat有m個(gè)拷貝,且已知隨機(jī)序列覆蓋深度為0,1,2……的概率:g0,

g1,

g2,……,則一次抽樣repeat覆蓋深度為0,1,2,……的概率P0,P1,P2,……為:第18頁(yè)/共48頁(yè)n次抽樣,其中i次以上

深度在j以上的概率Pij設(shè)一次抽樣深度在j以上和以下的概率分別為:Pj-,Pj+;第19頁(yè)/共48頁(yè)n次抽樣,其中i次以上深度在j以上則認(rèn)為是repeat,此時(shí)犯兩類(lèi)錯(cuò)誤的概率為:設(shè)repeat在基因組中的比例為b,出現(xiàn)概率為P,非repeat出現(xiàn)概率為P*,則:第20頁(yè)/共48頁(yè)Tradeoffbetweencontigsizeandaccuracyofassembly第21頁(yè)/共48頁(yè)重復(fù)序列識(shí)別效率第22頁(yè)/共48頁(yè)MDR(數(shù)學(xué)定義的重復(fù)序列)與

BDR(生物定義的重復(fù)序列)BDR’(~25%)BDR(~50%?)MDR(42.2%)第23頁(yè)/共48頁(yè)重復(fù)序列的檢測(cè)與處理第24頁(yè)/共48頁(yè)插入片段大小引起的錯(cuò)誤組裝第25頁(yè)/共48頁(yè)第26頁(yè)/共48頁(yè)

Human4xHuman4x+2xRice4.2xTargetregion[Mb]11.911.9430Maskedsequence17.2%17.2%42.2%#ofcontigsbyLW201846259512第27頁(yè)/共48頁(yè)

Human4xHuman4x+2xRice4.2xUn-maskedPhrap

Maxmemoryuse[Gb]3.085xxComputertime[hrs]48xxNumberofcontigs2703xxN50contigsize[Kb]7.05xxPhraperrorestimate0.099%(0.086%)xxBACdiscrepancies0.066%(0.063%)xxContigmis-assembly5.77%xx第28頁(yè)/共48頁(yè)

Human4xHuman4x+2xRice4.2xRepeat-maskedPhrap

Maxmemoryuse[Gb]0.6141.04050Computertime[hrs]1.83.479Numberofcontigs35362219167975N50contigsize[Kb]5.3511.123.41Phraperrorestimate0.091%(0.130%)0.043%(0.096%)0.129%(0.145%)BACdiscrepancies0.077%(0.076%)0.044%(0.059%)0.52%(0.78%)Contigmis-assembly0.51%0.68%0.71%第29頁(yè)/共48頁(yè)

第30頁(yè)/共48頁(yè)

第31頁(yè)/共48頁(yè)人與水稻基因組中重復(fù)序列分布的差別第32頁(yè)/共48頁(yè)第33頁(yè)/共48頁(yè)Contigs:127,550

(N50=6,688bp)Scaffolds:102,444(N50=11,764bp)Quality:546bpatQ20第34頁(yè)/共48頁(yè)第35頁(yè)/共48頁(yè)第36頁(yè)/共48頁(yè)第37頁(yè)/共48頁(yè)插入片段長(zhǎng)度的搭配一般情況下,可采用如下設(shè)計(jì):插入片段長(zhǎng)度(Kb)0.5382050合計(jì)插入片段覆蓋度1.310101010

折合成功測(cè)序覆蓋度1.33.331.250.500.206.6第38頁(yè)/共48頁(yè)CAP3(1999)特點(diǎn):刪去read兩端低質(zhì)量部分;利用質(zhì)量數(shù)據(jù),識(shí)別重疊序列;進(jìn)行多序列比對(duì),得到一致序列;利用正反向數(shù)據(jù)糾正組裝錯(cuò)誤,構(gòu)建scaffold。使用情況:僅使用數(shù)個(gè)BAC進(jìn)行了測(cè)試。第39頁(yè)/共48頁(yè)果蠅組裝軟件(2000)特點(diǎn):組裝前數(shù)據(jù)預(yù)處理;用數(shù)據(jù)庫(kù)屏蔽重復(fù)序列;采用類(lèi)似BLAST的方法找出重疊部分;選擇不沖突的重疊構(gòu)建contigs,識(shí)別重復(fù)序列邊界;用正反向信息構(gòu)建scaffolds,填洞。使用情況:用于果蠅基因組組裝。第40頁(yè)/共48頁(yè)用于人類(lèi)基因組組裝時(shí)的改進(jìn)(2001)構(gòu)建contigs后,利用一個(gè)統(tǒng)計(jì)模型識(shí)別低拷貝重復(fù)序列;采用兩種方式利用已公布的人類(lèi)基因組計(jì)劃數(shù)據(jù),即 1.把人類(lèi)基因組計(jì)劃數(shù)據(jù)分解成“人工reads”,進(jìn)行組裝; 2.利用人類(lèi)基因組計(jì)劃數(shù)據(jù)的定位對(duì)shotgun數(shù)據(jù)進(jìn)行分組,然后組裝。第41頁(yè)/共48頁(yè)ARACHNE(2002)特點(diǎn):組裝前通過(guò)多序列比對(duì)糾正測(cè)序錯(cuò)誤;考慮質(zhì)量數(shù)據(jù),對(duì)每對(duì)重疊reads打分;通過(guò)分析reads重疊情況識(shí)別重復(fù)序列的邊界,組裝的contigs避免越過(guò)邊界;識(shí)別重復(fù)序列contigs;構(gòu)建scaffolds,填補(bǔ)空洞。使用情況:使用數(shù)個(gè)物種,包括人21、22染色體數(shù)據(jù)進(jìn)行了檢驗(yàn)。第42頁(yè)/共48頁(yè)ThePhusionAssembler(2003)特點(diǎn):輸入數(shù)據(jù)包括正反向信息,插入片段長(zhǎng)度在2-200kb之間;組裝前先對(duì)數(shù)據(jù)進(jìn)行分組,然后并行處理;使用phrap進(jìn)行組裝,組裝過(guò)程中利用正反向信息對(duì)contig進(jìn)行延伸或打斷;根據(jù)重疊合并contigs;利用正反向信息構(gòu)建scaffolds。使用情況:用于小鼠基因組,7.5x,2.6Gb,479scaffolds第43頁(yè)/共48頁(yè)Table2.InsertSizes,NumberofReadsandEffectiveCloneCoveragefortheMouseWGSDataSetInsertsizerangeMillionsofreadsPercentoftotalEffectiveclonecoverageaLessthan3kb3.169.7%1.33kb–7kb19.3259.5%15.37kb–12kb2.738.4%5.212kb–50kb1.053.2%7.4>50kb0.391.2%12.7Totalpairedreads26.6582.0%41.9Unpairedreads5.8518.0%

Totalreads32.50100.0%

第44頁(yè)/共48頁(yè)歐拉圖方法(2001)特點(diǎn):放棄傳統(tǒng)方法,用圖論解決序列組裝問(wèn)題;每個(gè)read作為一個(gè)頂點(diǎn),兩個(gè)reads之間有重疊則有邊連接。組裝問(wèn)題就化為找一條僅通過(guò)每個(gè)頂點(diǎn)一次的通路——Hamilton問(wèn)題。把重復(fù)序列視為粘在一起的邊,可把上述圖簡(jiǎn)化,問(wèn)題變?yōu)檎覂H通過(guò)每條邊一次的通路——Euler問(wèn)題。第45頁(yè)/共48頁(yè)具體步驟糾正測(cè)序錯(cuò)誤把read分為長(zhǎng)為L(zhǎng)的字。如果一個(gè)字屬于M個(gè)以上reads,稱(chēng)為堅(jiān)固的;否則稱(chēng)為弱的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論