版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、基因組序列組裝-理論與方法,北京大學(xué)生物信息中心 科學(xué)院北京基因組研究所 李松崗兩種測序策略,分級鳥槍法(BAC TO BAC) 基因組DNA 切成大片段 構(gòu)建BAC文庫 挑選 構(gòu)建小片段shotgun文庫 測序 組裝BAC序列 組裝基因組序列 全基因組鳥槍法 基因組DNA 構(gòu)建不同長度shotgun文庫 測序 組裝基因組序列,基因組測序與組裝示意圖,基于BAC方法的 優(yōu)缺點(diǎn),優(yōu)點(diǎn):組裝被局限在BAC的范圍內(nèi),受重復(fù)序列影響小,對計(jì)算能力要求不高; 缺點(diǎn):需要大量前期生物學(xué)研究工作,效率低,成本高。,全基因組鳥槍法優(yōu)缺點(diǎn),優(yōu)點(diǎn):不需要生物學(xué)前期準(zhǔn)備,速度快,成本低;
2、 缺點(diǎn):組裝是在全基因組范圍內(nèi)進(jìn)行,數(shù)據(jù)量大,易產(chǎn)生錯(cuò)拼;對計(jì)算機(jī)軟硬件要求均高。,對拼接軟件的要求,能充分利用正反向測序的配對信息, 避免重復(fù)序列造成的錯(cuò)誤拼接 能處理數(shù)以百萬甚至千萬計(jì)的數(shù)據(jù) 程序并行化 高效率比對,能夠采用全基因組鳥槍法的關(guān)鍵技術(shù)進(jìn)步: 毛細(xì)管測序儀的普遍使用 計(jì)算機(jī)能力的迅速提高,Hierarchical Shotgun (HS),Whole Genome Shotgun (WGS), the sequencing of the human genome is likely to be the only large sequencing project carried
3、to completion by the methods described in this issue. Maynard V. Olson , The maps: Clone by clone by clone , Nature 409, 816 - 818 (2001),Shotgun法序列拼接,Consensus,Mis-Assembly (Inverted),術(shù)語 鳥槍法測序數(shù)據(jù)的組裝 鳥槍法文庫:目標(biāo)基因組一定長度隨機(jī)片段克隆的集合。 正反向測序?qū)Γ?從同一個(gè)克隆片段兩端分別測序所得到的一對序列。. 插入片段長度: 克隆載體中插入的外源DNA片段長度。 片段連接群(contig):用
4、識別互相重疊的方法對測序數(shù)據(jù)進(jìn)行拼接的結(jié)果。. Scaffold: 用正反向測序?qū)B接的非重疊片段連接群。 LW-洞:由于沒有測序數(shù)據(jù)覆蓋而在組裝結(jié)果中留下的洞。,重復(fù)序列分析 覆蓋度: 基因組被測序數(shù)據(jù)覆蓋的次數(shù)。 重復(fù)數(shù): 一段DNA序列在基因組中出現(xiàn)的次數(shù)。 深度:一段DNA序列在鳥槍法測序數(shù)據(jù)集中出現(xiàn)次數(shù)。例如一個(gè)轉(zhuǎn)座子在基因組中出現(xiàn)N次,測序數(shù)據(jù)集的覆蓋度為C, 則這個(gè)轉(zhuǎn)座子的平均深度為NC。 20-mer 重復(fù)序列:任何深度超過為該數(shù)據(jù)集確定的重復(fù)序列標(biāo)準(zhǔn)的20-bpDNA片段。是數(shù)學(xué)定義的重復(fù)序列。 重復(fù)序列洞: 由于屏蔽重復(fù)序列而在組裝結(jié)果中留下的洞。,組裝結(jié)果的評價(jià)標(biāo)準(zhǔn) N5
5、0 大?。?把組裝出的contigs 或 scaffolds從大到小排列,當(dāng)其累計(jì)長度剛剛超過全部組裝序列總長度一半時(shí),最后一個(gè)contig或scaffold的大小。 單堿基錯(cuò)誤率: 與參考序列比較后發(fā)現(xiàn)的小尺度上的不同所占的比例。所謂小尺度,在這里通常指小于標(biāo)準(zhǔn)測序長度,即500bp。實(shí)際上常常只是幾個(gè)堿基。 錯(cuò)誤組裝的Contig: 測序數(shù)據(jù)組裝中出現(xiàn)的錯(cuò)誤。由定義,它涉及的片段一般大于500-bp。包括與參考序列相比,插入、刪除,以及在方向和次序上不同的片段。 錯(cuò)誤組裝的Scaffold:把非重疊contig連接在一起時(shí)出現(xiàn)的錯(cuò)誤。包括嵌套,錯(cuò)誤的方向和順序等。,Shotgun Sequ
6、encing Assembler Concepts,RePS: 全基因組鳥槍法測序數(shù)據(jù)組裝軟件包,特點(diǎn):通過屏蔽在鳥槍法測序數(shù)據(jù)中發(fā)現(xiàn)的重復(fù)序列來完成組裝。,RePS的流程圖,RePS2的新流程圖,識別重復(fù)序列的數(shù)學(xué)模型,重復(fù)序列識別:,若repeat有m個(gè)拷貝,且已知隨機(jī)序列覆蓋深度為0,1,2的概率:g0 , g1 , g2 ,則一次抽樣repeat覆蓋深度為0,1,2,的概率P0, P1, P2,為:,n次抽樣,其中i次以上深度在j以上的概率Pij,設(shè)一次抽樣深度在j以上和以下的概率分別為:Pj,Pj+;,n次抽樣,其中i次以上深度在j以上則認(rèn)為是repeat,此時(shí)犯兩類錯(cuò)誤的概率 為:
7、,設(shè)repeat在基因組中的比例為b,出現(xiàn)概率為P,非repeat出現(xiàn)概率為P* ,則:,Tradeoff between contig size and accuracy of assembly,重復(fù)序列識別效率,MDR (數(shù)學(xué)定義的重復(fù)序列) 與 BDR (生物定義的重復(fù)序列),BDR (25%),BDR (50%?),MDR (42.2%),重復(fù)序列的檢測與處理,插入片段大小引起的錯(cuò)誤組裝,人與水稻基因組中重復(fù)序列分布的差別,Contigs:127,550 (N50=6,688 bp),Scaffolds: 102,444 (N50=11,764 bp),Quality: 546 bp
8、at Q20,插入片段長度的搭配,一般情況下,可采用如下設(shè)計(jì):,CAP3(1999),特點(diǎn): 刪去read兩端低質(zhì)量部分; 利用質(zhì)量數(shù)據(jù),識別重疊序列;進(jìn)行多序列比對,得到一致序列; 利用正反向數(shù)據(jù)糾正組裝錯(cuò)誤,構(gòu)建scaffold。 使用情況: 僅使用數(shù)個(gè)BAC進(jìn)行了測試。,果蠅組裝軟件(2000),特點(diǎn): 組裝前數(shù)據(jù)預(yù)處理; 用數(shù)據(jù)庫屏蔽重復(fù)序列; 采用類似BLAST的方法找出重疊部分; 選擇不沖突的重疊構(gòu)建contigs,識別重復(fù)序列邊界; 用正反向信息構(gòu)建scaffolds,填洞。 使用情況: 用于果蠅基因組組裝。,用于人類基因組組裝時(shí)的改進(jìn)(2001),構(gòu)建contigs后,利用一個(gè)
9、統(tǒng)計(jì)模型識別低拷貝重復(fù)序列; 采用兩種方式利用已公布的人類基因組計(jì)劃數(shù)據(jù),即 1.把人類基因組計(jì)劃數(shù)據(jù)分解成“人工reads”,進(jìn)行組裝; 2.利用人類基因組計(jì)劃數(shù)據(jù)的定位對shotgun數(shù)據(jù)進(jìn)行分組,然后組裝。,ARACHNE(2002),特點(diǎn): 組裝前通過多序列比對糾正測序錯(cuò)誤; 考慮質(zhì)量數(shù)據(jù),對每對重疊reads打分; 通過分析reads重疊情況識別重復(fù)序列的邊界,組裝的contigs避免越過邊界; 識別重復(fù)序列contigs; 構(gòu)建scaffolds,填補(bǔ)空洞。 使用情況:使用數(shù)個(gè)物種,包括人21、22染色體數(shù)據(jù)進(jìn)行了檢驗(yàn)。,The Phusion Assembler(2003),特點(diǎn)
10、: 輸入數(shù)據(jù)包括正反向信息,插入片段長度在2-200kb之間; 組裝前先對數(shù)據(jù)進(jìn)行分組,然后并行處理; 使用phrap進(jìn)行組裝,組裝過程中利用正反向信息對contig進(jìn)行延伸或打斷; 根據(jù)重疊合并contigs; 利用正反向信息構(gòu)建scaffolds。 使用情況: 用于小鼠基因組,7.5x,2.6Gb,479 scaffolds,Table 2. Insert Sizes, Number of Reads and Effective Clone Coverage for the Mouse WGS Data Set,歐拉圖方法(2001),特點(diǎn): 放棄傳統(tǒng)方法,用圖論解決序列組裝問題; 每個(gè)read作為一個(gè)頂點(diǎn),兩個(gè)reads之間有重疊則有邊連接。組裝問題就化為找一條僅通過每個(gè)頂點(diǎn)一次的通路Hamilton問題。 把重復(fù)序列視為粘在一起的邊,可把上述圖簡化,問題變?yōu)檎覂H通過每條邊一次的通路Euler問題。,具體步驟,糾正測序錯(cuò)誤 把read分為長為 L 的字。如果一個(gè)字屬于M個(gè)以上reads,稱為堅(jiān)固的;否則稱為弱的。糾正錯(cuò)誤的算法,就是要通過最少的改變,使弱的字變?yōu)閳?jiān)固的。 通過這種方法,糾正了97.7%的測
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 合理利用網(wǎng)絡(luò)說課稿分鐘
- 碧桂園物業(yè)管家述職報(bào)告
- 教育器材租賃合同模板
- 胸腰椎骨折的診斷與治療
- 溫室大棚灌溉系統(tǒng)安裝協(xié)議
- 新能源項(xiàng)目密封條模板
- 外賣公司墻布施工合同協(xié)議
- 城市住宅樓隔音改造合同
- 科研機(jī)構(gòu)辦公設(shè)備招投標(biāo)書
- 城市有軌電車塔吊租賃合同
- 2024年吊車使用協(xié)議(一年期)
- 臨床護(hù)理帶教老師培訓(xùn)
- 水電站管護(hù)協(xié)議書范文范本
- 酒店直播方案
- 安徽省合肥市第五十中學(xué)西校區(qū)2024-2025學(xué)年期中考試七年級數(shù)學(xué)試題(無答案)
- 湖北省恩施市沙地初中2024-2025學(xué)年八年級數(shù)學(xué)上學(xué)期期中考試題卷(含答案)
- 國開2024年秋《大數(shù)據(jù)技術(shù)概論》形考作業(yè)1-4答案
- 旅游景區(qū)旅游安全風(fēng)險(xiǎn)評估報(bào)告
- 部編2024版歷史七年級上冊第三單元《第14課 絲綢之路的開通與經(jīng)營西域》說課稿
- 醫(yī)院介紹課件模板
- DZ∕T 0148-2014 水文水井地質(zhì)鉆探規(guī)程(正式版)
評論
0/150
提交評論