基因組島的建模與識別-精品課程課件_第1頁
基因組島的建模與識別-精品課程課件_第2頁
基因組島的建模與識別-精品課程課件_第3頁
基因組島的建模與識別-精品課程課件_第4頁
基因組島的建模與識別-精品課程課件_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、原核生物基因組島的 建模與識別The detection Of Genomic Islands in Prokaryotic Genomes2010年7月北京師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院北京師范大學(xué)生命科學(xué)學(xué)院生物信息實(shí)驗(yàn)室梁瀟 曹莎 姜潔怡Directed by 林魁 毛永華.背景介紹1研究計劃2項(xiàng)目創(chuàng)新點(diǎn)3其它說明4研究背景微生物對人類最重要的影響之一是導(dǎo)致傳染病的流行。在人類疾病中有50是由病毒引起。世界衛(wèi)生組織公布資料顯示:傳染病的發(fā)病率和病死率在所有疾病中占據(jù)第一位。微生物導(dǎo)致人類疾病的歷史,也就是人類與之不斷斗爭的歷史。在疾病的預(yù)防和治療方面,人類取得了長足的進(jìn)展。但是新現(xiàn)和再現(xiàn)的微生物感

2、染還是不斷發(fā)生,像大量的病毒性疾病一直缺乏有效的治療藥物。一些疾病的致病機(jī)制并不清楚。大量的廣譜抗生素的濫用造成了強(qiáng)大的選擇壓力,使許多菌株發(fā)生變異,導(dǎo)致耐藥性的產(chǎn)生。人類健康受到新的威脅一些分節(jié)段的病毒之間可以通過重組或重配發(fā)生變異,最典型的例子就是流行性感冒病毒。每次流感大流行流感病毒都與前次導(dǎo)致感染的株型發(fā)生了變異,這種快速的變異給疫苗的設(shè)計和治療造成了很大的障礙。而耐藥性結(jié)核桿菌的出現(xiàn)使原本已近控制住的結(jié)核感染又在世界范圍內(nèi)猖獗起來。幽門螺桿菌 Helicobacter pylori 革蘭氏陰性菌,幽門螺桿菌是人類至今唯一一種已知的胃部細(xì)菌。由于長期的潰瘍,會導(dǎo)致癌癥,是第一個可致癌的

3、原核生物。銅綠假單胞菌 P.Aeruginosa原稱綠膿桿菌,有復(fù)雜的耐藥機(jī)制,影響肺部及泌尿道,造成燒傷、傷口及血液感染,如敗血??;亦會造成肺炎。10%在醫(yī)院感染的病癥都是由綠膿桿菌所引致的。它亦是引致皮膚炎的其中一種細(xì)菌。鮑曼不動桿菌 Acinetobacter Baum Annie20世紀(jì)70年代,鮑曼不動桿菌幾乎對所有抗生素都很敏感。由于它具有驚人的迅速獲得抗藥性的能力,目前已對多種抗菌藥物表現(xiàn)耐藥?;蚪M島的研究價值微生物的致病作用抗生素抗性共生微生物的共生性外源性化合物的降解基因組島的進(jìn)化起源基因組島的刪除基因組島的插入機(jī)制基因組島在菌株間的轉(zhuǎn)移機(jī)制何為基因組島? 一般是指原核生物

4、基因組染色體上一段具有有別于該基因組背景典型特征的DNA片段基因簇,具有移動元件的特征,如G+C百分比和密碼子使用情況與宿主菌不同,其通常具有移動元件的特征,常含移動基因,可以在同種甚至于不同種菌株間水平轉(zhuǎn)移。FEMS Microbiology Reviews Vol. 33, 2 Pages: 376-393.背景介紹1研究計劃2項(xiàng)目創(chuàng)新點(diǎn)3其它說明4.研究目標(biāo)研究內(nèi)容研究進(jìn)度實(shí)驗(yàn)路線可行性分析預(yù)實(shí)驗(yàn)結(jié)果 項(xiàng)目的研究目標(biāo) 通過整合統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)、比較基因組學(xué)等方法,設(shè)計并實(shí)現(xiàn)一個有較好性能的原核生物基因組島識別分析系統(tǒng)。 項(xiàng)目的研究內(nèi)容1. 通過具有較高敏感性的方法尋找出待測基因組的基因組

5、島。2. 用統(tǒng)計分析的方法研究基因組島邊緣序列的結(jié)構(gòu)特征及其局部區(qū)域相關(guān)關(guān)系,建立起更準(zhǔn)確的識別基因組島的馬爾可夫識別模型。整合我們自己研究的原核生物基因組進(jìn)化方法進(jìn)行備選基因組島的比較基因組學(xué)鑒定。3. 設(shè)計評價指標(biāo)來評價所設(shè)計的系統(tǒng),檢驗(yàn)算法于模型的有效性及實(shí)用性。4. 利用基于Linux的MySQL數(shù)據(jù)庫系統(tǒng),PERL/C+編程以及Apache服務(wù)器實(shí)現(xiàn)整個系統(tǒng)并提供給相關(guān)科學(xué)家使用。 擬解決的關(guān)鍵問題1.基于全基因組的基因組島識別算法的優(yōu)化模型建立 2.識別的性能(準(zhǔn)確性)評價 全基因組序列數(shù)據(jù)Z-curve處理數(shù)據(jù)比較基因組法初步識別基因組島第一階段系統(tǒng)發(fā)育進(jìn)化關(guān)系第二階段第三階段第

6、四階段實(shí)驗(yàn)路線流程圖待分析序列建立隱馬氏模型(HMM)提取特征參數(shù)基因組島區(qū)域第一階段第二階段第三階段第四階段最終優(yōu)化方案MYSQL數(shù)據(jù)庫編程實(shí)現(xiàn)整個系統(tǒng)第一階段第二階段第三階段第四階段基因組島區(qū)域準(zhǔn)確性判斷模型是否達(dá)到預(yù)設(shè)閥值?返回修改模型參數(shù)最終優(yōu)化方案第一階段第二階段第三階段第四階段是否實(shí)驗(yàn)的可行性分析1 全基因組測序計劃的實(shí)行,使我們通過互聯(lián)網(wǎng)即可擁有可靠的已測序的全基因組數(shù)據(jù)來源,如GenBank數(shù)據(jù)庫檢索系統(tǒng):http:/genbank/query_form.html。成熟的WEB程序及具體的數(shù)據(jù)、地址可在有關(guān)資料上找到,這給了我們開發(fā)相關(guān)程序很好的參考。2 基因組島識別研究的系統(tǒng)

7、方法雖然還屬于起步階段,但基因識別從其初期的到現(xiàn)在已有多年,技術(shù)已相當(dāng)成熟,與之相對應(yīng)的軟件系統(tǒng)開發(fā)也很全面、系統(tǒng)。利用統(tǒng)計學(xué)以及機(jī)器學(xué)習(xí)技術(shù)改進(jìn)基因組島識別的系統(tǒng)的可操作性很強(qiáng),在我們的研究時段內(nèi)可以順利完成。 成果提供形式及初步預(yù)實(shí)驗(yàn)結(jié)果現(xiàn)有算法詳細(xì)列表算法論文Islandpath/DIMOB(2005)William W L Hsiao, Korine Ung, Dana Aeschliman, Jenny Bryan, B Brett Finlay, and Fiona S L Brinkman. Evidence of a large novel gene pool associat

8、ed with prokaryotic genomic islands. PLoS Genet, 1(5):e62, Nov 2005.原先是用來協(xié)助原核基因島的識別。途徑是通過可視化GI的幾種共同的特點(diǎn):例如序列組成偏向,tRNA,整合酶和轉(zhuǎn)座酶。這些特征可以用于決定GI的位置。SIGI-HMM(2006)Stephan Waack, Oliver K, Roman A, Thomas B, Carsten D, Wolfgang F.F, Katharina S, Peter M, and Rainer M. Score-based prediction of genomic island

9、s in prokaryotic genomes using hidden markov models. BMC Bioinformatics, 7:142, 2006.這個算法利用了各分類的密碼子使用的顯著差異來識別pA基因和預(yù)測它們可能的起源。(用HMM,Viterbi算法,有高度可靠性)MobilomeFINDER(2007)Mobilomefinder: web-based tools for Insilco and experimental discovery of bacterial genomic islands. Nucleic Acids Res, 35(Web Server

10、 issue):W97W104, Jul 2007.IslandPick(2008)MorganGILangille,WilliamWLHsiao,andFionaSLBrinkman. Evaluation of genomic island predictors using a comparative genomics approach. B MC Bioinformatics, 9:329, 2008.使用比較基因組預(yù)測方法來建立嚴(yán)格的GI和非GI數(shù)據(jù)集,這些陽性和陰性的數(shù)據(jù)集被用來評價一些基于序列組成的GI預(yù)測方法。該方法可以自動選擇用于比較的基因組,用戶也可以根據(jù)子的的見解來選則。I

11、slandViewer(2009)Morgan G I Longville and Fiona S L Brinkman. Islandviewer: an integrated inter- face for computational identification and visualization of genomic islands. Bioinformatics, 25(5):6645, Mar 2009.整合了兩種基于序列組成的的GI預(yù)測方法: SIGI-HMM 和 IslandPath-DIMOB, 以及一個比較基因組預(yù)測方法IslandPick.IslandPick1Z-Cur

12、ve2SIGI-HMM3其它說明4 BLASTBLAST(Basic Local Alignment Search Tool) 是一個用來比對生物序列的一級結(jié)構(gòu)(如不同蛋白質(zhì)的氨基酸序列或不同基因的DNA序列)的算法。 已知一個包含若干序列的數(shù)據(jù)庫,BLAST可以讓研究者在其中尋找與其感興趣的序列相同或類似的序列。 例如如果某種非人動物的一個以前未知的基因被發(fā)現(xiàn),研究者一般會在人類基因組中做一個BLAST搜索來確認(rèn)人類是否包含類似的基因(通過序列的相似性)。.IslandPick1Z-Curve2SIGI-HMM3其它說明4窗口化方法使用20kb的窗口在Bacillus cereus(蠟樣芽孢

13、桿菌)和Bacillus anthracis(炭疽芽孢桿菌)的全基因組上滑動所得到的GC含量的分布圖。 Z-curveDNA序列一一對應(yīng)于一條Z-curveXn=(An+Gn)-(Cn+Tn)Yn=(An+Cn)-(Gn+Tn)Zn=(An+Tn)-(Gn+Cn)特別地,Zn分量體現(xiàn)了整個序列的GC/AT的分布對于一個AT豐富的基因組,Zn是近似的關(guān)于n的單調(diào)增的線性函數(shù)。反之,在GC含量比較豐富的區(qū)域,Zn是近似的關(guān)于n的單調(diào)減的函數(shù)。曲線Znn可以用一條直線使用最小二乘法擬合。該曲線為Z=kn,易知,它對應(yīng)的基因組的GC含量是穩(wěn)定的。令Zn=Zn-kn,GC含量的改變被放大。(?)這樣,Zn曲線和直線的偏差,即Z曲線就可以突出地刻畫基因組內(nèi)GC含量的偏差了。 Z-curveZ曲線的幾何意義Z曲線被稱為累積GC含量輪廓圖對于序列上某一段特定的序列n,它內(nèi)部的GC含量的平均值有如下關(guān)系: Z曲線的幾何意義從上式可以看出累積GC含量圖Z曲線的特征:1)如果曲線的某一個區(qū)域接近于一條直線,則該區(qū)域的GC含量幾乎保持不變;2)曲線上任何一個突然的最大(?。c(diǎn)預(yù)示著一個轉(zhuǎn)折點(diǎn)GC含量經(jīng)歷了一個很突然的從相對低(高)到相對高(低)的變化。累積GC含量輪廓圖在基因組某一堿基處的G+C 含量是關(guān)于Z曲線在該點(diǎn)切線的斜率的一個很簡單函數(shù)。在某一窗口中的平均G+C 含量則正比于此函數(shù)在

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論