生物信息軟件綜合實踐bioinf06_第1頁
生物信息軟件綜合實踐bioinf06_第2頁
生物信息軟件綜合實踐bioinf06_第3頁
生物信息軟件綜合實踐bioinf06_第4頁
生物信息軟件綜合實踐bioinf06_第5頁
已閱讀5頁,還剩36頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第六章第六章 基因預(yù)測和基因結(jié)構(gòu)分析基因預(yù)測和基因結(jié)構(gòu)分析生物信息軟件綜合實踐Where are the Genes in the Genome?GAGAAAATCAATTGGTTTAGAAGGTTTGGACTCACTTGACAGGTTCAGTTGGAGACGATCATAGGTGGCTGCTGTGACAAAGGGAAATTGTGCTTTTCCAGCATGCTTACTGACCCTGATTTACCTCAGGAGTTTGAAAGGATGTCTTCCAAGCGACCAGCCTCTCCGTATGGGGAAGCAGATGGAGAGGTAGCCATGGTGACAAGCAGACAGAAAGTGGAAGAAGA

2、GGAGAGTGACGGGCTCCCAGCCTTTCACCTTCCCTTGCATGTGAGTTTTCCCAACAAGCCTCACTCTGAGGAATTTCAGCCAGTTTCTCTGCTGACGCAAGAGACTTGTGGCCATAGGACTCCCACTTCTCAGCACAATACAATGGAAGTTGATGGCAATAAAGTTATGTCTTCATTTGCCCCACACAACTCATCTACCTCACCTCAGAAGGCAGAAGAAGGTGGGCGACAGAGTGGCGAGTCCTTGTCTAGTACAGCCCTGGGAACTCCTGAACGGCGCAAGGGCAGTTTAGCTGATGT

3、TGTTGACACCTTGAAGCAGAGGAAAATGGAAGAGCTCATCAAAAACGAGCCGGAAGAAACCCCCAGTATTGAAAAACTACTCTCAAAGGACTGGAAAGACAAGCTTCTTGCAATGGGATCGGGGAACTTTGGCGAAATAAAAGGGACTCCCGAGAGCTTAGCTGAGAAAGAAAGGCAACTCATGGGTATGATCAACCAGCTGACCAGCCTCCGAGAGCAGCTGTTGGCTGCCCACGATGAGCAGAAGAAACTAGCTGCCTCTCAGATTGAGAAACAGCGTCAGCAAATGGAGCTGGCCAA

4、GCAGCAACAAGAACAAATTGCAAGACAGCAGCAGCAGCTTCTACAGCAACAACACAAAATCAATTTGCTCCAGCAACAGATCCAGGTTCAAGGTCAGCTGCCGCCATTAATGATTCCCGTATTCCCTCCTGATCAACGGACACTGGCTGCAGCTGCCCAGCAAGGATTCCTCCTCCCTCCAGGCTTCAGCTATAAGGCTGGATGTAGTGACCCTTACCCTGTTCAGCTGATCCCAACTACCATGGCAGCTGCTGCCGCAGCAACACCAGGCTTAGGCCCACTCCAACTGCAGCAGTTATA

5、TGCTGCCCAGCTAGCTGCAATGCAGGTATCTCCAGGAGGGAAGCTGCCAGGCATACCCCAAGGCAACCTTGGTGCTGCTGTATCTCCTACCAGCATTCACACAGACAAGAGCACAAACAGCCCACCACCCAAAAGCAAGGATGAAGTGGCACAGCCACTGAACCTATCAGCTAAACCCAAGACCTCTGATGGCAAATCACCCACATCACCCACCTCTCCCCATATGCCAGCTCTGAGAATAAACAGTGGGGCAGGCCCCCTCAAAGCCTCTGTCCCAGCAGCGTTAGCTAGTCCTTCAGC

6、CAGAGTTAGCACAATAGGTTACTTAAATGACCATGATGCTGTCACCAAGGCAATCCAAGAAGCTCGGCAAATGAAGGAGCAACTCCGACGGGAACAACAGGTGCTTGATGGGAAGGTGGCTGTTGTGAATAGTCTGGGTCTCAATAACTGCCGAACAGAAAAGGAAAAAACAACACTGGAGAGTCTGACTCAGCAACTGGCAGTTAAACAGAATGAAGAAGGAAAATTTAGCCATGCAATGATGGATTTCAATCTGAGTGGAGATTCTGATGGAAGTGCTGGAGTCTCAGAGTCAAGAAT

7、TTATAGGGAATCCCGAGGGCGTGGTAGCAATGAACCCCACATAAAGCGTCCAATGAATGCCTTCATGGTGTGGGCTAAAGATGAACGGAGAAAGATCCTTCAAGCCTTTCCTGACATGCACAACTCCAACATCAGCAAGATATTGGGATCTCGCTGGAAAGCTATGACAAACCTAGAGAAACAGCCATATTATGAGGAGCAAGCCCGTCTCAGCAAGCAGCACCTGGAGAAGTACCCTGACTATAAGTACAAGCCCAGGCCAAAGCGCACCTGCCTGGTGGATGGCAAAAAGCTGCGCAT

8、TGGTGAATACAAGGCAATCATGCGCAACAGGCGGCAGGAAATGCGGCAGTACTTCAATGTTGGGCAACAAGCACAGATCCCCATTGCCACTGCTGGTGTTGTGTACCCTGGAGCCATCGCCATGGCTGGGATGCCCTCCCCTCACCTGCCCTCGGAGCACTCAAGCGTGTCTAGCAGCCCAGAGCCTGGGATGCCTGTTATCCAGAGCACTTACGGTGTGAAAGGAGAGGAGCCACATATCAAAGAAGAGATACAGGCCGAGGACATCAATGGAGAAATTTATGATGAGTACGACGAGGA

9、AGAGGATGATCCAGATGTAGATTATGGGAGTGACAGTGAAAACCATATTGCAGGene a基因預(yù)測和基因結(jié)構(gòu)分析基因預(yù)測和基因結(jié)構(gòu)分析u 生物信息學(xué)中的重要內(nèi)容之一生物信息學(xué)中的重要內(nèi)容之一u 預(yù)測編碼蛋白質(zhì)的基因(預(yù)測編碼蛋白質(zhì)的基因(Protein-coding gene)u 預(yù)測非編碼預(yù)測非編碼RNA基因(基因(Non-coding RNA gene)u 排除重復(fù)序列(排除重復(fù)序列( )u 確定基因的結(jié)構(gòu)確定基因的結(jié)構(gòu)u 開放閱讀框(開放閱讀框(open reading frame, ORF)u 基因的調(diào)控區(qū)啟動子基因的調(diào)控區(qū)啟動子 (一)(一) 基因預(yù)測的基

10、本分析內(nèi)容基因預(yù)測的基本分析內(nèi)容 v 確定開放讀碼框(確定開放讀碼框(ORF)ORF finder輸入序列或注冊號,選擇密碼表輸入序列或注冊號,選擇密碼表顯示結(jié)果,進(jìn)行選擇顯示結(jié)果,進(jìn)行選擇如果已知如果已知mRNA序列序列注意:本方法只適合于原核生物或mRNA序列(二)(二) 基因預(yù)測的基本方法基因預(yù)測的基本方法 1. 序列相似性搜索序列相似性搜索(Extrinsic Approaches)基因組基因組DNA序列序列A. 在在6個閱讀框中進(jìn)行翻譯并與蛋白質(zhì)數(shù)據(jù)庫中的序個閱讀框中進(jìn)行翻譯并與蛋白質(zhì)數(shù)據(jù)庫中的序列進(jìn)行比較分析(如列進(jìn)行比較分析(如Blastx)B. 對對EST/TSA數(shù)據(jù)庫中同一生

11、物的數(shù)據(jù)庫中同一生物的cDNA序列進(jìn)行序列進(jìn)行比較分析(如比較分析(如Blastn)確定基因數(shù)目和對應(yīng)的確定基因數(shù)目和對應(yīng)的ORFSimilarity-based Gene Prediction: for sequences that encode a known protein or a protein with a known homologu 分析舉例:水稻分析舉例:水稻Xa21基因序列(基因序列(U37133)v CDS:1-2677 bp處和處和3521-3921 bp處處v Blastx分析結(jié)果(檢索蛋白質(zhì)數(shù)據(jù)庫):與分析結(jié)果(檢索蛋白質(zhì)數(shù)據(jù)庫):與水稻蛋白質(zhì)序列比較水稻蛋白質(zhì)序列

12、比較v Blastn分析結(jié)果(檢索分析結(jié)果(檢索est數(shù)據(jù)庫):與水稻數(shù)據(jù)庫):與水稻cDNA序列比較序列比較 取決于數(shù)據(jù)庫中取決于數(shù)據(jù)庫中EST數(shù)據(jù)的數(shù)量和長度數(shù)據(jù)的數(shù)量和長度 通過通過“Distance tree of results ”查看與查看與U37133序列同源的其它序列同源的其它EST序列序列 有些蛋白質(zhì)序列是推測獲得的有些蛋白質(zhì)序列是推測獲得的u 分析舉例:水稻分析舉例:水稻Xa21基因序列(基因序列(U37133)v CDS:1-2677 bp處和處和3521-3921 bp處處v 先通過先通過Blastx獲得同源蛋白,再通過獲得同源蛋白,再通過GeneWise( )預(yù)測基因

13、結(jié)構(gòu))預(yù)測基因結(jié)構(gòu) 優(yōu)先選用最相似的蛋白(通過優(yōu)先選用最相似的蛋白(通過Total score排序,再看排序,再看Query coverage、E-value) 使用其他物種的同源蛋白也可準(zhǔn)確獲使用其他物種的同源蛋白也可準(zhǔn)確獲得基因結(jié)構(gòu)得基因結(jié)構(gòu)2. 根據(jù)模式序列預(yù)測基因根據(jù)模式序列預(yù)測基因(Ab initio Approaches)u 各種基因預(yù)測軟件各種基因預(yù)測軟件u 取決于人們對已知基因結(jié)構(gòu)特征的認(rèn)識取決于人們對已知基因結(jié)構(gòu)特征的認(rèn)識u 采用統(tǒng)計學(xué)方法采用統(tǒng)計學(xué)方法v 基于一個或多個已知序列模式對未知序基于一個或多個已知序列模式對未知序列進(jìn)行分類列進(jìn)行分類v 密碼子偏愛性密碼子偏愛性v

14、對發(fā)現(xiàn)的模式進(jìn)行統(tǒng)計檢驗對發(fā)現(xiàn)的模式進(jìn)行統(tǒng)計檢驗 啟動子結(jié)構(gòu)啟動子結(jié)構(gòu) 外顯子、內(nèi)含子外顯子、內(nèi)含子u 原核生物(原核生物(E.coli)v 與與RNA聚合酶互作位點(聚合酶互作位點(-10、-35區(qū))區(qū))v LexA repressor的結(jié)合位點(啟動子區(qū)段)的結(jié)合位點(啟動子區(qū)段)CTGNNNNNNNNNNCAGv 核糖體結(jié)合位點(轉(zhuǎn)錄起始位點后)核糖體結(jié)合位點(轉(zhuǎn)錄起始位點后)GGAGGu 真核生物真核生物v 基因結(jié)構(gòu)復(fù)雜基因結(jié)構(gòu)復(fù)雜v 已知外顯子、內(nèi)含子外顯子邊界、啟動子序已知外顯子、內(nèi)含子外顯子邊界、啟動子序列特征列特征u 目前還沒有一個基因預(yù)測工具可以完全正確地預(yù)測目前還沒有一個基

15、因預(yù)測工具可以完全正確地預(yù)測一個基因組中的所有基因(一個基因組中的所有基因(Mathe et al. 2002)u 不同的基因預(yù)測軟件分析結(jié)果有差異不同的基因預(yù)測軟件分析結(jié)果有差異u 綜合多個基因預(yù)測軟件的分析結(jié)果綜合多個基因預(yù)測軟件的分析結(jié)果人類基因數(shù)目人類基因數(shù)目1000005000025000根據(jù)模式序列預(yù)測基因根據(jù)模式序列預(yù)測基因u 分析工具需要能識別基因的不同結(jié)構(gòu)分析工具需要能識別基因的不同結(jié)構(gòu)v exon, poly-A, promoterv 重復(fù)序列重復(fù)序列u 某些分析工具可選擇物種模式(某些分析工具可選擇物種模式(matrix)作)作為參照比較對象為參照比較對象u 某些分析工具

16、可用不同的方式呈現(xiàn)分析結(jié)果某些分析工具可用不同的方式呈現(xiàn)分析結(jié)果(文字或圖形)(文字或圖形)根據(jù)模式序列預(yù)測基因根據(jù)模式序列預(yù)測基因分析舉例(分析舉例(1) Gene Findingu Softberry ( )的的Gene Finding工具,分工具,分三大類三大類v Gene Finding in Eukaryotav Operon and Gene Finding in Bacteriav Gene Finding in Virusesv 每一大類包括多個分析軟件每一大類包括多個分析軟件在在Softberry主頁選擇主頁選擇“Gene Finding in Eukaryota”類中的類中

17、的“FGENESH”在在FGENESH網(wǎng)頁輸入網(wǎng)頁輸入D63710序列(序列(fasta格式)、選擇物格式)、選擇物種(種(human)作為參照)作為參照分析結(jié)果(文字和圖像)分析結(jié)果(文字和圖像)u GenScan( )用三個物種模式作)用三個物種模式作為參照為參照v Vertebratev Arabidopsisv Maize在在GenScan主頁輸入主頁輸入D63710序列、選擇物種序列、選擇物種(Vertebrate)作為參照)作為參照分析結(jié)果(文字和圖像分析結(jié)果(文字和圖像)分析舉例(分析舉例(2) GenScan評價A predicted exon is said to be ex

18、actly correct if it matches a true (annotated) exon precisely, i.e. both endpoints correct; partially correct if one endpoint is correct; overlapping if neither endpoint is correct, but it overlaps one or more true exons; and wrong if it does not overlap a true exon.分析舉例(分析舉例(2) GenScan分析舉例(分析舉例(3)

19、AUGUSTUSu AUGUSTUS( )v 用于真核基因的預(yù)測用于真核基因的預(yù)測v 多種物種參照多種物種參照在在AUGUSTUS的分析主頁選擇的分析主頁選擇“web interface”輸入輸入D63710的序列、選擇物種的序列、選擇物種“H. sapiens”分析結(jié)果分析結(jié)果分析舉例(分析舉例(4) GeneMarku GeneMark( )v 用于真核、原核和病毒等基因的預(yù)測用于真核、原核和病毒等基因的預(yù)測v 多種物種參照多種物種參照在在GeneMark的分析主頁選擇的分析主頁選擇“Gene Prediction in Eukaryotes”在在“Gene Prediction in E

20、ukaryotes”網(wǎng)頁輸入網(wǎng)頁輸入D63710的序列、選擇物種的序列、選擇物種“H. sapiens”,選擇,選擇輸出格式選項輸出格式選項分析結(jié)果分析結(jié)果 3. 利用比較基因組預(yù)測基因利用比較基因組預(yù)測基因(Comparative Genomics Approaches)u 結(jié)合模式法和同源序列法結(jié)合模式法和同源序列法u 親緣關(guān)系相近生物的基因序列具有保守性親緣關(guān)系相近生物的基因序列具有保守性分析舉例分析舉例N-SCAN/Twinscan ( )選擇選擇N-SCAN在線分析(需免費注冊)在線分析(需免費注冊)輸入待分析序列,選擇輸入待分析序列,選擇masking, clade, specie

21、s和和informant分析結(jié)果分析結(jié)果SoftBerry FGENESH+分析舉例分析舉例輸入待分析序列及同源序列,選擇對應(yīng)的物種輸入待分析序列及同源序列,選擇對應(yīng)的物種分析結(jié)果分析結(jié)果 文字文字 圖形圖形各種基因預(yù)測方法的比較各種基因預(yù)測方法的比較 NGASP The nematode genome annotation assessment project Softwares AGENE, CRAIG, EUGENE, FGENESH, FGENESH+, G3A/mGene, GENEMARKHMM, SNAP, AUGUSTUS, ENSEMBL, EXONHUNTER, GENEI

22、D, GLIMMERHMM, MAKER, NSCAN, SGP2 Results基因預(yù)測存在主要問題基因預(yù)測存在主要問題v 假陽性(假陽性(False Positive):多預(yù)測了假的編碼區(qū),):多預(yù)測了假的編碼區(qū),即在非編碼區(qū)預(yù)測出基因即在非編碼區(qū)預(yù)測出基因v 假陰性(假陰性(False Negative):漏掉了真實的編碼區(qū),):漏掉了真實的編碼區(qū),即將基因預(yù)測為非編碼區(qū)即將基因預(yù)測為非編碼區(qū)v 過界預(yù)測(過界預(yù)測(Over Prediction):由于基因邊界很難):由于基因邊界很難準(zhǔn)確定位,預(yù)測經(jīng)常會超過實際邊界準(zhǔn)確定位,預(yù)測經(jīng)常會超過實際邊界v 片段化(片段化(Fragmentat

23、ion):內(nèi)含子太大的基因,在):內(nèi)含子太大的基因,在預(yù)測時容易斷裂成兩個或多個基因預(yù)測時容易斷裂成兩個或多個基因v 融合化(融合化(Fusion):距離過近的兩個或多個基因,):距離過近的兩個或多個基因,在預(yù)測時容易被融合成一個很大的基因在預(yù)測時容易被融合成一個很大的基因NNPP分析轉(zhuǎn)錄起始位點分析轉(zhuǎn)錄起始位點 (三)基因精細(xì)結(jié)構(gòu)分析(三)基因精細(xì)結(jié)構(gòu)分析分析結(jié)果:分析結(jié)果:Promoter2.0 predicts transcription start sites of vertebrate PolII promoters in DNA sequences. 分析轉(zhuǎn)錄起始位點分析轉(zhuǎn)錄起始位

24、點Promoter 2.0 Prediction Server 在在“Promoter 2.0”網(wǎng)頁粘貼網(wǎng)頁粘貼D63710序列序列分析結(jié)果分析結(jié)果分析轉(zhuǎn)錄起始位點分析轉(zhuǎn)錄起始位點PromID: human promoter prediction by deep learning 分析轉(zhuǎn)錄因子結(jié)合位點分析轉(zhuǎn)錄因子結(jié)合位點Cis-acting element(順式元件)和trans-acting element(反式元件)的互作分析舉例分析舉例 JASPAR 選擇物種分類,在網(wǎng)頁左側(cè)選擇轉(zhuǎn)錄因子結(jié)合位點選擇物種分類,在網(wǎng)頁左側(cè)選擇轉(zhuǎn)錄因子結(jié)合位點模型,右側(cè)粘貼序列(模型,右側(cè)粘貼序列(FASTA

25、格式)格式)分析結(jié)果分析結(jié)果 分析舉例分析舉例 PROSCAN在在Proscan網(wǎng)頁粘貼序列(網(wǎng)頁粘貼序列(FASTA格式)格式)分析結(jié)果分析結(jié)果 分析結(jié)果分析結(jié)果v 包括多種包括多種RNA結(jié)構(gòu)預(yù)測及基因鑒別軟件結(jié)構(gòu)預(yù)測及基因鑒別軟件v 假陽性是最大的問題假陽性是最大的問題 prediction_software (四)非編碼(四)非編碼RNA基因預(yù)測基因預(yù)測A practical guide to the art of RNA gene predictionGene-finding software and resources Software TutorialsBooks綜合多種方法綜合多

26、種方法(五)(五)miRNA靶基因預(yù)測靶基因預(yù)測MethodType of MethodRefMethod AvailabilityData availabilityResourceStark et. alComplementary(Stark et. al., 2003) Online searchYes miRandaComplementary(John et al., 2004)DownloadYes miRanda MiRBaseComplementary(Enright et al., 2003) Online searchYes miRWalk-Online searchYes h

27、eidelberg.de/apps/zmf/mirwalk/index.htmlTarget Scan Seed Complementary (Lewis et al., 2005)Online searchYes DIANA microTThermodynamics(Kirakidou et al., 2004)DownloadYes PicTarThermodynamics(Krek et al., 2005)N/AYes RNAHybridThermodynamics & Statistical model(Rehmsmeier et al., 2004)DownloadYes

28、miRGen+Baynesian Inference(Huang et al., 2007b)Mathlab CodeYes MiTargetSupport Vector Machine(Kim et al. 2006)Online searchYes MiRtaget2Support Vector Machine(Wang and El Naqa, 2008)Online searchYes TarBaseExperimentally Validated Targets(Sethupathy et al., 2006)N/AYes tarbase/From TargetRNA2v 只能預(yù)測細(xì)

29、菌只能預(yù)測細(xì)菌sRNA靶基因靶基因 WMD3v 主要用于預(yù)測植物主要用于預(yù)測植物miRNA靶基因靶基因 miRDBv 主要預(yù)測動物主要預(yù)測動物miRNA靶基因靶基因 /miRDB/mining.html miRecords (五)(五)miRNA靶基因預(yù)測靶基因預(yù)測基因預(yù)測或基因結(jié)構(gòu)分析原則基因預(yù)測或基因結(jié)構(gòu)分析原則1.Similarity-based or ComparativeBLAST - Do other organisms have similar sequence? (Is sequence similar to known gene or protein)2. Ab initio

30、 = “from the beginning”Predict without explicit comparison with cDNA or proteins via “rule-based” gene models - but rules are derived from statistical analysis of datasets3. Combined evidence-basedCombine gene models with alignment to known ESTs & protein sequencesBEST RESULTS? Combined (六)(六)UCSC Genome

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論