基因組數(shù)據(jù)注釋和功能分析課件_第1頁
基因組數(shù)據(jù)注釋和功能分析課件_第2頁
基因組數(shù)據(jù)注釋和功能分析課件_第3頁
基因組數(shù)據(jù)注釋和功能分析課件_第4頁
基因組數(shù)據(jù)注釋和功能分析課件_第5頁
已閱讀5頁,還剩68頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、基因組數(shù)據(jù)注釋和功能分析陳啟昀陳 辰丁文超 張增明 浙江加州國際納米技術(shù)研究院(ZCNI)實習(xí)一基因組數(shù)據(jù)注釋和功能分析實習(xí)二核苷酸序列分析實習(xí)三芯片的基本數(shù)據(jù)處理和分析實習(xí)四蛋白質(zhì)結(jié)構(gòu)與功能分析實習(xí)五蛋白質(zhì)組學(xué)數(shù)據(jù)分析實習(xí)六系統(tǒng)生物學(xué)軟件實習(xí)課程內(nèi)容基因組學(xué)轉(zhuǎn)錄物組學(xué)蛋白質(zhì)組學(xué)系統(tǒng)生物學(xué)通過序列比對工具BLAST學(xué)習(xí),了解蛋白編碼基因的功能注釋原理介紹多序列聯(lián)配工具ClustalX分子進化分析軟件MEGA4的基本知識,掌握系統(tǒng)發(fā)生樹繪制的基本方法課程提綱序列比對的進化基礎(chǔ)什么是序列比對:將兩個或多個序列按照最佳匹配方式排列在一起。對應(yīng)的相同或相似的符號排列在同一列上。錯配與突變相應(yīng),空位與插

2、入或缺失對應(yīng)。序列比對的目的:從核酸以及氨基酸的層次去分析序列的相同點和不同點,以推測他們的結(jié)構(gòu)、功能以及進化上的聯(lián)系通過判斷兩個序列之間的相似性來判定兩者是否具有同源性相似性:可以被數(shù)量化,如:序列之間相似部分的百分比同源性:質(zhì)的判斷,兩個基因在進化上是否曾有共同祖先的推斷BLAST基本局部比對搜索工具(Basic Local Alignment Search Tool)NCBI上BLAST服務(wù)的網(wǎng)址:/blast/NCBI上BLAST程序的下載:/blast/executables/release/NCBI的BLAST數(shù)據(jù)庫下載網(wǎng)址:/blast/db/選擇物種選擇blast程序Query

3、SequenceAminoacidSequenceDNASequencetBLASTxBLASTxBLASTntBLASTnBLASTpNucleotideDatabaseProteinDatabaseNucleotideDatabaseNucleotideDatabaseProteinDatabaseTranslatedTranslatedTranslated程序名搜索序列數(shù)據(jù)庫內(nèi)容備注blastpProteinProtein比較氨基酸序列與蛋白質(zhì)數(shù)據(jù)庫使用取代矩陣尋找較遠的關(guān)系,進行SEG過濾blastnNucleotideNucleotide比較核酸序列與核酸數(shù)據(jù)庫尋找較高分值的匹配,對

4、較遠的關(guān)系不太適用blastxNucleotideProtein比較核酸序列理論上的六個讀碼框的所有轉(zhuǎn)換結(jié)果和蛋白質(zhì)數(shù)據(jù)庫用于新的DNA序列和ESTs的分析,可轉(zhuǎn)譯搜索序列tblastnProteinNucleotide比較蛋白質(zhì)序列和核酸序列數(shù)據(jù)庫,動態(tài)轉(zhuǎn)換為六個讀碼框的結(jié)果用于尋找數(shù)據(jù)庫中沒有標(biāo)注的編碼區(qū),可轉(zhuǎn)譯數(shù)據(jù)庫序列tblastxNucleotideNucleotide比較核酸序列和核酸序列數(shù)據(jù)庫,經(jīng)過兩次動態(tài)轉(zhuǎn)換為六個讀碼框的結(jié)果轉(zhuǎn)譯搜索序列與數(shù)據(jù)庫序列以Blastx為例:目標(biāo)序列為ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AA

5、T CTG CTT TAT ACC CGC6個讀碼框翻譯5端到3端第一位起始:ATG AGT ACC GCT AAA TTA GTT AAA TCA AAA GCG ACC AAT CTG CTT TAT ACC CGC第二位起始: TGA GTA CCG CTA AAT TAG TTA AAT CAA AAG CGA CCA ATC TGC TTT ATA CCC GC第三位起始: GAG TAC CGC TAA ATT AGT TAA ATC AAA AGC GAC CAA TCT GCT TTA TAC CCG C3端到5端第一位起始:GCG GGT ATA AAG CAG ATT GG

6、T CGC TTT TGA TTT AAC TAA TTT AGC GGT ACT CAT第二位起始: CGG GTA TAA AGC AGA TTG GTC GCT TTT GAT TTA ACT AAT TTA GCG GTA CTC AT第三位起始: GGG TAT AAA GCA GAT TGG TCG CTT TTG ATT TAA CTA ATT TAG CGG TAC TCA T與核酸相關(guān)的數(shù)據(jù)庫與蛋白質(zhì)相關(guān)的數(shù)據(jù)庫選擇數(shù)據(jù)庫序列或目標(biāo)序列的GI號以文件格式上傳BlastN配對與錯配空位罰分BlastP打分矩陣:PAM30PAM70BLOSUM80BLOSUM62BLOSUM45

7、PAM模型可用于尋找蛋白質(zhì)的進化起源,而BLOSUM模型則用于發(fā)現(xiàn)蛋白質(zhì)的保守域。選擇打分矩陣(scoring matrix)The PAM familyBased on global alignmentsThe PAM1 is the matrix calculated from comparisons of sequences with no more than 1% divergence.Other PAM matrices are extrapolated from PAM1.The BLOSUM familyBased on local alignments.BLOSUM62 is

8、a matrix calculated from comparison s of sequences with no less than 62% divergence.All BLOSUM matrices are based on observed alignments ;they are not extrapolated from comparisons of closely related proteins.進行比對的數(shù)據(jù)庫圖形化結(jié)果E值(E-value)表示僅僅因為隨機性造成獲得這一 比對結(jié)果的可能性。這一數(shù)值越接近零,發(fā)生這一事件的可能性越小。 上機實習(xí)1:網(wǎng)上運行blastx和bl

9、astn(NCBIblast網(wǎng)址:/BLAST/)lesson.seq.screen.Contig34 TTTTTTTTTTTTTTTTTAGTGCCAGTTTTTTTTTTTATTTGTAAAGCTCTGCCATAAACTTCTAGCGTGTGCCAATGGTCACCTGCCACACTCGCACCAGGTTGTCCGTGTAGCCAGCAAACAGAGTCTGGCCATCAGCAGACCAGGCCAGGGAGGTGCACTGGGGTGGTTCTGCCTTGCTGCTGGTACTGATAACTTCTTGCTTCAGTTCATCTACAATGATCTTTCCCTCTAAATCCCAGATCTTG

10、ATGCTGGGGCCTGTGGAGCACACAGCCAGTAGCGGTTAGGGCTGAAGCACAGGGCGTTGATGATGTCCCCACCATCTAGCGTGTAAAGGTGTTTGCCTTCGTTGAGATCCCATAACATGGCCTGGCCATCCTTGCCTCCAGAAGCACAGAGGGATCCATCTGGAGAGACAGTCACCGTGTTCAGATAGCCTGTGTGGCCAATGTGGTTGGTCTTCAGCTTGCAGTTAGCCAGGTTCCATACCTTGACCAGCTTGTCCCAGCCACAGGAGACGATGATAGGGTTGCTGCTGTTGGGCGAGA

11、AGCGGACACAAGACACCCACTCTGAGTGGCTCTCATCCTGGACAGTGTATTTGCACACACCCAGGGTATTCCATAGCTTGATGGTTTTATCTCGAGATCCAGAGACAATCTGCCGGTTGTCAGAGGAGAAGGCCACACTCAGCACATCCTTGGTATGGCCCACAAATCGCCTCGTGGTGGTGCCCGTTGTGAGATCCCAGAAGGCGCAGGGTTCCATCCCAGGAGCCTGAGAGGGCAAACTGGCCATCTGAGGAGATAACCACATCACTAACAAAGTGGGAGTGACCCCGCAGAGCACGC

12、TGTGGAATTCCATAGTTGGTCTCATCCCTGGTCAGTTTCCACATGATGATGGTCTTATCTCGAGAGGCGGAGAGGATCATGTCCGGGAACTGCGGGGTAGTAGCGATCTGGGTTACCCAGCCGTTGTGGCCCTTGAGGGTGCCACGAAGGGTCATCTGCTCAGTCATGGCGGCGGCGAGAGCGTGTTCGCTGCAGCGACGAGGATGGCACTGGATGGCTTAGAGAAACTAGCACCACAGTCGACC對contig34進行網(wǎng)上blastn(演示),blastx(自行操作)比對本地運行BLAST下載NCBI上b

13、last程序:/blast/executables/release/安裝(安裝到C:)數(shù)據(jù)庫的格式化(formatdb)程序運行(blastall)登陸NCBI的FTP下載blast程序雙擊安裝到C盤產(chǎn)生三個文件夾bindatadoc將數(shù)據(jù)庫文件(db)及目標(biāo)序列文件(in)保存在Blast/bin文件夾下bin含可執(zhí)行程序(將數(shù)據(jù)庫及需要比對操作的數(shù)據(jù)放入該文件);data文件夾含打分矩陣及演示例子的序列數(shù)據(jù)信息;doc文件夾含關(guān)于各子程序的說明文檔。本地數(shù)據(jù)庫的構(gòu)建查看db文件由fasta格式的序列組成數(shù)據(jù)庫的格式化formatdb命令用于數(shù)據(jù)庫的格式化:formatdb option1

14、option2 option3formatdb常用參數(shù)-i database_name 需要格式化的數(shù)據(jù)庫名稱-p TF 待格式化數(shù)據(jù)庫的序列類型(核苷酸選F;蛋白質(zhì)選T;默認值為T)例:formatdb -i db -p T對蛋白質(zhì)數(shù)據(jù)庫“db”進行格式化程序運行blastall命令用于運行五個blast子程序:blastall option1 option2 option3*可在dos下輸入blastall查看各個參數(shù)的意義及使用blastall常用參數(shù)四個必需參數(shù)-p program_name,程序名,根據(jù)數(shù)據(jù)庫及搜索文件序列性質(zhì)進行選擇;-d database_name,數(shù)據(jù)庫名稱,比

15、對完成格式化的數(shù)據(jù)庫;-i input_file,搜索文件名稱;-o output_file,BLAST結(jié)果文件名稱;兩個常用參數(shù)-e expectation,期待值,默認值為10.0,可采用科學(xué)計數(shù)法來表示,如2e-5;-m alignment view options:比對顯示選項,其具體的說明可以用以下的比對實例說明例:blastall -p blastx -d db -i in -o out -e 2e-5 -m 9 (表格顯示比對結(jié)果)采用blastx程序,將in中的序列到數(shù)據(jù)庫bd中進行比對,結(jié)果以表格形式輸入到out文件上機實習(xí)2:本地運行blastx進入DOS命令行提示符狀態(tài)(

16、“運行”cmd)進入C盤“cd”進入包含序列數(shù)據(jù)的bin目錄下“cd blastbin”察看目錄下內(nèi)容“dir”格式化數(shù)據(jù)庫db“formatdb -i db -p T”運行blastx “blastall -p blastx -i in -d db -o out -e 2e-5 -m 9 ”察看結(jié)果“more out ”或在 windows下雙擊打開輸入數(shù)據(jù)庫類型:F/TBlast程序 序列輸入 數(shù)據(jù)庫 結(jié)果輸出輸入“cd”-回車回到安裝目錄C盤輸入“cd blastbin”-回車到達blast程序下bin文件夾輸入“dir”-回車察看bin文件夾下內(nèi)容bin文件夾下包含以.exe為后綴的程

17、序文件以及這次實習(xí)需要用到的數(shù)據(jù)可文件“bd”和目標(biāo)序列文件“in”輸入“more db”-回車察看db文件內(nèi)容空格鍵翻頁輸入“q”跳出輸入“formatdb -i db -p T”-回車對db數(shù)據(jù)庫進行格式化輸入“dir”-回車察看bin文件夾下內(nèi)容格式化以后產(chǎn)生的文件輸入“blastall -p blastx -i in -d db -o out -e 2e-5 -m 9”-回車運行blastx程序產(chǎn)生的結(jié)果文件“out”用”more out”察看結(jié)果文件不使用-m參數(shù)時比對結(jié)果顯示序列兩兩比對用”more out”察看結(jié)果文件多序列比對的目的從物種的一些分子特性出發(fā),從而了解物種之間的生

18、物系統(tǒng)發(fā)生的關(guān)系。通過序列同源性的比較進而了解基因的進化以及生物系統(tǒng)發(fā)生的內(nèi)在規(guī)律。多序列比對的應(yīng)用:系統(tǒng)發(fā)育分析(phylogenetic analysis)結(jié)構(gòu)預(yù)測(structure prediction)序列基序鑒定(sequence motif identification)功能預(yù)測(function prediction)ClustalW/ClustalX:一種全局的多序列比對程序,可以用來繪制親緣樹,分析進化關(guān)系。MEGA4ClustalW/X的運行本地運行命令行操作的Clustal W(linux & windows) 窗口化操作的ClustalX(windows)下載頁面:f

19、tp:/ftp.ebi.ac.uk/pub/software/ 歐洲生物學(xué)中心(EBI)還提供了Clustal W的網(wǎng)上運行服務(wù)(http:/www.ebi.ac.uk/clustalw)目標(biāo)序列各種參數(shù)設(shè)定下載ClustalXJalview結(jié)果下載點擊Start Jalview打開java程序窗口上機實習(xí)3:本地運行ClustalX17-RNASE1.fasta多序列比對(Multiple Alignment)在C:zcni實習(xí)1Clustalx2文件夾下,找到clustalx.exe雙擊打開ClustalX窗口點擊File下拉菜單中Load sequences選項,打開序列文件17-RNA

20、SE1.fasta.txt打開后的界面點擊進行多序列比對可在Alignment下拉菜單中的Alignment Parameters中設(shè)定各個參數(shù)點擊Alignment下拉菜單中的Do Complete Alignment進行比對比對結(jié)果“*”、“:”、“.” 和空格依次代表改位點的序列一致性由高到低MEGA4一個關(guān)于序列分析及比較統(tǒng)計的工具包包含距離建樹,MP等建樹法自動或手動進行序列比對;推斷進化樹;估算分子進化率,進行進化假設(shè)測驗;聯(lián)機進行數(shù)據(jù)庫搜索;MEGA4可以識別fasta格式文件將17-RNASE1.fasta.txt重命名為17-RNASE1.fasta選擇打開方式為MEGA4,

21、打開17-RNASE1.fasta,自動跳出序列窗口用ClustalW做多序列聯(lián)配ClustalW參數(shù)設(shè)置以.meg格式保存結(jié)果回到MEGA主窗口激活所保存的文件(.meg)編輯標(biāo)注 保守區(qū)域標(biāo)注 不匹配的區(qū)域回到MEGA4主窗口構(gòu)建進化樹已被激活的文件選擇Bootstrap重復(fù)次數(shù),至少為100次四種系統(tǒng)進化樹構(gòu)建方法分化程度較大的遠緣序列: 鄰位相連法(neighbor-joining,NJ) 最小進化法(ME)分化程度較小的近緣序列: 最大簡約法(MP) 除權(quán)配對法(UPGMA)進化樹的可靠性分析BootstrapMethod從排列的多序列中隨機有放回的抽取某一列,構(gòu)成相同長度的新的排列

22、序列重復(fù)上面的過程,得到多組新的序列對這些新的序列進行建樹,再觀察這些樹與原始樹是否有差異,以此評價建樹的可靠性至少進行100次重復(fù)取樣原始數(shù)據(jù)多序列比對結(jié)果對序列中每個位置重復(fù)抽樣,基于原比對結(jié)果生成多個樣本Original treeBootstrap consensus tree節(jié)點上的值為通過Bootstrap檢驗的次數(shù)不同樹型Tree:樹型選擇Branch:分支信息修改Label:分支名稱修改Scale:標(biāo)尺設(shè)定Cutoff:cutoff值軟件網(wǎng)址說明ClustalXhttp:/bips.u-strasbg.fr/fr/Documentation/ClustalX/圖形化的多序列比對工具ClustalWhttp:/www.cf.ac.uk/biosi/research/biosoft/Downloads/clustalw.html命令行格式的多序列比對工具GeneDoc/biomed/genedoc/多序列比對結(jié)果的美化工具BioEdit/BioEdit/bioedit.html序列分析的綜合工具MEGA/圖形化、集成的進化分析工具,不包括MLPAUP/商業(yè)軟件,集成的進化分析

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論