Clustal_X教程_第1頁
Clustal_X教程_第2頁
Clustal_X教程_第3頁
Clustal_X教程_第4頁
Clustal_X教程_第5頁
已閱讀5頁,還剩58頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、多序列比對與多序列比對與ClustalClustal的使用,的使用,以及各類常見的序列分析工具以及各類常見的序列分析工具介紹介紹中山大學生科院2004年10月內(nèi)容提要第一部分:多序列比對第一部分:多序列比對 意義、方法、算法 Clustal的使用 1.Clustalx 2.Clustalw第二部分:常見的序列分析軟第二部分:常見的序列分析軟件分類簡介件分類簡介第一部分:第一部分:多序列比對及多序列比對及Clustal的使用的使用序列相似性比較和序列序列相似性比較和序列同源性分析同源性分析序列相似性比較:序列相似性比較: 就是將待研究序列與DNA或蛋白質(zhì)序列庫進行比較,用于確定該序列的生物屬性,

2、也就是找出與此序列相似的已知序列是什么。完成這一工作只需要使用兩兩序列比較算法。常用的程序包有BLAST、FASTA等;序列同源性分析:序列同源性分析: 是將待研究序列加入到一組與之同源,但來自不同物種的序列中進行多序列同時比較,以確定該序列與其它序列間的同源性大小。這是理論分析方法中最關(guān)鍵的一步。完成這一工作必須使用多序列比較算法。常用的程序包有CLUSTAL等;多序列比對的意義 用于描述一組序列之間的相似性關(guān)系,以便了解一個基因家族的基本特征,尋找motif,保守區(qū)域等。 用于描述一個同源基因之間的親緣關(guān)系的遠近,應(yīng)用到分子進化分析中。 其他應(yīng)用,如構(gòu)建profile,打分矩陣等。 同源性

3、分析中常常要通過多序列比對來找出序列之間的相互關(guān)系,和blast的局部匹配搜索不同,多序列比對大多都是采用全局比對的算法。這樣對于采用計算機程序的自動多序列比對是一個非常復雜且耗時的過程,特別是序列數(shù)目多,且序列長的情況下。多序列比對的方法多序列比對的方法基本上多序列比對可以分為基本上多序列比對可以分為 1.手工比對(輔助編輯軟件如手工比對(輔助編輯軟件如bioedit,seaview,Genedoc等)等) 通過輔助軟件的不同顏色顯示不同殘基,靠分析者的觀察來改變比對的狀態(tài)。 2.計算機程序自動比對計算機程序自動比對 通過特定的算法(如同步法,漸進法等),由計算機程序自動搜索最佳的多序列比對

4、狀態(tài)。自動多序列比對的算法1.同步法 將序列兩兩比對時的二維動態(tài)規(guī)劃矩陣擴展到三維矩陣。即用矩陣的維數(shù)來反映比對的序列數(shù)目。這種方法的計算量很大,對于計算機系統(tǒng)的資源要求比較高,一般只有在進行少數(shù)的較短的序列的比對的時候才會用到這個方法。自動多序列比對的算法2.步進法步進法 最常見的就是clustal所采用的方法。 其基本思想就是基于相似序列通常具相似序列通常具有進化相關(guān)性有進化相關(guān)性的這一假設(shè)。 Clustal的漸進比對過程 在比對過程中,先對所有的序列進行兩兩比對并計算它們相似性分值,然后根據(jù)相似性分值將它們分成若干組,并在每組之間進行比對,計算相似性分值。根據(jù)相似性分值繼續(xù)分組比對,直到

5、得到最終比對結(jié)果。在比對過程中,相似性程度較高的序列先進行比對而距離較遠的序列添加在后面。多序列比對工具多序列比對工具clustal Clustal是一個單機版的基于漸進比對的多序列比對工具,由Higgins D.G. 等開發(fā)。有應(yīng)用于多種操作系統(tǒng)平臺的版本,包括linux版,DOS版的clustlw,clustalx等。Clustal簡介簡介 CLUSTAL是一種漸進的比對方法,先將多個序列兩兩比對構(gòu)建距離矩陣,反應(yīng)序列之間兩兩關(guān)系;然后根據(jù)距離矩陣計算產(chǎn)生系統(tǒng)進化指導樹,對關(guān)系密切的序列進行加權(quán);然后從最緊密的兩條序列開始,逐步引入臨近的序列并不斷重新構(gòu)建比對,直到所有序列都被加入為止。C

6、lustalx的工作界面(多序列比對模式多序列比對模式)Clustalx的工作界面(剖面剖面(profile)比對模式比對模式)Clustal的工作原理Clustal輸入多個序列輸入多個序列快速的序列兩兩比對,計算序列間的快速的序列兩兩比對,計算序列間的距離,獲得一個距離矩陣。距離,獲得一個距離矩陣。鄰接法鄰接法(NJ)構(gòu)建一個樹(引導樹)構(gòu)建一個樹(引導樹)根據(jù)引導樹,漸進比對多個序列。根據(jù)引導樹,漸進比對多個序列。Clustal的應(yīng)用1.輸入輸出格式。輸入輸出格式。輸入序列的格式比較靈活,可以是前面介紹過的FASTA格式,還可以是PIR、SWISS-PROT、GDE、Clustal、GCG

7、/MSF、RSF等格式。輸出格式也可以選擇,有ALN、GCG、PHYLIP和NEXUS等,用戶可以根據(jù)自己的需要選擇合適的輸出格式。2.兩種工作模式。兩種工作模式。 a.多序列比對模式。多序列比對模式。 b.剖面剖面(profile)比對模式。比對模式。3.一個實際的例子。一個實際的例子。Clustal的應(yīng)用多序列比對實例輸入文件的格式(fasta):KCC2_YEAST NYIFGRTLGAGSFGVVRQARKLSTNDMK_HUMAN DFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMNK.KPRO_MAIZE TRKFKVELGRGESGTVYKGVLEDDRHVAVK

8、KLENDAF1_CAEELQIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALD1CSN HYKVGRRIGEGSFGVIFEGTNLLNN第一步:輸入序列文件。第二步:設(shè)定比對的一些參數(shù)。參數(shù)設(shè)定窗口。第三步:開始序列比對。第四步:比對完成,選擇保存結(jié)果文件的格式Clustalw的使用(一) Clustalw還提供了命令調(diào)用形式的使用方式,方便于批處理過程,下面是一個典型的執(zhí)行多序列比對的clustalw命令:$ ./clustalw infile=dna.fa type=dna gapopen=10 gapext=2 output=gcg outfile=align.gc

9、g -alignClustalw的使用(二)在線的clustalw分析EBI提供的在線提供的在線clustalw服務(wù)服務(wù)http:/www.ebi.ac.uk/clustalw/http:/www.ebi.ac.uk/clustalw/EBI提供提供的在線的在線Clustalw服務(wù)服務(wù)更為詳細的教程可以在這里得到更多關(guān)于可以在這里得到更多關(guān)于clustal的幫助:的幫助:http:/www-igbmc.u-strasbg.fr/BioInfo/ClustalX/Top.html 實際操作實際操作(練習練習) 使用clustalx程序,對給定的多序列,選擇合適的參數(shù),進行多序列比對,輸出結(jié)果文件

10、維phylip格式。 相同的文件,使用ebi和我們提供的在線服務(wù),進行多序列比對。 對上述計算機程序比對的結(jié)果進行手工改動(bioedit,seaview),使得多序列比對結(jié)果跟符合要求。SIV MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSISRAGDYLLQTWLRVNIPPVTLSGLLGNTYSLRWTKNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVPASKRNGYDNMIGNVSSLINPVAPGGTLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQ

11、INFNFRDWHELLILTNSALVPPASSYVSIVVGTHISAAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPRQNYVPLTNASPTFDIRFSHAIKALFFAVRNKTSAAEWSNYATSSPVVTGATVNYEPTGSFDPIANTTLIYENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVFVVPAASSAAISAAGGTGGQAGSDYAQSYEFVIVAVNNNIVRIENSLVRNRRRWSREGPMVMVCTIV MSMSSSNITSGFIDIATFDEIEKYMY

12、GGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSISRAGDYLLQTWLRVNIPPVTLSGLLGNTYSLRWTKNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVPASKRNGYDNMIGNVSSLINPVAPGGTLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDWHELLILTNSALVPPASPYVPIVVGTHISAAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPRQNYVPLTNASPTFDIRFSHAIKALFFAVRNKTSAAEWSNYATSSPV

13、VTGATVNYEPTGSFDPIANTTLIYENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVSVVPQASPAAIAAAGGTGGQAGSDYPQNYEFVILAVNNNIVRISGGETPQNYIAVCWIV MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSISRAGDYLLQTWLRVNIPQVTLNPLLAATFSLRWTRNLMHNLIREATITFNDLVAARFDNYHLDFWSAFTVPASKRTGYDNMIGNVSSLI

14、NPVAPGGNLGSTGGTNLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDWTELLVLQNSALVAPASPYVPIVVPTHLTVAPVLGPVQVWANYAIVSNEERRRMGCAIRDILIEQVQTAPRQNYTPLTNASPTFDIRFSHAIKALFFSVRNKTSASEWSNYATSSPVVTGATVNFEPTGSFDPIANTTLIYENTNRLGAMGSDYFSLINPFYHAPTIPSFIGYHLYSYSLHFYDLDPMGSTNYGKLTNVSVVPQASPAAVNAASGAGGFPGSDYPQSYEFVIVAVNNNIVRISGGETPQ

15、NYLSGSFVTLLNRRKWSREGPMIMVQCzIV MSMSSSNITSGFIDIATFDEIEKYMYGGPTATAYFVREIRKSTWFTQVPVPLSRNTGNAAFGQEWSVSISRAGDYLLQTWLRVNIPQVTLNAQLGPTFGLRWTRNFMHNLIREATITFNDLVAARFDNYHLDFWSAFTVPASKKIGYDNMIGNISALTNPVAPGGSLGSVGGINLNLPLPFFFSRDTGVALPTAALPYNEMQINFNFRDWPELLILTNTALVPPASPYVPIVVGTHLSAAPVLGAVQVWANYAIVSNEERRRMGCAIRD

16、ILIEQVQTAPRQNYTPLTNAMPTFDIRFSHAIKALFFSVRNKTSSAEWSNYATSSPVVTGQLVNYEPPGAFDPISNTTLIYENTNRLGAMGSDYFSLINPFYHAPTIPSSIGYHLYSYSLHFFDLDPMGSTNYGKLTNVSVVPQASPAAVTAAGGSGAAGSGADYAQSYEFVIIGVNNNIIRISGGALGFPVLCIV MSISSSNVTSGFIDIATKDEIEKYMYGGKTSTAYFVRETRKATWFTQVPVSLTRANGSANFGSEWSASISRAGDYLLYTWLRVRIPSVTLLSTNQFGANGRIR

17、WCRNFMHNLIRECSITFNDLVAARFDHYHLDFWAAFTTPASKAVGYDNMIGNVSALIQPQPVPVAPATVSLPEADLNLPLPFFFSRDSGVALPTAALPYNEMRINFQFHDWQRLLILDNIAAVASQTVVPVVGATSDIATAPVLHHGTVWGNYAIVSNEERRRMGCSVRDILVEQVQTAPRHVWNPTTNDAPNYDIRFSHAIKALFFAVRNTTFSNQPSNYTTASPVITSTTVILEPSTGAFDPIHHTTLIYENTNRLNHMGSDYFSLVNPWYHAPTIPGLTGFHEYSYSLAFNEIDPMG

18、STNYGKLTNISIVPTASPAAKVGAAGTGPAGSGQNFPQTFEFIVTALNNNIIRISGGALGFPVL練習序列第二部分:第二部分:常見的序列分析軟件分類簡介常見的序列分析軟件分類簡介 GCG EMBOSS(免費) Vector NTI DNAstar Bioedit(免費) 其他1.綜合序列分析軟件包GCG(商業(yè)軟件)GCG (Genetics Computer Group)是生物信息界最廣為人知的分子序列分析軟件包,最早是在美國的威斯康辛大學麥迪遜校區(qū)(University of Wisconsin-Madison)內(nèi)發(fā)展起來的,后來獨立成為一個商業(yè)公司,期間曾經(jīng)是

19、Oxford Molecular 的分支機構(gòu),在2000 年又由Pharmacopeia 所并構(gòu)。GCG 軟件包包括了超過軟件包包括了超過130個獨立的序列個獨立的序列分析程序分析程序,大,大致上可以分成以下致上可以分成以下12個類別:個類別: 1. Sequence Comparison 2. Database Searching and Retrieval 3.DNA/RNA Secondary Structure Prediction 4.Editing and Publication 5.Evolutionary Analysis 6.Fragment Assembly 7.Gene

20、Finding and Pattern Recognition 8.Importing and Exporting 9.Mapping 10.Primer Selection 11.Protein Analysis 12.Translation 除了分析程序以外,除了分析程序以外, GCG 同時也提供多種生物同時也提供多種生物學學數(shù)據(jù)庫數(shù)據(jù)庫。核酸相關(guān)的:GenBank(/ ) EMBL (http:/www.ebi.ac.uk/) 蛋白質(zhì)相關(guān)的: SWISS-PROT (http:/www.expasy.ch/sprot/) PIR (ht

21、tp://pir/) SP-TrEMBL (http:/www.expasy.ch/sprot/ ) 使用者可以輸入自己實驗獲得的分子序列, 或者從這些數(shù)據(jù)庫中來獲取得到分子序列,再用到GCG的分析程序進行分析。 GCG的工作方式(S-C) 安裝在基于Unix系統(tǒng)的服務(wù)器上,目前可以安裝的平臺(platform)有SGI 的IRIX 操作系統(tǒng),SUN 的Solaris操作系統(tǒng),及Compaq 的Tru64操作系統(tǒng),用戶可以通過網(wǎng)絡(luò)連接的方法來使用GCG提供的分析程序以及數(shù)據(jù)庫。1.傳統(tǒng)的命令行形式,這種情況要求用戶熟悉程序的命令。2.借助SeqLa

22、b的用戶窗口界面,通過各類表單的操作來實現(xiàn)分析任務(wù)。以上兩個執(zhí)行GCG的方法都是通過telnet來實現(xiàn)的。3. 借助于WWW服務(wù)的SeqWeb,是最為簡單和方便的使用方式。 雖然命令行的操作需要一些操作,但是對于熟悉GCG的用戶來說,卻是最為快捷和有效的方法,此外這種方法還可以擴展到批處理中。執(zhí)行GCG程序的方法EMBOSS(免費軟件) EMBOSS(European Molecular Biology Open Software Suite)源于1988年的EGCG(主流商業(yè)軟件GCG的擴展),由于版權(quán)等原因,EGCG不再發(fā)行,開發(fā)人員在此基礎(chǔ)上開發(fā)出來公開源代碼的EMBOSS軟件包。htt

23、p:/www.sanger.ac.uk/Software/EMBOSS Vector NTI由Informax公司(現(xiàn)在已經(jīng)歸入Invitrogen公司旗下)開發(fā)的一種高度集成、功能齊全的分子生物學應(yīng)用軟件,可以對DNA、蛋白質(zhì)分子進行大量分析和操作。主要功能:1.DNA序列的ORF、Motif、功能區(qū)搜索,限制酶圖譜,蛋白質(zhì)翻譯。2.PCR引物、測序引物、雜交探針的設(shè)計和評價。3.DNA測序片斷的拼接4.同源比較和系統(tǒng)發(fā)育樹構(gòu)建5.蛋白質(zhì)結(jié)構(gòu)預測:三維結(jié)構(gòu)、化學鍵、翻譯后修飾位點、結(jié)構(gòu)域等6.模擬電泳:瓊脂糖、PAGEDNAstar DNASTAR有限公司開發(fā)了Lasergen程序組,可在計

24、算機上進行DNA和蛋白分析。它們是易于使用且對用戶友好的軟件,可進行分子生物學中的小規(guī)模序列分析和多序列比較。Lasergen有PC Windows和Macintosh兩種版本。Lasergen的一個主要功能是它有針對不同應(yīng)用的7種程序。用戶可根據(jù)自己需要選擇購買。主要功能:1. Editseq,可以從鍵盤、數(shù)據(jù)庫或數(shù)字序列輸入和編輯。2. PrimerSelect,PCR引物和探針設(shè)計。3. MapDraw,限制性位點分析和圖譜繪制。 4. MegAlign,多個和成對蛋白或DNA序列比對。5. GeneMan,生物數(shù)據(jù)庫和數(shù)據(jù)庫檢索。 6. Protean,蛋白結(jié)構(gòu)分析。7. SeqMan

25、,序列裝配和毗連(序列)群管理。Bioedit是一個性能優(yōu)良的免費的分子生物學應(yīng)用軟件,可以對核酸序列和蛋白質(zhì)序列進行常規(guī)的分析操作,并提供了很多網(wǎng)絡(luò)程序的分析界面和接口。 /BioEdit/bioedit.html2.快速同源性數(shù)據(jù)庫搜索工具 Blast Fasta HMMerHMMER HMMer 是一個采用隱馬可夫模型 HMMs(Hidden Markov Models)來識別不同基因之間的結(jié)構(gòu)相似性程度的工具??梢钥焖俚脑跀?shù)據(jù)庫中尋找與特定基因具有一定相似性的基因結(jié)構(gòu)。/ 3.多序列比對工具 Clu

26、stal基于漸進算法的多序列比對優(yōu)化算法,由Higgins D.G. 等開發(fā)。Clustlw,clustalx等。 其他:T_coffee PHYLIP PAUP* 其他:Mega2,MrBayes,tree-puzzle PAML,treeview4.分子進化分析工具PHYLIPPhylip是一個免費的系統(tǒng)發(fā)生(phylogenetics)分析軟件包。 由華盛頓大學遺傳學系開發(fā),1980年首次公布,目前的版本是3.6。包含了35個獨立的程序,這些獨立的程序都實現(xiàn)特定的功能,這些程序基本上包括了系統(tǒng)發(fā)生分析的所有方面。 Phylip有多種不同平臺的版本(包括windows,Macintosh,

27、DOS,Linux,Unix和OpenVMX)。http:/evolution.genetics,/phylip.htmlPAUP*最早是在蘋果機上開發(fā)的具有菜單界面的進化分析軟件,早先版本只有MP法,后續(xù)版本已經(jīng)包括距離法和ML法,現(xiàn)今有mac,win,linux等多種版本,該軟件不是免費軟件,使用者需要向開發(fā)者購買。5.其他工具 模式識別:Meme,signalscan, domainFinder等 測序分析與序列拼接:Chromas,Phred+Phrap+cross_match+consed, contigExpress等 引物設(shè)計:Oligo,Primer

28、3,Primer Premier5.0等 三維分子:PDBviewer,CN3D,RASMOL等序列分析工具的網(wǎng)絡(luò)資源生物軟件網(wǎng)http:/www.bio-NCBIExpasy/ 生物軟件網(wǎng) 由華北制藥集團的談杰創(chuàng)建,是一個具有豐富生物信息學資源的站點,提供了大量的生物信息學分析軟件下載。http:/www.bio-NCBI 美國國立生物技術(shù)信息中心(NCBI) 成立于1988年11月4日。是在NIH的國立醫(yī)學圖書館(NLM)的一個分支。NLM是因為它在創(chuàng)立和維護生物信息學數(shù)據(jù)庫方面的經(jīng)驗被選擇的,而且

29、這可以建立一個內(nèi)部的關(guān)于計算分子生物學的研究計劃。NCBI的任務(wù)是發(fā)展新的信息學技術(shù)來幫助對那些控制健康和疾病的基本分子和遺傳過程的理解。 主要資源包括:數(shù)據(jù)庫和軟件,以及相關(guān)的教育和培訓資源Expasy 由位于瑞士日內(nèi)瓦的 Swiss Institute of Bioinformatics 所建立的,是全世界最重要的蛋白質(zhì)數(shù)據(jù)庫之一 ,也是 GCG 最主要的蛋白質(zhì)序列來源。 Expasy的主 要 有蛋白質(zhì)序列、結(jié)構(gòu)、2-D PAGE (Two-dimentional polyacrylamide gel electrophoresis ) 等多個數(shù)據(jù)庫 ,還有大量的蛋白質(zhì)序列與結(jié)構(gòu)分析工具以及FTP資源等。 蛋白質(zhì)分析工具主要有蛋白質(zhì)的功能預測,序列搜索與比對,二級、三級和四級結(jié)構(gòu)的預測等等。 / 操作系統(tǒng) Unix(Linux),Windows, Macintosh 編程語言:perl,C,php,VB算法:動態(tài)規(guī)劃,啟發(fā)式,各類模型數(shù)據(jù)結(jié)構(gòu):表,棧,樹,圖 數(shù)據(jù)庫Mysql,Oracle,SQL ser

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論