序列比對與系統(tǒng)發(fā)生分析(第四章)1013_第1頁
序列比對與系統(tǒng)發(fā)生分析(第四章)1013_第2頁
序列比對與系統(tǒng)發(fā)生分析(第四章)1013_第3頁
序列比對與系統(tǒng)發(fā)生分析(第四章)1013_第4頁
序列比對與系統(tǒng)發(fā)生分析(第四章)1013_第5頁
已閱讀5頁,還剩188頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

第四章序列比對與分子系統(tǒng)發(fā)育分析內(nèi)容回顧:常見的生物信息學數(shù)據(jù)庫;

數(shù)據(jù)庫搜索;一級數(shù)據(jù)庫(三大主要的核酸數(shù)據(jù)庫?蛋白質(zhì)數(shù)據(jù)庫?;二級數(shù)據(jù)庫;以關鍵詞和詞組為基礎的數(shù)據(jù)庫搜索;核酸和蛋白質(zhì)序列為基礎的數(shù)據(jù)庫搜索;建立分子生物信息數(shù)據(jù)庫的流程圖關鍵詞或詞組為基礎的數(shù)據(jù)庫檢索

關鍵詞

名詞、描述性詞、詞組序列注冊號(Accessionnumber)

檢索體系

Entrez

SequenceRetrievalSystem(SRS)Integrateddatabaseretrievalsystem(DBGET)內(nèi)容回顧:檢索須知(1)

連接詞AND,OR,NOT riceANDenzyme riceANDenzymeNOTkinase

retrotransposonORretroelement

用引號將兩個單詞組成一個詞組“diseaseresistance”diseaseresistance=diseaseANDresistance

檢索須知(2)

wildcard“*”放在單詞后使檢索范圍擴大,但專一性降低

Wan*=所有以Wan開頭的單詞

enzyme*=enzyme+enzymes

8大類44個與Entreze

體系相連的數(shù)據(jù)庫

“NucleotideSequences”databases(15)“ProteinSequences”databses(4)“Structures”databases(5)“Genes”databases(4)“GeneExpression”databases(4)“Taxonomy”databases(2)“Genomes”databases(6)“Literature”databases(4)Entrez主頁/Entrez/Entrez系統(tǒng)中部分數(shù)據(jù)庫之間的連接

檢索方法(1):數(shù)據(jù)庫之間檢索

Entrez主頁,輸入關鍵詞各個數(shù)據(jù)庫中檢索到的信息數(shù)量

點擊相應數(shù)據(jù)庫查看信息目錄,每一條信息與其它數(shù)據(jù)庫的相關信息鏈接檢索方法(2):選擇數(shù)據(jù)庫檢索

NCBI主頁(http://)選擇數(shù)據(jù)庫,輸入關鍵詞檢索到的信息目錄,每一條信息與其它數(shù)據(jù)庫的相關信息鏈接查看信息內(nèi)容

選擇數(shù)據(jù)庫后,可選擇在這一數(shù)據(jù)庫中的檢索內(nèi)容、時間范圍、分子類型、基因位點等

檢索到的信息目錄

點擊“Limits”修改檢索時間范圍點擊“Go”檢索選擇時間范圍內(nèi)的數(shù)據(jù)范圍檢索

檢索分子量在2002-2009之間的蛋白質(zhì),輸入“2002:2009[MolecularWeight]”,結(jié)果的詳細內(nèi)容

檢索核苷酸長短在3000-4000之間的DNA,輸入“3000:4000[SLEN]”,結(jié)果目錄

檢索注冊號在AF123456-AF123478之間的核苷酸數(shù)據(jù),輸入AF123456:AF123478[Accessionnumber],結(jié)果目錄

16大類274個數(shù)據(jù)庫與SRS體系相連Literature,BibliographyandReferencedatabases(9)GeneDictionariesandOntologies(7)Nucleotidesequencedatabase(32)Nucleotiderelateddatabases(8)UniprotUniversalProteinResource(7)Otherproteinsequencedatabases(14)Proteinfunctiondatabases(14)Proteinstructuredatabases(6)Proteininteractiondatabase(3)Enzymes,reactionsandmetabolicpathwaydatabases(7)MutationandSNPdatabases(1)Otherdatabases(7)Userowneddatabases(2)Applicationresultdatabases(18)EMBOSSresultdatabases(135)EMBLGDSGroupedBy(4)

16大類274個數(shù)據(jù)庫與SRS體系相連(續(xù))SRS基本檢索規(guī)則與常用檢索規(guī)則不同的檢索規(guī)則用“|”代表“OR”,用“&”代表“AND”,用“!”代表“NOT”數(shù)字和日期檢索片段長度檢索時用“:”代表

,用“!”代表≠;如“12:”表示

12,“:12”表示

12,“!12:”表示>12,“:!12”表示<12,12:15表示

12而

15可以識別兩種日期格式:YYYYMMDD或DD-MMM-YYYY;如20020619或19-Jun-2002索引檢索(indexsearch)(不是所有SRS檢索系統(tǒng)都可以進行索引檢索)由數(shù)據(jù)庫名、域名和檢索詞三部分組成,數(shù)據(jù)庫和域名之間用“-”連接,域名與檢索詞之間用“:”(字符串檢索)或“#”(范圍檢索)分開,如:[pir-des:elastase]表示在蛋白質(zhì)數(shù)據(jù)庫PIR的des(description)域搜索關鍵詞“elastase”[swissprot-date#20010415:200220414]表示在蛋白質(zhì)數(shù)據(jù)庫SWISS-PROT中檢索從2001年4月15日到2002年4月14日的所有記錄[{swissprot

swissnew

sptrembl}-des:kinase]表示在SWISS-PROT、SWISSNEW和SPtrEMBL三個數(shù)據(jù)庫中的des域搜索關鍵詞“kinase”

檢索方法(1):快速檢索

操作簡單,檢索數(shù)據(jù)庫有限適用于目標明確的檢索在SRS主頁選擇數(shù)據(jù)庫種類,輸入關鍵詞檢索到的信息目錄,每一條信息與其它數(shù)據(jù)庫的相關信息鏈接查看信息內(nèi)容

檢索方法(2):深入檢索

操作稍微復雜,可以檢索所有數(shù)據(jù)庫適用于范圍廣泛的檢索在SRS主頁點擊“LibraryPage”在“LibraryPage”網(wǎng)頁選擇數(shù)據(jù)庫,然后點擊“QueryForm”在“QueryForm”網(wǎng)頁輸入關鍵詞檢索檢索到的信息目錄,每一條信息與其它數(shù)據(jù)庫的相關信息鏈接序列比對與分子系統(tǒng)發(fā)育分析教學目標:掌握序列比對的概念,序列比對的意義。了解雙序列比對、多序列比對的軟件操作方法及結(jié)果的評估;學習數(shù)據(jù)庫檢索相似序列及序列提交的一般方法;學習并掌握系統(tǒng)發(fā)生的概念、構(gòu)建系統(tǒng)進化樹的方法以及能靈活運用相關的軟件。教學內(nèi)容:用序列搜索數(shù)據(jù)庫(BLAST、FASTA使用);兩兩序列之間的比對;多序列比對;分子系統(tǒng)發(fā)育分析;核苷酸和蛋白質(zhì)序列為基礎的數(shù)據(jù)庫搜索PART1核苷酸和蛋白質(zhì)序列為基礎的數(shù)據(jù)庫檢索

(Sequence-baseddatabasesearching)

序列對位排列(sequencealignment)將兩條或多條序列對位排列,突出相似的結(jié)構(gòu)區(qū)域序列1序列2兩條DNA序列對位排列分析

兩條蛋白質(zhì)序列對位排列分析

分析基因或蛋白質(zhì)的功能分析物種進化檢測突變、插入或缺失序列延長序列定位基因表達譜分析用途序列對位排列分析的種類序列對庫對位排列分析從數(shù)據(jù)庫中尋找同源序列主要涉及核苷酸數(shù)據(jù)庫和蛋白質(zhì)數(shù)據(jù)庫兩序列對位排列分析多序列對位排列分析(一)序列對位排列分析的基本原理1、記分矩陣(scoringmatrix)

記分矩陣中含有兩條序列對位排列時具體使用的分值分數(shù)越高,兩條序列匹配越好DNA序列對位記分矩陣序列1ACGTTAGC序列2ACTTTGGC記分0.90.9-0.10.90.9-0.10.90.9

=5.2蛋白質(zhì)序列對位排列分析記分復雜一致氨基酸的記分不同稀有氨基酸(C、Y),分值高普通氨基酸(S),分值低相似氨基酸也記分,如D-E序列1:TTYGAPPWCS序列2:TGYAPPPWS

*****序列1:TTYGAPPWCS序列2:TGYAPPPWS

*****序列的排列方式影響總分值多種記分矩陣80年代建立的PAM矩陣(如PAM30、PAM70)以后建立的BLOSUM矩陣(如BLOSUM62、BLOSUM80、BLOSUM45)基于更敏感的對位排列分析蛋白質(zhì)序列對位記分序列1VDSCY序列2VESCY記分424972、空位(間隔)罰分(gappenalty)

基因進化過程中產(chǎn)生突變序列對位排列分析時允許插入空位插入缺失空位開放(gapopening)空位延伸(gapextension)蛋白質(zhì)序列對位記分序列1VDS-CY序列2VESLCY記分424-1197acgtatgcatgtacgagctac

acgtatgcagtacgagctac空位罰分涉及兩個參數(shù)acgtatgcatgtacgagctac

acgtatgca-gtacgagctac

BLASTFASTABlitz(二)序列對庫對位排列分析主要檢索體系用待分析序列對數(shù)據(jù)庫進行相似性分析重復許多次的兩兩序列對位排列分析從數(shù)據(jù)庫中找出所有同源序列1、基本概念

(1)Sequenceidentity和sequencesimilarityIdentity:

兩條序列在同一位點上的核苷酸或氨基酸殘基完全相同Similarity(positive):

兩條序列在同一位點上的氨基酸殘基的化學性質(zhì)相似Query:1IGQAQCSTFRGRIYNETNIDSAFATQRQANCP32IGQAQCTF+RIYNET+AFAT+ANCPSbjet:2IGQAQCGTFKDRIYNETTAFATSLRANCP29

序列比對中的相似性與同源性

—同源序列一般是相似的

—相似序列不一定是同源的

—進化趨同(同功能)(2)Globalalignment和

localalignmentQuery

Subject

Query

Subject

Query

Subject

Globalalignment:兩條完整的序列相比較Localalignment:兩條序列中相似程度最高的部分相比較(3)Gappedalignment和

ungappedalignmentQuery

Subject

Query

Subject

Query

Subject

Query

Subject

Gappedalignment:

為達到最佳alignment,序列中加入空位

Ungappedalignment:相比較序列的核苷酸或氨基酸序列連續(xù)

(4)Alignmentscore和

E(expect)value

衡量兩條相比較序列相似程度的標準rawscore:

原始分,分值越大,兩個比較序列相似程度越大bitscore:

采用統(tǒng)計學方法以原始分為基礎計算的Evalue:

期望得到的、完全由機會(錯誤)造成的、相當于或大于目前分值的alignment次數(shù)

E=10,5e-46=5

10-46,E值越小越好

取決于

alignment分值、相比較序列的長短和數(shù)據(jù)庫中數(shù)據(jù)的數(shù)量

(5)Low-complexityregion(LCR)核苷酸和蛋白質(zhì)序列中短的重復序列或由少數(shù)幾種核苷酸或氨基酸殘基組成的序列(如Poly-A)

數(shù)據(jù)庫中半數(shù)以上的序列至少帶有一個LCRSequencealignment時應避免LCR相互配對得分

BLAST用“Filter”功能避免比較LCR

用小寫字母代表LCR中的每個氨基酸殘基或核苷酸

BLAST(BasicLocalAlignmentSearchTool)檢索

http:///BLAST

BLAST分析工具

NucleotideBLAST(blastn等)ProteinBLAST(blastp,PSI-BLAST,PHI-BLAST)TranslatedBLASTSearches(blastx,tblastn,tblastx等)SpecializedBLAST(BLAST2Sequences(bl2seq),conserveddomain,

VecScreen等)經(jīng)常問的問題(FAQs)BLASTprogramblastn

用核苷酸序列檢索核苷酸數(shù)據(jù)庫blastp

用氨基酸序列檢索蛋白質(zhì)數(shù)據(jù)庫blastx

將核苷酸序列通過6種閱讀框翻譯成不同的氨基酸序列檢索蛋白質(zhì)數(shù)據(jù)庫tblastn

將蛋白質(zhì)序列譯成不同的核苷酸序列檢索核苷酸數(shù)據(jù)庫tblastx

將核苷酸序列通過6種閱讀框翻譯成不同的氨基酸序列檢索核苷酸數(shù)據(jù)庫(數(shù)據(jù)庫中的序列也被翻譯出不同的氨基酸序列)

GFCN*FFT*LN?

WLLQLILNLA*C

MASATNSSLSLM?5’ATGGCTTCTGCAACTAATTCTTCACTTAGCTTAATGC3’

3’TACCGAAGACGTTGATTAAGAAGTGAATGCAATTACG5’

?PLQW*NLV*TLA

HSRCSIR*LR*H

?AEAVLEESVNI

Blastx

6種閱讀框架

BLASTdatabase

nr(nucleotideBLAST)

GenBank(無EST,STS,GSS,HTGS)nr(proteinBLAST)

GenBankCDStranslation+PDB+

SwissProt+PIR+PRFGenomicsequence

基因組序列Swissprot

蛋白質(zhì)數(shù)據(jù)庫est

EST

數(shù)據(jù)庫dbsts STS數(shù)據(jù)庫pdb

蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)庫pat

專利的數(shù)據(jù)庫BLASTdatabase(繼續(xù))

Whole-genomeshotgunreads 全基因組shotgun序列Environmentalsamples

環(huán)境樣品gss

GSS

數(shù)據(jù)庫htgs

HTGS

數(shù)據(jù)庫其他數(shù)據(jù)庫

(1)BLASTN

將要查詢的序列直接粘貼到序列框中或輸入登陸號(GI號)選擇database可進行其它項目的選擇用于分析

選擇待分析序列的范圍(Querysubrange)進一步選擇檢索范圍:Entrezquery(如proteaseNOThivI)選擇分析方法(ProgramSelection)選擇是否用新窗口展示分析結(jié)果(Showresultsinanewwindow)轉(zhuǎn)變展示分析結(jié)果的格式默認分析結(jié)果格式點擊“Formattingoptions”,在新網(wǎng)頁選擇變換格式,如:“Pairwisewithdotsforidentities”格式“Query-ancheredwithdotsforidentities”格式可在“Algorithmparameters”欄目中修改參數(shù)不熟悉各種參數(shù)時,使用默認的參數(shù)點擊“Distancetreeofresults”顯示檢索到的序列之間的同源關系

在“Alignments”中選擇檢索到的序列,點擊“Getselectedsequences”獲得序列

(2)BLASTP

基本操作同Blastn

檢索結(jié)果:包括Query序列的保守結(jié)構(gòu)域點擊“Multiplealignment”將檢索到的序列進行多序列排列對比

(3)PSI-BLAST(PositionSpecificIteratedBLAST)search氨基酸序列檢索

重復檢索數(shù)據(jù)庫

被查詢序列(query)

BLASTP標準檢索

alignmentsequences(subject)

第一步

檢索數(shù)據(jù)庫

新的alignmentsequences

第二步

可繼續(xù)檢索循環(huán)

(4)PHI-BLAST(PatternHitInitiatedBLAST)search

蛋白質(zhì)序列,并帶有特殊結(jié)構(gòu)(pattern)

帶有同樣的特殊結(jié)構(gòu)(用“*”標注)這一鄰近的序列與被查詢序列相似

與PSI-BLAST相連,重復檢索

檢索數(shù)據(jù)庫中相似的蛋白質(zhì)

使用的是PROSITE數(shù)據(jù)庫的結(jié)構(gòu)句法(patternsyntax)

可查詢檢測到的特殊結(jié)構(gòu)

如:[IVMF]-G-E-x-[GAS]-[LIVM]-x(5,11)-R-[STAQ](5)

TranslatedBLAST

blastx,tblastn,tblastx

基本操作同Blastn

(6)ConservedDomain

檢索conserveddomaindatabase只適用于蛋白質(zhì)序列的檢索分析檢測被檢索的序列中是否含有保守結(jié)構(gòu)域

點擊“Searchforsimilardomianarchitectures”查看相關結(jié)構(gòu)域

點擊結(jié)構(gòu)域圖標查看多序列對位排列

3、FASTA檢索

http://www.ebi.ac.uk/fasta33/index.html

點擊“VisualFasta”看詳細結(jié)果

Programs

fasta3:用DNA序列檢索核苷酸數(shù)據(jù)庫用氨基酸序列檢索蛋白質(zhì)數(shù)據(jù)庫

fastx3/fasty3:將DNA序列及其互補序列通過不同閱讀框翻譯成不同氨基酸序列檢索蛋白質(zhì)數(shù)據(jù)庫

結(jié)果匯總表

4、Blitz檢索http://www.ebi.ac.uk/searches/blitz.html

BLAST和FASTA檢索體系有時不能檢測出某些遠緣序列的相關性Blitz檢索體系在發(fā)現(xiàn)家族成員方面比其它兩種檢索體系更可靠速度慢,最好使用email服務檢索方法:通過email服務在分析主頁的“RESULTS”欄目選擇“email”、輸入email地址、粘貼待分析的序列email服務被接收

在Blitz主頁選擇“MPsrch4”或“ScanPS”(三)兩序列對位排列分析兩序列全局對位排列分析對位排列貫穿整條序列長度兩序列局部對位排列分析兩序列相似性最大區(qū)段的對位排列分析(1)BLAST2sequences(bl2seq)

NCBI的分析工具對任意兩條序列進行對位排列分析允許空位在BLAST主頁的“SpecializedBLAST”欄目中點擊“Align”進入Bl2seq的分析網(wǎng)頁

序列來源

輸入Accessionnumber

直接粘貼序列

適用于blastn,blastp,blastx,tblastn,tblastx

blastn:兩條核苷酸序列相比較blastp:兩條蛋白質(zhì)序列相比較tblastn:比較蛋白質(zhì)序列(翻譯成核苷酸序列)(sequence1)和核苷酸序列(sequence2)blastx:比較核苷酸序列(翻譯成蛋白質(zhì)序列)(sequence1)和蛋白質(zhì)序列(sequence2)tblastx:兩條核苷酸序列(翻譯成蛋白質(zhì)序列)比較

結(jié)果格式

兩種圖形兩序列對位排列

21(2)Globalalignmentprogram(GAP)

http:///

http://www.ebi.ac.uk/Tools/emboss/align

對兩條或多條DNA序列或氨基酸序列進行對位排列分析允許空位可選擇不同的記分矩陣可進行全長序列(global)或序列片段(local)的對位排列分析有的分析軟件對提交的序列有格式要求,如FASTA格式>sequence1ATTGCAGTTCGCA……>sequence2ATAGCACATCGCA……

結(jié)果網(wǎng)頁

(四)利用BLAST方法分析miRNA

利用miRBase數(shù)據(jù)庫(http://microrna.sanger.ac.uk/sequences/index.shtml)在數(shù)據(jù)庫主頁點擊“searching”在miRBase::Sequences網(wǎng)頁的“Bysequence”欄目粘貼序列(小于1000

bp),在“Searchsequences”欄目中選擇檢索“MaturemiRNAs”或“Stem-loopsequences”,點擊“SearchmiRNAs”檢索結(jié)果

分析RNA或DNA的二級結(jié)構(gòu)

(http://rna.tbi.univie.ac.at/cgi-bin/RNAfold.cgi

)在“RNAfold

WebServer”網(wǎng)站粘貼序列

判斷是否可能是hairpinprecursormiRNA

分析結(jié)果

不同圖示展示結(jié)果序列比對PART2為什么要序列比對?基于同源物鑒定的功能預測基本假設:序列的保守性功能的保守性注意:1.蛋白質(zhì)一般在三級結(jié)構(gòu)的層面上執(zhí)行功能;2.蛋白質(zhì)序列的保守性決定于其編碼DNA的保守性;序列同源性模型中的進化假設1.所有的生物都起源于同一個祖先;2.序列不是隨機產(chǎn)生,而是在進化上,不斷發(fā)生著演變;3.基本假設:序列保守性結(jié)構(gòu)保守性注意:反之可以不為真。

結(jié)構(gòu)保守性序列保守性同源物的定義

Ortholog(直系同源物):兩個基因通過物種形成的事件而產(chǎn)生,或源于不同物種的最近的共同祖先的兩個基因,或者兩個物種中的同一基因,一般具有相同的功能。

Paralog(旁系同源物):兩個基因在同一物種中,通過至少一次基因復制的事件而產(chǎn)生。

Xenolog(異同源物):由某一個水平基因轉(zhuǎn)移事件而得到的同源序列。直系同源物:物種形成旁系同源物:基因復制序列聯(lián)配(比對)序列比對又稱為序列聯(lián)配,是指用某種特定的數(shù)學模型與算法,找出兩個或多個序列之間的最大匹配堿基與殘基,盡可能客觀的反映它們之間的相似與相異,從而進一步判斷它們之間是否同源。序列比對的定義用于描述一組序列之間的相似性關系,以便了解一個基因家族的基本特征,尋找motif,保守區(qū)域等。用于描述一個同源基因之間的親緣關系的遠近,應用到分子進化分析中。其他應用,如構(gòu)建profile,打分矩陣等。序列比對的作用手工比對輔助編輯軟件如bioedit,seaview,Genedoc等通過輔助軟件的不同顏色顯示不同殘基,靠分析者的觀察來改變比對的狀態(tài)。計算機程序自動比對通過特定的算法(如同步法,漸進法等),由計算機程序自動搜索最佳的多序列比對狀態(tài)。多序列比對的方法幾種序列比對的方式兩條序列比對多重序列比對(同時比對多條序列)

簡單比對(考慮匹配與失配的打分,不考慮空分)全局比對(考慮空位,考慮匹配與失配的打分與空位罰分)局部比對(重點考慮局部相似性)兩條序列的比對—簡單比對兩條序列的比對—打分矩陣種情況兩條序列的比對—全局比對全局比對初始化全局比對--初始化條件全局比對示例—計分矩陣元素值的計算全局比對示例--初始化得分表全局比對示例—反推(回溯)最優(yōu)路徑全局比對示例—最優(yōu)路徑的意義有多種最優(yōu)方案的全局比對–計算例2:序列1=CAGTT,序列2=ACGCTG;打分函數(shù):匹配2、失配-1、空位-1有多種最優(yōu)方案的全局比對–回溯序列CATGT與序列ACGCTG的3種最優(yōu)全局比對結(jié)果序列局部比對

只考慮序列部分區(qū)域的相似性就是局部比對(localalignment);

有些同源序列雖然全序列的相似性很小,但是存在高度相似的局部區(qū)域;這些局部序列相似性比對往往比全序列比對具有更高的靈敏度,通過局部的相似性的比對,則可能會發(fā)現(xiàn)重要的比對信息,其結(jié)果更具生物學意義。局部序列的動態(tài)規(guī)劃算法局部序列比對的集中算法BLAST算法的運算過程算法的運算過程簡單描述為:1)從兩個序列中找出一些長度相等且可以形成無空位完全匹配的序列片段對;2)找出兩個序列之間所有匹配程度超過一定閾值的序列片段對;3)將得到的序列片段對根據(jù)給定的相似性閾值延伸,得到一定長度的高分值片段對。多重序列比對多重序列比對采用的算法PairwisesequencealignmentprogramsHowtogetmultiplesequences?SequenceBLASTProgram多序列比對的軟件GenedocClustalXClustalWAlignX多序列比對的軟件序列的輸入序列alignment

格式調(diào)節(jié)輸出到繪圖內(nèi)編輯GenedocAlignmentofA.ferrooxidansSODproteinanditsorthologs.

Atf27230:A.ferrooxidans

ATCC27230,

De195:Dehalococcoides

ethenogenes

195Gspca:

Geobacter

sulfurreducens

PCA,Tad1728:Thermoplasma

acidophilum

DSM1728.Identicalresidueshavebeenboxedandareshadedindark.

SequencealignmentofHomosapiensSgt1.2withitsfivehomologousproteins.Numbersontherightrefertothelastaminoacidineachcorrespondingline.Residuesindicatedwithdarkshadingareidenticalaminoacids.Greyshadingrepresents80-90%similarityandlightgreymeans60-70%similarity.

SequencealignmentofS_TKcdomainofPXK_v1withconsensusS_TKcdomain.Identicalresiduesarerepresentedinblackandsimilarresiduesingray.ThesubdomainsoftheS_TKcdomainareindicatedwithRomannumerals.Asterisksdenotetheindispensableresiduesoflysine,glutamineandasparticacidinconsensusS_TKcdomain.CLUSTAL是一種漸進的比對方法,先將多個序列兩兩比對構(gòu)建距離矩陣,反應序列之間兩兩關系;然后根據(jù)距離矩陣計算產(chǎn)生系統(tǒng)進化指導樹,對關系密切的序列進行加權(quán);然后從最緊密的兩條序列開始,逐步引入臨近的序列并不斷重新構(gòu)建比對,直到所有序列都被加入為止。Clustal簡介序列的輸入序列alignmentClustalClustal輸入多個序列快速的序列兩兩比對,計算序列間的距離,獲得一個距離矩陣。鄰接法(NJ)構(gòu)建一個樹(引導樹)根據(jù)引導樹,漸進比對多個序列。Clustal的工作原理1.輸入輸出格式。輸入序列的格式比較靈活,可以是前面介紹過的FASTA格式,還可以是PIR、SWISS-PROT、GDE、Clustal、GCG/MSF、RSF等格式。輸出格式也可以選擇,有ALN、GCG、PHYLIP和NEXUS等,用戶可以根據(jù)自己的需要選擇合適的輸出格式Clustal的應用2.兩種工作模式。

a.多序列比對模式。

b.剖面(profile)比對模式。3.一個實際的例子。Clustal的應用Clustalx的工作界面

(剖面(profile)比對模式)多序列比對實例輸入文件的格式(fasta):>KCC2_YEASTNYIFGRTLGAGSFGVVRQARKLSTN……>DMK_HUMANDFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMNK…….>KPRO_MAIZETRKFKVELGRGESGTVYKGVLEDDRHVAVKKLEN……>DAF1_CAEELQIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALD……>1CSNHYKVGRRIGEGSFGVIFEGTNLLNN……第一步:輸入序列文件。第二步:設定比對的一些參數(shù)。參數(shù)設定窗口第三步:開始序列比對。第四步:比對完成,選擇保存結(jié)果文件的格式ClustalX生成.dnd和.aln兩個文件,可用文本編輯器打開來看,這時.aln文件,這個文件可以用Mega做進一步的bootstrap進化樹分析Clustalx生成的樹用treeview(專門看樹的軟件)就可以打開這個dnd文件.序列的輸入序列alignmentClustalWHttp://www.ebi.ac.uk/clustalv序列的輸入序列alignment

結(jié)果的編輯(Metafile;text)AlignXMultiplesequencealignmentprograms新基因的鑒定蛋白序列特殊氨基酸殘基分析系統(tǒng)發(fā)育分析PART3

CharlesDarwin(1809-1882)達爾文與貝格爾號旅行《物種起源》因為達爾文的緣故,后世很多科幻小說把接觸地外生命的任務交給一艘叫做貝克爾號的飛船。歐航局的火星著落器叫做貝克爾2號.可惜墜落在火星表面中喙地雀,加拉帕戈斯群島上的一種達爾文雀。基本概念:系統(tǒng)發(fā)生(phylogeny)——是指生物形成或進化的歷史;系統(tǒng)發(fā)生學(phylogenetics)——研究物種之間的進化關系;系統(tǒng)發(fā)生樹(phylogenetictree)——表示形式,描述物種之間進化關系;系統(tǒng)發(fā)生與系統(tǒng)發(fā)生樹Willi

Hennig(1913-1976)系統(tǒng)發(fā)生學(分支學)創(chuàng)始人基本概念:分子系統(tǒng)學——是比較3個或者更多個基因組之間的序列,揭示它們的進化關系的學科;分類學有2個學派:表征學、分子系統(tǒng)學

它們都主張分類應包括眾多的特征,并采用嚴格的數(shù)學方法進行計分分類;表征學:采用的資料來自于所比較物種的不同特征,最初采用的是形態(tài)學特征;表征學將生物歸入一系列不同等級的分類目錄:界、門、綱、目、科、屬、種這一等級制度,被稱之為“生命之樹”;經(jīng)典系統(tǒng)發(fā)生學 主要是物理或表型特征 如生物體的大小、顏色、觸角個數(shù)

現(xiàn)代系統(tǒng)發(fā)生學 利用從遺傳物質(zhì)中提取的信息作為物種特征 具體地說就是核酸序列或蛋白質(zhì)分子關于現(xiàn)代人起源的研究:

線粒體DNA ——所有現(xiàn)代人都是一個非洲女性的后代現(xiàn)代系統(tǒng)發(fā)生學采用DNA或者蛋白質(zhì)作為分類特征,有許多優(yōu)點:許多分子特征可以同時標記,例如某些遺傳標記、分子標記等分子特征的狀態(tài)清晰;分子資料便于轉(zhuǎn)化為數(shù)字形式,可進行修正和統(tǒng)計分析;方法:免疫學資料;蛋白質(zhì)電泳;

DNA-DNA雜交數(shù)據(jù);

DNA序列和RFLP、SSLP、SNP等DNA標記;系統(tǒng)發(fā)生學的主要目標:找出一顆能夠正確反映物種或基因(蛋白質(zhì))進化以及基因和蛋白質(zhì)序列關系的系統(tǒng)發(fā)生樹;推斷不同生物體或基因(蛋白質(zhì))從它們上一級基因祖先開始分化的具體時間;表型分枝圖(phenogram)進化分枝圖(cladogram)有根樹無根樹系統(tǒng)發(fā)生樹表型分枝圖(phenogram)進化分枝圖(cladogram)分類單元(物種或序列)物種之間的進化關系

如果是一棵有根樹,則樹根代表在進化歷史上是最早的、并且與其它所有分類單元都有聯(lián)系的分類單元;如果找不到可以作為樹根的單元,則系統(tǒng)發(fā)生樹是無根樹;從根節(jié)點出發(fā)到任何一個節(jié)點的路徑指明進化時間或者進化距離。系統(tǒng)發(fā)生樹的性質(zhì)進化樹的構(gòu)建是一個統(tǒng)計學問題。我們所構(gòu)建出來的進化樹只是對真實的進化關系的評估或者模擬。如果我們采用了一個適當?shù)姆椒?,那么所?gòu)建的進化樹就會接近真實的“進化樹”。模擬的進化樹需要一種數(shù)學方法來對其進行評估。不同的算法有不同的適用目標。系統(tǒng)發(fā)生樹的構(gòu)建對于給定的分類單元數(shù),有很多棵可能的系統(tǒng)發(fā)生樹,但是只有一棵樹是正確的。

系統(tǒng)發(fā)生分析的目標

——尋找這棵正確的樹(1)選擇可供分析的序列;(2)同源蛋白質(zhì)或者核苷酸序列的多重序列比對;(3)構(gòu)建系統(tǒng)發(fā)生樹;(4)評價所建立的樹;系統(tǒng)發(fā)生分析步驟離散特征數(shù)據(jù):它提供了基因、個體、群體或物種的信息;相似性和距離數(shù)據(jù):它涉及的則是成對基因、個體、群體或物種的信息系統(tǒng)發(fā)生樹的類型選擇可供分析的序列(DNAVS氨基酸?)不同的觀點:

支持DNA序列的觀點:支持氨基酸序列的觀點:研究DNA比研究氨基酸獲得更加豐富的信息量;

5UTR等非編碼區(qū)域可能被用于分子系統(tǒng)發(fā)生分析;編碼氨基酸的那部分DNA可以發(fā)生同義或者非同義的替換事件;堿基轉(zhuǎn)換或顛換的速率能夠被估算;氨基酸比核苷酸具有更多的特征數(shù)據(jù)(20:4);許多氨基酸有相似的物理化學性質(zhì)(如賴氨酸和精氨酸都屬于堿性氨基酸)在比對時可以用打分系統(tǒng)來描述這些相關(但不匹配)的氨基酸之間的重要相關性;更低的氨基酸替換率使其更加應用于廣泛分化的物種;首先我們選擇可供分析的序列:在NCBI數(shù)據(jù)庫中利用BLAST程序,搜索與目標序列同源的序列;選擇并下載可供分析的序列,并將序列改成fasta格式,保存為.txt文件;(選擇mRNA或者cDNA序列,而不選擇基因組序列;選擇e值較低的序列(e小于10-5);利用NCBI或其他預測軟件找到序列對應的編碼區(qū),或者稱之為尋找ATG,然后去掉每條序列ATG前的序列;翻譯為氨基酸;整理到一個文件中并保存;利用CLUSTALX/CLUSTALW進行多序列比較、去除雷同的序列;多序列比對的方法:手工比對(輔助編輯軟件包括:BioEdit和Seqalign)通過輔助軟件的不同顏色顯示不同殘基,依靠分析者的觀察來改變比對的狀態(tài);計算機程序自動比對(軟件包括CLUSTALX和CLUSTALW)通過特定的算法(如同步法、漸進法等)由計算機程序自動搜索最佳的多序列比對狀態(tài);用來構(gòu)建系統(tǒng)發(fā)生樹的數(shù)據(jù):距離數(shù)據(jù)(distancedata)或相似性數(shù)據(jù)(similaritydata),常用距離矩陣來描述,表示兩個數(shù)據(jù)集之間的所有的兩兩差異;特征數(shù)據(jù)(characterdata),data),它提供了基因、個體、群體或物種的信息;二態(tài)特征:只有兩種可能的狀況,即具有或者不有某種特征,通常用“0”或者“1”表示;多態(tài)特征:具有兩種以上可能的狀況,如核酸的序列信息,對序列中某一位置來說,其可能的堿基有A、G、C、T系統(tǒng)發(fā)生樹的構(gòu)建方法:基于距離的主要構(gòu)建方法:鄰近歸并法(neighbor-joiningmethod,鄰接法)、最小進化法、非加權(quán)組平均法(UPGMA法);基于特征的主要構(gòu)建方法:最大簡約法(MP法)、進化簡約法、最大似然法(ML法)、貝葉斯方法;1.ClustalX+Treeview2.Mega33.Phylip4.Paup常用的軟件http:///mega.html進化樹的評估選擇計算參數(shù)DistanceOptions標簽頁中的Models可以下拉,其中有若干個計算距離的方法可以選擇,在此默認泊松校驗(Pois

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論