序列比對與算法_第1頁
序列比對與算法_第2頁
序列比對與算法_第3頁
序列比對與算法_第4頁
序列比對與算法_第5頁
已閱讀5頁,還剩109頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

關(guān)于序列比對與算法第一頁,共一百一十四頁,編輯于2023年,星期一第一節(jié)雙序列比對第二頁,共一百一十四頁,編輯于2023年,星期一31.序列比對基本概念2.空位罰分3.雙序列比對方法點陣序列比較(DotMatrixSequenceComparison)動態(tài)規(guī)劃算法(DynamicProgrammingAlgorithm)4.記分矩陣第三頁,共一百一十四頁,編輯于2023年,星期一41.什么是序列比對?

序列比對(SequenceAlignment)是通過在序列中搜索一系列單個性狀或性狀模式來比較2個(雙序列比對)或更多(多重序列比對)序列的方法。按比對序列條數(shù)分類雙序列比對:兩條序列的比對多序列比對:三條或以上序列的比對第四頁,共一百一十四頁,編輯于2023年,星期一51.我們?yōu)槭裁搓P(guān)注序列比對?相似的序列可能具有相似的功能與結(jié)構(gòu);發(fā)現(xiàn)一個基因或蛋白哪些區(qū)域容易發(fā)生突變,哪些位點突變后對功能沒有影響;發(fā)現(xiàn)生物進(jìn)化方面的信息。第五頁,共一百一十四頁,編輯于2023年,星期一61.序列比對兩種類型全局序列比對定義:在全局范圍內(nèi)對兩條序列進(jìn)行比對打分的方法。適合于非常相似且長度近似相等的序列。局部序列比對定義:一種尋找匹配子序列的序列比對方法。適合于一些片段相似而另一些片段相異的序列。第六頁,共一百一十四頁,編輯于2023年,星期一71.序列比對兩種類型第七頁,共一百一十四頁,編輯于2023年,星期一82.空位罰分(GapPenalties)空位為了獲得兩個序列最佳比對,必須使用空位和空位罰分。空位罰分分類:空位開放罰分(Gapopeningpenalty)空位擴展罰分(Gapextensionpenalty)最優(yōu)的序列比對通常具有以下兩下特征:盡可能多的匹配盡可能少的空位插入任意多的空位會產(chǎn)生較高的分?jǐn)?shù),但找到的并不一定是真正相似序列。第八頁,共一百一十四頁,編輯于2023年,星期一91GTGATAGACAC|||1GTGCATAGACAC

2.空位罰分允許空位但不罰分

不允許有空位

match=5mismatch=-41GTG-ATAGACAC|||||||||||1GTGCATAGACAC

1GTG--ATAGACAC|||||||||||1GTGC-ATAGACAC

?Score:-21Score:55第九頁,共一百一十四頁,編輯于2023年,星期一102.空位罰分公式

ATGTTATACTATGTGCGTATA

Score=4參數(shù):匹配=1非匹配=0g=3 r=0.1 x=3

score:8-3.2=4.8

Wx=g+r(x-1)Wx: 空位總記分g: 空位開放罰分r: 空位擴展罰分x: 空位長度TATGTGCGTATA

insertion/deletionATGT---TATACWx=3+0.1*(3-1)=3.2第十頁,共一百一十四頁,編輯于2023年,星期一113.雙序列比對方法點陣序列比較(DotMatrixSequenceComparison)動態(tài)規(guī)劃算法(DynamicProgrammingAlgorithm)詞或K串方法(WordorK-tupleMethods)第十一頁,共一百一十四頁,編輯于2023年,星期一123.1點陣序列比較點陣(DotMatrix)分析是一種簡單的圖形顯示序列相似性的方法。沿X軸上序列1中的每一個單元(核苷酸或氨基酸)與沿Y軸的第二個序列中的每一個單元進(jìn)行比較,相同的區(qū)域在點陣圖中顯示為由點組成的對角線,對角線之外零散的點為背景噪音。第十二頁,共一百一十四頁,編輯于2023年,星期一IONIZATIONIONIZATION第十三頁,共一百一十四頁,編輯于2023年,星期一14點陣分析的應(yīng)用自身比對尋找序列中的正向或反向重復(fù)序列蛋白質(zhì)的重復(fù)結(jié)構(gòu)域(domain)相同殘基重復(fù)出現(xiàn)的低復(fù)雜區(qū)(LowComplexity)RNA二級結(jié)構(gòu)中的互補區(qū)域等對兩條序列的相似性作整體的估計第十四頁,共一百一十四頁,編輯于2023年,星期一點陣分析中的插入或刪除TACTGTCAT

TACTGTTCATSequence1Sequence2TACTG

-

TCAT|||||||||TACTGTTCAT插入空位第十五頁,共一百一十四頁,編輯于2023年,星期一16點陣分析的應(yīng)用人類低脂受體(humanlow-densitylipoproteinreceptor)自身比對發(fā)現(xiàn)正向重復(fù)序列具有連續(xù)相似區(qū)域的兩條DNA序列的簡單點陣圖正向重復(fù)第十六頁,共一百一十四頁,編輯于2023年,星期一17點陣分析實例編碼噬菌體λcⅠ(水平軸)和噬菌體P22c2(垂直軸)的氨基酸序列間的點陣分析相同的點全部打印,很難找到有用的信息第十七頁,共一百一十四頁,編輯于2023年,星期一18使用滑動窗口技術(shù)降低噪聲TACGGTATGACAGTATCTACGGTATG

ACAGTATCTACGGTATG

ACAGTATCTACGGTATG

ACAGTATCC

T

A

T

G

A

C

A

T A C G G T A T GWindow=3WordSize=3第十八頁,共一百一十四頁,編輯于2023年,星期一19ATACTACAAGACACGTACCGGCGATGCATTGAGTATCATAWindowsize=5Stringency=3Match=1Mismatch=0第十九頁,共一百一十四頁,編輯于2023年,星期一20ATACTACAAGACACGTACCGGCGATGCATTGAGTATCATAWindowsize=5Stringency=3Match=1Mismatch=0第二十頁,共一百一十四頁,編輯于2023年,星期一21ATACTACAAGACACGTACCGGCGATGCATTGAGTATCATAWindowsize=5Stringency=3Match=1Mismatch=0第二十一頁,共一百一十四頁,編輯于2023年,星期一22GCGATGCATTGAGTATCATAATACTACAAGACACGTACCGWindowsize=5Stringency=3Match=1Mismatch=0第二十二頁,共一百一十四頁,編輯于2023年,星期一23GCGATGCATTGAGTATCATAATACTACAAGACACGTACCG第二十三頁,共一百一十四頁,編輯于2023年,星期一24GCGATGCATTGAGTATCATAATACTACAAGACACGTACCG第二十四頁,共一百一十四頁,編輯于2023年,星期一使用滑動窗口技術(shù)降低噪聲(a)對人類(Homosapiens)與黑猩猩(Pongopygmaeus)的β球蛋白基因序列進(jìn)行比較的完整點陣圖(b)利用滑動窗口對以上的兩種球蛋白基因序列進(jìn)行比較的點陣圖,其中窗口大小為10個核苷酸,相似度閾值為8,即10個核苷酸中有8個相同時就打一個點ab第二十五頁,共一百一十四頁,編輯于2023年,星期一26點陣分析的優(yōu)缺點優(yōu)點直觀性,整體性;點陣分析不依賴空位(gap)參數(shù),可尋找兩序列間所有可能的殘基匹配;不依賴任何先決條件,是一種可用于初步分析的理想工具;點陣分析允許隨時動態(tài)地改變最高和最低界限值,可以用來摸索區(qū)分信號和背景標(biāo)準(zhǔn)的嚴(yán)格程度。第二十六頁,共一百一十四頁,編輯于2023年,星期一27點陣分析的優(yōu)缺點缺點不能很好地兼容打分矩陣;滑動窗口和域值的選擇過于經(jīng)驗化;信噪比低;不適合進(jìn)行高通量的數(shù)據(jù)分析。第二十七頁,共一百一十四頁,編輯于2023年,星期一28點陣分析程序DNAStrider(Macintosh)/soft.htm

Dotter(Unix/Linux,X-Windows)COMPARE,DOTPLOT(GCG軟件)PLALIGN(FASTA)Dotlethttp://www.isrec.isb-sib.ch/java/dotlet/Dotlet.html第二十八頁,共一百一十四頁,編輯于2023年,星期一293.2動態(tài)規(guī)劃算法動態(tài)規(guī)劃算法(DynamicProgrammingAlgorithm)是一種計算方法,它的主要思路是把一個問題分成若干個小問題來解決。在生物學(xué)中應(yīng)用的兩種動態(tài)規(guī)劃算法:Needleman-Wunsch算法(全局比對)和Smith-Waterman算法(局部比對)。第二十九頁,共一百一十四頁,編輯于2023年,星期一30序列比對中某一位點匹配的三種可能性Eg.匹配=1,非匹配=0,空位罰分=-1Sequence1:CACGASequence2:CGA第一個位點得分剩余序列CC+1ACGAGA-C-1CACGAGAC--1ACGACGA第三十頁,共一百一十四頁,編輯于2023年,星期一31動態(tài)規(guī)劃算法的數(shù)學(xué)形式Sij=max{Si-1,j-1,+s(aibj),

max

x≥1(Si-x,j-wx),

max

y≥1(Si,j-y-wy)

}Sij=max{Si-1,j-1,+s(aibj),

max

x≥1(Si-1,j-wx),max

y≥1(Si,j-1-wy)

}公式一的簡化公式一公式二說明:Sij是序列a在位置i和序列b在位置j的分值,s(aibj)是位置i和j上比對分值,wx是在序列a中長度為x的間隔罰分,wy是序列b中長度為y的間隔罰分第三十一頁,共一百一十四頁,編輯于2023年,星期一32動態(tài)規(guī)劃算法實例ACTTCGACTAG匹配=3錯配=-1空位=-2第三十二頁,共一百一十四頁,編輯于2023年,星期一33ACTTCG0ACTAG動態(tài)規(guī)劃算法實例匹配=3錯配=-1空位=-2第三十三頁,共一百一十四頁,編輯于2023年,星期一34ACTTCG0-2ACTAG動態(tài)規(guī)劃算法實例匹配=3錯配=-1空位=-2第三十四頁,共一百一十四頁,編輯于2023年,星期一35ACTTCG0-2-4-6-8-10-12ACTAG動態(tài)規(guī)劃算法實例匹配=3錯配=-1空位=-2第三十五頁,共一百一十四頁,編輯于2023年,星期一36ACTTCG0-2-4-6-8-10-12A-2CTAG動態(tài)規(guī)劃算法實例匹配=3錯配=-1空位=-2第三十六頁,共一百一十四頁,編輯于2023年,星期一37ACTTCG0-2-4-6-8-10-12A-2C-4T-6A-8G-10動態(tài)規(guī)劃算法實例?S(2,2)-2+(-2)-2+(-2)0+3匹配=3錯配=-1空位=-2第三十七頁,共一百一十四頁,編輯于2023年,星期一38ACTTCG0-2-4-6-8-10-12A-23C-4T-6A-8G-10動態(tài)規(guī)劃算法實例?S(2,3)-4+(-2)3+(-2)-2+(-1)匹配=3錯配=-1空位=-2第三十八頁,共一百一十四頁,編輯于2023年,星期一39動態(tài)規(guī)劃算法實例ACTTCG0-2-4-6-8-10-12A-231C-4T-6A-8G-10匹配=3錯配=-1空位=-2第三十九頁,共一百一十四頁,編輯于2023年,星期一40動態(tài)規(guī)劃算法實例ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-14?A-8-32G-10-50S(4,4)4+(-2)4+(-2)6+3匹配=3錯配=-1空位=-2第四十頁,共一百一十四頁,編輯于2023年,星期一41動態(tài)規(guī)劃算法實例ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-149A-8-32G-10-50匹配=3錯配=-1空位=-2第四十一頁,共一百一十四頁,編輯于2023年,星期一ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-149753A-8-327864G-10-505679GGT-CATTCCAA回溯第四十二頁,共一百一十四頁,編輯于2023年,星期一ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-149753A-8-327864G-10-505679GGT-CATTCCAA第四十三頁,共一百一十四頁,編輯于2023年,星期一ACTTCG0-2-4-6-8-10-12A-231-1-3-5-7C-416420-2T-6-149753A-8-327864G-10-505679GGTAC-TTCCAA第四十四頁,共一百一十四頁,編輯于2023年,星期一45比對結(jié)果1. ACTTCG AC-TAG2. ACTTCG ACT-AG3. ACTTCG ACTA-G哪一個是最優(yōu)比對(optimalalignment)呢?記分矩陣第四十五頁,共一百一十四頁,編輯于2023年,星期一46記分矩陣與空位罰分DNA計分矩陣蛋白質(zhì)計分矩陣廣泛使用的兩種矩陣

PAMBLOSUM空位罰分第四十六頁,共一百一十四頁,編輯于2023年,星期一47DNA計分矩陣actaccagttcatttgatacttctcaaataccattaccgtgttaactgaaaggacttaaagactSequence1Sequence2

A G C TA

1 0 0 0G 0 1 0 0C 0 0 1 0T 0 0 0 1匹配:1錯配:0分值:5第四十七頁,共一百一十四頁,編輯于2023年,星期一48轉(zhuǎn)換和顛換CTAG嘧啶嘌呤表示轉(zhuǎn)換(transition),表示顛換(transversions)轉(zhuǎn)換比顛換更容易發(fā)生第四十八頁,共一百一十四頁,編輯于2023年,星期一轉(zhuǎn)換和顛換AGTCA0.99G0.0060.99T0.0020.0020.99C0.0020.0020.0060.99轉(zhuǎn)換速率是顛換3倍時的模型第四十九頁,共一百一十四頁,編輯于2023年,星期一蛋白質(zhì)計分矩陣PTHPLASKTQILPEDLASEDLTIPTHPLAGERAIGLARLAEEDFGMSequence1Sequence2記分矩陣T:G =-2T:T =5Score =48 C S T P A G N D

. .C 9 S -1 4T -1 1 5P -3 -1 -1 7A 0 1 0 -1 4G -3 0 -2 -2 0 6N -3 1 0 -2 -2 0 5D -3 0 -1 -1 -2 -1 1 6.. C S T P A G N D

. .C 9 S -1 4T -1 1 5P -3 -1 -1 7A 0 1 0 -1 4G -3 0 -2 -2 0 6N -3 1 0 -2 -2 0 5D -3 0 -1 -1 -2 -1 1 6..第五十頁,共一百一十四頁,編輯于2023年,星期一51PAM(PercentAcceptedMutation)矩陣氨基酸容易被其它生化、物理特性相似的氨基酸替換。PAM1(1個PAM單位)被定義為每100個殘基出現(xiàn)一個被接受的點突變(氨基酸的置換不引起蛋白質(zhì)功能上的顯著變化)。PAMn是PAM1自乘n次。PAM250、PAM120、PAM80和PAM60矩陣可用于相似性分別為20%、40%、50%和60%的序列比對。第五十一頁,共一百一十四頁,編輯于2023年,星期一

ARNDCQEGHILKMFPSTWYVBZA2-200-2001-1-1-2-1-1-3111-6-3021R-260-1-41-1-32-2-330-400-12-4-212N0022-41102-2-31-2-3010-4-2-243D0-124-52311-2-40-3-6-100-7-4-254C-2-4-4-512-5-5-3-3-2-6-5-5-4-30-2-80-2-3-4Q0112-542-13-2-21-1-50-1-1-5-4-235E0-113-52401-2-30-2-5-100-7-4-245G1-301-3-105-2-3-4-2-3-5010-7-5-121H-1221-331-26-2-20-2-20-1-1-30-233I-1-2-2-2-2-2-2-3-252-221-2-10-5-14-1-1L-2-3-3-4-6-2-3-4-226-342-3-3-2-2-12-2-1K-1310-510-20-2-350-5-100-3-4-222M-10-2-3-5-1-2-3-224060-2-2-1-4-22-10F-3-4-3-6-4-5-5-5-212-509-5-3-307-1-3-4P100-1-30-100-2-3-1-2-5610-6-5-111S10100-101-1-1-30-2-3121-2-3-121T1-100-2-100-10-20-1-3013-5-3021W-62-4-7-8-5-7-7-3-5-2-3-40-6-2-5170-6-4-4Y-3-4-2-40-4-4-50-1-1-4-27-5-3-3010-2-2-3V0-2-2-2-2-2-2-1-242-22-1-1-10-6-2400B2145-33423-1-22-1-3122-4-2065Z1234-45513-1-120-4111-4-3056

PAM250第五十二頁,共一百一十四頁,編輯于2023年,星期一

模塊替換矩陣BLOSUM以序列片段為基礎(chǔ),它是基于蛋白質(zhì)模塊(Block)數(shù)據(jù)庫而建立起來的

在模塊比對的每一列中,分別計算兩兩氨基酸的變化情況,來自所有模塊的數(shù)值被用來計算BLOSUM矩陣矩陣后面的數(shù)字表示構(gòu)建此矩陣所用的序列的相似程度,如BLOSUM62表示由相似度為62%的序列構(gòu)建AACECA-C=0A-E=-1C-E=-4A-A=4C-C=9AACECBLOSUM矩陣

(BlocksSubstitutionMatrix)

第五十三頁,共一百一十四頁,編輯于2023年,星期一54BLOSUM62

第五十四頁,共一百一十四頁,編輯于2023年,星期一55如何選擇合適的評分矩陣?

一般來說,在局部相似性搜索上,BLOSUM矩陣較PAM要好當(dāng)比較距離相近的蛋白時,應(yīng)選擇低的PAM或高的BLOSUM矩陣;當(dāng)比較距離較遠(yuǎn)的蛋白時,應(yīng)選擇高的PAM或低的BLOSUM矩陣。對于數(shù)據(jù)庫搜索來說一般選擇BLOSUM62矩陣PAM矩陣可用于尋找蛋白質(zhì)的進(jìn)化起源,BLOSUM矩陣用于發(fā)現(xiàn)蛋白質(zhì)的保守域第五十五頁,共一百一十四頁,編輯于2023年,星期一564.相似性與同源性同源性(HomologousGenes):序列來自共同的祖先,相似的序列往往具有同源性。相似性(Similarity):兩序列根據(jù)某種參數(shù)設(shè)定而表現(xiàn)出來的相近性。第五十六頁,共一百一十四頁,編輯于2023年,星期一57相似性與同源性的區(qū)別相似的序列并不一定同源;相似性是可以被量化的“計分表”,它是匹配的數(shù)量除以比對的長度,通常以百分比%表示;同源性一定是指序列來自共同的祖先;同源性是一個定性的概念,不能使用序列間具有百分之多少同源性來定義。第五十七頁,共一百一十四頁,編輯于2023年,星期一58同源性分類直系同源(Orthologs):具有共同祖先與相似功能的同源基因(無基因復(fù)制事件)。旁系同源(Paralogs):兩個物種A和B的同源基因,分別是共同祖先基因組中由復(fù)制事件而產(chǎn)生的不同拷貝的后代。第五十八頁,共一百一十四頁,編輯于2023年,星期一59Sothismeans…第五十九頁,共一百一十四頁,編輯于2023年,星期一第二節(jié)多序列比對

(MultipleAlignments)第六十頁,共一百一十四頁,編輯于2023年,星期一尋找蛋白質(zhì)家族,識別多個序列的保守區(qū)域;相似的蛋白質(zhì)序列往往具有相似的結(jié)構(gòu)與功能;輔助預(yù)測新序列的二級或三級結(jié)構(gòu);可以直觀地看到基因的哪些區(qū)域?qū)ν蛔兠舾校籔CR引物設(shè)計;我們?yōu)槭裁醋龆嘈蛄斜葘?第六十一頁,共一百一十四頁,編輯于2023年,星期一分析多個序列的一致序列;用于進(jìn)化分析,是用系統(tǒng)發(fā)育方法構(gòu)建進(jìn)化樹的初使步驟;尋找個體之間單核苷酸多態(tài)性(SNPs);通過序列比對發(fā)現(xiàn)直系同源(Orthologs)與旁系同源(Paralogs)基因;尋找同源基因(相似的序列往往具有同源性)。我們?yōu)槭裁醋龆嘈蛄斜葘?第六十二頁,共一百一十四頁,編輯于2023年,星期一多序列比對與進(jìn)化研究例子圖中NYLS為樹根第六十三頁,共一百一十四頁,編輯于2023年,星期一一個多序列比對例子VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS--ITVNWYQQLPGLRLSCSSSGFIFSS--YAMYWVRQAPGLSLTCTVSGTSFDD--YYSTWVRQPPGPEVTCVVVDVSHEDPQVKFNWYVDG--ATLVCLISDFYPGA--VTVAWKADS--AALGCLVKDYFPEP--VTVSWNSG---VSLTCLVKGFYPSD--IAVEWWSNG--第六十四頁,共一百一十四頁,編輯于2023年,星期一多序列比對方法全局序列比對動態(tài)規(guī)劃算法

(DynamicProgrammingAlgorithm)分而治之方法

(DivideandConquerMethods)SP方法

(SumofPairsMethods)

累進(jìn)方法

(ProgressiveMethods)迭代方法

(IterativeMethods)局部序列比對概形分析

(ProfileAnalysis)區(qū)塊分析

(BlockAnalysis)統(tǒng)計學(xué)方法

(StatisticalMethods)第六十五頁,共一百一十四頁,編輯于2023年,星期一在多序列比對前要考慮的問題比對的優(yōu)劣與序列條數(shù)正相關(guān)每個亞群應(yīng)分別先比對,然后再整體比對第六十六頁,共一百一十四頁,編輯于2023年,星期一一、全局序列比對

動態(tài)規(guī)劃算法

(DynamicProgrammingAlgorithm)分而治之方法

(DivideandConquerMethods)SP方法

(SumofPairsMethods)

累進(jìn)方法

(ProgressiveMethods)迭代方法

(IterativeMethods)遺傳算法

(GeneticAlgorithms)第六十七頁,共一百一十四頁,編輯于2023年,星期一序列長度為n

的雙序列比對n2

比對比對數(shù)目成指數(shù)增長例如:序列長度為n,序列數(shù)為N

的多序列比對數(shù)目是nN對于數(shù)目較少且較短的序列來說都不切實際1.動態(tài)規(guī)劃算法(DynamicProgramming)第六十八頁,共一百一十四頁,編輯于2023年,星期一Sequence1Sequence2Sequence3多維的動態(tài)規(guī)劃算法第六十九頁,共一百一十四頁,編輯于2023年,星期一分而治之

(DivideandConquer,DCA)方法將MSA(MeasurementSystemAnalysis)的空間復(fù)雜度減小DCA在線MSAhttp://bioweb.pasteur.fr/seqanal/interfaces/dca-simple.html

2.分而治之方法第七十頁,共一百一十四頁,編輯于2023年,星期一Soineffect…Sequence1Sequence2Sequence3第七十一頁,共一百一十四頁,編輯于2023年,星期一3.SP(SumofPairs)方法為了找到最佳比對,并解決動態(tài)規(guī)則算法的計算復(fù)雜問題,Carrillo&Lipman(1988)發(fā)明了SP(SumofPairs)方法SP方法通過對一個隨機數(shù)據(jù)矩陣中氨基酸對的所有可能組合的記分求和來獲得矩陣記分第七十二頁,共一百一十四頁,編輯于2023年,星期一4.累進(jìn)算法(ProgressiveMethods)針對基于動態(tài)規(guī)劃算法的MSA程序比對序列數(shù)目有限,F(xiàn)eng&Doolittle(1987)發(fā)明了累進(jìn)算法CLUSTAL和PILEUP是目前常用的基于累進(jìn)算法的比對軟件CLUSTAL是免費軟件,目前應(yīng)用非常廣泛

http://www-igbmc.u-strasbg.fr/BioInfo/ClustalX/Top.html第七十三頁,共一百一十四頁,編輯于2023年,星期一1對所有序列做雙序列比對,構(gòu)建距離矩陣計算相似性分?jǐn)?shù)值2基于雙序列距離矩陣,構(gòu)建一個進(jìn)化樹

Scer

Cele

Dmel

Mouse

Human3依據(jù)進(jìn)化樹進(jìn)行漸進(jìn)比對

?依據(jù)進(jìn)化樹,開始對關(guān)系較近的序列進(jìn)行兩兩比對

?逐漸加入關(guān)系較遠(yuǎn)的序列進(jìn)行比對

?構(gòu)建多序列比對MultiplealignmentScerevisiae[1]Celegans[2]0.640Drosophia[3]0.6340.327Human[4]0.6300.4080.420Mouse[5]0.6190.4050.4690.289累進(jìn)算法原理第七十四頁,共一百一十四頁,編輯于2023年,星期一一般累進(jìn)比對方法132513131325254droot第七十五頁,共一百一十四頁,編輯于2023年,星期一果仁糖累進(jìn)方法

(Pralineprogressivestrategy)13213131325254d4第七十六頁,共一百一十四頁,編輯于2023年,星期一累進(jìn)算法的一些問題比對的準(zhǔn)確性高度依賴于開始選擇的雙序列比對序列關(guān)系越遠(yuǎn)發(fā)生的錯誤可能越高選擇合適的打分矩陣和罰分準(zhǔn)則較困難第七十七頁,共一百一十四頁,編輯于2023年,星期一ClLUSTALW/X簡介ClLUSTAL最初初由Higgins等于1988年創(chuàng)立并不斷完善用來多序列比對、概形(Profile)分析和創(chuàng)建進(jìn)化樹ClLUSTAL分為ClLUSTALW和CLUSTALX兩種類型ClLUSTAL有用于WINDOWS和UNIX/LINUX的各種版本第七十八頁,共一百一十四頁,編輯于2023年,星期一CLUSTAL方法進(jìn)行所有序列間的雙序列比對基于雙序列比對分?jǐn)?shù)產(chǎn)生一個相鄰連接進(jìn)化樹(neighbor-jointree)根據(jù)進(jìn)化樹提供的序列間關(guān)系按順序?qū)π蛄羞M(jìn)行比對比對可以用以下兩種方法:-slow/accurate-fast/approximate第七十九頁,共一百一十四頁,編輯于2023年,星期一********CLUSTALW(1.8)MultipleSequenceAlignments********

1.SequenceInputFromDisc2.MultipleAlignments3.Profile/StructureAlignments

4.PhylogenetictreesS.ExecuteasystemcommandH.HELPX.EXIT(leaveprogram)Yourchoice:1<rtn>CLUSTALW第八十頁,共一百一十四頁,編輯于2023年,星期一Sequencesshouldallbein1file.7formatsaccepted:NBRF/PIR,EMBL/SwissProt,Pearson(Fasta),GDE,Clustal,GCG/MSF,RSF.Enterthenameofthesequencefile:anti.fasta<rtn>SequenceformatisPearsonSequencesassumedtobePROTEINSequence1:ANP4_PSEAM 85aaSequence2:ANP_LIMFE 97aaSequence3:ANPA_PSEAM 82aaSequence4:ANPX_PSEAM 91aaSequence5:ANPY_PSEAM 91aa

CLUSTALW第八十一頁,共一百一十四頁,編輯于2023年,星期一********CLUSTALW(1.8)MultipleSequenceAlignments********1.SequenceInputFromDisc2.MultipleAlignments3.Profile/StructureAlignments4.PhylogenetictreesS.ExecuteasystemcommandH.HELPX.EXIT(leaveprogram)Yourchoice:2<rtn>

CLUSTALW第八十二頁,共一百一十四頁,編輯于2023年,星期一Clustal

W*********************MULTIPLEALIGNMENTMENU******

***************1.Docompletemultiplealignmentnow(Slow/Accurate)2.Produceguidetreefileonly3.Doalignmentusingoldguidetreefile4.ToggleSlow/Fastpairwisealignments=SLOW5.Pairwisealignmentparameters6.Multiplealignmentparameters7.Resetgapsbetweenalignments?=OFF8.Togglescreendisplay=ON9.OutputformatoptionsS.ExecuteasystemcommandH.HELPorpress[RETURN]togobacktomainmenuYourchoice:1<rtn>第八十三頁,共一百一十四頁,編輯于2023年,星期一EnteranamefortheCLUSTALoutputfile[anti.aln]:<rtn>

EnternamefornewGUIDETREEfile[anti.dnd]:<rtn>StartofPairwisealignmentsAligning...Sequences(1:2)Aligned.Score:62Sequences(1:3)Aligned.Score:59Sequences(1:4)Aligned.Score:84Sequences(1:5)Aligned.Score:83Sequences(2:3)Aligned.Score:68Sequences(2:4)Aligned.Score:80Sequences(2:5)Aligned.Score:79Sequences(3:4)Aligned.Score:81Sequences(3:5)Aligned.Score:80Sequences(4:5)Aligned.Score:98Guidetreefilecreated:[anti.dnd]StartofMultipleAlignmentThereare4groupsAligning...Group1:Sequences:2Score:1476Group2:Sequences:3Score:1499Group3:Sequences:4Score:1190Group4:Sequences:5Score:1404AlignmentScore3470Consensuslength=102CLUSTAL-Alignmentfilecreated[anti.aln]

第八十四頁,共一百一十四頁,編輯于2023年,星期一MacVector界面的ClustalW第八十五頁,共一百一十四頁,編輯于2023年,星期一Clustal

X介紹第八十六頁,共一百一十四頁,編輯于2023年,星期一ClustalX介紹第八十七頁,共一百一十四頁,編輯于2023年,星期一ClustalX介紹第八十八頁,共一百一十四頁,編輯于2023年,星期一ClustalX介紹第八十九頁,共一百一十四頁,編輯于2023年,星期一ClustalX介紹第九十頁,共一百一十四頁,編輯于2023年,星期一ExampleMultiplesequencealignmentof7neuroglobinsusingclustalx第九十一頁,共一百一十四頁,編輯于2023年,星期一PILEUPPILEUP是GCG(GeneticsComputerGroup)軟件包中的MSA分析工具;與CLUSTAL一樣使用累進(jìn)式整體比對方法(ProgressiveGlobalAlignment);PILEUP開始的雙序列比對使用Needleman-Wunsch動態(tài)規(guī)劃算法,所以是全局序列比對,善于比較相似度較高的序列。第九十二頁,共一百一十四頁,編輯于2023年,星期一OutputofPileup

401

OATNFA1TTCAG......ACACTCAGGTCATCTTCTCAAGCOATNFARTTCAG......ACACTCAGGTCATCTTCTCAAGCBSPTNFATTCAA......ACACTCAGGTCCTCTTCTCAAGCCEU14683TTCAG......ACCCTCAGGTCATCTTCTCAAGCHSTNFRCCCAG......GCAGTCAGATCATCTTCTCGAACSYNTNFTRPCCCAG......GCAGTCAGATCATCTTCTCGAACCATTNFAACCCAG......ACACTCAGATCATCTTCTCGAACCFTNFATCCAG......ACAGTCAAATCATCTTCTCGAACRABTNFMCCCAGATGGTCACCCTCAGATCAGCTTCTCGGGCRNTNFAACCCAGACCCTCACACTCAGATCATCTTCTCAAAA第九十三頁,共一百一十四頁,編輯于2023年,星期一OutputofPileup第九十四頁,共一百一十四頁,編輯于2023年,星期一ClUSTAL和PILEUP存在的問題最終的比對結(jié)果取決于最初的雙序列比對,起初的序列相似度越高比對越準(zhǔn)確;如果比對序列間長度差異較大則會生成異常的引導(dǎo)樹(guidetrees)從而嚴(yán)重影響多序列比對;所選的記分與罰分標(biāo)準(zhǔn)并不一定適合一組序列中的所有序列。第九十五頁,共一百一十四頁,編輯于2023年,星期一對累進(jìn)比對方法的改進(jìn)迭代方法策略在比對過程中不斷重新比對各亞組序列把亞組序列再排成包括所有序列在內(nèi)的整體比對獲得最優(yōu)的總比對分?jǐn)?shù)(由成對比對分?jǐn)?shù)相加而成)5.迭代方法

(IterativeMethods)第九十六頁,共一百一十四頁,編輯于2023年,星期一二、局部序列比對局部比對(LocalAlignment)方法能夠確定序列中高度保守的區(qū)域。概形分析(ProfileAnalysis)區(qū)塊分析(BlockAnalysis)第九十七頁,共一百一十四頁,編輯于2023年,星期一1.概形分析

(ProfileAnalysis)通過對一組序列進(jìn)行整體MSA分析,把其中高度保守的區(qū)域提出分成小的MSA。這些小的MSA根據(jù)其序列與結(jié)構(gòu)的比對得到一個記分矩陣。根據(jù)這個矩陣列出每個位置上的殘基分?jǐn)?shù),稱為位置特異記分表(PositionSpecificScoringTable)或概形(Profile)。概形(Profile)類似于一個小的MSA,包括匹配、錯配、插入和缺失。第九十八頁,共一百一十四頁,編輯于2023年,星期一概形分析

(ProfileAnalysis)優(yōu)勢:用來尋找一個可能與之匹配的目標(biāo)序列;用來在一個數(shù)據(jù)庫中搜索一個可能的新的蛋白(pfsearch);通過搜索一個profile數(shù)據(jù)庫來找到提交的序列屬于哪一家族(pfscan);比對兩個MSA(profiletoprofile)。缺點:所產(chǎn)生的概形僅僅代表MSA本身的序列族變異,如果MSA中的幾個序列相似,則衍生的概形將偏向于這些序列。

第九十九頁,共一百一十四頁,編輯于2023年,星期一不同物種HSP70蛋白的profile圖左邊第一列為一致序列(consensussequence),其余的行的數(shù)值表示一致序列中每一個氨基酸出現(xiàn)的頻率的對數(shù)與隨機頻率對數(shù)的比值,如出現(xiàn)空位,則必須減去空位行在相應(yīng)位置上的數(shù)值。如用其尋找一個長度為100aa的序列,則檢查的串為1~10,2~11,…,最高記分區(qū)段將是概形最相似部分。圖中Z表示谷氨酸or谷氨酰胺;B表示天冬氨酸

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論