第三章序列相似性比較_第1頁
第三章序列相似性比較_第2頁
第三章序列相似性比較_第3頁
第三章序列相似性比較_第4頁
第三章序列相似性比較_第5頁
已閱讀5頁,還剩99頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第三章序列相似性比較主要內(nèi)容:序列比對相關(guān)概念序列比對衡量標(biāo)準(zhǔn)雙序列比對算法

——Needleman-Wunsch算法

——Smith-Waterman算法BLAST序列比對相關(guān)概念兩條DNA序列比對分析兩條蛋白質(zhì)序列比對分析為什么要序列比對?序列比較的根本任務(wù):發(fā)現(xiàn)序列之間的相似性序列1序列2 相似序列相似的結(jié)構(gòu),相似的功能 判別序列之間的同源性 推測序列之間的進(jìn)化關(guān)系

相似性(similarity)

一種很直接的數(shù)量關(guān)系,比如部分相同或相似的百分比或其它一些合適的度量。比如說,A序列和B序列的相似性是80%,這是個(gè)量化的關(guān)系。SeqA:ACATGCTTACGTAGGTCGTAAATGCCGTTCGCTGCTAATG||||||||||||||||||||||||||||||||SeqB:ACATGCAAACCTAGGACGTACATGTCGTTGGCTGATAATG同源性(homology) 指從一些數(shù)據(jù)中推斷出的兩個(gè)基因或蛋白質(zhì)序列具而共同祖先的結(jié)論,屬于質(zhì)的判斷。A和B的關(guān)系上,只有同源和非同源兩種關(guān)系。血紅蛋白基因同源序列一般相似,序列間的相似性越高,它們是同源序列的可能性就更高,所以經(jīng)??梢酝ㄟ^序列的相似性來推測序列是否同源。相似序列不一定同源(趨同進(jìn)化)相似與同源兩者區(qū)別序列比對衡量標(biāo)準(zhǔn)序列比對問題兩個(gè)序列比較||||||||||||||||

ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC

CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT

ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC

CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT序列比對問題||||||||||||||||

ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC

CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT是否還有更好的對齊方式?ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC||||||||||||||||||||||||||||||||||||||CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT基因在進(jìn)化中存在插入/缺失突變,序列比對時(shí)應(yīng)該將這些考慮這些突變,以便獲得到更好的對齊結(jié)果。ATGCATGCATGCATGCATATATATATAT----ATATATGCATGCATGCATGCATGC||||

||||||||||||||||||||||||||||||||||||CGATCGATCGATCGATATATATATATGCATATAT----ATGCATGCATGCATGCAT在序列比較時(shí)必須考慮插入/缺失突變的存在,采用插入空位(gap)增加匹配殘基的數(shù)量。序列比對問題ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC||||||||||||||||||||||||||||||||||||||CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT大量觀察研究表明,插入/缺失突變的發(fā)生機(jī)率遠(yuǎn)小于點(diǎn)突變。AT--GCAT--GCATGCATGCATATATATATAT----ATATAT----GCATGCATGCATGCATGC||||||||||||||||||||||||||||||||||||||||||||CGATCG--ATCG--AT--C----G--ATATATATATATGCATATATATGCATGCATGCATGCAT序列比對問題ATGCATGCATGCATGCATATATATATAT----ATATATGCATGCATGCATGCATGC||||

||||||||||||||||||||||||||||||||||||CGATCGATCGATCGATATATATATATGCATATAT----ATGCATGCATGCATGCAT序列比對時(shí)僅僅為了得到多一些匹配殘基數(shù)就加入許多的gap,這樣做是否值得?這個(gè)對齊是否還有生物學(xué)意義?序列比對問題||||||||||||||||

ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC

CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCATATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC||||||||||||||||||||||||||||||||||||||CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCAT----AT--GCAT--GCATGCATGCATATATATATAT----ATATAT----GCATGCATGCATGCATGC||||||||||||||||||||||||||||||||||||||||||||CGATCG--ATCG--AT--C----G--ATATATATATATGCATATATATGCATGCATGCATGCAT----ATGCATGCATGCATGCATATATATATAT----ATATATGCATGCATGCATGCATGC||||

||||||||||||||||||||||||||||||||||||CGATCGATCGATCGATATATATATATGCATATAT----ATGCATGCATGCATGCAT比對-1比對-2比對-3比對-4?序列比對的衡量標(biāo)準(zhǔn)ATCGA1-1-1-1T-11-1-1C-1-11-1G-1-1-11匹配得1分,錯(cuò)配罰1分,空位罰2分計(jì)分矩陣兩個(gè)序列進(jìn)行比對,會有產(chǎn)生許多不同的對齊形式,需要一定的標(biāo)準(zhǔn)對比對結(jié)果進(jìn)行比較評估,以找出最佳的對齊結(jié)果。通常采用計(jì)分矩陣(scoringmatrix)來計(jì)算比對分值,以得到一個(gè)評價(jià)優(yōu)劣的標(biāo)準(zhǔn)。序列比對的衡量標(biāo)準(zhǔn)||||||||||||||||

ATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC

CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCATATGCATGCATGCATGCATATATATATATATATATGCATGCATGCATGCATGC||||||||||||||||||||||||||||||||||||||CGATCGATCGATCGATATATATATATGCATATATATGCATGCATGCATGCATAT--GCAT--GCATGCATGCATATATATATAT----ATATAT----GCATGCATGCATGCATGC||||||||||||||||||||||||||||||||||||||||||||CGATCG--ATCG--AT--C----G--ATATATATATATGCATATATATGCATGCATGCATGCATATGCATGCATGCATGCATATATATATAT----ATATATGCATGCATGCATGCATGC||||

||||||||||||||||||||||||||||||||||||

CGATCGATCGATCGATATATATATATGCATATAT----ATGCATGCATGCATGCAT比對-1比對-2比對-3比對-4匹配16×1+錯(cuò)配36×(-1)+空位0×(-2)=-20匹配38×1+錯(cuò)配12×(-1)+空位0×(-2)=28匹配40×1+錯(cuò)配8×(-1)+空位4×(-2)=24匹配44×1+錯(cuò)配0×(-1)+空位12×(-2)=20

核酸計(jì)分矩陣——等價(jià)矩陣——BLAST矩陣——轉(zhuǎn)移矩陣(transition,transversion)ATCGA1000T0100C0010G0001ATCGA5-4-4-4T-45-4-4C-4-45-4G-4-4-45ATCGA1-5-5-1T-51-1-5C-5-11-5G-1-5-51等價(jià)矩陣轉(zhuǎn)移矩陣BLAST矩陣核酸計(jì)分矩陣嘌呤:腺嘌呤A,鳥嘌呤G;嘧啶:胞嘧啶C,胸腺嘧啶T轉(zhuǎn)移矩陣62BLAST矩陣3131核酸計(jì)分矩陣s=ACACACC-A|||||||t=ACACACTGAAlignment-1s=ACACAC-CA|||||||t=ACACACTGAAlignment-2s=ACACACCAt=ACACACTGA等價(jià)矩陣77氨基酸計(jì)分矩陣——等價(jià)矩陣——遺傳密碼矩陣——疏水矩陣——PAM矩陣——BLOSUM矩陣氨基酸計(jì)分矩陣氨基酸等價(jià)矩陣遺傳密碼矩陣遺傳密碼矩陣(Ageneticcodematrix)通過計(jì)算一個(gè)氨基酸的密碼子轉(zhuǎn)變成另一個(gè)氨基酸的密碼子所需的堿基最小變化數(shù)目而得到,矩陣元素的值對應(yīng)代價(jià)。如變化一個(gè)堿基使某一氨基酸的密碼子改變?yōu)榱硪粋€(gè)氨基酸的密碼子,則這兩個(gè)氨基酸的替換代價(jià)為1;如需要兩個(gè)堿基的改變,則替換代價(jià)為2;以此類推。A:ATG

T:ACTACCACAACG2221甲硫氨酸蘇氨酸遺傳密碼矩陣W:TGG

N:AACAATWN相互轉(zhuǎn)變需要密碼子3個(gè)位置都發(fā)生改變色氨酸天冬酰胺ACDEFGHIKLMNPQRSTVWY0-2-1-1-2-1-2-2-2-2-2-2-1-2-2-1-1-1-2-2A=Ala0-2-3-1-1-2-2-3-2-3-2-2-3-1-1-2-2-1-1C=Cys0-1-2-1-1-2-2-2-3-1-2-2-2-2-2-1-3-1D=Asp0-3-1-2-2-1-2-2-2-2-1-2-2-2-1-2-2E=Glu0-2-2-1-3-1-2-2-2-3-2-1-2-1-2-1F=Phe0-2-2-2-2-2-2-2-2-1-1-2-1-1-2G=Gly0-2-2-1-3-1-1-1-1-2-2-2-3-1H=His0-1-1-1-1-2-2-1-1-1-1-3-2I=Ile0-2-1-1-2-1-1-2-1-2-2-2K=Lys0-1-2-1-1-1-1-2-1-1-2L=Leu0-2-2-2-1-2-1-1-2-3M=Met0-2-2-2-1-1-2-3-1N=Asn0-1-1-1-1-2-2-2P=Pro0-1-2-2-2-2-2Q=Gln0-1-1-2-1-2R=Arg0-1-2-1-1S=Ser0-2-2-2T=Thr0-2-2V=Val0-2W=Trp0Y=Tyr絲氨酸(S)和蘇氨酸(T)有相似理化屬性天冬氨酸(D)和谷氨酸(E)有相似理化屬性在進(jìn)化過程中S/T或E/D間發(fā)生替換的可能性較高=>S/T或E/D的替換的分值只稍微比相同氨基酸對的低=>氨基酸疏水矩陣氨基酸疏水矩陣(HydrophobicityMatrix)疏水矩陣PAM矩陣PAM矩陣:PointAcceptedMutationor

PercentAcceptedMutationDayhoff(1978)對序列差別小于15%的71個(gè)同源蛋白質(zhì)家族的氨基酸替換作了頻率研究。產(chǎn)生了在一個(gè)短的進(jìn)化過程中氨基酸彼此間替換的相對頻率表,稱PAM矩陣。PAM矩陣1572氨基酸替換位點(diǎn)氨基酸替換矩陣PAM1就是一個(gè)進(jìn)化變異單位,相當(dāng)于每個(gè)氨基酸平均有1%的可能性發(fā)生了變化。PAM100,相當(dāng)于每個(gè)氨基酸平均發(fā)生1次變化。但并非每個(gè)氨基酸均發(fā)生了變化,因?yàn)橛幸恍┛赡芡蛔兌啻?,甚至又變成原來的氨基酸,而另一些可能根本沒有發(fā)生過變化。PAM矩陣TIYAPPPWSTIYCPPPWSTIYAPPPWSTIYTPPPWSTIYGPPPWSTIYAPPPWS例如該位點(diǎn)的丙氨酸雖然發(fā)生了5次變化,但我們并沒有觀察到這些變化PAM矩陣Dayhoff等構(gòu)建的PAM矩陣,所用序列的差別均小于15%。在更大的進(jìn)化距離情況下,不能簡單的通過調(diào)整變異度量因子的大小來外推,因?yàn)檫@樣會忽略回復(fù)突變。為此假定在每個(gè)位置的變異獨(dú)立于前面的變異。通過氨基酸多次變異產(chǎn)生一系列PAM矩陣來計(jì)算進(jìn)化距離稍遠(yuǎn)的相關(guān)蛋白。PAM2中F->F的值=0.9946*0.9946+其他19種氨基酸回復(fù)突變成F的幾率PAM2=PAM1*PAM1PAM矩陣同源蛋白質(zhì)在PAM250中一氨基酸替換為另一氨基酸的幾率PAM250仍有約15-30%(平均為20%)的氨基酸未發(fā)生變化如,苯丙氨酸約有32%保持不變;半胱氨酸約有52%保持不變;丙氨酸約有13%保持不變。PAM250=PAM1矩陣250次方PAM250親水小分子酸性堿性疏水小分子芳香族稀有氨基酸分值高普通氨基酸分值低類似氨基酸容易相互突變不類似氨基酸不易相互突變F--FWFDYWFF--WFDYW比對1比對2FFWFDYW判斷哪種匹配結(jié)果較優(yōu),為什么?PAM矩陣特點(diǎn)檢索蛋白質(zhì)序列數(shù)據(jù)庫,如只打算選用一種PAM矩陣,PAM120矩陣是最常用的。如想結(jié)果更全面更有效則應(yīng)選用多個(gè)矩陣。如分別選用PAM40、PAM120和PAM250矩陣,可獲得全面覆蓋的檢索結(jié)果;選用PAM80和PAM200矩陣也可達(dá)到較好的覆蓋面。如進(jìn)行兩個(gè)相關(guān)序列的比較分析,選用多個(gè)不同的PAM矩陣會得到較好的結(jié)果。如PAM80和PAM250,或PAM120和PAM320。序列比對最好是根據(jù)序列對實(shí)際差異程度來選用相應(yīng)的PAM矩陣。PAM矩陣特點(diǎn)PAM模型假設(shè),蛋白質(zhì)序列各部位進(jìn)化的速率是均等的。但事實(shí)很可能并非如此,因?yàn)楸J貐^(qū)的進(jìn)化速率顯然低于非保守區(qū)。PAM的數(shù)據(jù)集較小,原始PAM矩陣是基于較少的相關(guān)蛋白質(zhì)序列(只比較了71組進(jìn)化距離較近的蛋白序列)中氨基酸相互替換率形成的,代表性較差。PAM矩陣不足之處BLOSUM矩陣BLOSUM矩陣:BLOcksSUbstitutionMatrixHenikoff為解決PAM矩陣的不足,利用Block蛋白質(zhì)模體(motif)數(shù)據(jù)庫,對500多個(gè)蛋白質(zhì)家族的約2000個(gè)高度保守模體作比較研究,計(jì)算各個(gè)氨基酸相互間的替換頻率。序列較多的家族有很多關(guān)系很近的序列,比較時(shí)一些保守氨基酸對的出現(xiàn)過于頻繁,偏離真實(shí)性。對于同一block的相近序列,一致性高于某個(gè)閾值便聚為一類,通過序列合并減少權(quán)重。1006230氨基酸一致性(%)BLOSUM621006230BLOSUM301006230BLOSUM80collapsecollapsecollapseBLOSUM62親水小分子酸性堿性疏水小分子芳香族PAM100PAM120PAM140PAM160PAM200PAM250BlOSUM90BlOSUM80BlOSUM70BlOSUM62BlOSUM52BlOSUM45454035302520相似度PAM矩陣BLOSUM矩陣PAM與BLOSUM矩陣差異PAM與BLOSUM矩陣差異PAM矩陣適合全局比對低值PAM矩陣適合相似性較高的序列比對(如PAM70)高值PAM矩陣適合進(jìn)化關(guān)系較遠(yuǎn)的序列比對(如PAM250)BLOSUM矩陣適合局部比對低值BLOSUM矩陣傾向于發(fā)現(xiàn)保守性較弱且較長的對齊區(qū)域(如BLOSUM45?)高值BLOSUM矩陣傾向于發(fā)現(xiàn)序列保守性高較且長度較短的對齊區(qū)域(如BLOSUM80?

)序列比對最好是根據(jù)序列對實(shí)際差異程度來選用相應(yīng)的計(jì)分矩陣雙序列比對算法雙序列比對基本思路:生成兩個(gè)序列所有可能的比對,根據(jù)計(jì)分矩陣分別計(jì)算得分,然后挑選一個(gè)得分最高的比對作為最終結(jié)果。t:TCGCAs:TCCATCGCA---------TCCA雙序列比對所遇到問題隨著比對序列長度的增加,所有可能的比對結(jié)果呈現(xiàn)指數(shù)增長!兩條長度為100的氨基酸序列,大概有1060種不同的比對結(jié)果。TCGC-A-------T-CCATCGCATC-CATCGCA-------TCCA…………TCGC-A------TCCATCGCA::::TC-CA1+1-2+1+1=2雙序列比對解決方法動態(tài)規(guī)劃(Dynamicprogramming)(Needleman-Wunsch算法)?用矩陣路徑描述序列對齊

TCGCATCCATCGCATC-CAstt

TCGCATCCATCG-CAT--CCAs動態(tài)規(guī)劃:分值計(jì)算

TCGCATCCAx對于矩陣中的每個(gè)單元格,都有三個(gè)選擇??梢詮纳厦?、左側(cè)、左上側(cè)到達(dá)每個(gè)單元格=>在這三種可能性當(dāng)中,選擇得分最大的一個(gè)(如果得分相等,得分高的單元格可以都選,也可以從中從任選一個(gè))。

0

1

2

3

4

501234

TCGCATCCAxscore(i,j)=maxscore(i,j-1)–gap_penalty動態(tài)規(guī)劃:分值計(jì)算對于矩陣中的每個(gè)單元格,都有三個(gè)選擇??梢詮纳厦?、左側(cè)、左上側(cè)到達(dá)每個(gè)單元格=>在這三種可能性當(dāng)中,選擇得分最大的一個(gè)(如果得分相等,得分高的單元格可以都選,也可以從中從任選一個(gè))。

0

1

2

3

4

501234(從左到右)

TCGCATCCAxscore(i,j)=maxscore(i,j-1)–gap_penaltyscore(i-1,j-1)+substitution_score(i,j)?動態(tài)規(guī)劃:分值計(jì)算對于矩陣中的每個(gè)單元格,都有三個(gè)選擇??梢詮纳厦?、左側(cè)、左上側(cè)到達(dá)每個(gè)單元格=>在這三種可能性當(dāng)中,選擇得分最大的一個(gè)(如果得分相等,得分高的單元格可以都選,也可以從中從任選一個(gè))。

0

1

2

3

4

501234(從左到右)(從左上到右下)

TCGCATCCAxscore(i,j)=maxscore(i,j-1)–gap_penaltyscore(i-1,j-1)+substitution_score(i,j)?score(i-1,j)–gap_penalty動態(tài)規(guī)劃:分值計(jì)算對于矩陣中的每個(gè)單元格,都有三個(gè)選擇??梢詮纳厦?、左側(cè)、左上側(cè)到達(dá)每個(gè)單元格=>在這三種可能性當(dāng)中,選擇得分最大的一個(gè)(如果得分相等,得分高的單元格可以都選,也可以從中從任選一個(gè))。

0

1

2

3

4

501234(從左到右)(從左上到右下)(從上到下)

TCGCATCCAx對于每個(gè)單元格,從3條路徑中選擇得分最大的一條,并用回溯箭頭表明到達(dá)該單元格最大得分路徑的源單元格,填充每個(gè)單元格,從矩陣的左上角開始到右下角結(jié)束score(i,j)=maxscore(i,j-1)–gap_penaltyscore(i-1,j-1)+substitution_score(i,j)?score(i-1,j)–gap_penalty動態(tài)規(guī)劃:分值計(jì)算對于矩陣中的每個(gè)單元格,都有三個(gè)選擇??梢詮纳厦?、左側(cè)、左上側(cè)到達(dá)每個(gè)單元格=>在這三種可能性當(dāng)中,選擇得分最大的一個(gè)(如果得分相等,得分高的單元格可以都選,也可以從中從任選一個(gè))。

0

1

2

3

4

501234Needleman-Wunsch算法:舉例ACGTA1-1-1-1C-11-1-1G-1-11-1T-1-1-11空位罰分:2Needleman-Wunsch算法:舉例Needleman-Wunsch算法:舉例Needleman-Wunsch算法:舉例Needleman-Wunsch算法:舉例TCGCA::::TC-CA1+1-2+1+1=2Needleman-Wunsch算法:舉例Needleman-Wunsch

算法:舉例BLOSUM62

矩陣空位罰分:8BLOSUM62Needleman-Wunsch

算法:舉例HEAGAWGHEE-P--AWHEAE-8-1-8-8411-20-15=-8Needleman-Wunsch

算法:舉例HEAGAWGHEE--P-AWHEAE-8-8-1-8411-20-15=-8Needleman-Wunsch

算法:舉例HEAGAWGHE-E-P--AW-HEAE-8-1-8-8411-885-85=-8Needleman-Wunsch

算法:舉例HEAGAWGHE-E--P-AW-HEAE-8-8-1-8411-885-85=-8根據(jù)Needleman-Wunsch算法對下面2條核酸序列進(jìn)行全局比對。創(chuàng)建并填充這2條序列的動態(tài)規(guī)劃矩陣,并回溯整個(gè)路徑并給出最優(yōu)比對結(jié)果。假設(shè)堿基匹配得1分,錯(cuò)配和空位分別罰1分和2分,序列1放在矩陣的上部,序列2放在左邊。序列1:ACCGTG序列2:ACGTGT練習(xí)序列全局和局部比對序列全局比對:

從全長序列出發(fā),考慮序列的整體相似性,要比對的序列在整個(gè)序列上進(jìn)行對齊(Needleman-Wunsch

算法)。序列局部比對:

考慮序列部分區(qū)域的相似性,找出兩條序列中相似程度最高的對齊部分(Smith-Waterman算法)。GlobalalignmentSeq1Seq2LocalalignmentSeq1Seq2序列局部比對(Smith-Waterman算法)

在填充表格時(shí),如果某個(gè)得分為負(fù),那么就用0代替,只對得分為正的單元格添加返回指針;

在回溯的時(shí)候,不是從最右下角的單元格開始,而是從得分最高的單元格開始。

回溯到得分為0的單元格為止score(i,j)=maxscore(i,j-1)–gap_penaltyscore(i-1,j-1)+substitution_score(i,j)?score(i-1,j)–gap_penalty0ACGTA

1-1-1-1C-11-1-1G-1-11-1T-1-1-11空位罰分:2Smith-Waterman算法:舉例Smith-Waterman算法:舉例Smith-Waterman算法:舉例Smith-Waterman算法:舉例Smith-Waterman算法:舉例TCCA::::TCCA1+1+1+1=4Smith-Waterman算法:舉例Smith-Waterman算法:舉例BLOSUM62

矩陣空位罰分:8BLAST序列比對工具BLASTBLAST(Altschul1990,1997)?(BasicLocalAlignmentSearchTool)——序列局部比對——基于Smith-Waterman算法的啟發(fā)式算法(heuristicapproach)——計(jì)算速度非??臁o出序列比對的統(tǒng)計(jì)結(jié)果BLAST檢索包括四個(gè)步驟(1)選定檢索序列(2)選擇BLAST程序(3)選擇被檢索的數(shù)據(jù)庫(4)選擇合適的參數(shù)步驟1:選擇檢索序列(1)序列檢索號(accessionnumber)

如D49653,AF123456等(2)FASTA格式的序列>D49653CCAAGAAGAAGAAGACCCCAGCGAGGAAAATGTGCTGGAGACCCCTGTGCCGGTTCCTGTGGCTTTGGTCCTATCTGTCCTATGTTCAAGCTGTGCCTATCCACAAAGTCCAGGATGACACCAAAACCCTCATCAAGACCATTGTCACCAGGATCAATGACATTTCACACACGCAGTCGGTATCCGCCAGGCAGAGGGTCACCGGTTTGGACTTCATTCCCGGGCTTCACCCCATTCTGAGTTTGTCCAAGATGGACCAGACCCTGGCAGTCTATCAACAGATCCTCACCAGCTTGCCTTCCCAAAACGTGCTGCAGATAGCTCATGACCTGGAGAACCTGCGAGACCTCCTCCATCTGCTGGCCTTCTCCAAGAGCTGCTCCCTGCCGCAGACCCGTGGCCTGCAGAAGCCAGAGAGCCTGGATGGCGTCCTGGAAGCCTCGCTCTACTCCACAGAGGTGGTGGCTCTGAGCAGGCTGCAGGGCTCTCTGCAGGACATTCTTCAACAGTTGGACCTTAGCCCTGAATGCTGAGGTTTC步驟2:選擇BLAST程序程序

檢索序列

數(shù)據(jù)庫 1blastn

DNA

DNA 1blastp

protein

protein 6blastx

DNA

protein 6tblastn

protein

DNA 36tblastx

DNA

DNA步驟2:選擇BLAST程序DNA六種不同的閱讀框5’CATCAA5’ATCAAC5’TCAACT5’GTGGGT5’TGGGTA5’GGGTAG5’CATCAACTACAACTCCAAAGACACCCTTACACATCAACAAACCTACCCAC3’3’GTAGTTGATGTTGAGGTTTCTGTGGGAATGTGTAGTTGTTTGGATGGGTG5’步驟2:選擇BLAST程序程序檢索序列數(shù)據(jù)庫描述blastn核苷酸核苷酸尋找高分值的匹配,對較遠(yuǎn)關(guān)系的序列不太適用blastp蛋白質(zhì)蛋白質(zhì)使用取代矩陣尋找較遠(yuǎn)關(guān)系的序列blastx核苷酸蛋白質(zhì)用于新的DNA序列和EST的分析tblastn蛋白質(zhì)核苷酸(翻譯)尋找數(shù)據(jù)庫中沒有表注的編碼區(qū)tblastx核苷酸(翻譯)核苷酸(翻譯)用于分析EST步驟3:選擇數(shù)據(jù)庫數(shù)據(jù)庫檢索序列選擇特定物種限制檢索范圍步驟3.選擇被檢索的數(shù)據(jù)庫NCBI常用BLAST數(shù)據(jù)庫核酸數(shù)據(jù)庫描述ntGenBank+RefSeq+EMBL+DDBJ+PDB(不包括HTGS,EST,GSS,STS,PAT,WGS)。序列不再非冗余refseq_rna參考序列中的RNA序列部分refseq_genomic參考序列中的基因組序列部分NCBIgenomes基因組序列estGenBank+EMBL+DDBJ中的EST序列est_others除去人和老鼠的其它物種的est序列g(shù)ss基因組調(diào)查序列htgs未完成的高通量基因組序列pat專利序列dbsts序列標(biāo)記位點(diǎn)wgs用全基因組霰彈法獲得的基因組序列env_nt環(huán)境樣品的核酸序列NCBI常用BLAST數(shù)據(jù)庫蛋白數(shù)據(jù)庫描述nr所有非冗余的GenBank編碼蛋白序列+RefSeq蛋白序列+PDB+SwissProt+PIR+PRFrefseq參考序列中的蛋白序列swissprot最新的swissprot數(shù)據(jù)庫序列pat專利序列pdb來自結(jié)構(gòu)數(shù)據(jù)庫的蛋白序列env_nt環(huán)境樣品的蛋白序列步驟4:選擇合適的參數(shù)設(shè)置結(jié)果輸出顯示數(shù)目設(shè)置E值上限設(shè)定字長設(shè)置匹配或錯(cuò)配得分設(shè)置空位罰分一些過濾選項(xiàng),包括簡單重復(fù)序列,基因組中的重復(fù)序列等高分值低E值BLAST算法創(chuàng)建檢索詞表搜索數(shù)據(jù)庫匹配字段延伸BLAST算法——?jiǎng)?chuàng)建檢索詞表GTACTGGACATGGACCCTACAGGAA檢索序列:GTACTGGACATTACTGGACATGACTGGACATGGCTGGACATGGATGGACATGGACGGACATGGACCGACATGGACCCACATGGACCCT...........字長(WordSize)=11最小字長=7blastn默認(rèn)=11megablast默認(rèn)=28BLAST算法——?jiǎng)?chuàng)建檢索詞表PQGQRLVNLFYNIATRRKALKN檢索序列:PQGQGQGQRQRLRLVLVNVNLNLF...WordSize=3字長可以為2或3(默認(rèn)=3)鄰近字串(Neighborhood

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論