BLOSUM矩陣和其在生物信息學(xué)中的應(yīng)用_第1頁
BLOSUM矩陣和其在生物信息學(xué)中的應(yīng)用_第2頁
BLOSUM矩陣和其在生物信息學(xué)中的應(yīng)用_第3頁
BLOSUM矩陣和其在生物信息學(xué)中的應(yīng)用_第4頁
BLOSUM矩陣和其在生物信息學(xué)中的應(yīng)用_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、生工0902BLOSUM矩陣及其在生物信息學(xué)中的使用生物信息學(xué)齊陽,汪惜,袁理2011/11/252011/11/25什么是BLOSUM矩陣?BLOSUM矩陣有什么使用?BLOSUM矩陣及其在生物信息學(xué)中的使用齊陽汪借袁理摘要BLOSUM矩陣是一種蛋白質(zhì)序列對比的算法,在生物信息學(xué)領(lǐng)域中被廣泛使用。本文綜述了BLOSUM矩陣的由來、如何構(gòu)建BLOSUME陣和其打分規(guī)則、使用以及現(xiàn)代算法。并指出了BLOSUM矩陣的發(fā)展前景。關(guān)鍵詞BLOSUM矩陣;生物信息學(xué);使用0引言序列比對是現(xiàn)代生物學(xué)最基本的研究方法之一,最常見的比對是蛋白質(zhì)序列之間或核酸序列之間的兩兩比對,通過比較兩個序列之間的相似區(qū)域和

2、保守性位點,尋找二者可能的分子進(jìn)化關(guān)系,進(jìn)而可以有效地分析和預(yù)測一些新發(fā)現(xiàn)基因的功能。目前各種蛋白質(zhì)序列對比算法主要利用一種替代矩陣來計算序列間的相似性,過去所普遍使用的Dayhoff矩陣只能用來進(jìn)行相似度85%以上的序列對比1,為了滿足大量生命科學(xué)研究的需求,1992年Henikoff夫婦從蛋白質(zhì)模塊數(shù)據(jù)庫BLOCKS中找出一組替代矩陣,即BLOSUM系列,很好的解決了序列的遠(yuǎn)距離相關(guān)的問題,此后十幾年來BLOSUM及其衍生替代矩陣已經(jīng)成為蛋白質(zhì)多序列對比的常用方法。1 BLOSUM矩陣概況序列比對是現(xiàn)代生物學(xué)最基本的研究方法之一,常見的比對是蛋白質(zhì)序列之間或核酸序列之間的兩兩比對,通過比較

3、兩個序列之間的相似區(qū)域和保守性位點,尋找二者可能的分子進(jìn)化關(guān)系,進(jìn)而可以有效地分析和預(yù)測一些新發(fā)現(xiàn)基因的功能。在比對兩個序列時, 不僅要考慮完全匹配的字符, 還要考慮一個序列中的空格或間隙 (或者,相反地,要考慮另一個序列中的插入部分)和不匹配,這兩個方面都可能意味著突變。在序列比對中,需要找到最優(yōu)的比對即將匹配的數(shù)量最大化,將空格和不匹配的數(shù)量最小化。為了確定最優(yōu)的比對,必須為每個比對進(jìn)行評估和打分,于是引入了打分函數(shù)3。當(dāng)根據(jù)打分函數(shù)假定兩序列同源時,可以發(fā)現(xiàn)某些替換比其它替換要常見的多,比較保守的替換比起較隨機(jī)替換更能維持蛋白質(zhì)的功能,而且不容易被淘汰。因此,在為比對打分時,更傾向為保守

4、基團(tuán)如丙氨酸、繳氨酸等比對位點多謝獎勵,而對于那些大而帶點氨基酸如賴氨酸的比對位點則相反。一旦和概算或氨基酸殘基可能的兩兩比對得分都確定了,那么得到的打分矩陣就可以用來為比對中每個非空位位點進(jìn)行評分。為了獲得打分矩陣,最常用的方法是統(tǒng)計自然界中各種氨基酸殘基的相互替換率。目前各種蛋白質(zhì)序列對比算法主要利用一種替代矩陣來計算序列間的相似性,過去所普遍使用的Dayhoff矩陣只能用來進(jìn)行相似度85%以上的序列對比1,為了滿足大量生命科學(xué)研究的需求,1992年Henikoff夫婦從蛋白質(zhì)模塊數(shù)據(jù)庫BLOCKS(Box1.BLOCKS基本概念)中找出一組替代矩陣,即BLOSUM系列,很好的解決了序列的

5、遠(yuǎn)距離相關(guān)的問題, 此后十幾年來BLOSUM及其衍生替代矩陣已經(jīng)成為蛋白質(zhì)多序列對比的常用方法。2 BLOSUM矩陣的構(gòu)建2.1多序列比對定義:一個多序列比對A是一個二維字符矩陣,即A=ani(nC1,N,iC1,I),其中ani=Sni或一,并且滿足下面三個條件:(1)序列的數(shù)目等于矩陣的行數(shù);(2)如果移去每行中的一字符,將得到原來的序列;(3)將不同序列間相同或相似的殘基放入同一列,即盡可能將序列間相同或相似殘基上下對齊5。從上面的定義可以看出,一個比對實際上是DNA或蛋白質(zhì)經(jīng)過一系列突變事件(替代、插入、刪除)的最后結(jié)果,它最近似地表示了所有的進(jìn)化過程。其中刪除和插入沒有區(qū)別,經(jīng)過適當(dāng)

6、地插入刪除(用insert,delete表示),可以使相同地保守殘基位于同一列上,并使所有的結(jié)果序列具有相同的長度。例如:VTISCTGSSSNIGAG-NHVKWYQQLPGVTISCTGTSSNIGS-ITVNWTQQLPGLRLSCSSSGFIFSS-YAMYWVRQAPGPEVTCVVVDVSHEDPQVKFNWYVDG2.2BLOSUM打分規(guī)則6BLOSUM中得分主要采用Log-odds得分, 即同源和非同源的可能性的比率的對數(shù)。在BLOSUM中兩個殘基i和j的得分s(a,b)按照log-odds方程計算,方程如下:s(a,b)=1log-(1)fafb其中,pab是指假定殘基對a和

7、b是同源的,在已有同源序列比對中出現(xiàn)的目標(biāo)頻率:fa,f是指假定殘基a和b是非同源的和獨立的,殘基a和b出現(xiàn)在任何一個蛋白質(zhì)氨基酸序列中的平均背景頻率:九是尺度參數(shù),每個得分四舍五人取整.如果殘基對a和b是同源的,則它們出現(xiàn)在同源序列比對中目標(biāo)頻率pabfafb,s(a,b)0.如果殘基對a和b是非同源的,則它們出現(xiàn)在同源序列比對中目標(biāo)頻率pabfafb,s(a,b)0.以相同氨基酸:色氨酸/色氨酸(w/w)比對得分和亮氨酸/亮氨酸(L/L)比對得分;不同氨基酸:丙氨酸/亮氨酸(A/L)比對得分和賴氨酸/谷氨酸(K/E)比對得分為例,介紹計算過程.1)色氨酸/色氨酸(W/W比對得分;在同源比對

8、數(shù)據(jù)庫中,測得pww=0.0065,fw=0-013,五=0.347,代入(1)得s(W/W=+10.5,取整得+11;2)亮氨酸/亮氨酸(L/L)比對得分;在同源比對數(shù)據(jù)庫中,測得pii=0.0371,fi=0.099,九=0.347,代入(1)得s(L/L)=+3.8,取整得+4;3)丙氨酸/亮氨酸(A/L)比對得分;在同源比對數(shù)據(jù)庫中,測得pAL=0.0044,fA=0.074,fL=0.099=0.347,代入(1)得s(K/E)=-1.47,取整得-1;4)賴氨酸/谷氨酸(K/E)比對得分;在同源比對數(shù)據(jù)庫中,測得pKE=0.0041,fk=0.058,fE=0.054,人=0.34

9、7,代入(1)得s(K/E)=+0.76,取整得+1;將BLOSUM-1矩陣和自身相乘,可以近似得到高階BLOSUM單位的替換率??梢愿鶕?jù)序列的長度以及序列間的先驗相似程度來選用特定的BLOSUM矩陣,低價BLOSUM矩陣更多是用來比較比較親緣較遠(yuǎn)的序列,一般來說,BLOSUM-62矩陣適于用來比較大約具有62%相似度的序列,而BLOSUM-80矩陣更適合于相似度為80流右的序列。 運用上述計算方法, 就可得到BLOSUM62,見Table1.Blosum62替代矩陣。3 BLOSUM矩陣的使用基于進(jìn)化原理的氨基酸保守性打分矩陣BLOSUM,原本是用于兩條多肽鏈比對時使用的,具起源于相同的氨基

10、酸模式之間氨基酸的保守性,即某種氨基酸對另一種氨基酸的取代數(shù)據(jù), 廣泛用于蛋白質(zhì)數(shù)據(jù)庫的搜索。最近BLOSUM被成功用于表面抗原分析、T細(xì)胞抗原決定簇預(yù)測7、氨基酸定點突變后蛋白質(zhì)的穩(wěn)定性等多種重要科學(xué)研究中,對于常用的數(shù)據(jù)集經(jīng)過嚴(yán)格的交叉驗證,人們已經(jīng)發(fā)現(xiàn)BLOSUM矩陣明顯優(yōu)于目前通常采用的理化特性打分方法和單位打分方法r8j0隨著后基因組時代的到來, 適和遠(yuǎn)親分析的BLOSUM一定可以有更大的用武之地,以解決生命科學(xué)中的諸多難題。3.1表面抗原分析為分析HBV的表面抗原,對兩個病人人群進(jìn)行跟蹤研究:一組是52位患病1年以上的慢性HBV感染攜帶者,另一組是129位新診斷的患者。獲得這180

11、名患者乙肝表面抗原的DNA序列然后和來自于基因庫的168個全長HBV序列比較序列一致性。乙肝病毒表面抗原親水區(qū)域的多態(tài)性用突變大師軟件來分析。 參考文獻(xiàn)和BLOSUM打分 9被用來分析潛在改變的抗原性。3.2 T細(xì)胞抗原決定簇預(yù)測為進(jìn)一步預(yù)測T細(xì)胞抗原決定簇的結(jié)構(gòu),HuangL和DaiY做了進(jìn)一步研究,將BLOSUM矩陣0和氨基酸指標(biāo)向量結(jié)合,在BLOSUM矩陣中代替了氨基酸指標(biāo)向量的每一個非零項,使相應(yīng)的值出現(xiàn)在對角線項,這種方法可以把氨基酸的位置和相似度用BLOSUM丁分的形式簡單表現(xiàn)出來。3.3磷酸化位點的預(yù)測磷酸化作用在多種真核細(xì)胞中具有重要的作用,例如有絲分裂、新陳代謝”以及信號傳導(dǎo)

12、10等。蛋白激酶在蛋白底物中催化特定的受體氨基酸,每一種激酶只催化它特定的底物子集。蛋白激酶的失活會導(dǎo)致疾病,因此了解特定蛋白激酶的磷酸化作用機(jī)制有重要意義。而利用實驗手段或質(zhì)譜分析中、縮氨酸微陣列12和特定磷蛋白質(zhì)水解13等方法分析磷酸化蛋白質(zhì)組都有很多缺陷,但有一種方法在磷酸化位點預(yù)測上有明顯優(yōu)勢-基于k鄰近的蛋白激酶特異性預(yù)測方法,此方法可以對不同激酶家族的磷酸化作用位點進(jìn)行標(biāo)注。由BLOSUM62打分矩陣得到的相似度函數(shù)作為系統(tǒng)的輸入向量。3.4蛋白質(zhì)定點突變穩(wěn)定性預(yù)測準(zhǔn)確率定點突變技術(shù)的潛在使用領(lǐng)域很廣,比如研究蛋白質(zhì)相互作用位點的結(jié)構(gòu)特性、酶學(xué)和酶工程中改造酶的不同活性或動力學(xué)特性

13、、改造啟動子或DNA相互作用元件、研究蛋白質(zhì)晶體結(jié)構(gòu),以及藥物研發(fā)、提高蛋白抗原性或穩(wěn)定性和活性等。何種程度的變異會影響野生型蛋白的穩(wěn)定性,以及突變后該蛋白質(zhì)穩(wěn)定性的改變,是設(shè)計蛋白質(zhì)或?qū)Φ鞍踪|(zhì)進(jìn)行點突變分析時的關(guān)鍵。但是實驗測定的精確方法需要昂貴的設(shè)備和較長的實驗時間,因此現(xiàn)在多使用生物信息學(xué)的方法。有人使用BLOSUM6頌測氨基酸定點突變后蛋白質(zhì)的穩(wěn)定性, 并對常用的數(shù)據(jù)集經(jīng)過嚴(yán)格的交叉驗證發(fā)現(xiàn)其明顯優(yōu)于目前通常采用的理化特性打分方法和單位打分法8。4 BLOSUM矩陣的挑戰(zhàn)和發(fā)展4.1 BLOSUM矩陣和PAM矩陣的比較(1)用于產(chǎn)生矩陣的蛋白質(zhì)家族及多肽鏈數(shù)目,BLOSUM比PAM大約

14、多20倍:(2)低價PAM矩陣適合用來比較親緣較近的序列, 而低價BLOSUM矩陣更多是用來比較親緣較遠(yuǎn)的序列。(3)在BLOSUM中,通過統(tǒng)計聚類技術(shù)來對相關(guān)蛋白質(zhì)的無空位比對進(jìn)行分類,并且計算類間的替換率。當(dāng)觀察某對氨基酸得到的替換率很低時就會帶來一些統(tǒng)計問題,而BLOSUM的方法正好能夠避免此類問題。4.2基于BLOSUM矩陣的一些現(xiàn)代算法由于BLOSUM打分矩陣的上述優(yōu)點,已被各種現(xiàn)代算法所利用,發(fā)揮不同領(lǐng)域的作用于功能。下面將介紹幾種使用BLOSUM打分矩陣最多的算法,對它們的優(yōu)缺點進(jìn)行簡單闡述。4.2.1動態(tài)規(guī)劃算法其指導(dǎo)思想就是在多級過程的每一級上列出各種可行的局部解。該方法由N

15、eedle-man和Wunsch于1970年提出,最初用于求兩個序列的最佳比對。對于兩兩全局序列比對情況,該方法的關(guān)鍵是設(shè)計一個二維矩陣,該矩陣的兩個軸就是要比對的兩個序列。Needleman-Wunsch算法可以直接用于三個序列的比對。多序列比對的積分是n個序列中兩兩進(jìn)行比對所得積分之和。對于N個序列的比對其運算時間呈指數(shù)增長,所以動態(tài)規(guī)劃算法不是很適用。4.2.2漸進(jìn)算法漸進(jìn)算法最早由Feng和Doolittle提出。 在算法中, 首先采用Needleman-Wunsch算法把需要比對的N個序列進(jìn)行彼此兩兩比對,其結(jié)果形成C;個實體,然后對這些實體排序,進(jìn)行全局比對。這種方法一般在質(zhì)量尤其

16、是計算速度、存儲空間及可比對的序列數(shù)目方面比動態(tài)規(guī)劃算法更優(yōu)良。在比對過程中遵循“一旦有一個空位,總有一個空位”的規(guī)則。漸進(jìn)算法實際上從歷史和進(jìn)化的觀點比對多個序列,準(zhǔn)確地反映了導(dǎo)致現(xiàn)代序列的一系列歧異進(jìn)化過程,并且可以直接用于構(gòu)造進(jìn)化樹,其缺點是不能保證比對的結(jié)果是數(shù)學(xué)上的最優(yōu)化比對。4.2.3隨機(jī)算法(1)遺傳算法遺傳算法使一類借鑒生物界的進(jìn)化規(guī)律(適者生存、 優(yōu)勝劣汰和遺傳學(xué)原理)演化來的全局意義上的自適應(yīng)隨機(jī)搜索方法。當(dāng)用遺傳算法進(jìn)行生物序列分析時,假設(shè)每一代包含固定數(shù)量的個體(在序列分析中表示優(yōu)化比對問題的一個可行解),這些個體用它們的適應(yīng)度來評價。那些具有較高適應(yīng)度的優(yōu)良個體更適合

17、于生存環(huán)境,將有很多的機(jī)會產(chǎn)生它們的后代,從而使優(yōu)良特性得以遺傳并強(qiáng)化。變異則模擬了生物進(jìn)化過程中的偶然殘基突變現(xiàn)象。對產(chǎn)生的新一代群體進(jìn)行重新評價、選擇、交叉、變異,如此循環(huán)往復(fù),使群體中的最優(yōu)個體的適應(yīng)度和平均適應(yīng)度不斷提高,直至最優(yōu)個體的適應(yīng)度和平均適應(yīng)度不斷提高,直至最優(yōu)個體的適應(yīng)度達(dá)到某一限定值或最優(yōu)個體的適應(yīng)度和群體的平均適應(yīng)度不再提高, 則迭代過程收斂,算法結(jié)束。在這種算法中,可以對各種變異、交叉和打分系統(tǒng)進(jìn)行設(shè)置。(2)模擬退火模擬退火算法的思想是Kirkpartick等人于1982年引入組合優(yōu)化領(lǐng)域, 其源于對固體退火過程的模擬。模擬退火算法采用Meteropolis接受準(zhǔn)則

18、,并用一組稱為冷卻進(jìn)度表的參數(shù)控制算法進(jìn)程,使算法在多項式時間內(nèi)給出一個近似最優(yōu)解。模擬退火方法是用于蛋白質(zhì)三維結(jié)構(gòu)比對的一種確定性方法。但是,作為一種多序列比對工具,它需要過長的計算時間,特別是當(dāng)比對的序列數(shù)目較大時更為明顯,所以只適于一些高性能的計算機(jī)。5總結(jié)BLOSUM打分矩陣自1992年由Henikoff夫婦提出至今已近二十年, 它的使用也從最初的多肽鏈比對,蛋白質(zhì)定點突變穩(wěn)定性預(yù)測擴(kuò)展到表面抗原分析,T細(xì)胞表面抗原決定簇預(yù)測,磷酸化位點預(yù)測等多方面。雖然有文章表示近年來已被當(dāng)做標(biāo)準(zhǔn)的BLOSUM打分矩陣并非完全正確且存在錯誤計算,但這沒有影響至UBLOSUM打分矩陣的使用,甚至從某種

19、程度上提升了其在搜索中的表現(xiàn)17。隨著后基因組時代的到來,適于遠(yuǎn)親分析的BLOSUM矩陣一定可以有更大的用武之地。參考文獻(xiàn)1StevenHenikoff,JorjaGHenikoff.AminoacidsubstitutionmatricesfromproteinblockJ.AtlasofProteinSequenceandStructure.1978,5(3):345-352.2ChantleR.Korostensky.AlgorithmsforBuildingMultipleSequenceAlignmentsandEvolutionaryTrees.DissertationSwissF

20、ederalInstituteofTechnology.20003孫嘯,陸祖宏,謝建明等譯.生物信息學(xué)概論.清華大學(xué)出版社.北京4http:/bioinformatics.weizmann.ac.il/blocks/about_blocks.html5徐麗,康瑞華.生物信息學(xué)中的多序列比對算法.中國水運(理論版).2006,4(6):118-119.6孟翔燕,孟軍,葛家麟.一種基于親疏水性的替代矩陣.數(shù)學(xué)的實驗和認(rèn)識.2009,39(7):105-112.7Roque-AfonsoAM,FereyMP,LyTD.Viralandclinicalfactorsassociatedwithsurf

21、acegenevariantsamonghepatitisBviruscarriers.AntivirTher.2007,12(8):1255-12638基于進(jìn)化信息改進(jìn)蛋白質(zhì)定點突變穩(wěn)定性預(yù)測準(zhǔn)確率,劉建國,劉建榮,劉明,閆蓬勃.生物物理學(xué)報.2009,25(5)。9NielsenM,LundegaardC,WorningP,etal.ReliablepredictionofT-cellepitopesusingneturalnetworksnovelsequencerepresentations.ProteinSci.2003,12:1007-1017.10LouYang,YaoJianhui,ZereshkiA,etal.NEK2AinteractswithMAD1andpossiblyfunctionsasanovelintegratorofthespindlecheckpointsignalingJ.JBiolChem.2004,279:20049-20057.11MeijerAJ,DubbelhuisPF.Aminoacidsignallingandthei

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論