生物信息學(xué)第五章多序列比對_第1頁
生物信息學(xué)第五章多序列比對_第2頁
生物信息學(xué)第五章多序列比對_第3頁
生物信息學(xué)第五章多序列比對_第4頁
生物信息學(xué)第五章多序列比對_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、第五章 多序列比對5.1 引言雙序列比對是序列分析的基礎(chǔ)。然而,對于構(gòu)成基因家族的成組的序列來說,我們要建立多個序列之間的關(guān)系,這樣才能揭示整個基因家族的特征。由于可以提高序列比對的信噪比,多序列比對在闡明一組相關(guān)序列的重要生物學(xué)模式方面起著相當重要的作用。本章中,我們將介紹一系列多序列比對的方法,從完全手動的方式到廣泛應(yīng)用的計算機程序,即所謂自動比對的方法。5.2 多序列比對的意義多序列比對有時用來區(qū)分一組序列之間的差異,但其主要用于描述一組序列之間的相似性關(guān)系,以便對一個基因家族的特征有一個簡明扼要的了解。與雙序列比對一樣,多序列比對的方法建立在某個數(shù)學(xué)或生物學(xué)模型之上。因此,正如我們不能

2、對雙序列比對的結(jié)果得出“正確或錯誤”的簡單結(jié)論一樣,多序列比對的結(jié)果也沒有絕對正確和絕對錯誤之分,而只能認為所使用的模型在多大程度上反映了序列之間的相似性關(guān)系以及它們的生物學(xué)特征。顯然,多序列比對需要使用許多專門的分析工具。除了一些已經(jīng)廣泛使用并仍在不但改進的多序列計算機程序外,還需要有一個開發(fā)方便實用的多序列比對手工編輯工具??梢詮亩鄠€不同角度出發(fā)構(gòu)建多序列比對模型。這里,主要指建立比對模型的生物學(xué)基礎(chǔ),而不僅是具體的比對方法,如自動比對或手動比對等。目前,構(gòu)建多序列比對模型的方法大體可以分為兩大類。第一類是基于氨基酸殘基的相似性,如物化性質(zhì)、殘基之間的可突變性等。另一類方法則主要利用蛋白質(zhì)

3、分子的二級結(jié)構(gòu)和三級結(jié)構(gòu)信息,也就是說根據(jù)序列的高級結(jié)構(gòu)特征確定比對結(jié)果。顯然,這兩種方法所得結(jié)果可能有很大差別。一般說來,很難斷定哪種方法所得結(jié)果一定正確,應(yīng)該說,它們從不同角度反映蛋白質(zhì)序列中所包含的生物學(xué)信息?;谛蛄行畔⒑突诮Y(jié)構(gòu)信息的比對都是非常重要的比對模型,但它們都有不可避免的局限性,因為這兩種方法都不能完全反映蛋白質(zhì)分子所攜帶的全部信息。我們知道,蛋白質(zhì)序列是經(jīng)過 DNA 序列轉(zhuǎn)錄翻譯得到的。從信息論的角度看,它應(yīng)該與 DNA 分子所攜帶的信息更為“接近”。而蛋白質(zhì)結(jié)構(gòu)除了序列本身帶來的信息外,還包括經(jīng)過翻譯后加工修飾所增加的結(jié)構(gòu)信息,包括殘基的修飾,分子間的相互作用等,最終形

4、成穩(wěn)定的天然蛋白質(zhì)結(jié)構(gòu)。因此,這也是對完全基于序列數(shù)據(jù)比對方法批評的主要原因。顯然,如果能夠利用結(jié)構(gòu)數(shù)據(jù),對于序列比對無疑有很大幫助。不幸的是,與大量的序列數(shù)據(jù)相比,實驗測得的蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)實在少得可憐。在大多數(shù)情況下,并沒有結(jié)構(gòu)數(shù)據(jù)可以利用,我們只能依靠序列的相似性和一些生物化學(xué)特性建立一個比較滿意的多序列比對模型。5.3 多序列比對的定義為了便于描述,我們對多序列比對過程給出下面的定義。把多序列比對看作一張二維表,表中每一行代表一個序列,每一列代表一個殘基的位置。將序列依照下列規(guī)則填入表中:(a)一個序列所有殘基的相對位置保持不變;(b)將不同序列間相同或相似的殘基放入同一列,即盡可能

5、將序列間相同或相似殘基上下對齊。我們稱比對前序列中殘基的位置為絕對位置。如序列的第 3 位的殘基是甘氨酸 G,則絕對位置3 就是甘氨酸,而不能變成任何其它氨基酸。相應(yīng)地,我們稱比對后序列中殘基的位置為相對位置。顯然,同一列中所有殘基的相對位置相同,而每個殘基的絕對位置不同,因為它們來自不同的序列。需要說明的是,絕對位置是序列本身固有的屬性,或者說是比對前的位置,而相對位置則是經(jīng)過比對后的位置,也就比對過程賦予它的屬性。5.4 調(diào)和序列多序列比對的最終結(jié)果可以用一個調(diào)和序列(consensus)表示,有時也稱假想序列(pseudo-sequence),通常加在比對后所有序列的下面。這一調(diào)和序列的

6、殘基是由對應(yīng)的同一列殘基歸納而得到。調(diào)和序列只是多序列比結(jié)果的一種表示方式。還可以用權(quán)重矩陣來表示比對結(jié)果,如下面將要介紹的序列譜方法。而 BLOCKS 數(shù)據(jù)庫則是找出比對結(jié)果中沒有空位出現(xiàn)的保守模塊),并把它們轉(zhuǎn)化成位置特異性分數(shù)矩陣。而 PRINTS 數(shù)據(jù)庫則用人工方法從比對結(jié)果中找出所有沒有空位的序列模體,其長度一般較短,并依此建立一個非加權(quán)的分數(shù)矩陣。這些方法在第 3 章和第 8 章中分別予以詳細討論。5.5 算法復(fù)雜性多序列比對的計算量相當可觀,因此有必要分析以下技術(shù)的復(fù)雜性。雙序列比對所需要的計算時間和內(nèi)存空間與這兩個序列的長度有關(guān),或者說正比于這兩個序列長度的乘積,用 O(m1m

7、2)表示。其中 m1、m2 是指兩條序列的長度。三序列比對則可以理解為將雙序列比對的兩維空間擴展到三維,即在原有二維平面上增加一條坐標軸。這樣算法復(fù)雜性就變成了 O(m1m2m3),其中 m3 表示第三條序列的長度。隨著序列數(shù)量的增加,算法復(fù)雜性也不斷增加。我們用 O(m1m2m3mn)表示對 n 個序列進行比對時的算法復(fù)雜性,其中 mn 是最后一條序列的長度。若序列長度相差不大,則可簡化成 O(mn),其中 n 表示序列的數(shù)目,m 表示序列的長度。顯然,隨著序列數(shù)量的增加,序列比對的算法復(fù)雜性按指數(shù)規(guī)律增長。降低算法復(fù)雜性,是研究多序列比對的一個重要方面。為此,產(chǎn)生了不少很有實用意義的多序列

8、比對算法。這些方法的特點是利用啟發(fā)式(heuristics)算法降低算法復(fù)雜性,以獲得一個較為滿意但并不一定是最優(yōu)的比對結(jié)果,用來找出子序列、構(gòu)建進化樹、查找保守序列或序列模板,以及進行聚類(clustering)分析等。有的算法將動態(tài)規(guī)劃和啟發(fā)性算法結(jié)合起來。例如,對所有的序列進行兩兩比對,將所有的序列與某個特定的序列進行比對,根據(jù)某種給定的親源樹進行分組比對,等等。必須指出,上述方法求得的結(jié)果通常不是最優(yōu)解,至少需要經(jīng)過 n-1 次雙序列比對,其中 n 為參與比對的序列個數(shù)。5.6 手工比對方法手工比對方法在文獻中經(jīng)常看到。因為難免加入一些主觀因素,手工比對通常被認為有很大的隨意性。其實,

9、即使用計算機程序進行自動比對,所得結(jié)果中的片面性也不能予以忽視。在運行經(jīng)過測試并具有比較高的可信度的計算機程序基礎(chǔ)上,結(jié)合實驗結(jié)果或文獻資料,對多序列比對結(jié)果進行手工修飾,應(yīng)該說是非常必要的。多序列比對的軟件已經(jīng)有許多,其中一些帶有編輯程序。最好的辦法是將自動比對程序和編輯器整合在一起。為了便于進行交互式手工比對,通常使用不同顏色表示具有不同特性的殘基,以幫助判別序列之間的相似性。顏色的選擇十分重要,如果使用不當,看起來不很直觀,就會使比對結(jié)果中一些有用的信息丟失。相反,如果選擇得當,就能從序列比對結(jié)果中迅速找到某些重要的結(jié)構(gòu)模式和功能位點。例如,如果用某種顏色表示一組高度保守的殘基,則某個序

10、列的某一位點發(fā)生突變時,則由于顏色不同,就可以很快找出。顏色的選擇可以根據(jù)主觀愿望和喜好,但最好和常規(guī)方法一致。用來構(gòu)筑三維模型的按時氨基酸殘基組件和三維分子圖形軟件所用的顏色分類方法,比較容易為大家接受(表 7.3)。表 5.3氨基酸分組方法和代表性顏色殘基種類Asp (D), Glu (E)His (H), Arg (R), Lys (K)Ser (S), Thr (T), Asn (N), Gln (Q)殘基特性酸性堿性極性顏色紅色蘭色綠色Ala (A), Val (V), Leu (L), Ile (I), Met (M)Phe (F), Tyr (Y), Trp (W)Pro (P)

11、, Gly (G)Cys (C)疏水性,帶支鏈疏水性,帶苯環(huán)側(cè)鏈結(jié)構(gòu)特殊能形成二硫鍵白色紫色棕色黃色* 表中采用的分組方法和用來區(qū)分不同組別的顏色與模型構(gòu)件和三維圖形軟件中所用方法一致多序列比對程序的另一個重要用途是定量估計序列間的關(guān)系,并由此推斷它們在進化中的親緣關(guān)系。可以通過計算完全匹配的殘基數(shù)目或計算完全匹配殘基和相似殘基的數(shù)目得到這種定量關(guān)系。這一方法除了可以大略了解序列間的親緣關(guān)系外,也可用來評估比對質(zhì)量。如果序列的相似性值低于預(yù)料值,那么有可能是序列間親緣關(guān)系較遠,也可能是比對中有錯誤之處。現(xiàn)有的軟件包用的基本上是可用鼠標點擊的窗口界面,其中序列編輯器位于窗口中央。這樣的軟件包將在

12、第十章中詳細介紹。在第 7.9 節(jié)中,我們將會看到,那些長度相仿且相似性程度較高的序列,采用自動比對方法將會得到相當滿意的結(jié)果;而當序列長度相差較大而相似性程度較低時,采用自動方法得出的結(jié)果則不很理想。此時,手工序列編輯器就接顯得十分有用。通過手工調(diào)整,可使結(jié)果變得接近實際。此外,采用多種不同的方法進行分析,再將結(jié)果綜合,是一種行之有效的方法。為更好地理解多序列比對的原理和規(guī)則,應(yīng)該盡可能學(xué)會手工比對的方法,并把比對結(jié)果與計算機自動比對得到的結(jié)果加以比較。5.7 同步法同步法實質(zhì)是把給定的所有序列同時進行比對,而不是兩兩比對或分組進行比對。其基本思想是將一個二維的動態(tài)規(guī)劃矩陣(見第 6 章)擴

13、展到三維或多維。矩陣的維數(shù)反映了參與比對的序列數(shù)。這類方法對于計算機的系統(tǒng)資源要求較高,通常是進行少量的較短的序列的比對。5.8 步進法這類方法中最常用的就是 Clustal,它是由 Feng 和 Doolittle 于 1987 年提出的(Feng 和Doolittle,1987)。由于對于實際的數(shù)據(jù)利用多維的動態(tài)規(guī)劃矩陣來進行序列的比對不太現(xiàn)實,因此大多數(shù)實用的多序列比對程序采用啟發(fā)式算法,以降低運算復(fù)雜度。Clustal 的基本思想是基于相似序列通常具有進化相關(guān)性這一假設(shè)。比對過程中,先對所有的序列進行兩兩比對并計算它們的相似性分數(shù)值,然后根據(jù)相似性分數(shù)值將它們分成若干組,并在每組之間進

14、行比對,計算相似性分數(shù)值。根據(jù)相似性分數(shù)值繼續(xù)分組比對,直到得到最終比對結(jié)果。比對過程中,相似性程度較高的序列先進行比對,而距離較遠的序列添加在后面。作為程序的一部分,Clusal 可以輸出用于構(gòu)建進化樹的數(shù)據(jù)。Clustal 程序有許多版本,ClustalW(Thompson 等,1994),根據(jù)對親緣關(guān)系較近的序列間空位情況,確定如何在親緣關(guān)系較遠的序列之間插入空位。同樣,相似性較高的序列比對結(jié)果中的殘基突變信息,可用于改變某個特殊位置空位罰分值的大小,推測該位點的序列變異性。Clustal 是免費軟件,很容易從互聯(lián)網(wǎng)上下載,和其它軟件一起,廣泛用于序列分析。Clustal 所支持的數(shù)據(jù)格

15、式包括 EMBL/SWISSPROT、NBRF/PIR、Pearson/FastA、GCG/MSF,以及 Clustal 本身定義的格式。它的輸出格式可以是 Clustal 格式,也可以是可用于 GDE、Phylip、GCG 等軟件的格式。圖 7.1 列出腎上腺素能糖蛋白偶連受體(G-protein copupled receptors,簡稱 GPCRs)序列比對部分結(jié)果。比對采用缺省參數(shù),輸出格式采用 GCG/MSF 格式。這些序列具有高度的相似性而且長度相仿,其結(jié)果十分理想。圖中可以明顯地看出有兩個空位插入?yún)^(qū)域,一個是由于兩個 A2AA 受體相對其它序列有 GPQ 和 GQQ 三個殘基的插

16、入造成(圖中上部分右側(cè));另一個是由兩個 A2AB 受體中的單個殘基插入造成(圖中下部右側(cè))。5.9 多序列比對的數(shù)據(jù)庫多序列比對的意義在于它能夠把不同種屬的相關(guān)序列的比對結(jié)果按照特定的格式輸出,并且在一定程度上反映它們之間的相似性。多序列比對結(jié)果所提供的信息對于提高數(shù)據(jù)庫搜索靈敏度也具有很大幫助。因此,方便實用的多序列比對數(shù)據(jù)庫也就應(yīng)運而生。目前,互聯(lián)網(wǎng)上可用的多序列比對數(shù)據(jù)庫已經(jīng)不少。其中一些利用計算機程序?qū)⒁淮螖?shù)據(jù)庫按家族分類;另外一些則是通過手工或自動方法根據(jù)基因家族構(gòu)建二次數(shù)據(jù)庫。關(guān)于這方面的內(nèi)容超出了本書范圍,難以一一詳述。然而,讀者應(yīng)該對這些多序列比對數(shù)據(jù)庫構(gòu)建的方法和它們的準確

17、程度有所了解。以上例子突出表明,Pfam 等采用疊代算法而未經(jīng)人工檢查的自動比對程序產(chǎn)生的結(jié)果可能導(dǎo)致難以預(yù)料的錯誤結(jié)果。因為每次疊代所產(chǎn)生的假陽性結(jié)果,會隨著疊代次數(shù)的增加而累加起來,導(dǎo)致出現(xiàn)越來越多的錯誤比對,最終導(dǎo)致難以區(qū)分由隨機序產(chǎn)生的匹配和親緣關(guān)系較遠的序列之間匹配的區(qū)別。綜上所述,搞清各種不同比對方法和所得結(jié)果之間的區(qū)別,顯然十分重要。比較圖 7.1和 7.2 的結(jié)果可以得知,對于具有較高相似性的一組序列之間的比對,自動比對方法是很有效的。一旦序列的親緣關(guān)系變得較遠,所得結(jié)果就不那么可信。而通過圖 7.2 和 7.3 的比較,我們可以看出,若要得到比較可靠而又具有明確生物學(xué)意義的比

18、對結(jié)果,比較有效的方法是對比對結(jié)果進行手工編輯和調(diào)整。這對于構(gòu)建二次數(shù)據(jù)庫是非常重要的信息。在選擇現(xiàn)有的序列模式或序列模體公開數(shù)據(jù)庫構(gòu)建自己的數(shù)據(jù)庫系統(tǒng)時,對這些現(xiàn)有數(shù)據(jù)庫的可靠性必須采取謹慎的態(tài)度。5.10 基于多序列比對的數(shù)據(jù)庫搜索第 6 章的最后部分,我們探討了利用雙序列比對進行數(shù)據(jù)庫搜索的各種方法。同樣,多序列比對也可以用于數(shù)據(jù)庫搜索。正如前面介紹的,由多序列比對的結(jié)果可以推斷用于描述基因家族的特征的序列模式,如正則表達式、序列譜,序列模塊、序列指紋圖譜以及隱馬氏模型等。有關(guān)蛋白質(zhì)序列模式二次數(shù)據(jù)庫的搜索和分析方法,將在第 8 章中詳細介紹。與基于雙序列比對的數(shù)據(jù)庫方法相比,基于多序列

19、比對的數(shù)據(jù)庫搜索整合入了更多的信息,使搜索結(jié)果更加靈敏,信噪比更高。它的缺點是所花費的時間更長,并且最終結(jié)果經(jīng)常更加不容易分析。一般說來,對檢測序列通常先進行基于雙序列比對的數(shù)據(jù)庫搜索。若搜索結(jié)果得到已知基因家族的某些信息,或沒有給出相似性程度較高的目標序列,則可嘗試基于多序列比對的數(shù)據(jù)庫搜索方案,其目的在于找出那些相似性程度較低而又有生物學(xué)意義的目標序列。5.10.1 位點特異性 BLAST 疊代搜索位點特異性 BLAST(Position-Specific Iterated BLAST,簡稱 PSI-BLAST)疊代搜索(Altschul 等,1997),是一種將雙序列比對和多序列比對結(jié)合

20、在一起的數(shù)據(jù)庫搜索方法。盡管以下事實已經(jīng)基本得到認同:基于序列模式的數(shù)據(jù)庫搜索靈敏度較高、特異性較好,因而可以發(fā)現(xiàn)一些距離較遠但卻具有生物學(xué)意義的相似序列;它的不足之處也不能予以忽視。除了需要大量的計算資源這一缺點外,對于搜索結(jié)果的分析解釋常常相當困難。這些制約因素限制了它的實際使用范圍。PSI-BLAST 的基本思路在于根據(jù)最初的搜索結(jié)果,依照預(yù)先定義的相似性閾值將序列分成不同的組,構(gòu)建一個位點特異性的序列譜,并通過多次疊代不斷改進這一序列譜以提高搜索的靈敏度。和其它疊代算法一樣,PSI-BLAS 方法既有不少長處,也有它的弊病。例如,如果在比對前不把膠原蛋白、同源多聚體等低復(fù)雜度的重復(fù)序列

21、屏蔽掉,自動疊代搜索過程會因為這些重復(fù)序列的干擾而失?。℉olm,1998)。假如第一輪的搜索結(jié)果出現(xiàn)一個錯誤序列,那么最終搜索結(jié)果中將會出現(xiàn)許多不期望的無關(guān)序列(見 7.9 節(jié))。因此,為了盡量去除大量的錯誤匹配,仔細分析搜索結(jié)果給出的同源關(guān)系變得非常重要。第六章和第七章中,我們介紹了有關(guān)雙序列和多序列比對的方法,也指出了由于輕信自動比對方法而可能產(chǎn)生的錯誤。下一章將詳細介紹如何利用多序列比對的產(chǎn)生的信息來描述基因家族的特性,并繼續(xù)探討手工方法和自動方法的優(yōu)劣性。5.11 本章小結(jié)對一個基因家族成組序列的分析需要高清該基因家族不同成員之間的關(guān)系。多序列分析可用來揭示基因家族的保守性。與雙序列

22、比對一樣,多序列比對基于某個模型。比對結(jié)果沒有絕對正確或絕對錯誤之分,而只能說比對模型是否可以比較準確地反映了生物數(shù)據(jù)的特性。基于序列和基于結(jié)構(gòu)的序列比對模型都不夠完善,因為兩者都不能完全反映所有層次的生物學(xué)信息。這兩種方法各自有一定的應(yīng)用范圍,兩者都非萬應(yīng)靈藥。多序列比對可以看作一張二維表,表中每一行代表一個序列,每一列代表一個殘基的位置。比對前殘基在序列中的位置為絕對位置, 而比對后殘基在序列中的位置稱相對位置。多序列比對所需要的時間隨序列個數(shù)增加而指數(shù)增長。不少多序列比對程序采用啟發(fā)式算法以降低計算復(fù)雜性,并得到并非最優(yōu)但卻較好的結(jié)果。手動比對經(jīng)常被認為帶有主觀性,但計算機自動比對結(jié)果幾

23、乎都需要手工調(diào)整。序列編輯程序是必不可少的工具。對所有序列同時進行比對的計算量極大,因此只能用于不長的序列片段。步進式多序列比對方法根據(jù)親源樹的分支對序列兩兩比對。相似性程度高的先比對,相似性程度低的后加入。通過分析可能的進化關(guān)系,這種方法可以處理一定規(guī)模的數(shù)據(jù)量。從互聯(lián)網(wǎng)上可供使用的數(shù)據(jù)庫很多,其中有些由計算機程序自動產(chǎn)生,有的經(jīng)過人工處理。使用由程序自動比對產(chǎn)生的數(shù)據(jù)庫時應(yīng)注意,特別是當序列的相似性程度較低的情況下更需謹慎,因為這些比對結(jié)果中有大量的空位插入,甚至可能誤配?;诙嘈蛄斜葘Φ臄?shù)據(jù)庫搜索程序正在不斷開發(fā)。PSI-BLAST 是將雙序列比對和多序列比對結(jié)合在一起的疊代式數(shù)據(jù)庫搜索程序。盡管它的運行速度較快,但卻有疊代本身固有的缺點,有時會得不到好的結(jié)果。5.12 進一步閱讀指南Altschul SF, Madden TL, Schaffer AA, Zhang

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論